Deepfake: quando a fraude corporativa ganha rosto e voz

Durante décadas, a regra de ouro contra fraudes corporativas coube em uma frase: na dúvida, confirme com a pessoa. Ouvir a voz do chefe ao telefone ou ver o rosto do diretor na tela da videoconferência era o ponto final de qualquer desconfiança, a prova de autenticidade que nenhum e-mail falso conseguia forjar. O deepfake quebrou exatamente essa âncora. A tecnologia que clona voz e imagem com fidelidade transformou o reconhecimento humano, até então a camada mais confiável da verificação, na nova porta de entrada do golpe.

E a virada já tem escala documentada. Os golpes com deepfake e identidade sintética cresceram 126% no Brasil em 2025, segundo levantamento da plataforma de verificação de identidade Sumsub, colocando o país entre os principais alvos desse tipo de fraude na América Latina.

Por que o deepfake redefine a engenharia social

O deepfake redefiniu a engenharia social porque ataca o instinto mais básico de confiança do ser humano: acreditar no que se vê e no que se ouve. Durante décadas, a fraude corporativa dependeu de texto, e o texto sempre deixou margem para desconfiança, seja por um endereço de remetente estranho, seja por um erro de escrita. A síntese de voz e vídeo elimina essa margem. Quando o colaborador reconhece o timbre do chefe ao telefone ou enxerga o rosto do diretor em uma reunião virtual, a verificação mental se encerra ali, e é exatamente nesse ponto que o golpe se instala.

A barreira de entrada para o crime, por sua vez, praticamente desapareceu. Pesquisas da Microsoft demonstraram que três segundos de áudio bastam para clonar uma voz com alta fidelidade, e gravações de executivos estão disponíveis em abundância em entrevistas, webinars e vídeos institucionais. Um teste conduzido pela Consumer Reports em março de 2025 com seis plataformas comerciais de clonagem de voz revelou que quatro delas falharam em impedir o uso não consensual da tecnologia. Na dark web, a produção de material audiovisual falsificado já é vendida como serviço, com preços cada vez menores, conforme alertas publicados pela Kaspersky.

O resultado é uma curva de crescimento que nenhum outro vetor de fraude apresenta hoje. O número de incidentes registrados com deepfake saltou de 150 em todo o ano de 2024 para 580 somente no primeiro semestre de 2025, segundo estudo da Surfshark, que calcula perdas acumuladas de US$ 2,19 bilhões com esse tipo de golpe, sendo US$ 1,65 bilhão concentrado em 2025. Na mesma direção, o Identity Theft Resource Center registrou alta de 148% nos golpes de personificação impulsionados por IA entre abril de 2024 e março de 2025. A fraude com rosto e voz deixou de ser experimento e virou indústria.

Como os golpes com deepfake chegam às empresas

O ataque típico contra empresas combina o velho e o novo: começa com uma mensagem de phishing e termina com um deepfake que derruba a última barreira de desconfiança. O caso mais emblemático ocorreu em Hong Kong, quando um analista financeiro de uma multinacional de engenharia recebeu um e-mail suspeito em nome do diretor financeiro e, em seguida, foi convidado para uma videoconferência com colegas e superiores. Todos os participantes da chamada, exceto a vítima, eram recriações digitais geradas a partir de vídeos e áudios públicos. Convencido pela presença dos rostos conhecidos, o profissional autorizou 15 transferências que somaram US$ 25 milhões.

Nem toda tentativa termina em prejuízo, e as diferenças entre os desfechos são reveladoras. Em julho de 2024, criminosos clonaram a voz do principal executivo de uma fabricante italiana de carros esportivos de luxo para pressionar a liberação de uma transferência sigilosa, e a fraude só ruiu quando um diretor fez uma pergunta cuja resposta apenas o verdadeiro executivo conheceria. Um dos maiores grupos de publicidade do mundo enfrentou armadilha semelhante, com uma reunião virtual falsa convocada em nome do seu presidente, e o golpe foi bloqueado porque a equipe havia sido treinada para reconhecer sinais de manipulação. Nos dois episódios, a tecnologia criminosa era sofisticada, mas o processo e o preparo das pessoas decidiram o resultado.

Os alvos também se diversificaram para além da transferência bancária. Recrutadores já entrevistam candidatos sintéticos criados para obter acesso a sistemas internos, centrais de atendimento recebem chamadas com vozes clonadas de clientes para trocar senhas e capturar contas, e processos de abertura de conta enfrentam rostos gerados por IA para burlar a validação de identidade. Qualquer fluxo de negócio que dependa de reconhecer uma pessoa por voz ou imagem se tornou superfície de ataque.

O contexto brasileiro amplia a urgência. A Serasa Experian contabilizou 6,9 milhões de tentativas de fraude no primeiro semestre de 2025, uma a cada 2,3 segundos, e a clonagem de voz vem se somando aos golpes aplicados por WhatsApp contra áreas financeiras, nos quais a agilidade do Pix encurta o tempo entre o engano e a perda definitiva do dinheiro. Para o criminoso, o deepfake funciona como um acelerador: a mesma fraude de sempre, agora com uma camada de autenticidade que desarma a vítima.

Por que os controles tradicionais falham diante do deepfake

Os controles tradicionais falham porque foram desenhados para inspecionar canais, não pessoas. O gateway de e-mail analisa remetentes, links e anexos, o antivírus examina arquivos, o firewall filtra conexões. Uma chamada de vídeo no aplicativo corporativo ou uma ligação telefônica não passa por nenhum desses filtros, e é justamente por esses caminhos que a falsificação audiovisual entra. O golpe com deepfake raramente contém malware: a arma é a própria conversa.

Há ainda o fator psicológico, que a tecnologia apenas potencializa. Os golpes bem-sucedidos exploram hierarquia, urgência e sigilo, com pedidos que chegam fora do horário, invocam operações confidenciais e desencorajam a consulta a colegas. Sob essa pressão, o colaborador que reconhece a voz do superior tende a obedecer, não a duvidar. O deepfake não precisa ser perfeito por horas, precisa ser convincente pelos poucos minutos que separam o pedido da aprovação.

A detecção automatizada, por fim, ainda corre atrás da síntese. Ferramentas que analisam artefatos de vídeo e padrões de voz evoluem, mas a qualidade da geração avança em ritmo igual ou superior, e um sinal de videoconferência comprimido dificulta a análise em tempo real. Apostar em um único ponto de detecção, humano ou tecnológico, é repetir o erro que o invasor espera. A defesa eficaz contra o deepfake precisa assumir que a falsificação passará pelo primeiro filtro.

Como proteger a empresa contra fraudes com deepfake

A proteção mais eficaz contra o deepfake está no processo, não na capacidade individual de perceber a falsificação. Toda solicitação sensível, como transferências, alterações de dados bancários de fornecedores e concessões de acesso, deve exigir verificação fora do canal em que o pedido chegou: se a ordem veio por videoconferência, a confirmação ocorre por ligação a um número oficial previamente cadastrado, nunca pelo contato informado na própria conversa. Dupla aprovação para valores acima de limites definidos e palavras-código combinadas entre executivos e equipes financeiras acrescentam camadas que nenhuma clonagem de voz consegue reproduzir.

A tecnologia complementa o desenho do processo. Autenticação multifator resistente a phishing protege as contas de e-mail e colaboração que costumam servir de porta de entrada para o golpe, enquanto o monitoramento contínuo do ambiente identifica acessos anômalos e tentativas de comprometimento de identidade que costumam preceder a fraude. Ferramentas de detecção de mídia sintética podem compor o arsenal como camada adicional, desde que tratadas como apoio, e não como veredito. Políticas de exposição também ajudam: quanto menos áudio e vídeo de executivos circulam sem necessidade, menor a matéria-prima disponível para a produção de um deepfake convincente.

Nada disso se sustenta, porém, sem preparo humano contínuo. O treinamento de conscientização precisa evoluir junto com a ameaça e incluir simulações com deepfakes de áudio e vídeo, para que o colaborador experimente o golpe antes de enfrentá-lo de verdade. Os episódios corporativos recentes mostram o padrão com clareza: as empresas que bloquearam as tentativas tinham equipes treinadas para desconfiar do próprio chefe quando o pedido fugia do procedimento. Essa postura só floresce em uma cultura na qual questionar uma ordem estranha é conduta valorizada, e jamais motivo de punição.

A governança fecha o ciclo. Um playbook de resposta específico para fraude de identidade sintética, com papéis definidos, canais de comunicação com bancos e prazos de acionamento, reduz drasticamente o dano quando a tentativa acontece. Assim como se ensaia a recuperação de um ransomware, é preciso ensaiar a reação ao telefonema falso do presidente.

O elo humano decide o desfecho

A história recente da fraude com deepfake aponta uma conclusão incômoda para quem ainda trata segurança como assunto exclusivamente tecnológico: nos casos de maior repercussão, o que separou o prejuízo milionário do golpe frustrado não foi a ferramenta de detecção, foi a existência de um processo de verificação e de pessoas preparadas para sustentá-lo sob pressão. O investimento em conscientização deixou de ser complemento e passou a ser o controle que decide o desfecho.

A Solo Iron apoia empresas nessa frente com o Iron Human Firewall, programa que transforma colaboradores em uma linha ativa de defesa por meio de conscientização contínua, simulações realistas e medição de maturidade, preparando as equipes para as variações mais sofisticadas da engenharia social, incluindo as que chegam com rosto e voz conhecidos. Quando a próxima chamada urgente do seu diretor financeiro chegar, a pergunta que importa é uma só: o que vai responder por sua empresa, o instinto de obedecer ou o processo de verificar?