Categorias

O golpe que usou deep fake de voz para roubar quase um milhão de reais

Em Março desse ano, o CEO de uma empresa de energia não-identificada no Reino Unido recebeu uma ligação do CEO da empresa-mãe, localizada na Alemanha. Através da ligação, o chefe solicitava a transferência imediata de fundos para a conta de um fornecedor na Hungria.  Atendendo à ordem, o CEO britânico autorizou o depósito de €220,000 (quase um milhão de reais no câmbio atual) na conta bancária do outro lado da Europa.

Entretanto, era tudo um golpe. Um sofisticado e até então inédito esquema de fraude envolvendo o deep fake da voz de seu superior. O CEO da Alemanha nunca fez ligação alguma. O tempo todo, a vítima estava conversando com um assistente de voz programado para enganar.

Os detalhes da operação assim como os nomes dos envolvidos estão sendo mantidos sob sigilo enquanto o caso é investigado. Até o momento, seis meses depois, nenhum suspeito foi descoberto e tudo indica um crime perfeito. O dinheiro foi transferido quase que instantaneamente para uma conta bancária no México e, logo em seguida, movido para diversas outras locações, sem deixar rastros que levassem aos culpados.

A empresa de seguros Euler Hermes Group SA, responsável por cobrir o rombo inesperado, compartilhou o fato com o Wall Street Journal, no intuito de alertar sobre a sofisticação do golpe e os riscos da simulação de voz em ataques de engenharia social. De acordo com a empresa de seguros e a polícia, há a convicção de que o golpe foi realizado através de ferramentas de simulação de voz disponíveis legalmente no mercado.

O CEO britânico que autorizou a transferência declarou que ele não estranhou em momento algum a voz do suposto CEO alemão. Segundo ele, a voz ao telefone tinha o mesmo sotaque e a mesma “melodia” do executivo real, com quem ele já tinha conversado anteriormente.

O golpe poderia ter sido maior, uma vez que os criminosos tentaram realizar novas transferências usando o mesmo esquema, alegando estorno da quantia inicial. Entretanto, a reincidência das solicitações e um novo número utilizado, localizado na Áustria, levantaram suspeitas sobre as operações.

A ameaça do futuro…

Para a maioria dos especialistas de segurança era apenas uma questão de tempo para esse tipo de fraude acontecer. A tecnologia de imitação de voz, antes restrita a laboratórios de pesquisa, passou a se tornar uma novidade em manchetes de entretenimento mas agora está no limiar de se tornar mais uma ferramenta de engenharia social.

Nas palavras de Jake Moore, especialista em segurança eletrônica da ESET:

Prevejo que veremos um grande aumento de crimes cibernéticos por aprendizado de máquina em um futuro próximo. Já vimos  Deep Fakes imitarem celebridades e figuras públicas em formato de vídeo, mas estas demoraram cerca de 17 horas de filmagem para serem convincentes. Ser capaz de falsificar vozes leva menos gravações para produzir. À medida que o poder da computação aumenta, começamos a ver isso se tornando ainda mais fácil de criar, o que mostra uma imagem assustadora à frente.

Entretanto, Moore explica que os recursos para frear esse avanço já existem e uma política de segurança mínima poderia ter evitado esse incidente:

Para reduzir riscos, é imperativo não apenas conscientizar as pessoas de que essas imitações são possíveis agora, mas também incluir técnicas de verificação antes que qualquer dinheiro seja transferido. A autenticação de dois fatores é outra técnica poderosa, barata e simples que adiciona uma camada extra de segurança para proteger seu dinheiro entrando em uma conta não autorizada. Ao ser chamado sobre uma transferência de dinheiro, particularmente de grandes somas, verifique o número que está chamando e peça para ligar novamente. Faça isso usando um número no catálogo de endereços, em vez de pressionar a tecla ‘ligar de volta’ no seu histórico de chamadas.

Matt Aldridge, Arquiteto de soluções sênior da Webroot, se junta ao alerta:

Um futuro de desconfiança generalizada está chegando. Podemos pensar que estamos tendo uma vídeo chamada com um colega próximo ou um ente querido, mas a outra parte é na verdade um impostor. Precisamos começar a nos preparar para isso agora e entender como podemos garantir que nossas comunicações sejam reais e seguras.

… já está aqui

Em Maio desse ano, dois meses depois da fraude realizada no Reino Unido, a empresa de software de simulação de voz Dessa celebrou a mais perfeita imitação já atingida pelo seu grupo de engenheiros. O perturbador incidente criminoso ainda não tinha vindo à público e a tecnologia parecia inofensiva, um brinquedo que permitia gravar e recriar a voz de um famoso locutor de podcast com similitude impressionante.

No estudo de caso apresentado, a Dessa revelava que tinha conseguido reproduzir a voz de Joe Rogan a um nível que era capaz de confundir até mesmo ouvintes de longa data de seus programas. Confira:

O produto se chama RealTalk e basta digitar o texto desejado para que o programa reproduza a voz de outra pessoa, falando o que foi escrito. Não deixa de ser extraordinário, entretanto, mesmo em meio à comemoração de sua conquista, a Dessa já questionava as implicações sociais da tecnologia.

As implicações afetarão a todos. Consumidores pobres e ricos. Empresas e governos. No momento, são necessários conhecimentos técnicos, engenhosidade, poder de computação e dados para fazer com que modelos como o RealTalk tenham um bom desempenho. Portanto, ninguém pode sair e fazê-lo. Mas nos próximos anos (ou mais cedo), veremos a tecnologia avançar até o ponto em que são necessários apenas alguns segundos de áudio para criar uma réplica realista da voz de qualquer pessoa no planeta.

A própria empresa resume muito bem o que isso significa: “é assustador pra c***”.

Se essa tecnologia cair em mãos erradas, como alertam seus engenheiros, seria possível:

  • Falsificar a voz de sua mãe ou cônjuge para obter informações pessoais.
  • Fingir ser alguém com a finalidade de assédio moral ou bullying.
  • Obter acesso em áreas de alta segurança com a representação de um funcionário do governo.
  • Manipular os resultados das eleições ou causar uma revolta social simulando a voz de um político.

Por último, a Dessa reforça o alerta:

Não pretendemos ter todas as respostas sobre como construir essa tecnologia eticamente. Dito isto, acreditamos que será inevitavelmente construído e cada vez mais implementado em nosso mundo nos próximos anos.

(…) Para aqueles que leem, incentivamos você a lembrar que a síntese da fala está ficando cada vez melhor a cada dia. No horizonte, não é estranho acreditar que as implicações que mencionamos (e claro, muitas mais) em breve entrarão no tecido da sociedade.

Mal sabiam que a Caixa de Pandora já havia sido aberta dois meses antes… Entretanto, essa não será a última vez em que o aprendizado de máquina e os Deep Fakes farão parte das páginas policiais. O aviso está no ar.