Lembra da técnica que permitia criar falas de qualquer pessoa a partir de outros clipes de áudio? E se fosse possível combinar essa tecnologia com outra que gera vídeos falados a partir de áudios?
Pesquisadores da Universidade de Washington desenvolveram agora um sistema capaz de combinar áudio com movimentos da boca e criar um vídeo convincente de uma fala que não foi filmada.
Complicado? Imagine um discurso de rádio ou um depoimento gravado, mas sem imagens. Utilizando Inteligência Artificial, os pesquisadores conseguiram sincronizar esse áudio com uma filmagem da mesma pessoa falando, enquanto o algoritmo altera todos os movimentos labiais para dar a nítida impressão de que a pessoa foi filmada falando aquilo. O resultado pode mudar significativamente aquilo que consideramos verdade e abrir caminho para um novo conceito de “notícias falsas”… confira o vídeo:
No momento, a rede neural utilizada precisou analisar 17 horas de gravação de Barack Obama para compreender seus padrões de fala e conseguir sintetizar os movimentos de sua boca, mas os pesquisadores estão confiantes de que a tecnologia pode ser aperfeiçoada e que no futuro será necessário somente uma hora de filmagens de uma pessoa para se obter o mesmo nível de similaridade.
Os responsáveis pela tecnologia acreditam que ela pode ser empregada no futuro para uso doméstico, com o usuário gravando a si mesmo em um aplicativo de mensagens por exemplo e depois permitindo a geração da filmagem em tempo real, enquanto transmite apenas o áudio novo. Desta forma, seria possível burlar a perda de sinal de uma conexão limitada.
Sobre as possíveis implicações na criação de vídeos falsos ou golpes, os pesquisadores são mais reticentes. Eles reforçam que jamais utilizariam sua tecnologia para inserir falas adulteradas e gerar vídeos que possam provocar embaraço ou confusão, mas a porta estará definitivamente aberta e o futuro vai exigir muito bom senso por parte dos consumidores de mídia.