Uma equipe de pesquisadores na Índia desenvolveu um sistema para traduzir palavras em um idioma diferente e fazer parecer que os lábios de um falante estão se movendo em sincronia com esse idioma.
A tradução automática face a face, conforme descrito neste artigo de outubro de 2019 , é um avanço em relação à tradução de texto para texto ou fala para fala, porque não apenas traduz a fala , mas também fornece uma imagem facial com sincronização labial.
Para entender como isso funciona, confira o vídeo de demonstração abaixo, criado pelos pesquisadores. Na marca de 6:38, você verá um videoclipe da falecida princesa Diana em uma entrevista de 1995 com o jornalista Martin Bashir, explicando: "Eu gostaria de ser a rainha do coração das pessoas, no coração das pessoas, mas não não me vejo sendo uma rainha deste país."
Um momento depois, você a verá proferindo a mesma citação em hindi – com os lábios se movendo, como se ela realmente falasse essa língua .
"A comunicação eficaz através das barreiras linguísticas sempre foi uma grande aspiração para os seres humanos em todo o mundo", explica Prajwal KR, estudante de pós-graduação em ciência da computação do Instituto Internacional de Tecnologia da Informação em Hyderabad, Índia, por e-mail. Ele é o principal autor do artigo, junto com seu colega Rudrabha Mukhopadhyay.
"Hoje, a internet está cheia de vídeos de rostos falantes: YouTube (300 horas carregadas por dia), palestras online, videoconferências, filmes, programas de TV e assim por diante", escreve Prajwal, que atende pelo nome de batismo. "Os sistemas de tradução atuais só podem gerar uma saída de fala traduzida ou legendas textuais para esse conteúdo de vídeo. Eles não lidam com o componente visual. Como resultado, a fala traduzida quando sobreposta ao vídeo, os movimentos dos lábios estariam fora de sincronia com o áudio.
"Assim, desenvolvemos os sistemas de tradução de fala para fala e propomos um pipeline que pode gravar um vídeo de uma pessoa falando em um idioma de origem e produzir um vídeo do mesmo falante falando em um idioma de destino, de modo que o estilo de voz e os movimentos dos lábios correspondem ao discurso da língua-alvo", diz Prajwal. "Ao fazer isso, o sistema de tradução se torna holístico e, conforme demonstrado por nossas avaliações humanas neste documento, melhora significativamente a experiência do usuário na criação e consumo de conteúdo audiovisual traduzido."
A tradução cara a cara requer uma série de proezas complexas. "Dado um vídeo de uma pessoa falando, temos dois grandes fluxos de informação para traduzir: o visual e o de fala", explica ele. Eles fazem isso em várias etapas principais. "O sistema primeiro transcreve as frases na fala usando o reconhecimento automático de fala (ASR). Esta é a mesma tecnologia que é usada em assistentes de voz (Google Assistant, por exemplo) em dispositivos móveis." Em seguida, as frases transcritas são traduzidas para o idioma desejado usando modelos Neural Machine Translation e, em seguida, a tradução é convertida em palavras faladas com um sintetizador de texto para fala — a mesma tecnologia que os assistentes digitais usam.
Por fim, uma tecnologia chamada LipGAN corrige os movimentos dos lábios no vídeo original para corresponder ao discurso traduzido.
"Assim, obtemos um vídeo totalmente traduzido com sincronização labial também", explica Prajwal.
"LipGAN é a principal contribuição inovadora do nosso papel. É isso que traz a modalidade visual para a imagem. É mais importante porque corrige a sincronização labial no vídeo final, o que melhora significativamente a experiência do usuário."
A intenção não é enganar, mas compartilhar conhecimento
Um artigo , publicado em 24 de janeiro de 2020 na New Scientist, descreveu o avanço como um "deepfake", um termo para vídeos em que os rostos foram trocados ou alterados digitalmente com a ajuda de inteligência artificial, muitas vezes para criar uma impressão enganosa, como esta história da BBC explicada. Mas Prajwal sustenta que é um retrato incorreto da Tradução Cara a Cara, que não tem a intenção de enganar, mas sim de tornar o discurso traduzido mais fácil de seguir.
"Nosso trabalho visa principalmente a ampliação do escopo dos sistemas de tradução existentes para lidar com conteúdo de vídeo", explica ele. "Este é um software criado com a motivação de melhorar a experiência do usuário e quebrar as barreiras linguísticas no conteúdo de vídeo. Ele abre uma gama muito ampla de aplicativos e melhora a acessibilidade de milhões de vídeos online."
O maior desafio em fazer a tradução presencial foi o módulo de geração de rostos. "Os métodos atuais para criar vídeos de sincronização labial não eram capazes de gerar rostos com as poses desejadas, dificultando a colagem do rosto gerado no vídeo de destino", diz Prajwal. "Incorporamos uma 'pose anterior' como entrada para nosso modelo LipGAN e, como resultado, podemos gerar um rosto sincronizado com os lábios preciso na pose de destino desejada que pode ser perfeitamente mesclada ao vídeo de destino".
Os pesquisadores prevêem que a tradução face a face seja utilizada na tradução de filmes e videochamadas entre duas pessoas que falam um idioma diferente. "Fazer personagens digitais em filmes de animação cantarem/falarem também é demonstrado em nosso vídeo", observa Prajwal.
Além disso, ele prevê que o sistema seja usado para ajudar estudantes de todo o mundo a entender vídeos de palestras on-line em outros idiomas. "Milhões de estudantes de línguas estrangeiras em todo o mundo não conseguem entender o excelente conteúdo educacional disponível online, porque estão em inglês", explica ele.
"Além disso, em um país como a Índia, com 22 idiomas oficiais, nosso sistema pode, no futuro, traduzir conteúdo de notícias de TV para diferentes idiomas locais com sincronização labial precisa dos âncoras de notícias. A lista de aplicativos se aplica a qualquer tipo de conversa conteúdo de vídeo de rosto, que precisa ser mais acessível em todos os idiomas."
Embora Prajwal e seus colegas pretendam que seu avanço seja usado de maneira positiva, a capacidade de colocar palavras estrangeiras na boca de um orador preocupa um proeminente especialista em segurança cibernética dos EUA, que teme que vídeos alterados se tornem cada vez mais difíceis de detectar.
"Se você olhar para o vídeo, você pode dizer se você olhar de perto, a boca ficou um pouco embaçada", diz Anne Toomey McKenna , uma estudiosa de direito cibernético e política na Dickinson Law da Penn State University e professora do Instituto da universidade. for Computational and Data Sciences , em entrevista por e-mail. "Isso continuará a ser minimizado à medida que os algoritmos continuarem a melhorar. Isso se tornará cada vez menos perceptível ao olho humano".
McKenna, por exemplo, imagina como um vídeo alterado da comentarista da MSNBC Rachel Maddow pode ser usado para influenciar eleições em outros países, "retransmitindo informações imprecisas e opostas ao que ela disse".
Prajwal também está preocupado com o possível uso indevido de vídeos alterados, mas acha que precauções podem ser desenvolvidas para se proteger contra tais cenários e que o potencial positivo para aumentar o entendimento internacional supera os riscos da tradução automática cara a cara. (No lado benéfico, esta postagem do blog prevê a tradução do discurso de Greta Thunberg na cúpula climática da ONU em setembro de 2019 para uma variedade de idiomas diferentes usados na Índia.)
“Cada peça poderosa de tecnologia pode ser usada para uma quantidade enorme de bem e também ter efeitos negativos”, observa Prajwal. "Nosso trabalho é, na verdade, um sistema de tradução que pode lidar com conteúdo de vídeo. O conteúdo traduzido por um algoritmo definitivamente 'não é real', mas esse conteúdo traduzido é essencial para pessoas que não entendem um idioma específico. Nesse estágio, esse conteúdo traduzido automaticamente é facilmente reconhecível por algoritmos e espectadores. Simultaneamente, uma pesquisa ativa está sendo conduzida para reconhecer esse conteúdo alterado. Acreditamos que o esforço coletivo de uso responsável, regulamentações rígidas e avanços de pesquisa na detecção de uso indevido podem garantir um resultado positivo futuro para esta tecnologia."
Agora isso é cinematográfico
De acordo com a Language Insight , um estudo realizado por pesquisadores britânicos determinou que a preferência dos espectadores por filmes estrangeiros dublados versus legendados afeta o tipo de filme para o qual eles gravitam. Aqueles que gostam de grandes sucessos de bilheteria são mais propensos a ver uma versão dublada de um filme, enquanto aqueles que preferem legendas são mais propensos a serem fãs de importações de arte.