El sistema de software de video sincroniza los labios con otros idiomas

Mar 11 2020
Una nueva tecnología de traducción de video no solo convierte el habla a otro idioma, sino que también hace que los labios del orador se muevan con precisión en ese idioma.
Si bien los sistemas de traducción actuales solo pueden generar una salida de voz traducida o subtítulos de texto para contenido de video, el protocolo de traducción automática cara a cara puede sincronizar lo visual, de modo que el estilo de voz y el movimiento de los labios coincidan con el idioma de destino. Prajwal Renukanand

Un equipo de investigadores en la India ha ideado un sistema para traducir palabras a un idioma diferente y hacer que parezca que los labios del hablante se mueven en sincronía con ese idioma.

La traducción automática cara a cara, como se describe en este documento de octubre de 2019 , es un avance sobre la traducción de texto a texto o de voz a voz, porque no solo traduce el habla , sino que también proporciona una imagen facial sincronizada con los labios.

Para comprender cómo funciona esto, vea el video de demostración a continuación, creado por los investigadores. En la marca de las 6:38, verá un videoclip de la difunta princesa Diana en una entrevista de 1995 con el periodista Martin Bashir, explicando: "Me gustaría ser la reina del corazón de la gente, en el corazón de la gente, pero no No me veo siendo una reina de este país.

Un momento después, la verá pronunciando la misma cita en hindi, moviendo los labios, como si realmente hablara ese idioma .

"Comunicarse de manera efectiva a través de las barreras del idioma siempre ha sido una gran aspiración para los humanos de todo el mundo" , explica por correo electrónico Prajwal KR, estudiante graduado en informática en el Instituto Internacional de Tecnología de la Información en Hyderabad, India. Es el autor principal del artículo, junto con su colega Rudrabha Mukhopadhyay.

"Hoy, Internet está lleno de videos de caras parlantes: YouTube (300 horas cargadas por día), conferencias en línea, videoconferencias, películas, programas de televisión, etc.", escribe Prajwal, quien usa su nombre de pila. "Los sistemas de traducción actuales solo pueden generar una salida de voz traducida o subtítulos textuales para dicho contenido de video. No manejan el componente visual. Como resultado, el discurso traducido cuando se superpone al video, los movimientos de los labios no estarían sincronizados con el audio.

"Por lo tanto, nos basamos en los sistemas de traducción de voz a voz y proponemos un canal que puede tomar un video de una persona que habla en un idioma de origen y generar un video del mismo hablante hablando en un idioma de destino, de modo que el estilo de voz y los movimientos de los labios coinciden con el habla del idioma de destino", dice Prajwal. "Al hacerlo, el sistema de traducción se vuelve holístico y, como lo demuestran nuestras evaluaciones humanas en este documento, mejora significativamente la experiencia del usuario al crear y consumir contenido audiovisual traducido".

La traducción cara a cara requiere una serie de hazañas complejas. "Dado un video de una persona hablando, tenemos dos flujos de información principales para traducir: la información visual y la del habla", explica. Logran esto en varios pasos importantes. “El sistema primero transcribe las oraciones en el habla usando el reconocimiento automático de voz (ASR). Esta es la misma tecnología que se usa en los asistentes de voz (Google Assistant, por ejemplo) en los dispositivos móviles”. A continuación, las oraciones transcritas se traducen al idioma deseado utilizando modelos de traducción automática neuronal, y luego la traducción se convierte en palabras habladas con un sintetizador de texto a voz, la misma tecnología que usan los asistentes digitales.

Finalmente, una tecnología llamada LipGAN corrige los movimientos de los labios en el video original para que coincidan con el discurso traducido.

Cómo pasa el habla desde la entrada inicial hasta la salida sincronizada.

"Por lo tanto, también obtenemos un video completamente traducido con sincronización de labios", explica Prajwal.

"LipGAN es la contribución novedosa clave de nuestro artículo. Esto es lo que trae la modalidad visual a la imagen. Es más importante ya que corrige la sincronización de los labios en el video final, lo que mejora significativamente la experiencia del usuario".

La intención no es el engaño, sino el intercambio de conocimientos

Un artículo , publicado el 24 de enero de 2020 en New Scientist, describió el avance como un "deepfake", un término para videos en los que las caras se han intercambiado o alterado digitalmente con la ayuda de inteligencia artificial, a menudo para crear una impresión engañosa, como esta historia de la BBC explicó. Pero Prajwal sostiene que esa es una representación incorrecta de la traducción cara a cara, que no pretende engañar, sino hacer que el discurso traducido sea más fácil de seguir.

"Nuestro trabajo está dirigido principalmente a ampliar el alcance de los sistemas de traducción existentes para manejar contenido de video", explica. "Este es un software creado con la motivación de mejorar la experiencia del usuario y romper las barreras del idioma en el contenido de video. Abre una amplia gama de aplicaciones y mejora la accesibilidad de millones de videos en línea".

El mayor desafío para hacer que la traducción cara a cara funcionara fue el módulo de generación de caras. "Los métodos actuales para crear videos de sincronización de labios no podían generar caras con las poses deseadas, lo que dificultaba pegar la cara generada en el video de destino", dice Prajwal. "Incorporamos una 'pose previa' como entrada a nuestro modelo LipGAN y, como resultado, podemos generar una cara precisa sincronizada con los labios en la pose de destino deseada que se puede combinar perfectamente con el video de destino".

Los investigadores prevén que la traducción cara a cara se utilice para traducir películas y videollamadas entre dos personas que hablan un idioma diferente. "Hacer que los personajes digitales en películas animadas canten/hablen también se demuestra en nuestro video", señala Prajwal.

Además, prevé que el sistema se utilice para ayudar a los estudiantes de todo el mundo a comprender videos de conferencias en línea en otros idiomas. "Millones de estudiantes de idiomas extranjeros en todo el mundo no pueden entender el excelente contenido educativo disponible en línea porque están en inglés", explica.

"Además, en un país como India con 22 idiomas oficiales, nuestro sistema puede, en el futuro, traducir contenido de noticias de televisión a diferentes idiomas locales con sincronización de labios precisa de los presentadores de noticias. Por lo tanto, la lista de aplicaciones se aplica a cualquier tipo de conversación cara al contenido de video, que debe hacerse más accesible en todos los idiomas".

Aunque Prajwal y sus colegas tienen la intención de que su avance se use de manera positiva, la capacidad de poner palabras extranjeras en la boca de un orador preocupa a un destacado experto en seguridad cibernética de EE. UU., quien teme que los videos alterados sean cada vez más difíciles de detectar.

"Si miras el video, puedes darte cuenta si miras de cerca, la boca está un poco borrosa", dice Anne Toomey McKenna , una académica distinguida de ciberderecho y política en Dickinson Law de la Universidad Estatal de Pensilvania , y profesora en el Instituto de la universidad. para Computational and Data Sciences , en una entrevista por correo electrónico. "Eso seguirá siendo minimizado a medida que los algoritmos continúen mejorando. Eso será cada vez menos perceptible para el ojo humano".

McKenna, por ejemplo, imagina cómo un video alterado de la comentarista de MSNBC Rachel Maddow podría usarse para influir en las elecciones en otros países, al "transmitir información que es inexacta y opuesta a lo que ella dijo".

Prajwal también está preocupado por el posible uso indebido de videos alterados, pero cree que se pueden desarrollar precauciones para protegerse contra tales escenarios, y que el potencial positivo para aumentar la comprensión internacional supera los riesgos de la traducción automática cara a cara. (En el lado positivo, esta publicación de blog prevé traducir el discurso de Greta Thunberg en la cumbre climática de la ONU en septiembre de 2019 a una variedad de idiomas diferentes que se usan en la India).

"Cada pieza poderosa de tecnología puede usarse para una gran cantidad de cosas buenas y también tener efectos nocivos", señala Prajwal. "Nuestro trabajo es, de hecho, un sistema de traducción que puede manejar contenido de video. El contenido traducido por un algoritmo definitivamente 'no es real', pero este contenido traducido es esencial para las personas que no entienden un idioma en particular. Además, en la actualidad etapa, dicho contenido traducido automáticamente es fácilmente reconocible por algoritmos y espectadores. Simultáneamente, se está llevando a cabo una investigación activa para reconocer dicho contenido alterado. Creemos que el esfuerzo colectivo del uso responsable, las regulaciones estrictas y los avances en la investigación para detectar el uso indebido pueden garantizar un resultado positivo. futuro de esta tecnología".

Eso es cinemático

Según Language Insight , un estudio realizado por investigadores británicos determinó que la preferencia de los cinéfilos por películas extranjeras dobladas versus subtituladas afecta el tipo de película que les gusta. Aquellos a quienes les gustan los éxitos de taquilla convencionales tienen más probabilidades de ver una versión doblada de una película, mientras que aquellos que prefieren los subtítulos tienen más probabilidades de ser fanáticos de las importaciones de cine de autor.