Система программного обеспечения для видео синхронизирует губы с другими языками

Mar 11 2020
Новая технология видеоперевода не только переводит речь на другой язык, но и заставляет губы говорящего точно двигаться на этом языке.
В то время как современные системы перевода могут генерировать только переведенный речевой вывод или текстовые субтитры для видеоконтента, протокол автоматического прямого перевода может синхронизировать визуальные эффекты, поэтому стиль голоса и движение губ соответствуют целевому языку. Праджвал Ренукананд

Группа исследователей из Индии разработала систему для перевода слов на другой язык и создания впечатления, что губы говорящего двигаются синхронно с этим языком.

Автоматический перевод лицом к лицу, как описано в этой статье за ​​октябрь 2019 года , представляет собой шаг вперед по сравнению с преобразованием текста в текст или преобразованием речи в речь, поскольку он не только переводит речь , но и обеспечивает синхронизированное изображение лица.

Чтобы понять, как это работает, посмотрите демонстрационное видео ниже, созданное исследователями. На отметке 6:38 вы увидите видеоклип покойной принцессы Дианы в интервью 1995 года журналисту Мартину Баширу, объясняющему: «Я хотела бы быть королевой людских сердец, в сердцах людей, но я не не вижу себя королевой этой страны».

Мгновение спустя вы увидите, как она произносит ту же цитату на хинди, двигая губами, как будто она действительно говорила на этом языке .

«Эффективное общение через языковые барьеры всегда было главной целью людей во всем мире» , — объясняет по электронной почте Праджвал К.Р., аспирант компьютерных наук в Международном институте информационных технологий в Хайдарабаде, Индия. Он является ведущим автором статьи вместе со своим коллегой Рудрабхой Мукхопадхьяем.

«Сегодня Интернет заполнен видео с говорящими лицами: YouTube (300 часов загрузки в день), онлайн-лекции, видеоконференции, фильмы, телешоу и так далее», — пишет Праджвал, выступающий под своим именем. «Существующие системы перевода могут генерировать только переведенный речевой вывод или текстовые субтитры для такого видеоконтента. Они не обрабатывают визуальную составляющую. В результате переведенная речь при наложении на видео, движения губ будут не синхронизированы с аудио.

«Таким образом, мы опираемся на системы преобразования речи в речь и предлагаем конвейер, который может снимать видео человека, говорящего на исходном языке, и выводить видео того же говорящего, говорящего на целевом языке, таким образом, чтобы стиль голоса и движения губ соответствуют речи на целевом языке», — говорит Праджвал. «Благодаря этому система перевода становится целостной и, как показывают наши человеческие оценки в этой статье, значительно улучшает пользовательский опыт при создании и использовании переведенного аудиовизуального контента».

Перевод «лицом к лицу» требует ряда сложных действий. «У нас есть видео с говорящим человеком, и у нас есть два основных потока информации для перевода: визуальная и речевая информация», — объясняет он. Они достигают этого в несколько основных шагов. «Система сначала расшифровывает предложения в речи, используя автоматическое распознавание речи (ASR). Это та же технология, которая используется в голосовых помощниках (например, Google Assistant) на мобильных устройствах». Затем расшифрованные предложения переводятся на нужный язык с использованием моделей нейронного машинного перевода, а затем перевод преобразуется в произносимые слова с помощью синтезатора речи — той же технологии, что и цифровые помощники.

Наконец, технология под названием LipGAN корректирует движения губ в исходном видео, чтобы они соответствовали переведенной речи.

Как речь переходит от начального ввода к синхронизированному выводу.

«Таким образом, мы получаем полностью переведенное видео с синхронизацией губ», — объясняет Праджвал.

«LipGAN — ключевой новый вклад нашей статьи. Это то, что привносит визуальную модальность в картину. Это наиболее важно, поскольку корректирует синхронизацию губ в финальном видео, что значительно улучшает взаимодействие с пользователем».

Намерение не обман, а обмен знаниями

В статье , опубликованной 24 января 2020 года в New Scientist, прорыв описывается как «дипфейк» — термин для видео, в которых лица были заменены местами или изменены в цифровом виде с помощью искусственного интеллекта, часто для создания вводящего в заблуждение впечатления, как объяснила эта история BBC . Но Праджвал утверждает, что это неправильное изображение перевода лицом к лицу, которое не предназначено для обмана, а скорее для того, чтобы облегчить понимание переведенной речи.

«Наша работа в первую очередь направлена ​​на расширение возможностей существующих систем перевода для обработки видеоконтента», — объясняет он. «Это программное обеспечение создано с целью улучшить взаимодействие с пользователем и разрушить языковые барьеры в отношении видеоконтента. Оно открывает очень широкий спектр приложений и повышает доступность миллионов видео в Интернете».

Самой большой проблемой при переводе лицом к лицу был модуль генерации лиц. «Существующие методы создания видео с синхронизацией губ не позволяли генерировать лица в нужных позах, что затрудняло вставку сгенерированного лица в целевое видео», — говорит Праджвал. «Мы включили «априорную позу» в качестве входных данных в нашу модель LipGAN, и в результате мы можем создать точное синхронизированное с губами лицо в желаемой целевой позе, которое можно плавно смешать с целевым видео».

Исследователи предполагают, что перевод лицом к лицу будет использоваться для перевода фильмов и видеозвонков между двумя людьми, говорящими на разных языках. «В нашем видео также продемонстрировано, как цифровые персонажи в анимационных фильмах поют/говорят», — отмечает Праджвал.

Кроме того, он предвидит, что система будет использоваться, чтобы помочь студентам по всему миру понимать онлайн-видео лекций на других языках. «Миллионы изучающих иностранные языки по всему миру не могут понять отличный образовательный контент, доступный в Интернете, потому что они на английском языке», — объясняет он.

«Кроме того, в такой стране, как Индия, с 22 официальными языками, наша система сможет в будущем переводить телевизионные новости на разные местные языки с точной синхронизацией губ ведущих новостей. сталкиваются с видеоконтентом, который необходимо сделать более доступным на разных языках».

Хотя Праджвал и его коллеги намерены использовать свое открытие в позитивных целях, способность вставлять иностранные слова в уста говорящего беспокоит одного видного американского эксперта по кибербезопасности, который опасается, что измененные видео станет все труднее обнаружить.

«Если вы посмотрите на видео, то, если присмотритесь, вы увидите, что рот немного размыт», — говорит Энн Туми МакКенна , заслуженный ученый в области киберправа и политики в юридическом институте Дикинсона Пенсильванского государственного университета и профессор Института университета . для вычислений и наук о данных , в интервью по электронной почте. «Это будет по-прежнему сведено к минимуму, поскольку алгоритмы продолжают улучшаться. Это будет становиться все менее и менее различимым для человеческого глаза».

Маккенна, например, представляет, как измененное видео комментатора MSNBC Рэйчел Мэддоу может быть использовано для оказания влияния на выборы в других странах путем «передачи неточной информации, противоположной тому, что она сказала».

Праджвал также обеспокоен возможным неправомерным использованием измененных видео, но считает, что можно разработать меры предосторожности для защиты от таких сценариев и что положительный потенциал для улучшения международного понимания перевешивает риски автоматического прямого перевода. (С положительной стороны, этот пост в блоге предполагает перевод речи Греты Тунберг на саммите ООН по климату в сентябре 2019 года на различные языки, используемые в Индии.)

«Каждая мощная технология может быть использована во благо, а также иметь негативные последствия», — отмечает Праджвал. «Наша работа — это, по сути, система перевода, которая может обрабатывать видеоконтент. Контент, переведенный с помощью алгоритма, определенно «ненастоящий», но этот переведенный контент необходим для людей, которые не понимают определенный язык. Кроме того, в настоящее время Этап автоматически переведенный контент легко распознается алгоритмами и зрителями. Одновременно проводятся активные исследования для распознавания такого измененного контента. Мы считаем, что коллективные усилия по ответственному использованию, строгим правилам и достижениям в области исследований в обнаружении неправомерного использования могут обеспечить положительный результат. будущее за этой технологией».

Теперь это кинематограф

Согласно Language Insight , исследование, проведенное британскими исследователями, показало, что предпочтение кинозрителями дублированных иностранных фильмов по сравнению с субтитрами влияет на тип фильмов, к которым они тяготеют. Те, кто любит мейнстримные блокбастеры, с большей вероятностью увидят дублированную версию фильма, а те, кто предпочитает субтитры, скорее всего, будут поклонниками артхаусного импорта.