System oprogramowania wideo synchronizuje usta z innymi językami

Mar 11 2020
Nowa technologia tłumaczenia wideo nie tylko przekształca mowę na inny język, ale także sprawia, że ​​usta mówiącego poruszają się dokładnie w tym języku.
Podczas gdy obecne systemy tłumaczeniowe mogą generować tylko przetłumaczoną mowę lub napisy tekstowe do treści wideo, protokół automatycznego tłumaczenia twarzą w twarz może zsynchronizować obraz, aby styl głosu i ruch warg były zgodne z językiem docelowym. Prajwal Renukanand

Zespół naukowców z Indii opracował system tłumaczenia słów na inny język i sprawiający wrażenie, że usta mówiącego poruszają się w synchronizacji z tym językiem.

Automatyczne tłumaczenie twarzą w twarz, opisane w tym dokumencie z października 2019 r. , to postęp w porównaniu z tłumaczeniem tekstu na tekst lub mowy na mowę, ponieważ nie tylko tłumaczy mowę , ale także zapewnia obraz twarzy zsynchronizowany z ustami.

Aby zrozumieć, jak to działa, obejrzyj poniższy film demonstracyjny, stworzony przez naukowców. O godzinie 6:38 zobaczysz wideoklip ze zmarłą księżną Dianą w wywiadzie z 1995 roku dla dziennikarza Martina Bashira, wyjaśniającym: „Chciałabym być królową ludzkich serc, w ludzkich sercach, ale nie nie widzę siebie jako królowej tego kraju”.

Chwilę później zobaczysz, jak wypowiada ten sam cytat w hindi — poruszając ustami, jakby rzeczywiście mówiła w tym języku .

„Skuteczne komunikowanie się przez bariery językowe zawsze było główną aspiracją ludzi na całym świecie” – wyjaśnia za pośrednictwem poczty elektronicznej Prajwal KR, absolwent informatyki w Międzynarodowym Instytucie Technologii Informacyjnych w Hyderabadzie w Indiach. Jest głównym autorem artykułu, wraz ze swoim kolegą Rudrabhą Mukhopadhyayem.

„Dzisiaj internet jest wypełniony filmami mówiącymi o twarzy: YouTube (300 godzin wgrywanych dziennie), wykłady online, wideokonferencje, filmy, programy telewizyjne i tak dalej” – pisze Prajwal, który występuje pod swoim imieniem. „Obecne systemy tłumaczeniowe mogą generować tylko przetłumaczoną mowę lub napisy tekstowe dla takich treści wideo. Nie obsługują one komponentu wizualnego. W rezultacie przetłumaczona mowa po nałożeniu na wideo ruchy warg nie byłyby zsynchronizowane z audio.

„W związku z tym opieramy się na systemach tłumaczenia mowy na mowę i proponujemy potok, który może nagrać wideo osoby mówiącej w języku źródłowym i wyprowadzić wideo tego samego mówcy mówiącego w języku docelowym, tak aby styl głosu i Ruch warg odpowiada mowie w języku docelowym” – mówi Prajwal. „Dzięki temu system tłumaczeń staje się holistyczny i, jak pokazują nasze ludzkie oceny w tym dokumencie, znacznie poprawia wrażenia użytkownika podczas tworzenia i korzystania z przetłumaczonych treści audiowizualnych”.

Tłumaczenie twarzą w twarz wymaga wielu skomplikowanych wyczynów. „Mając nagranie wideo mówiącej osoby, mamy do przetłumaczenia dwa główne strumienie informacji: informacje wizualne i informacje mowy” – wyjaśnia. Osiągają to w kilku głównych krokach. „System najpierw dokonuje transkrypcji zdań w mowie za pomocą automatycznego rozpoznawania mowy (ASR). Jest to ta sama technologia, która jest wykorzystywana w asystentach głosowych (np. Google Assistant) w urządzeniach mobilnych”. Następnie transkrybowane zdania są tłumaczone na żądany język za pomocą modeli neuronowego tłumaczenia maszynowego, a następnie tłumaczenie jest konwertowane na wypowiadane słowa za pomocą syntezatora tekstu na mowę — tej samej technologii, której używają asystenci cyfrowi.

Wreszcie, technologia o nazwie LipGAN koryguje ruchy warg w oryginalnym filmie, aby pasowały do ​​przetłumaczonej mowy.

Jak mowa przechodzi od początkowego wejścia do zsynchronizowanego wyjścia.

„W ten sposób otrzymujemy również w pełni przetłumaczone wideo z synchronizacją ust” – wyjaśnia Prajwal.

„LipGAN jest kluczowym nowatorskim wkładem naszego artykułu. To właśnie wprowadza modalność wizualną do obrazu. Jest to najważniejsze, ponieważ koryguje synchronizację ust w końcowym filmie, co znacznie poprawia wrażenia użytkownika”.

Intencja nie jest oszustwem, ale dzieleniem się wiedzą

Artykuł opublikowany 24 stycznia 2020 r. w New Scientist opisał przełom jako „deepfake”, termin określający filmy, w których twarze zostały zamienione lub zmienione cyfrowo za pomocą sztucznej inteligencji, często w celu stworzenia mylącego wrażenia, ponieważ ta historia BBC wyjaśniona. Ale Prajwal utrzymuje, że jest to błędny obraz tłumaczenia twarzą w twarz, który nie ma na celu oszukania, ale raczej uczynienie tłumaczonej mowy łatwiejszą do zrozumienia.

„Nasza praca ma na celu przede wszystkim poszerzenie zakresu istniejących systemów tłumaczeniowych do obsługi treści wideo” – wyjaśnia. „Jest to oprogramowanie stworzone z motywacją do poprawy komfortu użytkownika i przełamania barier językowych w treściach wideo. Otwiera bardzo szeroką gamę aplikacji i poprawia dostępność milionów filmów online”.

Największym wyzwaniem w wykonywaniu tłumaczeń twarzą w twarz był moduł generowania twarzy. „Obecne metody tworzenia filmów z synchronizacją ust nie były w stanie wygenerować twarzy o pożądanych pozach, co utrudniało wklejenie wygenerowanej twarzy do docelowego filmu” – mówi Prajwal. „Wprowadziliśmy „pozę przed” jako dane wejściowe do naszego modelu LipGAN, dzięki czemu możemy wygenerować dokładną twarz zsynchronizowaną z ustami w pożądanej docelowej pozie, którą można płynnie wkomponować w docelowy film”.

Naukowcy przewidują, że tłumaczenie twarzą w twarz będzie wykorzystywane do tłumaczenia filmów i rozmów wideo między dwiema osobami, z których każda mówi innym językiem. „W naszym filmie pokazano również, jak cyfrowe postacie w filmach animowanych śpiewają/mówią” – zauważa Prajwal.

Ponadto przewiduje, że system będzie używany do pomocy uczniom na całym świecie w zrozumieniu internetowych wykładów wideo w innych językach. „Miliony studentów języków obcych na całym świecie nie może zrozumieć doskonałych treści edukacyjnych dostępnych w Internecie, ponieważ są one w języku angielskim” – wyjaśnia.

„Ponadto, w kraju takim jak Indie z 22 oficjalnymi językami, nasz system może w przyszłości tłumaczyć treści wiadomości telewizyjnych na różne lokalne języki z dokładną synchronizacją ustami kotwic wiadomości. Lista zastosowań odnosi się zatem do każdego rodzaju rozmów treści wideo dotyczące twarzy, które muszą być bardziej dostępne w różnych językach”.

Chociaż Prajwal i jego koledzy zamierzają wykorzystać swój przełom w pozytywny sposób, możliwość wkładania obcych słów w usta rozmówcy dotyczy jednego wybitnego amerykańskiego eksperta ds. cyberbezpieczeństwa, który obawia się, że zmienione filmy będą coraz trudniejsze do wykrycia.

„Jeśli przyjrzysz się filmowi, możesz stwierdzić, że jeśli przyjrzysz się uważnie, usta są trochę zamazane” – mówi Anne Toomey McKenna , wybitna stypendystka prawa i polityki cybernetycznej na Uniwersytecie Penn State University’s Dickinson Law i profesor w instytucie uniwersyteckim . dla Informatyki i Nauk o Danych , w rozmowie e-mailowej. „Będzie to nadal minimalizowane w miarę doskonalenia algorytmów. Będzie to coraz mniej dostrzegalne dla ludzkiego oka”.

McKenna na przykład wyobraża sobie, jak zmienione wideo komentatorki MSNBC Rachel Maddow może zostać wykorzystane do wpłynięcia na wybory w innych krajach, „przekazując informacje, które są niedokładne i przeciwne do tego, co powiedziała”.

Prajwal jest również zaniepokojony możliwym niewłaściwym wykorzystaniem zmodyfikowanych filmów, ale uważa, że ​​można opracować środki ostrożności, aby chronić się przed takimi scenariuszami, oraz że pozytywny potencjał zwiększenia międzynarodowego zrozumienia przewyższa ryzyko automatycznego tłumaczenia twarzą w twarz. (Z korzystnej strony ten wpis na blogu przewiduje przetłumaczenie przemówienia Grety Thunberg na szczycie klimatycznym ONZ we wrześniu 2019 r. na różne języki używane w Indiach.)

„Każdy potężny element technologii może być wykorzystany do ogromnej ilości dobra, a także może mieć złe skutki” – zauważa Prajwal. „Nasza praca to w rzeczywistości system tłumaczeń, który może obsługiwać treści wideo. Treść przetłumaczona przez algorytm zdecydowanie „nie jest prawdziwa”, ale ta przetłumaczona treść jest niezbędna dla osób, które nie rozumieją określonego języka. Co więcej, w chwili obecnej takie automatycznie przetłumaczone treści są łatwo rozpoznawalne przez algorytmy i widzów. Jednocześnie prowadzone są aktywne badania w celu rozpoznania takich zmienionych treści. Wierzymy, że zbiorowy wysiłek odpowiedzialnego użytkowania, surowe przepisy i postępy badawcze w wykrywaniu nadużyć mogą zapewnić pozytywne przyszłość tej technologii”.

Teraz to filmowe

Według Language Insight badanie przeprowadzone przez brytyjskich naukowców wykazało, że preferencje kinomanów do zagranicznych filmów z dubbingiem i napisami wpływają na typ filmu, do którego się skłaniają. Ci, którzy lubią popularne hity, częściej oglądają dubbingową wersję filmu, podczas gdy ci, którzy wolą napisy, częściej są fanami importu artystycznego.