Hindistan'daki bir araştırma ekibi, kelimeleri farklı bir dile çevirmek ve konuşmacının dudaklarının o dille senkronize hareket ediyormuş gibi görünmesini sağlamak için bir sistem tasarladı.
Otomatik Yüz Yüze Çeviri, bu Ekim 2019 belgesinde açıklandığı gibi , metinden metne veya konuşmadan konuşmaya çeviriye göre bir ilerlemedir, çünkü yalnızca konuşmayı çevirmekle kalmaz , aynı zamanda dudakla senkronize bir yüz görüntüsü de sağlar.
Bunun nasıl çalıştığını anlamak için, araştırmacılar tarafından oluşturulan aşağıdaki tanıtım videosunu izleyin. Saat 6:38'de, gazeteci Martin Bashir ile 1995 yılında yaptığı bir röportajda merhum Prenses Diana'nın bir video klibini göreceksiniz, "İnsanların kalplerinde, insanların kalplerinde bir kraliçe olmak isterdim, ama Kendimi bu ülkenin kraliçesi olarak görmüyorum."
Bir an sonra, aynı alıntıyı Hintçe'de söylediğini göreceksiniz - sanki o dili gerçekten konuşuyormuş gibi dudakları hareket ediyor .
Hindistan, Haydarabad'daki Uluslararası Bilgi Teknolojileri Enstitüsü'nde bilgisayar bilimleri alanında yüksek lisans öğrencisi olan Prajwal KR, e-posta yoluyla "Dil engellerini aşarak etkili bir şekilde iletişim kurmak her zaman dünyanın her yerindeki insanlar için büyük bir istek olmuştur" diye açıklıyor. Meslektaşı Rudrabha Mukhopadhyay ile birlikte makalenin baş yazarıdır.
Kendi adıyla anılan Prajwal, "Bugün, internet konuşan yüz videolarıyla dolu: YouTube (günde 300 saat yükleniyor), çevrimiçi dersler, video konferanslar, filmler, TV şovları vb." "Mevcut çeviri sistemleri, bu tür video içeriği için yalnızca çevrilmiş bir konuşma çıktısı veya metinsel altyazılar üretebilir. Görsel bileşeni işlemezler. Sonuç olarak, çevrilen konuşma videonun üzerine bindirildiğinde, dudak hareketleri ile senkronize olmaz. ses.
"Bu nedenle, konuşmadan konuşmaya çeviri sistemlerini geliştiriyoruz ve kaynak dilde konuşan bir kişinin videosunu çekebilen ve aynı konuşmacının hedef dilde konuşan bir videosunu ses stili ve dudak hareketleri hedef dildeki konuşmayla eşleşiyor" diyor Prajwal. "Bunu yaparak, çeviri sistemi bütünsel hale geliyor ve bu makaledeki insan değerlendirmelerimizin gösterdiği gibi, çevrilmiş görsel-işitsel içerik oluşturma ve tüketmede kullanıcı deneyimini önemli ölçüde iyileştiriyor."
Yüz Yüze Çeviri, bir dizi karmaşık beceri gerektirir. "Konuşan bir kişinin videosu göz önüne alındığında, tercüme etmemiz gereken iki ana bilgi akışımız var: görsel ve konuşma bilgisi". Bunu birkaç önemli adımda gerçekleştirirler. "Sistem önce konuşmadaki cümleleri otomatik konuşma tanıma (ASR) kullanarak kopyalıyor. Bu, mobil cihazlarda sesli yardımcılarda (örneğin Google Asistan) kullanılan teknolojinin aynısı." Daha sonra, yazıya dökülen cümleler Nöral Makine Çevirisi modelleri kullanılarak istenen dile çevrilir ve ardından çeviri, dijital asistanların kullandığı teknolojinin aynısı olan bir metinden konuşmaya sentezleyici ile sözlü kelimelere dönüştürülür.
Son olarak, LipGAN adı verilen bir teknoloji, orijinal videodaki dudak hareketlerini çevrilen konuşmayla eşleşecek şekilde düzeltir.
Prajwal, "Böylece dudak senkronizasyonu ile tamamen çevrilmiş bir video elde ediyoruz" diye açıklıyor.
"LipGAN, makalemizin en önemli yeni katkısıdır. Görsel modaliteyi resme getiren şey budur. Son videodaki dudak senkronizasyonunu düzelttiği için kullanıcı deneyimini önemli ölçüde iyileştirdiği için en önemlisidir."
Amaç Aldatma Değil Bilgi Paylaşımıdır
24 Ocak 2020'de New Scientist'te yayınlanan bir makale , çığır açan olayı "deepfake" olarak tanımladı; bu terim, yüzlerin yapay zeka yardımıyla değiştirildiği veya dijital olarak değiştirildiği, genellikle yanıltıcı bir izlenim yarattığı videolar için kullanılan bir terimdir. bu BBC hikayesi açıklandı. Ancak Prajwal, bunun, aldatmayı değil, tercüme edilen konuşmayı takip etmeyi kolaylaştırmayı amaçlayan Yüz Yüze Çeviri'nin yanlış bir tasviri olduğunu savunuyor.
"Çalışmamız öncelikle video içeriğini işlemek için mevcut çeviri sistemlerinin kapsamını genişletmeyi hedefliyor" diye açıklıyor. "Bu, kullanıcı deneyimini geliştirmek ve video içeriğindeki dil engellerini ortadan kaldırmak amacıyla oluşturulmuş bir yazılımdır. Çok geniş bir uygulama yelpazesi açar ve milyonlarca videonun çevrimiçi erişilebilirliğini artırır."
Yüz yüze çeviri çalışması yaparken en büyük zorluk yüz oluşturma modülüydü. Prajwal, "Dudak senkronizasyonlu videolar oluşturmaya yönelik mevcut yöntemler, istenen pozlara sahip yüzler oluşturamadı, bu da oluşturulan yüzü hedef videoya yapıştırmayı zorlaştırdı" diyor. LipGAN modelimize bir girdi olarak bir "öncelik pozu" ekledik ve sonuç olarak, hedef videoya sorunsuz bir şekilde karıştırılabilen, istenen hedef pozda dudakla senkronize edilmiş doğru bir yüz oluşturabiliyoruz."
Araştırmacılar, her biri farklı bir dil konuşan iki kişi arasındaki film ve görüntülü görüşmeleri çevirmek için Yüz Yüze Çeviri'nin kullanıldığını düşünüyorlar. Prajwal, "Animasyon filmlerinde dijital karakterlerin şarkı söylemesini/konuşmasını sağlamak da videomuzda gösterilmektedir."
Ayrıca, sistemin dünyanın dört bir yanındaki öğrencilerin diğer dillerdeki çevrimiçi ders videolarını anlamalarına yardımcı olmak için kullanıldığını öngörüyor. "Dünya çapında milyonlarca yabancı dil öğrencisi, İngilizce oldukları için çevrimiçi olarak sunulan mükemmel eğitim içeriğini anlayamıyor" diye açıklıyor.
"Ayrıca, Hindistan gibi 22 resmi dili olan bir ülkede, sistemimiz gelecekte TV haber içeriğini, haber sunucularının doğru dudak senkronizasyonu ile farklı yerel dillere çevirebilir. Bu nedenle, uygulama listesi her türlü konuşma için geçerlidir. diller arasında daha erişilebilir hale getirilmesi gereken video içeriğiyle karşı karşıyayız."
Prajwal ve meslektaşları, atılımlarının olumlu şekillerde kullanılmasını amaçlasalar da, yabancı kelimeleri konuşmacının ağzına koyma yeteneği, değiştirilmiş videoların tespit edilmesinin giderek zorlaşacağından korkan önde gelen bir ABD siber güvenlik uzmanını ilgilendiriyor.
Penn State Üniversitesi'nden Dickinson Hukuku'nda Seçkin bir Siber Hukuk ve Politika Bilimcisi ve üniversitenin Enstitüsü'nde profesör olan Anne Toomey McKenna , "Videoya bakarsanız, yakından bakarsanız, ağzın biraz bulanık olduğunu söyleyebilirsiniz" diyor . Hesaplama ve Veri Bilimleri için bir e-posta röportajında. "Algoritmalar gelişmeye devam ettikçe bu en aza indirilmeye devam edecek. Bu, insan gözü için giderek daha az fark edilebilir hale gelecek."
Örneğin McKenna, MSNBC yorumcusu Rachel Maddow'un değiştirilmiş bir videosunun diğer ülkelerdeki seçimleri etkilemek için "yanlış ve söylediğinin tam tersi bilgiler aktararak" nasıl kullanılabileceğini hayal ediyor.
Prajwal, değiştirilmiş videoların olası kötüye kullanımından da endişe duymaktadır, ancak bu tür senaryolara karşı korunmak için önlemlerin geliştirilebileceğini ve uluslararası anlayışı artırmanın olumlu potansiyelinin Otomatik Yüz Yüze Çeviri risklerinden daha ağır bastığını düşünüyor. (Faydalı tarafında, bu blog yazısı , Greta Thunberg'in Eylül 2019'daki BM iklim zirvesindeki konuşmasını Hindistan'da kullanılan çeşitli farklı dillere çevirmeyi öngörüyor .)
Prajwal, "Her güçlü teknoloji parçası, büyük miktarda iyilik için kullanılabilir ve ayrıca kötü etkileri olabilir." "Çalışmamız aslında video içeriğini işleyebilen bir çeviri sistemi. Algoritma tarafından çevrilen içerik kesinlikle 'gerçek değil' ama bu çevrilen içerik belirli bir dili anlamayan insanlar için çok önemli. Ayrıca, şu anda mevcut durumda aşamasında, bu tür otomatik olarak çevrilen içerik, algoritmalar ve izleyiciler tarafından kolayca tanınabilir. Aynı zamanda, bu tür değiştirilmiş içeriği tanımak için aktif araştırmalar yürütülmektedir. Sorumlu kullanım için toplu çaba, katı düzenlemeler ve kötüye kullanımı tespit etmeye yönelik araştırma ilerlemelerinin olumlu bir sonuç sağlayabileceğine inanıyoruz. Bu teknoloji için gelecek."
Şimdi Sinematik
Language Insight'a göre , İngiliz araştırmacılar tarafından yapılan bir araştırma, sinemaseverlerin dublajlı ve altyazılı yabancı filmleri tercih etmesinin, yöneldikleri film türünü etkilediğini belirledi. Ana akım gişe rekorları kıran filmlerden hoşlananların bir filmin dublajlı versiyonunu görmeleri daha olasıyken, alt yazıları tercih edenlerin arthouse ithallerinin hayranları olma olasılığı daha yüksek.