ทีมนักวิจัยในอินเดียได้คิดค้นระบบสำหรับการแปลคำเป็นภาษาอื่น และทำให้ดูเหมือนว่าริมฝีปากของผู้พูดเคลื่อนไหวสอดคล้องกับภาษานั้น
การแปลแบบตัวต่อตัวอัตโนมัติตามที่อธิบายไว้ในเอกสารเดือนตุลาคม 2019นี้เป็นความก้าวหน้าเหนือการแปลข้อความเป็นข้อความหรือคำพูดเป็นคำพูด เพราะไม่เพียงแปลคำพูดแต่ยังให้ภาพใบหน้าที่ซิงก์ริมฝีปากด้วย
เพื่อทำความเข้าใจวิธีการทำงาน โปรดดูวิดีโอสาธิตด้านล่างซึ่งจัดทำโดยนักวิจัย เมื่อถึงเวลา 6:38 น. คุณจะเห็นคลิปวิดีโอของเจ้าหญิงไดอาน่าผู้ล่วงลับไปแล้วในการให้สัมภาษณ์กับนักข่าว Martin Bashir ในปี 1995 โดยอธิบายว่า "ฉันอยากเป็นราชินีแห่งหัวใจของผู้คนในหัวใจของผู้คน แต่ฉันทำไม่ได้ ไม่เห็นตัวเองเป็นราชินีของประเทศนี้”
ครู่ต่อมา คุณจะเห็นเธอพูดประโยคเดียวกันในภาษาฮินดี โดยริมฝีปากของเธอขยับราวกับว่าเธอพูดภาษานั้นจริงๆ
Prajwal KRนักศึกษาระดับบัณฑิตศึกษาด้านวิทยาการคอมพิวเตอร์จาก International Institute of Information Technology ในเมืองไฮเดอราบัด ประเทศอินเดีย อธิบายผ่านอีเมลว่า"การสื่อสารอย่างมีประสิทธิภาพข้ามอุปสรรคทางภาษาเป็นความปรารถนาหลักของมนุษย์ทั่วโลกมาโดยตลอด" เขาเป็นหัวหน้าผู้เขียนรายงานฉบับนี้ พร้อมด้วยเพื่อนร่วมงานของเขา รุดราภา มูโคปัทยัย
"ทุกวันนี้ อินเทอร์เน็ตเต็มไปด้วยวิดีโอพูดคุยกัน เช่น YouTube (อัปโหลด 300 ชั่วโมงต่อวัน) การบรรยายออนไลน์ การประชุมทางวิดีโอ ภาพยนตร์ รายการทีวี และอื่นๆ" Prajwal ผู้ซึ่งใช้ชื่อจริงเขียน "ระบบการแปลในปัจจุบันสามารถสร้างเอาต์พุตเสียงพูดที่แปลหรือคำบรรยายแบบข้อความสำหรับเนื้อหาวิดีโอดังกล่าวได้เท่านั้น ระบบเหล่านี้ไม่ได้จัดการองค์ประกอบภาพ ดังนั้น คำพูดที่แปลเมื่อวางซ้อนบนวิดีโอ การเคลื่อนไหวของริมฝีปากจะไม่สอดคล้องกับ เสียง
"ดังนั้นเราจึงสร้างระบบการแปลคำพูดเป็นคำพูดและเสนอท่อที่สามารถถ่ายวิดีโอของบุคคลที่พูดในภาษาต้นฉบับและส่งออกวิดีโอของผู้พูดคนเดียวกันที่พูดภาษาเป้าหมายเพื่อให้รูปแบบเสียงและ การเคลื่อนไหวของริมฝีปากตรงกับคำพูดของภาษาเป้าหมาย" Prajwal กล่าว "ด้วยการทำเช่นนี้ ระบบการแปลจะกลายเป็นแบบองค์รวม และดังที่แสดงโดยการประเมินโดยมนุษย์ของเราในบทความนี้ จะช่วยปรับปรุงประสบการณ์ของผู้ใช้ในการสร้างและบริโภคเนื้อหาภาพและเสียงที่แปลได้อย่างมาก"
การแปลแบบตัวต่อตัวต้องใช้ความสามารถที่ซับซ้อนจำนวนมาก "จากวิดีโอของบุคคลที่พูด เรามีข้อมูลหลักสองช่องทางในการแปล: ข้อมูลภาพและคำพูด" เขาอธิบาย พวกเขาทำสิ่งนี้สำเร็จด้วยขั้นตอนสำคัญหลายขั้นตอน "ระบบจะถอดความประโยคในคำพูดโดยใช้การรู้จำเสียงอัตโนมัติ (ASR) ก่อน ซึ่งเป็นเทคโนโลยีเดียวกับที่ใช้ในผู้ช่วยเสียง (เช่น Google Assistant) ในอุปกรณ์เคลื่อนที่" ถัดไป ประโยคที่ถอดเสียงจะถูกแปลเป็นภาษาที่ต้องการโดยใช้แบบจำลอง Neural Machine Translation จากนั้นการแปลจะถูกแปลงเป็นคำพูดด้วยโปรแกรมสังเคราะห์ข้อความเป็นคำพูด ซึ่งเป็นเทคโนโลยีเดียวกับที่ผู้ช่วยดิจิทัลใช้
ในที่สุด เทคโนโลยีที่เรียกว่า LipGAN จะแก้ไขการเคลื่อนไหวของริมฝีปากในวิดีโอต้นฉบับให้ตรงกับคำพูดที่แปล
"ดังนั้นเราจึงได้วิดีโอที่แปลอย่างสมบูรณ์พร้อมการซิงโครไนซ์ริมฝีปากด้วย" Prajwal อธิบาย
"LipGAN คือส่วนสำคัญในนวนิยายของบทความของเรา นี่คือสิ่งที่นำรูปแบบการมองเห็นมาสู่ภาพ สิ่งที่สำคัญที่สุดคือการแก้ไขการซิงโครไนซ์ริมฝีปากในวิดีโอสุดท้าย ซึ่งช่วยปรับปรุงประสบการณ์ของผู้ใช้ได้อย่างมาก"
เจตนาไม่ใช่การหลอกลวง แต่เป็นการแบ่งปันความรู้
บทความ ที่ ตีพิมพ์เมื่อวันที่ 24 มกราคม 2020 ใน New Scientist อธิบายว่าการค้นพบนี้เป็น "deepfake" ซึ่งเป็นคำศัพท์สำหรับวิดีโอที่มีการเปลี่ยนใบหน้าหรือเปลี่ยนแปลงทางดิจิทัลด้วยความช่วยเหลือของปัญญาประดิษฐ์ ซึ่งมักจะสร้างความประทับใจให้เข้าใจผิด เช่นเรื่องราว BBCนี้อธิบาย แต่ Prajwal ยืนยันว่านั่นเป็นการแสดงภาพการแปลแบบตัวต่อตัวที่ไม่ถูกต้อง ซึ่งไม่ได้มีวัตถุประสงค์เพื่อหลอกลวง แต่เพื่อให้คำพูดที่แปลนั้นง่ายต่อการติดตาม
"งานของเรามีเป้าหมายหลักในการขยายขอบเขตของระบบการแปลที่มีอยู่เพื่อจัดการกับเนื้อหาวิดีโอ" เขาอธิบาย "นี่เป็นซอฟต์แวร์ที่สร้างขึ้นด้วยแรงจูงใจในการปรับปรุงประสบการณ์ผู้ใช้และทำลายอุปสรรคด้านภาษาในเนื้อหาวิดีโอ เปิดแอปพลิเคชันที่หลากหลายและปรับปรุงการเข้าถึงวิดีโอนับล้านออนไลน์"
ความท้าทายที่ใหญ่ที่สุดในการทำงานแปลแบบตัวต่อตัวคือโมดูลการสร้างใบหน้า "วิธีการปัจจุบันในการสร้างวิดีโอลิปซิงค์ไม่สามารถสร้างใบหน้าด้วยท่าทางที่ต้องการได้ ทำให้ยากต่อการวางใบหน้าที่สร้างขึ้นลงในวิดีโอเป้าหมาย" Prajwal กล่าว "เรารวม "ท่าทางก่อนหน้า" ไว้เป็นข้อมูลเข้าในโมเดล LipGAN ของเรา และด้วยเหตุนี้ เราจึงสามารถสร้างใบหน้าที่ลิปซิงค์ได้อย่างแม่นยำในท่าเป้าหมายที่ต้องการ ซึ่งสามารถผสมผสานเข้ากับวิดีโอเป้าหมายได้อย่างลงตัว"
นักวิจัยมองว่าการแปลแบบตัวต่อตัวถูกใช้ในการแปลภาพยนตร์และแฮงเอาท์วิดีโอระหว่างคนสองคนซึ่งแต่ละคนพูดภาษาต่างกัน “การสร้างตัวละครดิจิทัลในภาพยนตร์แอนิเมชั่นร้องเพลง/พูดได้แสดงให้เห็นในวิดีโอของเราด้วย” Prajwal กล่าว
นอกจากนี้ เขาเล็งเห็นถึงระบบที่ใช้เพื่อช่วยให้นักเรียนทั่วโลกเข้าใจวิดีโอการบรรยายออนไลน์ในภาษาอื่นๆ "นักเรียนภาษาต่างประเทศหลายล้านคนทั่วโลกไม่สามารถเข้าใจเนื้อหาการศึกษาที่ยอดเยี่ยมทางออนไลน์ได้ เนื่องจากเป็นภาษาอังกฤษ" เขาอธิบาย
"นอกจากนี้ ในประเทศอย่างอินเดียที่มีภาษาราชการ 22 ภาษา ระบบของเราสามารถแปลเนื้อหาข่าวทีวีเป็นภาษาท้องถิ่นต่างๆ ได้ในอนาคตด้วยลิปซิงค์ที่แม่นยำของผู้ประกาศข่าว ดังนั้นรายการแอปพลิเคชันจึงใช้ได้กับการพูดคุยทุกประเภท เผชิญกับเนื้อหาวิดีโอ ที่ต้องทำให้เข้าถึงได้มากขึ้นในภาษาต่างๆ"
แม้ว่า Prajwal และเพื่อนร่วมงานของเขาตั้งใจที่จะนำความก้าวหน้าของพวกเขาไปใช้ในทางที่ดี แต่ความสามารถในการใส่คำภาษาต่างประเทศในปากของผู้พูดนั้นเกี่ยวข้องกับผู้เชี่ยวชาญด้านความปลอดภัยทางไซเบอร์ที่มีชื่อเสียงคนหนึ่งของสหรัฐฯ ซึ่งกลัวว่าวิดีโอที่ถูกดัดแปลงจะตรวจจับได้ยากขึ้น
“ถ้าคุณดูวิดีโอ คุณจะบอกได้ว่าคุณดูใกล้ ๆ หรือเปล่า ปากก็เบลอไปบ้าง” แอนน์ ทูมีย์ แมคเคนนานักวิชาการและนโยบายด้านกฎหมาย ไซเบอร์แห่งมหาวิทยาลัยเพนน์สเตท กล่าว และศาสตราจารย์ที่สถาบัน ของมหาวิทยาลัยกล่าว สำหรับ Computational and Data Sciencesในการสัมภาษณ์ทางอีเมล "สิ่งนี้จะถูกย่อให้เล็กสุดต่อไปในขณะที่อัลกอริธึมมีการปรับปรุงอย่างต่อเนื่อง ซึ่งจะมองเห็นได้น้อยลงในสายตามนุษย์"
ตัวอย่างเช่น McKenna ลองนึกภาพว่าวิดีโอที่ดัดแปลงโดย Rachel Maddow นักวิจารณ์ MSNBC อาจถูกนำไปใช้เพื่อโน้มน้าวการเลือกตั้งในประเทศอื่น ๆ ได้อย่างไร โดย "การถ่ายทอดข้อมูลที่ไม่ถูกต้องและตรงกันข้ามกับที่เธอพูด"
Prajwal กังวลเกี่ยวกับการใช้วิดีโอที่ดัดแปลงในทางที่ผิดเช่นกัน แต่คิดว่าสามารถพัฒนาข้อควรระวังเพื่อป้องกันสถานการณ์ดังกล่าวได้ และศักยภาพเชิงบวกในการเพิ่มความเข้าใจระหว่างประเทศนั้นมีมากกว่าความเสี่ยงของการแปลแบบตัวต่อตัวอัตโนมัติ (ในด้านที่เป็นประโยชน์บล็อกโพสต์ นี้ วาดภาพการแปลสุนทรพจน์ของ Greta Thunbergที่การประชุมสุดยอดด้านสภาพอากาศของสหประชาชาติในเดือนกันยายน 2019 เป็นภาษาต่างๆ ที่ใช้ในอินเดีย)
"เทคโนโลยีอันทรงพลังทุกชิ้นสามารถนำมาใช้เพื่อสินค้าจำนวนมหาศาล และยังมีผลร้ายอีกด้วย" Prajwal กล่าว “อันที่จริง งานของเราคือระบบการแปลที่สามารถจัดการเนื้อหาวิดีโอ เนื้อหาที่แปลโดยอัลกอริทึมนั้น 'ไม่ใช่ของจริง' แน่นอน แต่เนื้อหาที่แปลนี้จำเป็นสำหรับผู้ที่ไม่เข้าใจภาษาใดภาษาหนึ่ง นอกจากนี้ ในปัจจุบัน อัลกอริธึมและผู้ดูสามารถจดจำเนื้อหาที่แปลโดยอัตโนมัติดังกล่าวได้อย่างง่ายดาย ขณะเดียวกัน การวิจัยเชิงรุกกำลังดำเนินการเพื่อระบุเนื้อหาที่เปลี่ยนแปลงไปดังกล่าว เราเชื่อว่าความพยายามร่วมกันในการใช้อย่างรับผิดชอบ กฎระเบียบที่เข้มงวด และความก้าวหน้าของการวิจัยในการตรวจจับการใช้ในทางที่ผิด อนาคตของเทคโนโลยีนี้"
ตอนนี้นั่นคือภาพยนตร์
ตามข้อมูลของLanguage Insightการศึกษาโดยนักวิจัยชาวอังกฤษระบุว่าความชอบของผู้ชมภาพยนตร์สำหรับภาพยนตร์ที่มีพากย์เสียงพากย์และภาพยนตร์ต่างประเทศที่มีคำบรรยาย ส่งผลต่อประเภทของภาพยนตร์ที่พวกเขาสนใจ ผู้ที่ชอบภาพยนตร์บล็อกบัสเตอร์กระแสหลักมักจะดูภาพยนตร์เวอร์ชันพากย์ ขณะที่ผู้ที่ชื่นชอบคำบรรยายมักจะเป็นแฟนพันธุ์แท้ของอาร์ตเฮาส์