ทำความเข้าใจภาษาเชิงเปรียบเทียบด้วยโมเดล AI

Nov 29 2022

สำรวจ DREAM และ DREAM-FLUTE โดย Yuling Gu การพยายามเข้าใจโลกอันซับซ้อนรอบตัวเรา — และอธิบายโลกนั้นและประสบการณ์ของเราที่มีต่อโลกนั้นให้ผู้อื่นฟัง — เป็นลักษณะเฉพาะของมนุษย์ บางทีนั่นอาจเป็นเหตุผลว่าทำไม ในทุกภาษาที่รู้จัก จึงมีสิ่งที่เรียกว่าภาษาอุปมาอุปไมย

สำรวจ DREAM และ DREAM-FLUTE

โดย Yuling Gu

ภาพถ่ายหมาป่ามองออกไปในระยะไกลโดย Milo Weiler

การพยายามทำความเข้าใจโลกอันซับซ้อนรอบตัวเรา และอธิบายโลกนั้นและประสบการณ์ของเราต่อผู้อื่นให้ผู้อื่นฟัง ถือเป็นลักษณะเฉพาะของมนุษย์ บางทีนั่นอาจเป็นเหตุผลว่าทำไม ในทุกภาษาที่รู้จัก จึงมีสิ่งที่เรียกว่าภาษาอุปมาอุปไมย

ภาษาที่เป็นรูปเป็นร่างประกอบด้วยสิ่งต่างๆ เช่น คำอุปมาอุปไมย สำนวน อติพจน์ และการแสดงตัวตน เป็นคำหรือวลีที่ไม่ได้หมายถึงการตีความตามตัวอักษร แต่ใช้เพื่อช่วยให้เข้าใจหัวข้อที่สับสน อย่างไรก็ตาม ข้ามวัฒนธรรมและภาษา วลีโดยนัยอาจสูญหายไปในการแปลหรือเข้าใจยาก

ในขอบเขตของการประมวลผลภาษา นักวิจัยได้เริ่มทดลองกับภาษาเชิงเปรียบเทียบและแบบจำลองปัญญาประดิษฐ์ ที่ AI2 ทีมนักวิจัยจากทีม Aristo, Mosaic และ AllenNLP มารวมตัวกันเพื่อสร้างระบบที่เรียกว่าDREAM-FLUTEที่พยายามสร้าง "แบบจำลองทางจิต" ของข้อความอินพุต และใช้สิ่งนั้นเป็นบริบทเพื่อช่วยให้เข้าใจภาษาเชิงเปรียบเทียบใน AI . งานนี้สร้างขึ้นจากบทความก่อนหน้านี้โดยนักวิจัยสามคนคือDREAM

วิธีการ

เมื่อผู้คนได้รับคำอธิบายที่เป็นข้อความเกี่ยวกับสถานการณ์ วิทยาศาสตร์การรับรู้เสนอว่าพวกเขาสร้างภาพทางจิตของสถานการณ์นั้น ตัวอย่างเช่น เมื่อได้รับประโยคที่ว่า “หลังจากปลดปล่อยความโกรธ เขาก็เป็นเหมือนหมาป่าที่ดุร้าย” ความคิดของบางคนอาจรวมถึงคนที่หอนเหมือนหมาป่าและมีพฤติกรรมคุกคาม

รูปที่ 1: เมื่อนำเสนอด้วยคำอธิบายที่เป็นข้อความของสถานการณ์ แนวทางของเราเกี่ยวข้องกับการสร้างภาพในใจของสถานการณ์นั้นก่อน

โดยปกติแล้วมนุษย์จะใส่รายละเอียดเชิงบริบทเพิ่มเติมนอกเหนือจากที่ระบุไว้อย่างชัดเจนในข้อความเพื่อช่วยในการทำงานต่างๆ เช่น การตอบคำถามและการทำความเข้าใจภาษาที่เป็นรูปเป็นร่าง อย่างไรก็ตาม การเข้าใจภาษาที่เป็นรูปเป็นร่างยังคงเป็นปัญหาที่ท้าทายอย่างยิ่งสำหรับ AI ( Stowe et al., 2022 )

ตลอดระยะเวลาสามวันที่แฮ็กกาธอนที่ AI2 ทีมงานของเราได้เริ่มดำเนินการเพื่อจัดการกับความท้าทายในงาน Figlang2022 Shared Task on Understanding Figurative Language เรานำเสนอ DREAM-FLUTE ซึ่งเป็นระบบที่ชนะซึ่งได้ (ร่วม) ที่หนึ่งสำหรับงานที่ใช้ร่วมกัน ระบบใช้การปรับแต่งฉากเพื่อสร้าง "แบบจำลองทางความคิด" ของสถานการณ์ที่อธิบายเป็นภาษาอุปมาอุปไมยเพื่อระบุความหมายที่เหมาะสมของสถานการณ์เหล่านั้น สร้างขึ้นจากแบบจำลองรายละเอียดฉาก DREAM ซึ่งสร้างรายละเอียดเพิ่มเติมที่เกี่ยวข้องเกี่ยวกับแต่ละสถานการณ์ที่กำหนดในข้อความอินพุต พร้อมมิติแนวคิดหลักที่แจ้งโดยวิทยาศาสตร์การรับรู้ การทำความเข้าใจเรื่องราว และวรรณกรรมการวางแผน

ผลลัพธ์

เมื่อกำหนดคู่ประโยคอินพุต งานมีสองส่วน: (1) ให้จำแนกก่อนว่าประโยคทั้งสองเกี่ยวข้องหรือขัดแย้งกันหรือไม่ จากนั้น (2) สร้างคำอธิบายที่เป็นข้อความว่าเหตุใดจึงเกี่ยวข้อง/ขัดแย้งกัน ทีมงานของเราได้แสดงให้เห็นถึงประสิทธิภาพของระบบรุ่นเดียวในแง่ของการได้รับคะแนนสูงสุดในงาน ตลอดจนความยืดหยุ่นในการนำระบบทั้งชุดไปใช้ ซึ่งไม่เพียงแต่ให้การปรับปรุงเพิ่มเติมสำหรับงานนี้เท่านั้น แต่ยังช่วยให้สามารถปรับแต่งให้เหมาะสมกับความต้องการที่แตกต่างกัน แอปพลิเคชั่นปลายน้ำ

รูปที่ 2: นี่คือภาพรวมของ DREAM-FLUTE ขั้นแรกจะใช้ DREAM เพื่อสร้างรายละเอียดของสถานการณ์ในสมมติฐานและสมมติฐาน (แยกจากกัน) จากนั้นใช้บริบทเพิ่มเติมนี้สำหรับการจำแนกประเภทและการสร้างคำอธิบาย

ด้วยการรวมรายละเอียดฉากผลที่น่าจะเป็นไปได้จาก DREAM ทำให้ DREAM-FLUTE (ผลที่ตามมา) ได้รับการจัดอันดับเป็นอันดับแรกตามเมตริกลีดเดอร์บอร์ดอย่างเป็นทางการ ซึ่งต้องมีคำอธิบายที่มีคุณภาพสูง ยิ่งไปกว่านั้น เรานำเสนอ DREAM-FLUTE (วงดนตรี) ซึ่งเป็นระบบวงดนตรีที่ใช้บริบทเพิ่มเติม บรรลุการปรับปรุงเพิ่มเติม

ก่อนหน้านี้ มีการใช้ฉากโดยละเอียดของ DREAM เนื่องจากบริบทเพิ่มเติมได้รับการแสดงเพื่อปรับปรุงประสิทธิภาพการตอบคำถาม (QA) ในรุ่นต่างๆ ( Macaw , UnifiedQA ) และในงานปลายน้ำต่างๆ เช่น ETHICS ( Hendrycks et al., 2021 ) CODAH ( Chen et al., 2019 ) และ Social IQA ( Sap et al., 2019 ) DREAM-FLUTE ต่อยอดจากความสำเร็จนี้และแสดงให้เห็นถึงการประยุกต์ใช้อย่างมีประสิทธิภาพในด้านความเข้าใจภาษาที่เป็นรูปเป็นร่าง

ผลกระทบ

วิทยาการทางปัญญาได้ส่งเสริมการสร้างแบบจำลองทางจิตมาอย่างยาวนาน โดยเป็นภาพจำลองที่สอดคล้องกันและสร้างสถานการณ์ที่เราพบ โดยเป็นศูนย์กลางในการทำความเข้าใจและการตอบคำถาม ( Johnson-Laird, 1983 ) ใช้แนวคิดนี้อย่างหลวมๆ แต่ไม่มีการอ้างเหตุผลภายในว่าโมเดลภาษา (LM) มีเหตุผลอย่างไร เรามุ่งตรวจสอบว่าโมเดลภาษาสามารถทำงานด้านความเข้าใจภาษาต่างๆ ได้ดีขึ้นหรือไม่ หากได้รับรายละเอียดที่เกี่ยวข้องเพิ่มเติมเกี่ยวกับสถานการณ์ในอินพุต ข้อความ.

มนุษย์กรอกข้อมูลโดยนัยดังกล่าวอย่างรวดเร็วโดยใช้ความรู้พื้นฐานทั่วไป แต่ระบบ AI ที่ดีที่สุดในปัจจุบันยังคงมีปัญหาอยู่ ตัวอย่างเช่น เพื่อตอบสนองต่อคำสั่ง “หลังจากปลดปล่อยความโกรธของเขา เขาก็เหมือนหมาป่าที่ดุร้าย จะเกิดอะไรขึ้น” GPT-3 ของ OpenAI ตอบว่า "บุคคลนั้นมีแนวโน้มที่จะสงบและผ่อนคลาย" เป็นการยากที่จะเข้าใจว่าคำเปรียบเปรยที่ว่า "หมาป่าดุร้าย" จะนำไปสู่การอนุมานอย่างสอดคล้องกันได้อย่างไรว่า "สงบและผ่อนคลาย"

งานชุด DREAM พยายามที่จะปิดช่องว่างนี้ระหว่างความเข้าใจของมนุษย์เกี่ยวกับข้อมูลโดยนัยและสิ่งที่ระบบ AI ในปัจจุบันสามารถทำได้ ในซีรีส์นี้ เราสามารถแสดงให้เห็นว่าแนวทางของเราสามารถปรับให้เข้ากับรูปแบบภาษาอื่น ๆ ได้อย่างง่ายดาย และเป็นงานที่ไม่เชื่อเรื่องพระเจ้าในรูปแบบ (เช่น QA หรือ NLI) และโดเมน (เช่น การตัดสินใจทางจริยธรรมหรือการเข้าใจภาษาโดยเปรียบเทียบ) การค้นพบนี้ชี้ให้เห็นถึงโอกาสที่น่าตื่นเต้นสำหรับการปรับปรุงเพิ่มเติมและใช้ประโยชน์จากฉากอย่างละเอียดเพื่อแก้ปัญหาใหม่ๆ ได้ดียิ่งขึ้น

ขั้นตอนต่อไป

เราหวังว่าซีรีส์ DREAM จะกระตุ้นความก้าวหน้าไปสู่ระบบ AI ด้วย "แบบจำลองทางจิต" ที่สอดคล้องและเชื่อมโยงกันมากขึ้น เพื่อนำระบบเหล่านี้เข้าใกล้ความสามารถในการใช้เหตุผลในระดับมนุษย์ไปอีกขั้น

ความฝันเป็นก้าวแรกที่สำคัญ แต่ยังต้องทำอีกมาก แม้แต่การทำฉากอย่างละเอียดจาก DREAM ก็ยังไม่สมบูรณ์แบบ การสร้าง "แบบจำลองทางจิต" ที่แม่นยำ สม่ำเสมอ และมีประโยชน์จะเป็นทิศทางที่สดใสสำหรับงานในอนาคต

แม้ว่าคนๆ หนึ่งจะแน่ใจได้ว่า "หมาป่าดุร้าย" ไม่น่าจะ "สงบและผ่อนคลาย" แม้แต่โมเดล AI ที่ดีที่สุดก็ยังแสดงความสามารถดังกล่าวได้ไม่สม่ำเสมอ เราสนับสนุนให้นักวิจัยคนอื่นๆ สร้างผลงานของเรา ปรับปรุงโครงสร้างและคุณภาพของ "แบบจำลองทางจิต" ดังกล่าว และสำรวจการใช้แบบจำลองเหล่านี้ในการช่วยให้ระบบ AI ทำงานได้ดีขึ้น

หากต้องการอ่านเพิ่มเติม โปรดดูเอกสารของเรา“แค่ฝันถึงมัน: ความเข้าใจภาษาเชิงอุปมาอุปไมยด้วยความฝัน-ขลุ่ย”

ติดตาม@ai2_allennlpและ@allen_aiบน Twitter และสมัครรับจดหมายข่าว AI2เพื่อพูดคุยเกี่ยวกับข่าวสารและการวิจัยล่าสุดที่ออกมาจาก AI2