NLP - Word Sense Disambiguation

เราเข้าใจว่าคำต่างๆมีความหมายที่แตกต่างกันตามบริบทของการใช้งานในประโยค ถ้าเราพูดถึงภาษาของมนุษย์พวกเขาก็มีความคลุมเครือเช่นกันเพราะหลายคำสามารถตีความได้หลายวิธีขึ้นอยู่กับบริบทของสิ่งที่เกิดขึ้น

การเปลี่ยนความรู้สึกของคำในการประมวลผลภาษาธรรมชาติ (NLP) อาจถูกกำหนดให้เป็นความสามารถในการกำหนดความหมายของคำที่เปิดใช้งานโดยการใช้คำในบริบทเฉพาะ ความคลุมเครือของคำศัพท์วากยสัมพันธ์หรือความหมายเป็นปัญหาแรก ๆ ที่ระบบ NLP ต้องเผชิญ เครื่องแท็กแบบ Part-of-speech (POS) ที่มีความแม่นยำระดับสูงสามารถแก้ปัญหาความคลุมเครือทางไวยากรณ์ของ Word ได้ ในทางกลับกันปัญหาในการแก้ไขความคลุมเครือทางความหมายเรียกว่า WSD (word sense disambiguation) การแก้ไขความคลุมเครือทางความหมายนั้นยากกว่าการแก้ไขความคลุมเครือทางไวยากรณ์

ตัวอย่างเช่นพิจารณาสองตัวอย่างของความหมายที่แตกต่างกันที่มีอยู่สำหรับคำนั้น “bass” -

  • ฉันได้ยินเสียงเบส

  • เขาชอบกินเนื้อย่างเบส

การเกิดขึ้นของคำ bassแสดงถึงความหมายที่แตกต่างอย่างชัดเจน ในประโยคแรกหมายถึงfrequency และประการที่สองก็หมายความว่า fish. ดังนั้นหาก WSD ถูกทำให้สับสนจึงสามารถกำหนดความหมายที่ถูกต้องให้กับประโยคข้างต้นได้ดังนี้ -

  • ฉันได้ยินเสียงเบส / ความถี่

  • เขาชอบกินปลากะพง / ปลาย่าง

การประเมิน WSD

การประเมิน WSD ต้องการอินพุตสองอินพุตต่อไปนี้ -

พจนานุกรม

อินพุตแรกสำหรับการประเมิน WSD คือพจนานุกรมซึ่งใช้เพื่อระบุความรู้สึกที่จะทำให้เกิดความสับสน

ทดสอบ Corpus

อินพุตอื่นที่ WSD ต้องการคือคลังข้อมูลการทดสอบที่มีคำอธิบายประกอบสูงซึ่งมีเป้าหมายหรือความรู้สึกที่ถูกต้อง องค์กรทดสอบมีสองประเภท & minsu;

  • Lexical sample - corpora ประเภทนี้ถูกใช้ในระบบซึ่งจำเป็นต้องทำให้เข้าใจผิดกับตัวอย่างคำเล็กน้อย

  • All-words - Corpora ประเภทนี้ใช้ในระบบซึ่งคาดว่าจะทำให้คำทั้งหมดไม่ชัดเจนในข้อความที่กำลังทำงานอยู่

แนวทางและวิธีการในการ Disambiguation Word Sense (WSD)

แนวทางและวิธีการในการ WSD จำแนกตามแหล่งความรู้ที่ใช้ในการลดความบกพร่องของคำ

ตอนนี้ให้เราดูสี่วิธีธรรมดาสำหรับ WSD -

วิธีการตามพจนานุกรมหรือตามความรู้

ตามชื่อที่แนะนำสำหรับการทำให้เข้าใจผิดวิธีการเหล่านี้ส่วนใหญ่อาศัยพจนานุกรมสมบัติและฐานความรู้คำศัพท์ พวกเขาไม่ใช้หลักฐานทางองค์กรเพื่อทำให้เกิดความสับสน วิธี Lesk เป็นวิธีการตามพจนานุกรมเซมินัลที่นำโดย Michael Lesk ในปี 1986 คำจำกัดความของ Lesk ซึ่งใช้อัลกอริทึม Lesk คือ“measure overlap between sense definitions for all words in context”. อย่างไรก็ตามในปี 2000 Kilgarriff และ Rosensweig ได้ให้คำจำกัดความของ Lesk ที่ง่ายขึ้นว่า“measure overlap between sense definitions of word and current context”ซึ่งหมายถึงการระบุความรู้สึกที่ถูกต้องทีละคำ บริบทปัจจุบันคือชุดของคำในประโยคหรือย่อหน้าโดยรอบ

วิธีการภายใต้การดูแล

สำหรับการลดความสับสนวิธีการเรียนรู้ของเครื่องใช้ประโยชน์จากองค์กรที่มีคำอธิบายประกอบในการฝึกอบรม วิธีการเหล่านี้ถือว่าบริบทสามารถให้หลักฐานเพียงพอในตัวมันเองที่จะทำให้ความรู้สึกไม่ชัดเจน ในวิธีการเหล่านี้ความรู้และการให้เหตุผลถือเป็นสิ่งที่ไม่จำเป็น บริบทจะแสดงเป็นชุดของ "คุณลักษณะ" ของคำ รวมถึงข้อมูลเกี่ยวกับคำรอบข้างด้วย สนับสนุนเครื่องเวกเตอร์และการเรียนรู้โดยใช้หน่วยความจำเป็นวิธีการเรียนรู้ภายใต้การดูแลที่ประสบความสำเร็จมากที่สุดสำหรับ WSD วิธีการเหล่านี้ขึ้นอยู่กับ corpora ที่ติดแท็กด้วยตนเองจำนวนมากซึ่งมีราคาแพงมากในการสร้าง

วิธีการกึ่งดูแล

เนื่องจากไม่มีคลังข้อมูลการฝึกอบรมอัลกอริธึมการลดทอนความรู้สึกส่วนใหญ่จึงใช้วิธีการเรียนรู้แบบกึ่งมีผู้ดูแล เป็นเพราะวิธีการกึ่งดูแลใช้ทั้งข้อมูลที่มีป้ายกำกับและไม่มีป้ายกำกับ วิธีการเหล่านี้ต้องการข้อความที่มีคำอธิบายประกอบจำนวนน้อยมากและข้อความธรรมดาที่ไม่มีคำอธิบายประกอบจำนวนมาก เทคนิคที่ใช้โดยวิธีกึ่งดูแลคือการบูตจากข้อมูลเมล็ดพันธุ์

วิธีการที่ไม่ได้รับการดูแล

วิธีการเหล่านี้ถือว่าความรู้สึกที่คล้ายคลึงกันเกิดขึ้นในบริบทที่คล้ายคลึงกัน นั่นคือเหตุผลที่ความรู้สึกสามารถถูกกระตุ้นจากข้อความโดยการจัดกลุ่มคำที่เกิดขึ้นโดยใช้การวัดความคล้ายคลึงกันของบริบท งานนี้เรียกว่าการชักนำความรู้สึกหรือการเลือกปฏิบัติ วิธีการที่ไม่ได้รับการดูแลมีศักยภาพที่ดีในการเอาชนะคอขวดในการได้มาซึ่งความรู้เนื่องจากการไม่พึ่งพาความพยายามด้วยตนเอง

การประยุกต์ใช้ Word Sense Disambiguation (WSD)

Word Sense disambiguation (WSD) ถูกนำไปใช้ในเกือบทุกแอพพลิเคชั่นของเทคโนโลยีภาษา

ตอนนี้ให้เราดูขอบเขตของ WSD -

การแปลด้วยเครื่อง

การแปลด้วยเครื่องหรือ MT เป็นแอปพลิเคชั่นที่ชัดเจนที่สุดของ WSD ใน MT การเลือกคำศัพท์สำหรับคำที่มีการแปลที่แตกต่างกันสำหรับความรู้สึกที่แตกต่างกันนั้นดำเนินการโดย WSD ความรู้สึกใน MT แสดงเป็นคำในภาษาเป้าหมาย ระบบแปลภาษาด้วยเครื่องส่วนใหญ่ไม่ใช้โมดูล WSD ที่ชัดเจน

การดึงข้อมูล (IR)

การดึงข้อมูล (IR) อาจถูกกำหนดให้เป็นโปรแกรมซอฟต์แวร์ที่เกี่ยวข้องกับองค์กรการจัดเก็บการค้นคืนและการประเมินข้อมูลจากที่เก็บเอกสารโดยเฉพาะข้อมูลที่เป็นข้อความ โดยพื้นฐานแล้วระบบจะช่วยผู้ใช้ในการค้นหาข้อมูลที่ต้องการ แต่จะไม่ส่งคืนคำตอบของคำถามอย่างชัดเจน WSD ใช้เพื่อแก้ไขความไม่ชัดเจนของแบบสอบถามที่ให้ไว้กับระบบ IR เช่นเดียวกับ MT ระบบ IR ในปัจจุบันไม่ได้ใช้โมดูล WSD อย่างชัดเจนและอาศัยแนวคิดที่ว่าผู้ใช้จะพิมพ์บริบทที่เพียงพอในแบบสอบถามเพื่อดึงเฉพาะเอกสารที่เกี่ยวข้องเท่านั้น

การขุดข้อความและการสกัดข้อมูล (IE)

ในแอปพลิเคชันส่วนใหญ่ WSD จำเป็นต้องทำการวิเคราะห์ข้อความอย่างถูกต้อง ตัวอย่างเช่น WSD ช่วยให้ระบบรวบรวมอัจฉริยะทำการตั้งค่าสถานะคำที่ถูกต้อง ตัวอย่างเช่นระบบอัจฉริยะทางการแพทย์อาจต้องการการตั้งค่าสถานะ "ยาผิดกฎหมาย" มากกว่า "ยาทางการแพทย์"

พจนานุกรมศัพท์

WSD และพจนานุกรมสามารถทำงานร่วมกันแบบวนซ้ำได้เนื่องจากพจนานุกรมสมัยใหม่มีการใช้ข้อมูล ด้วยคำศัพท์ WSD ให้การจัดกลุ่มความรู้สึกเชิงประจักษ์อย่างคร่าวๆรวมทั้งตัวบ่งชี้ความรู้สึกตามบริบทที่มีนัยสำคัญทางสถิติ

ปัญหาในการลดความสับสนของ Word Sense (WSD)

สิ่งต่อไปนี้เป็นปัญหาบางประการที่ต้องเผชิญกับการเปลี่ยนความรู้สึกของคำ (WSD) -

ความแตกต่างระหว่างพจนานุกรม

ปัญหาสำคัญของ WSD คือการตัดสินความหมายของคำเพราะประสาทสัมผัสที่แตกต่างกันอาจมีความสัมพันธ์กันอย่างใกล้ชิด แม้แต่พจนานุกรมและพจนานุกรมที่แตกต่างกันก็สามารถแบ่งคำต่างๆออกเป็นความรู้สึกได้

อัลกอริทึมที่แตกต่างกันสำหรับการใช้งานที่แตกต่างกัน

ปัญหาอีกประการหนึ่งของ WSD คืออัลกอริทึมที่แตกต่างกันอย่างสิ้นเชิงอาจจำเป็นสำหรับแอปพลิเคชันที่แตกต่างกัน ตัวอย่างเช่นในการแปลด้วยเครื่องจะใช้รูปแบบของการเลือกคำเป้าหมาย และในการดึงข้อมูลไม่จำเป็นต้องมีการจัดเก็บข้อมูลทางความรู้สึก

ความแปรปรวนระหว่างผู้พิพากษา

ปัญหาอีกประการหนึ่งของ WSD คือโดยทั่วไประบบ WSD จะได้รับการทดสอบโดยให้ผลลัพธ์ของพวกเขาในงานเปรียบเทียบกับงานของมนุษย์ สิ่งนี้เรียกว่าปัญหาของความแปรปรวนระหว่างการตัดสิน

ความไม่เข้าใจในคำพูด

ความยากอีกประการหนึ่งใน WSD คือคำไม่สามารถแบ่งออกเป็นคำย่อยที่ไม่ต่อเนื่องได้อย่างง่ายดาย