การประมวลผลวาทกรรมภาษาธรรมชาติ

ปัญหาที่ยากที่สุดของ AI คือการประมวลผลภาษาธรรมชาติด้วยคอมพิวเตอร์หรืออีกนัยหนึ่งการประมวลผลภาษาธรรมชาติเป็นปัญหาที่ยากที่สุดของปัญญาประดิษฐ์ หากเราพูดถึงปัญหาที่สำคัญใน NLP ปัญหาสำคัญอย่างหนึ่งใน NLP คือการประมวลผลวาทกรรม - การสร้างทฤษฎีและแบบจำลองของคำพูดที่รวมกันเป็นรูปเป็นร่างcoherent discourse. จริงๆแล้วภาษามักประกอบด้วยกลุ่มประโยคที่เรียงต่อกันมีโครงสร้างและสอดคล้องกันมากกว่าประโยคที่แยกออกมาและไม่เกี่ยวข้องกันเช่นภาพยนตร์ กลุ่มประโยคที่เชื่อมโยงกันเหล่านี้เรียกว่าวาทกรรม

แนวคิดของการเชื่อมโยงกัน

การเชื่อมโยงกันและโครงสร้างของวาทกรรมมีความเชื่อมโยงกันในหลาย ๆ ด้าน การเชื่อมโยงกันพร้อมกับคุณสมบัติของข้อความที่ดีถูกใช้เพื่อประเมินคุณภาพผลลัพธ์ของระบบการสร้างภาษาธรรมชาติ คำถามที่เกิดขึ้นที่นี่คือข้อความที่สอดคล้องกันหมายความว่าอย่างไร? สมมติว่าเรารวบรวมประโยคหนึ่งจากหนังสือพิมพ์ทุกหน้าแล้วจะเป็นวาทกรรมหรือไม่? แน่นอนไม่ใช่ เป็นเพราะประโยคเหล่านี้ไม่แสดงความเชื่อมโยงกัน วาทกรรมที่สอดคล้องกันต้องมีคุณสมบัติดังต่อไปนี้ -

ความสัมพันธ์เชื่อมโยงระหว่างคำพูด

วาทกรรมจะสอดคล้องกันหากมีการเชื่อมโยงที่มีความหมายระหว่างคำพูดของมัน คุณสมบัตินี้เรียกว่าความสัมพันธ์เชื่อมโยงกัน ตัวอย่างเช่นต้องมีคำอธิบายบางอย่างเพื่อแสดงความเชื่อมโยงระหว่างคำพูด

ความสัมพันธ์ระหว่างเอนทิตี

คุณสมบัติอีกประการหนึ่งที่ทำให้วาทกรรมสอดคล้องกันคือต้องมีความสัมพันธ์บางอย่างกับเอนทิตี การเชื่อมโยงกันแบบนี้เรียกว่าการเชื่อมโยงตามเอนทิตี

โครงสร้างวาทกรรม

คำถามสำคัญเกี่ยวกับวาทกรรมคือวาทกรรมต้องมีโครงสร้างแบบไหน คำตอบสำหรับคำถามนี้ขึ้นอยู่กับการแบ่งกลุ่มที่เราใช้กับวาทกรรม การแบ่งส่วนของวาทกรรมอาจถูกกำหนดเป็นการกำหนดประเภทของโครงสร้างสำหรับวาทกรรมขนาดใหญ่ มันค่อนข้างยากที่จะใช้การแบ่งส่วนของวาทกรรม แต่มันสำคัญมากสำหรับinformation retrieval, text summarization and information extraction ประเภทของการใช้งาน

อัลกอริทึมสำหรับการแบ่งกลุ่มวาทกรรม

ในส่วนนี้เราจะเรียนรู้เกี่ยวกับอัลกอริทึมสำหรับการแบ่งส่วนวาทกรรม อัลกอริทึมอธิบายไว้ด้านล่าง -

การแบ่งกลุ่มวาทกรรมที่ไม่ได้รับการดูแล

ชั้นของการแบ่งกลุ่มวาทกรรมที่ไม่ได้รับการดูแลมักแสดงเป็นการแบ่งส่วนเชิงเส้น เราสามารถเข้าใจงานของการแบ่งส่วนเชิงเส้นด้วยความช่วยเหลือของตัวอย่าง ในตัวอย่างมีภารกิจในการแบ่งส่วนข้อความเป็นหน่วยหลายย่อหน้า หน่วยแสดงข้อความของข้อความต้นฉบับ อัลกอริทึมเหล่านี้ขึ้นอยู่กับการทำงานร่วมกันซึ่งอาจกำหนดได้ว่าเป็นการใช้อุปกรณ์ทางภาษาบางอย่างเพื่อผูกหน่วยข้อความเข้าด้วยกัน ในทางกลับกันคำศัพท์ที่เชื่อมโยงกันคือความสัมพันธ์ที่บ่งบอกโดยความสัมพันธ์ระหว่างคำสองคำหรือมากกว่าในสองหน่วยเช่นการใช้คำพ้องความหมาย

การแบ่งกลุ่มวาทกรรมภายใต้การดูแล

วิธีการก่อนหน้านี้ไม่มีขอบเขตส่วนที่ติดป้ายกำกับด้วยมือ ในทางกลับกันการแบ่งกลุ่มวาทกรรมภายใต้การดูแลจำเป็นต้องมีข้อมูลการฝึกอบรมที่มีป้ายกำกับขอบเขต มันง่ายมากที่จะได้รับสิ่งเดียวกัน ในการแบ่งกลุ่มวาทกรรมภายใต้การดูแลเครื่องหมายวาทกรรมหรือคำพูดมีบทบาทสำคัญ Discourse marker หรือ cue word คือคำหรือวลีที่ทำหน้าที่ส่งสัญญาณโครงสร้างวาทกรรม เครื่องหมายวาทกรรมเหล่านี้เป็นเครื่องหมายเฉพาะโดเมน

การเชื่อมโยงกันของข้อความ

การทำซ้ำคำศัพท์เป็นวิธีการค้นหาโครงสร้างในวาทกรรม แต่ไม่เป็นไปตามข้อกำหนดของการเป็นวาทกรรมที่สอดคล้องกัน เพื่อให้บรรลุวาทกรรมที่สอดคล้องกันเราต้องมุ่งเน้นไปที่ความสัมพันธ์เชื่อมโยงกันโดยเฉพาะ ดังที่เราทราบว่าความสัมพันธ์การเชื่อมโยงกันกำหนดความเชื่อมโยงที่เป็นไปได้ระหว่างคำพูดในวาทกรรม เฮ็บบ์ได้เสนอความสัมพันธ์เช่นนี้ดังนี้ -

เราใช้เวลาสองเทอม S₀ และ S₁ เพื่อแสดงความหมายของสองประโยคที่เกี่ยวข้อง -

ผลลัพธ์

อนุมานได้ว่ารัฐยืนยันตามระยะ S₀ อาจทำให้รัฐถูกกล่าวหาโดย S₁. ตัวอย่างเช่นข้อความสองข้อความแสดงผลลัพธ์ความสัมพันธ์: Ram ถูกไฟไหม้ ผิวหนังของเขาไหม้

คำอธิบาย

มันอนุมานได้ว่ารัฐยืนยันโดย S₁ อาจทำให้รัฐถูกกล่าวหาโดย S₀. ตัวอย่างเช่นข้อความสองข้อความแสดงความสัมพันธ์ - รามต่อสู้กับเพื่อนของชยัม เขาเมา

ขนาน

มันอนุมาน p (a1, a2, …) จากการยืนยันของ S₀ และ p (b1, b2, …) จากการยืนยัน S₁. ที่นี่ ai และ bi คล้ายกันสำหรับ i ทั้งหมด ตัวอย่างเช่นสองคำสั่งขนานกัน - Ram ต้องการรถ ชยัมต้องการเงิน

ความประณีต

มันอนุมานประพจน์ P เดียวกันจากทั้งสองการยืนยัน - S₀ และ S₁ตัวอย่างเช่นสองข้อความแสดงความสัมพันธ์โดยละเอียด: รามมาจากจั ณ ฑีครห์ Shyam มาจาก Kerala

โอกาส

มันเกิดขึ้นเมื่อสามารถอนุมานการเปลี่ยนแปลงของสถานะได้จากการยืนยันของ S₀สถานะสุดท้ายที่สามารถอนุมานได้ S₁และในทางกลับกัน. ตัวอย่างเช่นข้อความสองข้อความแสดงโอกาสความสัมพันธ์: รามหยิบหนังสือขึ้นมา เขามอบให้ชยัม

การสร้างโครงสร้างวาทกรรมตามลำดับชั้น

การเชื่อมโยงกันของวาทกรรมทั้งหมดสามารถพิจารณาได้จากโครงสร้างลำดับชั้นระหว่างความสัมพันธ์แบบเชื่อมโยงกัน ตัวอย่างเช่นข้อความต่อไปนี้สามารถแสดงเป็นโครงสร้างลำดับชั้น -

S₁ - รามไปที่ธนาคารเพื่อฝากเงิน
S₂ - จากนั้นเขาก็นั่งรถไฟไปที่ร้านขายผ้าของ Shyam
S₃ - เขาต้องการซื้อเสื้อผ้า
S₄ - เขาไม่มีเสื้อผ้าใหม่สำหรับปาร์ตี้
S₅ - เขาอยากคุยกับชยัมเกี่ยวกับสุขภาพของเขาด้วย

ความละเอียดอ้างอิง

การตีความประโยคจากวาทกรรมใด ๆ เป็นงานที่สำคัญอีกอย่างหนึ่งและเพื่อให้บรรลุเป้าหมายนี้เราจำเป็นต้องรู้ว่าใครหรือหน่วยงานใดที่กำลังพูดถึง ที่นี่การอ้างอิงการตีความเป็นองค์ประกอบสำคัญReferenceอาจถูกกำหนดให้เป็นนิพจน์ทางภาษาเพื่อแสดงถึงเอนทิตีหรือบุคคล ยกตัวอย่างเช่นในทางเดิน, Ram , ผู้จัดการของธนาคารเอบีซีเห็นของเขาเพื่อนยัมที่ร้าน เขาไปพบเขาสำนวนภาษาศาสตร์เช่นรามเขาเขาอ้างอิง

ในบันทึกเดียวกัน reference resolution อาจถูกกำหนดให้เป็นภารกิจในการพิจารณาว่าเอนทิตีใดถูกอ้างถึงโดยนิพจน์ทางภาษาศาสตร์

คำศัพท์ที่ใช้ในการแก้ปัญหาการอ้างอิง

เราใช้คำศัพท์ต่อไปนี้ในการแก้ปัญหาอ้างอิง -

Referring expression- นิพจน์ภาษาธรรมชาติที่ใช้ในการอ้างอิงเรียกว่านิพจน์อ้างอิง ตัวอย่างเช่นข้อความที่ใช้ข้างต้นเป็นนิพจน์อ้างอิง
Referent- เป็นเอนทิตีที่อ้างถึง ตัวอย่างเช่นในตัวอย่างสุดท้ายที่กำหนด Ram เป็นตัวอ้างอิง
Corefer- เมื่อใช้สองนิพจน์เพื่ออ้างถึงเอนทิตีเดียวกันจะเรียกว่าคอร์เฟอร์ ตัวอย่างเช่น,Ram และ he เป็น corefers
Antecedent- คำนี้มีใบอนุญาตให้ใช้คำอื่นได้ ตัวอย่างเช่น,Ram เป็นค่าก่อนหน้าของการอ้างอิง he.
Anaphora & Anaphoric- อาจหมายถึงการอ้างอิงถึงเอนทิตีที่ได้รับการแนะนำก่อนหน้านี้ในประโยค และนิพจน์อ้างอิงเรียกว่า anaphoric
Discourse model - แบบจำลองที่มีการนำเสนอของเอนทิตีที่ถูกอ้างถึงในวาทกรรมและความสัมพันธ์ที่พวกเขามีส่วนร่วม

ประเภทของนิพจน์อ้างอิง

ตอนนี้ให้เราดูนิพจน์การอ้างอิงประเภทต่างๆ นิพจน์การอ้างอิงห้าประเภทได้อธิบายไว้ด้านล่าง -

วลีคำนามไม่แน่นอน

การอ้างอิงแบบนี้แสดงถึงเอนทิตีที่ใหม่สำหรับผู้ฟังในบริบทของวาทกรรม ตัวอย่างเช่น - ในประโยคที่ Ram ไปรอบ ๆ วันหนึ่งเพื่อนำอาหารมาให้เขา - บางส่วนเป็นข้อมูลอ้างอิงที่ไม่มีกำหนด

วลีคำนามที่แน่นอน

ตรงข้ามกับข้างต้นการอ้างอิงประเภทนี้แสดงถึงเอนทิตีที่ไม่ใหม่หรือระบุตัวตนได้ให้ผู้ฟังเข้าสู่บริบทของวาทกรรม ตัวอย่างเช่นในประโยค - ฉันเคยอ่าน The Times of India - The Times of India เป็นการอ้างอิงที่ชัดเจน

สรรพนาม

มันเป็นรูปแบบของการอ้างอิงที่แน่นอน ตัวอย่างเช่นรามหัวเราะดังที่สุดเท่าที่จะทำได้ คำhe แสดงถึงนิพจน์ที่อ้างถึงสรรพนาม

การสาธิต

สิ่งเหล่านี้แสดงให้เห็นและมีพฤติกรรมที่แตกต่างจากคำสรรพนามที่เรียบง่าย ตัวอย่างเช่นนี่และนั่นคือคำสรรพนามที่แสดงให้เห็น

ชื่อ

เป็นนิพจน์อ้างอิงประเภทที่ง่ายที่สุด อาจเป็นชื่อบุคคลองค์กรและสถานที่ได้ด้วย ตัวอย่างเช่นในตัวอย่างข้างต้น Ram เป็นนิพจน์การตัดสินชื่อ

งานการแก้ปัญหาการอ้างอิง

งานการแก้ปัญหาการอ้างอิงสองงานได้อธิบายไว้ด้านล่าง

ความละเอียดของ Coreference

เป็นหน้าที่ในการค้นหานิพจน์อ้างอิงในข้อความที่อ้างถึงเอนทิตีเดียวกัน พูดง่ายๆคือเป็นหน้าที่ในการค้นหานิพจน์ของคอร์เฟอร์ ชุดของนิพจน์ coreferring เรียกว่า coreference chain ตัวอย่างเช่น - เขาหัวหน้าผู้จัดการและเขา - สิ่งเหล่านี้หมายถึงนิพจน์ในข้อความแรกที่ให้ไว้เป็นตัวอย่าง

ข้อ จำกัด เกี่ยวกับความละเอียดของ Coreference

ในภาษาอังกฤษปัญหาหลักสำหรับการแก้ปัญหาแกนกลางคือสรรพนาม เหตุผลที่อยู่เบื้องหลังนี้คือคำสรรพนามมีประโยชน์มากมาย ตัวอย่างเช่นสามารถอ้างถึงเขาและเธอได้มาก สรรพนามยังหมายถึงสิ่งที่ไม่ได้หมายถึงสิ่งที่เฉพาะเจาะจง ตัวอย่างเช่นฝนตก มันดีจริงๆ.

ความละเอียด Anaphora Pronominal

ซึ่งแตกต่างจากความละเอียดของ coreference การแก้ปัญหา anaphora แบบสรรพนามอาจถูกกำหนดให้เป็นภารกิจในการค้นหาคำนำหน้าสำหรับคำสรรพนามเดียว ตัวอย่างเช่นสรรพนามเป็นของเขาและงานของการแก้ปัญหา anaphora สรรพนามคือการค้นหาคำว่า Ram เนื่องจาก Ram เป็นคำก่อนหน้า