AI - การประมวลผลภาษาธรรมชาติ

Natural Language Processing (NLP) หมายถึงวิธี AI ในการสื่อสารกับระบบอัจฉริยะโดยใช้ภาษาธรรมชาติเช่นภาษาอังกฤษ

จำเป็นต้องมีการประมวลผลภาษาธรรมชาติเมื่อคุณต้องการให้ระบบอัจฉริยะเช่นหุ่นยนต์ทำงานตามคำแนะนำของคุณเมื่อคุณต้องการฟังการตัดสินใจจากระบบผู้เชี่ยวชาญทางคลินิกตามบทสนทนาเป็นต้น

สาขา NLP เกี่ยวข้องกับการสร้างคอมพิวเตอร์เพื่อทำงานที่เป็นประโยชน์ด้วยภาษาธรรมชาติที่มนุษย์ใช้ อินพุตและเอาต์พุตของระบบ NLP สามารถ -

Speech
ข้อความที่เขียน

ส่วนประกอบของ NLP

มีสององค์ประกอบของ NLP ตามที่ระบุ -

การเข้าใจภาษาธรรมชาติ (NLU)

การทำความเข้าใจเกี่ยวข้องกับงานต่อไปนี้ -

การจับคู่ข้อมูลที่ป้อนในภาษาธรรมชาติให้เป็นการนำเสนอที่เป็นประโยชน์
การวิเคราะห์แง่มุมต่างๆของภาษา

การสร้างภาษาธรรมชาติ (NLG)

เป็นกระบวนการสร้างวลีและประโยคที่มีความหมายในรูปแบบของภาษาธรรมชาติจากการแสดงภายใน

มันเกี่ยวข้องกับ -

Text planning - รวมถึงการดึงเนื้อหาที่เกี่ยวข้องจากฐานความรู้
Sentence planning - รวมถึงการเลือกคำที่ต้องการการสร้างวลีที่มีความหมายการตั้งค่าเสียงของประโยค
Text Realization - เป็นการแมปแผนประโยคให้เป็นโครงสร้างประโยค

NLU ยากกว่า NLG

ความยากลำบากใน NLU

NL มีรูปแบบและโครงสร้างที่สมบูรณ์มาก

มันมีความคลุมเครือมาก อาจมีระดับความคลุมเครือที่แตกต่างกัน -

Lexical ambiguity - อยู่ในระดับดั้งเดิมมากเช่นระดับคำ
ตัวอย่างเช่นการปฏิบัติต่อคำว่า“ board” เป็นคำนามหรือคำกริยา?
Syntax Level ambiguity - สามารถแยกวิเคราะห์ประโยคได้หลายวิธี
ตัวอย่างเช่น“ เขาเลี้ยงด้วงด้วยหมวกสีแดง” - เขาใช้หมวกในการยกด้วงหรือเขายกด้วงที่มีฝาสีแดง?
Referential ambiguity- อ้างถึงบางสิ่งโดยใช้สรรพนาม ตัวอย่างเช่น Rima ไปที่ Gauri เธอบอกว่า“ ฉันเหนื่อย” - ใครกันแน่ที่เหนื่อย?
ข้อมูลหนึ่งอาจมีความหมายที่แตกต่างกัน
อินพุตจำนวนมากอาจหมายถึงสิ่งเดียวกัน

คำศัพท์ NLP

Phonology - เป็นการศึกษาการจัดระบบเสียงอย่างเป็นระบบ
Morphology - เป็นการศึกษาการสร้างคำจากหน่วยความหมายดั้งเดิม
Morpheme - เป็นหน่วยความหมายดั้งเดิมในภาษา
Syntax- หมายถึงการจัดเรียงคำเพื่อสร้างประโยค นอกจากนี้ยังเกี่ยวข้องกับการกำหนดบทบาทโครงสร้างของคำในประโยคและในวลี
Semantics - เกี่ยวข้องกับความหมายของคำและวิธีการรวมคำให้เป็นวลีและประโยคที่มีความหมาย
Pragmatics - เกี่ยวข้องกับการใช้และทำความเข้าใจประโยคในสถานการณ์ต่างๆและผลกระทบของการตีความประโยค
Discourse - เกี่ยวข้องกับว่าประโยคก่อนหน้าจะมีผลต่อการตีความของประโยคถัดไปอย่างไร
World Knowledge - รวมถึงความรู้ทั่วไปเกี่ยวกับโลก

ขั้นตอนใน NLP

มีห้าขั้นตอนทั่วไป -

Lexical Analysis- เกี่ยวข้องกับการระบุและวิเคราะห์โครงสร้างของคำ พจนานุกรมของภาษาหมายถึงการรวบรวมคำและวลีในภาษา การวิเคราะห์คำศัพท์คือการแบ่งส่วนทั้งหมดของ txt ออกเป็นย่อหน้าประโยคและคำ
Syntactic Analysis (Parsing)- เกี่ยวข้องกับการวิเคราะห์คำในประโยคสำหรับไวยากรณ์และการจัดเรียงคำในลักษณะที่แสดงความสัมพันธ์ระหว่างคำ ประโยคเช่น“ The school going to boy” ถูกปฏิเสธโดยเครื่องวิเคราะห์ไวยากรณ์ภาษาอังกฤษ

Semantic Analysis- ดึงความหมายที่แน่นอนหรือความหมายพจนานุกรมจากข้อความ ข้อความถูกตรวจสอบความหมาย ทำได้โดยการแมปโครงสร้างวากยสัมพันธ์และอ็อบเจ็กต์ในโดเมนงาน เครื่องวิเคราะห์ความหมายไม่สนใจประโยคเช่น“ ไอศกรีมร้อน”
Discourse Integration- ความหมายของประโยคใด ๆ ขึ้นอยู่กับความหมายของประโยคก่อนหน้านั้น นอกจากนี้ยังนำมาซึ่งความหมายของประโยคที่ประสบความสำเร็จในทันที
Pragmatic Analysis- ระหว่างนี้สิ่งที่พูดจะถูกตีความใหม่ว่ามันหมายถึงอะไร มันเกี่ยวข้องกับการได้มาซึ่งแง่มุมของภาษาซึ่งต้องใช้ความรู้ในโลกแห่งความเป็นจริง

การใช้งานด้านการวิเคราะห์วากยสัมพันธ์

มีนักวิจัยอัลกอริทึมจำนวนมากได้พัฒนาขึ้นสำหรับการวิเคราะห์วากยสัมพันธ์ แต่เราพิจารณาเฉพาะวิธีการง่ายๆดังต่อไปนี้ -

ไวยากรณ์ที่ไม่มีบริบท
ตัวแยกวิเคราะห์จากบนลงล่าง

ให้เราดูรายละเอียด -

ไวยากรณ์ที่ไม่มีบริบท

เป็นไวยากรณ์ที่ประกอบด้วยกฎที่มีสัญลักษณ์เดียวทางด้านซ้ายมือของกฎการเขียนซ้ำ ให้เราสร้างไวยากรณ์เพื่อแยกวิเคราะห์ประโยค -

“ นกจิกรวง”

Articles (DET)- ก | อัน | ที่

Nouns- นก | นก | เมล็ดข้าว | ธัญพืช

Noun Phrase (NP)- บทความ + นาม | ข้อ + คำคุณศัพท์ + น

= DET N | DET ADJ N

Verbs- จิก | จิก | จิก

Verb Phrase (VP)- NP V | V NP

Adjectives (ADJ)- สวย | เล็ก | ร้องเจี๊ยก ๆ

ต้นไม้แยกวิเคราะห์แบ่งประโยคออกเป็นส่วนที่มีโครงสร้างเพื่อให้คอมพิวเตอร์เข้าใจและประมวลผลได้ง่าย เพื่อให้อัลกอริทึมการแยกวิเคราะห์สร้างแผนผังการแยกวิเคราะห์นี้จำเป็นต้องสร้างชุดของกฎการเขียนซ้ำซึ่งอธิบายโครงสร้างของต้นไม้ที่ถูกกฎหมาย

กฎเหล่านี้บอกว่าสัญลักษณ์บางอย่างอาจถูกขยายในต้นไม้ตามลำดับของสัญลักษณ์อื่น ๆ ตามกฎลอจิกลำดับที่หนึ่งหากมีสองสตริง Noun Phrase (NP) และ Verb Phrase (VP) สตริงที่รวมกันด้วย NP ตามด้วย VP จะเป็นประโยค กฎการเขียนซ้ำสำหรับประโยคมีดังนี้ -

S → NP VP

NP → DET N | DET ADJ N

VP → V NP

Lexocon −

DET → a | ที่

ADJ →สวย | เกาะ

N →นก | นก | เมล็ดข้าว | ธัญพืช

V →จิก | จิก | จิก

สามารถสร้างต้นไม้แยกวิเคราะห์ได้ดังรูป -

ลองพิจารณากฎการเขียนซ้ำข้างต้น เนื่องจาก V สามารถถูกแทนที่ด้วยทั้งสองอย่าง "จิก" หรือ "จิก" ประโยคเช่น "นกจิกรวง" จึงอาจผิดได้ กล่าวคือข้อผิดพลาดข้อตกลงเรื่องกริยาได้รับการอนุมัติว่าถูกต้อง

Merit - รูปแบบไวยากรณ์ที่ง่ายที่สุดจึงใช้กันอย่างแพร่หลาย

Demerits −

พวกเขาไม่แม่นยำสูง ตัวอย่างเช่น“ เมล็ดข้าวจิกนก” เป็นคำที่ถูกต้องตามหลักไวยากรณ์ตามตัววิเคราะห์ แต่ถึงแม้จะไม่สมเหตุสมผล แต่โปรแกรมแยกวิเคราะห์ก็ถือว่าเป็นประโยคที่ถูกต้อง
เพื่อให้ได้ความแม่นยำสูงจำเป็นต้องเตรียมไวยากรณ์หลายชุด อาจต้องใช้ชุดกฎที่แตกต่างกันโดยสิ้นเชิงสำหรับการแยกวิเคราะห์รูปแบบเอกพจน์และพหูพจน์ประโยคแฝง ฯลฯ ซึ่งอาจนำไปสู่การสร้างกฎชุดใหญ่ที่ไม่สามารถจัดการได้

ตัวแยกวิเคราะห์จากบนลงล่าง

ที่นี่ตัวแยกวิเคราะห์จะเริ่มต้นด้วยสัญลักษณ์ S และพยายามเขียนซ้ำเป็นลำดับของสัญลักษณ์เทอร์มินัลที่ตรงกับคลาสของคำในประโยคอินพุตจนกว่าจะประกอบด้วยสัญลักษณ์เทอร์มินัลทั้งหมด

จากนั้นจะตรวจสอบประโยคอินพุตเพื่อดูว่าตรงกันหรือไม่ หากไม่เป็นเช่นนั้นกระบวนการจะเริ่มต้นใหม่อีกครั้งโดยใช้ชุดกฎอื่น สิ่งนี้จะทำซ้ำจนกว่าจะพบกฎเฉพาะซึ่งอธิบายโครงสร้างของประโยค

Merit - ใช้งานง่าย

Demerits −

ไม่มีประสิทธิภาพเนื่องจากต้องดำเนินการค้นหาซ้ำหากเกิดข้อผิดพลาด
ความเร็วในการทำงานช้า