ส่วนหนึ่งของการติดแท็ก Speech (PoS)

การแท็กเป็นประเภทของการจัดประเภทที่อาจกำหนดเป็นการกำหนดคำอธิบายอัตโนมัติให้กับโทเค็น ในที่นี้ descriptor เรียกว่าแท็กซึ่งอาจแสดงถึงส่วนของคำพูดข้อมูลเชิงความหมายและอื่น ๆ

ตอนนี้ถ้าเราพูดถึงการติดแท็ก Part-of-Speech (PoS) มันอาจถูกกำหนดให้เป็นกระบวนการกำหนดส่วนใดส่วนหนึ่งของคำพูดให้กับคำที่กำหนด โดยทั่วไปเรียกว่าการติดแท็ก POS พูดง่ายๆเราสามารถพูดได้ว่าการติดแท็ก POS เป็นหน้าที่ในการติดป้ายกำกับคำแต่ละคำในประโยคด้วยส่วนของคำพูดที่เหมาะสม เรารู้อยู่แล้วว่าส่วนต่างๆของคำพูด ได้แก่ คำนามคำกริยาคำวิเศษณ์คำคุณศัพท์คำสรรพนามการรวมและหมวดหมู่ย่อย

การติดแท็ก POS ส่วนใหญ่อยู่ภายใต้การติดแท็ก Rule Base POS, การติดแท็ก Stochastic POS และการติดแท็กตามการเปลี่ยนแปลง

การติดแท็ก POS ตามกฎ

หนึ่งในเทคนิคการแท็กที่เก่าแก่ที่สุดคือการติดแท็ก POS ตามกฎ ผู้ติดแท็กตามกฎใช้พจนานุกรมหรือศัพท์เพื่อรับแท็กที่เป็นไปได้สำหรับการแท็กแต่ละคำ หากคำนั้นมีแท็กที่เป็นไปได้มากกว่าหนึ่งแท็กผู้ติดแท็กตามกฎจะใช้กฎที่เขียนด้วยมือเพื่อระบุแท็กที่ถูกต้อง นอกจากนี้ยังสามารถดำเนินการลดความสับสนในการติดแท็กตามกฎโดยการวิเคราะห์คุณลักษณะทางภาษาของคำพร้อมกับคำที่นำหน้าและคำต่อไปนี้ ตัวอย่างเช่นสมมติว่าคำที่นำหน้าของคำเป็นบทความคำนั้นต้องเป็นคำนาม

ตามชื่อที่แนะนำข้อมูลประเภทนี้ทั้งหมดในการติดแท็ก POS ตามกฎจะถูกเข้ารหัสในรูปแบบของกฎ กฎเหล่านี้อาจเป็นอย่างใดอย่างหนึ่ง -

  • กฎรูปแบบบริบท

  • หรือเป็นนิพจน์ทั่วไปที่คอมไพล์เป็นออโตมาตาที่มีเงื่อนไข จำกัด ตัดกับการแทนประโยคที่คลุมเครือ

นอกจากนี้เรายังสามารถเข้าใจการติดแท็ก POS ตามกฎด้วยสถาปัตยกรรมสองขั้นตอน -

  • First stage - ในขั้นแรกจะใช้พจนานุกรมเพื่อกำหนดรายการคำพูดที่เป็นไปได้แต่ละคำ

  • Second stage - ในขั้นตอนที่สองจะใช้รายการกฎการลดความสับสนที่เขียนด้วยมือจำนวนมากเพื่อจัดเรียงรายการเป็นส่วนหนึ่งของคำพูดสำหรับแต่ละคำ

คุณสมบัติของการติดแท็ก POS ตามกฎ

ผู้ติดแท็ก POS ตามกฎมีคุณสมบัติดังต่อไปนี้ -

  • ผู้ติดแท็กเหล่านี้เป็นนักแท็กที่ขับเคลื่อนด้วยความรู้

  • กฎในการติดแท็ก POS ตามกฎถูกสร้างขึ้นด้วยตนเอง

  • ข้อมูลถูกเข้ารหัสในรูปแบบของกฎ

  • เรามีกฎจำนวน จำกัด ประมาณ 1,000 ข้อ

  • การทำให้เรียบและการสร้างแบบจำลองภาษาถูกกำหนดไว้อย่างชัดเจนในแท็กเกอร์ที่อิงตามกฎ

การติดแท็ก Stochastic POS

อีกเทคนิคหนึ่งในการติดแท็กคือ Stochastic POS Tagging ตอนนี้คำถามที่เกิดขึ้นคือโมเดลใดที่สามารถสุ่มได้ แบบจำลองที่มีความถี่หรือความน่าจะเป็น (สถิติ) สามารถเรียกได้ว่าสุ่ม วิธีการต่างๆจำนวนมากสำหรับปัญหาของการติดแท็กบางส่วนของคำพูดสามารถเรียกว่า stochastic tagger

แท็กเกอร์สุ่มที่ง่ายที่สุดใช้วิธีการต่อไปนี้สำหรับการติดแท็ก POS -

แนวทางความถี่ของคำ

ด้วยวิธีนี้ผู้ติดแท็กสุ่มจะทำให้คำต่างๆไม่ชัดเจนโดยพิจารณาจากความน่าจะเป็นที่คำนั้นเกิดขึ้นกับแท็กหนึ่ง ๆ เรายังสามารถพูดได้ว่าแท็กที่พบบ่อยที่สุดกับคำในชุดการฝึกคือแท็กที่กำหนดให้กับอินสแตนซ์ของคำนั้นที่ไม่ชัดเจน ปัญหาหลักของวิธีนี้คืออาจให้ลำดับแท็กที่ยอมรับไม่ได้

ความน่าจะเป็นของลำดับแท็ก

เป็นอีกวิธีหนึ่งของการติดแท็กสุ่มโดยที่แท็กเกอร์จะคำนวณความน่าจะเป็นของลำดับแท็กที่กำหนด เรียกอีกอย่างว่าวิธี n-gram ถูกเรียกเช่นนี้เนื่องจากแท็กที่ดีที่สุดสำหรับคำหนึ่ง ๆ ถูกกำหนดโดยความน่าจะเป็นที่เกิดขึ้นกับ n แท็กก่อนหน้า

คุณสมบัติของ Stochastic POST Tagging

Stochastic POS taggers มีคุณสมบัติดังต่อไปนี้ -

  • การติดแท็ก POS นี้ขึ้นอยู่กับความน่าจะเป็นของการเกิดแท็ก

  • ต้องมีคลังข้อมูลการฝึกอบรม

  • คงไม่มีความเป็นไปได้สำหรับคำที่ไม่มีอยู่ในคลังข้อมูล

  • ใช้คลังข้อมูลการทดสอบที่แตกต่างกัน (นอกเหนือจากคลังข้อมูลการฝึกอบรม)

  • เป็นการติดแท็ก POS ที่ง่ายที่สุดเนื่องจากเลือกแท็กที่พบบ่อยที่สุดที่เกี่ยวข้องกับคำในคลังข้อมูลการฝึกอบรม

การแท็กตามการเปลี่ยนแปลง

การแท็กตามการเปลี่ยนแปลงเรียกอีกอย่างว่าการติดแท็ก Brill เป็นตัวอย่างของการเรียนรู้ตามการเปลี่ยนแปลง (TBL) ซึ่งเป็นอัลกอริทึมที่อิงตามกฎสำหรับการติดแท็ก POS อัตโนมัติไปยังข้อความที่กำหนด TBL ช่วยให้เรามีความรู้ทางภาษาในรูปแบบที่อ่านได้เปลี่ยนสถานะหนึ่งไปเป็นอีกสถานะหนึ่งโดยใช้กฎการเปลี่ยนแปลง

ได้รับแรงบันดาลใจจากทั้งแท็กเกอร์ที่อธิบายไว้ก่อนหน้านี้ - อิงตามกฎและสุ่ม หากเราเห็นความคล้ายคลึงกันระหว่างผู้ติดแท็กที่อิงกฎและแท็กเกอร์การเปลี่ยนแปลงเช่นเดียวกับกฎอิงตามกฎที่ระบุว่าต้องกำหนดแท็กให้กับคำใด ในทางกลับกันถ้าเราเห็นความคล้ายคลึงกันระหว่าง stochastic และ transformation tagger แล้วก็เหมือนกับ stochastic มันเป็นเทคนิคการเรียนรู้ของเครื่องที่กฎจะถูกชักนำโดยอัตโนมัติจากข้อมูล

การทำงานของการเรียนรู้จากการเปลี่ยนแปลง (TBL)

เพื่อให้เข้าใจถึงการทำงานและแนวคิดของแท็กเกอร์ตามการเปลี่ยนแปลงเราจำเป็นต้องเข้าใจการทำงานของการเรียนรู้ที่อิงกับการเปลี่ยนแปลง พิจารณาขั้นตอนต่อไปนี้เพื่อทำความเข้าใจการทำงานของ TBL -

  • Start with the solution - TBL มักจะเริ่มต้นด้วยวิธีแก้ปัญหาบางอย่างและทำงานเป็นรอบ

  • Most beneficial transformation chosen - ในแต่ละรอบ TBL จะเลือกการเปลี่ยนแปลงที่เป็นประโยชน์สูงสุด

  • Apply to the problem - การเปลี่ยนแปลงที่เลือกในขั้นตอนสุดท้ายจะถูกนำไปใช้กับปัญหา

อัลกอริทึมจะหยุดเมื่อการเปลี่ยนแปลงที่เลือกในขั้นตอนที่ 2 จะไม่เพิ่มมูลค่ามากขึ้นหรือไม่มีการเปลี่ยนแปลงให้เลือกอีก การเรียนรู้แบบนี้เหมาะที่สุดในงานจำแนกประเภท

ข้อดีของการเรียนรู้ตามการเปลี่ยนแปลง (TBL)

ข้อดีของ TBL มีดังนี้ -

  • เราเรียนรู้กฎง่ายๆชุดเล็กและกฎเหล่านี้เพียงพอสำหรับการติดแท็ก

  • การพัฒนาและการดีบักเป็นเรื่องง่ายมากใน TBL เนื่องจากกฎที่เรียนรู้นั้นเข้าใจง่าย

  • ความซับซ้อนในการติดแท็กจะลดลงเนื่องจากใน TBL มีการผสมผสานระหว่างกฎที่เครื่องจักรเรียนรู้และมนุษย์สร้างขึ้น

  • แท็กเกอร์ที่ใช้การเปลี่ยนแปลงนั้นเร็วกว่าแท็กเกอร์รุ่น Markov มาก

ข้อเสียของการเรียนรู้ตามการเปลี่ยนแปลง (TBL)

ข้อเสียของ TBL มีดังนี้ -

  • Transformation-based Learning (TBL) ไม่ได้ให้ความน่าจะเป็นของแท็ก

  • ใน TBL เวลาในการฝึกอบรมจะนานมากโดยเฉพาะในองค์กรขนาดใหญ่

Hidden Markov Model (HMM) POS Tagging

ก่อนที่จะเจาะลึกลงไปในการติดแท็ก HMM POS เราต้องเข้าใจแนวคิดของ Hidden Markov Model (HMM)

แบบจำลอง Markov ที่ซ่อนอยู่

แบบจำลอง HMM อาจถูกกำหนดให้เป็นแบบจำลองสุ่มที่ฝังตัวแบบทวีคูณซึ่งกระบวนการสุ่มตัวอย่างซ่อนอยู่ กระบวนการสุ่มที่ซ่อนอยู่นี้สามารถสังเกตได้ผ่านกระบวนการสุ่มอีกชุดที่สร้างลำดับของการสังเกตเท่านั้น

ตัวอย่าง

ตัวอย่างเช่นลำดับของการทดลองการโยนเหรียญที่ซ่อนอยู่เสร็จสิ้นแล้วและเราจะเห็นเฉพาะลำดับการสังเกตที่ประกอบด้วยหัวและก้อย รายละเอียดที่แท้จริงของกระบวนการ - จำนวนเหรียญที่ใช้ลำดับที่เลือก - ถูกซ่อนจากเรา ด้วยการสังเกตลำดับของหัวและหางนี้เราสามารถสร้าง HMM หลายตัวเพื่ออธิบายลำดับ ต่อไปนี้เป็นรูปแบบหนึ่งของ Hidden Markov Model สำหรับปัญหานี้ -

เราสันนิษฐานว่ามีสองสถานะใน HMM และแต่ละรัฐสอดคล้องกับการเลือกเหรียญที่มีอคติต่างกัน เมทริกซ์ต่อไปนี้ให้ความน่าจะเป็นในการเปลี่ยนสถานะ -

$$ A = \ begin {bmatrix} a11 & a12 \\ a21 & a22 \ end {bmatrix} $$

ที่นี่

  • aij = ความน่าจะเป็นของการเปลี่ยนจากสถานะหนึ่งไปเป็นอีกสถานะหนึ่งจาก i เป็น j

  • a11 + a12= 1 และ21 + a 22 = 1

  • P1 = ความน่าจะเป็นของหัวของเหรียญแรกคืออคติของเหรียญแรก

  • P2 = ความน่าจะเป็นของหัวของเหรียญที่สองคืออคติของเหรียญที่สอง

เรายังสามารถสร้างแบบจำลอง HMM โดยสมมติว่ามี 3 เหรียญขึ้นไป

ด้วยวิธีนี้เราสามารถกำหนดลักษณะของ HMM ตามองค์ประกอบต่อไปนี้ -

  • N จำนวนสถานะในโมเดล (ในตัวอย่างด้านบน N = 2 มีเพียงสองสถานะ)

  • M จำนวนการสังเกตที่แตกต่างกันที่สามารถปรากฏในแต่ละสถานะในตัวอย่างข้างต้น M = 2 เช่น H หรือ T)

  • A, การแจกแจงความน่าจะเป็นของการเปลี่ยนสถานะ - เมทริกซ์ A ในตัวอย่างข้างต้น

  • P, การแจกแจงความน่าจะเป็นของสัญลักษณ์ที่สังเกตได้ในแต่ละสถานะ (ในตัวอย่าง P1 และ P2)

  • I การแจกแจงสถานะเริ่มต้น

การใช้ HMM สำหรับการติดแท็ก POS

ขั้นตอนการติดแท็ก POS เป็นกระบวนการค้นหาลำดับของแท็กที่มักจะสร้างลำดับคำที่กำหนด เราสามารถจำลองกระบวนการ POS นี้ได้โดยใช้ Hidden Markov Model (HMM) โดยที่tags คือ hidden states ที่ผลิตไฟล์ observable output, กล่าวคือ words.

ในทางคณิตศาสตร์ในการติดแท็ก POS เรามักจะสนใจที่จะค้นหาลำดับแท็ก (C) ที่เพิ่ม -

P (C|W)

ที่ไหน

C = C 1 , C 2 , C 3 ... C T

W = W 1 , W 2 , W 3 , W T

ในอีกด้านหนึ่งของเหรียญความจริงก็คือเราต้องการข้อมูลทางสถิติจำนวนมากเพื่อประมาณลำดับประเภทดังกล่าวอย่างสมเหตุสมผล อย่างไรก็ตามเพื่อให้ปัญหาง่ายขึ้นเราสามารถใช้การแปลงทางคณิตศาสตร์ร่วมกับสมมติฐานบางอย่างได้

การใช้ HMM เพื่อทำการติดแท็ก POS เป็นกรณีพิเศษของการรบกวนแบบเบย์ ดังนั้นเราจะเริ่มต้นด้วยการแก้ไขปัญหาโดยใช้กฎของ Bayes ซึ่งกล่าวว่าความน่าจะเป็นเงื่อนไขดังกล่าวข้างต้นเท่ากับ -

(PROB (C1,..., CT) * PROB (W1,..., WT | C1,..., CT)) / PROB (W1,..., WT)

เราสามารถกำจัดตัวส่วนได้ในทุกกรณีเนื่องจากเราสนใจที่จะหาลำดับ C ซึ่งทำให้ค่าข้างต้นมีค่าสูงสุด สิ่งนี้จะไม่ส่งผลต่อคำตอบของเรา ตอนนี้ปัญหาของเราลดลงเป็นการค้นหาลำดับ C ที่ขยายใหญ่สุด -

PROB (C1,..., CT) * PROB (W1,..., WT | C1,..., CT) (1)

แม้ว่าจะลดปัญหาในนิพจน์ข้างต้นแล้ว แต่ก็ยังต้องใช้ข้อมูลจำนวนมาก เราสามารถตั้งสมมติฐานความเป็นอิสระอย่างสมเหตุสมผลเกี่ยวกับความน่าจะเป็นสองประการในนิพจน์ข้างต้นเพื่อเอาชนะปัญหา

ข้อสันนิษฐานแรก

ความน่าจะเป็นของแท็กขึ้นอยู่กับแท็กก่อนหน้า (โมเดลบิ๊กแรม) หรือสองแท็กก่อนหน้า (โมเดลตรีโกณมิติ) หรือแท็ก n ก่อนหน้า (แบบจำลอง n กรัม) ซึ่งในทางคณิตศาสตร์สามารถอธิบายได้ดังนี้ -

PROB (C1,..., CT) = Πi=1..T PROB (Ci|Ci-n+1…Ci-1) (n-gram model)

PROB (C1,..., CT) = Πi=1..T PROB (Ci|Ci-1) (bigram model)

จุดเริ่มต้นของประโยคสามารถคำนวณได้โดยการสมมติความน่าจะเป็นเริ่มต้นสำหรับแต่ละแท็ก

PROB (C1|C0) = PROB initial (C1)

สมมติฐานที่สอง

ความน่าจะเป็นที่สองในสมการ (1) ข้างต้นสามารถประมาณได้โดยสมมติว่าคำนั้นปรากฏในหมวดหมู่โดยไม่ขึ้นอยู่กับคำในหมวดหมู่ก่อนหน้าหรือต่อจากนี้ซึ่งสามารถอธิบายทางคณิตศาสตร์ได้ดังนี้ -

PROB (W1,..., WT | C1,..., CT) = Πi=1..T PROB (Wi|Ci)

ตอนนี้บนพื้นฐานของสมมติฐานสองข้อข้างต้นเป้าหมายของเราลดลงเป็นการค้นหาลำดับ C ที่เพิ่มประสิทธิภาพสูงสุด

Πi=1...T PROB(Ci|Ci-1) * PROB(Wi|Ci)

ตอนนี้คำถามที่เกิดขึ้นที่นี่คือการแปลงปัญหาเป็นแบบฟอร์มด้านบนช่วยเราได้มาก คำตอบคือ - ใช่มันมี หากเรามีคลังข้อมูลที่ติดแท็กขนาดใหญ่ความน่าจะเป็นสองประการในสูตรข้างต้นสามารถคำนวณได้ดังนี้ -

PROB (Ci=VERB|Ci-1=NOUN) = (# of instances where Verb follows Noun) / (# of instances where Noun appears) (2)

PROB (Wi|Ci) = (# of instances where Wi appears in Ci) /(# of instances where Ci appears) (3)