Python - บทนำการประมวลผลข้อความ

การประมวลผลข้อความมีการประยุกต์ใช้โดยตรงกับการประมวลผลภาษาธรรมชาติหรือที่เรียกว่า NLP NLP มีเป้าหมายเพื่อประมวลผลภาษาที่มนุษย์พูดหรือเขียนเมื่อสื่อสารกัน สิ่งนี้แตกต่างจากการสื่อสารระหว่างคอมพิวเตอร์กับมนุษย์ที่การสื่อสารไร้ซึ่งโปรแกรมคอมพิวเตอร์ที่เขียนโดยมนุษย์หรือท่าทางของมนุษย์เช่นการคลิกเมาส์ในบางตำแหน่ง NLP พยายามที่จะเข้าใจภาษาธรรมชาติที่มนุษย์พูดและแยกประเภทวิเคราะห์ด้วยหากจำเป็นต้องตอบสนอง Python มีไลบรารีมากมายที่ตอบสนองความต้องการของ NLP Natural Language Tool Kit (NLTK) เป็นชุดของไลบรารีดังกล่าวซึ่งมีฟังก์ชันที่จำเป็นสำหรับ NLP

ด้านล่างนี้คือแอพพลิเคชั่นบางตัวที่ใช้ NLP และ NLTK ของ python ทางอ้อม

การสรุป

หลายครั้งเราจำเป็นต้องได้รับบทสรุปของบทความข่าวพล็อตภาพยนตร์หรือเรื่องใหญ่ พวกเขาทั้งหมดเขียนด้วยภาษามนุษย์และหากไม่มี NLP เราต้องพึ่งพาการตีความของมนุษย์อีกคนและการนำเสนอบทสรุปดังกล่าวให้เราทราบ แต่ด้วยความช่วยเหลือของ NLP เราสามารถเขียนโปรแกรมเพื่อใช้ NLTK และสรุปข้อความยาว ๆ ด้วยพารามิเตอร์ต่างๆเช่นเปอร์เซ็นต์ของข้อความที่เราต้องการในผลลัพธ์สุดท้ายคืออะไรการเลือกคำบวกและลบสำหรับการสรุปเป็นต้นฟีดข่าวออนไลน์ต้องอาศัย เกี่ยวกับเทคนิคการสรุปข้อมูลดังกล่าวเพื่อนำเสนอข้อมูลเชิงลึกของข่าวสาร

เครื่องมือที่ใช้เสียง

เครื่องมือที่ใช้เสียงเช่นแอปเปิ้ล Siri หรือ Amazon Alexa อาศัย NLP เพื่อทำความเข้าใจปฏิสัมพันธ์ที่บ้าคลั่งกับมนุษย์ พวกเขามีชุดข้อมูลการฝึกอบรมคำประโยคและไวยากรณ์ขนาดใหญ่เพื่อตีความคำถามหรือคำสั่งที่มาจากมนุษย์และประมวลผล แม้ว่ามันจะเกี่ยวกับเสียง แต่ในทางอ้อมก็ยังได้รับการแปลเป็นข้อความและรูปแบบข้อความที่เป็นเสียงจะถูกนำผ่านระบบ NLP เพื่อสร้างผลลัพธ์

การสกัดข้อมูล

Web scrapping เป็นตัวอย่างทั่วไปของการแยกข้อมูลจากเว็บเพจโดยใช้โค้ด python ที่นี่อาจไม่ได้ใช้ NLP อย่างเคร่งครัด แต่เกี่ยวข้องกับการประมวลผลข้อความ ตัวอย่างเช่นหากเราต้องการแยกเฉพาะส่วนหัวที่มีอยู่ในหน้า html เราจะมองหาโครงสร้างหน้า h1 tag int he และหาวิธีแยกข้อความระหว่างแท็กเหล่านั้นเท่านั้น สิ่งนี้ต้องการโปรแกรมประมวลผลข้อความจาก python

การกรองสแปม

สแปมในอีเมลสามารถระบุและกำจัดได้โดยการวิเคราะห์ข้อความในบรรทัดหัวเรื่องรวมทั้งในเนื้อหาของข้อความ เนื่องจากโดยปกติแล้วอีเมลขยะจะถูกส่งจำนวนมากไปยังผู้รับจำนวนมากแม้ว่าหัวเรื่องและเนื้อหาของพวกเขาจะมีรูปแบบที่แตกต่างกันเล็กน้อย แต่ก็สามารถจับคู่และติดแท็กเพื่อทำเครื่องหมายว่าเป็นสแปมได้อีกครั้งจึงต้องใช้ไลบรารี NLTK

การแปลภาษา

การแปลภาษาด้วยคอมพิวเตอร์ต้องอาศัย NLP เป็นอย่างมาก เนื่องจากมีการใช้ภาษามากขึ้นในแพลตฟอร์มออนไลน์จึงจำเป็นต้องทำให้การแปลจากภาษาของมนุษย์หนึ่งไปเป็นอีกภาษาหนึ่งโดยอัตโนมัติ ซึ่งจะเกี่ยวข้องกับการเขียนโปรแกรมเพื่อจัดการคำศัพท์ไวยากรณ์และการติดแท็กบริบทของภาษาที่เกี่ยวข้องกับการแปล อีกครั้ง NLTK ถูกใช้เพื่อจัดการกับข้อกำหนดดังกล่าว

การวิเคราะห์ความเชื่อมั่น

หากต้องการทราบปฏิกิริยาโดยรวมต่อการแสดงของภาพยนตร์เราอาจต้องอ่านโพสต์ความคิดเห็นหลายพันรายการจากผู้ชม แต่ก็สามารถทำได้โดยอัตโนมัติโดยใช้การจัดประเภทของข้อเสนอแนะเชิงบวกเชิงลบผ่านการวิเคราะห์คำและประโยค จากนั้นจึงวัดความถี่ของบทวิจารณ์เชิงบวกและเชิงลบเพื่อค้นหาความรู้สึกโดยรวมของผู้ชม เห็นได้ชัดว่าสิ่งนี้ต้องการการวิเคราะห์ภาษามนุษย์ที่เขียนโดยผู้ชมและ NLTK ถูกใช้อย่างมากในการประมวลผลข้อความ