Gensim - บทนำ
บทนี้จะช่วยให้คุณเข้าใจประวัติและคุณสมบัติของ Gensim พร้อมกับการใช้งานและข้อดี
Gensim คืออะไร?
Gensim = “Generate Similar”เป็นไลบรารีการประมวลผลภาษาธรรมชาติแบบโอเพนซอร์ส (NLP) ยอดนิยมที่ใช้สำหรับการสร้างแบบจำลองหัวข้อที่ไม่ได้รับการดูแล ใช้แบบจำลองทางวิชาการชั้นนำและการเรียนรู้ของเครื่องจักรทางสถิติที่ทันสมัยเพื่อทำงานที่ซับซ้อนต่างๆเช่น -
- การสร้างเอกสารหรือเวกเตอร์คำ
- Corpora
- ทำการระบุหัวข้อ
- ทำการเปรียบเทียบเอกสาร (ดึงเอกสารที่มีความหมายคล้ายกัน)
- การวิเคราะห์เอกสารข้อความธรรมดาสำหรับโครงสร้างความหมาย
นอกเหนือจากการทำงานที่ซับซ้อนข้างต้นแล้ว Gensim ซึ่งใช้งานใน Python และ Cython ยังได้รับการออกแบบมาเพื่อจัดการกับคอลเลกชันข้อความขนาดใหญ่โดยใช้การสตรีมข้อมูลรวมถึงอัลกอริทึมออนไลน์ที่เพิ่มขึ้น สิ่งนี้ทำให้แตกต่างจากแพ็คเกจซอฟต์แวร์การเรียนรู้ของเครื่องที่กำหนดเป้าหมายการประมวลผลในหน่วยความจำเท่านั้น
ประวัติศาสตร์
ในปี 2008 Gensim เริ่มต้นจากการรวบรวมสคริปต์ Python ต่างๆสำหรับคณิตศาสตร์ดิจิทัลของเช็ก ที่นั่นทำหน้าที่สร้างรายการสั้น ๆ ของบทความที่คล้ายกันมากที่สุดกับบทความหนึ่ง ๆ แต่ในปี 2009 RARE Technologies Ltd. ได้เปิดตัวรุ่นแรก จากนั้นต่อมาในเดือนกรกฎาคม 2019 เรามีรุ่นที่เสถียร (3.8.0)
คุณสมบัติต่างๆ
ต่อไปนี้เป็นคุณสมบัติและความสามารถบางส่วนที่ Gensim นำเสนอ -
ความสามารถในการปรับขนาด
Gensim สามารถประมวลผลองค์กรขนาดใหญ่และขนาดบนเว็บได้อย่างง่ายดายโดยใช้อัลกอริธึมการฝึกอบรมออนไลน์ที่เพิ่มขึ้น โดยธรรมชาติสามารถปรับขนาดได้เนื่องจากไม่จำเป็นต้องให้คอร์ปัสอินพุตทั้งหมดอยู่ในหน่วยความจำเข้าถึงโดยสุ่ม (RAM) อย่างเต็มที่ในคราวเดียว กล่าวอีกนัยหนึ่งอัลกอริทึมทั้งหมดของมันขึ้นอยู่กับหน่วยความจำที่เกี่ยวข้องกับขนาดคลังข้อมูล
แข็งแกร่ง
Gensim มีความแข็งแกร่งตามธรรมชาติและถูกใช้งานในระบบต่างๆโดยผู้คนและองค์กรต่างๆมานานกว่า 4 ปี เราสามารถเสียบคอร์ปัสอินพุตหรือสตรีมข้อมูลของเราเองได้อย่างง่ายดาย นอกจากนี้ยังง่ายมากที่จะขยายด้วย Vector Space Algorithm อื่น ๆ
ไม่เชื่อเรื่องพระเจ้าของแพลตฟอร์ม
อย่างที่เราทราบกันดีว่า Python เป็นภาษาที่มีความหลากหลายมากเนื่องจาก Python Gensim ที่บริสุทธิ์ทำงานบนทุกแพลตฟอร์ม (เช่น Windows, Mac OS, Linux) ที่รองรับ Python และ Numpy
การใช้งานมัลติคอร์ที่มีประสิทธิภาพ
เพื่อเพิ่มความเร็วในการประมวลผลและการดึงข้อมูลบนคลัสเตอร์ของเครื่อง Gensim นำเสนอการใช้งานอัลกอริธึมยอดนิยมต่างๆแบบหลายคอร์อย่างมีประสิทธิภาพเช่น Latent Semantic Analysis (LSA), Latent Dirichlet Allocation (LDA), Random Projections (RP), Hierarchical Dirichlet Process (HDP).
โอเพ่นซอร์สและการสนับสนุนชุมชนมากมาย
Gensim ได้รับอนุญาตภายใต้ใบอนุญาต GNU LGPL ที่ได้รับการรับรองจาก OSI ซึ่งอนุญาตให้ใช้สำหรับการใช้งานส่วนตัวและเชิงพาณิชย์ได้ฟรี การปรับเปลี่ยนใด ๆ ที่เกิดขึ้นใน Gensim นั้นเป็นแบบโอเพนซอร์สและได้รับการสนับสนุนจากชุมชนมากมายเช่นกัน
การใช้ Gensim
Gensim ถูกใช้และอ้างถึงในแอพพลิเคชั่นเชิงพาณิชย์และวิชาการมากกว่าพันรายการ นอกจากนี้ยังมีการอ้างอิงจากเอกสารการวิจัยและวิทยานิพนธ์ของนักเรียนต่างๆ ซึ่งรวมถึงการใช้งานแบบขนานที่สตรีมดังต่อไปนี้ -
fastText
fastText ใช้เครือข่ายประสาทเทียมสำหรับการฝังคำเป็นห้องสมุดสำหรับการเรียนรู้การฝังคำและการจัดประเภทข้อความ สร้างโดยห้องปฏิบัติการ AI Research (FAIR) ของ Facebook โดยพื้นฐานแล้วแบบจำลองนี้ช่วยให้เราสามารถสร้างอัลกอริทึมภายใต้การดูแลหรือไม่ได้รับการดูแลเพื่อให้ได้การแสดงเวกเตอร์สำหรับคำต่างๆ
Word2vec
Word2vec ใช้ในการสร้างการฝังคำเป็นกลุ่มของแบบจำลองเครือข่ายประสาทเทียมแบบตื้นและแบบสองชั้น โดยพื้นฐานแล้วแบบจำลองนี้ได้รับการฝึกฝนมาเพื่อสร้างบริบททางภาษาของคำขึ้นใหม่
LSA (การวิเคราะห์ความหมายแฝง)
เป็นเทคนิคใน NLP (การประมวลผลภาษาธรรมชาติ) ที่ช่วยให้เราวิเคราะห์ความสัมพันธ์ระหว่างชุดเอกสารและคำศัพท์ที่มีอยู่ ทำได้โดยการสร้างชุดแนวคิดที่เกี่ยวข้องกับเอกสารและข้อกำหนด
LDA (การจัดสรร Dirichlet แฝง)
เป็นเทคนิคใน NLP ที่ช่วยให้ชุดการสังเกตสามารถอธิบายได้โดยกลุ่มที่ไม่ถูกสังเกต กลุ่มที่ไม่ถูกสังเกตเหล่านี้อธิบายว่าเหตุใดข้อมูลบางส่วนจึงคล้ายคลึงกัน นั่นคือเหตุผลที่เป็นแบบจำลองทางสถิติโดยกำเนิด
tf-idf (ความถี่คำ - ความถี่เอกสารผกผัน)
tf-idf ซึ่งเป็นสถิติตัวเลขในการดึงข้อมูลสะท้อนให้เห็นว่าคำหนึ่ง ๆ มีความสำคัญต่อเอกสารในคลังข้อมูลเพียงใด เครื่องมือค้นหามักใช้เพื่อให้คะแนนและจัดอันดับความเกี่ยวข้องของเอกสารตามคำค้นหาของผู้ใช้ นอกจากนี้ยังสามารถใช้สำหรับการกรองคำหยุดในการสรุปและการจัดหมวดหมู่ข้อความ
ทั้งหมดนี้จะอธิบายโดยละเอียดในหัวข้อถัดไป
ข้อดี
Gensim เป็นแพ็คเกจ NLP ที่ทำแบบจำลองหัวข้อ ข้อดีที่สำคัญของ Gensim มีดังนี้ -
เราอาจได้รับสิ่งอำนวยความสะดวกในการสร้างแบบจำลองหัวข้อและการฝังคำในแพ็คเกจอื่น ๆ เช่น ‘scikit-learn’ และ ‘R’แต่สิ่งอำนวยความสะดวกที่ Gensim จัดหาให้สำหรับการสร้างแบบจำลองหัวข้อและการฝังคำนั้นไม่มีใครเทียบได้ นอกจากนี้ยังมีสิ่งอำนวยความสะดวกเพิ่มเติมสำหรับการประมวลผลข้อความ
ข้อดีอีกอย่างที่สำคัญที่สุดของ Gensim คือช่วยให้เราจัดการไฟล์ข้อความขนาดใหญ่ได้โดยไม่ต้องโหลดทั้งไฟล์ในหน่วยความจำ
Gensim ไม่ต้องการคำอธิบายประกอบที่มีราคาแพงหรือการติดแท็กเอกสารด้วยมือเนื่องจากใช้แบบจำลองที่ไม่ได้รับการดูแล