Gensim - บทนำ

บทนี้จะช่วยให้คุณเข้าใจประวัติและคุณสมบัติของ Gensim พร้อมกับการใช้งานและข้อดี

Gensim คืออะไร?

Gensim = “Generate Similar”เป็นไลบรารีการประมวลผลภาษาธรรมชาติแบบโอเพนซอร์ส (NLP) ยอดนิยมที่ใช้สำหรับการสร้างแบบจำลองหัวข้อที่ไม่ได้รับการดูแล ใช้แบบจำลองทางวิชาการชั้นนำและการเรียนรู้ของเครื่องจักรทางสถิติที่ทันสมัยเพื่อทำงานที่ซับซ้อนต่างๆเช่น -

  • การสร้างเอกสารหรือเวกเตอร์คำ
  • Corpora
  • ทำการระบุหัวข้อ
  • ทำการเปรียบเทียบเอกสาร (ดึงเอกสารที่มีความหมายคล้ายกัน)
  • การวิเคราะห์เอกสารข้อความธรรมดาสำหรับโครงสร้างความหมาย

นอกเหนือจากการทำงานที่ซับซ้อนข้างต้นแล้ว Gensim ซึ่งใช้งานใน Python และ Cython ยังได้รับการออกแบบมาเพื่อจัดการกับคอลเลกชันข้อความขนาดใหญ่โดยใช้การสตรีมข้อมูลรวมถึงอัลกอริทึมออนไลน์ที่เพิ่มขึ้น สิ่งนี้ทำให้แตกต่างจากแพ็คเกจซอฟต์แวร์การเรียนรู้ของเครื่องที่กำหนดเป้าหมายการประมวลผลในหน่วยความจำเท่านั้น

ประวัติศาสตร์

ในปี 2008 Gensim เริ่มต้นจากการรวบรวมสคริปต์ Python ต่างๆสำหรับคณิตศาสตร์ดิจิทัลของเช็ก ที่นั่นทำหน้าที่สร้างรายการสั้น ๆ ของบทความที่คล้ายกันมากที่สุดกับบทความหนึ่ง ๆ แต่ในปี 2009 RARE Technologies Ltd. ได้เปิดตัวรุ่นแรก จากนั้นต่อมาในเดือนกรกฎาคม 2019 เรามีรุ่นที่เสถียร (3.8.0)

คุณสมบัติต่างๆ

ต่อไปนี้เป็นคุณสมบัติและความสามารถบางส่วนที่ Gensim นำเสนอ -

ความสามารถในการปรับขนาด

Gensim สามารถประมวลผลองค์กรขนาดใหญ่และขนาดบนเว็บได้อย่างง่ายดายโดยใช้อัลกอริธึมการฝึกอบรมออนไลน์ที่เพิ่มขึ้น โดยธรรมชาติสามารถปรับขนาดได้เนื่องจากไม่จำเป็นต้องให้คอร์ปัสอินพุตทั้งหมดอยู่ในหน่วยความจำเข้าถึงโดยสุ่ม (RAM) อย่างเต็มที่ในคราวเดียว กล่าวอีกนัยหนึ่งอัลกอริทึมทั้งหมดของมันขึ้นอยู่กับหน่วยความจำที่เกี่ยวข้องกับขนาดคลังข้อมูล

แข็งแกร่ง

Gensim มีความแข็งแกร่งตามธรรมชาติและถูกใช้งานในระบบต่างๆโดยผู้คนและองค์กรต่างๆมานานกว่า 4 ปี เราสามารถเสียบคอร์ปัสอินพุตหรือสตรีมข้อมูลของเราเองได้อย่างง่ายดาย นอกจากนี้ยังง่ายมากที่จะขยายด้วย Vector Space Algorithm อื่น ๆ

ไม่เชื่อเรื่องพระเจ้าของแพลตฟอร์ม

อย่างที่เราทราบกันดีว่า Python เป็นภาษาที่มีความหลากหลายมากเนื่องจาก Python Gensim ที่บริสุทธิ์ทำงานบนทุกแพลตฟอร์ม (เช่น Windows, Mac OS, Linux) ที่รองรับ Python และ Numpy

การใช้งานมัลติคอร์ที่มีประสิทธิภาพ

เพื่อเพิ่มความเร็วในการประมวลผลและการดึงข้อมูลบนคลัสเตอร์ของเครื่อง Gensim นำเสนอการใช้งานอัลกอริธึมยอดนิยมต่างๆแบบหลายคอร์อย่างมีประสิทธิภาพเช่น Latent Semantic Analysis (LSA), Latent Dirichlet Allocation (LDA), Random Projections (RP), Hierarchical Dirichlet Process (HDP).

โอเพ่นซอร์สและการสนับสนุนชุมชนมากมาย

Gensim ได้รับอนุญาตภายใต้ใบอนุญาต GNU LGPL ที่ได้รับการรับรองจาก OSI ซึ่งอนุญาตให้ใช้สำหรับการใช้งานส่วนตัวและเชิงพาณิชย์ได้ฟรี การปรับเปลี่ยนใด ๆ ที่เกิดขึ้นใน Gensim นั้นเป็นแบบโอเพนซอร์สและได้รับการสนับสนุนจากชุมชนมากมายเช่นกัน

การใช้ Gensim

Gensim ถูกใช้และอ้างถึงในแอพพลิเคชั่นเชิงพาณิชย์และวิชาการมากกว่าพันรายการ นอกจากนี้ยังมีการอ้างอิงจากเอกสารการวิจัยและวิทยานิพนธ์ของนักเรียนต่างๆ ซึ่งรวมถึงการใช้งานแบบขนานที่สตรีมดังต่อไปนี้ -

fastText

fastText ใช้เครือข่ายประสาทเทียมสำหรับการฝังคำเป็นห้องสมุดสำหรับการเรียนรู้การฝังคำและการจัดประเภทข้อความ สร้างโดยห้องปฏิบัติการ AI Research (FAIR) ของ Facebook โดยพื้นฐานแล้วแบบจำลองนี้ช่วยให้เราสามารถสร้างอัลกอริทึมภายใต้การดูแลหรือไม่ได้รับการดูแลเพื่อให้ได้การแสดงเวกเตอร์สำหรับคำต่างๆ

Word2vec

Word2vec ใช้ในการสร้างการฝังคำเป็นกลุ่มของแบบจำลองเครือข่ายประสาทเทียมแบบตื้นและแบบสองชั้น โดยพื้นฐานแล้วแบบจำลองนี้ได้รับการฝึกฝนมาเพื่อสร้างบริบททางภาษาของคำขึ้นใหม่

LSA (การวิเคราะห์ความหมายแฝง)

เป็นเทคนิคใน NLP (การประมวลผลภาษาธรรมชาติ) ที่ช่วยให้เราวิเคราะห์ความสัมพันธ์ระหว่างชุดเอกสารและคำศัพท์ที่มีอยู่ ทำได้โดยการสร้างชุดแนวคิดที่เกี่ยวข้องกับเอกสารและข้อกำหนด

LDA (การจัดสรร Dirichlet แฝง)

เป็นเทคนิคใน NLP ที่ช่วยให้ชุดการสังเกตสามารถอธิบายได้โดยกลุ่มที่ไม่ถูกสังเกต กลุ่มที่ไม่ถูกสังเกตเหล่านี้อธิบายว่าเหตุใดข้อมูลบางส่วนจึงคล้ายคลึงกัน นั่นคือเหตุผลที่เป็นแบบจำลองทางสถิติโดยกำเนิด

tf-idf (ความถี่คำ - ความถี่เอกสารผกผัน)

tf-idf ซึ่งเป็นสถิติตัวเลขในการดึงข้อมูลสะท้อนให้เห็นว่าคำหนึ่ง ๆ มีความสำคัญต่อเอกสารในคลังข้อมูลเพียงใด เครื่องมือค้นหามักใช้เพื่อให้คะแนนและจัดอันดับความเกี่ยวข้องของเอกสารตามคำค้นหาของผู้ใช้ นอกจากนี้ยังสามารถใช้สำหรับการกรองคำหยุดในการสรุปและการจัดหมวดหมู่ข้อความ

ทั้งหมดนี้จะอธิบายโดยละเอียดในหัวข้อถัดไป

ข้อดี

Gensim เป็นแพ็คเกจ NLP ที่ทำแบบจำลองหัวข้อ ข้อดีที่สำคัญของ Gensim มีดังนี้ -

  • เราอาจได้รับสิ่งอำนวยความสะดวกในการสร้างแบบจำลองหัวข้อและการฝังคำในแพ็คเกจอื่น ๆ เช่น ‘scikit-learn’ และ ‘R’แต่สิ่งอำนวยความสะดวกที่ Gensim จัดหาให้สำหรับการสร้างแบบจำลองหัวข้อและการฝังคำนั้นไม่มีใครเทียบได้ นอกจากนี้ยังมีสิ่งอำนวยความสะดวกเพิ่มเติมสำหรับการประมวลผลข้อความ

  • ข้อดีอีกอย่างที่สำคัญที่สุดของ Gensim คือช่วยให้เราจัดการไฟล์ข้อความขนาดใหญ่ได้โดยไม่ต้องโหลดทั้งไฟล์ในหน่วยความจำ

  • Gensim ไม่ต้องการคำอธิบายประกอบที่มีราคาแพงหรือการติดแท็กเอกสารด้วยมือเนื่องจากใช้แบบจำลองที่ไม่ได้รับการดูแล