जेनसिम - परिचय
यह अध्याय आपको इसके उपयोग और फायदे के साथ-साथ जेनसिम के इतिहास और विशेषताओं को समझने में मदद करेगा।
जेनसिम क्या है?
Gensim = “Generate Similar”एक लोकप्रिय ओपन सोर्स नेचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) लाइब्रेरी है, जिसका उपयोग अनछुए विषय मॉडलिंग के लिए किया जाता है। यह शीर्ष शैक्षणिक मॉडल और आधुनिक सांख्यिकीय मशीन सीखने का उपयोग करता है जैसे कि विभिन्न जटिल कार्यों को करने के लिए -
- भवन दस्तावेज़ या शब्द वैक्टर
- Corpora
- विषय की पहचान करना
- दस्तावेज़ तुलना करना (शब्दार्थ समान दस्तावेज़ों को प्राप्त करना)
- सिमेंटिक संरचना के लिए सादा-पाठ दस्तावेजों का विश्लेषण
उपरोक्त जटिल कार्यों को करने के अलावा, पायथन और साइथन में कार्यान्वित गेंसिम को डेटा स्ट्रीमिंग के साथ-साथ वृद्धिशील ऑनलाइन एल्गोरिदम का उपयोग करके बड़े पाठ संग्रह को संभालने के लिए डिज़ाइन किया गया है। यह उन मशीन लर्निंग सॉफ़्टवेयर पैकेजों से अलग बनाता है जो केवल इन-मेमोरी प्रोसेसिंग को लक्षित करते हैं।
इतिहास
2008 में, Gensim ने चेक डिजिटल गणित के लिए विभिन्न पायथन लिपियों के संग्रह के रूप में शुरुआत की। वहाँ, यह एक विशेष दिए गए लेख के लिए सबसे समान लेख की एक छोटी सूची उत्पन्न करने के लिए कार्य किया। लेकिन 2009 में, RARE Technologies Ltd. ने अपनी प्रारंभिक रिलीज़ जारी की। फिर, बाद में जुलाई 2019 में, हमें इसकी स्थिर रिलीज़ (3.8.0) मिली।
विभिन्न विशेषताएं
गेंसिम द्वारा पेश की गई कुछ विशेषताएं और क्षमताएं निम्नलिखित हैं -
अनुमापकता
Gensim अपने वृद्धिशील ऑनलाइन प्रशिक्षण एल्गोरिदम का उपयोग करके आसानी से बड़े और वेब-स्केल कॉर्पोरा को संसाधित कर सकता है। यह प्रकृति में स्केलेबल है, क्योंकि किसी भी समय रैंडम एक्सेस मेमोरी (रैम) में पूरी तरह से निवास करने के लिए पूरे इनपुट कॉर्पस की आवश्यकता नहीं है। दूसरे शब्दों में, इसके सभी एल्गोरिदम कॉर्पस आकार के संबंध में मेमोरी-स्वतंत्र हैं।
मजबूत
Gensim प्रकृति में मजबूत है और विभिन्न लोगों द्वारा विभिन्न प्रणालियों के साथ-साथ संगठनों में 4 वर्षों से उपयोग में है। हम आसानी से अपने स्वयं के इनपुट कॉर्पस या डेटा स्ट्रीम में प्लग कर सकते हैं। अन्य वेक्टर स्पेस एल्गोरिदम के साथ विस्तार करना भी बहुत आसान है।
मंच अज्ञेय
जैसा कि हम जानते हैं कि पायथन एक बहुत ही बहुमुखी भाषा है क्योंकि शुद्ध पायथन गेंसिम सभी प्लेटफार्मों (जैसे विंडोज, मैक ओएस, लिनक्स) पर चलता है जो पायथन और नेम्पी का समर्थन करता है।
कुशल मल्टीकोर कार्यान्वयन
मशीन समूहों पर प्रसंस्करण और पुनः प्राप्ति में तेजी लाने के लिए, Gensim विभिन्न लोकप्रिय एल्गोरिदम जैसे कुशल मल्टीकोर कार्यान्वयन प्रदान करता है Latent Semantic Analysis (LSA), Latent Dirichlet Allocation (LDA), Random Projections (RP), Hierarchical Dirichlet Process (HDP)।
मुक्त स्रोत और सामुदायिक सहायता की प्रचुरता
Gensim को OSI-स्वीकृत GNU LGPL लाइसेंस के तहत लाइसेंस दिया गया है जो इसे व्यक्तिगत और साथ ही साथ वाणिज्यिक उपयोग दोनों के लिए मुफ्त में उपयोग करने की अनुमति देता है। गेंसिम में किए गए कोई भी संशोधन खुले तौर पर किए गए हैं और इसमें सामुदायिक समर्थन भी प्रचुर मात्रा में है।
Gensim का उपयोग
Gensim का उपयोग किया गया है और हजार से अधिक वाणिज्यिक और शैक्षणिक अनुप्रयोगों में उद्धृत किया गया है। यह विभिन्न शोध पत्रों और छात्र शोधों द्वारा भी उद्धृत किया गया है। इसमें निम्नलिखित के सुव्यवस्थित समानांतर कार्यान्वयन शामिल हैं -
fastText
FastText, शब्द एम्बेडिंग के लिए एक तंत्रिका नेटवर्क का उपयोग करता है, शब्द एम्बेडिंग और पाठ वर्गीकरण के सीखने के लिए एक पुस्तकालय है। इसे फेसबुक की AI रिसर्च (FAIR) लैब ने बनाया है। यह मॉडल, मूल रूप से, हमें शब्दों के लिए वेक्टर अभ्यावेदन प्राप्त करने के लिए एक पर्यवेक्षित या अनुपयोगी एल्गोरिथ्म बनाने की अनुमति देता है।
Word2vec
Word2vec, शब्द एम्बेडिंग का उत्पादन करने के लिए उपयोग किया जाता है, उथले और दो-परत तंत्रिका नेटवर्क मॉडल का एक समूह है। मॉडल को मूल रूप से शब्दों के भाषाई संदर्भों को फिर से बनाने के लिए प्रशिक्षित किया जाता है।
LSA (अव्यक्त अर्थ विश्लेषण)
यह एनएलपी (प्राकृतिक भाषा प्रसंस्करण) में एक तकनीक है जो हमें दस्तावेजों के एक सेट और उनकी शर्तों के बीच संबंधों का विश्लेषण करने की अनुमति देती है। यह दस्तावेजों और शर्तों से संबंधित अवधारणाओं का एक सेट तैयार करके किया जाता है।
LDA (अव्यक्त डिरिचलेट आवंटन)
यह एनएलपी में एक तकनीक है जो अप्रमाणित समूहों द्वारा व्याख्या के सेट की अनुमति देता है। ये अनयूज्ड समूह बताते हैं कि डेटा के कुछ हिस्से समान क्यों हैं। यही कारण है कि, यह एक पीढ़ीगत सांख्यिकीय मॉडल है।
tf-idf (शब्द आवृत्ति-व्युत्क्रम दस्तावेज़ आवृत्ति)
tf-idf, सूचना पुनर्प्राप्ति में एक संख्यात्मक आँकड़ा, यह दर्शाता है कि एक कोष में एक दस्तावेज के लिए एक शब्द कितना महत्वपूर्ण है। इसका उपयोग अक्सर खोज इंजन द्वारा उपयोगकर्ता क्वेरी के लिए दस्तावेज़ की प्रासंगिकता को स्कोर करने और रैंक करने के लिए किया जाता है। इसका उपयोग पाठ संक्षेप और वर्गीकरण में स्टॉप-वर्ड फ़िल्टरिंग के लिए भी किया जा सकता है।
उन सभी को अगले खंडों में विस्तार से बताया जाएगा।
लाभ
Gensim एक NLP पैकेज है जो विषय मॉडलिंग करता है। Gensim के महत्वपूर्ण लाभ इस प्रकार हैं -
हमें विषय मॉडलिंग और शब्द एम्बेडिंग जैसी अन्य पैकेज में सुविधाएं मिल सकती हैं ‘scikit-learn’ तथा ‘R’, लेकिन विषय मॉडल और शब्द एम्बेडिंग के लिए गेंसिम द्वारा प्रदान की जाने वाली सुविधाएं अद्वितीय हैं। यह टेक्स्ट प्रोसेसिंग के लिए अधिक सुविधाजनक सुविधाएं भी प्रदान करता है।
Gensim का एक और सबसे महत्वपूर्ण लाभ यह है कि, यह हमें पूरी फ़ाइल को मेमोरी में लोड किए बिना भी बड़ी टेक्स्ट फ़ाइलों को संभालने देता है।
जेनसिम को महंगे एनोटेशन या दस्तावेजों की हैंड टैगिंग की आवश्यकता नहीं होती है क्योंकि यह अप्रकाशित मॉडल का उपयोग करता है।