पायथन के साथ एआई - एनएलटीके पैकेज
इस अध्याय में, हम सीखेंगे कि प्राकृतिक भाषा टूलकिट पैकेज से कैसे शुरुआत करें।
शर्त
अगर हम नैचुरल लैंग्वेज प्रोसेसिंग के साथ एप्लिकेशन बनाना चाहते हैं तो संदर्भ में बदलाव सबसे मुश्किल है। संदर्भ कारक प्रभावित करता है कि मशीन किसी विशेष वाक्य को कैसे समझती है। इसलिए, हमें मशीन लर्निंग एप्रोच का उपयोग करके नेचुरल लैंग्वेज एप्लिकेशन विकसित करने की आवश्यकता है ताकि मशीन उस तरीके को भी समझ सके जिस तरह से इंसान संदर्भ को समझ सकता है।
ऐसे अनुप्रयोगों के निर्माण के लिए हम NLTK (प्राकृतिक भाषा टूलकिट पैकेज) नामक पायथन पैकेज का उपयोग करेंगे।
एनएलटीके आयात कर रहा है
हमें इसका उपयोग करने से पहले एनएलटीके स्थापित करना होगा। इसे निम्नलिखित कमांड की सहायता से स्थापित किया जा सकता है -
pip install nltk
एनएलटीके के लिए एक कोंडा पैकेज बनाने के लिए, निम्नलिखित कमांड का उपयोग करें -
conda install -c anaconda nltk
अब NLTK पैकेज स्थापित करने के बाद, हमें इसे अजगर कमांड प्रॉम्प्ट के माध्यम से आयात करना होगा। हम पायथन कमांड प्रॉम्प्ट पर निम्नलिखित कमांड लिखकर इसे आयात कर सकते हैं -
>>> import nltk
एनएलटीके डेटा डाउनलोड करना
अब एनएलटीके आयात करने के बाद, हमें आवश्यक डेटा डाउनलोड करना होगा। यह पायथन कमांड प्रॉम्प्ट पर निम्नलिखित कमांड की मदद से किया जा सकता है -
>>> nltk.download()
अन्य आवश्यक पैकेजों को स्थापित करना
एनएलटीके का उपयोग करके प्राकृतिक भाषा प्रसंस्करण अनुप्रयोगों के निर्माण के लिए, हमें आवश्यक पैकेज स्थापित करने की आवश्यकता है। पैकेज इस प्रकार हैं -
gensim
यह एक मजबूत सिमेंटिक मॉडलिंग लाइब्रेरी है जो कई अनुप्रयोगों के लिए उपयोगी है। हम इसे निम्नलिखित कमांड निष्पादित करके स्थापित कर सकते हैं -
pip install gensim
प्रतिरूप
इसका उपयोग बनाने के लिए किया जाता है gensimपैकेज ठीक से काम करते हैं। हम इसे निम्नलिखित कमांड निष्पादित करके स्थापित कर सकते हैं
pip install pattern
टोकनाइजेशन, स्टेमिंग और लेमेटेटाइजेशन की अवधारणा
इस खंड में, हम समझेंगे कि क्या है टोकेनाइजेशन, स्टेमिंग और लेमेटेटाइजेशन।
tokenization
इसे दिए गए पाठ को तोड़ने की प्रक्रिया के रूप में परिभाषित किया जा सकता है, अर्थात् छोटी इकाइयों में वर्ण क्रम जिसे टोकन कहा जाता है। टोकन शब्द, संख्या या विराम चिह्न हो सकते हैं। इसे शब्द विभाजन भी कहा जाता है। निम्नलिखित टोकनकरण का एक सरल उदाहरण है -
Input - आम, केला, अनानास और सेब सभी फल हैं।
Output -
दिए गए पाठ को तोड़ने की प्रक्रिया शब्द सीमाओं का पता लगाने की मदद से की जा सकती है। किसी शब्द के अंत और एक नए शब्द की शुरुआत को शब्द सीमा कहा जाता है। लेखन प्रणाली और शब्दों की टाइपोग्राफिक संरचना सीमाओं को प्रभावित करती है।
पायथन एनएलटीके मॉड्यूल में, हमारे पास टोकनेशन से संबंधित अलग-अलग पैकेज हैं जिन्हें हम अपनी आवश्यकताओं के अनुसार पाठ को टोकन में विभाजित करने के लिए उपयोग कर सकते हैं। कुछ पैकेज इस प्रकार हैं -
sent_tokenize पैकेज
जैसा कि नाम से पता चलता है, यह पैकेज इनपुट टेक्स्ट को वाक्यों में विभाजित करेगा। हम निम्नलिखित पायथन कोड की मदद से इस पैकेज को आयात कर सकते हैं -
from nltk.tokenize import sent_tokenize
word_tokenize पैकेज
यह पैकेज इनपुट टेक्स्ट को शब्दों में विभाजित करता है। हम निम्नलिखित पायथन कोड की मदद से इस पैकेज को आयात कर सकते हैं -
from nltk.tokenize import word_tokenize
WordPunctTokenizer पैकेज
यह पैकेज इनपुट टेक्स्ट को शब्दों के साथ-साथ विराम चिह्नों में विभाजित करता है। हम निम्नलिखित पायथन कोड की मदद से इस पैकेज को आयात कर सकते हैं -
from nltk.tokenize import WordPuncttokenizer
स्टेमिंग
शब्दों के साथ काम करते समय, हम व्याकरणिक कारणों से बहुत भिन्नताएं प्राप्त करते हैं। यहां भिन्नताओं की अवधारणा का मतलब है कि हमें एक ही शब्द के विभिन्न रूपों से निपटना होगाdemocracy, democratic, तथा democratization। मशीनों के लिए यह समझना बहुत आवश्यक है कि इन विभिन्न शब्दों का आधार आधार एक ही है। इस तरह, पाठ का विश्लेषण करते समय शब्दों के आधार रूपों को निकालना उपयोगी होगा।
हम इसे स्टेम करके प्राप्त कर सकते हैं। इस तरह, हम कह सकते हैं कि शब्दों के आधारों को काटकर शब्दों के आधार रूपों को निकालने की विधिवत् प्रक्रिया है।
पायथन एनएलटीके मॉड्यूल में, हमारे पास स्टेमिंग से संबंधित विभिन्न पैकेज हैं। इन पैकेजों का उपयोग शब्द के आधार रूपों को प्राप्त करने के लिए किया जा सकता है। ये पैकेज एल्गोरिदम का उपयोग करते हैं। कुछ पैकेज इस प्रकार हैं -
पोर्टरस्टेमर पैकेज
यह पायथन पैकेज बेस फॉर्म को निकालने के लिए पोर्टर के एल्गोरिदम का उपयोग करता है। हम निम्नलिखित पायथन कोड की मदद से इस पैकेज को आयात कर सकते हैं -
from nltk.stem.porter import PorterStemmer
उदाहरण के लिए, यदि हम शब्द देंगे ‘writing’ इस स्टेम के इनपुट के रूप में हम उन्हें शब्द प्राप्त करेंगे ‘write’ उपजी के बाद।
LancasterStemmer पैकेज
यह पायथन पैकेज बेस फॉर्म को निकालने के लिए लैंकेस्टर के एल्गोरिथ्म का उपयोग करेगा। हम निम्नलिखित पायथन कोड की मदद से इस पैकेज को आयात कर सकते हैं -
from nltk.stem.lancaster import LancasterStemmer
उदाहरण के लिए, यदि हम शब्द देंगे ‘writing’ इस स्टेम के इनपुट के रूप में हम उन्हें शब्द प्राप्त करेंगे ‘write’ उपजी के बाद।
स्नोबॉल स्टीमर पैकेज
यह पायथन पैकेज बेस फॉर्म को निकालने के लिए स्नोबॉल के एल्गोरिथ्म का उपयोग करेगा। हम निम्नलिखित पायथन कोड की मदद से इस पैकेज को आयात कर सकते हैं -
from nltk.stem.snowball import SnowballStemmer
उदाहरण के लिए, यदि हम शब्द देंगे ‘writing’ इस स्टेम के इनपुट के रूप में हम उन्हें शब्द प्राप्त करेंगे ‘write’ उपजी के बाद।
इन सभी एल्गोरिदम में सख्ती के विभिन्न स्तर हैं। अगर हम इन तीनों स्टेमर्स की तुलना करें तो पोर्टर स्टेमर्स सबसे कम सख्त हैं और लैंकेस्टर सबसे सख्त है। स्नोबॉल स्टेमर गति के साथ-साथ सख्ती के मामले में उपयोग करने के लिए अच्छा है।
lemmatization
हम शब्दों के आधार रूप को भी लेमेट्रीकरण द्वारा निकाल सकते हैं। यह मूल रूप से शब्दों की शब्दावली और रूपात्मक विश्लेषण के उपयोग के साथ होता है, जो आमतौर पर केवल विभक्ति अंत को हटाने के लिए लक्षित होता है। किसी भी शब्द के इस प्रकार के आधार रूप को लेम्मा कहा जाता है।
स्टेमिंग और लेमेटेटाइजेशन के बीच मुख्य अंतर शब्दों की शब्दावली और रूपात्मक विश्लेषण का उपयोग है। एक और अंतर यह है कि आमतौर पर सबसे अधिक संबंधित शब्द व्युत्पन्न रूप से संबंधित होते हैं, जबकि लेटमैटाइजेशन आमतौर पर एक लेम्मा के विभिन्न विभक्ति रूपों को ध्वस्त कर देता है। उदाहरण के लिए, यदि हम देखे गए शब्द को इनपुट शब्द के रूप में प्रदान करते हैं, तो स्टेमिंग शब्द 'एस' को वापस कर सकता है, लेकिन लेमेटेटाइजेशन शब्द को या तो देखने या देखने के लिए लौटने का प्रयास करेगा, जो इस बात पर निर्भर करता है कि टोकन का उपयोग एक क्रिया या एक संज्ञा थी।
पायथन एनएलटीके मॉड्यूल में, हमारे पास लेमैटाइजेशन प्रक्रिया से संबंधित निम्नलिखित पैकेज है, जिसका उपयोग हम शब्द के आधार रूपों को प्राप्त करने के लिए कर सकते हैं -
WordNetLemmatizer पैकेज
यह पायथन पैकेज शब्द के आधार रूप को इस आधार पर निकालेगा कि यह संज्ञा के रूप में उपयोग किया जाता है या क्रिया के रूप में। हम निम्नलिखित पायथन कोड की मदद से इस पैकेज को आयात कर सकते हैं -
from nltk.stem import WordNetLemmatizer
चूनिंग: डेटा को चंक्स में विभाजित करना
यह प्राकृतिक भाषा प्रसंस्करण में महत्वपूर्ण प्रक्रियाओं में से एक है। चोकिंग का मुख्य काम भाषण के हिस्सों और संज्ञा वाक्यांशों जैसे छोटे वाक्यांशों की पहचान करना है। हमने टोकन के निर्माण, टोकन के निर्माण की प्रक्रिया का पहले ही अध्ययन किया है। मूल रूप से चूनिंग उन टोकन की लेबलिंग है। दूसरे शब्दों में, chunking हमें वाक्य की संरचना दिखाएगी।
निम्नलिखित अनुभाग में, हम विभिन्न प्रकार के चिनकिंग के बारे में जानेंगे।
चुंकने के प्रकार
दो प्रकार के मंथन होते हैं। प्रकार इस प्रकार हैं -
चौका लगाना
चुंचिंग की इस प्रक्रिया में, वस्तु, चीजें आदि अधिक सामान्य होने की ओर बढ़ते हैं और भाषा अधिक सारगर्भित हो जाती है। समझौते की अधिक संभावनाएं हैं। इस प्रक्रिया में, हम ज़ूम आउट करते हैं। उदाहरण के लिए, यदि हम इस प्रश्न को काट देंगे कि “किस उद्देश्य से कार चल रही है”? हमें जवाब "परिवहन" मिल सकता है।
ठिठुरा हुआ
चुंचिंग की इस प्रक्रिया में, वस्तु, चीजें आदि अधिक विशिष्ट होने की ओर बढ़ते हैं और भाषा अधिक घुस जाती है। गहरी संरचना की जांच नीचे की ओर करने में की जाएगी। इस प्रक्रिया में, हम ज़ूम इन करते हैं। उदाहरण के लिए, यदि हम इस सवाल को काटते हैं कि "विशेष रूप से कार के बारे में बताएं" हमें कार के बारे में जानकारी के छोटे टुकड़े मिलेंगे।
Example
इस उदाहरण में, हम Noun-Phrase chunking करेंगे, चूनिंग की एक श्रेणी जो पायथन में NLTK मॉड्यूल का उपयोग करके वाक्य में संज्ञा वाक्यांशों को जोड़ेंगे,
Follow these steps in python for implementing noun phrase chunking −
Step 1- इस चरण में, हमें व्याकरण को व्याकरण में परिभाषित करने की आवश्यकता है। इसमें उन नियमों का समावेश होगा, जिनका हमें पालन करने की आवश्यकता है।
Step 2- इस चरण में, हमें एक चकोर पार्सर बनाने की आवश्यकता है। यह व्याकरण को पार्स करेगा और आउटपुट देगा।
Step 3 - इस अंतिम चरण में, आउटपुट एक ट्री प्रारूप में निर्मित होता है।
आइये निम्नानुसार आवश्यक एनएलटीके पैकेज का आयात करें -
import nltk
अब, हमें वाक्य को परिभाषित करने की आवश्यकता है। यहाँ, DT का अर्थ है निर्धारक, VBP का अर्थ है क्रिया, JJ का अर्थ है विशेषण, IN का अर्थ है पूर्वसर्ग और NN का अर्थ है संज्ञा।
sentence=[("a","DT"),("clever","JJ"),("fox","NN"),("was","VBP"),
("jumping","VBP"),("over","IN"),("the","DT"),("wall","NN")]
अब, हमें व्याकरण देने की आवश्यकता है। यहां, हम व्याकरण को नियमित अभिव्यक्ति के रूप में देंगे।
grammar = "NP:{<DT>?<JJ>*<NN>}"
हमें एक पार्सर को परिभाषित करना होगा जो व्याकरण को पार्स करेगा।
parser_chunking = nltk.RegexpParser(grammar)
पार्सर वाक्य को इस प्रकार बताता है -
parser_chunking.parse(sentence)
अगला, हमें आउटपुट प्राप्त करने की आवश्यकता है। आउटपुट साधारण चर में उत्पन्न होता है जिसे कहा जाता हैoutput_chunk।
Output_chunk = parser_chunking.parse(sentence)
निम्नलिखित कोड के निष्पादन पर, हम अपने उत्पादन को एक पेड़ के रूप में आकर्षित कर सकते हैं।
output.draw()
शब्द का शब्द (BoW) मॉडल
बैग ऑफ वर्ड (BoW), प्राकृतिक भाषा प्रसंस्करण में एक मॉडल, मूल रूप से पाठ से सुविधाओं को निकालने के लिए उपयोग किया जाता है ताकि पाठ का उपयोग मॉडलिंग में किया जा सके जैसे कि मशीन लर्निंग एल्गोरिदम में।
अब प्रश्न उठता है कि हमें पाठ से विशेषताएँ निकालने की आवश्यकता क्यों है। ऐसा इसलिए है क्योंकि मशीन लर्निंग एल्गोरिदम कच्चे डेटा के साथ काम नहीं कर सकते हैं और उन्हें संख्यात्मक डेटा की आवश्यकता होती है ताकि वे इसके बारे में सार्थक जानकारी निकाल सकें। संख्यात्मक डेटा में टेक्स्ट डेटा के रूपांतरण को फीचर निष्कर्षण या फीचर एन्कोडिंग कहा जाता है।
यह काम किस प्रकार करता है
पाठ से सुविधाओं को निकालने के लिए यह बहुत सरल तरीका है। मान लें कि हमारे पास एक टेक्स्ट डॉक्यूमेंट है और हम इसे न्यूमेरिक डेटा में बदलना चाहते हैं या कहें कि इसमें से फीचर्स निकालना चाहते हैं, तो सबसे पहले यह मॉडल डॉक्यूमेंट के सभी शब्दों में से एक शब्दावली निकालता है। फिर एक दस्तावेज़ शब्द मैट्रिक्स का उपयोग करके, यह एक मॉडल का निर्माण करेगा। इस तरह, BoW केवल शब्दों के एक बैग के रूप में दस्तावेज़ का प्रतिनिधित्व करता है। दस्तावेज़ में शब्दों के क्रम या संरचना के बारे में कोई भी जानकारी नहीं दी गई है।
दस्तावेज़ शब्द मैट्रिक्स की अवधारणा
BoW एल्गोरिथ्म दस्तावेज़ अवधि मैट्रिक्स का उपयोग करके एक मॉडल बनाता है। जैसा कि नाम से पता चलता है, दस्तावेज़ शब्द मैट्रिक्स दस्तावेज़ में होने वाली विभिन्न शब्द गणनाओं का मैट्रिक्स है। इस मैट्रिक्स की मदद से, पाठ दस्तावेज़ को विभिन्न शब्दों के भारित संयोजन के रूप में दर्शाया जा सकता है। थ्रेशोल्ड सेट करके और अधिक सार्थक शब्द चुनने पर, हम उन सभी शब्दों के हिस्टोग्राम का निर्माण दस्तावेजों में कर सकते हैं, जिन्हें फीचर वेक्टर के रूप में इस्तेमाल किया जा सकता है। दस्तावेज़ शब्द मैट्रिक्स की अवधारणा को समझने के लिए एक उदाहरण निम्नलिखित है -
Example
मान लें कि हमारे पास निम्नलिखित दो वाक्य हैं -
Sentence 1 - हम बैग्स ऑफ वर्ड्स मॉडल का उपयोग कर रहे हैं।
Sentence 2 - सुविधाओं को निकालने के लिए बैग ऑफ़ वर्ड्स मॉडल का उपयोग किया जाता है।
अब, इन दो वाक्यों पर विचार करके, हमारे पास निम्नलिखित १३ अलग-अलग शब्द हैं -
- we
- are
- using
- the
- bag
- of
- words
- model
- is
- used
- for
- extracting
- features
अब, हमें प्रत्येक वाक्य में शब्द गणना का उपयोग करके प्रत्येक वाक्य के लिए एक हिस्टोग्राम बनाने की आवश्यकता है -
Sentence 1 - [1,1,1,1,1,1,1,1,0,0,0,0,0]
Sentence 2 - [0,0,0,1,1,1,1,1,1,1,1,1,1]
इस तरह, हमारे पास फीचर वैक्टर हैं जिन्हें निकाला गया है। प्रत्येक सुविधा वेक्टर 13-आयामी है क्योंकि हमारे पास 13 अलग-अलग शब्द हैं।
सांख्यिकी की अवधारणा
आँकड़ों की अवधारणा को टर्मफ़्रीक्वेंसी-इनवर्स डॉक्यूमेंट फ़्रीक्वेंसी (tf-idf) कहा जाता है। दस्तावेज़ में प्रत्येक शब्द महत्वपूर्ण है। आँकड़े हमें हर शब्द के महत्व को समझने में मदद करते हैं।
टर्म फ़्रीक्वेंसी (tf)
यह एक माप है कि किसी दस्तावेज़ में प्रत्येक शब्द कितनी बार दिखाई देता है। यह किसी दिए गए दस्तावेज़ में प्रत्येक शब्द की गिनती को शब्दों की कुल संख्या से विभाजित करके प्राप्त किया जा सकता है।
उलटा दस्तावेज़ फ़्रिक्वेंसी (आईडीएफ)
यह इस बात का माप है कि दस्तावेजों के दिए गए सेट में इस दस्तावेज़ के लिए कितना अनूठा शब्द है। आईडीएफ की गणना करने और एक विशिष्ट सुविधा वेक्टर तैयार करने के लिए, हमें आमतौर पर होने वाले शब्दों के वजन को कम करने और दुर्लभ शब्दों को तौलना चाहिए।
एनएलटीके में शब्दों के मॉडल का एक बैग का निर्माण
इस खंड में, हम इन वाक्यों से वैक्टर बनाने के लिए CountVectorizer का उपयोग करके स्ट्रिंग्स के एक संग्रह को परिभाषित करेंगे।
हमें आवश्यक पैकेज आयात करें -
from sklearn.feature_extraction.text import CountVectorizer
अब वाक्यों के सेट को परिभाषित करें।
Sentences = ['We are using the Bag of Word model', 'Bag of Word model is
used for extracting the features.']
vectorizer_count = CountVectorizer()
features_text = vectorizer.fit_transform(Sentences).todense()
print(vectorizer.vocabulary_)
उपरोक्त प्रोग्राम आउटपुट को उत्पन्न करता है जैसा कि नीचे दिखाया गया है। यह दर्शाता है कि उपरोक्त दो वाक्यों में हमारे 13 अलग-अलग शब्द हैं -
{'we': 11, 'are': 0, 'using': 10, 'the': 8, 'bag': 1, 'of': 7,
'word': 12, 'model': 6, 'is': 5, 'used': 9, 'for': 4, 'extracting': 2, 'features': 3}
ये फ़ीचर वैक्टर (न्यूमेरिक रूप में पाठ) हैं जिनका उपयोग मशीन लर्निंग के लिए किया जा सकता है।
समस्याओं को सुलझाना
इस खंड में, हम कुछ संबंधित समस्याओं को हल करेंगे।
श्रेणी की भविष्यवाणी
दस्तावेजों के एक सेट में, न केवल शब्द बल्कि शब्दों की श्रेणी भी महत्वपूर्ण है; पाठ की किस श्रेणी में एक विशेष शब्द गिरता है। उदाहरण के लिए, हम यह अनुमान लगाना चाहते हैं कि क्या दिए गए वाक्य श्रेणी के ईमेल, समाचार, खेल, कंप्यूटर आदि से संबंधित हैं, निम्नलिखित उदाहरण में, हम दस्तावेजों की श्रेणी खोजने के लिए एक फीचर वेक्टर बनाने के लिए tf-idf का उपयोग करने जा रहे हैं। हम sklearn के 20 समाचारसमूह डेटासेट से डेटा का उपयोग करेंगे।
हमें आवश्यक पैकेज आयात करने की आवश्यकता है -
from sklearn.datasets import fetch_20newsgroups
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
श्रेणी के नक्शे को परिभाषित करें। हम धर्म, ऑटो, खेल, इलेक्ट्रॉनिक्स और अंतरिक्ष नाम की पांच अलग-अलग श्रेणियों का उपयोग कर रहे हैं।
category_map = {'talk.religion.misc':'Religion','rec.autos''Autos',
'rec.sport.hockey':'Hockey','sci.electronics':'Electronics', 'sci.space': 'Space'}
प्रशिक्षण सेट बनाएं -
training_data = fetch_20newsgroups(subset = 'train',
categories = category_map.keys(), shuffle = True, random_state = 5)
एक गिनती सदिश बनानेवाला और शब्द गणना निकालने -
vectorizer_count = CountVectorizer()
train_tc = vectorizer_count.fit_transform(training_data.data)
print("\nDimensions of training data:", train_tc.shape)
Tf-idf ट्रांसफार्मर इस प्रकार बनाया जाता है -
tfidf = TfidfTransformer()
train_tfidf = tfidf.fit_transform(train_tc)
अब, परीक्षण डेटा को परिभाषित करें -
input_data = [
'Discovery was a space shuttle',
'Hindu, Christian, Sikh all are religions',
'We must have to drive safely',
'Puck is a disk made of rubber',
'Television, Microwave, Refrigrated all uses electricity'
]
उपरोक्त डेटा हमें एक बहुराष्ट्रीय Naive Bayes क्लासिफायर ट्रेन करने में मदद करेगा -
classifier = MultinomialNB().fit(train_tfidf, training_data.target)
गिनती वेक्टराइज़र का उपयोग करके इनपुट डेटा को बदलना -
input_tc = vectorizer_count.transform(input_data)
अब, हम tfidf ट्रांसफार्मर का उपयोग करते हुए वेक्टरकृत डेटा को बदल देंगे -
input_tfidf = tfidf.transform(input_tc)
हम उत्पादन श्रेणियों की भविष्यवाणी करेंगे -
predictions = classifier.predict(input_tfidf)
आउटपुट निम्नानुसार उत्पन्न होता है -
for sent, category in zip(input_data, predictions):
print('\nInput Data:', sent, '\n Category:', \
category_map[training_data.target_names[category]])
श्रेणी भविष्यवक्ता निम्नलिखित उत्पादन उत्पन्न करता है -
Dimensions of training data: (2755, 39297)
Input Data: Discovery was a space shuttle
Category: Space
Input Data: Hindu, Christian, Sikh all are religions
Category: Religion
Input Data: We must have to drive safely
Category: Autos
Input Data: Puck is a disk made of rubber
Category: Hockey
Input Data: Television, Microwave, Refrigrated all uses electricity
Category: Electronics
लिंग खोजक
इस समस्या बयान में, एक वर्गीकरणकर्ता को नाम प्रदान करके लिंग (पुरुष या महिला) खोजने के लिए प्रशिक्षित किया जाएगा। हमें एक फीचर वेक्टर बनाने और क्लासिफायरियर को प्रशिक्षित करने के लिए एक अनुमानी का उपयोग करने की आवश्यकता है। हम scikit-learn पैकेज से लेबल किए गए डेटा का उपयोग करेंगे। लिंग खोजक बनाने के लिए पायथन कोड निम्नलिखित है -
हमें आवश्यक पैकेज आयात करें -
import random
from nltk import NaiveBayesClassifier
from nltk.classify import accuracy as nltk_accuracy
from nltk.corpus import names
अब हमें इनपुट शब्द से अंतिम एन अक्षर निकालने की आवश्यकता है। ये पत्र सुविधाओं के रूप में कार्य करेंगे -
def extract_features(word, N = 2):
last_n_letters = word[-N:]
return {'feature': last_n_letters.lower()}
if __name__=='__main__':
NLTK में उपलब्ध लेबल वाले नामों (पुरुष और महिला) का उपयोग करके प्रशिक्षण डेटा बनाएं -
male_list = [(name, 'male') for name in names.words('male.txt')]
female_list = [(name, 'female') for name in names.words('female.txt')]
data = (male_list + female_list)
random.seed(5)
random.shuffle(data)
अब, निम्नानुसार परीक्षण डेटा बनाया जाएगा -
namesInput = ['Rajesh', 'Gaurav', 'Swati', 'Shubha']
निम्नलिखित कोड के साथ ट्रेन और परीक्षण के लिए उपयोग किए गए नमूनों की संख्या को परिभाषित करें
train_sample = int(0.8 * len(data))
अब, हमें विभिन्न लंबाई के माध्यम से पुनरावृति करने की आवश्यकता है ताकि सटीकता की तुलना की जा सके -
for i in range(1, 6):
print('\nNumber of end letters:', i)
features = [(extract_features(n, i), gender) for (n, gender) in data]
train_data, test_data = features[:train_sample],
features[train_sample:]
classifier = NaiveBayesClassifier.train(train_data)
क्लासिफायर की सटीकता निम्नानुसार गणना की जा सकती है -
accuracy_classifier = round(100 * nltk_accuracy(classifier, test_data), 2)
print('Accuracy = ' + str(accuracy_classifier) + '%')
अब, हम आउटपुट का अनुमान लगा सकते हैं -
for name in namesInput:
print(name, '==>', classifier.classify(extract_features(name, i)))
उपरोक्त कार्यक्रम निम्नलिखित आउटपुट उत्पन्न करेगा -
Number of end letters: 1
Accuracy = 74.7%
Rajesh -> female
Gaurav -> male
Swati -> female
Shubha -> female
Number of end letters: 2
Accuracy = 78.79%
Rajesh -> male
Gaurav -> male
Swati -> female
Shubha -> female
Number of end letters: 3
Accuracy = 77.22%
Rajesh -> male
Gaurav -> female
Swati -> female
Shubha -> female
Number of end letters: 4
Accuracy = 69.98%
Rajesh -> female
Gaurav -> female
Swati -> female
Shubha -> female
Number of end letters: 5
Accuracy = 64.63%
Rajesh -> female
Gaurav -> female
Swati -> female
Shubha -> female
उपरोक्त आउटपुट में, हम देख सकते हैं कि अधिकतम संख्या में अंत अक्षर दो में सटीकता हैं और यह कम हो रहा है क्योंकि अंत पत्रों की संख्या बढ़ रही है।
टॉपिक मॉडलिंग: टेक्स्ट डेटा में पैटर्न की पहचान करना
हम जानते हैं कि आम तौर पर दस्तावेजों को विषयों में बांटा जाता है। कभी-कभी हमें एक पाठ में पैटर्न की पहचान करने की आवश्यकता होती है जो किसी विशेष विषय के अनुरूप होता है। इसे करने की तकनीक को विषय मॉडलिंग कहा जाता है। दूसरे शब्दों में, हम कह सकते हैं कि विषय मॉडलिंग दस्तावेजों के दिए गए सेट में सार विषयों या छिपी संरचना को उजागर करने की एक तकनीक है।
हम निम्नलिखित परिदृश्य में विषय मॉडलिंग तकनीक का उपयोग कर सकते हैं -
पाठ वर्गीकरण
विषय मॉडलिंग की मदद से, वर्गीकरण में सुधार किया जा सकता है क्योंकि यह प्रत्येक शब्द को एक फीचर के रूप में अलग-अलग उपयोग करने के बजाय समान शब्दों को एक साथ समूहित करता है।
अनुशंसा प्रणाली
विषय मॉडलिंग की मदद से, हम समानता के उपायों का उपयोग करके अनुशंसित सिस्टम का निर्माण कर सकते हैं।
टॉपिक मॉडलिंग के लिए एल्गोरिदम
टॉपिक मॉडलिंग को एल्गोरिदम का उपयोग करके लागू किया जा सकता है। एल्गोरिदम इस प्रकार हैं -
अव्यक्त डिरिचलेट आवंटन (LDA)
यह एल्गोरिथ्म विषय मॉडलिंग के लिए सबसे लोकप्रिय है। यह विषय मॉडलिंग को लागू करने के लिए संभाव्य चित्रमय मॉडल का उपयोग करता है। हमें एलडीए के एल्गोरिथ्म का उपयोग करने के लिए पायथन में जेनसिम पैकेज आयात करना होगा।
अव्यक्त अर्थ विश्लेषण (LDA) या अव्यक्त शब्दार्थ अनुक्रमण (LSI)
यह एल्गोरिथ्म रैखिक बीजगणित पर आधारित है। मूल रूप से यह दस्तावेज़ शब्द मैट्रिक्स पर एसवीडी (एकवचन मूल्य अपघटन) की अवधारणा का उपयोग करता है।
गैर-नकारात्मक मैट्रिक्स फैक्टराइजेशन (NMF)
यह भी रैखिक बीजगणित पर आधारित है।
विषय मॉडलिंग के लिए उपर्युक्त सभी एल्गोरिदम में होगा number of topics एक पैरामीटर के रूप में, Document-Word Matrix एक इनपुट के रूप में और WTM (Word Topic Matrix) और TDM (Topic Document Matrix) आउटपुट के रूप में।