प्राकृतिक भाषा प्रसंस्करण - पायथन

इस अध्याय में, हम पायथन का उपयोग करके भाषा प्रसंस्करण के बारे में जानेंगे।

निम्नलिखित विशेषताएं पायथन को अन्य भाषाओं से अलग बनाती हैं -

  • Python is interpreted - इसे निष्पादित करने से पहले हमें अपने पायथन कार्यक्रम को संकलित करने की आवश्यकता नहीं है क्योंकि दुभाषिया पायथन रनटाइम पर प्रक्रिया करता है।

  • Interactive - हम अपने अजगर कार्यक्रमों को लिखने के लिए दुभाषिया के साथ सीधे बातचीत कर सकते हैं।

  • Object-oriented - पायथन प्रकृति में ऑब्जेक्ट-ओरिएंटेड है और यह इस भाषा को प्रोग्राम लिखने में आसान बनाता है क्योंकि प्रोग्रामिंग की इस तकनीक की मदद से यह वस्तुओं के भीतर कोड को इनकैप्सुलेट करता है।

  • Beginner can easily learn - पायथन को शुरुआती भाषा भी कहा जाता है क्योंकि इसे समझना बहुत आसान है, और यह अनुप्रयोगों की एक विस्तृत श्रृंखला के विकास का समर्थन करता है।

आवश्यक शर्तें

पायथन 3 का नवीनतम संस्करण जारी किया गया है पायथन 3.7.1 विंडोज, मैक ओएस और लिनक्स ओएस के अधिकांश स्वादों के लिए उपलब्ध है।

  • खिड़कियों के लिए, हम पायथन को डाउनलोड और इंस्टॉल करने के लिए लिंक www.python.org/downloads/windows/ पर जा सकते हैं ।

  • मैक ओएस के लिए, हम www.python.org/downloads/mac-osx/ लिंक का उपयोग कर सकते हैं ।

  • लिनक्स के मामले में, लिनक्स के विभिन्न स्वाद नए पैकेजों की स्थापना के लिए विभिन्न पैकेज प्रबंधकों का उपयोग करते हैं।

    • उदाहरण के लिए, Ubuntu लिनक्स पर पायथन 3 स्थापित करने के लिए, हम टर्मिनल से निम्न कमांड का उपयोग कर सकते हैं -

$sudo apt-get install python3-minimal

पायथन प्रोग्रामिंग के बारे में अधिक अध्ययन करने के लिए, पायथन 3 मूल ट्यूटोरियल - पायथन 3 पढ़ें

एनएलटीके के साथ शुरुआत करना

हम अंग्रेजी भाषा में पाठ विश्लेषण करने के लिए पायथन पुस्तकालय एनएलटीके (प्राकृतिक भाषा टूलकिट) का उपयोग करेंगे। नेचुरल लैंग्वेज टूलकिट (एनएलटीके) पायथन लाइब्रेरीज़ का एक संग्रह है जो विशेष रूप से अंग्रेजी जैसे प्राकृतिक भाषा के पाठ में पाए जाने वाले भाषण के हिस्सों की पहचान करने और टैग करने के लिए डिज़ाइन किया गया है।

एनएलटीके स्थापित करना

एनएलटीके का उपयोग शुरू करने से पहले, हमें इसे स्थापित करने की आवश्यकता है। निम्नलिखित आदेश की मदद से, हम इसे अपने पायथन वातावरण में स्थापित कर सकते हैं -

pip install nltk

यदि हम एनाकोंडा का उपयोग कर रहे हैं, तो एनएलटीके के लिए एक कोंडा पैकेज निम्नलिखित कमांड का उपयोग करके बनाया जा सकता है -

conda install -c anaconda nltk

एनएलटीके का डेटा डाउनलोड करना

एनएलटीके को स्थापित करने के बाद, एक और महत्वपूर्ण कार्य इसके प्रीसेट टेक्स्ट रिपॉजिटरी को डाउनलोड करना है ताकि इसे आसानी से उपयोग किया जा सके। हालांकि, इससे पहले हमें एनएलटीके को आयात करने की आवश्यकता है जिस तरह से हम किसी अन्य पायथन मॉड्यूल को आयात करते हैं। निम्नलिखित आदेश हमें एनएलटीके आयात करने में मदद करेगा -

import nltk

अब, निम्नलिखित कमांड की मदद से एनएलटीके डेटा डाउनलोड करें -

nltk.download()

NLTK के सभी उपलब्ध पैकेजों को स्थापित करने में कुछ समय लगेगा।

अन्य आवश्यक पैकेज

कुछ अन्य पायथन पैकेज जैसे gensim तथा patternपाठ विश्लेषण के साथ-साथ एनएलटीके का उपयोग करके प्राकृतिक भाषा प्रसंस्करण अनुप्रयोगों के निर्माण के लिए भी बहुत आवश्यक हैं। पैकेज नीचे दिखाए अनुसार स्थापित किए जा सकते हैं -

gensim

gensim एक मजबूत सिमेंटिक मॉडलिंग लाइब्रेरी है जिसका उपयोग कई अनुप्रयोगों के लिए किया जा सकता है। हम निम्नलिखित आदेश द्वारा इसे स्थापित कर सकते हैं -

pip install gensim

प्रतिरूप

इसे बनाने के लिए इस्तेमाल किया जा सकता है gensimपैकेज ठीक से काम करते हैं। निम्न आदेश पैटर्न स्थापित करने में मदद करता है -

pip install pattern

tokenization

टोकन को दिए गए पाठ को तोड़ने की प्रक्रिया के रूप में परिभाषित किया जा सकता है, जिसे टोकन कहा जाता है। शब्द, संख्या या विराम चिह्न टोकन हो सकते हैं। इसे शब्द विभाजन भी कहा जा सकता है।

उदाहरण

Input - बिस्तर और कुर्सी फर्नीचर के प्रकार हैं।

हमारे पास एनएलटीके द्वारा प्रदान किए गए टोकन के लिए अलग-अलग पैकेज हैं। हम अपनी आवश्यकताओं के आधार पर इन पैकेजों का उपयोग कर सकते हैं। पैकेज और उनकी स्थापना का विवरण इस प्रकार है -

sent_tokenize पैकेज

इस पैकेज का उपयोग इनपुट टेक्स्ट को वाक्यों में विभाजित करने के लिए किया जा सकता है। हम निम्न कमांड का उपयोग करके इसे आयात कर सकते हैं -

from nltk.tokenize import sent_tokenize

word_tokenize पैकेज

इस पैकेज का उपयोग इनपुट टेक्स्ट को शब्दों में विभाजित करने के लिए किया जा सकता है। हम निम्न कमांड का उपयोग करके इसे आयात कर सकते हैं -

from nltk.tokenize import word_tokenize

WordPunctTokenizer पैकेज

इस पैकेज का उपयोग इनपुट टेक्स्ट को शब्दों और विराम चिह्नों में विभाजित करने के लिए किया जा सकता है। हम निम्न कमांड का उपयोग करके इसे आयात कर सकते हैं -

from nltk.tokenize import WordPuncttokenizer

स्टेमिंग

व्याकरणिक कारणों के कारण, भाषा में बहुत सारी विविधताएं शामिल हैं। विविधता इस अर्थ में कि भाषा, अंग्रेजी के साथ-साथ अन्य भाषाएं भी, एक शब्द के विभिन्न रूप हैं। उदाहरण के लिए, जैसे शब्दdemocracy, democratic, तथा democratization। मशीन लर्निंग प्रोजेक्ट्स के लिए, मशीनों के लिए यह समझना बहुत ज़रूरी है कि इन अलग-अलग शब्दों, जैसे ऊपर का आधार रूप है। इसीलिए पाठ का विश्लेषण करते समय शब्दों के आधार रूपों को निकालना बहुत उपयोगी है।

स्टेमिंग एक हेयुरिस्टिक प्रक्रिया है जो शब्दों के आधार रूपों को उनके सिरों को काटकर निकालने में मदद करती है।

एनएलटीके मॉड्यूल द्वारा प्रदान किए गए स्टेमिंग के लिए विभिन्न पैकेज निम्नानुसार हैं -

पोर्टरस्टेमर पैकेज

पोर्टर के एल्गोरिथ्म का उपयोग इस स्टेमिंग पैकेज द्वारा शब्दों के आधार रूप को निकालने के लिए किया जाता है। निम्नलिखित कमांड की मदद से, हम इस पैकेज को आयात कर सकते हैं -

from nltk.stem.porter import PorterStemmer

उदाहरण के लिए, ‘write’ शब्द का आउटपुट होगा ‘writing’ इस स्टेमर को इनपुट के रूप में दिया जाता है।

LancasterStemmer पैकेज

लैंकेस्टर के एल्गोरिथ्म का उपयोग इस स्टेमिंग पैकेज द्वारा शब्दों के आधार रूप को निकालने के लिए किया जाता है। निम्नलिखित आदेश की सहायता से, हम इस पैकेज को आयात कर सकते हैं -

from nltk.stem.lancaster import LancasterStemmer

उदाहरण के लिए, ‘writ’ शब्द का आउटपुट होगा ‘writing’ इस स्टेमर को इनपुट के रूप में दिया जाता है।

स्नोबॉल स्टीमर पैकेज

स्नोबॉल के एल्गोरिथ्म का उपयोग शब्दों के आधार रूप को निकालने के लिए इस स्टेमिंग पैकेज द्वारा किया जाता है। निम्नलिखित आदेश की सहायता से, हम इस पैकेज को आयात कर सकते हैं -

from nltk.stem.snowball import SnowballStemmer

उदाहरण के लिए, ‘write’ शब्द का आउटपुट होगा ‘writing’ इस स्टेमर को इनपुट के रूप में दिया जाता है।

lemmatization

यह शब्दों के आधार रूप को निकालने का एक और तरीका है, आमतौर पर शब्दावली और रूपात्मक विश्लेषण का उपयोग करके विभक्ति अंत को हटाने का लक्ष्य है। लेमैटाइजेशन के बाद, किसी भी शब्द के आधार रूप को लेम्मा कहा जाता है।

एनएलटीके मॉड्यूल लेमेट्रीकरण के लिए निम्नलिखित पैकेज प्रदान करता है -

WordNetLemmatizer पैकेज

यह पैकेज शब्द के आधार रूप को इस आधार पर निकालेगा कि यह संज्ञा के रूप में उपयोग किया जाता है या क्रिया के रूप में। इस पैकेज को आयात करने के लिए निम्नलिखित कमांड का उपयोग किया जा सकता है -

from nltk.stem import WordNetLemmatizer

पीओएस टैग की गिनती-चिनकिंग

भाषण के भागों (पीओएस) और छोटे वाक्यांशों की पहचान, चैंकिंग की मदद से की जा सकती है। यह प्राकृतिक भाषा प्रसंस्करण में महत्वपूर्ण प्रक्रियाओं में से एक है। जैसा कि हम टोकन के निर्माण के लिए टोकेनाइजेशन की प्रक्रिया के बारे में जानते हैं, वास्तव में उन टोकन की लेबलिंग करना है। दूसरे शब्दों में, हम कह सकते हैं कि हम प्रक्रिया की सहायता से वाक्य की संरचना प्राप्त कर सकते हैं।

उदाहरण

निम्नलिखित उदाहरण में, हम एनओटीके पायथन मॉड्यूल का उपयोग करके, वाक्य में संज्ञा वाक्यांश विखंडन का पता लगाने वाले नन-वाक्यांश चूनिंग को लागू करेंगे।

संज्ञा-वाक्यांश को लागू करने के लिए निम्नलिखित चरणों पर विचार करें -

Step 1: Chunk grammar definition

इस चरण में, हमें chunking के लिए व्याकरण को परिभाषित करने की आवश्यकता है। इसमें नियम शामिल होंगे, जिनका हमें पालन करना होगा।

Step 2: Chunk parser creation

अगला, हमें एक चकोर पार्सर बनाने की आवश्यकता है। यह व्याकरण को पार्स करेगा और आउटपुट देगा।

Step 3: The Output

इस चरण में, हमें आउटपुट एक ट्री फॉर्मेट में मिलेगा।

एनएलपी स्क्रिप्ट चला रहा है

NLTK पैकेज आयात करके प्रारंभ करें -

import nltk

अब, हमें वाक्य को परिभाषित करने की आवश्यकता है।

यहाँ,

  • डीटी निर्धारक है

  • VBP क्रिया है

  • जेजे विशेषण है

  • आईएन प्रीपोजिशन है

  • NN संज्ञा है

sentence = [("a", "DT"),("clever","JJ"),("fox","NN"),("was","VBP"),
   ("jumping","VBP"),("over","IN"),("the","DT"),("wall","NN")]

अगला, व्याकरण को नियमित अभिव्यक्ति के रूप में दिया जाना चाहिए।

grammar = "NP:{<DT>?<JJ>*<NN>}"

अब, हमें व्याकरण को पार्स करने के लिए एक पार्सर को परिभाषित करने की आवश्यकता है।

parser_chunking = nltk.RegexpParser(grammar)

अब, पार्सर निम्नानुसार वाक्य को पार्स करेगा -

parser_chunking.parse(sentence)

अगला, आउटपुट चर में निम्नानुसार होगा: -

Output = parser_chunking.parse(sentence)

अब, निम्न कोड आपको अपने उत्पादन को एक पेड़ के रूप में खींचने में मदद करेगा।

output.draw()