प्राकृतिक भाषा टूलकिट - टेक्स्ट को टोकन करना

टोकनिंग क्या है?

इसे पाठ के एक टुकड़े को छोटे भागों में तोड़ने की प्रक्रिया के रूप में परिभाषित किया जा सकता है, जैसे कि वाक्य और शब्द। इन छोटे भागों को टोकन कहा जाता है। उदाहरण के लिए, एक वाक्य में एक शब्द एक टोकन है, और एक वाक्य एक पैराग्राफ में एक टोकन है।

जैसा कि हम जानते हैं कि एनएलपी का उपयोग सेंटीमेंट एनालिसिस, क्यूए सिस्टम, लैंग्वेज ट्रांसलेशन, स्मार्ट चैटबॉट, वॉयस सिस्टम इत्यादि जैसे अनुप्रयोगों के निर्माण के लिए किया जाता है, इसलिए, इन्हें बनाने के लिए, टेक्स्ट में पैटर्न को समझना महत्वपूर्ण हो जाता है। ऊपर वर्णित टोकन, इन पैटर्नों को खोजने और समझने में बहुत उपयोगी हैं। हम अन्य व्यंजनों के लिए आधार कदम के रूप में विचार कर सकते हैं जैसे कि स्टेमिंग और लेमेटाइजेशन।

एनएलटीके पैकेज

nltk.tokenize टोकनकरण की प्रक्रिया को प्राप्त करने के लिए एनएलटीके मॉड्यूल द्वारा प्रदान किया गया पैकेज है।

शब्दों में शब्दों को टोकना

शब्दों को वाक्य में विभाजित करना या स्ट्रिंग से शब्दों की सूची बनाना हर टेक्स्ट प्रोसेसिंग गतिविधि का एक अनिवार्य हिस्सा है। आइए हम इसे प्रदान किए गए विभिन्न कार्यों / मॉड्यूल की सहायता से समझते हैंnltk.tokenize पैकेज।

word_tokenize मॉड्यूल

word_tokenizeमॉड्यूल का उपयोग मूल शब्द टोकन के लिए किया जाता है। उदाहरण के बाद एक वाक्य को शब्दों में विभाजित करने के लिए इस मॉड्यूल का उपयोग करेंगे।

उदाहरण

import nltk
from nltk.tokenize import word_tokenize
word_tokenize('Tutorialspoint.com provides high quality technical tutorials for free.')

उत्पादन

['Tutorialspoint.com', 'provides', 'high', 'quality', 'technical', 'tutorials', 'for', 'free', '.']

ट्रीबैंकवॉर्डटॉकेनाइज़र क्लास

word_tokenize मॉड्यूल, ऊपर इस्तेमाल किया गया मूल रूप से एक आवरण फ़ंक्शन है जो टोकन () फ़ंक्शन को उदाहरण के रूप में कहता है TreebankWordTokenizerकक्षा। यह वही आउटपुट देगा जैसा कि हम वाक्यों को शब्द में विभाजित करने के लिए word_tokenize () मॉड्यूल का उपयोग करते समय प्राप्त करते हैं। आइए ऊपर दिए गए समान उदाहरण को देखते हैं -

उदाहरण

सबसे पहले, हमें प्राकृतिक भाषा टूलकिट (nltk) आयात करने की आवश्यकता है।

import nltk

अब, आयात करें TreebankWordTokenizer शब्द टोकन एल्गोरिथ्म को लागू करने के लिए वर्ग -

from nltk.tokenize import TreebankWordTokenizer

इसके बाद, TreebankWordTokenizer वर्ग का एक उदाहरण इस प्रकार बनाएं -

Tokenizer_wrd = TreebankWordTokenizer()

अब, उस वाक्य को इनपुट करें जिसे आप टोकन में बदलना चाहते हैं -

Tokenizer_wrd.tokenize(
   'Tutorialspoint.com provides high quality technical tutorials for free.'
)

उत्पादन

[
   'Tutorialspoint.com', 'provides', 'high', 'quality', 
   'technical', 'tutorials', 'for', 'free', '.'
]

पूरा कार्यान्वयन उदाहरण

आइए हम नीचे संपूर्ण कार्यान्वयन उदाहरण देखें

import nltk
from nltk.tokenize import TreebankWordTokenizer
tokenizer_wrd = TreebankWordTokenizer()
tokenizer_wrd.tokenize('Tutorialspoint.com provides high quality technical
tutorials for free.')

उत्पादन

[
   'Tutorialspoint.com', 'provides', 'high', 'quality', 
   'technical', 'tutorials','for', 'free', '.'
]

एक टोकनधारक का सबसे महत्वपूर्ण सम्मेलन अलग संकुचन है। उदाहरण के लिए, यदि हम इस उद्देश्य के लिए word_tokenize () मॉड्यूल का उपयोग करते हैं, तो यह आउटपुट निम्नानुसार देगा -

उदाहरण

import nltk
from nltk.tokenize import word_tokenize
word_tokenize('won’t')

उत्पादन

['wo', "n't"]]

इस तरह के सम्मेलन TreebankWordTokenizerअस्वीकार्य है। इसलिए हमारे पास दो वैकल्पिक शब्द टोकन हैंPunktWordTokenizer तथा WordPunctTokenizer

WordPunktTokenizer वर्ग

एक वैकल्पिक शब्द टोकन जो सभी विराम चिह्न को अलग-अलग टोकन में विभाजित करता है। आइये इसे हम निम्नलिखित सरल उदाहरण से समझते हैं -

उदाहरण

from nltk.tokenize import WordPunctTokenizer
tokenizer = WordPunctTokenizer()
tokenizer.tokenize(" I can't allow you to go home early")

उत्पादन

['I', 'can', "'", 't', 'allow', 'you', 'to', 'go', 'home', 'early']

वाक्यों में पाठ को टोकना

इस खंड में हम पाठ / पैराग्राफ को वाक्यों में विभाजित करने जा रहे हैं। एनएलटीके प्रदान करता हैsent_tokenize इस उद्देश्य के लिए मॉड्यूल।

इसकी आवश्यकता क्यों है?

एक स्पष्ट प्रश्न जो हमारे दिमाग में आया, वह यह है कि जब हमारे पास शब्द टोकन है, तो हमें वाक्य टोकन की आवश्यकता क्यों है या हमें पाठ को वाक्य में टोकन की आवश्यकता क्यों है। मान लीजिए कि हमें वाक्यों में औसत शब्दों की गणना करने की आवश्यकता है, तो हम यह कैसे कर सकते हैं? इस कार्य को पूरा करने के लिए, हमें वाक्य टोकन और शब्द टोकन दोनों की आवश्यकता है।

आइए सरल उदाहरणों की मदद से वाक्य और शब्द टोकन के बीच के अंतर को समझते हैं -

उदाहरण

import nltk
from nltk.tokenize import sent_tokenize
text = "Let us understand the difference between sentence & word tokenizer. 
It is going to be a simple example."
sent_tokenize(text)

उत्पादन

[
   "Let us understand the difference between sentence & word tokenizer.", 
   'It is going to be a simple example.'
]

नियमित अभिव्यक्तियों का उपयोग करते हुए सजा टोकन

यदि आपको लगता है कि शब्द टोकन का आउटपुट अस्वीकार्य है और पाठ को कैसे टोकना है, इस पर पूर्ण नियंत्रण चाहते हैं, तो हमारे पास नियमित अभिव्यक्ति है जिसका उपयोग वाक्य टोकन करते समय किया जा सकता है। एनएलटीके प्रदान करते हैंRegexpTokenizer इसे प्राप्त करने के लिए कक्षा।

आइए नीचे दिए गए दो उदाहरणों की सहायता से अवधारणा को समझते हैं।

पहले उदाहरण में हम अल्फ़ान्यूमेरिक टोकन के मिलान और एकल उद्धरण के लिए नियमित अभिव्यक्ति का उपयोग करेंगे ताकि हम संकुचन को विभाजित न करें “won’t”

उदाहरण 1

import nltk
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer("[\w']+")
tokenizer.tokenize("won't is a contraction.")
tokenizer.tokenize("can't is a contraction.")

उत्पादन

["won't", 'is', 'a', 'contraction']
["can't", 'is', 'a', 'contraction']

पहले उदाहरण में, हम व्हॉट्सएप पर टोकन के लिए नियमित अभिव्यक्ति का उपयोग करेंगे।

उदाहरण 2

import nltk
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer('/s+' , gaps = True)
tokenizer.tokenize("won't is a contraction.")

उत्पादन

["won't", 'is', 'a', 'contraction']

उपरोक्त आउटपुट से, हम देख सकते हैं कि टोकन में विराम चिह्न बना हुआ है। पैरामीटर अंतराल = सही का अर्थ है कि पैटर्न टोकन की पहचान करने के लिए जा रहा है। दूसरी ओर, यदि हम अंतराल = गलत पैरामीटर का उपयोग करेंगे, तो पैटर्न का उपयोग टोकन की पहचान करने के लिए किया जाएगा, जिसे निम्न उदाहरण में देखा जा सकता है -

import nltk
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer('/s+' , gaps = False)
tokenizer.tokenize("won't is a contraction.")

उत्पादन

[ ]

यह हमें खाली आउटपुट देगा।