पायथन - टोकनेशन

पायथन टोकेनाइजेशन में मूल रूप से टेक्स्ट की एक बड़ी बॉडी को छोटी लाइनों में विभाजित करना, शब्दों या यहां तक ​​कि गैर-अंग्रेजी भाषा के लिए शब्द बनाना शामिल है। विभिन्न टोकन कार्य स्वयं में निर्मित nltk मॉड्यूल में किए जाते हैं और नीचे दिखाए गए कार्यक्रमों में उपयोग किए जा सकते हैं।

लाइन टोकन

नीचे दिए गए उदाहरण में हम दिए गए टेक्स्ट को फंक्शन send_tokenize का उपयोग करके विभिन्न लाइनों में विभाजित करते हैं।

import nltk
sentence_data = "The First sentence is about Python. The Second: about Django. You can learn Python,Django and Data Ananlysis here. "
nltk_tokens = nltk.sent_tokenize(sentence_data)
print (nltk_tokens)

जब हम उपरोक्त कार्यक्रम चलाते हैं, तो हमें निम्न आउटपुट मिलते हैं -

['The First sentence is about Python.', 'The Second: about Django.', 'You can learn Python,Django and Data Ananlysis here.']

गैर-अंग्रेजी टोकनेशन

नीचे दिए गए उदाहरण में हमने जर्मन पाठ को टोकन दिया।

import nltk
german_tokenizer = nltk.data.load('tokenizers/punkt/german.pickle')
german_tokens=german_tokenizer.tokenize('Wie geht es Ihnen?  Gut, danke.')
print(german_tokens)

जब हम उपरोक्त कार्यक्रम चलाते हैं, तो हमें निम्न आउटपुट मिलते हैं -

['Wie geht es Ihnen?', 'Gut, danke.']

शब्द टोकेंज़िटियन

We tokenize the words using word_tokenize function available as part of nltk.

import nltk
word_data = "It originated from the idea that there are readers who prefer learning new skills from the comforts of their drawing rooms"
nltk_tokens = nltk.word_tokenize(word_data)
print (nltk_tokens)

When we run the above program we get the following output −

['It', 'originated', 'from', 'the', 'idea', 'that', 'there', 'are', 'readers', 
'who', 'prefer', 'learning', 'new', 'skills', 'from', 'the',
'comforts', 'of', 'their', 'drawing', 'rooms']