प्रशिक्षण टोकन और फ़िल्टरिंग स्टॉपवर्ड्स
अपने ही वाक्य टोकन को प्रशिक्षित करने के लिए क्यों?
यह बहुत महत्वपूर्ण प्रश्न है कि अगर हमारे पास एनएलटीके का डिफ़ॉल्ट वाक्य टोकन है तो हमें एक टोकन टोकन को प्रशिक्षित करने की आवश्यकता क्यों है? इस सवाल का जवाब एनएलटीके के डिफ़ॉल्ट वाक्य टोकन की गुणवत्ता में है। एनएलटीके का डिफ़ॉल्ट टोकन मूल रूप से एक सामान्य-उद्देश्य वाला टोकन है। हालाँकि यह बहुत अच्छी तरह से काम करता है, लेकिन यह अमानक पाठ के लिए एक अच्छा विकल्प नहीं हो सकता है, कि शायद हमारा पाठ है, या एक पाठ के लिए जो एक अद्वितीय स्वरूपण है। ऐसे पाठ को टोकन देने और सर्वोत्तम परिणाम प्राप्त करने के लिए, हमें अपने वाक्य टोकन को प्रशिक्षित करना चाहिए।
कार्यान्वयन उदाहरण
इस उदाहरण के लिए, हम वेबटेक्स्ट कॉर्पस का उपयोग करेंगे। इस कॉर्पस से हम जिस पाठ फ़ाइल का उपयोग करने जा रहे हैं, वह पाठ नीचे दिए गए संवादों के रूप में स्वरूपित है -
Guy: How old are you?
Hipster girl: You know, I never answer that question. Because to me, it's about
how mature you are, you know? I mean, a fourteen year old could be more mature
than a twenty-five year old, right? I'm sorry, I just never answer that question.
Guy: But, uh, you're older than eighteen, right?
Hipster girl: Oh, yeah.
हमने इस टेक्स्ट फ़ाइल को training_tokenizer के नाम से सहेजा है। एनएलटीके नामक एक वर्ग प्रदान करता हैPunktSentenceTokenizerजिसकी मदद से हम कस्टम वाक्य टोकन बनाने के लिए कच्चे पाठ पर प्रशिक्षण दे सकते हैं। कच्चे फाइल को हम फाइल में पढ़कर या NLTK कॉर्पस से पढ़कर प्राप्त कर सकते हैंraw() तरीका।
आइए हम इसमें अधिक जानकारी प्राप्त करने के लिए नीचे दिया गया उदाहरण देखें -
सबसे पहले, आयात PunktSentenceTokenizer से कक्षा nltk.tokenize पैकेज -
from nltk.tokenize import PunktSentenceTokenizer
अब, आयात करें webtext से कॉर्पस nltk.corpus पैकेज
from nltk.corpus import webtext
अगला, उपयोग करके raw() विधि, से कच्चे पाठ प्राप्त करें training_tokenizer.txt फाइल इस प्रकार है -
text = webtext.raw('C://Users/Leekha/training_tokenizer.txt')
अब, का एक उदाहरण बनाएँ PunktSentenceTokenizer और पाठ फ़ाइल से टोकन वाक्यों को प्रिंट करें -
sent_tokenizer = PunktSentenceTokenizer(text)
sents_1 = sent_tokenizer.tokenize(text)
print(sents_1[0])
उत्पादन
White guy: So, do you have any plans for this evening?
print(sents_1[1])
Output:
Asian girl: Yeah, being angry!
print(sents_1[670])
Output:
Guy: A hundred bucks?
print(sents_1[675])
Output:
Girl: But you already have a Big Mac...
पूरा कार्यान्वयन उदाहरण
from nltk.tokenize import PunktSentenceTokenizer
from nltk.corpus import webtext
text = webtext.raw('C://Users/Leekha/training_tokenizer.txt')
sent_tokenizer = PunktSentenceTokenizer(text)
sents_1 = sent_tokenizer.tokenize(text)
print(sents_1[0])
उत्पादन
White guy: So, do you have any plans for this evening?
एनएलटीके के डिफ़ॉल्ट वाक्य टोकन और हमारे स्वयं के प्रशिक्षित वाक्य टोकन के बीच अंतर को समझने के लिए, हमें डिफ़ॉल्ट वाक्य टोकन के साथ एक ही फाइल को टोकन दें अर्थात सेंट_कोकेनाइज ()।
from nltk.tokenize import sent_tokenize
from nltk.corpus import webtext
text = webtext.raw('C://Users/Leekha/training_tokenizer.txt')
sents_2 = sent_tokenize(text)
print(sents_2[0])
Output:
White guy: So, do you have any plans for this evening?
print(sents_2[675])
Output:
Hobo: Y'know what I'd do if I was rich?
आउटपुट में अंतर की मदद से, हम इस अवधारणा को समझ सकते हैं कि हमारे अपने वाक्य टोकन को प्रशिक्षित करना क्यों उपयोगी है।
स्टॉपवॉच क्या हैं?
कुछ सामान्य शब्द जो पाठ में मौजूद हैं लेकिन एक वाक्य के अर्थ में योगदान नहीं करते हैं। सूचना पुनर्प्राप्ति या प्राकृतिक भाषा प्रसंस्करण के उद्देश्य से ऐसे शब्द बिल्कुल महत्वपूर्ण नहीं हैं। सबसे आम स्टॉपवार्ड 'द' और 'ए' हैं।
एनएलटीके स्टॉपवर्ड्स कॉर्पस
दरअसल, नेचुरल लैंग्वेज टूल किट एक स्टॉपवर्ड कॉर्पस के साथ आती है जिसमें कई भाषाओं के लिए शब्द सूची होती है। आइये निम्न उदाहरण की सहायता से इसके उपयोग को समझते हैं -
सबसे पहले, आयात stopwords से copus nltk.corpus पैकेज -
from nltk.corpus import stopwords
अब, हम अंग्रेजी भाषाओं के स्टॉपवार्ड का उपयोग करेंगे
english_stops = set(stopwords.words('english'))
words = ['I', 'am', 'a', 'writer']
[word for word in words if word not in english_stops]
उत्पादन
['I', 'writer']
पूरा कार्यान्वयन उदाहरण
from nltk.corpus import stopwords
english_stops = set(stopwords.words('english'))
words = ['I', 'am', 'a', 'writer']
[word for word in words if word not in english_stops]
उत्पादन
['I', 'writer']
समर्थित भाषाओं की पूरी सूची खोजना
निम्नलिखित पायथन लिपि की मदद से, हम NLTK स्टॉपवार्ड कॉर्पस द्वारा समर्थित भाषाओं की पूरी सूची भी पा सकते हैं -
from nltk.corpus import stopwords
stopwords.fileids()
उत्पादन
[
'arabic', 'azerbaijani', 'danish', 'dutch', 'english', 'finnish', 'french',
'german', 'greek', 'hungarian', 'indonesian', 'italian', 'kazakh', 'nepali',
'norwegian', 'portuguese', 'romanian', 'russian', 'slovene', 'spanish',
'swedish', 'tajik', 'turkish'
]