प्राकृतिक भाषा टूलकिट - यूनीग्राम टैगर
Unigram Tagger क्या है?
जैसा कि नाम से ही स्पष्ट है, यूनीग्राम टैगर एक ऐसा टैगर है जो पीओएस (पार्ट-ऑफ-स्पीच) टैग को निर्धारित करने के लिए केवल एक ही शब्द को अपने संदर्भ के रूप में उपयोग करता है। सरल शब्दों में, यूनीग्राम टैगर एक संदर्भ-आधारित टैगर है, जिसका संदर्भ एकल शब्द है, अर्थात, यूनीग्राम।
यह कैसे काम करता है?
एनएलटीके नामक एक मॉड्यूल प्रदान करता है UnigramTaggerइस काम के लिए। लेकिन इसके काम में गहरी डुबकी लगाने से पहले, हम निम्नलिखित चित्र की मदद से पदानुक्रम को समझते हैं -
उपरोक्त आरेख से, यह समझा जाता है कि UnigramTagger से विरासत में मिला है NgramTagger जो की एक उपवर्ग है ContextTagger, जो विरासत में मिला है SequentialBackoffTagger।
का काम UnigramTagger निम्नलिखित चरणों की मदद से समझाया गया है -
जैसा कि हमने देखा, UnigramTagger से विरासत में मिला है ContextTagger, यह लागू करता है a context()तरीका। यहcontext() विधि के रूप में एक ही तीन तर्क लेता है choose_tag() तरीका।
का परिणाम context()पद्धति शब्द टोकन होगा जो मॉडल बनाने के लिए आगे उपयोग किया जाता है। एक बार मॉडल बन जाने के बाद, टोकन शब्द का उपयोग सबसे अच्छा टैग देखने के लिए भी किया जाता है।
इस तरह, UnigramTagger टैग किए गए वाक्यों की सूची से एक संदर्भ मॉडल का निर्माण करेगा।
एक यूनीग्राम टैगर का प्रशिक्षण
NLTK के UnigramTaggerआरंभीकरण के समय टैग किए गए वाक्यों की एक सूची प्रदान करके प्रशिक्षित किया जा सकता है। नीचे दिए गए उदाहरण में, हम ट्रीबैंक कॉर्पस के टैग किए गए वाक्यों का उपयोग करने जा रहे हैं। हम उस कॉर्पस से पहले 2500 वाक्यों का उपयोग करेंगे।
उदाहरण
पहले nltk से UniframTagger मॉड्यूल आयात करें -
from nltk.tag import UnigramTagger
अगला, उस कॉर्पस को आयात करें जिसका आप उपयोग करना चाहते हैं। यहां हम ट्रीबैंक कॉर्पस का उपयोग कर रहे हैं -
from nltk.corpus import treebank
अब, प्रशिक्षण उद्देश्य के लिए वाक्यों को लें। हम प्रशिक्षण उद्देश्य के लिए पहले 2500 वाक्य ले रहे हैं और उन्हें टैग करेंगे -
train_sentences = treebank.tagged_sents()[:2500]
अगला, प्रशिक्षण उद्देश्य के लिए उपयोग किए जाने वाले वाक्यों पर UnigramTagger लागू करें -
Uni_tagger = UnigramTagger(train_sentences)
परीक्षण उद्देश्य के लिए या तो, या उद्देश्य परीक्षण के लिए 2500 के बराबर कुछ वाक्य लें। यहाँ हम परीक्षण उद्देश्य के लिए पहले 1500 ले रहे हैं -
test_sentences = treebank.tagged_sents()[1500:]
Uni_tagger.evaluate(test_sents)
उत्पादन
0.8942306156033808
यहां, हमें एक टैगर के लिए लगभग 89 प्रतिशत सटीकता मिली है जो पीओएस टैग को निर्धारित करने के लिए एकल शब्द लुकअप का उपयोग करता है।
पूरा कार्यान्वयन उदाहरण
from nltk.tag import UnigramTagger
from nltk.corpus import treebank
train_sentences = treebank.tagged_sents()[:2500]
Uni_tagger = UnigramTagger(train_sentences)
test_sentences = treebank.tagged_sents()[1500:]
Uni_tagger.evaluate(test_sentences)
उत्पादन
0.8942306156033808
संदर्भ मॉडल को ओवरराइड करना
ऊपर दिए गए चित्र से पदानुक्रम दिखाना UnigramTagger, हम सभी टैगर्स को जानते हैं जो इनहेरिट करते हैं ContextTaggerअपने स्वयं के प्रशिक्षण के बजाय, एक पूर्व-निर्मित मॉडल ले सकते हैं। यह पूर्व-निर्मित मॉडल केवल एक टैग के लिए एक संदर्भ कुंजी का पायथन शब्दकोश मानचित्रण है। और किसके लिएUnigramTagger, संदर्भ कुंजी अन्य के लिए व्यक्तिगत शब्द हैं NgramTagger उपवर्ग, यह टुपल्स होगा।
हम इस संदर्भ मॉडल को किसी अन्य सरल मॉडल को पास करके ओवरराइड कर सकते हैं UnigramTaggerप्रशिक्षण सेट पास करने के बजाय कक्षा। आइए इसे एक आसान उदाहरण की मदद से समझते हैं -
उदाहरण
from nltk.tag import UnigramTagger
from nltk.corpus import treebank
Override_tagger = UnigramTagger(model = {‘Vinken’ : ‘NN’})
Override_tagger.tag(treebank.sents()[0])
उत्पादन
[
('Pierre', None),
('Vinken', 'NN'),
(',', None),
('61', None),
('years', None),
('old', None),
(',', None),
('will', None),
('join', None),
('the', None),
('board', None),
('as', None),
('a', None),
('nonexecutive', None),
('director', None),
('Nov.', None),
('29', None),
('.', None)
]
जैसा कि हमारे मॉडल में एकमात्र संदर्भ कुंजी के रूप में 'विंकन' शामिल है, आप ऊपर दिए गए आउटपुट से देख सकते हैं कि केवल इस शब्द को टैग मिला है और हर दूसरे शब्द में टैग के रूप में कोई नहीं है।
एक न्यूनतम आवृत्ति सीमा निर्धारित करना
यह तय करने के लिए कि दिए गए संदर्भ के लिए कौन सा टैग सबसे अधिक संभावना है, ContextTaggerवर्ग घटना की आवृत्ति का उपयोग करता है। भले ही यह संदर्भ शब्द और टैग केवल एक बार होता है, लेकिन डिफ़ॉल्ट रूप से इसे करेगा, लेकिन हम एक पास करके एक न्यूनतम आवृत्ति सीमा निर्धारित कर सकते हैंcutoff के लिए मूल्य UnigramTaggerकक्षा। नीचे दिए गए उदाहरण में, हम पिछले रेसिपी में कटऑफ वैल्यू पास कर रहे हैं जिसमें हमने एक यूनीग्रामटैगर को प्रशिक्षित किया है -
उदाहरण
from nltk.tag import UnigramTagger
from nltk.corpus import treebank
train_sentences = treebank.tagged_sents()[:2500]
Uni_tagger = UnigramTagger(train_sentences, cutoff = 4)
test_sentences = treebank.tagged_sents()[1500:]
Uni_tagger.evaluate(test_sentences)
उत्पादन
0.7357651629613641