अधिक प्राकृतिक भाषा टूलकिट टैगर्स
Affix टैगर
ContextTagger उपवर्ग का एक अन्य महत्वपूर्ण वर्ग AffixTagger है। AffixTagger वर्ग में, संदर्भ या तो किसी शब्द का उपसर्ग या प्रत्यय है। यही कारण है कि AffixTagger वर्ग किसी शब्द की शुरुआत या समाप्ति की निश्चित लंबाई के आधार पर टैग सीख सकता है।
यह कैसे काम करता है?
इसका काम affix_length नाम के तर्क पर निर्भर करता है जो उपसर्ग या प्रत्यय की लंबाई को निर्दिष्ट करता है। डिफ़ॉल्ट मान है 3. लेकिन यह कैसे अलग करता है कि AffixTagger वर्ग ने शब्द के उपसर्ग या प्रत्यय सीखा है?
affix_length=positive - यदि affix_lenght का मान धनात्मक है तो इसका अर्थ है कि AffixTagger वर्ग शब्द के उपसर्ग सीखेगा।
affix_length=negative - यदि affix_lenght का मान ऋणात्मक है तो इसका मतलब है कि AffixTagger वर्ग शब्द के प्रत्ययों को सीख लेगा।
इसे स्पष्ट करने के लिए, नीचे दिए गए उदाहरण में, हम AffixTagger वर्ग का उपयोग टैग किए गए ट्रीबैंक वाक्यों पर करेंगे।
उदाहरण
इस उदाहरण में, AffixTagger शब्द के उपसर्ग सीखेगा क्योंकि हम affix_length तर्क के लिए कोई मूल्य निर्दिष्ट नहीं कर रहे हैं। तर्क डिफ़ॉल्ट मान लेगा 3 -
from nltk.tag import AffixTagger
from nltk.corpus import treebank
train_sentences = treebank.tagged_sents()[:2500]
Prefix_tagger = AffixTagger(train_sentences)
test_sentences = treebank.tagged_sents()[1500:]
Prefix_tagger.evaluate(test_sentences)
उत्पादन
0.2800492099250667
आइए नीचे दिए गए उदाहरण में देखते हैं कि क्या होगा जब हम एफ़िक्स_लॉन्ग तर्क 4 को मान प्रदान करते हैं -
from nltk.tag import AffixTagger
from nltk.corpus import treebank
train_sentences = treebank.tagged_sents()[:2500]
Prefix_tagger = AffixTagger(train_sentences, affix_length=4 )
test_sentences = treebank.tagged_sents()[1500:]
Prefix_tagger.evaluate(test_sentences)
उत्पादन
0.18154947354966527
उदाहरण
इस उदाहरण में, AffixTagger शब्द के प्रत्यय को सीख लेगा क्योंकि हम affix_length तर्क के लिए नकारात्मक मान निर्दिष्ट करेंगे।
from nltk.tag import AffixTagger
from nltk.corpus import treebank
train_sentences = treebank.tagged_sents()[:2500]
Suffix_tagger = AffixTagger(train_sentences, affix_length = -3)
test_sentences = treebank.tagged_sents()[1500:]
Suffix_tagger.evaluate(test_sentences)
उत्पादन
0.2800492099250667
ब्रिल टेगर
ब्रिल टेगर एक ट्रांसफॉर्मेशन बेस्ड टैगर है। एनएलटीके प्रदान करता हैBrillTagger वर्ग जो पहला टैगर है जो उप-वर्ग नहीं है SequentialBackoffTagger। इसके विपरीत, प्रारंभिक टैगर के परिणामों को सही करने के लिए नियमों की एक श्रृंखला का उपयोग किया जाता हैBrillTagger।
यह कैसे काम करता है?
को प्रशिक्षित करने के लिए BrillTagger कक्षा का उपयोग करना BrillTaggerTrainer हम निम्नलिखित कार्य को परिभाषित करते हैं -
def train_brill_tagger(initial_tagger, train_sentences, **kwargs) -
templates = [
brill.Template(brill.Pos([-1])),
brill.Template(brill.Pos([1])),
brill.Template(brill.Pos([-2])),
brill.Template(brill.Pos([2])),
brill.Template(brill.Pos([-2, -1])),
brill.Template(brill.Pos([1, 2])),
brill.Template(brill.Pos([-3, -2, -1])),
brill.Template(brill.Pos([1, 2, 3])),
brill.Template(brill.Pos([-1]), brill.Pos([1])),
brill.Template(brill.Word([-1])),
brill.Template(brill.Word([1])),
brill.Template(brill.Word([-2])),
brill.Template(brill.Word([2])),
brill.Template(brill.Word([-2, -1])),
brill.Template(brill.Word([1, 2])),
brill.Template(brill.Word([-3, -2, -1])),
brill.Template(brill.Word([1, 2, 3])),
brill.Template(brill.Word([-1]), brill.Word([1])),
]
trainer = brill_trainer.BrillTaggerTrainer(initial_tagger, templates, deterministic=True)
return trainer.train(train_sentences, **kwargs)
जैसा कि हम देख सकते हैं, इस फ़ंक्शन की आवश्यकता है initial_tagger तथा train_sentences। यह एक लेता हैinitial_tagger तर्क और टेम्प्लेट की एक सूची, जो लागू करता है BrillTemplateइंटरफेस। BrillTemplate में इंटरफ़ेस पाया जाता है nltk.tbl.templateमापांक। ऐसा ही एक कार्यान्वयन हैbrill.Template कक्षा।
परिवर्तन-आधारित टैगर की मुख्य भूमिका परिवर्तन नियमों को उत्पन्न करना है जो प्रारंभिक टैगर के आउटपुट को प्रशिक्षण वाक्यों के साथ अधिक इन-लाइन होने के लिए सही करते हैं। आइये नीचे दिए गए वर्कफ़्लो को देखते हैं -
उदाहरण
इस उदाहरण के लिए, हम उपयोग करेंगे combine_tagger जिसे हमने टैगर्स (पिछले रेसिपी में) के बैकऑफ चेन से कंघी करते हुए बनाया था NgramTagger कक्षाएं, के रूप में initial_tagger। पहले, हम परिणाम का उपयोग करके मूल्यांकन करते हैंCombine.tagger और फिर उस का उपयोग करें initial_tagger शानदार टैगर को प्रशिक्षित करने के लिए।
from tagger_util import backoff_tagger
from nltk.tag import UnigramTagger
from nltk.tag import BigramTagger
from nltk.tag import TrigramTagger
from nltk.tag import DefaultTagger
from nltk.corpus import treebank
train_sentences = treebank.tagged_sents()[:2500]
back_tagger = DefaultTagger('NN')
Combine_tagger = backoff_tagger(
train_sentences, [UnigramTagger, BigramTagger, TrigramTagger], backoff = back_tagger
)
test_sentences = treebank.tagged_sents()[1500:]
Combine_tagger.evaluate(test_sentences)
उत्पादन
0.9234530029238365
अब, मूल्यांकन परिणाम कब देखते हैं Combine_tagger के रूप में प्रयोग किया जाता है initial_tagger शानदार टैगर को प्रशिक्षित करने के लिए -
from tagger_util import train_brill_tagger
brill_tagger = train_brill_tagger(combine_tagger, train_sentences)
brill_tagger.evaluate(test_sentences)
उत्पादन
0.9246832510505041
हम यह देख सकते हैं BrillTagger वर्ग में थोड़ी अधिक सटीकता है Combine_tagger।
पूरा कार्यान्वयन उदाहरण
from tagger_util import backoff_tagger
from nltk.tag import UnigramTagger
from nltk.tag import BigramTagger
from nltk.tag import TrigramTagger
from nltk.tag import DefaultTagger
from nltk.corpus import treebank
train_sentences = treebank.tagged_sents()[:2500]
back_tagger = DefaultTagger('NN')
Combine_tagger = backoff_tagger(train_sentences,
[UnigramTagger, BigramTagger, TrigramTagger], backoff = back_tagger)
test_sentences = treebank.tagged_sents()[1500:]
Combine_tagger.evaluate(test_sentences)
from tagger_util import train_brill_tagger
brill_tagger = train_brill_tagger(combine_tagger, train_sentences)
brill_tagger.evaluate(test_sentences)
उत्पादन
0.9234530029238365
0.9246832510505041
TnT टैगर
TnT टैगर, Trigrams'nTags के लिए खड़ा है, एक सांख्यिकीय टैगर है जो दूसरे क्रम के मार्कोव मॉडल पर आधारित है।
यह कैसे काम करता है?
हम निम्नलिखित चरणों की मदद से TnT टैगर के कार्य को समझ सकते हैं -
पहले प्रशिक्षण डेटा के आधार पर, TnT टेगर कई आंतरिक बनाए रखता है FreqDist तथा ConditionalFreqDist उदाहरणों।
उसके बाद इन फ्रीक्वेंसी डिस्ट्रीब्यूशन द्वारा यूनिग्राम, बिगग्राम और ट्रिगर्स की गणना की जाएगी।
अब, टैगिंग के दौरान, आवृत्तियों का उपयोग करके, यह प्रत्येक शब्द के लिए संभावित टैग की संभावनाओं की गणना करेगा।
यही कारण है कि NgramTagger की एक बैकऑफ़ श्रृंखला के निर्माण के बजाय, यह प्रत्येक शब्द के लिए सबसे अच्छा टैग चुनने के लिए सभी ngram मॉडल का उपयोग करता है। आइए हम निम्नलिखित उदाहरण में TnT टैगर के साथ सटीकता का मूल्यांकन करें -
from nltk.tag import tnt
from nltk.corpus import treebank
train_sentences = treebank.tagged_sents()[:2500]
tnt_tagger = tnt.TnT()
tnt_tagger.train(train_sentences)
test_sentences = treebank.tagged_sents()[1500:]
tnt_tagger.evaluate(test_sentences)
उत्पादन
0.9165508316157791
ब्रिल टेगर के साथ मिली तुलना में हमारे पास थोड़ी कम सटीकता है।
कृपया ध्यान दें कि हमें कॉल करने की आवश्यकता है train() इससे पहले evaluate() अन्यथा हम 0% सटीकता प्राप्त करेंगे।