अधिक प्राकृतिक भाषा टूलकिट टैगर्स

Affix टैगर

ContextTagger उपवर्ग का एक अन्य महत्वपूर्ण वर्ग AffixTagger है। AffixTagger वर्ग में, संदर्भ या तो किसी शब्द का उपसर्ग या प्रत्यय है। यही कारण है कि AffixTagger वर्ग किसी शब्द की शुरुआत या समाप्ति की निश्चित लंबाई के आधार पर टैग सीख सकता है।

यह कैसे काम करता है?

इसका काम affix_length नाम के तर्क पर निर्भर करता है जो उपसर्ग या प्रत्यय की लंबाई को निर्दिष्ट करता है। डिफ़ॉल्ट मान है 3. लेकिन यह कैसे अलग करता है कि AffixTagger वर्ग ने शब्द के उपसर्ग या प्रत्यय सीखा है?

  • affix_length=positive - यदि affix_lenght का मान धनात्मक है तो इसका अर्थ है कि AffixTagger वर्ग शब्द के उपसर्ग सीखेगा।

  • affix_length=negative - यदि affix_lenght का मान ऋणात्मक है तो इसका मतलब है कि AffixTagger वर्ग शब्द के प्रत्ययों को सीख लेगा।

इसे स्पष्ट करने के लिए, नीचे दिए गए उदाहरण में, हम AffixTagger वर्ग का उपयोग टैग किए गए ट्रीबैंक वाक्यों पर करेंगे।

उदाहरण

इस उदाहरण में, AffixTagger शब्द के उपसर्ग सीखेगा क्योंकि हम affix_length तर्क के लिए कोई मूल्य निर्दिष्ट नहीं कर रहे हैं। तर्क डिफ़ॉल्ट मान लेगा 3 -

from nltk.tag import AffixTagger
from nltk.corpus import treebank
train_sentences = treebank.tagged_sents()[:2500]
Prefix_tagger = AffixTagger(train_sentences)
test_sentences = treebank.tagged_sents()[1500:]
Prefix_tagger.evaluate(test_sentences)

उत्पादन

0.2800492099250667

आइए नीचे दिए गए उदाहरण में देखते हैं कि क्या होगा जब हम एफ़िक्स_लॉन्ग तर्क 4 को मान प्रदान करते हैं -

from nltk.tag import AffixTagger
from nltk.corpus import treebank
train_sentences = treebank.tagged_sents()[:2500]
Prefix_tagger = AffixTagger(train_sentences, affix_length=4 )
test_sentences = treebank.tagged_sents()[1500:]
Prefix_tagger.evaluate(test_sentences)

उत्पादन

0.18154947354966527

उदाहरण

इस उदाहरण में, AffixTagger शब्द के प्रत्यय को सीख लेगा क्योंकि हम affix_length तर्क के लिए नकारात्मक मान निर्दिष्ट करेंगे।

from nltk.tag import AffixTagger
from nltk.corpus import treebank
train_sentences = treebank.tagged_sents()[:2500]
Suffix_tagger = AffixTagger(train_sentences, affix_length = -3)
test_sentences = treebank.tagged_sents()[1500:]
Suffix_tagger.evaluate(test_sentences)

उत्पादन

0.2800492099250667

ब्रिल टेगर

ब्रिल टेगर एक ट्रांसफॉर्मेशन बेस्ड टैगर है। एनएलटीके प्रदान करता हैBrillTagger वर्ग जो पहला टैगर है जो उप-वर्ग नहीं है SequentialBackoffTagger। इसके विपरीत, प्रारंभिक टैगर के परिणामों को सही करने के लिए नियमों की एक श्रृंखला का उपयोग किया जाता हैBrillTagger

यह कैसे काम करता है?

को प्रशिक्षित करने के लिए BrillTagger कक्षा का उपयोग करना BrillTaggerTrainer हम निम्नलिखित कार्य को परिभाषित करते हैं -

def train_brill_tagger(initial_tagger, train_sentences, **kwargs) -

templates = [
   brill.Template(brill.Pos([-1])),
   brill.Template(brill.Pos([1])),
   brill.Template(brill.Pos([-2])),
   brill.Template(brill.Pos([2])),
   brill.Template(brill.Pos([-2, -1])),
   brill.Template(brill.Pos([1, 2])),
   brill.Template(brill.Pos([-3, -2, -1])),
   brill.Template(brill.Pos([1, 2, 3])),
   brill.Template(brill.Pos([-1]), brill.Pos([1])),
   brill.Template(brill.Word([-1])),
   brill.Template(brill.Word([1])),
   brill.Template(brill.Word([-2])),
   brill.Template(brill.Word([2])),
   brill.Template(brill.Word([-2, -1])),
   brill.Template(brill.Word([1, 2])),
   brill.Template(brill.Word([-3, -2, -1])),
   brill.Template(brill.Word([1, 2, 3])),
   brill.Template(brill.Word([-1]), brill.Word([1])),
]
trainer = brill_trainer.BrillTaggerTrainer(initial_tagger, templates, deterministic=True)
return trainer.train(train_sentences, **kwargs)

जैसा कि हम देख सकते हैं, इस फ़ंक्शन की आवश्यकता है initial_tagger तथा train_sentences। यह एक लेता हैinitial_tagger तर्क और टेम्प्लेट की एक सूची, जो लागू करता है BrillTemplateइंटरफेस। BrillTemplate में इंटरफ़ेस पाया जाता है nltk.tbl.templateमापांक। ऐसा ही एक कार्यान्वयन हैbrill.Template कक्षा।

परिवर्तन-आधारित टैगर की मुख्य भूमिका परिवर्तन नियमों को उत्पन्न करना है जो प्रारंभिक टैगर के आउटपुट को प्रशिक्षण वाक्यों के साथ अधिक इन-लाइन होने के लिए सही करते हैं। आइये नीचे दिए गए वर्कफ़्लो को देखते हैं -

उदाहरण

इस उदाहरण के लिए, हम उपयोग करेंगे combine_tagger जिसे हमने टैगर्स (पिछले रेसिपी में) के बैकऑफ चेन से कंघी करते हुए बनाया था NgramTagger कक्षाएं, के रूप में initial_tagger। पहले, हम परिणाम का उपयोग करके मूल्यांकन करते हैंCombine.tagger और फिर उस का उपयोग करें initial_tagger शानदार टैगर को प्रशिक्षित करने के लिए।

from tagger_util import backoff_tagger
from nltk.tag import UnigramTagger
from nltk.tag import BigramTagger
from nltk.tag import TrigramTagger
from nltk.tag import DefaultTagger
from nltk.corpus import treebank
train_sentences = treebank.tagged_sents()[:2500]
back_tagger = DefaultTagger('NN')
Combine_tagger = backoff_tagger(
   train_sentences, [UnigramTagger, BigramTagger, TrigramTagger], backoff = back_tagger
)
test_sentences = treebank.tagged_sents()[1500:]
Combine_tagger.evaluate(test_sentences)

उत्पादन

0.9234530029238365

अब, मूल्यांकन परिणाम कब देखते हैं Combine_tagger के रूप में प्रयोग किया जाता है initial_tagger शानदार टैगर को प्रशिक्षित करने के लिए -

from tagger_util import train_brill_tagger
brill_tagger = train_brill_tagger(combine_tagger, train_sentences)
brill_tagger.evaluate(test_sentences)

उत्पादन

0.9246832510505041

हम यह देख सकते हैं BrillTagger वर्ग में थोड़ी अधिक सटीकता है Combine_tagger

पूरा कार्यान्वयन उदाहरण

from tagger_util import backoff_tagger
from nltk.tag import UnigramTagger
from nltk.tag import BigramTagger
from nltk.tag import TrigramTagger
from nltk.tag import DefaultTagger
from nltk.corpus import treebank
train_sentences = treebank.tagged_sents()[:2500]
back_tagger = DefaultTagger('NN')
Combine_tagger = backoff_tagger(train_sentences,
[UnigramTagger, BigramTagger, TrigramTagger], backoff = back_tagger)
test_sentences = treebank.tagged_sents()[1500:]
Combine_tagger.evaluate(test_sentences)
from tagger_util import train_brill_tagger
brill_tagger = train_brill_tagger(combine_tagger, train_sentences)
brill_tagger.evaluate(test_sentences)

उत्पादन

0.9234530029238365
0.9246832510505041

TnT टैगर

TnT टैगर, Trigrams'nTags के लिए खड़ा है, एक सांख्यिकीय टैगर है जो दूसरे क्रम के मार्कोव मॉडल पर आधारित है।

यह कैसे काम करता है?

हम निम्नलिखित चरणों की मदद से TnT टैगर के कार्य को समझ सकते हैं -

  • पहले प्रशिक्षण डेटा के आधार पर, TnT टेगर कई आंतरिक बनाए रखता है FreqDist तथा ConditionalFreqDist उदाहरणों।

  • उसके बाद इन फ्रीक्वेंसी डिस्ट्रीब्यूशन द्वारा यूनिग्राम, बिगग्राम और ट्रिगर्स की गणना की जाएगी।

  • अब, टैगिंग के दौरान, आवृत्तियों का उपयोग करके, यह प्रत्येक शब्द के लिए संभावित टैग की संभावनाओं की गणना करेगा।

यही कारण है कि NgramTagger की एक बैकऑफ़ श्रृंखला के निर्माण के बजाय, यह प्रत्येक शब्द के लिए सबसे अच्छा टैग चुनने के लिए सभी ngram मॉडल का उपयोग करता है। आइए हम निम्नलिखित उदाहरण में TnT टैगर के साथ सटीकता का मूल्यांकन करें -

from nltk.tag import tnt
from nltk.corpus import treebank
train_sentences = treebank.tagged_sents()[:2500]
tnt_tagger = tnt.TnT()
tnt_tagger.train(train_sentences)
test_sentences = treebank.tagged_sents()[1500:]
tnt_tagger.evaluate(test_sentences)

उत्पादन

0.9165508316157791

ब्रिल टेगर के साथ मिली तुलना में हमारे पास थोड़ी कम सटीकता है।

कृपया ध्यान दें कि हमें कॉल करने की आवश्यकता है train() इससे पहले evaluate() अन्यथा हम 0% सटीकता प्राप्त करेंगे।