पार्ट-ऑफ-स्पीच (पीओएस) टैगिंग की मूल बातें
POS टैगिंग क्या है?
टैगिंग, एक प्रकार का वर्गीकरण, टोकन के विवरण का स्वचालित असाइनमेंट है। हम डिस्क्रिप्टर के 'टैग' को कहते हैं, जो कि भाषण के कुछ हिस्सों (संज्ञा, क्रिया, क्रिया विशेषण, विशेषण, सर्वनाम, संयोजन और उनकी उप-श्रेणियां), अर्थ सूचना और इतने पर का प्रतिनिधित्व करता है।
दूसरी ओर, अगर हम पार्ट-ऑफ-स्पीच (पीओएस) टैगिंग के बारे में बात करते हैं, तो इसे शब्दों की सूची के रूप में, टुपल्स की सूची में रूपांतरित करने की प्रक्रिया के रूप में परिभाषित किया जा सकता है। यहाँ, टुपल्स (शब्द, टैग) के रूप में हैं। हम पीओएस को दिए गए शब्द में भाषण के किसी एक भाग को असाइन करने की प्रक्रिया को टैग कर सकते हैं।
निम्नलिखित तालिका पेन ट्रीबैंक कॉर्पस में प्रयुक्त सबसे अक्सर पीओएस अधिसूचना का प्रतिनिधित्व करती है -
अनु क्रमांक | टैग | विवरण |
---|---|---|
1 | एनएनपी | व्यक्तिवाचक संज्ञा, एकवचन |
2 | NNPS | उचित संज्ञा, बहुवचन |
3 | पीडीटी | पूर्व निश्चय करनेवाला |
4 | स्थिति | संभावित समाप्ति |
5 | पीआरपी | व्यक्तिगत सर्वनाम |
6 | पीआरपी $ | अधिकार सर्वनाम |
7 | आरबी | क्रिया विशेषण |
8 | RBR | क्रियाविशेषण, तुलनात्मक |
9 | आरबीएस | क्रियाविशेषण, अतिशयोक्ति |
10 | आरपी | कण |
1 1 | प्रतीक | प्रतीक (गणितीय या वैज्ञानिक) |
12 | सेवा | सेवा |
13 | उह | विस्मयादिबोधक |
14 | वीबी | क्रिया, आधार रूप |
15 | VBD | क्रिया, भूत काल |
16 | VBG | क्रिया, gerund / present participle |
17 | VBN | क्रिया, अतीत |
18 | WP | क-सर्वनाम |
19 | WP $ | पूर्ण-सर्वनाम |
20 | WRB | क-क्रिया विशेषण |
21 | # | पाउन्ड चिन्ह |
22 | $ | डॉलर का चिह्न |
23 | । | वाक्य-अंतिम विराम चिह्न |
24 | , | अल्पविराम |
25 | : | बृहदान्त्र, अर्ध-बृहदान्त्र |
26 | ( | वाम कोष्ठक वर्ण |
27 | ) | सही ब्रैकेट चरित्र |
28 | " | सीधे दोहरे भाव |
29 | ' | लेफ्ट ओपन सिंगल कोट |
30 | " | लेफ्ट ओपन डबल कोट |
31 | ' | सही पास एकल उद्धरण |
32 | " | राइट ओपन डबल कोट |
उदाहरण
आइए इसे पायथन प्रयोग के साथ समझते हैं -
import nltk
from nltk import word_tokenize
sentence = "I am going to school"
print (nltk.pos_tag(word_tokenize(sentence)))
उत्पादन
[('I', 'PRP'), ('am', 'VBP'), ('going', 'VBG'), ('to', 'TO'), ('school', 'NN')]
पीओएस टैगिंग क्यों?
पीओएस टैगिंग एनएलपी का एक महत्वपूर्ण हिस्सा है क्योंकि यह एनएलपी विश्लेषण के लिए आगे की शर्त के रूप में काम करता है -
- Chunking
- सिंटेक्स पार्सिंग
- सूचना निकासी
- मशीन अनुवाद
- भावनाओं का विश्लेषण
- व्याकरण विश्लेषण और शब्द-बोध का असंतुलन
टैगार्इ - बेस क्लास
सभी टैगर्स NLTK के nltk.tag पैकेज में रहते हैं। इन टैगर्स का बेस क्लास हैTaggerIका मतलब है, सभी टैगर्स को इस वर्ग से विरासत में मिला है।
Methods - टैगार्इ क्लास में निम्नलिखित दो विधियाँ हैं जिन्हें इसके सभी उपवर्गों द्वारा कार्यान्वित किया जाना चाहिए -
tag() method - जैसा कि नाम से ही स्पष्ट है, यह विधि इनपुट के रूप में शब्दों की एक सूची लेती है और आउटपुट के रूप में टैग किए गए शब्दों की सूची लौटाती है।
evaluate() method - इस पद्धति की सहायता से, हम टैगर की सटीकता का मूल्यांकन कर सकते हैं।
पीओएस टैगिंग की आधार रेखा
आधार रेखा या पीओएस टैगिंग का मूल चरण है Default Tagging, जिसे NLTK के DefaultTagger वर्ग का उपयोग करके किया जा सकता है। डिफ़ॉल्ट टैगिंग बस हर टोकन को एक ही पीओएस टैग प्रदान करता है। डिफ़ॉल्ट टैगिंग भी सटीकता में सुधार के लिए एक आधार रेखा प्रदान करता है।
डिफ़ॉल्टटैगर वर्ग
डिफ़ॉल्ट टैगिंग का उपयोग करके किया जाता है DefaultTagging वर्ग, जो एकल तर्क लेता है, अर्थात, वह टैग जिसे हम लागू करना चाहते हैं।
यह कैसे काम करता है?
जैसा कि पहले बताया गया था, सभी टैगर्स को विरासत में मिला है TaggerIकक्षा। DefaultTagger से विरासत में मिला है SequentialBackoffTagger जो की एक उपवर्ग है TaggerI class। आइए इसे निम्नलिखित आरेख के साथ समझते हैं -
का हिस्सा होने के नाते SeuentialBackoffTagger, को DefaultTagger चयन करना होगा select_tag () विधि जो निम्नलिखित तीन तर्क लेती है।
- टोकन की सूची
- वर्तमान टोकन का सूचकांक
- पिछले टोकन की सूची, यानी, इतिहास
उदाहरण
import nltk
from nltk.tag import DefaultTagger
exptagger = DefaultTagger('NN')
exptagger.tag(['Tutorials','Point'])
उत्पादन
[('Tutorials', 'NN'), ('Point', 'NN')]
इस उदाहरण में, हमने एक संज्ञा टैग चुना क्योंकि यह सबसे आम प्रकार के शब्द हैं। इसके अलावा,DefaultTagger जब हम सबसे सामान्य POS टैग चुनते हैं, तब भी सबसे उपयोगी होता है।
सटीकता का मूल्यांकन
DefaultTaggerटैगर्स की सटीकता के मूल्यांकन के लिए आधार रेखा भी है। यही कारण है कि हम इसे साथ उपयोग कर सकते हैंevaluate()सटीकता मापने की विधि। evaluate() विधि टैगर का मूल्यांकन करने के लिए सोने के मानक के रूप में टैग किए गए टोकन की एक सूची लेती है।
निम्नलिखित एक उदाहरण है जिसमें हमने अपने डिफ़ॉल्ट टैगर का उपयोग किया है, जिसका नाम है exptagger, एक उपसमुच्चय की सटीकता का मूल्यांकन करने के लिए, ऊपर बनाया गया है treebank कॉर्पस टैग किए गए वाक्य -
उदाहरण
import nltk
from nltk.tag import DefaultTagger
exptagger = DefaultTagger('NN')
from nltk.corpus import treebank
testsentences = treebank.tagged_sents() [1000:]
exptagger.evaluate (testsentences)
उत्पादन
0.13198749536374715
ऊपर आउटपुट दिखाता है कि चुनकर NN हर टैग के लिए, हम 1000 प्रविष्टियों में से लगभग 13% सटीकता परीक्षण प्राप्त कर सकते हैं treebank कोष।
वाक्यों की सूची का टैग लगाना
एक वाक्य को टैग करने के बजाय, एनएलटीके TaggerI वर्ग भी हमें एक प्रदान करता है tag_sents()वह तरीका जिसकी मदद से हम वाक्यों की सूची को टैग कर सकते हैं। निम्नलिखित उदाहरण है जिसमें हमने दो सरल वाक्यों को टैग किया है
उदाहरण
import nltk
from nltk.tag import DefaultTagger
exptagger = DefaultTagger('NN')
exptagger.tag_sents([['Hi', ','], ['How', 'are', 'you', '?']])
उत्पादन
[
[
('Hi', 'NN'),
(',', 'NN')
],
[
('How', 'NN'),
('are', 'NN'),
('you', 'NN'),
('?', 'NN')
]
]
उपरोक्त उदाहरण में, हमने अपने पहले से बनाए गए डिफ़ॉल्ट टैगर का उपयोग किया है जिसका नाम है exptagger।
अन-टैगिंग एक वाक्य
हम वाक्य को अन-टैग भी कर सकते हैं। NLTK इस उद्देश्य के लिए nltk.tag.untag () विधि प्रदान करता है। यह एक टैग किए गए वाक्य को इनपुट के रूप में लेगा और टैग के बिना शब्दों की एक सूची प्रदान करेगा। आइए एक उदाहरण देखें -
उदाहरण
import nltk
from nltk.tag import untag
untag([('Tutorials', 'NN'), ('Point', 'NN')])
उत्पादन
['Tutorials', 'Point']