चुंगी और सूचना निकालना
चंकिंग क्या है?
चूनिंग, प्राकृतिक भाषा प्रसंस्करण में महत्वपूर्ण प्रक्रियाओं में से एक, भाषण (पीओएस) और छोटे वाक्यांशों के कुछ हिस्सों की पहचान करने के लिए उपयोग किया जाता है। दूसरे सरल शब्दों में, झंकार के साथ, हम वाक्य की संरचना प्राप्त कर सकते हैं। इसे कहते भी हैंpartial parsing।
चंक पैटर्न और चंक्स
Chunk patternsपार्ट-ऑफ-स्पीच (POS) टैग्स के पैटर्न हैं जो परिभाषित करते हैं कि किस तरह के शब्दों ने एक चंक बनाया है। हम संशोधित नियमित अभिव्यक्तियों की मदद से चंक पैटर्न को परिभाषित कर सकते हैं।
इसके अलावा, हम पैटर्न को परिभाषित भी कर सकते हैं कि किस तरह के शब्दों को किसी प्रकार का नहीं होना चाहिए और इन शब्दों को अनछुए शब्दों के रूप में जाना जाता है chinks।
कार्यान्वयन का उदाहरण
नीचे दिए गए उदाहरण में, वाक्य को पार्स करने के परिणाम के साथ “the book has many chapters”, संज्ञा वाक्यांशों के लिए एक व्याकरण है जो एक चंक और एक चिनक पैटर्न दोनों को जोड़ता है -
import nltk
sentence = [
("the", "DT"),
("book", "NN"),
("has","VBZ"),
("many","JJ"),
("chapters","NNS")
]
chunker = nltk.RegexpParser(
r'''
NP:{<DT><NN.*><.*>*<NN.*>}
}<VB.*>{
'''
)
chunker.parse(sentence)
Output = chunker.parse(sentence)
Output.draw()
उत्पादन
जैसा कि ऊपर देखा गया है, ठग को निर्दिष्ट करने के लिए पैटर्न निम्नानुसार घुंघराले ब्रेसिज़ का उपयोग करना है -
{<DT><NN>}
और एक झंकार को निर्दिष्ट करने के लिए, हम ब्रेसिज़ को इस तरह से फ्लिप कर सकते हैं -
}<VB>{.
अब, एक विशेष वाक्यांश प्रकार के लिए, इन नियमों को एक व्याकरण में जोड़ा जा सकता है।
सूचना निकालना
हम टैगर्स के साथ-साथ पार्सर्स से गुजरे हैं जिनका उपयोग सूचना निष्कर्षण इंजन के निर्माण के लिए किया जा सकता है। आइए हम एक बुनियादी सूचना निष्कर्षण पाइपलाइन देखते हैं -
सूचना निष्कर्षण सहित कई अनुप्रयोग हैं -
- व्यापारिक सूचना
- कटाई फिर से शुरू करें
- मीडिया विश्लेषण
- वाक्य का पता लगाना
- पेटेंट खोज
- ईमेल स्कैनिंग
नाम-इकाई मान्यता (एनईआर)
नाम-इकाई मान्यता (एनईआर) वास्तव में कुछ सामान्य संस्थाओं जैसे नाम, संगठन, स्थान इत्यादि को निकालने का एक तरीका है, आइए एक उदाहरण देखें, जिसमें सभी पूर्वप्रक्रमक कदम उठाए गए हैं जैसे वाक्य tokenization, POS टैगिंग, कॉर्डिंग, NER और ऊपर दी गई आकृति में दी गई पाइपलाइन का अनुसरण करता है।
उदाहरण
Import nltk
file = open (
# provide here the absolute path for the file of text for which we want NER
)
data_text = file.read()
sentences = nltk.sent_tokenize(data_text)
tokenized_sentences = [nltk.word_tokenize(sentence) for sentence in sentences]
tagged_sentences = [nltk.pos_tag(sentence) for sentence in tokenized_sentences]
for sent in tagged_sentences:
print nltk.ne_chunk(sent)
कुछ संशोधित नाम-इकाई मान्यता (एनईआर) का उपयोग उत्पाद नाम, जैव-चिकित्सा संस्था, ब्रांड नाम और बहुत कुछ जैसी संस्थाओं को निकालने के लिए भी किया जा सकता है।
संबंध विच्छेद
संबंध निष्कर्षण, एक और आमतौर पर इस्तेमाल किया जाने वाला सूचना निष्कर्षण ऑपरेशन, विभिन्न संस्थाओं के बीच विभिन्न संबंधों को निकालने की प्रक्रिया है। वंशानुक्रम, पर्यायवाची, सादृश्य आदि जैसे विभिन्न संबंध हो सकते हैं, जिनकी परिभाषा जानकारी की जरूरत पर निर्भर करती है। उदाहरण के लिए, मान लें कि यदि हम किसी पुस्तक को लिखना चाहते हैं तो लेखक का नाम और पुस्तक के नाम के बीच का संबंध होगा।
उदाहरण
निम्नलिखित उदाहरण में, हम उसी आईई पाइपलाइन का उपयोग करते हैं, जैसा कि ऊपर चित्र में दिखाया गया है, कि हमने नामांकित-इकाई संबंध (एनईआर) तक का उपयोग किया और इसे एनईआर टैग के आधार पर एक संबंध पैटर्न के साथ विस्तारित किया।
import nltk
import re
IN = re.compile(r'.*\bin\b(?!\b.+ing)')
for doc in nltk.corpus.ieer.parsed_docs('NYT_19980315'):
for rel in nltk.sem.extract_rels('ORG', 'LOC', doc, corpus = 'ieer',
pattern = IN):
print(nltk.sem.rtuple(rel))
उत्पादन
[ORG: 'WHYY'] 'in' [LOC: 'Philadelphia']
[ORG: 'McGlashan & Sarrail'] 'firm in' [LOC: 'San Mateo']
[ORG: 'Freedom Forum'] 'in' [LOC: 'Arlington']
[ORG: 'Brookings Institution'] ', the research group in' [LOC: 'Washington']
[ORG: 'Idealab'] ', a self-described business incubator based in' [LOC: 'Los Angeles']
[ORG: 'Open Text'] ', based in' [LOC: 'Waterloo']
[ORG: 'WGBH'] 'in' [LOC: 'Boston']
[ORG: 'Bastille Opera'] 'in' [LOC: 'Paris']
[ORG: 'Omnicom'] 'in' [LOC: 'New York']
[ORG: 'DDB Needham'] 'in' [LOC: 'New York']
[ORG: 'Kaplan Thaler Group'] 'in' [LOC: 'New York']
[ORG: 'BBDO South'] 'in' [LOC: 'Atlanta']
[ORG: 'Georgia-Pacific'] 'in' [LOC: 'Atlanta']
उपरोक्त कोड में, हमने erer नामक एक इनबिल्ट कॉर्पस का उपयोग किया है। इस कॉर्पस में, वाक्यों को नामांकित-इकाई संबंध (एनईआर) तक टैग किया जाता है। यहां हमें केवल उस संबंध पैटर्न को निर्दिष्ट करना होगा जो हम चाहते हैं और जिस तरह का एनईआर चाहते हैं वह संबंध परिभाषित करना चाहता है। हमारे उदाहरण में, हमने एक संगठन और एक स्थान के बीच संबंध को परिभाषित किया है। हमने इन पैटर्नों के सभी संयोजनों को निकाला।