प्राकृतिक भाषा टूलकिट - ट्रांसफॉर्मिंग चंक्स
क्यों बदल रहा है हिस्सा?
अब तक हमें वाक्यों से वाक्यांश या वाक्यांश मिले हैं लेकिन हम उनके साथ क्या करने वाले हैं। महत्वपूर्ण कार्यों में से एक उन्हें बदलना है। पर क्यों? यह निम्नलिखित करना है -
- व्याकरणिक सुधार और
- वाक्यांशों को पुनर्व्यवस्थित करना
तुच्छ / बेकार शब्दों को छानना
मान लीजिए यदि आप किसी वाक्यांश के अर्थ को आंकना चाहते हैं तो आमतौर पर इस्तेमाल किए जाने वाले शब्द हैं जैसे कि, 'द', 'ए', महत्वहीन या बेकार हैं। उदाहरण के लिए, निम्नलिखित वाक्यांश देखें -
'मूवी अच्छी थी'।
यहाँ सबसे महत्वपूर्ण शब्द 'फिल्म' और 'अच्छा' हैं। अन्य शब्द, 'द' और 'दोनों' बेकार या नगण्य हैं। ऐसा इसलिए है क्योंकि उनके बिना भी हम वाक्यांश का वही अर्थ प्राप्त कर सकते हैं। 'अच्छी फिल्म'।
निम्नलिखित अजगर नुस्खा में, हम सीखेंगे कि बेकार / तुच्छ शब्दों को कैसे हटाएं और महत्वपूर्ण शब्दों को पीओएस टैग की मदद से रखें।
उदाहरण
सबसे पहले, के माध्यम से देख कर treebankस्टॉपवॉच के लिए कॉर्पस हमें यह तय करने की आवश्यकता है कि कौन से भाग के भाषण टैग महत्वपूर्ण हैं और कौन से नहीं हैं। आइये हम तुच्छ शब्दों और टैगों की निम्न तालिका देखते हैं -
शब्द | टैग |
---|---|
ए | डीटी |
सब | पीडीटी |
एक | डीटी |
तथा | सीसी |
या | सीसी |
उस | WDT |
The | डीटी |
उपरोक्त तालिका से, हम CC के अलावा अन्य देख सकते हैं, सभी अन्य टैग DT के साथ समाप्त होते हैं, जिसका अर्थ है कि हम टैग के प्रत्यय को देखकर तुच्छ शब्दों को फ़िल्टर कर सकते हैं।
इस उदाहरण के लिए, हम एक फ़ंक्शन का उपयोग करने जा रहे हैं जिसका नाम है filter()जो एक एकल हिस्सा लेता है और बिना किसी तुच्छ शब्दों के एक नया हिस्सा देता है। यह फ़ंक्शन डीटी या सीसी के साथ समाप्त होने वाले किसी भी टैग को फ़िल्टर करता है।
उदाहरण
import nltk
def filter(chunk, tag_suffixes=['DT', 'CC']):
significant = []
for word, tag in chunk:
ok = True
for suffix in tag_suffixes:
if tag.endswith(suffix):
ok = False
break
if ok:
significant.append((word, tag))
return (significant)
अब, इस शब्द फ़िल्टर का उपयोग करें () अपने अजगर नुस्खा में तुच्छ शब्दों को हटाने के लिए -
from chunk_parse import filter
filter([('the', 'DT'),('good', 'JJ'),('movie', 'NN')])
उत्पादन
[('good', 'JJ'), ('movie', 'NN')]
क्रिया सुधार
कई बार, वास्तविक दुनिया की भाषा में हम गलत क्रिया रूपों को देखते हैं। उदाहरण के लिए, 'क्या आप ठीक हैं?' सही नहीं है। इस वाक्य में क्रिया रूप सही नहीं है। वाक्य होना चाहिए 'क्या आप ठीक हैं?' एनएलटीके हमें क्रिया सुधार मैपिंग बनाकर इस तरह की गलतियों को ठीक करने का तरीका प्रदान करता है। इन सुधार मैपिंग का उपयोग इस आधार पर किया जाता है कि क्या चंक में एक बहुवचन या एकवचन संज्ञा है।
उदाहरण
पायथन नुस्खा को लागू करने के लिए, हमें सबसे पहले क्रिया सुधार मैपिंग को परिभाषित करने की आवश्यकता है। आइए हम दो मैपिंग बनाते हैं -
Plural to Singular mappings
plural= {
('is', 'VBZ'): ('are', 'VBP'),
('was', 'VBD'): ('were', 'VBD')
}
Singular to Plural mappings
singular = {
('are', 'VBP'): ('is', 'VBZ'),
('were', 'VBD'): ('was', 'VBD')
}
जैसा कि ऊपर देखा गया है, प्रत्येक मानचित्रण में एक टैग की गई क्रिया होती है, जो किसी अन्य टैग की गई क्रिया के अनुसार होती है। हमारे उदाहरण में प्रारंभिक मैपिंग मैपिंग के मूल को कवर करती हैis to are, was to were, और इसके विपरीत।
अगला, हम एक फ़ंक्शन को नाम देंगे verbs(), जिसमें आप गलत क्रिया फॉर्म के साथ एक चिन पास कर सकते हैं और एक सही कटा हुआ बैक प्राप्त करेंगे। इसे पूरा करने के लिए,verb() फ़ंक्शन नाम के एक सहायक फ़ंक्शन का उपयोग करता है index_chunk() जो पहले टैग किए गए शब्द की स्थिति के लिए chunk खोजेगा।
आइये देखते हैं ये कार्य -
def index_chunk(chunk, pred, start = 0, step = 1):
l = len(chunk)
end = l if step > 0 else -1
for i in range(start, end, step):
if pred(chunk[i]):
return i
return None
def tag_startswith(prefix):
def f(wt):
return wt[1].startswith(prefix)
return f
def verbs(chunk):
vbidx = index_chunk(chunk, tag_startswith('VB'))
if vbidx is None:
return chunk
verb, vbtag = chunk[vbidx]
nnpred = tag_startswith('NN')
nnidx = index_chunk(chunk, nnpred, start = vbidx+1)
if nnidx is None:
nnidx = index_chunk(chunk, nnpred, start = vbidx-1, step = -1)
if nnidx is None:
return chunk
noun, nntag = chunk[nnidx]
if nntag.endswith('S'):
chunk[vbidx] = plural.get((verb, vbtag), (verb, vbtag))
else:
chunk[vbidx] = singular.get((verb, vbtag), (verb, vbtag))
return chunk
अपनी स्थानीय निर्देशिका में पायथन फ़ाइल में इन कार्यों को सहेजें जहां पायथन या एनाकोंडा स्थापित है और इसे चलाएं। मैंने इसे सहेज कर रखा हैverbcorrect.py।
अब, हमें कॉल करें verbs() POS पर कार्य किया गया टैग is you fine चंक -
from verbcorrect import verbs
verbs([('is', 'VBZ'), ('you', 'PRP$'), ('fine', 'VBG')])
उत्पादन
[('are', 'VBP'), ('you', 'PRP$'), ('fine','VBG')]
वाक्यांशों से निष्क्रिय आवाज को खत्म करना
एक और उपयोगी कार्य वाक्यांशों से निष्क्रिय आवाज को खत्म करना है। यह एक क्रिया के चारों ओर शब्दों की अदला-बदली की मदद से किया जा सकता है। उदाहरण के लिए,‘the tutorial was great’ में तब्दील किया जा सकता है ‘the great tutorial’।
उदाहरण
इसे प्राप्त करने के लिए हम एक फ़ंक्शन का नाम निर्धारित कर रहे हैं eliminate_passive()यह पिवट बिंदु के रूप में क्रिया का उपयोग करके बाएं-हाथ के साथ चंक के दाईं ओर स्वैप करेगा। क्रिया को चारों ओर धुरी में खोजने के लिए, यह भी उपयोग करेगाindex_chunk() ऊपर परिभाषित समारोह।
def eliminate_passive(chunk):
def vbpred(wt):
word, tag = wt
return tag != 'VBG' and tag.startswith('VB') and len(tag) > 2
vbidx = index_chunk(chunk, vbpred)
if vbidx is None:
return chunk
return chunk[vbidx+1:] + chunk[:vbidx]
अब, हमें कॉल करें eliminate_passive() POS पर कार्य किया गया टैग the tutorial was great चंक -
from passiveverb import eliminate_passive
eliminate_passive(
[
('the', 'DT'), ('tutorial', 'NN'), ('was', 'VBD'), ('great', 'JJ')
]
)
उत्पादन
[('great', 'JJ'), ('the', 'DT'), ('tutorial', 'NN')]
स्वैपिंग संज्ञा कार्डिनल्स
जैसा कि हम जानते हैं, कार्डिनल शब्द जैसे कि 5, एक चंक में सीडी के रूप में टैग किया गया है। ये कार्डिनल शब्द अक्सर संज्ञा से पहले या बाद में होते हैं लेकिन सामान्यीकरण के उद्देश्य के लिए यह हमेशा संज्ञा के सामने रखना उपयोगी होता है। उदाहरण के लिए, तारीखJanuary 5 के रूप में लिखा जा सकता है 5 January। इसे हम निम्नलिखित उदाहरण से समझते हैं।
उदाहरण
इसे प्राप्त करने के लिए हम एक फ़ंक्शन का नाम निर्धारित कर रहे हैं swapping_cardinals()जो संज्ञा के साथ संज्ञा के तुरंत बाद होने वाले किसी भी कार्डिनल को स्वैप करेगा। इसके साथ कार्डिनल संज्ञा से तुरंत पहले होगा। दिए गए टैग के साथ समानता की तुलना करने के लिए, यह एक सहायक फ़ंक्शन का उपयोग करता है जिसे हमने नाम दिया हैtag_eql()।
def tag_eql(tag):
def f(wt):
return wt[1] == tag
return f
अब हम स्वैपिंग_कार्डिनल्स () को परिभाषित कर सकते हैं -
def swapping_cardinals (chunk):
cdidx = index_chunk(chunk, tag_eql('CD'))
if not cdidx or not chunk[cdidx-1][1].startswith('NN'):
return chunk
noun, nntag = chunk[cdidx-1]
chunk[cdidx-1] = chunk[cdidx]
chunk[cdidx] = noun, nntag
return chunk
अब, हमें कॉल करें swapping_cardinals() एक तिथि पर कार्य करें “January 5” -
from Cardinals import swapping_cardinals()
swapping_cardinals([('Janaury', 'NNP'), ('5', 'CD')])
उत्पादन
[('10', 'CD'), ('January', 'NNP')]
10 January