पर्यायवाची और एंटोनियम रिप्लेसमेंट
आम पर्यायवाची शब्दों को बदलना
एनएलपी के साथ काम करते समय, विशेष रूप से आवृत्ति विश्लेषण और पाठ अनुक्रमण के मामले में, शब्दावली को बिना अर्थ खोए संपीड़ित करना हमेशा फायदेमंद होता है क्योंकि यह बहुत सारी मेमोरी को बचाता है। इसे प्राप्त करने के लिए, हमें किसी शब्द के मानचित्रण को उसके पर्यायवाची शब्द में परिभाषित करना होगा। नीचे दिए गए उदाहरण में, हम नाम की एक क्लास बनाएंगेword_syn_replacer जिसका उपयोग शब्दों को उनके समानार्थी शब्दों के साथ बदलने के लिए किया जा सकता है।
उदाहरण
सबसे पहले, आवश्यक पैकेज आयात करें re नियमित अभिव्यक्ति के साथ काम करने के लिए।
import re
from nltk.corpus import wordnet
अगला, एक शब्द प्रतिस्थापन मानचित्रण लेने वाला वर्ग बनाएं -
class word_syn_replacer(object):
def __init__(self, word_map):
self.word_map = word_map
def replace(self, word):
return self.word_map.get(word, word)
इस अजगर प्रोग्राम को सहेजें (replacesyn.py कहते हैं) और इसे अजगर कमांड प्रॉम्प्ट से चलाएं। इसे चलाने के बाद, आयात करेंword_syn_replacerवर्ग जब आप शब्दों को आम समानार्थी शब्दों के साथ बदलना चाहते हैं। आइये देखते हैं कैसे।
from replacesyn import word_syn_replacer
rep_syn = word_syn_replacer ({‘bday’: ‘birthday’)
rep_syn.replace(‘bday’)
उत्पादन
'birthday'
पूरा कार्यान्वयन उदाहरण
import re
from nltk.corpus import wordnet
class word_syn_replacer(object):
def __init__(self, word_map):
self.word_map = word_map
def replace(self, word):
return self.word_map.get(word, word)
अब एक बार जब आपने उपरोक्त कार्यक्रम को सहेज लिया और इसे चलाया, तो आप कक्षा को आयात कर सकते हैं और निम्नानुसार उपयोग कर सकते हैं -
from replacesyn import word_syn_replacer
rep_syn = word_syn_replacer ({‘bday’: ‘birthday’)
rep_syn.replace(‘bday’)
उत्पादन
'birthday'
उपरोक्त विधि का नुकसान यह है कि हमें पायथन शब्दकोश में पर्यायवाची शब्द को हार्डकोड करना चाहिए। हमारे पास CSV और YAML फ़ाइल के रूप में दो बेहतर विकल्प हैं। हम अपनी पर्यायवाची शब्दावली को उपर्युक्त फाइलों में से किसी में भी सहेज सकते हैं और निर्माण कर सकते हैंword_mapउनसे शब्दकोश। आइए हम उदाहरणों की सहायता से अवधारणा को समझें।
CSV फ़ाइल का उपयोग करना
इस उद्देश्य के लिए CSV फ़ाइल का उपयोग करने के लिए, फ़ाइल में दो कॉलम होने चाहिए, पहला कॉलम शब्द से युक्त होता है और दूसरा कॉलम में इसे बदलने के लिए समानार्थक शब्द होते हैं। इस फाइल को हम इस रूप में सेव करते हैंsyn.csv. नीचे दिए गए उदाहरण में, हम नाम की एक क्लास बनाएंगे CSVword_syn_replacer जिसका विस्तार होगा word_syn_replacer में replacesyn.py फ़ाइल और निर्माण के लिए इस्तेमाल किया जाएगा word_map से शब्दकोश syn.csv फ़ाइल।
उदाहरण
सबसे पहले, आवश्यक पैकेज आयात करें।
import csv
अगला, एक शब्द प्रतिस्थापन मानचित्रण लेने वाला वर्ग बनाएं -
class CSVword_syn_replacer(word_syn_replacer):
def __init__(self, fname):
word_map = {}
for line in csv.reader(open(fname)):
word, syn = line
word_map[word] = syn
super(Csvword_syn_replacer, self).__init__(word_map)
इसे चलाने के बाद, आयात करें CSVword_syn_replacerवर्ग जब आप शब्दों को आम समानार्थी शब्दों के साथ बदलना चाहते हैं। आइये देखते हैं कैसे?
from replacesyn import CSVword_syn_replacer
rep_syn = CSVword_syn_replacer (‘syn.csv’)
rep_syn.replace(‘bday’)
उत्पादन
'birthday'
पूरा कार्यान्वयन उदाहरण
import csv
class CSVword_syn_replacer(word_syn_replacer):
def __init__(self, fname):
word_map = {}
for line in csv.reader(open(fname)):
word, syn = line
word_map[word] = syn
super(Csvword_syn_replacer, self).__init__(word_map)
अब एक बार जब आपने उपरोक्त कार्यक्रम को सहेज लिया और इसे चलाया, तो आप कक्षा को आयात कर सकते हैं और निम्नानुसार उपयोग कर सकते हैं -
from replacesyn import CSVword_syn_replacer
rep_syn = CSVword_syn_replacer (‘syn.csv’)
rep_syn.replace(‘bday’)
उत्पादन
'birthday'
YAML फ़ाइल का उपयोग करना
जैसा कि हमने CSV फ़ाइल का उपयोग किया है, हम इस उद्देश्य के लिए YAML फ़ाइल का उपयोग भी कर सकते हैं (हमारे पास PyYAML स्थापित होना चाहिए)। फाइल को हम इस रूप में सेव करते हैंsyn.yaml. नीचे दिए गए उदाहरण में, हम नाम की एक क्लास बनाएंगे YAMLword_syn_replacer जिसका विस्तार होगा word_syn_replacer में replacesyn.py फ़ाइल और निर्माण के लिए इस्तेमाल किया जाएगा word_map से शब्दकोश syn.yaml फ़ाइल।
उदाहरण
सबसे पहले, आवश्यक पैकेज आयात करें।
import yaml
अगला, एक शब्द प्रतिस्थापन मानचित्रण लेने वाला वर्ग बनाएं -
class YAMLword_syn_replacer(word_syn_replacer):
def __init__(self, fname):
word_map = yaml.load(open(fname))
super(YamlWordReplacer, self).__init__(word_map)
इसे चलाने के बाद, आयात करें YAMLword_syn_replacerवर्ग जब आप शब्दों को आम समानार्थी शब्दों के साथ बदलना चाहते हैं। आइये देखते हैं कैसे?
from replacesyn import YAMLword_syn_replacer
rep_syn = YAMLword_syn_replacer (‘syn.yaml’)
rep_syn.replace(‘bday’)
उत्पादन
'birthday'
पूरा कार्यान्वयन उदाहरण
import yaml
class YAMLword_syn_replacer(word_syn_replacer):
def __init__(self, fname):
word_map = yaml.load(open(fname))
super(YamlWordReplacer, self).__init__(word_map)
अब एक बार जब आपने उपरोक्त कार्यक्रम को सहेज लिया और इसे चलाया, तो आप कक्षा को आयात कर सकते हैं और निम्नानुसार उपयोग कर सकते हैं -
from replacesyn import YAMLword_syn_replacer
rep_syn = YAMLword_syn_replacer (‘syn.yaml’)
rep_syn.replace(‘bday’)
उत्पादन
'birthday'
एंटोनियम प्रतिस्थापन
जैसा कि हम जानते हैं कि एनटोनियम एक शब्द है जिसका दूसरे शब्द के विपरीत अर्थ है, और पर्यायवाची प्रतिस्थापन के विपरीत को एनटोनियम प्रतिस्थापन कहा जाता है। इस खंड में, हम वर्डनेट का उपयोग करके अनिर्वाचनीय विलोम के साथ शब्दों के स्थान पर, एनटोनियम प्रतिस्थापन के साथ काम करेंगे। नीचे दिए गए उदाहरण में, हम नाम की एक क्लास बनाएंगेword_antonym_replacer जिसके दो तरीके हैं, एक शब्द को बदलने के लिए और दूसरा नकार को हटाने के लिए।
उदाहरण
सबसे पहले, आवश्यक पैकेज आयात करें।
from nltk.corpus import wordnet
इसके बाद नाम वाली क्लास बनाएं word_antonym_replacer -
class word_antonym_replacer(object):
def replace(self, word, pos=None):
antonyms = set()
for syn in wordnet.synsets(word, pos=pos):
for lemma in syn.lemmas():
for antonym in lemma.antonyms():
antonyms.add(antonym.name())
if len(antonyms) == 1:
return antonyms.pop()
else:
return None
def replace_negations(self, sent):
i, l = 0, len(sent)
words = []
while i < l:
word = sent[i]
if word == 'not' and i+1 < l:
ant = self.replace(sent[i+1])
if ant:
words.append(ant)
i += 2
continue
words.append(word)
i += 1
return words
इस अजगर प्रोग्राम को सहेजें (replaceantonym.py कहते हैं) और इसे पायथन कमांड प्रॉम्प्ट से चलाएं। इसे चलाने के बाद, आयात करेंword_antonym_replacerवर्ग जब आप शब्दों को उनके अस्पष्ट प्रतिमान के साथ बदलना चाहते हैं। आइये देखते हैं कैसे।
from replacerantonym import word_antonym_replacer
rep_antonym = word_antonym_replacer ()
rep_antonym.replace(‘uglify’)
उत्पादन
['beautify'']
sentence = ["Let us", 'not', 'uglify', 'our', 'country']
rep_antonym.replace _negations(sentence)
उत्पादन
["Let us", 'beautify', 'our', 'country']
पूरा कार्यान्वयन उदाहरण
nltk.corpus import wordnet
class word_antonym_replacer(object):
def replace(self, word, pos=None):
antonyms = set()
for syn in wordnet.synsets(word, pos=pos):
for lemma in syn.lemmas():
for antonym in lemma.antonyms():
antonyms.add(antonym.name())
if len(antonyms) == 1:
return antonyms.pop()
else:
return None
def replace_negations(self, sent):
i, l = 0, len(sent)
words = []
while i < l:
word = sent[i]
if word == 'not' and i+1 < l:
ant = self.replace(sent[i+1])
if ant:
words.append(ant)
i += 2
continue
words.append(word)
i += 1
return words
अब एक बार जब आपने उपरोक्त कार्यक्रम को सहेज लिया और इसे चलाया, तो आप कक्षा को आयात कर सकते हैं और निम्नानुसार उपयोग कर सकते हैं -
from replacerantonym import word_antonym_replacer
rep_antonym = word_antonym_replacer ()
rep_antonym.replace(‘uglify’)
sentence = ["Let us", 'not', 'uglify', 'our', 'country']
rep_antonym.replace _negations(sentence)
उत्पादन
["Let us", 'beautify', 'our', 'country']