एनएलपी - शब्द संवेदना विसंगति

हम समझते हैं कि वाक्य में इसके उपयोग के संदर्भ के आधार पर शब्दों के अलग-अलग अर्थ हैं। अगर हम मानव भाषाओं के बारे में बात करते हैं, तो वे अस्पष्ट भी हैं क्योंकि कई शब्दों को उनकी घटना के संदर्भ के आधार पर कई तरीकों से व्याख्या की जा सकती है।

प्राकृतिक भाषा प्रसंस्करण (एनएलपी) में शब्द बोध भंग हो सकता है, यह निर्धारित करने की क्षमता के रूप में परिभाषित किया जा सकता है कि किसी विशेष संदर्भ में शब्द के उपयोग से शब्द का कौन सा अर्थ सक्रिय होता है। लेक्सिकल अस्पष्टता, वाक्यविन्यास या शब्दार्थ, किसी भी एनएलपी प्रणाली का सामना करने वाली पहली समस्या में से एक है। उच्च स्तर की सटीकता के साथ पार्ट-टू-स्पीच (पीओएस) टैगर्स वर्ड की वाक्यविन्यास अस्पष्टता को हल कर सकते हैं। दूसरी ओर, शब्दार्थ अस्पष्टता को हल करने की समस्या को डब्ल्यूएसडी (शब्द बोध विच्छेद) कहा जाता है। सिमेंटिक अस्पष्टता को हल करने की तुलना में सिमेंटिक अस्पष्टता को हल करना कठिन है।

उदाहरण के लिए, शब्द के लिए मौजूद अलग-अलग अर्थों के दो उदाहरणों पर विचार करें “bass” -

  • मैं बास ध्वनि सुन सकता हूं।

  • उसे ग्रिल्ड बेस खाना पसंद है।

शब्द की घटना bassस्पष्ट रूप से स्पष्ट अर्थ को दर्शाता है। पहले वाक्य में, इसका मतलब हैfrequency और दूसरे में, इसका मतलब है fish। इसलिए, अगर इसे डब्ल्यूएसडी द्वारा खंडित किया जाएगा तो उपरोक्त वाक्यों का सही अर्थ निम्नानुसार सौंपा जा सकता है -

  • मैं बास / आवृत्ति ध्वनि सुन सकता हूं।

  • वह ग्रिल्ड बास / मछली खाना पसंद करते हैं।

डब्लूएसडी का मूल्यांकन

WSD के मूल्यांकन के लिए निम्नलिखित दो इनपुट की आवश्यकता होती है -

एक शब्दकोष

डब्लूएसडी के मूल्यांकन के लिए सबसे पहला इनपुट डिक्शनरी है, जिसका उपयोग इंद्रियों की अवहेलना करने के लिए किया जाता है।

टेस्ट कॉर्पस

WSD द्वारा आवश्यक एक और इनपुट उच्च-एनोटेट परीक्षण कॉर्पस है जिसमें लक्ष्य या सही-इंद्रियां हैं। परीक्षण कॉर्पोरा दो प्रकार का हो सकता है & minsu;

  • Lexical sample - इस तरह के कॉर्पोरा का उपयोग सिस्टम में किया जाता है, जहां शब्दों के एक छोटे से नमूने को तोड़ना आवश्यक है।

  • All-words - सिस्टम में इस तरह के कॉर्पोरा का उपयोग किया जाता है, जहां यह चल रहे पाठ के एक टुकड़े में सभी शब्दों को खंडित करने की उम्मीद है।

शब्द संवेदना विसंगति (WSD) के लिए दृष्टिकोण और विधियाँ

WSD के दृष्टिकोण और विधियों को शब्द असंतुलन में प्रयुक्त ज्ञान के स्रोत के अनुसार वर्गीकृत किया गया है।

आइए अब WSD के चार पारंपरिक तरीकों को देखें -

शब्दकोश-आधारित या ज्ञान-आधारित विधियाँ

जैसा कि नाम से पता चलता है, विघटन के लिए, ये विधियां मुख्य रूप से शब्दकोशों, खजाने और शाब्दिक ज्ञान के आधार पर निर्भर करती हैं। वे संवितरण के लिए कॉर्पोरा साक्ष्य का उपयोग नहीं करते हैं। लेसक विधि 1986 में माइकल लेसक द्वारा शुरू की गई सेमिनल डिक्शनरी-आधारित पद्धति है। लेसक परिभाषा, जिस पर लेसक एल्गोरिथ्म आधारित है,“measure overlap between sense definitions for all words in context”। हालांकि, 2000 में, केल्गर्रिफ़ और रोसेंस्विग ने सरलीकृत लेसक की परिभाषा दी“measure overlap between sense definitions of word and current context”, जो आगे एक समय में एक शब्द के लिए सही अर्थ की पहचान करता है। यहां वर्तमान संदर्भ आसपास के वाक्य या पैराग्राफ में शब्दों का समूह है।

पर्यवेक्षित तरीके

संवितरण के लिए, मशीन सीखने के तरीकों को प्रशिक्षित करने के लिए अर्थ-एनोटेट कॉर्पोरा का उपयोग करते हैं। ये विधियाँ मानती हैं कि संदर्भ बोध को भंग करने के लिए अपने आप में पर्याप्त सबूत प्रदान कर सकता है। इन विधियों में, ज्ञान और तर्क शब्द को अनावश्यक माना जाता है। संदर्भ को शब्दों के "सुविधाओं" के एक सेट के रूप में दर्शाया गया है। इसमें आसपास के शब्दों की जानकारी भी शामिल है। समर्थन वेक्टर मशीन और मेमोरी-आधारित लर्निंग WSD के लिए सबसे सफल पर्यवेक्षित अधिगम दृष्टिकोण हैं। ये विधियां मैन्युअल रूप से अर्थ-टैग किए गए कॉर्पोरा की पर्याप्त मात्रा पर निर्भर करती हैं, जो बनाने के लिए बहुत महंगा है।

अर्ध-पर्यवेक्षित तरीके

प्रशिक्षण कॉरपस की कमी के कारण, अधिकांश शब्द भावना असंतुलन एल्गोरिदम अर्ध-पर्यवेक्षित शिक्षण विधियों का उपयोग करते हैं। ऐसा इसलिए है क्योंकि अर्ध-पर्यवेक्षित तरीके लेबल वाले दोनों के साथ-साथ अनलिस्टेड डेटा का उपयोग करते हैं। इन विधियों में बहुत कम मात्रा में एनोटेट पाठ की आवश्यकता होती है और बड़ी मात्रा में सादे बिना पढ़े हुए पाठ की आवश्यकता होती है। तकनीक है कि semisupervised तरीकों द्वारा प्रयोग किया जाता है बीज डेटा से बूटस्ट्रैपिंग है।

अनसुने तरीके

ये विधियां मानती हैं कि समान संदर्भ में समान इंद्रियां होती हैं। इसीलिए संदर्भ की समानता के कुछ माप का उपयोग करके शब्द घटनाओं को जोड़कर पाठ से इंद्रियों को प्रेरित किया जा सकता है। इस कार्य को शब्द बोध या विवेक कहा जाता है। मैनुअल प्रयासों पर निर्भर न होने के कारण ज्ञान प्राप्ति की अड़चन को दूर करने के लिए अनसुनी विधियों में बड़ी क्षमता है।

वर्ड सेंस डिसएम्बिगेशन (डब्ल्यूएसडी) के अनुप्रयोग

भाषा अर्थ संवितरण (WSD) भाषा प्रौद्योगिकी के लगभग हर अनुप्रयोग में लागू किया जाता है।

आइये अब WSD का दायरा देखते हैं -

मशीन अनुवाद

मशीनी अनुवाद या MT WSD का सबसे स्पष्ट अनुप्रयोग है। MT में, शब्दों के लिए लेक्सिकल विकल्प, जिसमें विभिन्न इंद्रियों के लिए अलग-अलग अनुवाद हैं, WSD द्वारा किया जाता है। एमटी में इंद्रियों को लक्ष्य भाषा में शब्दों के रूप में दर्शाया जाता है। अधिकांश मशीनी अनुवाद प्रणालियाँ स्पष्ट WSD मॉड्यूल का उपयोग नहीं करती हैं।

सूचना पुनर्प्राप्ति (आईआर)

सूचना पुनर्प्राप्ति (आईआर) को एक सॉफ्टवेयर प्रोग्राम के रूप में परिभाषित किया जा सकता है जो संगठन, भंडारण, पुनर्प्राप्ति और दस्तावेज़ रिपॉजिटरी से विशेष रूप से पाठ्य जानकारी के मूल्यांकन से संबंधित है। सिस्टम मूल रूप से उपयोगकर्ताओं को उन सूचनाओं को खोजने में सहायता करता है जिनकी उन्हें आवश्यकता होती है लेकिन यह स्पष्ट रूप से प्रश्नों के उत्तर नहीं देता है। डब्ल्यूएसडी का उपयोग आईआर प्रणाली को प्रदान किए गए प्रश्नों की अस्पष्टताओं को हल करने के लिए किया जाता है। एमटी की तरह, वर्तमान आईआर सिस्टम स्पष्ट रूप से डब्ल्यूएसडी मॉड्यूल का उपयोग नहीं करते हैं और वे इस अवधारणा पर भरोसा करते हैं कि उपयोगकर्ता क्वेरी में पर्याप्त संदर्भ केवल प्रासंगिक दस्तावेजों को प्राप्त करने के लिए टाइप करेंगे।

पाठ खनन और सूचना निष्कर्षण (IE)

अधिकांश अनुप्रयोगों में, WSD पाठ का सटीक विश्लेषण करने के लिए आवश्यक है। उदाहरण के लिए, डब्लूएसडी बुद्धिमान सभा प्रणाली को सही शब्दों का झंडा लगाने में मदद करता है। उदाहरण के लिए, चिकित्सा बुद्धिमान प्रणाली को "चिकित्सा दवाओं" के बजाय "अवैध दवाओं" के झंडे की आवश्यकता हो सकती है

कोशरचना

डब्लूएसडी और लेक्सोग्राफी लूप में एक साथ काम कर सकते हैं क्योंकि आधुनिक लेक्सोग्राफी कॉर्पसबेड है। लक्सोग्राफी के साथ, डब्ल्यूएसडी किसी न किसी अनुभवजन्य अर्थ समूह के साथ-साथ अर्थ के सांख्यिकीय महत्वपूर्ण संदर्भ संकेतक प्रदान करता है।

शब्द संवेदना विसंगति (डब्ल्यूएसडी) में कठिनाइयाँ

अनुभूतियाँ शब्द बोध भंग (WSD) के कारण आने वाली कुछ कठिनाइयाँ हैं -

शब्दकोशों के बीच अंतर

डब्ल्यूएसडी की प्रमुख समस्या शब्द की भावना को तय करना है क्योंकि विभिन्न इंद्रियां बहुत निकट से संबंधित हो सकती हैं। यहां तक ​​कि अलग-अलग शब्दकोश और थिसॉरस शब्दों के विभिन्न विभाजनों को होश में प्रदान कर सकते हैं।

विभिन्न अनुप्रयोगों के लिए अलग एल्गोरिदम

डब्ल्यूएसडी की एक और समस्या यह है कि विभिन्न अनुप्रयोगों के लिए पूरी तरह से अलग एल्गोरिथ्म की आवश्यकता हो सकती है। उदाहरण के लिए, मशीन अनुवाद में, यह लक्ष्य शब्द चयन का रूप लेता है; और सूचना पुनर्प्राप्ति में, एक भावना सूची की आवश्यकता नहीं है।

अंतर-न्यायाधीश विचरण

डब्लूएसडी की एक और समस्या यह है कि डब्ल्यूएसडी सिस्टम का परीक्षण आम तौर पर मानव के कार्य के मुकाबले एक कार्य पर उनके परिणाम होने से होता है। इसे इंटरजेज वैरिएशन की समस्या कहा जाता है।

शब्द-बोध की असावधानी

डब्ल्यूएसडी में एक और कठिनाई यह है कि शब्दों को आसानी से असतत सबमिशन में विभाजित नहीं किया जा सकता है।