प्राकृतिक भाषा प्रसंस्करण - त्वरित गाइड

भाषा संचार की एक विधि है जिसकी सहायता से हम बोल, पढ़ और लिख सकते हैं। उदाहरण के लिए, हम सोचते हैं, हम प्राकृतिक भाषा में निर्णय, योजना और बहुत कुछ करते हैं; ठीक है, शब्दों में। हालाँकि, इस एआई युग में हमारा सामना करने वाला बड़ा सवाल यह है कि क्या हम कंप्यूटर के साथ समान तरीके से संवाद कर सकते हैं। दूसरे शब्दों में, क्या मनुष्य अपनी प्राकृतिक भाषा में कंप्यूटर से संवाद कर सकता है? एनएलपी अनुप्रयोगों को विकसित करना हमारे लिए एक चुनौती है क्योंकि कंप्यूटर को संरचित डेटा की आवश्यकता होती है, लेकिन मानव भाषण असंरचित है और अक्सर प्रकृति में अस्पष्ट है।

इस अर्थ में, हम कह सकते हैं कि नेचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) कंप्यूटर साइंस खासकर आर्टिफिशियल इंटेलिजेंस (एआई) का उप-क्षेत्र है जो कंप्यूटर को मानव भाषा को समझने और संसाधित करने में सक्षम बनाने के बारे में चिंतित है। तकनीकी रूप से, एनएलपी का मुख्य कार्य प्राकृतिक भाषा डेटा की बड़ी मात्रा के विश्लेषण और प्रसंस्करण के लिए कंप्यूटर प्रोग्राम करना होगा।

एनएलपी का इतिहास

हमने एनएलपी के इतिहास को चार चरणों में विभाजित किया है। चरणों की विशिष्ट चिंताएँ और शैलियाँ हैं।

प्रथम चरण (मशीन अनुवाद चरण) - 1940 के अंत से 1960 के दशक के अंत तक

इस चरण में किए गए कार्य मुख्य रूप से मशीन अनुवाद (एमटी) पर केंद्रित थे। यह चरण उत्साह और आशावाद का दौर था।

आइए अब हम पहले चरण में वह सब देखें -

  • 1949 में मशीन ट्रांसलेशन पर बूथ और रिचेंस की जांच और वीवर के ज्ञापन के बाद एनएलपी पर शोध 1950 के दशक की शुरुआत में शुरू हुआ।

  • 1954 वह वर्ष था जब जॉर्जटाउन-आईबीएम प्रयोग में रूसी से अंग्रेजी में स्वचालित अनुवाद पर सीमित प्रयोग का प्रदर्शन किया गया था।

  • उसी वर्ष, एमटी (मशीन ट्रांसलेशन) पत्रिका का प्रकाशन शुरू हुआ।

  • मशीन ट्रांसलेशन (MT) पर पहला अंतर्राष्ट्रीय सम्मेलन 1952 में और दूसरा 1956 में आयोजित किया गया था।

  • 1961 में, टेडिंगटन इंटरनेशनल कॉन्फ्रेंस ऑन मशीन ट्रांसलेशन ऑफ़ लैंग्वेजेस और एप्लाइड लैंग्वेज एनालिसिस में प्रस्तुत किया गया कार्य इस चरण का उच्च बिंदु था।

दूसरा चरण (एआई प्रभावित चरण) - 1960 के दशक के अंत से 1970 के दशक के अंत तक

इस चरण में, किया गया कार्य मुख्य रूप से विश्व ज्ञान से संबंधित था और अर्थ निरूपण के निर्माण और हेरफेर में इसकी भूमिका पर था। इसीलिए, इस चरण को एआई-फ्लेवर्ड चरण भी कहा जाता है।

चरण में यह था, निम्नलिखित -

  • 1961 की शुरुआत में, डेटा या ज्ञान के आधार को संबोधित करने और निर्माण की समस्याओं पर काम शुरू हुआ। यह काम एआई से प्रभावित था।

  • उसी वर्ष, एक BASEBALL प्रश्न-उत्तर प्रणाली भी विकसित की गई थी। इस प्रणाली का इनपुट प्रतिबंधित था और इसमें शामिल भाषा प्रसंस्करण एक साधारण था।

  • मिंस्की (1968) में एक बहुत ही उन्नत प्रणाली का वर्णन किया गया था। यह प्रणाली, जब BASEBALL प्रश्न-उत्तर देने वाली प्रणाली की तुलना में, भाषा इनपुट की व्याख्या और उत्तर देने में ज्ञान के आधार पर अनुमान की आवश्यकता के लिए पहचानी और प्रदान की गई थी।

तृतीय चरण (व्याकरणिक-तार्किक चरण) - 1970 के दशक के अंत से 1980 के दशक के अंत तक

इस चरण को व्याकरणिक-तार्किक चरण के रूप में वर्णित किया जा सकता है। अंतिम चरण में व्यावहारिक प्रणाली के निर्माण की विफलता के कारण, शोधकर्ता एआई में ज्ञान प्रतिनिधित्व और तर्क के लिए तर्क के उपयोग की ओर बढ़ गए।

तीसरे चरण में निम्नलिखित थे -

  • व्याकरणिक-तार्किक दृष्टिकोण, दशक के अंत तक, हमें एसआरआई के कोर भाषा इंजन और डिस्कोर्स रिप्रेजेंटेशन थ्योरी जैसे शक्तिशाली सामान्य-उद्देश्य वाले वाक्य प्रोसेसर के साथ मदद मिली, जिसने अधिक विस्तारित प्रवचन से निपटने का एक साधन पेश किया।

  • इस चरण में हमें कुछ व्यावहारिक संसाधन और उपकरण जैसे कि पार्सर्स, जैसे कि एलवे नेचुरल लैंग्वेज टूल्स और अधिक परिचालन और वाणिज्यिक प्रणालियों के साथ, जैसे डेटाबेस क्वेरी के लिए मिला।

  • 1980 के दशक में लेक्सिकॉन पर काम ने व्याकरणिक-तार्किक दृष्टिकोण की दिशा में भी इशारा किया।

चौथा चरण (लेक्सिकल एंड कॉर्पस चरण) - 1990 का दशक

हम इसका वर्णन एक लेक्सिकल और कॉर्पस चरण के रूप में कर सकते हैं। चरण में व्याकरण के लिए एक शाब्दिक दृष्टिकोण था जो 1980 के दशक के अंत में दिखाई दिया और एक बढ़ता प्रभाव बन गया। इस दशक में भाषा प्रसंस्करण के लिए मशीन लर्निंग एल्गोरिदम की शुरुआत के साथ प्राकृतिक भाषा प्रसंस्करण में एक क्रांति आई।

मानव भाषाओं का अध्ययन

भाषा मानव जीवन के लिए एक महत्वपूर्ण घटक है और हमारे व्यवहार का सबसे बुनियादी पहलू भी है। हम इसे मुख्य रूप से दो रूपों में अनुभव कर सकते हैं - लिखित और बोली जाने वाली। लिखित रूप में, यह एक पीढ़ी से दूसरी पीढ़ी तक हमारे ज्ञान को पारित करने का एक तरीका है। बोले गए रूप में, यह मानव के लिए अपने दैनिक व्यवहार में एक-दूसरे के साथ समन्वय करने का प्राथमिक माध्यम है। विभिन्न शैक्षणिक विषयों में भाषा का अध्ययन किया जाता है। प्रत्येक अनुशासन समस्याओं के अपने स्वयं के सेट और उन लोगों को संबोधित करने के लिए समाधान का एक सेट के साथ आता है।

इसे समझने के लिए निम्न तालिका पर विचार करें -

अनुशासन समस्या उपकरण

भाषाविदों

शब्दों के साथ वाक्यांश और वाक्य कैसे बन सकते हैं?

एक वाक्य के लिए संभावित अर्थ पर अंकुश क्या है?

अच्छी तरह से गठन और अर्थ के बारे में अंतर्ज्ञान।

संरचना का गणितीय मॉडल। उदाहरण के लिए, मॉडल सिद्धांतिक शब्दार्थ, औपचारिक भाषा सिद्धांत।

Psycholinguists

मनुष्य वाक्यों की संरचना की पहचान कैसे कर सकता है?

शब्दों के अर्थ की पहचान कैसे की जा सकती है?

समझ कब होती है?

प्रायोगिक तकनीक मुख्य रूप से मानव के प्रदर्शन को मापने के लिए।

अवलोकनों का सांख्यिकीय विश्लेषण।

दार्शनिकों

शब्द और वाक्य अर्थ कैसे प्राप्त करते हैं?

शब्दों द्वारा वस्तुओं की पहचान कैसे की जाती है?

मतलब क्या है?

अंतर्ज्ञान का उपयोग करके प्राकृतिक भाषा का तर्क।

गणितीय मॉडल जैसे तर्क और मॉडल सिद्धांत।

कम्प्यूटेशनल भाषाविदों

हम किसी वाक्य की संरचना की पहचान कैसे कर सकते हैं

ज्ञान और तर्क को कैसे मॉडल किया जा सकता है?

विशिष्ट कार्यों को पूरा करने के लिए हम भाषा का उपयोग कैसे कर सकते हैं?

एल्गोरिदम

डेटा संरचनाएं

प्रतिनिधित्व और तर्क के औपचारिक मॉडल।

एआई तकनीक जैसे खोज और प्रतिनिधित्व के तरीके।

भाषा में अस्पष्टता और अनिश्चितता

आम तौर पर प्राकृतिक भाषा प्रसंस्करण में उपयोग की जाने वाली अस्पष्टता को एक से अधिक तरीकों से समझने की क्षमता के रूप में संदर्भित किया जा सकता है। सरल शब्दों में, हम कह सकते हैं कि अस्पष्टता एक से अधिक तरीकों से समझने की क्षमता है। प्राकृतिक भाषा बहुत अस्पष्ट है। एनएलपी में निम्नलिखित प्रकार की अस्पष्टताएं हैं -

लेक्सिकल एम्बिगुएटी

किसी एक शब्द की अस्पष्टता को शब्दगत अस्पष्टता कहा जाता है। उदाहरण के लिए, शब्द का इलाजsilver एक संज्ञा, एक विशेषण या एक क्रिया के रूप में।

सिंथेटिक एंबीगुएटी

इस तरह की अस्पष्टता तब होती है जब एक वाक्य को विभिन्न तरीकों से पार्स किया जाता है। उदाहरण के लिए, वाक्य "आदमी ने दूरबीन के साथ लड़की को देखा"। यह अस्पष्ट है कि क्या आदमी ने लड़की को दूरबीन ले जाते हुए देखा या उसने उसे अपनी दूरबीन के माध्यम से देखा।

शब्दार्थ अस्पष्टता

इस तरह की अस्पष्टता तब होती है जब शब्दों के अर्थ का गलत अर्थ निकाला जा सकता है। दूसरे शब्दों में, शब्दार्थ अस्पष्टता तब होती है जब किसी वाक्य में अस्पष्ट शब्द या वाक्यांश होता है। उदाहरण के लिए, वाक्य "कार चलते समय पोल से टकराती है" में अर्थ अस्पष्टता होती है क्योंकि व्याख्याएं "कार, जबकि चलती है, ध्रुव को मार सकती हैं" और "कार ध्रुव को मारती है जबकि ध्रुव हिल रहा था"।

अनाभिक अंबुज

प्रवचन में अनाफोर्मा संस्थाओं के उपयोग के कारण इस तरह की अस्पष्टता उत्पन्न होती है। उदाहरण के लिए, घोड़ा पहाड़ी पर भागा। बहुत खड़ी थी। यह जल्द ही थक गया। यहाँ, दो स्थितियों में "यह" का उदासीन संदर्भ अस्पष्टता का कारण बनता है।

व्यावहारिक अस्पष्टता

इस तरह की अस्पष्टता उस स्थिति को संदर्भित करती है जहां एक वाक्यांश का संदर्भ इसे कई व्याख्याएं देता है। सरल शब्दों में, हम कह सकते हैं कि जब कथन विशिष्ट नहीं होता है तो व्यावहारिक अस्पष्टता उत्पन्न होती है। उदाहरण के लिए, वाक्य "मुझे भी तुम पसंद है" की कई व्याख्याएं हो सकती हैं जैसे मैं आपको पसंद करता हूं (जैसे आप मुझे पसंद करते हैं), मैं भी आपको पसंद करता हूं (किसी और को खुराक की तरह)।

एनएलपी चरण

निम्नलिखित आरेख प्राकृतिक भाषा प्रसंस्करण में चरणों या तार्किक चरणों को दर्शाता है -

आकृति विज्ञान प्रसंस्करण

यह एनएलपी का पहला चरण है। इस चरण का उद्देश्य अनुच्छेदों, वाक्यों और शब्दों के अनुरूप टोकन के सेट में भाषा इनपुट का हिस्सा तोड़ना है। उदाहरण के लिए, एक शब्द की तरह“uneasy” के रूप में दो उप शब्द टोकन में तोड़ा जा सकता है “un-easy”

सिंटेक्स विश्लेषण

यह एनएलपी का दूसरा चरण है। इस चरण का उद्देश्य दो तह है: यह जांचना कि एक वाक्य अच्छी तरह से बना है या नहीं और इसे एक संरचना में तोड़ना है जो विभिन्न शब्दों के बीच वाक्यात्मक संबंधों को दर्शाता है। उदाहरण के लिए, जैसे वाक्य“The school goes to the boy” सिंटैक्स विश्लेषक या पार्सर द्वारा खारिज कर दिया जाएगा।

शब्दार्थ विश्लेषण

यह एनएलपी का तीसरा चरण है। इस चरण का उद्देश्य सटीक अर्थ निकालना है, या आप पाठ से शब्दकोश अर्थ कह सकते हैं। पाठ को अर्थपूर्णता के लिए जाँचा जाता है। उदाहरण के लिए, शब्दार्थ विश्लेषक "हॉट आइसक्रीम" जैसे वाक्य को अस्वीकार कर देगा।

व्यावहारिक विश्लेषण

यह एनएलपी का चौथा चरण है। व्यावहारिक विश्लेषण केवल वास्तविक वस्तुओं / घटनाओं को फिट करता है, जो किसी दिए गए संदर्भ में अंतिम चरण (अर्थ विश्लेषण) के दौरान प्राप्त वस्तु संदर्भों के साथ मौजूद हैं। उदाहरण के लिए, वाक्य "शेल्फ पर टोकरी में केला रखो" में दो अर्थ संबंधी व्याख्याएं हो सकती हैं और व्यावहारिक विश्लेषक इन दोनों संभावनाओं के बीच चयन करेंगे।

इस अध्याय में, हम प्राकृतिक भाषा प्रसंस्करण में भाषाई संसाधनों के बारे में जानेंगे।

कोर्पस

कॉर्पस मशीन-पठनीय ग्रंथों का एक बड़ा और संरचित सेट है जो एक प्राकृतिक संचार सेटिंग में निर्मित किया गया है। इसका बहुवचन कॉर्पोरा है। उन्हें अलग-अलग तरीकों से प्राप्त किया जा सकता है, जैसे कि मूल रूप से इलेक्ट्रॉनिक, बोली जाने वाली भाषा के टेप और ऑप्टिकल चरित्र मान्यता, आदि।

कॉर्पस डिजाइन के तत्व

भाषा अनंत है लेकिन एक कोष का आकार परिमित होना चाहिए। कॉर्पस के आकार में परिमित होने के लिए, हमें एक अच्छे कॉर्पस डिज़ाइन को सुनिश्चित करने के लिए नमूना और आनुपातिक रूप से कई प्रकार के पाठ प्रकारों को शामिल करना होगा।

आइए अब हम कोरपस डिजाइन के कुछ महत्वपूर्ण तत्वों के बारे में जानें -

कॉर्पस प्रतिनिधि

प्रतिनिधिता कॉर्पस डिज़ाइन की एक परिभाषित विशेषता है। दो महान शोधकर्ताओं - लीच और बीबर से निम्नलिखित परिभाषाएं हमें कॉर्पस प्रतिनिधित्वशीलता को समझने में मदद करेंगी -

  • According to Leech (1991), "एक कॉर्पस को भाषा की विविधता का प्रतिनिधि माना जाता है, यह माना जाता है कि क्या इसकी सामग्री के आधार पर निष्कर्षों को उक्त भाषा की विविधता के लिए सामान्यीकृत किया जा सकता है"।

  • According to Biber (1993), "प्रतिसादिता से तात्पर्य उस सीमा से है जहां एक नमूने में जनसंख्या में परिवर्तनशीलता की पूरी श्रृंखला शामिल है"।

इस तरह, हम यह निष्कर्ष निकाल सकते हैं कि एक कॉर्पस का प्रतिनिधित्व निम्नलिखित दो कारकों द्वारा निर्धारित किया जाता है -

  • Balance - शैली की सीमा एक कॉर्पस में शामिल है

  • Sampling - प्रत्येक शैली के लिए विखंडू कैसे चुने जाते हैं।

कॉर्पस बैलेंस

कॉर्पस डिज़ाइन का एक और बहुत महत्वपूर्ण तत्व कॉर्पस बैलेंस है - एक कॉर्पस में शामिल शैली की सीमा। हम पहले ही अध्ययन कर चुके हैं कि एक सामान्य कॉर्पस का प्रतिनिधित्व इस बात पर निर्भर करता है कि कॉर्पस कितना संतुलित है। एक संतुलित कॉर्पस पाठ श्रेणियों की एक विस्तृत श्रृंखला को शामिल करता है, जिन्हें भाषा के प्रतिनिधि माना जाता है। हमारे पास संतुलन के लिए कोई विश्वसनीय वैज्ञानिक उपाय नहीं है लेकिन इस चिंता में सबसे अच्छा अनुमान और अंतर्ज्ञान काम करता है। दूसरे शब्दों में, हम कह सकते हैं कि स्वीकृत शेष राशि इसके निर्धारित उपयोगों से ही निर्धारित होती है।

सैम्पलिंग

कॉर्पस डिजाइन का एक अन्य महत्वपूर्ण तत्व नमूना है। कॉर्पस प्रतिनिधित्व और संतुलन नमूनाकरण के साथ बहुत निकटता से जुड़ा हुआ है। इसलिए हम कह सकते हैं कि कॉर्पस बिल्डिंग में नमूना अपरिहार्य है।

  • इसके अनुसार Biber(1993), "एक कॉर्पस निर्माण में पहली बार कुछ विचार समग्र डिजाइन की चिंता करते हैं: उदाहरण के लिए, शामिल ग्रंथों के प्रकार, ग्रंथों की संख्या, विशेष ग्रंथों का चयन, ग्रंथों के भीतर से पाठ नमूनों का चयन, और पाठ की लंबाई नमूने हैं। इनमें से प्रत्येक में एक नमूना निर्णय शामिल है, या तो सचेत है या नहीं। ”

प्रतिनिधि नमूना प्राप्त करते समय, हमें निम्नलिखित पर विचार करने की आवश्यकता है -

  • Sampling unit- यह उस इकाई को संदर्भित करता है जिसके लिए एक नमूने की आवश्यकता होती है। उदाहरण के लिए, लिखित पाठ के लिए, एक नमूना इकाई एक समाचार पत्र, पत्रिका या एक पुस्तक हो सकती है।

  • Sampling frame - अल सैंपलिंग यूनिट की सूची को सैंपलिंग फ्रेम कहा जाता है।

  • Population- इसे सभी नमूना इकाइयों की विधानसभा के रूप में संदर्भित किया जा सकता है। यह एक उत्पाद के रूप में भाषा उत्पादन, भाषा रिसेप्शन या भाषा के रूप में परिभाषित किया गया है।

कॉर्पस आकार

कॉर्पस डिजाइन का एक अन्य महत्वपूर्ण तत्व इसका आकार है। कॉर्पस कितना बड़ा होना चाहिए? इस सवाल का कोई खास जवाब नहीं है। कॉर्पस का आकार उस उद्देश्य पर निर्भर करता है जिसके लिए इसका उद्देश्य है और साथ ही साथ कुछ व्यावहारिक विचारों पर भी -

  • उपयोगकर्ता से प्रत्याशित क्वेरी का प्रकार।

  • डेटा का अध्ययन करने के लिए उपयोगकर्ताओं द्वारा उपयोग की जाने वाली कार्यप्रणाली।

  • डेटा के स्रोत की उपलब्धता।

प्रौद्योगिकी में प्रगति के साथ, कॉर्पस का आकार भी बढ़ता है। तुलना की निम्न तालिका आपको यह समझने में मदद करेगी कि कॉर्पस आकार कैसे काम करता है -

साल कॉर्पस का नाम आकार (शब्दों में)
1960 - 70 के दशक ब्राउन और LOB 1 मिलियन शब्द
1980 के दशक बर्मिंघम कॉर्पोरा 20 मिलियन शब्द
1990 के दशक ब्रिटिश नेशनल कॉर्पस 100 मिलियन शब्द
21 वीं सदी की शुरुआत बैंक ऑफ इंग्लिश कॉर्पस 650 मिलियन शब्द

अपने बाद के अनुभागों में, हम कॉर्पस के कुछ उदाहरणों को देखेंगे।

ट्रीबैंक कॉर्पस

इसे भाषाई रूप से पार्स किए गए पाठ कॉर्पस के रूप में परिभाषित किया जा सकता है जो वाक्य-रचना या शब्दार्थ वाक्य संरचना की व्याख्या करता है। जेफ्री लीच ने 'ट्रीबैंक' शब्द गढ़ा, जो दर्शाता है कि व्याकरणिक विश्लेषण का प्रतिनिधित्व करने का सबसे आम तरीका पेड़ की संरचना है। आम तौर पर, ट्रीबैंक एक कॉर्पस के शीर्ष पर बनाए जाते हैं, जिसे पहले ही पार्ट-ऑफ-स्पीच टैग के साथ एनोटेट किया गया है।

ट्रीबैंक कॉर्पस के प्रकार

भाषाविज्ञान में सिमेंटिक और सिंथेटिक ट्रीबैंक दो सबसे आम प्रकार के ट्रीबैंक हैं। आइए अब हम इन प्रकारों के बारे में अधिक जानें -

सिमेंटिक ट्रीबैंक

ये ट्रीबैंक वाक्य की शब्दार्थ संरचना का औपचारिक प्रतिनिधित्व करते हैं। वे अपने सिमेंटिक प्रतिनिधित्व की गहराई में भिन्न होते हैं। रोबोट कमांड्स ट्रीबैंक, जियोक्वीरी, ग्रोनिंगन अर्थ बैंक, रोबोकअप कॉर्पस शब्दार्थिक बैंकबैंक के कुछ उदाहरण हैं।

सिंथेटिक ट्रीबैंक

सिमेंटिक ट्रीबैंक के समतुल्य, सिंथेटिक ट्रीबैंक सिस्टम में इनपुट पार्स किए गए ट्रीबैंक डेटा के रूपांतरण से प्राप्त औपचारिक भाषा के भाव हैं। ऐसी प्रणालियों के आउटपुट तर्क आधारित अर्थ निरूपण करते हैं। विभिन्न भाषाओं में विभिन्न वाक्यात्मक ट्रीबैंक अब तक बनाए गए हैं। उदाहरण के लिए,Penn Arabic Treebank, Columbia Arabic Treebank अरब भाषा में वाक्य रचना ट्रीबैंक बनाए गए हैं। Sininca चीनी भाषा में वाक्य रचना ट्रीबैंक। Lucy, Susane तथा BLLIP WSJ अंग्रेजी भाषा में वाक्य रचना कोष।

ट्रीबैंक कॉर्पस के अनुप्रयोग

ट्रीबैंक के कुछ अनुप्रयोग निम्नलिखित हैं -

कम्प्यूटेशनल भाषा विज्ञान में

अगर हम Computational Linguistic के बारे में बात करते हैं तो TreeBanks का सबसे अच्छा उपयोग इंजीनियर के अत्याधुनिक भाषा प्रसंस्करण प्रणालियों जैसे कि पार्ट-ऑफ़-स्पीच टैगर्स, पार्सर्स, सिमेंटिक एनालाइज़र और मशीन ट्रांसलेशन सिस्टम के लिए होता है।

कॉर्पस भाषाविज्ञान में

कॉर्पस भाषा विज्ञान के मामले में, ट्रीबैंक का सबसे अच्छा उपयोग वाक्यात्मक घटनाओं का अध्ययन करना है।

सैद्धांतिक भाषाविज्ञान और मनोवैज्ञानिक भाषा विज्ञान में

सैद्धांतिक और मनोवैज्ञानिक भाषा में ट्रीबैंक का सबसे अच्छा उपयोग बातचीत के साक्ष्य हैं।

प्रोपबैंक कॉर्पस

प्रोपबैंक जिसे विशेष रूप से "प्रपोजल बैंक" कहा जाता है, एक कॉर्पस है, जिसे मौखिक प्रस्तावों और उनके तर्कों के साथ एनोटेट किया जाता है। कॉर्पस एक क्रिया-उन्मुख संसाधन है; यहाँ एनोटेशन सिंटिक स्तर से अधिक निकटता से संबंधित हैं। मार्था पामर एट अल।, लिंग्विस्टिक विभाग, कोलोराडो बोल्डर विश्वविद्यालय ने इसे विकसित किया। हम PropBank शब्द का उपयोग किसी भी कॉर्पस के रूप में कर सकते हैं, जिसमें किसी भी कॉर्पस का उल्लेख किया गया है, जिसे प्रस्ताव और उनके तर्कों के साथ व्याख्या किया गया है।

प्राकृतिक भाषा प्रसंस्करण (एनएलपी) में, प्रोपबैंक परियोजना ने बहुत महत्वपूर्ण भूमिका निभाई है। यह सिमेंटिक रोल लेबलिंग में मदद करता है।

VerbNet (VN)

VerbNet (VN) अंग्रेजी में मौजूद पदानुक्रमित डोमेन-स्वतंत्र और सबसे बड़ा शाब्दिक संसाधन है जो अपनी सामग्री के बारे में शब्दार्थ के साथ-साथ वाक्य रचना दोनों को शामिल करता है। VN एक व्यापक कवरेज क्रिया है, जिसमें वर्डनेट, Xtag और फ्रेमनेट जैसे अन्य शाब्दिक संसाधनों की मैपिंग होती है। यह वर्ग के सदस्यों के बीच वाक्यात्मक और अर्थ संबंधी सामंजस्य को प्राप्त करने के लिए शोधन और उपवर्गों के अलावा लेविन कक्षाओं का विस्तार करने वाली क्रिया कक्षाओं में आयोजित किया जाता है।

प्रत्येक VerbNet (VN) वर्ग में शामिल हैं -

वाक्य-विन्यास या वाक्य-रचना के फ्रेम का एक सेट

निर्माण के लिए तर्क संरचना की संभावित सतही वास्तविकताओं को चित्रित करने के लिए जैसे कि सकर्मक, अकर्मक, पूर्वसर्गिक वाक्यांश, परिणाम, और डायथेसिस विकल्प का एक बड़ा सेट।

चेतन, मानव, संगठन जैसे शब्दार्थ विवरणों का एक समूह

विवश करने के लिए, तर्क द्वारा अनुमत विषयगत भूमिकाओं के प्रकार, और आगे प्रतिबंध लगाए जा सकते हैं। यह विषयगत भूमिका के साथ जुड़े होने की संभावना के घटक प्रकृति को इंगित करने में मदद करेगा।

शब्दतंत्र

प्रिंसनेट द्वारा बनाया गया वर्डनेट, अंग्रेजी भाषा के लिए एक शाब्दिक डेटाबेस है। यह एनएलटीके कॉर्पस का हिस्सा है। वर्डनेट में, संज्ञा, क्रिया, विशेषण और क्रिया विशेषण को संज्ञानात्मक पर्यायवाची के समूह में बांटा जाता हैSynsets। सभी सिनसेट्स को वैचारिक-शब्दार्थ और शाब्दिक संबंधों की मदद से जोड़ा जाता है। इसकी संरचना प्राकृतिक भाषा प्रसंस्करण (एनएलपी) के लिए इसे बहुत उपयोगी बनाती है।

सूचना प्रणालियों में, वर्डनेट शब्द-बोध भंग, सूचना पुनर्प्राप्ति, स्वचालित पाठ वर्गीकरण और मशीन अनुवाद जैसे विभिन्न उद्देश्यों के लिए उपयोग किया जाता है। WordNet का सबसे महत्वपूर्ण उपयोग शब्दों में समानता का पता लगाना है। इस कार्य के लिए, विभिन्न एल्गोरिदम को विभिन्न पैकेजों जैसे पर्ल में समानता, पायथन में एनएलटीके और जावा में एडीडब्ल्यू में लागू किया गया है।

इस अध्याय में, हम प्राकृतिक भाषा प्रसंस्करण में विश्व स्तर के विश्लेषण को समझेंगे।

नियमित अभिव्यक्ति

एक नियमित अभिव्यक्ति (आरई) पाठ खोज स्ट्रिंग को निर्दिष्ट करने के लिए एक भाषा है। आरई हमें एक पैटर्न में आयोजित एक विशेष वाक्यविन्यास का उपयोग करके, तार के अन्य तारों या सेटों का मिलान करने या खोजने में मदद करता है। समान तरीके से UNIX के साथ-साथ MS WORD में ग्रंथों को खोजने के लिए नियमित अभिव्यक्तियों का उपयोग किया जाता है। हमारे पास कई आरई सुविधाओं का उपयोग करके विभिन्न खोज इंजन हैं।

नियमित भाव के गुण

अनुवर्ती आरई के कुछ महत्वपूर्ण गुण हैं -

  • अमेरिकी गणितज्ञ स्टीफन कोल क्लेन ने नियमित अभिव्यक्ति भाषा को औपचारिक रूप दिया।

  • आरई एक विशेष भाषा में एक सूत्र है, जिसका उपयोग सरल वर्गों के तार, प्रतीकों के अनुक्रम को निर्दिष्ट करने के लिए किया जा सकता है। दूसरे शब्दों में, हम कह सकते हैं कि आरई स्ट्रिंग्स के एक सेट को चिह्नित करने के लिए एक बीजीय संकेतन है।

  • नियमित अभिव्यक्ति के लिए दो चीजों की आवश्यकता होती है, एक वह पैटर्न है जिसे हम खोजना चाहते हैं और दूसरा वह पाठ का एक कोष है जिसमें से हमें खोज करने की आवश्यकता है।

गणितीय रूप से, एक नियमित अभिव्यक्ति को निम्नानुसार परिभाषित किया जा सकता है -

  • ε एक नियमित अभिव्यक्ति है, जो इंगित करता है कि भाषा एक खाली स्ट्रिंग है।

  • φ एक नियमित अभिव्यक्ति है जो यह दर्शाता है कि यह एक खाली भाषा है।

  • अगर X तथा Y रेगुलर एक्सप्रेशन हैं, फिर

    • X, Y

    • X.Y(Concatenation of XY)

    • X+Y (Union of X and Y)

    • X*, Y* (Kleen Closure of X and Y)

नियमित अभिव्यक्ति भी हैं।

  • यदि कोई स्ट्रिंग उपरोक्त नियमों से ली गई है, तो वह भी एक नियमित अभिव्यक्ति होगी।

रेगुलर एक्सप्रेशन के उदाहरण

निम्न तालिका नियमित अभिव्यक्ति के कुछ उदाहरण दिखाती है -

नियमित अभिव्यक्ति नियमित सेट
(0 + 10 *) {, 1, 10, 100, 1000, 10000,…}
(0 * 10 *) {, 01, 10, 010, 0010,…}
(0 + ε) (1 + ε) {,, 0, 1, 01}
(ए + बी) * यह किसी भी लम्बाई के a और b के तारों का सेट होगा जिसमें null string भी शामिल है अर्थात {ε a, b, aa, ab, bb, ba, aaa ……।}।
(ए + बी) * एबीबी यह स्ट्रिंग एब के साथ ए और बी के अंत के तारों का सेट होगा ({एबीबी, एएबीबी, बब्ब, एएब, एबब, ………… ..}
(1 1)* यह 1 की सम संख्या से मिलकर बना होगा जिसमें एक खाली स्ट्रिंग भी शामिल है ({11, 11, 1111, 111111, ………।}।
(आ) * (bb) * ख यह बी के समान संख्याओं से मिलकर तार के सेट होगा, जिसके बाद b की संख्या {b, aab, abbb, abbbbb, aaaab, aaabbb, …………… ..} होती है
(आ + आब + बा + बीबी) * यह a और b की एक समान लंबाई होगी, जिसे null अर्थात {aa, ab, ba, bb, aaab, aaba, ……… सहित स्ट्रिंग्स आ, ab, ba और bb के किसी भी संयोजन को प्राप्त करके प्राप्त किया जा सकता है। ।}

नियमित सेट और उनके गुण

इसे उस सेट के रूप में परिभाषित किया जा सकता है जो नियमित अभिव्यक्ति के मूल्य का प्रतिनिधित्व करता है और इसमें विशिष्ट गुण होते हैं।

नियमित सेट के गुण

  • यदि हम दो नियमित सेटों का मिलन करते हैं तो परिणामी सेट भी रेगुला होगा।

  • यदि हम दो नियमित सेटों का प्रतिच्छेदन करते हैं तो परिणामी सेट भी नियमित होगा।

  • यदि हम नियमित सेटों के पूरक करते हैं, तो परिणामी सेट भी नियमित होगा।

  • यदि हम दो नियमित सेटों का अंतर करते हैं, तो परिणामी सेट भी नियमित होगा।

  • यदि हम नियमित सेटों को उलटते हैं, तो परिणामी सेट भी नियमित होगा।

  • यदि हम नियमित सेटों को बंद कर देते हैं, तो परिणामी सेट भी नियमित होगा।

  • यदि हम दो नियमित सेटों का संयोजन करते हैं, तो परिणामी सेट भी नियमित होगा।

परिमित राज्य ऑटोमेटा

शब्द ऑटोमेटा, जो ग्रीक शब्द "ατμα "α" से लिया गया है, जिसका अर्थ है "स्व-अभिनय", ऑटोमोबाइल का बहुवचन है जिसे एक अमूर्त स्व-चालित कंप्यूटिंग डिवाइस के रूप में परिभाषित किया जा सकता है जो स्वचालित रूप से संचालन के पूर्वनिर्धारित अनुक्रम का अनुसरण करता है।

एक ऑटोमेटन में राज्यों की एक सीमित संख्या होती है, जिसे Finite Automaton (FA) या Finite State automata (FSA) कहा जाता है।

गणितीय रूप से, एक ऑटोमेटन को 5-ट्यूपल (क्यू, δ, δ, q0, F) द्वारा दर्शाया जा सकता है, जहां -

  • Q राज्यों का एक समुच्चय है।

  • Symbols प्रतीकों का एक सीमित सेट है, जिसे ऑटोमेटन की वर्णमाला कहा जाता है।

  • function संक्रमण कार्य है

  • q0 वह प्रारंभिक अवस्था है जहां से किसी भी इनपुट को संसाधित किया जाता है (q0) Q)।

  • F अंतिम अवस्था / Q के राज्यों (F set Q) का एक समूह है।

परिमित ऑटोमेटा, नियमित व्याकरण और नियमित अभिव्यक्तियों के बीच संबंध

निम्नलिखित बिंदु हमें परिमित ऑटोमेटा, नियमित व्याकरण और नियमित अभिव्यक्ति के बीच के संबंध के बारे में एक स्पष्ट दृष्टिकोण देंगे -

  • जैसा कि हम जानते हैं कि परिमित राज्य ऑटोमेटा कम्प्यूटेशनल कार्य का सैद्धांतिक आधार है और नियमित अभिव्यक्ति उनका वर्णन करने का एक तरीका है।

  • हम कह सकते हैं कि किसी भी नियमित अभिव्यक्ति को एफएसए के रूप में लागू किया जा सकता है और किसी भी एफएसए को एक नियमित अभिव्यक्ति के साथ वर्णित किया जा सकता है।

  • दूसरी ओर, नियमित अभिव्यक्ति एक प्रकार की भाषा है जिसे नियमित भाषा कहा जाता है। इसलिए, हम कह सकते हैं कि नियमित भाषा को एफएसए और नियमित अभिव्यक्ति दोनों की मदद से वर्णित किया जा सकता है।

  • नियमित व्याकरण, एक औपचारिक व्याकरण जो सही-नियमित या बाएं-नियमित हो सकता है, नियमित भाषा की विशेषता का एक और तरीका है।

निम्नलिखित आरेख से पता चलता है कि परिमित ऑटोमेटा, नियमित अभिव्यक्ति और नियमित व्याकरण नियमित भाषाओं का वर्णन करने के समान तरीके हैं।

परिमित राज्य स्वचालन के प्रकार (FSA)

परिमित राज्य स्वचालन दो प्रकार का होता है। आइए देखते हैं कि प्रकार क्या हैं।

नियतात्मक परिमित स्वचालन (DFA)

इसे परिमित स्वचालन के प्रकार के रूप में परिभाषित किया जा सकता है, जिसमें प्रत्येक इनपुट प्रतीक के लिए हम यह निर्धारित कर सकते हैं कि मशीन किस दिशा में जाएगी। इसमें राज्यों की सीमित संख्या है, इसीलिए मशीन को निर्धारक परिमित ऑटोमेटन (DFA) कहा जाता है।

गणितीय रूप से, एक डीएफए को 5-ट्यूपल (क्यू, δ, δ, q0, F) द्वारा दर्शाया जा सकता है, जहां -

  • Q राज्यों का एक समुच्चय है।

  • Symbols प्रतीकों का एक सीमित सेट है, जिसे ऑटोमेटन की वर्णमाला कहा जाता है।

  • Σ संक्रमण फ़ंक्शन है जहां δ: Q ×। → Q।

  • q0 वह प्रारंभिक अवस्था है जहां से किसी भी इनपुट को संसाधित किया जाता है (q0) Q)।

  • F अंतिम अवस्था / Q के राज्यों (F set Q) का एक समूह है।

जबकि रेखांकन के अनुसार, एक DFA को आरेखों द्वारा दर्शाया जा सकता है जिसे राज्य चित्र कहा जाता है -

  • राज्यों द्वारा प्रतिनिधित्व किया जाता है vertices

  • संक्रमण लेबल द्वारा दिखाए जाते हैं arcs

  • प्रारंभिक अवस्था का प्रतिनिधित्व एक द्वारा किया जाता है empty incoming arc

  • अंतिम स्थिति का प्रतिनिधित्व करता है double circle

DFA का उदाहरण

मान लीजिए कि एक DFA हो

  • क्यू = {ए, बी, सी},

  • , = {0, 1},

  • q 0 = {a},

  • F = {c},

  • संक्रमण समारोह function तालिका में निम्नानुसार दिखाया गया है -

वर्तमान स्थिति इनपुट के लिए अगला राज्य 0 इनपुट के लिए अगला राज्य 1
सी सी सी

इस डीएफए का चित्रमय प्रतिनिधित्व इस प्रकार होगा -

गैर-नियतात्मक परिमित स्वचालन (NDFA)

इसे परिमित स्वचालन के प्रकार के रूप में परिभाषित किया जा सकता है जहां हर इनपुट प्रतीक के लिए हम यह निर्धारित नहीं कर सकते कि मशीन किस दिशा में जाएगी अर्थात मशीन राज्यों के किसी भी संयोजन में जा सकती है। इसमें राज्यों की एक सीमित संख्या है, यही वजह है कि मशीन को गैर-नियतात्मक परिमित स्वचालन (NDFA) कहा जाता है।

गणितीय रूप से, एनडीएफए का प्रतिनिधित्व 5-ट्यूपल (क्यू, FA, FA, q0, F) द्वारा किया जा सकता है, जहां -

  • Q राज्यों का एक समुच्चय है।

  • Symbols प्रतीकों का एक सीमित सेट है, जिसे ऑटोमेटन की वर्णमाला कहा जाता है।

  • δ: -इस संक्रमण समारोह जहां the: Q × 2 → 2 क्यू

  • q0: -प्रारंभिक स्थिति जहाँ से किसी भी इनपुट को संसाधित किया जाता है (q0) Q)।

  • एफ: -एस (एफ of क्यू) के अंतिम राज्य / राज्यों का एक सेट।

जबकि ग्राफिक रूप से (डीएफए के समान), एक एनडीएफए को स्टेट डायग्राम कहे जाने वाले डायग्राम द्वारा दर्शाया जा सकता है जहां -

  • राज्यों द्वारा प्रतिनिधित्व किया जाता है vertices

  • संक्रमण लेबल द्वारा दिखाए जाते हैं arcs

  • प्रारंभिक अवस्था का प्रतिनिधित्व एक द्वारा किया जाता है empty incoming arc

  • अंतिम स्थिति को दोहरे द्वारा दर्शाया गया है circle

NDFA का उदाहरण

मान लीजिए कि एक NDFA हो

  • क्यू = {ए, बी, सी},

  • , = {0, 1},

  • q 0 = {a},

  • F = {c},

  • संक्रमण समारोह function तालिका में निम्नानुसार दिखाया गया है -

वर्तमान स्थिति इनपुट के लिए अगला राज्य 0 इनपुट के लिए अगला राज्य 1
ए, बी
सी एसी
सी बी, सी सी

इस NDFA का चित्रमय प्रतिनिधित्व इस प्रकार होगा -

मॉर्फोलॉजिकल पार्सिंग

मॉर्फोलॉजिकल पार्सिंग शब्द मोरफेम्स के पार्सिंग से संबंधित है। हम रूपात्मक पार्सिंग को यह पहचानने की समस्या के रूप में परिभाषित कर सकते हैं कि एक शब्द छोटे सार्थक इकाइयों में टूट जाता है जिसे मोर्फेम कहा जाता है जो इसके लिए किसी प्रकार की भाषाई संरचना का निर्माण करता है। उदाहरण के लिए, हम शब्द तोड़ सकते हैं लोमड़ियों दो, में लोमड़ी और -es । हम देख सकते हैं कि शब्द लोमड़ी , दो मोर्फेम से बना है, एक लोमड़ी है और अन्य -स है

दूसरे अर्थ में, हम कह सकते हैं कि आकृति विज्ञान का अध्ययन है -

  • शब्दों का निर्माण।

  • शब्दों की उत्पत्ति।

  • शब्दों के व्याकरणिक रूप।

  • शब्दों के निर्माण में उपसर्गों और प्रत्ययों का प्रयोग।

  • किसी भाषा के भाग (भाषण) कैसे बनते हैं।

Morphemes के प्रकार

Morphemes, सबसे छोटी अर्थ-असर इकाइयाँ, को दो प्रकारों में विभाजित किया जा सकता है -

  • Stems

  • शब्द क्रम

उपजी

यह किसी शब्द की मूल सार्थक इकाई है। हम यह भी कह सकते हैं कि यह शब्द की जड़ है। उदाहरण के लिए, लोमड़ी शब्द में, तना लोमड़ी है।

  • Affixes- जैसा कि नाम से पता चलता है, वे शब्दों में कुछ अतिरिक्त अर्थ और व्याकरणिक कार्य जोड़ते हैं। उदाहरण के लिए, लोमड़ी शब्द में, एफिक्स है - तों।

इसके अलावा, प्रत्ययों को भी चार प्रकारों में विभाजित किया जा सकता है -

    • Prefixes- जैसा कि नाम से पता चलता है, उपसर्ग स्टेम से पहले है। उदाहरण के लिए, अनबकल शब्द में, संयुक्त राष्ट्र उपसर्ग है।

    • Suffixes- जैसा कि नाम से पता चलता है, प्रत्यय स्टेम का अनुसरण करते हैं। उदाहरण के लिए, शब्द में बिल्लियों, -s प्रत्यय है।

    • Infixes- जैसा कि नाम से पता चलता है, इन्फिक्स को स्टेम के अंदर डाला जाता है। उदाहरण के लिए, cupful शब्द, infix के रूप में -s का उपयोग करके cupful के रूप में बहुवचन हो सकता है।

    • Circumfixes- वे पूर्ववर्ती और स्टेम का पालन करते हैं। अंग्रेजी भाषा में परिधि के बहुत कम उदाहरण हैं। एक बहुत ही सामान्य उदाहरण 'ए-आईएनजी' है जहां हम उपयोग कर सकते हैं-पूर्ववर्ती और -इंग स्टेम का अनुसरण करता है।

शब्द क्रम

शब्दों का क्रम रूपात्मक पार्सिंग द्वारा तय किया जाएगा। आइए अब हम एक रूपात्मक पार्सर के निर्माण की आवश्यकताओं को देखें -

शब्दकोश

एक रूपात्मक पार्सर के निर्माण के लिए बहुत पहली आवश्यकता लेक्सिकॉन है, जिसमें उनके बारे में बुनियादी जानकारी के साथ तनों और प्रत्ययों की सूची शामिल है। उदाहरण के लिए, जानकारी जैसे कि स्टेम नाउन स्टेम है या वर्ब स्टेम, आदि।

Morphotactics

यह मूल रूप से मॉर्फेम ऑर्डरिंग का मॉडल है। दूसरे अर्थ में, मॉडल यह समझाता है कि कौन से वर्ग के लोग किसी शब्द के अंदर अन्य वर्ग के शब्द का उपयोग कर सकते हैं। उदाहरण के लिए, मॉर्फोटैक्टिक तथ्य यह है कि अंग्रेजी बहुवचन morpheme हमेशा पूर्ववर्ती संज्ञा के बजाय इसका अनुसरण करता है।

ऑर्थोग्राफिक नियम

ये वर्तनी नियम एक शब्द में होने वाले परिवर्तनों को मॉडल करने के लिए उपयोग किए जाते हैं। उदाहरण के लिए, y को शब्द में बदलने का नियम जैसे शहर + s = शहर नहीं शहर।

सिंथेटिक विश्लेषण या पार्सिंग या वाक्यविन्यास विश्लेषण एनएलपी का तीसरा चरण है। इस चरण का उद्देश्य सटीक अर्थ निकालना है, या आप पाठ से शब्दकोश अर्थ कह सकते हैं। सिंटैक्स विश्लेषण औपचारिक व्याकरण के नियमों की तुलना में अर्थपूर्णता के लिए पाठ की जांच करता है। उदाहरण के लिए, "हॉट आइसक्रीम" जैसे वाक्य को सिमेंटिक एनालाइज़र द्वारा खारिज कर दिया जाएगा।

इस अर्थ में, वाक्यात्मक विश्लेषण या पार्सिंग को औपचारिक व्याकरण के नियमों के अनुरूप प्राकृतिक भाषा में प्रतीकों के तारों के विश्लेषण की प्रक्रिया के रूप में परिभाषित किया जा सकता है। शब्द की उत्पत्ति‘parsing’ लैटिन शब्द से है ‘pars’ जिसका मतलब है ‘part’

पार्सर की अवधारणा

इसका उपयोग पार्सिंग के कार्य को कार्यान्वित करने के लिए किया जाता है। इसे औपचारिक डेटा के अनुसार सही वाक्यविन्यास के लिए जाँच के बाद इनपुट डेटा (पाठ) लेने और इनपुट के संरचनात्मक प्रतिनिधित्व के लिए डिज़ाइन किए गए सॉफ़्टवेयर घटक के रूप में परिभाषित किया जा सकता है। यह आमतौर पर पार्स ट्री या एब्सट्रैक्ट सिंटैक्स ट्री या अन्य पदानुक्रमित संरचना के रूप में एक डेटा संरचना भी बनाता है।

पार्स की मुख्य भूमिकाओं में शामिल हैं -

  • किसी भी सिंटैक्स त्रुटि की रिपोर्ट करने के लिए।

  • आमतौर पर होने वाली त्रुटि से उबरने के लिए ताकि कार्यक्रम के शेष के प्रसंस्करण को जारी रखा जा सके।

  • पार्स ट्री बनाने के लिए।

  • प्रतीक तालिका बनाने के लिए।

  • मध्यवर्ती अभ्यावेदन (IR) का उत्पादन करने के लिए।

पार्सिंग के प्रकार

व्युत्पत्ति दो प्रकारों में पार्सिंग को विभाजित करती है -

  • टॉप-डाउन पार्सिंग

  • नीचे-ऊपर पार्सिंग

टॉप-डाउन पार्सिंग

इस तरह के पार्सिंग में, पार्सर स्टार्ट सिंबल से पार्स ट्री का निर्माण शुरू करता है और फिर स्टार्ट सिंबल को इनपुट में बदलने की कोशिश करता है। टॉपडाउन पार्सिंग का सबसे सामान्य रूप इनपुट को संसाधित करने के लिए पुनरावर्ती प्रक्रिया का उपयोग करता है। पुनरावर्ती वंश पार्सिंग का मुख्य नुकसान बैकट्रैकिंग है।

नीचे-ऊपर पार्सिंग

इस तरह के पार्सिंग में, पार्सर इनपुट प्रतीक के साथ शुरू होता है और पार्सर पेड़ को प्रारंभ प्रतीक तक बनाने की कोशिश करता है।

व्युत्पत्ति की अवधारणा

इनपुट स्ट्रिंग प्राप्त करने के लिए, हमें उत्पादन नियमों के अनुक्रम की आवश्यकता होती है। व्युत्पत्ति उत्पादन नियमों का एक समूह है। पार्सिंग के दौरान, हमें गैर-टर्मिनल को तय करने की आवश्यकता है, जिसे उत्पादन नियम तय करने के साथ-साथ गैर-टर्मिनल को प्रतिस्थापित किया जाना है।

व्युत्पत्ति के प्रकार

इस खंड में, हम दो प्रकार की व्युत्पत्तियों के बारे में जानेंगे, जिनका उपयोग यह तय करने के लिए किया जा सकता है कि किस गैर-टर्मिनल को उत्पादन नियम से बदला जाए -

वाम-सर्वाधिक व्युत्पत्ति

बाएं-सबसे व्युत्पन्न में, एक इनपुट के भावुक रूप को स्कैन किया जाता है और बाईं ओर से दाईं ओर प्रतिस्थापित किया जाता है। इस मामले में भेजे जाने वाले रूप को बाएं-संवेदी रूप कहा जाता है।

सही-सबसे व्युत्पत्ति

बाएं-सबसे व्युत्पन्न में, एक इनपुट के भावुक रूप को स्कैन किया जाता है और दाएं से बाएं से बदल दिया जाता है। इस मामले में भेजे जाने वाले रूप को सही-संवेदी रूप कहा जाता है।

पार्स ट्री की अवधारणा

इसे व्युत्पत्ति के चित्रण चित्रण के रूप में परिभाषित किया जा सकता है। व्युत्पत्ति का प्रारंभ प्रतीक पार्स पेड़ की जड़ के रूप में कार्य करता है। प्रत्येक पार्स ट्री में, पत्ती नोड्स टर्मिनल हैं और आंतरिक नोड गैर-टर्मिनल हैं। पार्स ट्री की एक संपत्ति यह है कि इन-ऑर्डर ट्रैवर्सल मूल इनपुट स्ट्रिंग का उत्पादन करेगा।

व्याकरण की अवधारणा

व्याकरण अच्छी तरह से निर्मित कार्यक्रमों की वाक्यात्मक संरचना का वर्णन करने के लिए बहुत आवश्यक और महत्वपूर्ण है। साहित्यिक अर्थों में, वे प्राकृतिक भाषाओं में बातचीत के लिए वाक्यात्मक नियमों को निरूपित करते हैं। भाषाविज्ञान ने अंग्रेजी, हिंदी आदि प्राकृतिक भाषाओं की स्थापना के बाद से व्याकरण को परिभाषित करने का प्रयास किया है।

औपचारिक भाषाओं का सिद्धांत कंप्यूटर विज्ञान के क्षेत्र में मुख्य रूप से प्रोग्रामिंग भाषाओं और डेटा संरचना में भी लागू होता है। उदाहरण के लिए, 'सी' भाषा में, सटीक व्याकरण नियम बताता है कि सूचियों और कथनों से कैसे कार्य किए जाते हैं।

व्याकरण का एक गणितीय मॉडल द्वारा दिया गया था Noam Chomsky 1956 में, जो कंप्यूटर भाषाओं को लिखने के लिए प्रभावी है।

गणितीय रूप से, एक व्याकरण G को औपचारिक रूप से 4-ट्यूपल (N, T, S, P) के रूप में लिखा जा सकता है -

  • N या VN = गैर-टर्मिनल प्रतीकों का सेट, अर्थात, चर।

  • T या = टर्मिनल प्रतीकों का सेट।

  • S = एस। एन जहां प्रतीक शुरू करें

  • Pटर्मिनलों के साथ-साथ गैर-टर्मिनलों के लिए उत्पादन नियमों को दर्शाता है। इसका रूप α → β है, जहां α और ∪ V N ∑ on पर तार हैं और α का कम से कम एक प्रतीक V N से संबंधित है

वाक्यांश संरचना या संविधान व्याकरण

नोम चॉम्स्की द्वारा प्रस्तुत वाक्यांश संरचना व्याकरण, निर्वाचन क्षेत्र के संबंध पर आधारित है। इसीलिए इसे निर्वाचन क्षेत्र व्याकरण भी कहा जाता है। यह निर्भरता व्याकरण के विपरीत है।

उदाहरण

निर्वाचन क्षेत्र के व्याकरण का उदाहरण देने से पहले, हमें निर्वाचन क्षेत्र के व्याकरण और निर्वाचन क्षेत्र के संबंध के मूलभूत बिंदुओं को जानना होगा।

  • सभी संबंधित ढांचे निर्वाचन क्षेत्र के संबंध में वाक्य संरचना को देखते हैं।

  • निर्वाचन क्षेत्र का संबंध लैटिन के विषय-प्रधान विभाजन और ग्रीक व्याकरण से लिया गया है।

  • मूल खंड संरचना के संदर्भ में समझा जाता है noun phrase NP तथा verb phrase VP

हम वाक्य लिख सकते हैं “This tree is illustrating the constituency relation” निम्नानुसार है -

निर्भरता व्याकरण

यह निर्वाचन क्षेत्र के व्याकरण के विपरीत है और निर्भरता के संबंध पर आधारित है। इसे लुसिएन टेस्नीयर ने पेश किया था। निर्भरता व्याकरण (DG) निर्वाचन क्षेत्र के व्याकरण के विपरीत है, क्योंकि इसमें फॉटेसल नोड्स का अभाव है।

उदाहरण

डिपेंडेंसी व्याकरण का उदाहरण देने से पहले, हमें डिपेंडेंसी ग्रामर और डिपेंडेंसी रिलेशन के बारे में मूलभूत बिंदुओं को जानना होगा।

  • डीजी में, भाषाई इकाइयाँ, अर्थात, शब्द एक दूसरे से जुड़े हुए लिंक द्वारा जुड़े होते हैं।

  • क्रिया खंड संरचना का केंद्र बन जाती है।

  • हर दूसरी सिंटैक्टिक इकाइयां निर्देशित लिंक के संदर्भ में क्रिया से जुड़ी होती हैं। इन वाक्यात्मक इकाइयों को कहा जाता हैdependencies

हम वाक्य लिख सकते हैं “This tree is illustrating the dependency relation” निम्नलिखित नुसार;

पार्स ट्री जो संविधान सभा व्याकरण का उपयोग करता है उसे निर्वाचन क्षेत्र आधारित पार्स ट्री कहा जाता है; और पार्स पेड़ों पर निर्भरता व्याकरण का उपयोग करने वाले को निर्भरता-आधारित पार्स ट्री कहा जाता है।

प्रसंग मुक्त व्याकरण

संदर्भ मुक्त व्याकरण, जिसे सीएफजी भी कहा जाता है, भाषाओं का वर्णन करने और नियमित व्याकरण के एक सुपरसेट के लिए एक संकेतन है। इसे निम्नलिखित आरेख में देखा जा सकता है -

सीएफजी की परिभाषा

CFG में निम्नलिखित चार घटकों के साथ व्याकरण के नियमों का सीमित सेट होता है -

गैर-टर्मिनलों का सेट

इसे वी द्वारा निरूपित किया जाता है। गैर-टर्मिनलों को वाक्य-विन्यास चर कहते हैं, जो तार के सेट को दर्शाते हैं, जो व्याकरण द्वारा उत्पन्न भाषा को परिभाषित करने में मदद करते हैं।

टर्मिनलों का सेट

इसे टोकन भी कहा जाता है और इसे k द्वारा परिभाषित किया जाता है। टर्मिनलों के मूल प्रतीकों के साथ स्ट्रिंग्स का निर्माण होता है।

प्रोडक्शंस का सेट

यह पी द्वारा दर्शाया गया है। सेट निर्धारित करता है कि टर्मिनलों और गैर-टर्मिनलों को कैसे जोड़ा जा सकता है। प्रत्येक उत्पादन (पी) में गैर-टर्मिनलों, एक तीर और टर्मिनलों (टर्मिनलों का क्रम) शामिल हैं। गैर-टर्मिनलों को उत्पादन के बाईं ओर कहा जाता है और टर्मिनलों को उत्पादन के दाईं ओर कहा जाता है।

प्रतीक शुरू करो

उत्पादन शुरू प्रतीक से शुरू होता है। इसे प्रतीक एस द्वारा निरूपित किया जाता है। गैर-टर्मिनल प्रतीक को हमेशा प्रारंभ प्रतीक के रूप में निर्दिष्ट किया जाता है।

सिमेंटिक विश्लेषण का उद्देश्य सटीक अर्थ निकालना है, या आप पाठ से शब्दकोश का अर्थ कह सकते हैं। अर्थ विश्लेषक के लिए अर्थ की जांच के लिए शब्दार्थ विश्लेषक का काम है।

हम पहले से ही जानते हैं कि शाब्दिक विश्लेषण भी शब्दों के अर्थ के साथ संबंधित है, फिर शब्दार्थ विश्लेषण शाब्दिक विश्लेषण से कैसे अलग है? लेक्सिकल विश्लेषण छोटे टोकन पर आधारित है, लेकिन दूसरी तरफ अर्थ विश्लेषण बड़े चूजों पर केंद्रित है। इसीलिए शब्दार्थ विश्लेषण को निम्नलिखित दो भागों में विभाजित किया जा सकता है -

व्यक्तिगत शब्द का अर्थ अध्ययन

यह शब्दार्थ विश्लेषण का पहला भाग है जिसमें व्यक्तिगत शब्दों के अर्थ का अध्ययन किया जाता है। इस भाग को लेक्सिकल शब्दार्थ कहते हैं।

व्यक्तिगत शब्दों के संयोजन का अध्ययन

दूसरे भाग में, अलग-अलग शब्दों को वाक्यों में अर्थ प्रदान करने के लिए संयोजित किया जाएगा।

शब्दार्थ विश्लेषण का सबसे महत्वपूर्ण कार्य वाक्य का उचित अर्थ प्राप्त करना है। उदाहरण के लिए, वाक्य का विश्लेषण करें“Ram is great.”इस वाक्य में, वक्ता या तो भगवान राम के बारे में बात कर रहा है या उस व्यक्ति के बारे में जिसका नाम राम है। इसीलिए, शब्द का सही अर्थ प्राप्त करने के लिए नौकरी, शब्दार्थ विश्लेषक का होना जरूरी है।

अर्थ विश्लेषण के तत्व

अनुगामी विश्लेषण के कुछ महत्वपूर्ण तत्व निम्नलिखित हैं -

Hyponymy

इसे एक सामान्य शब्द और उस सामान्य शब्द के उदाहरणों के बीच संबंध के रूप में परिभाषित किया जा सकता है। यहाँ जेनेरिक शब्द को हाइपरनीम कहा जाता है और इसके उदाहरणों को सम्मोहन कहा जाता है। उदाहरण के लिए, शब्द का रंग हाइपरनीम है और रंग नीला, पीला आदि सम्मोहन हैं।

निराकरण

इसे समान वर्तनी या समान रूप वाले शब्दों के रूप में परिभाषित किया जा सकता है, लेकिन अलग और असंबंधित अर्थ होने पर। उदाहरण के लिए, शब्द "चमगादड़" एक सजातीय शब्द है क्योंकि चमगादड़ एक गेंद को हिट करने के लिए एक कार्यान्वयन हो सकता है या बल्ला एक निशाचर उड़ान स्तनपायी भी है।

अनेक मतलब का गुण

पोलीसिम एक ग्रीक शब्द है, जिसका अर्थ है "कई संकेत"। यह एक शब्द या वाक्यांश है जिसमें अलग-अलग लेकिन संबंधित अर्थ हैं। दूसरे शब्दों में, हम कह सकते हैं कि पॉलिसमी की वर्तनी समान है लेकिन अलग और संबंधित अर्थ है। उदाहरण के लिए, शब्द "बैंक" एक पॉलीसिम शब्द है जिसके निम्नलिखित अर्थ हैं -

  • एक वित्तीय संस्थान।

  • जिस भवन में ऐसी संस्था स्थित है।

  • "पर भरोसा करने के लिए" का एक पर्याय।

Polysemy और Homonymy के बीच अंतर

पोलीसिम और होमोसेक्सुअल दोनों शब्दों में एक ही वाक्यविन्यास या वर्तनी है। उनके बीच मुख्य अंतर यह है कि पोलीसिम में, शब्दों के अर्थ संबंधित हैं लेकिन गृहविज्ञान में, शब्दों के अर्थ संबंधित नहीं हैं। उदाहरण के लिए, यदि हम एक ही शब्द "बैंक" के बारे में बात करते हैं, तो हम 'एक वित्तीय संस्थान' या 'एक नदी बैंक' का अर्थ लिख सकते हैं। उस मामले में यह घर का उदाहरण होगा क्योंकि अर्थ एक दूसरे से असंबंधित हैं।

synonymy

यह दो शाब्दिक वस्तुओं के बीच विभिन्न रूपों वाले संबंध हैं लेकिन समान या निकट अर्थ व्यक्त करते हैं। उदाहरण 'लेखक / लेखक', 'भाग्य / भाग्य' हैं।

Antonymy

यह एक अक्ष के सापेक्ष उनके शब्दार्थ घटकों के बीच समरूपता रखने वाले दो शाब्दिक वस्तुओं के बीच का संबंध है। एन्टोनॉमी का दायरा इस प्रकार है -

  • Application of property or not − Example is ‘life/death’, ‘certitude/incertitude’

  • Application of scalable property − Example is ‘rich/poor’, ‘hot/cold’

  • Application of a usage − Example is ‘father/son’, ‘moon/sun’.

Meaning Representation

Semantic analysis creates a representation of the meaning of a sentence. But before getting into the concept and approaches related to meaning representation, we need to understand the building blocks of semantic system.

Building Blocks of Semantic System

In word representation or representation of the meaning of the words, the following building blocks play an important role −

  • Entities − It represents the individual such as a particular person, location etc. For example, Haryana. India, Ram all are entities.

  • Concepts − It represents the general category of the individuals such as a person, city, etc.

  • Relations − It represents the relationship between entities and concept. For example, Ram is a person.

  • Predicates − It represents the verb structures. For example, semantic roles and case grammar are the examples of predicates.

Now, we can understand that meaning representation shows how to put together the building blocks of semantic systems. In other words, it shows how to put together entities, concepts, relation and predicates to describe a situation. It also enables the reasoning about the semantic world.

Approaches to Meaning Representations

Semantic analysis uses the following approaches for the representation of meaning −

  • First order predicate logic (FOPL)

  • Semantic Nets

  • Frames

  • Conceptual dependency (CD)

  • Rule-based architecture

  • Case Grammar

  • Conceptual Graphs

Need of Meaning Representations

A question that arises here is why do we need meaning representation? Followings are the reasons for the same −

Linking of linguistic elements to non-linguistic elements

The very first reason is that with the help of meaning representation the linking of linguistic elements to the non-linguistic elements can be done.

Representing variety at lexical level

With the help of meaning representation, unambiguous, canonical forms can be represented at the lexical level.

Can be used for reasoning

Meaning representation can be used to reason for verifying what is true in the world as well as to infer the knowledge from the semantic representation.

लेक्सिकल शब्दार्थ

शब्दार्थ विश्लेषण का पहला भाग, व्यक्तिगत शब्दों के अर्थ का अध्ययन करना, शब्दार्थ शब्दार्थ कहलाता है। इसमें शब्द, उप-शब्द, प्रत्यय (उप-इकाइयां), यौगिक शब्द और वाक्यांश भी शामिल हैं। सभी शब्द, उप-शब्द, आदि को सामूहिक रूप से लेक्सिकल आइटम कहा जाता है। दूसरे शब्दों में, हम कह सकते हैं कि शाब्दिक शब्दार्थ वाक्य के अर्थ, वाक्य के वाक्य और वाक्य रचना के बीच संबंध है।

लेक्सिकल शब्दार्थ में निम्नलिखित चरण शामिल हैं -

  • शब्द, उप-शब्द, प्रत्यय आदि जैसे शाब्दिक वस्तुओं का वर्गीकरण शाब्दिक शब्दार्थ में किया जाता है।

  • शब्द, उप-शब्द, प्रत्यय आदि जैसे शाब्दिक वस्तुओं का अपघटन शाब्दिक शब्दार्थ में किया जाता है।

  • विभिन्न लेक्सिकल सिमेंटिक संरचनाओं के बीच अंतर के साथ-साथ समानता का भी विश्लेषण किया गया है।

हम समझते हैं कि शब्दों के वाक्य में इसके उपयोग के संदर्भ के आधार पर अलग-अलग अर्थ हैं। यदि हम मानव भाषाओं के बारे में बात करते हैं, तो वे अस्पष्ट भी हैं क्योंकि कई शब्दों को उनकी घटना के संदर्भ के आधार पर कई तरीकों से व्याख्या की जा सकती है।

प्राकृतिक भाषा प्रसंस्करण (एनएलपी) में शब्द बोध भंग, को यह निर्धारित करने की क्षमता के रूप में परिभाषित किया जा सकता है कि किसी विशेष संदर्भ में शब्द के उपयोग से शब्द का कौन सा अर्थ सक्रिय होता है। लेक्सिकल अस्पष्टता, वाक्यात्मक या शब्दार्थ, किसी भी एनएलपी प्रणाली का सामना करने वाली सबसे पहली समस्या में से एक है। उच्च स्तर की सटीकता के साथ पार्ट-टू-स्पीच (पीओएस) टैगर्स वर्ड के सिंटैक्टिक अस्पष्टता को हल कर सकते हैं। दूसरी ओर, शब्दार्थ अस्पष्टता को हल करने की समस्या को डब्ल्यूएसडी (शब्द बोध विच्छेद) कहा जाता है। सिमेंटिक अस्पष्टता को हल करने की तुलना में सिमेंटिक अस्पष्टता को हल करना कठिन है।

उदाहरण के लिए, शब्द के लिए मौजूद विशिष्ट अर्थ के दो उदाहरणों पर विचार करें “bass” -

  • मैं बास ध्वनि सुन सकता हूं।

  • उसे ग्रिल्ड बेस खाना पसंद है।

शब्द की घटना bassस्पष्ट रूप से स्पष्ट अर्थ को दर्शाता है। पहले वाक्य में, इसका मतलब हैfrequency और दूसरे में, इसका मतलब है fish। इसलिए, यदि इसे डब्ल्यूएसडी द्वारा खंडित किया जाता है तो उपरोक्त वाक्यों का सही अर्थ निम्नानुसार सौंपा जा सकता है -

  • मैं बास / आवृत्ति ध्वनि सुन सकता हूं।

  • वह ग्रिल्ड बास / मछली खाना पसंद करते हैं।

डब्लूएसडी का मूल्यांकन

WSD के मूल्यांकन के लिए निम्नलिखित दो इनपुट की आवश्यकता होती है -

एक शब्दकोष

डब्लूएसडी के मूल्यांकन के लिए सबसे पहला इनपुट डिक्शनरी है, जिसका उपयोग इंद्रियों की अवहेलना करने के लिए किया जाता है।

टेस्ट कॉर्पस

WSD द्वारा आवश्यक एक और इनपुट उच्च-एनोटेट परीक्षण कॉर्पस है जिसमें लक्ष्य या सही-इंद्रियां हैं। परीक्षण कॉर्पोरा दो प्रकार का हो सकता है & minsu;

  • Lexical sample - इस तरह के कॉर्पोरा का उपयोग सिस्टम में किया जाता है, जहां शब्दों के एक छोटे से नमूने को तोड़ना आवश्यक है।

  • All-words - सिस्टम में इस तरह के कॉर्पोरा का उपयोग किया जाता है, जहां यह चल रहे पाठ के एक टुकड़े में सभी शब्दों को खंडित करने की उम्मीद है।

शब्द संवेदना विसंगति (WSD) के लिए दृष्टिकोण और विधियाँ

WSD के दृष्टिकोण और विधियों को शब्द असंतुलन में उपयोग किए गए ज्ञान के स्रोत के अनुसार वर्गीकृत किया गया है।

आइए अब WSD के चार पारंपरिक तरीकों को देखें -

शब्दकोश-आधारित या ज्ञान-आधारित विधियाँ

जैसा कि नाम से पता चलता है, विघटन के लिए, ये विधियां मुख्य रूप से शब्दकोशों, खजाने और शाब्दिक ज्ञान के आधार पर निर्भर करती हैं। वे संवितरण के लिए कॉर्पोरा साक्ष्य का उपयोग नहीं करते हैं। लेसक विधि 1986 में माइकल लेसक द्वारा शुरू की गई सेमिनल डिक्शनरी-आधारित पद्धति है। लेसक परिभाषा, जिस पर लेसक एल्गोरिथ्म आधारित है,“measure overlap between sense definitions for all words in context”। हालांकि, 2000 में, केल्गर्रिफ़ और रोसेंस्विग ने सरलीकृत लेसक की परिभाषा दी“measure overlap between sense definitions of word and current context”, जो आगे एक समय में एक शब्द के लिए सही अर्थ की पहचान करता है। यहां वर्तमान संदर्भ आसपास के वाक्य या पैराग्राफ में शब्दों का समूह है।

पर्यवेक्षित तरीके

संवितरण के लिए, मशीन सीखने के तरीकों को प्रशिक्षित करने के लिए अर्थ-एनोटेट कॉर्पोरा का उपयोग करते हैं। ये विधियाँ मानती हैं कि संदर्भ बोध को भंग करने के लिए अपने आप में पर्याप्त सबूत प्रदान कर सकता है। इन विधियों में, ज्ञान और तर्क शब्द को अनावश्यक माना जाता है। संदर्भ को शब्दों के "सुविधाओं" के एक सेट के रूप में दर्शाया गया है। इसमें आसपास के शब्दों की जानकारी भी शामिल है। समर्थन वेक्टर मशीन और मेमोरी-आधारित लर्निंग WSD के लिए सबसे सफल पर्यवेक्षित अधिगम दृष्टिकोण हैं। ये विधियां मैन्युअल रूप से अर्थ-टैग किए गए कॉर्पोरा की पर्याप्त मात्रा पर निर्भर करती हैं, जो बनाने के लिए बहुत महंगा है।

अर्ध-पर्यवेक्षित तरीके

प्रशिक्षण कॉरपस की कमी के कारण, अधिकांश शब्द भावना असंतुलन एल्गोरिदम अर्ध-पर्यवेक्षित शिक्षण विधियों का उपयोग करते हैं। ऐसा इसलिए है क्योंकि अर्ध-पर्यवेक्षित तरीके लेबल वाले दोनों के साथ-साथ अनलिस्टेड डेटा का उपयोग करते हैं। इन विधियों में बहुत कम मात्रा में एनोटेट पाठ की आवश्यकता होती है और बड़ी मात्रा में सादे बिना पढ़े हुए पाठ की आवश्यकता होती है। तकनीक है कि semisupervised तरीकों द्वारा प्रयोग किया जाता है बीज डेटा से बूटस्ट्रैपिंग है।

अनसुनी विधि

ये विधियां मानती हैं कि समान संदर्भ में समान इंद्रियां होती हैं। इसीलिए संदर्भ की समानता के कुछ माप का उपयोग करके शब्द घटनाओं को जोड़कर इंद्रियों को पाठ से प्रेरित किया जा सकता है। इस कार्य को शब्द बोध या विवेक कहा जाता है। मैनुअल प्रयासों पर निर्भर न होने के कारण ज्ञान प्राप्ति की अड़चन को दूर करने के लिए अनसुनी विधियों में बड़ी क्षमता है।

वर्ड सेंस डिसएम्बिगेशन (डब्ल्यूएसडी) के अनुप्रयोग

भाषा प्रौद्योगिकी के लगभग हर अनुप्रयोग में शब्द बोध भंग (WSD) लागू होता है।

आइये अब हम WSD का दायरा देखते हैं -

मशीन अनुवाद

मशीनी अनुवाद या MT WSD का सबसे स्पष्ट अनुप्रयोग है। एमटी में, शब्दों के लिए लेक्सिकल विकल्प, जिसमें विभिन्न इंद्रियों के लिए अलग-अलग अनुवाद हैं, डब्ल्यूएसडी द्वारा किया जाता है। एमटी में इंद्रियों को लक्ष्य भाषा में शब्दों के रूप में दर्शाया जाता है। अधिकांश मशीनी अनुवाद प्रणालियाँ स्पष्ट WSD मॉड्यूल का उपयोग नहीं करती हैं।

सूचना पुनर्प्राप्ति (आईआर)

सूचना पुनर्प्राप्ति (आईआर) को एक सॉफ्टवेयर प्रोग्राम के रूप में परिभाषित किया जा सकता है जो संगठन, भंडारण, पुनर्प्राप्ति और दस्तावेज़ रिपॉजिटरी से विशेष रूप से पाठ्य सूचना के मूल्यांकन का मूल्यांकन करता है। सिस्टम मूल रूप से उपयोगकर्ताओं को उन सूचनाओं को खोजने में सहायता करता है जिनकी उन्हें आवश्यकता होती है लेकिन यह स्पष्ट रूप से प्रश्नों के उत्तर नहीं देता है। डब्ल्यूएसडी का उपयोग आईआर प्रणाली को प्रदान किए गए प्रश्नों की अस्पष्टताओं को हल करने के लिए किया जाता है। एमटी की तरह, वर्तमान आईआर सिस्टम डब्ल्यूएसडी मॉड्यूल का स्पष्ट रूप से उपयोग नहीं करते हैं और वे इस अवधारणा पर भरोसा करते हैं कि उपयोगकर्ता क्वेरी में पर्याप्त संदर्भ केवल प्रासंगिक दस्तावेजों को प्राप्त करने के लिए टाइप करेंगे।

पाठ खनन और सूचना निष्कर्षण (IE)

अधिकांश अनुप्रयोगों में, WSD पाठ का सटीक विश्लेषण करने के लिए आवश्यक है। उदाहरण के लिए, डब्लूएसडी बुद्धिमान सभा प्रणाली को सही शब्दों का झंडा लगाने में मदद करता है। उदाहरण के लिए, चिकित्सा बुद्धिमान प्रणाली को "चिकित्सा दवाओं" के बजाय "अवैध दवाओं" के झंडे की आवश्यकता हो सकती है

कोशरचना

डब्लूएसडी और लेक्सोग्राफी लूप में एक साथ काम कर सकते हैं क्योंकि आधुनिक लेक्सोग्राफी कॉर्पसबेड है। लेक्सोग्राफी के साथ, डब्ल्यूएसडी किसी न किसी अनुभवजन्य अर्थ समूह के साथ-साथ अर्थ के सांख्यिकीय महत्वपूर्ण संदर्भ संकेतक प्रदान करता है।

शब्द संवेदना विसंगति (डब्ल्यूएसडी) में कठिनाइयाँ

शब्द बोध भंग (डब्ल्यूएसडी) द्वारा निम्नलिखित कुछ कठिनाइयों का सामना किया जाता है -

शब्दकोशों के बीच अंतर

डब्ल्यूएसडी की प्रमुख समस्या शब्द की भावना को तय करना है क्योंकि विभिन्न इंद्रियां बहुत निकट से संबंधित हो सकती हैं। यहां तक ​​कि अलग-अलग शब्दकोश और थिसॉरस शब्दों के विभिन्न विभाजनों को होश में प्रदान कर सकते हैं।

विभिन्न अनुप्रयोगों के लिए अलग एल्गोरिदम

डब्लूएसडी की एक और समस्या यह है कि विभिन्न अनुप्रयोगों के लिए पूरी तरह से अलग एल्गोरिथ्म की आवश्यकता हो सकती है। उदाहरण के लिए, मशीन अनुवाद में, यह लक्ष्य शब्द चयन का रूप लेता है; और सूचना पुनर्प्राप्ति में, एक भावना सूची की आवश्यकता नहीं है।

अंतर-न्यायाधीश विचरण

डब्लूएसडी की एक और समस्या यह है कि डब्ल्यूएसडी सिस्टम को आम तौर पर मानव के कार्य के मुकाबले एक कार्य पर उनके परिणाम होने के द्वारा परीक्षण किया जाता है। इसे इंटरजेज विचरण की समस्या कहा जाता है।

शब्द-बोध की असावधानी

डब्लूएसडी में एक और कठिनाई यह है कि शब्दों को आसानी से असतत प्रस्तुतियों में विभाजित नहीं किया जा सकता है।

AI की सबसे कठिन समस्या कंप्यूटर द्वारा प्राकृतिक भाषा को संसाधित करना है या दूसरे शब्दों में प्राकृतिक भाषा प्रसंस्करण कृत्रिम बुद्धिमत्ता की सबसे कठिन समस्या है। अगर हम एनएलपी में प्रमुख समस्याओं के बारे में बात करते हैं, तो एनएलपी में प्रमुख समस्याओं में से एक प्रवचन प्रक्रिया है - सिद्धांतों का निर्माण और मॉडल कि कैसे उच्चारण एक साथ बनते हैं।coherent discourse। वास्तव में, भाषा में हमेशा फिल्मों की तरह अलग-थलग और असंबंधित वाक्यों के बजाय वाक्यों के संकुचित, संरचित और सुसंगत समूह होते हैं। वाक्यों के इन सुसंगत समूहों को प्रवचन कहा जाता है।

जुटना की अवधारणा

जुटना और प्रवचन संरचना कई मायनों में परस्पर जुड़े हुए हैं। सुसंगतता, अच्छे पाठ की संपत्ति के साथ, प्राकृतिक भाषा पीढ़ी प्रणाली के उत्पादन की गुणवत्ता का मूल्यांकन करने के लिए उपयोग किया जाता है। यहाँ जो प्रश्न उठता है वह यह है कि पाठ के सुसंगत होने का क्या अर्थ है? मान लीजिए कि हमने अखबार के हर पृष्ठ से एक वाक्य एकत्र किया, तो क्या यह एक प्रवचन होगा? बिलकूल नही। ऐसा इसलिए है क्योंकि ये वाक्य सुसंगतता प्रदर्शित नहीं करते हैं। सुसंगत प्रवचन में निम्नलिखित गुण होने चाहिए -

कथनों में परस्पर संबंध

यदि इसके उच्चारण के बीच सार्थक संबंध हैं तो प्रवचन सुसंगत होगा। इस संपत्ति को सुसंगत संबंध कहा जाता है। उदाहरण के लिए, उच्चारण के बीच संबंध को सही ठहराने के लिए किसी प्रकार का स्पष्टीकरण होना चाहिए।

संस्थाओं के बीच संबंध

एक और संपत्ति जो एक प्रवचन को सुसंगत बनाती है, वह यह है कि संस्थाओं के साथ एक निश्चित प्रकार का संबंध होना चाहिए। इस तरह के सामंजस्य को इकाई आधारित सुसंगतता कहा जाता है।

प्रवचन संरचना

प्रवचन के संबंध में एक महत्वपूर्ण प्रश्न यह है कि प्रवचन की संरचना किस प्रकार की होनी चाहिए। इस प्रश्न का उत्तर उस विभाजन पर निर्भर करता है जो हमने प्रवचन पर लागू किया था। प्रवचन विभाजन को बड़े प्रवचन के लिए संरचनाओं के प्रकार को निर्धारित करने के रूप में परिभाषित किया जा सकता है। प्रवचन विभाजन को लागू करना काफी कठिन है, लेकिन यह बहुत महत्वपूर्ण हैinformation retrieval, text summarization and information extraction अनुप्रयोगों की तरह।

प्रवचन विभाजन के लिए एल्गोरिदम

इस खंड में, हम प्रवचन विभाजन के लिए एल्गोरिदम के बारे में जानेंगे। एल्गोरिदम नीचे वर्णित हैं -

अनसुचित प्रवचन खंड

अनचाहे प्रवचन विभाजन के वर्ग को अक्सर रैखिक विभाजन के रूप में दर्शाया जाता है। हम एक उदाहरण की मदद से रैखिक विभाजन के कार्य को समझ सकते हैं। उदाहरण में, पाठ को बहु-पैरा इकाइयों में विभाजित करने का कार्य है; इकाइयाँ मूल पाठ के पारित होने का प्रतिनिधित्व करती हैं। ये एल्गोरिदम सामंजस्य पर निर्भर होते हैं जिन्हें कुछ भाषाई उपकरणों के उपयोग के रूप में परिभाषित किया जा सकता है ताकि पाठ इकाइयों को एक साथ जोड़ा जा सके। दूसरी ओर, लेक्सिकॉन सामंजस्य वह सामंजस्य है जो दो इकाइयों में दो या दो से अधिक शब्दों के बीच के संबंधों द्वारा इंगित किया जाता है जैसे समानार्थक शब्द का उपयोग।

पर्यवेक्षित प्रवचन विभाजन

पहले की विधि में कोई भी हाथ से लेबल वाली खंड सीमाएँ नहीं हैं। दूसरी ओर, पर्यवेक्षित प्रवचन विभाजन के लिए सीमा-लेबल प्रशिक्षण डेटा होना चाहिए। इसे हासिल करना बहुत आसान है। पर्यवेक्षित प्रवचन विभाजन में, प्रवचन मार्कर या क्यू शब्द महत्वपूर्ण भूमिका निभाते हैं। प्रवचन मार्कर या क्यू शब्द एक शब्द या वाक्यांश है जो प्रवचन संरचना को इंगित करने के लिए कार्य करता है। ये प्रवचन मार्कर डोमेन-विशिष्ट हैं।

पाठ जुटना

लेक्सिकल दोहराव एक प्रवचन में संरचना को खोजने का एक तरीका है, लेकिन यह सुसंगत प्रवचन होने की आवश्यकता को पूरा नहीं करता है। सुसंगत प्रवचन को प्राप्त करने के लिए, हमें विशेष रूप से सुसंगत संबंधों पर ध्यान देना चाहिए। जैसा कि हम जानते हैं कि सह-संबंध एक प्रवचन में कथनों के बीच संभावित संबंध को परिभाषित करता है। हेब्ब ने इस प्रकार के संबंधों का प्रस्ताव किया है: -

हम दो शब्द ले रहे हैं S0 तथा S1 दो संबंधित वाक्यों के अर्थ का प्रतिनिधित्व करने के लिए -

परिणाम

यह कहा जाता है कि राज्य शब्द द्वारा मुखर है S0 राज्य द्वारा दावा किया जा सकता है S1। उदाहरण के लिए, दो बयान रिश्ते के परिणाम को दर्शाते हैं: राम आग में फंस गया था। उसकी त्वचा जल गई।

व्याख्या

यह मानता है कि राज्य ने जोर दिया S1 राज्य द्वारा दावा किया जा सकता है S0। उदाहरण के लिए, दो कथन रिश्ते को दर्शाते हैं - राम ने श्याम के दोस्त के साथ लड़ाई की। वह पिया हुआ था।

समानांतर

यह पी (a1, a2,…) के जोर से होता है S0 और पी (बी 1, बी 2, ...) मुखरता से S1। यहाँ ai और bi सभी के लिए समान हैं। उदाहरण के लिए, दो कथन समानांतर हैं - राम कार चाहते थे। श्याम को पैसे चाहिए थे।

विस्तार

यह एक ही प्रस्ताव P को दोनों कथनों से प्रभावित करता है - S0 तथा S1उदाहरण के लिए, दो कथन संबंध विस्तार को दर्शाते हैं: राम चंडीगढ़ से थे। श्याम केरल के रहने वाले थे।

अवसर

यह तब होता है जब राज्य के परिवर्तन का अनुमान लगाया जा सकता है S0, अंतिम स्थिति जिसमें से अनुमान लगाया जा सकता है S1और इसके विपरीत। उदाहरण के लिए, दो कथन संबंध अवसर को दर्शाते हैं: राम ने पुस्तक को उठाया। उसने श्याम को दे दिया।

इमारत पदानुक्रमित प्रवचन संरचना

पूरे प्रवचन के सामंजस्य को संबंध संबंधों के बीच पदानुक्रमित संरचना द्वारा भी माना जा सकता है। उदाहरण के लिए, निम्नलिखित मार्ग को पदानुक्रमित संरचना के रूप में दर्शाया जा सकता है -

  • S1 - राम बैंक में पैसा जमा करने गया था।

  • S2 - फिर वह श्याम की कपड़े की दुकान पर ट्रेन लेकर गया।

  • S3 - वह कुछ कपड़े खरीदना चाहता था।

  • S4 - उनके पास पार्टी के लिए नए कपड़े नहीं हैं।

  • S5 - वह श्याम से उसकी सेहत के बारे में भी बात करना चाहता था

संदर्भ समाधान

किसी भी प्रवचन से वाक्यों की व्याख्या एक और महत्वपूर्ण कार्य है और इसे प्राप्त करने के लिए हमें यह जानना होगा कि किस या किस इकाई के बारे में बात की जा रही है। यहाँ, व्याख्या संदर्भ प्रमुख तत्व है।Referenceएक इकाई या व्यक्ति को निरूपित करने के लिए भाषाई अभिव्यक्ति के रूप में परिभाषित किया जा सकता है। उदाहरण के लिए, मार्ग में, राम , एबीसी बैंक के प्रबंधक , देखा उसके दोस्त श्याम एक दुकान पर। वह उनसे मिलने गए, राम, उनका, वे संदर्भ जैसे भाषाई भाव हैं।

उसी नोट पर, reference resolution यह निर्धारित करने के कार्य के रूप में परिभाषित किया जा सकता है कि किन संस्थाओं को किस भाषाई अभिव्यक्ति द्वारा संदर्भित किया जाता है।

संदर्भ संकल्प में प्रयुक्त शब्दावली

हम संदर्भ समाधान में निम्नलिखित शब्दावली का उपयोग करते हैं -

  • Referring expression- संदर्भ को करने के लिए जिस प्राकृतिक भाषा की अभिव्यक्ति का उपयोग किया जाता है, उसे संदर्भित अभिव्यक्ति कहा जाता है। उदाहरण के लिए, ऊपर दिया गया मार्ग एक संदर्भित अभिव्यक्ति है।

  • Referent- यह वह इकाई है जिसे संदर्भित किया जाता है। उदाहरण के लिए, अंतिम दिए गए उदाहरण में राम एक संदर्भ है।

  • Corefer- जब दो अभिव्यक्तियों का उपयोग एक ही इकाई को संदर्भित करने के लिए किया जाता है, तो उन्हें मूल स्थान कहा जाता है। उदाहरण के लिए,Ram तथा he मूल हैं।

  • Antecedent- इस शब्द के पास दूसरे शब्द का उपयोग करने का लाइसेंस है। उदाहरण के लिए,Ram संदर्भ का पूर्ववर्ती है he

  • Anaphora & Anaphoric- इसे एक इकाई के संदर्भ के रूप में परिभाषित किया जा सकता है जिसे पहले वाक्य में पेश किया गया है। और, संदर्भित अभिव्यक्ति को एनाफॉरिक कहा जाता है।

  • Discourse model - वह मॉडल जिसमें उन संस्थाओं का प्रतिनिधित्व होता है जिन्हें प्रवचन में और जिस रिश्ते में वे लगे हुए हैं, में संदर्भित किया गया है।

जिक्र अभिव्यक्तियों के प्रकार

आइए अब हम विभिन्न प्रकार के संदर्भित भावों को देखते हैं। पाँच प्रकार के सन्दर्भ अभिव्यक्तियाँ नीचे वर्णित हैं -

अनिश्चित संज्ञा वाक्यांश

इस तरह के संदर्भ उन संस्थाओं का प्रतिनिधित्व करते हैं जो प्रवचन के संदर्भ में श्रोता के लिए नए हैं। उदाहरण के लिए - वाक्य में राम एक दिन कुछ खाना लाने के लिए चारों ओर गए थे - कुछ एक अनिश्चित संदर्भ है।

निश्चित संज्ञा वाक्यांश

उपरोक्त के विपरीत, इस तरह के संदर्भ उन संस्थाओं का प्रतिनिधित्व करते हैं जो प्रवचन के संदर्भ में श्रोता के लिए नए या पहचाने जाने योग्य नहीं हैं। उदाहरण के लिए, वाक्य में - मैं टाइम्स ऑफ इंडिया पढ़ता था - टाइम्स ऑफ इंडिया एक निश्चित संदर्भ है।

सवर्नाम

यह निश्चित संदर्भ का एक रूप है। उदाहरण के लिए, राम जितना जोर से हँसते थे, उतने ही जोर से हंसते थे। शब्दhe सर्वनाम संदर्भित अभिव्यक्ति का प्रतिनिधित्व करता है।

संकेतवाचक

ये सरल निश्चित सर्वनामों की तुलना में अलग तरह से प्रदर्शित और व्यवहार करते हैं। उदाहरण के लिए, यह और वह प्रदर्शनकारी सर्वनाम हैं।

नाम

यह अभिव्यक्ति का सबसे सरल प्रकार है। यह किसी व्यक्ति, संगठन और स्थान का भी नाम हो सकता है। उदाहरण के लिए, उपरोक्त उदाहरणों में, राम नाम-रेफरी अभिव्यक्ति है।

संदर्भ संकल्प कार्य

दो संदर्भ समाधान कार्यों का वर्णन नीचे किया गया है।

मूल संकल्प

यह एक पाठ में संदर्भित अभिव्यक्तियों को खोजने का कार्य है जो एक ही इकाई को संदर्भित करता है। सरल शब्दों में, यह मुख्य भाव खोजने का काम है। एक मूल भावों के समूह को कोरसेंशन चेन कहा जाता है। उदाहरण के लिए - वह, मुख्य प्रबंधक और उसका - ये उदाहरण के रूप में दिए गए पहले मार्ग में अभिव्यक्तियाँ हैं।

मूल संकल्प पर अड़चन

अंग्रेजी में, मूल संकल्प के लिए मुख्य समस्या यह सर्वनाम है। इसके पीछे का कारण यह है कि सर्वनाम के कई उपयोग हैं। उदाहरण के लिए, यह उसके और उसके जैसे बहुत कुछ संदर्भित कर सकता है। सर्वनाम यह उन चीजों को भी संदर्भित करता है जो विशिष्ट चीजों को संदर्भित नहीं करते हैं। उदाहरण के लिए, बारिश हो रही है। ये वाकई अच्छा हैं।

सर्वसमावेशी अनाफोरा संकल्प

मूल रिज़ॉल्यूशन के विपरीत, सर्वनाम अनाथ संकल्प एकल सर्वनाम के लिए पूर्वकाल को खोजने के कार्य के रूप में परिभाषित किया जा सकता है। उदाहरण के लिए, सर्वनाम उसका है और सर्वनाम अनाचार संकल्प का कार्य राम शब्द को खोजना है क्योंकि राम पूर्ववत् है।

टैगिंग एक प्रकार का वर्गीकरण है जिसे टोकन के विवरण के स्वचालित असाइनमेंट के रूप में परिभाषित किया जा सकता है। यहाँ वर्णनकर्ता को टैग कहा जाता है, जो कि किसी एक भाग, भाषण, शब्दार्थ संबंधी जानकारी इत्यादि का प्रतिनिधित्व कर सकता है।

अब, अगर हम पार्ट-ऑफ-स्पीच (PoS) टैगिंग के बारे में बात करते हैं, तो इसे भाषण के किसी एक भाग को दिए गए शब्द को असाइन करने की प्रक्रिया के रूप में परिभाषित किया जा सकता है। इसे आम तौर पर पीओएस टैगिंग कहा जाता है। सरल शब्दों में, हम कह सकते हैं कि पीओएस टैगिंग प्रत्येक शब्द को उसके उपयुक्त भाग के साथ वाक्य में लेबल करने का कार्य है। हम पहले से ही जानते हैं कि भाषण के कुछ हिस्सों में संज्ञा, क्रिया, क्रिया, विशेषण, सर्वनाम, संयोजन और उनकी उप-श्रेणियां शामिल हैं।

POS टैगिंग के अधिकांश नियम आधार POS टैगिंग, Stochastic POS टैगिंग और परिवर्तन आधारित टैगिंग के अंतर्गत आते हैं।

नियम आधारित पीओएस टैगिंग

टैगिंग की सबसे पुरानी तकनीकों में से एक नियम-आधारित पीओएस टैगिंग है। नियम-आधारित टैगर्स प्रत्येक शब्द को टैग करने के लिए संभव टैग प्राप्त करने के लिए शब्दकोश या लेक्सिकॉन का उपयोग करते हैं। यदि शब्द में एक से अधिक संभावित टैग हैं, तो नियम-आधारित टैगर्स सही टैग की पहचान करने के लिए हाथ से लिखे गए नियमों का उपयोग करते हैं। शब्द के पूर्ववर्ती के साथ-साथ निम्नलिखित शब्दों के साथ-साथ एक शब्द की भाषाई विशेषताओं का विश्लेषण करके नियम-आधारित टैगिंग में भी छूट का प्रदर्शन किया जा सकता है। उदाहरण के लिए, मान लें कि यदि किसी शब्द का पूर्ववर्ती शब्द लेख है तो शब्द को संज्ञा होना चाहिए।

जैसा कि नाम से पता चलता है, नियम-आधारित पीओएस टैगिंग में इस तरह की सभी जानकारी नियमों के रूप में कोडित होती है। ये नियम या तो हो सकते हैं -

  • प्रसंग-प्रतिमान नियम

  • या, नियमित अभिव्यक्ति के रूप में परिमित-राज्य ऑटोमेटा में संकलित किया गया है, जो शाब्दिक अस्पष्ट वाक्य प्रतिनिधित्व के साथ प्रतिच्छेदित है।

हम नियम आधारित POS को इसके दो-स्तरीय वास्तुकला द्वारा भी समझ सकते हैं -

  • First stage - पहले चरण में, यह प्रत्येक शब्द को संभावित भागों की एक सूची को निर्दिष्ट करने के लिए एक शब्दकोश का उपयोग करता है।

  • Second stage - दूसरे चरण में, यह प्रत्येक शब्द के लिए भाषण के एकल भाग के लिए सूची को छाँटने के लिए हाथ से लिखी विस्मृति नियमों की बड़ी सूची का उपयोग करता है।

नियम आधारित पीओएस टैगिंग के गुण

नियम आधारित POS टैगर्स में निम्नलिखित गुण होते हैं -

  • ये टैगर्स ज्ञान संचालित टैगर्स हैं।

  • नियम-आधारित पीओएस टैगिंग में नियम मैन्युअल रूप से बनाए गए हैं।

  • सूचना को नियमों के रूप में कोडित किया जाता है।

  • हमारे पास लगभग 1000 के आसपास कुछ सीमित नियम हैं।

  • नियम आधारित टैगर्स में स्पष्टता और भाषा मॉडलिंग को स्पष्ट रूप से परिभाषित किया गया है।

स्टोचस्टिक पीओएस टैगिंग

टैगिंग की एक अन्य तकनीक स्टोचैस्टिक पीओएस टैगिंग है। अब, यह सवाल उठता है कि कौन सा मॉडल स्टोचस्टिक हो सकता है। वह मॉडल जिसमें आवृत्ति या संभाव्यता (आंकड़े) शामिल होते हैं, स्टोचस्टिक कहला सकते हैं। पार्ट-ऑफ-स्पीच टैगिंग की समस्या के लिए विभिन्न दृष्टिकोणों की किसी भी संख्या को स्टोकेस्टिक टैगर के रूप में संदर्भित किया जा सकता है।

सबसे सरल स्टोकेस्टिक टैगर पीओएस टैगिंग के लिए निम्नलिखित दृष्टिकोण लागू करता है -

शब्द आवृत्ति दृष्टिकोण

इस दृष्टिकोण में, स्टोकेस्टिक टैगर्स संभावना के आधार पर शब्दों की अवहेलना करते हैं जो किसी विशेष टैग के साथ एक शब्द होता है। हम यह भी कह सकते हैं कि प्रशिक्षण सेट में शब्द के साथ सबसे अधिक बार सामना किया गया टैग उस शब्द के अस्पष्ट उदाहरण को सौंपा गया है। इस दृष्टिकोण के साथ मुख्य मुद्दा यह है कि यह टैग के अनजाने अनुक्रम प्राप्त कर सकता है।

टैग अनुक्रम संभावनाएं

यह स्टोकेस्टिक टैगिंग का एक और तरीका है, जहां टैगर होने वाले टैग के दिए गए अनुक्रम की संभावना की गणना करता है। इसे एन-ग्राम दृष्टिकोण भी कहा जाता है। इसे इसलिए कहा जाता है क्योंकि किसी दिए गए शब्द के लिए सबसे अच्छा टैग उस संभाव्यता से निर्धारित होता है जिस पर यह पिछले पिछले टैग के साथ होता है।

स्टोकेस्टिक पोस्ट टैगिंग के गुण

स्टोकेस्टिक POS टैगर्स में निम्नलिखित गुण होते हैं -

  • यह पीओएस टैगिंग टैग होने की संभावना पर आधारित है।

  • इसके लिए प्रशिक्षण कोष की आवश्यकता है

  • उन शब्दों के लिए कोई संभावना नहीं होगी जो कॉर्पस में मौजूद नहीं हैं।

  • यह अलग-अलग परीक्षण कॉर्पस (प्रशिक्षण कॉर्पस के अलावा) का उपयोग करता है।

  • यह सबसे सरल POS टैगिंग है क्योंकि यह प्रशिक्षण कोष में किसी शब्द के साथ जुड़े सबसे अधिक टैग को चुनता है।

परिवर्तन-आधारित टैगिंग

परिवर्तन आधारित टैगिंग को ब्रिल टैगिंग भी कहा जाता है। यह परिवर्तन-आधारित शिक्षण (टीबीएल) का एक उदाहरण है, जो दिए गए पाठ के लिए पीओएस के स्वचालित टैगिंग के लिए एक नियम-आधारित एल्गोरिथ्म है। टीबीएल, हमें एक पठनीय रूप में भाषाई ज्ञान रखने की अनुमति देता है, एक राज्य को दूसरे राज्य में परिवर्तन नियमों का उपयोग करके बदल देता है।

यह पिछले समझाए गए टैगर्स - नियम-आधारित और स्टोचस्टिक दोनों से प्रेरणा लेता है। यदि हम नियम-आधारित और परिवर्तन टैगर के बीच समानता देखते हैं, तो नियम-आधारित की तरह, यह भी नियमों पर आधारित है जो निर्दिष्ट करते हैं कि किन शब्दों को किन शब्दों में निर्दिष्ट करने की आवश्यकता है। दूसरी ओर, अगर हम स्टोचैस्टिक और ट्रांसफॉर्मर टेगर के बीच समानता को देखते हैं तो स्टोचस्टिक की तरह, यह मशीन लर्निंग तकनीक है जिसमें नियम स्वचालित रूप से डेटा से प्रेरित होते हैं।

परिवर्तन आधारित शिक्षण का कार्य (टीबीएल)

परिवर्तन-आधारित टैगर्स की कार्यप्रणाली और अवधारणा को समझने के लिए, हमें परिवर्तन-आधारित शिक्षण के कार्य को समझने की आवश्यकता है। TBL के कार्य को समझने के लिए निम्नलिखित चरणों पर विचार करें -

  • Start with the solution - टीबीएल आमतौर पर समस्या के कुछ समाधान के साथ शुरू होता है और चक्र में काम करता है।

  • Most beneficial transformation chosen - प्रत्येक चक्र में, टीबीएल सबसे फायदेमंद परिवर्तन का चयन करेगा।

  • Apply to the problem - अंतिम चरण में चुना गया परिवर्तन समस्या पर लागू किया जाएगा।

एल्गोरिथ्म बंद हो जाएगा जब चरण 2 में चयनित परिवर्तन या तो अधिक मूल्य नहीं जोड़ेगा या चयनित होने के लिए अधिक परिवर्तन नहीं होंगे। इस तरह की शिक्षा वर्गीकरण कार्यों में सबसे उपयुक्त है।

परिवर्तन-आधारित शिक्षा के लाभ (TBL)

टीबीएल के फायदे इस प्रकार हैं -

  • हम सरल नियमों के छोटे सेट सीखते हैं और ये नियम टैगिंग के लिए पर्याप्त हैं।

  • टीबीएल में डिबगिंग के साथ-साथ विकास बहुत आसान है क्योंकि सीखा नियमों को समझना आसान है।

  • टैगिंग में जटिलता इसलिए कम हो जाती है क्योंकि टीबीएल में मशीनिनल और मानव जनित नियमों के बीच अंतर होता है।

  • मार्कोव-मॉडल टैगर की तुलना में ट्रांसफ़ॉर्मेशन-आधारित टैगर बहुत तेज़ है।

परिवर्तन आधारित शिक्षा (TBL) के नुकसान

TBL के नुकसान इस प्रकार हैं -

  • परिवर्तन-आधारित शिक्षा (टीबीएल) टैग संभाव्यता प्रदान नहीं करती है।

  • टीबीएल में, विशेष रूप से बड़े कॉर्पोरा पर प्रशिक्षण का समय बहुत लंबा है।

हिडन मार्कोव मॉडल (HMM) POS टैगिंग

एचएमएम पीओएस टैगिंग में गहरी खुदाई करने से पहले, हमें छिपे हुए मार्कोव मॉडल (एचएमएम) की अवधारणा को समझना चाहिए।

हिडन मार्कोव मॉडल

एक एचएमएम मॉडल को दोहरी-एम्बेडेड स्टोचैस्टिक मॉडल के रूप में परिभाषित किया जा सकता है, जहां अंतर्निहित स्टोचस्टिक प्रक्रिया छिपी हुई है। यह छिपी हुई स्टोकेस्टिक प्रक्रिया केवल स्टोकेस्टिक प्रक्रियाओं के एक और सेट के माध्यम से देखी जा सकती है जो टिप्पणियों के अनुक्रम का उत्पादन करती है।

उदाहरण

उदाहरण के लिए, छिपे हुए सिक्के के प्रयोग का एक क्रम किया जाता है और हम केवल अवलोकन क्रम देखते हैं जिसमें सिर और पूंछ शामिल हैं। प्रक्रिया का वास्तविक विवरण - कितने सिक्कों का उपयोग किया गया, जिस क्रम में वे चुने गए हैं - वह हमसे छिपा हुआ है। सिर और पूंछ के इस क्रम को देखकर, हम अनुक्रम को समझाने के लिए कई एचएमएम का निर्माण कर सकते हैं। इस समस्या के लिए हिडन मार्कोव मॉडल का एक रूप निम्नलिखित है -

हमने माना कि एचएमएम में दो राज्य हैं और प्रत्येक राज्य अलग-अलग पक्षपाती सिक्के के चयन से मेल खाता है। निम्नलिखित मैट्रिक्स राज्य संक्रमण संभावनाएँ देता है -

$$A = \begin{bmatrix}a11 & a12 \\a21 & a22 \end{bmatrix}$$

यहाँ,

  • aij = एक राज्य से दूसरे राज्य में i से j तक संक्रमण की संभावना।

  • a11 + a12= 1 और एक 21 + एक 22 = 1

  • P1 = पहले सिक्के के पूर्वाभास अर्थात पहले सिक्के के पूर्वाग्रह।

  • P2 = दूसरे सिक्के के सिर की संभावना यानी दूसरे सिक्के का पूर्वाग्रह।

हम यह मानते हुए एक HMM मॉडल भी बना सकते हैं कि 3 सिक्के या अधिक हैं।

इस तरह, हम निम्नलिखित तत्वों द्वारा एचएमएम को चिह्नित कर सकते हैं -

  • एन, मॉडल में राज्यों की संख्या (उपरोक्त उदाहरण में एन = 2, केवल दो राज्य)।

  • एम, अलग-अलग टिप्पणियों की संख्या जो उपरोक्त उदाहरण में प्रत्येक राज्य के साथ दिखाई दे सकती है एम = 2, अर्थात, एच या टी)।

  • ए, राज्य संक्रमण संभावना वितरण - उपरोक्त उदाहरण में मैट्रिक्स ए।

  • पी, प्रत्येक राज्य में अवलोकन योग्य प्रतीकों की संभावना वितरण (हमारे उदाहरण पी 1 और पी 2 में)।

  • मैं, प्रारंभिक राज्य वितरण।

पीओएस टैगिंग के लिए एचएमएम का उपयोग

पीओएस टैगिंग प्रक्रिया टैग के अनुक्रम को खोजने की प्रक्रिया है जो किसी दिए गए शब्द अनुक्रम को उत्पन्न करने की सबसे अधिक संभावना है। हम इस पीओएस प्रक्रिया को एक हिडन मार्कोव मॉडल (एचएमएम) का उपयोग करके मॉडल कर सकते हैं, जहांtags हैं hidden states कि उत्पादन किया observable output, यानी, words

गणितीय रूप से, POS टैगिंग में, हम हमेशा एक टैग अनुक्रम (C) खोजने में रुचि रखते हैं जो अधिकतम हो -

P (C|W)

कहाँ पे,

सी = सी 1 , सी 2 , सी 3 ... सी टी

डब्ल्यू = डब्ल्यू , डब्ल्यू , डब्ल्यू , डब्ल्यू टी

सिक्के के दूसरी तरफ, तथ्य यह है कि हमें इस तरह के अनुक्रमों का यथोचित अनुमान लगाने के लिए सांख्यिकीय आंकड़ों की बहुत आवश्यकता है। हालाँकि, समस्या को आसान बनाने के लिए, हम कुछ मान्यताओं के साथ कुछ गणितीय परिवर्तनों को लागू कर सकते हैं।

पीओएस टैगिंग करने के लिए एचएमएम का उपयोग बायेसियन हस्तक्षेप का एक विशेष मामला है। इसलिए, हम बेयस नियम का उपयोग करके समस्या को शांत करने से शुरू करेंगे, जो कहता है कि उपर्युक्त सशर्त संभावना समान है -

(PROB (C1,..., CT) * PROB (W1,..., WT | C1,..., CT)) / PROB (W1,..., WT)

हम इन सभी मामलों में हर को समाप्त कर सकते हैं क्योंकि हम सी को खोजने में रुचि रखते हैं जो उपरोक्त मूल्य को अधिकतम करता है। इससे हमारे उत्तर पर कोई असर नहीं पड़ेगा। अब, सी को अधिकतम करने वाले अनुक्रम को खोजने के लिए हमारी समस्या कम हो जाती है -

PROB (C1,..., CT) * PROB (W1,..., WT | C1,..., CT) (1)

उपरोक्त अभिव्यक्ति में समस्या को कम करने के बाद भी, इसके लिए बड़ी मात्रा में डेटा की आवश्यकता होगी। हम समस्या को दूर करने के लिए उपरोक्त अभिव्यक्ति में दो संभावनाओं के बारे में उचित स्वतंत्रता धारणा बना सकते हैं।

पहला अनुमान

एक टैग की संभावना पिछले एक (बीग्राम मॉडल) या पिछले दो (ट्राइग्राम मॉडल) या पिछले एन टैग (एन-ग्राम मॉडल) पर निर्भर करती है, जो गणितीय रूप से निम्नानुसार समझाया जा सकता है -

PROB (C1,..., CT) = Πi=1..T PROB (Ci|Ci-n+1…Ci-1) (n-gram model)

PROB (C1,..., CT) = Πi=1..T PROB (Ci|Ci-1) (bigram model)

एक वाक्य की शुरुआत को प्रत्येक टैग के लिए प्रारंभिक संभावना मानकर हिसाब किया जा सकता है।

PROB (C1|C0) = PROB initial (C1)

दूसरा अनुमान

उपरोक्त समीकरण (1) में दूसरी संभावना यह अनुमान लगाकर लगाई जा सकती है कि एक शब्द पूर्ववर्ती या सफल श्रेणियों में शब्दों से स्वतंत्र एक श्रेणी में प्रकट होता है जिसे गणितीय रूप से निम्न प्रकार से समझाया जा सकता है -

PROB (W1,..., WT | C1,..., CT) = Πi=1..T PROB (Wi|Ci)

अब, उपरोक्त दो मान्यताओं के आधार पर, हमारा लक्ष्य एक अनुक्रम C को खोजने के लिए कम करता है जो अधिकतम होता है

Πi=1...T PROB(Ci|Ci-1) * PROB(Wi|Ci)

अब यहाँ जो प्रश्न उठता है, वह समस्या को उपरोक्त रूप में परिवर्तित कर रहा है जिसने वास्तव में हमारी मदद की है। जवाब है - हां, इसके पास है। यदि हमारे पास एक बड़ा टैग किया गया कोष है, तो उपरोक्त सूत्र में दो संभावनाओं की गणना की जा सकती है -

PROB (Ci=VERB|Ci-1=NOUN) = (# of instances where Verb follows Noun) / (# of instances where Noun appears) (2)

PROB (Wi|Ci) = (# of instances where Wi appears in Ci) /(# of instances where Ci appears) (3)

इस अध्याय में, हम प्राकृतिक भाषा प्रसंस्करण में प्राकृतिक भाषा की स्थापना पर चर्चा करेंगे। शुरुआत करने के लिए, आइए पहले समझते हैं कि प्राकृतिक भाषा व्याकरण क्या है।

प्राकृतिक भाषा व्याकरण

भाषाविज्ञान के लिए, भाषा मनमाना मुखर संकेतों का एक समूह है। हम कह सकते हैं कि भाषा रचनात्मक है, नियमों द्वारा शासित है, सहज और साथ ही सार्वभौमिक भी है। दूसरी ओर, यह मानवीय रूप से भी है। अलग-अलग लोगों के लिए भाषा की प्रकृति अलग-अलग होती है। भाषा की प्रकृति के बारे में बहुत गलत धारणा है। इसीलिए अस्पष्ट शब्द के अर्थ को समझना बहुत जरूरी है‘grammar’। भाषा विज्ञान में, व्याकरण शब्द को उन नियमों या सिद्धांतों के रूप में परिभाषित किया जा सकता है जिनकी सहायता से भाषा काम करती है। व्यापक अर्थों में, हम व्याकरण को दो श्रेणियों में विभाजित कर सकते हैं -

वर्णनात्मक व्याकरण

नियमों का समूह, जहाँ भाषाविज्ञान और व्याकरण बोलने वाले के व्याकरण की रचना करते हैं, वर्णनात्मक व्याकरण कहलाता है।

परिप्रेक्ष्य व्याकरण

यह व्याकरण की एक बहुत अलग भावना है, जो भाषा में शुद्धता का एक मानक बनाए रखने का प्रयास करती है। इस श्रेणी का भाषा के वास्तविक कामकाज से बहुत कम लेना-देना है।

भाषा के घटक

अध्ययन की भाषा को परस्पर संबंधित घटकों में विभाजित किया गया है, जो पारंपरिक और साथ ही भाषाई जांच के मनमाने विभाजन हैं। इन घटकों की व्याख्या इस प्रकार है -

ध्वनि विज्ञान

भाषा का सबसे पहला घटक स्वर विज्ञान है। यह एक विशेष भाषा के भाषण ध्वनियों का अध्ययन है। शब्द की उत्पत्ति का पता ग्रीक भाषा में लगाया जा सकता है, जहां 'फोन' का अर्थ ध्वनि या आवाज है। ध्वनि विज्ञान, ध्वनिविज्ञान का एक उपविभाग है, जो उनके उत्पादन, धारणा या उनके भौतिक गुणों के परिप्रेक्ष्य से मानव भाषा के भाषण ध्वनियों का अध्ययन है। आईपीए (अंतर्राष्ट्रीय ध्वन्यात्मक वर्णमाला) एक उपकरण है जो ध्वनिविज्ञान का अध्ययन करते समय नियमित रूप से मानव ध्वनियों का प्रतिनिधित्व करता है। आईपीए में, प्रत्येक लिखित प्रतीक एक और केवल एक भाषण ध्वनि और इसके विपरीत का प्रतिनिधित्व करता है।

स्वनिम

इसे ध्वनि की इकाइयों में से एक के रूप में परिभाषित किया जा सकता है जो किसी भाषा में एक शब्द को दूसरे से अलग करती है। भाषाई में, स्लैमेस को स्लैश के बीच लिखा जाता है। उदाहरण के लिए, फोनेमे/k/ किट, स्किट जैसे शब्दों में होता है।

आकृति विज्ञान

यह भाषा का दूसरा घटक है। यह किसी विशेष भाषा में शब्दों की संरचना और वर्गीकरण का अध्ययन है। शब्द की उत्पत्ति ग्रीक भाषा से हुई है, जहां 'मोर्फे' शब्द का अर्थ 'रूप' है। आकृति विज्ञान एक भाषा में शब्दों के निर्माण के सिद्धांतों को मानता है। दूसरे शब्दों में, ध्वनियाँ उपसर्गों, प्रत्ययों और जड़ों जैसी सार्थक इकाइयों में कैसे मिलती हैं। यह यह भी मानता है कि शब्दों को भाषण के कुछ हिस्सों में कैसे वर्गीकृत किया जा सकता है।

शब्दिम

भाषाविज्ञान में, रूपात्मक विश्लेषण की अमूर्त इकाई जो किसी एकल शब्द द्वारा लिए गए रूपों के एक सेट से मेल खाती है, लेक्सेम कहलाती है। जिस तरह से एक वाक्य में एक लेक्सेम का उपयोग किया जाता है वह उसके व्याकरणिक श्रेणी द्वारा निर्धारित किया जाता है। लेक्मे शब्द व्यक्तिगत शब्द या मल्टीवर्ड हो सकता है। उदाहरण के लिए, शब्द टॉक एक व्यक्तिगत शब्द लेक्मे का एक उदाहरण है, जिसमें कई व्याकरणिक संस्करण हो सकते हैं जैसे कि बातचीत, बातचीत और बातचीत। मल्टीवर्ड लेक्सेम को एक से अधिक ऑर्थोग्राफिक शब्दों से बनाया जा सकता है। उदाहरण के लिए, बोलो, ऊपर खींचो, आदि बहुशब्दीय शब्दांश के उदाहरण हैं।

वाक्य - विन्यास

यह भाषा का तीसरा घटक है। यह बड़ी इकाइयों में शब्दों के क्रम और व्यवस्था का अध्ययन है। इस शब्द का ग्रीक भाषा में पता लगाया जा सकता है, जहां शब्द suntassein का अर्थ है 'क्रम में रखना'। यह वाक्यांशों के प्रकार, वाक्यों और उनकी संरचना का अध्ययन करता है।

अर्थ विज्ञान

यह भाषा का चौथा घटक है। यह इस बात का अध्ययन है कि अर्थ को कैसे व्यक्त किया जाता है। अर्थ बाहरी दुनिया से संबंधित हो सकता है या वाक्य के व्याकरण से संबंधित हो सकता है। इस शब्द का ग्रीक भाषा में पता लगाया जा सकता है, जहां शब्द सेमिनिन का अर्थ है 'संकेत देना', 'दिखाना', 'संकेत'।

उपयोगितावाद

यह भाषा का पाँचवाँ घटक है। यह भाषा के कार्यों और संदर्भ में इसके उपयोग का अध्ययन है। शब्द की उत्पत्ति का पता ग्रीक भाषा से लगाया जा सकता है जहाँ 'प्राग्मा' शब्द का अर्थ 'विलेख', 'संबंध' है।

व्याकरणिक श्रेणियाँ

एक व्याकरणिक श्रेणी को भाषा के व्याकरण के भीतर इकाइयों या सुविधाओं के वर्ग के रूप में परिभाषित किया जा सकता है। ये इकाइयाँ भाषा के निर्माण खंड हैं और विशेषताओं का एक सामान्य समूह साझा करती हैं। व्याकरणिक श्रेणियों को व्याकरण संबंधी विशेषताएं भी कहा जाता है।

व्याकरणिक श्रेणियों की सूची नीचे वर्णित है -

संख्या

यह सबसे सरल व्याकरणिक श्रेणी है। हमारे पास इस श्रेणी से संबंधित दो शब्द हैं terms सिंसुलर और बहुवचन। एकवचन 'एक' की अवधारणा है जबकि, बहुवचन 'एक से अधिक' की अवधारणा है। उदाहरण के लिए, कुत्ते / कुत्ते, यह / ये।

लिंग

व्याकरणिक लिंग को व्यक्तिगत सर्वनाम और तीसरे व्यक्ति में भिन्नता द्वारा व्यक्त किया जाता है। व्याकरणिक लिंग के उदाहरण एकवचन हैं - वह, वह, वह; पहला और दूसरा व्यक्ति रूपों - मैं, हम और आप; 3 व्यक्ति बहुवचन रूप में, वे या तो सामान्य लिंग या नपुंसक लिंग हैं।

व्यक्ति

एक और सरल व्याकरणिक श्रेणी का व्यक्ति है। इसके तहत, निम्नलिखित तीन शब्दों को मान्यता दी गई है -

  • 1st person - जो व्यक्ति बोल रहा है उसे 1 व्यक्ति के रूप में मान्यता प्राप्त है।

  • 2nd person - वह व्यक्ति जो सुनने वाला है या जिस व्यक्ति से बात की गई है, उसे 2nd व्यक्ति के रूप में मान्यता दी गई है।

  • 3rd person - जिस व्यक्ति या चीज के बारे में हम बात कर रहे हैं, उसे तीसरे व्यक्ति के रूप में पहचाना जाता है।

मामला

यह सबसे कठिन व्याकरणिक श्रेणियों में से एक है। इसे एक संज्ञा वाक्यांश (एनपी) या संज्ञा वाक्यांश के क्रिया के संबंध के संकेत के रूप में परिभाषित किया जा सकता है। हमारे पास व्यक्तिगत और पूछताछ सर्वनामों में व्यक्त निम्नलिखित तीन मामले हैं -

  • Nominative case- यह विषय का कार्य है। उदाहरण के लिए, मैं, हम, आप, वह, वह, वे और जो नाममात्र हैं।

  • Genitive case- यह अधिकारी का कार्य है। उदाहरण के लिए, मेरे / मेरा, हमारे / हमारे, उसके, उसके / उसके, उसके, उनके / उनके, जिनके जननेंद्रिय हैं।

  • Objective case- यह वस्तु का कार्य है। उदाहरण के लिए, मैं, हम, आप, उसका, उसका, उनका, जिनका उद्देश्य है।

डिग्री

यह व्याकरणिक श्रेणी विशेषणों और क्रियाविशेषणों से संबंधित है। इसके निम्नलिखित तीन पद हैं -

  • Positive degree- यह एक गुणवत्ता को व्यक्त करता है। उदाहरण के लिए, बड़े, तेज, सुंदर सकारात्मक डिग्री हैं।

  • Comparative degree- यह एक दो वस्तुओं में गुणवत्ता की अधिक डिग्री या तीव्रता को व्यक्त करता है। उदाहरण के लिए, बड़ा, तेज, अधिक सुंदर तुलनात्मक डिग्री हैं।

  • Superlative degree- यह तीन या अधिक वस्तुओं में से एक में गुणवत्ता की सबसे बड़ी डिग्री या तीव्रता व्यक्त करता है। उदाहरण के लिए, सबसे बड़ी, सबसे तेज़, सबसे सुंदर अतिशय डिग्री हैं।

निश्चितता और अनिश्चितता

ये दोनों अवधारणाएं बहुत सरल हैं। निश्चितता जैसा कि हम जानते हैं कि एक रेफ़रेंट का प्रतिनिधित्व करता है, जिसे स्पीकर या श्रोता द्वारा जाना, जाना या पहचाना जाता है। दूसरी ओर, अनिश्चितता एक ऐसे संदर्भ का प्रतिनिधित्व करती है जो ज्ञात नहीं है, या अपरिचित है। संज्ञा के साथ एक लेख की सह-घटना में अवधारणा को समझा जा सकता है -

  • definite article-

  • indefinite article- ए / ए

काल

यह व्याकरणिक श्रेणी क्रिया से संबंधित है और इसे किसी क्रिया के समय के भाषाई संकेत के रूप में परिभाषित किया जा सकता है। एक तनाव एक संबंध स्थापित करता है क्योंकि यह बोलने के क्षण के संबंध में एक घटना के समय को इंगित करता है। मोटे तौर पर, यह निम्नलिखित तीन प्रकारों में से एक है -

  • Present tense- वर्तमान क्षण में किसी क्रिया के होने का प्रतिनिधित्व करता है। उदाहरण के लिए, राम कड़ी मेहनत करते हैं।

  • Past tense- वर्तमान क्षण से पहले एक कार्रवाई की घटना का प्रतिनिधित्व करता है। उदाहरण के लिए, बारिश हुई।

  • Future tense- वर्तमान क्षण के बाद एक क्रिया की घटना का प्रतिनिधित्व करता है। उदाहरण के लिए, यह बारिश होगी।

पहलू

इस व्याकरणिक श्रेणी को किसी घटना के दृश्य के रूप में परिभाषित किया जा सकता है। यह निम्न प्रकार का हो सकता है -

  • Perfective aspect- पहलू में दृश्य को संपूर्ण और पूर्ण के रूप में लिया जाता है। उदाहरण के लिए, सरल भूत कालyesterday I met my friend, अंग्रेजी में यह पूर्ण रूप से पूर्ण है क्योंकि यह इस घटना को पूर्ण और संपूर्ण मानता है।

  • Imperfective aspect- दृश्य को पहलू में चल रहे और अधूरे के रूप में लिया जाता है। उदाहरण के लिए, वर्तमान पार्टिकल जैसे कालI am working on this problem, अंग्रेजी में यह अपूर्ण है क्योंकि यह घटना को अपूर्ण और चालू मानता है।

मनोदशा

यह व्याकरणिक श्रेणी को परिभाषित करना थोड़ा मुश्किल है लेकिन इसे केवल बोलने वाले के रवैये के संकेत के रूप में कहा जा सकता है कि वह क्या बात कर रहा है। यह क्रिया की व्याकरणिक विशेषता भी है। यह व्याकरणिक काल और व्याकरणिक पहलू से अलग है। मनोदशा के उदाहरण सांकेतिक, प्रश्नवाचक, अत्यावश्यक, निषेधाज्ञा, पराधीन, संभावित, विकल्पात्मक, जेरुन्ड और प्रतिभागी हैं।

समझौता

इसे कंसर्ड भी कहा जाता है। यह तब होता है जब एक शब्द दूसरे शब्दों पर निर्भर करता है जिससे वह संबंधित है। दूसरे शब्दों में, इसमें कुछ व्याकरणिक श्रेणी के मान को अलग-अलग शब्दों या भाषण के भाग के बीच सहमत करना शामिल है। अनुवर्ती अन्य व्याकरणिक श्रेणियों पर आधारित समझौते हैं -

  • Agreement based on Person- यह विषय और क्रिया के बीच का समझौता है। उदाहरण के लिए, हम हमेशा "I am" और "He" का उपयोग करते हैं, लेकिन कभी भी "I am" और "I" नहीं होते हैं।

  • Agreement based on Number- यह समझौता विषय और क्रिया के बीच है। इस मामले में, पहले व्यक्ति एकवचन, दूसरे व्यक्ति बहुवचन और इतने पर के लिए विशिष्ट क्रिया रूप हैं। उदाहरण के लिए, पहला व्यक्ति एकवचन: मैं वास्तव में हूँ, दूसरा व्यक्ति बहुवचन: हम वास्तव में हैं, तीसरा व्यक्ति एकवचन: लड़का गाता है, तीसरा व्यक्ति बहुवचन: लड़के गाते हैं।

  • Agreement based on Gender- अंग्रेजी में, सर्वनाम और पूर्वकाल के बीच लिंग में समझौता है। उदाहरण के लिए, वह अपने गंतव्य पर पहुंचा। जहाज अपने गंतव्य पर पहुँच गया।

  • Agreement based on Case- इस तरह का समझौता अंग्रेजी की महत्वपूर्ण विशेषता नहीं है। उदाहरण के लिए, जो पहले आया था - वह या उसकी बहन?

स्पोकन लैंग्वेज सिंटेक्स

लिखित अंग्रेजी और बोली जाने वाली अंग्रेजी व्याकरण में कई सामान्य विशेषताएं हैं लेकिन इसके साथ ही, वे कई पहलुओं में भी भिन्न हैं। निम्नलिखित विशेषताएं बोली जाने वाली और लिखित अंग्रेजी व्याकरण के बीच अंतर करती हैं -

मतभेद और मरम्मत

यह हड़ताली विशेषता बोली जाने वाली और लिखित अंग्रेजी व्याकरण को एक दूसरे से अलग बनाती है। इसे व्यक्तिगत रूप से अक्षमताओं की घटना और सामूहिक रूप से मरम्मत की घटनाओं के रूप में जाना जाता है। विवादों में निम्नलिखित का उपयोग शामिल है -

  • Fillers words- कभी-कभी वाक्य के बीच में, हम कुछ भराव शब्दों का उपयोग करते हैं। उन्हें फिलर पॉज़ का भराव कहा जाता है। ऐसे शब्दों के उदाहरण उह और उम हैं।

  • Reparandum and repair- वाक्य के बीच में शब्दों के दोहराए जाने वाले खंड को पुनर्मूल्यांकन कहा जाता है। उसी खंड में, परिवर्तित शब्द को मरम्मत कहा जाता है। इसे समझने के लिए निम्नलिखित उदाहरण पर विचार करें -

Does ABC airlines offer any one-way flights uh one-way fares for 5000 rupees?

उपरोक्त वाक्य में, वन-वे फ्लाइट एक रिपारडम है और वन-वे फ्लाइट एक मरम्मत है।

पुनरारंभ

भराव रोक के बाद, पुनरारंभ होता है। उदाहरण के लिए, उपरोक्त वाक्य में, पुनरारंभ तब होता है जब स्पीकर एक तरफ़ा उड़ानों के बारे में पूछना शुरू कर देता है, फिर रुक जाता है, स्वयं को फ़िलर ठहराव द्वारा सही करता है और फिर एक तरफ़ा किराए के बारे में पूछना शुरू करता है।

शब्द के टुकड़े

कभी-कभी हम वाक्यों को शब्दों के छोटे टुकड़ों के साथ बोलते हैं। उदाहरण के लिए,wwha-what is the time? यहाँ शब्द w-wha शब्द के टुकड़े हैं।

सूचना पुनर्प्राप्ति (आईआर) को एक सॉफ्टवेयर प्रोग्राम के रूप में परिभाषित किया जा सकता है जो संगठन, भंडारण, पुनर्प्राप्ति और दस्तावेज़ रिपॉजिटरी से विशेष रूप से पाठ्य सूचना के मूल्यांकन का मूल्यांकन करता है। सिस्टम उपयोगकर्ताओं को उन सूचनाओं को खोजने में सहायता करता है जिनकी उन्हें आवश्यकता होती है लेकिन यह स्पष्ट रूप से प्रश्नों के उत्तर नहीं देता है। यह दस्तावेजों के अस्तित्व और स्थान को सूचित करता है जिसमें आवश्यक जानकारी शामिल हो सकती है। उपयोगकर्ता की आवश्यकता को पूरा करने वाले दस्तावेजों को प्रासंगिक दस्तावेज कहा जाता है। एक संपूर्ण IR सिस्टम केवल प्रासंगिक दस्तावेज़ पुनः प्राप्त करेगा।

निम्नलिखित चित्र की सहायता से, हम सूचना पुनर्प्राप्ति (IR) की प्रक्रिया को समझ सकते हैं -

उपरोक्त आरेख से यह स्पष्ट है कि एक उपयोगकर्ता जिसे जानकारी की आवश्यकता है, उसे प्राकृतिक भाषा में क्वेरी के रूप में एक अनुरोध तैयार करना होगा। फिर आईआर सिस्टम आवश्यक जानकारी के बारे में, दस्तावेजों के रूप में, प्रासंगिक आउटपुट को पुनः प्राप्त करके जवाब देगा।

सूचना पुनर्प्राप्ति (आईआर) प्रणाली में शास्त्रीय समस्या

IR शोध का मुख्य लक्ष्य दस्तावेजों के भंडार से जानकारी प्राप्त करने के लिए एक मॉडल विकसित करना है। यहां, हम एक शास्त्रीय समस्या पर चर्चा करने जा रहे हैं, जिसका नाम हैad-hoc retrieval problemआईआर प्रणाली से संबंधित है।

तदर्थ पुनर्प्राप्ति में, उपयोगकर्ता को आवश्यक जानकारी का वर्णन करने वाली प्राकृतिक भाषा में एक क्वेरी दर्ज करनी चाहिए। फिर आईआर सिस्टम वांछित जानकारी से संबंधित आवश्यक दस्तावेज वापस कर देगा। उदाहरण के लिए, मान लें कि हम इंटरनेट पर कुछ खोज रहे हैं और यह कुछ सटीक पृष्ठ देता है जो हमारी आवश्यकता के अनुसार प्रासंगिक हैं लेकिन कुछ गैर-प्रासंगिक पृष्ठ भी हो सकते हैं। यह तदर्थ पुनर्प्राप्ति समस्या के कारण है।

एड-हॉक रिट्रीवल के पहलू

अनुगमन तदर्थ पुनर्प्राप्ति के कुछ पहलू हैं जो आईआर शोध में संबोधित किए गए हैं -

  • प्रासंगिक फ़ीडबैक की सहायता से उपयोगकर्ता किसी क्वेरी के मूल सूत्रीकरण को कैसे सुधार सकते हैं?

  • डेटाबेस मर्जिंग को कैसे लागू किया जाए, यानी अलग-अलग टेक्स्ट डेटाबेस के परिणामों को एक परिणाम सेट में कैसे जोड़ा जा सकता है?

  • आंशिक रूप से दूषित डेटा को कैसे संभालें? कौन से मॉडल उसी के लिए उपयुक्त हैं?

सूचना पुनर्प्राप्ति (आईआर) मॉडल

गणितीय रूप से, कई वैज्ञानिक क्षेत्रों में मॉडल का उपयोग वास्तविक दुनिया में कुछ घटना को समझने के उद्देश्य से किया जाता है। सूचना पुनर्प्राप्ति का एक मॉडल भविष्यवाणी करता है और बताता है कि किसी उपयोगकर्ता को दी गई क्वेरी की प्रासंगिकता में क्या मिलेगा। IR मॉडल मूल रूप से एक पैटर्न है जो पुनर्प्राप्ति प्रक्रिया के उपर्युक्त पहलुओं को परिभाषित करता है और इसमें निम्नलिखित शामिल हैं -

  • दस्तावेजों के लिए एक मॉडल।

  • प्रश्नों के लिए एक मॉडल।

  • एक मेल फ़ंक्शन जो दस्तावेज़ों के प्रश्नों की तुलना करता है।

गणितीय रूप से, एक पुनर्प्राप्ति मॉडल में शामिल हैं -

D - दस्तावेजों के लिए प्रतिनिधित्व।

R - प्रश्नों के लिए प्रतिनिधित्व।

F - उनके बीच संबंधों के साथ-साथ डी, क्यू के लिए मॉडलिंग की रूपरेखा।

R (q,di)- एक समानता फ़ंक्शन जो क्वेरी के संबंध में दस्तावेजों का आदेश देता है। इसे रैंकिंग भी कहा जाता है।

सूचना पुनर्प्राप्ति के प्रकार (आईआर) मॉडल

एक सूचना मॉडल (IR) मॉडल को निम्नलिखित तीन मॉडलों में वर्गीकृत किया जा सकता है -

क्लासिकल IR मॉडल

आईआर मॉडल को लागू करना सबसे सरल और आसान है। यह मॉडल गणितीय ज्ञान पर आधारित है जिसे आसानी से पहचाना और समझा गया था। बूलियन, वेक्टर और प्रोबेबिलिस्टिक तीन शास्त्रीय आईआर मॉडल हैं।

गैर-शास्त्रीय आईआर मॉडल

यह पूरी तरह से शास्त्रीय आईआर मॉडल के विपरीत है। इस तरह के आईआर मॉडल समानता, संभावना, बूलियन संचालन के अलावा अन्य सिद्धांतों पर आधारित हैं। सूचना तर्क मॉडल, स्थिति सिद्धांत मॉडल और इंटरैक्शन मॉडल गैर-शास्त्रीय आईआर मॉडल के उदाहरण हैं।

वैकल्पिक आईआर मॉडल

यह कुछ अन्य क्षेत्रों से कुछ विशिष्ट तकनीकों का उपयोग करने वाले शास्त्रीय आईआर मॉडल की वृद्धि है। क्लस्टर मॉडल, फ़ज़ी मॉडल और अव्यक्त अर्थ इंडेक्सिंग (LSI) मॉडल वैकल्पिक IR मॉडल का उदाहरण हैं।

सूचना पुनर्प्राप्ति (आईआर) प्रणालियों की डिजाइन सुविधाएँ

आइए अब हम IR सिस्टम की डिज़ाइन विशेषताओं के बारे में जानें -

उलटा सूचकांक

अधिकांश IR सिस्टम की प्राथमिक डेटा संरचना उल्टे सूचकांक के रूप में होती है। हम एक औंधा सूचकांक को एक डेटा संरचना के रूप में परिभाषित कर सकते हैं जो सूची, हर शब्द के लिए, सभी दस्तावेज जो इसमें होते हैं और दस्तावेज़ में आवृत्तियों की आवृत्ति होती है। किसी क्वेरी शब्द के 'हिट्स' को खोजना आसान बनाता है।

शब्द उन्मूलन बंद करो

स्टॉप शब्द वे उच्च आवृत्ति वाले शब्द हैं जिन्हें समझा जाता है कि वे खोज के लिए उपयोगी नहीं हैं। उनके पास शब्दार्थ भार कम है। इस तरह के सभी शब्द एक सूची में हैं जिन्हें स्टॉप लिस्ट कहा जाता है। उदाहरण के लिए, लेख "a", "a", "the और prepositions जैसे" in "," of "," for "," at "आदि स्टॉप शब्दों के उदाहरण हैं। स्टॉप लिस्ट द्वारा उल्टे सूचकांक का आकार काफी कम किया जा सकता है। जिपफ के कानून के अनुसार, कुछ दर्जन शब्दों को कवर करने वाली स्टॉप लिस्ट उल्टे सूचकांक के आकार को लगभग आधा कर देती है। दूसरी ओर, कभी-कभी स्टॉप शब्द का उन्मूलन शब्द के उन्मूलन का कारण हो सकता है जो खोज के लिए उपयोगी है। उदाहरण के लिए, यदि हम "विटामिन ए" से वर्णमाला "ए" को खत्म करते हैं तो इसका कोई महत्व नहीं होगा।

स्टेमिंग

रूपात्मक विश्लेषण का सरलीकृत रूप, स्टेमिंग, शब्दों के सिरों को काटकर शब्दों के आधार रूप को निकालने की विधर्मी प्रक्रिया है। उदाहरण के लिए, हंसते हुए, हंसते हुए, हंसते हुए शब्दों को मूल शब्द हंसी के लिए उपजाया जाएगा।

हमारे बाद के अनुभागों में, हम कुछ महत्वपूर्ण और उपयोगी आईआर मॉडल के बारे में चर्चा करेंगे।

बूलियन मॉडल

यह सबसे पुराना सूचना पुनर्प्राप्ति (IR) मॉडल है। मॉडल सेट सिद्धांत और बूलियन बीजगणित पर आधारित है, जहां दस्तावेज़ शर्तों के सेट हैं और शब्द शर्तों पर बूलियन अभिव्यक्ति हैं। बुलियन मॉडल को इस रूप में परिभाषित किया जा सकता है -

  • D- शब्दों का एक सेट, अर्थात्, एक दस्तावेज़ में मौजूद अनुक्रमण शब्द। यहां, प्रत्येक शब्द या तो मौजूद है (1) या अनुपस्थित (0)।

  • Q - एक बूलियन अभिव्यक्ति, जहां शब्द सूचकांक की शर्तें हैं और ऑपरेटर तार्किक उत्पाद हैं - और, तार्किक राशि - या तार्किक अंतर - नहीं

  • F - बूलियन बीजगणित शब्दों के सेट के साथ-साथ दस्तावेजों के सेट पर

    अगर हम प्रासंगिक प्रतिक्रिया के बारे में बात करते हैं, तो बुलियन आईआर मॉडल में प्रासंगिकता की भविष्यवाणी को निम्नानुसार परिभाषित किया जा सकता है -

  • R - एक दस्तावेज़ को क्वेरी अभिव्यक्ति के लिए प्रासंगिक माना जाता है यदि और केवल अगर यह क्वेरी अभिव्यक्ति को संतुष्ट करता है जैसे -

((ℎ) ˄ ˄ ˜ ˄)

हम इस मॉडल को एक दस्तावेज़ के सेट की एक अस्पष्ट परिभाषा के रूप में एक क्वेरी शब्द द्वारा समझा सकते हैं।

उदाहरण के लिए, क्वेरी शब्द “economic” शब्द के साथ अनुक्रमित दस्तावेज़ों के सेट को परिभाषित करता है “economic”

अब, बूलियन और ऑपरेटर के साथ शब्दों के संयोजन के बाद परिणाम क्या होगा? यह एक दस्तावेज सेट को परिभाषित करेगा जो किसी भी एक पद के दस्तावेज़ सेट से छोटा या बराबर है। उदाहरण के लिए, शर्तों के साथ क्वेरी“social” तथा “economic”उन दस्तावेज़ों के दस्तावेज़ सेट करेगा जो दोनों शर्तों के साथ अनुक्रमित हैं। दूसरे शब्दों में, दोनों सेटों के प्रतिच्छेदन के साथ दस्तावेज़ सेट किया गया है।

अब, बूलियन या ऑपरेटर के साथ शब्दों के संयोजन के बाद परिणाम क्या होगा? यह एक दस्तावेज सेट को परिभाषित करेगा जो किसी भी एक पद के दस्तावेज़ सेट से बड़ा या बराबर है। उदाहरण के लिए, शर्तों के साथ क्वेरी“social” या “economic” उन दस्तावेजों के दस्तावेज़ सेट करेगा जो या तो शब्द के साथ अनुक्रमित हैं “social” या “economic”। दूसरे शब्दों में, दस्तावेज़ दोनों सेटों के मिलन के साथ निर्धारित होता है।

बूलियन मोड के लाभ

बुलियन मॉडल के फायदे इस प्रकार हैं -

  • सबसे सरल मॉडल, जो सेट पर आधारित है।

  • समझने और लागू करने में आसान।

  • यह केवल सटीक मिलान प्राप्त करता है

  • यह उपयोगकर्ता, सिस्टम पर नियंत्रण की भावना देता है।

बूलियन मॉडल के नुकसान

बूलियन मॉडल के नुकसान इस प्रकार हैं -

  • मॉडल की समानता फ़ंक्शन बूलियन है। इसलिए, कोई आंशिक मैच नहीं होगा। यह उपयोगकर्ताओं के लिए कष्टप्रद हो सकता है।

  • इस मॉडल में, बूलियन ऑपरेटर उपयोग एक महत्वपूर्ण शब्द की तुलना में बहुत अधिक प्रभाव रखता है।

  • क्वेरी भाषा अभिव्यंजक है, लेकिन यह जटिल भी है।

  • पुनः प्राप्त दस्तावेजों के लिए कोई रैंकिंग नहीं।

वेक्टर अंतरिक्ष मॉडल

बूलियन मॉडल के उपरोक्त नुकसानों के कारण, जेरार्ड सैलटन और उनके सहयोगियों ने एक मॉडल का सुझाव दिया, जो लुहान की समानता की कसौटी पर आधारित है। Luhn राज्यों द्वारा तैयार की गई समानता की कसौटी, "दिए गए तत्वों और उनके वितरण में अधिक से अधिक दो प्रतिनिधित्व सहमत हैं, उच्चतर समान जानकारी का प्रतिनिधित्व करने की संभावना होगी।"

वेक्टर स्पेस मॉडल के बारे में अधिक समझने के लिए निम्नलिखित महत्वपूर्ण बिंदुओं पर विचार करें -

  • सूचकांक निरूपण (दस्तावेज) और प्रश्नों को वैक्टर के रूप में माना जाता है जो एक उच्च आयामी यूक्लिडियन स्थान में एम्बेडेड होते हैं।

  • क्वेरी वेक्टर के लिए दस्तावेज़ वेक्टर की समानता माप आमतौर पर उनके बीच के कोण का कोसाइन होता है।

कोसाइन समानता समानता फॉर्मूला

कोसाइन एक सामान्यीकृत डॉट उत्पाद है, जिसकी गणना निम्नलिखित सूत्र की सहायता से की जा सकती है -

$$Score \lgroup \vec{d} \vec{q} \rgroup= \frac{\sum_{k=1}^m d_{k}\:.q_{k}}{\sqrt{\sum_{k=1}^m\lgroup d_{k}\rgroup^2}\:.\sqrt{\sum_{k=1}^m}m\lgroup q_{k}\rgroup^2 }$$

$$Score \lgroup \vec{d} \vec{q}\rgroup =1\:when\:d =q $$

$$Score \lgroup \vec{d} \vec{q}\rgroup =0\:when\:d\:and\:q\:share\:no\:items$$

क्वेरी और दस्तावेज़ के साथ वेक्टर अंतरिक्ष प्रतिनिधित्व

क्वेरी और दस्तावेजों को दो-आयामी वेक्टर अंतरिक्ष द्वारा दर्शाया गया है। शर्तें हैंcar तथा insurance। वेक्टर स्पेस में एक क्वेरी और तीन दस्तावेज़ हैं।

शर्तों कार और बीमा के जवाब में शीर्ष क्रम वाला दस्तावेज़ दस्तावेज़ होगा d2 क्योंकि कोण q तथा d2सबसे छोटा है। इसके पीछे कारण यह है कि दोनों अवधारणा कार और बीमा d 2 में मुख्य हैं और इसलिए उच्च भार हैं। दूसरी तरफ,d1 तथा d3 दोनों शब्दों का भी उल्लेख करें, लेकिन प्रत्येक मामले में, उनमें से एक दस्तावेज में केंद्रीय रूप से महत्वपूर्ण शब्द नहीं है।

शब्द भार

टर्म वेटिंग का मतलब है वेक्टर स्पेस की शर्तों पर वज़न। शब्द का वजन जितना अधिक होगा, अधिक से अधिक शब्द cosine पर प्रभाव होगा। अधिक वजन मॉडल में अधिक महत्वपूर्ण शब्दों को सौंपा जाना चाहिए। अब यह सवाल उठता है कि हम इसे कैसे मॉडल बना सकते हैं।

इसका एक तरीका यह है कि किसी दस्तावेज़ में शब्दों को उसके शब्द भार के रूप में गिना जाए। हालांकि, क्या आपको लगता है कि यह प्रभावी तरीका होगा?

एक अन्य विधि, जो अधिक प्रभावी है, का उपयोग करना है term frequency (tfij), document frequency (dfi) तथा collection frequency (cfi)

टर्म फ़्रीक्वेंसी (tf ij )

इसे होने वाली घटनाओं की संख्या के रूप में परिभाषित किया जा सकता है wi में dj। टर्म फ़्रीक्वेंसी द्वारा कैप्चर की गई जानकारी यह है कि दिए गए डॉक्यूमेंट के भीतर कोई शब्द कितना सलीके से है या दूसरे शब्दों में हम कह सकते हैं कि शब्द की फ़्रीक्वेंसी जितनी अधिक होगी, वह शब्द उस डॉक्यूमेंट की सामग्री का अच्छा विवरण है।

दस्तावेज़ आवृत्ति (df i )

यह संग्रह में दस्तावेजों की कुल संख्या के रूप में परिभाषित किया जा सकता है जिसमें मैं होता है। यह अनौपचारिकता का सूचक है। शब्दार्थ में केंद्रित शब्दों के विपरीत शब्दार्थ में कई बार शब्द केंद्रित रूप से आएंगे।

संग्रह फ़्रिक्वेंसी (cf i )

इसे होने वाली घटनाओं की कुल संख्या के रूप में परिभाषित किया जा सकता है wi संग्रह में।

गणित के अनुसार, $df_{i}\leq cf_{i}\:and\:\sum_{j}tf_{ij} = cf_{i}$

दस्तावेज़ फ़्रीक्वेंसी वेटिंग के रूप

आइए अब हम दस्तावेज़ आवृत्ति भार के विभिन्न रूपों के बारे में जानें। रूपों का वर्णन नीचे दिया गया है -

टर्म फ्रिक्वेंसी फैक्टर

इसे टर्म फ़्रीक्वेंसी फ़ैक्टर के रूप में भी वर्गीकृत किया गया है, जिसका अर्थ है कि यदि कोई शब्द t किसी दस्तावेज़ में अक्सर एक क्वेरी युक्त दिखाई देता है tउस दस्तावेज़ को पुनः प्राप्त करना चाहिए। हम शब्द का संयोजन कर सकते हैंterm frequency (tfij) तथा document frequency (dfi) निम्नानुसार एक वजन में -

$$weight \left ( i,j \right ) =\begin{cases}(1+log(tf_{ij}))log\frac{N}{df_{i}}\:if\:tf_{i,j}\:\geq1\\0 \:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\: if\:tf_{i,j}\:=0\end{cases}$$

यहां एन कुल दस्तावेजों की संख्या है।

उलटा दस्तावेज़ आवृत्ति (आईडीएफ)

यह डॉक्यूमेंट फ़्रीक्वेंसी वेटिंग का एक और रूप है जिसे अक्सर आइडीएफ वेटिंग या उलटा डॉक्यूमेंट फ़्रीक्वेंसी वेटिंग कहा जाता है। आइडीएफ वेटिंग का महत्वपूर्ण बिंदु यह है कि संग्रह में शब्द की कमी इसके महत्व का एक माप है और महत्व घटना की आवृत्ति के विपरीत आनुपातिक है।

गणित के अनुसार,

$$idf_{t} = log\left(1+\frac{N}{n_{t}}\right)$$

$$idf_{t} = log\left(\frac{N-n_{t}}{n_{t}}\right)$$

यहाँ,

एन = संग्रह में दस्तावेज

n t = टर्म टी वाले दस्तावेज

उपयोगकर्ता क्वेरी सुधार

किसी भी सूचना पुनर्प्राप्ति प्रणाली का प्राथमिक लक्ष्य सटीकता होना चाहिए - उपयोगकर्ता की आवश्यकता के अनुसार प्रासंगिक दस्तावेज तैयार करना। हालांकि, यहां जो सवाल उठता है वह यह है कि हम उपयोगकर्ता की क्वेरी गठन शैली में सुधार करके आउटपुट कैसे सुधार सकते हैं। निश्चित रूप से, किसी भी IR प्रणाली का उत्पादन उपयोगकर्ता की क्वेरी पर निर्भर है और एक अच्छी तरह से स्वरूपित क्वेरी अधिक सटीक परिणाम देगा। उपयोगकर्ता की मदद से उसकी / उसकी क्वेरी में सुधार कर सकते हैंrelevance feedback, किसी भी आईआर मॉडल का एक महत्वपूर्ण पहलू।

प्रासंगिकता प्रतिक्रिया

प्रासंगिकता प्रतिक्रिया उस आउटपुट को लेती है जो शुरू में दिए गए क्वेरी से वापस आ जाता है। इस प्रारंभिक आउटपुट का उपयोग उपयोगकर्ता जानकारी एकत्र करने और यह जानने के लिए किया जा सकता है कि क्या यह आउटपुट नई क्वेरी करने के लिए प्रासंगिक है या नहीं। फीडबैक को इस प्रकार वर्गीकृत किया जा सकता है -

स्पष्ट प्रतिक्रिया

इसे फीडबैक के रूप में परिभाषित किया जा सकता है जो प्रासंगिकता के मूल्यांकनकर्ताओं से प्राप्त होता है। ये मूल्यांकनकर्ता क्वेरी से प्राप्त दस्तावेज़ की प्रासंगिकता का भी संकेत देंगे। क्वेरी पुनर्प्राप्ति प्रदर्शन को बेहतर बनाने के लिए, प्रासंगिक प्रतिक्रिया जानकारी को मूल क्वेरी के साथ प्रक्षेपित करने की आवश्यकता है।

मूल्यांकनकर्ता या सिस्टम के अन्य उपयोगकर्ता निम्नलिखित प्रासंगिक प्रणालियों का उपयोग करके प्रासंगिकता को स्पष्ट रूप से इंगित कर सकते हैं -

  • Binary relevance system - यह प्रासंगिकता प्रतिक्रिया प्रणाली इंगित करती है कि एक दस्तावेज़ किसी प्रश्न के लिए प्रासंगिक (1) या अप्रासंगिक (0) है।

  • Graded relevance system- श्रेणीबद्ध प्रासंगिकता प्रतिक्रिया प्रणाली संख्याओं, अक्षरों या विवरणों का उपयोग करके ग्रेडिंग के आधार पर किसी दिए गए प्रश्न के लिए किसी दस्तावेज़ की प्रासंगिकता को इंगित करती है। विवरण "प्रासंगिक नहीं", "कुछ प्रासंगिक", "बहुत प्रासंगिक" या "प्रासंगिक" जैसा हो सकता है।

अप्रत्यक्ष प्रतिक्रिया

यह फीडबैक है जो उपयोगकर्ता के व्यवहार से जुड़ा हुआ है। व्यवहार में किसी दस्तावेज़ को देखने में बिताए गए उपयोगकर्ता की अवधि शामिल है, कौन सा दस्तावेज़ देखने के लिए चुना गया है और कौन सा नहीं है, पृष्ठ ब्राउज़िंग और स्क्रॉलिंग क्रियाएं, आदि। निहित प्रतिक्रिया के सबसे अच्छे उदाहरणों में से एक।dwell time, जो उपयोगकर्ता द्वारा खोज परिणाम में लिंक किए गए पृष्ठ को देखने में कितना समय खर्च करता है, इसका एक उपाय है।

छद्म प्रतिक्रिया

इसे ब्लाइंड फीडबैक भी कहा जाता है। यह स्वचालित स्थानीय विश्लेषण के लिए एक विधि प्रदान करता है। प्रासंगिकता प्रतिक्रिया का मैनुअल हिस्सा छद्म प्रासंगिकता प्रतिक्रिया की मदद से स्वचालित है ताकि उपयोगकर्ता को विस्तारित बातचीत के बिना पुनर्प्राप्ति प्रदर्शन में सुधार हो। इस प्रतिक्रिया प्रणाली का मुख्य लाभ यह है कि इसे स्पष्ट प्रासंगिकता प्रतिक्रिया प्रणाली की तरह मूल्यांकनकर्ताओं की आवश्यकता नहीं होती है।

इस प्रतिक्रिया को लागू करने के लिए निम्नलिखित चरणों पर विचार करें -

  • Step 1- सबसे पहले, प्रारंभिक प्रश्न द्वारा लौटाए गए परिणाम को प्रासंगिक परिणाम के रूप में लिया जाना चाहिए। प्रासंगिक परिणाम की सीमा शीर्ष 10-50 परिणामों में होनी चाहिए।

  • Step 2 - अब, उदाहरण के लिए आवृत्ति (tf) -inverse दस्तावेज़ आवृत्ति (आईडीएफ) वजन के लिए दस्तावेजों से शीर्ष 20-30 शर्तों का चयन करें।

  • Step 3- इन शर्तों को क्वेरी में जोड़ें और लौटे दस्तावेजों से मिलान करें। फिर सबसे प्रासंगिक दस्तावेज लौटाएं।

प्राकृतिक भाषा प्रसंस्करण (एनएलपी) एक उभरती हुई तकनीक है जो एआई के विभिन्न रूपों को प्राप्त करती है जिसे हम वर्तमान समय में देखते हैं और इसका उपयोग सहज और साथ ही मनुष्यों और मशीनों के बीच इंटरेक्टिव इंटरफ़ेस बनाने के लिए आज और कल के लिए एक सर्वोच्च प्राथमिकता बनी रहेगी। तेजी से संज्ञानात्मक अनुप्रयोगों। यहां, हम एनएलपी के कुछ बहुत ही उपयोगी अनुप्रयोगों के बारे में चर्चा करने जा रहे हैं।

मशीन अनुवाद

मशीनी अनुवाद (एमटी), एक स्रोत भाषा या पाठ को दूसरी भाषा में अनुवाद करने की प्रक्रिया, एनएलपी के सबसे महत्वपूर्ण अनुप्रयोगों में से एक है। हम मशीन के अनुवाद की प्रक्रिया को निम्न फ्लोचार्ट की सहायता से समझ सकते हैं -

मशीनी अनुवाद प्रणालियों के प्रकार

विभिन्न प्रकार के मशीन अनुवाद सिस्टम हैं। आइए हम देखें कि विभिन्न प्रकार क्या हैं।

द्विभाषी एमटी प्रणाली

द्विभाषी एमटी सिस्टम दो विशेष भाषाओं के बीच अनुवाद का उत्पादन करते हैं।

बहुभाषी एमटी सिस्टम

बहुभाषी एमटी सिस्टम भाषाओं के किसी भी जोड़े के बीच अनुवाद का उत्पादन करते हैं। वे प्रकृति में या तो एक-दिशात्मक या द्वि-दिशात्मक हो सकते हैं।

मशीनी अनुवाद के लिए दृष्टिकोण (MT)

आइए अब मशीनी अनुवाद के महत्वपूर्ण तरीकों के बारे में जानें। MT के दृष्टिकोण इस प्रकार हैं -

डायरेक्ट एमटी दृष्टिकोण

यह कम लोकप्रिय है लेकिन एमटी का सबसे पुराना तरीका है। इस दृष्टिकोण का उपयोग करने वाले सिस्टम SL (स्रोत भाषा) को सीधे TL (लक्ष्य भाषा) में अनुवाद करने में सक्षम हैं। ऐसी प्रणालियाँ प्रकृति में द्वि-भाषी और यूनी-दिशात्मक हैं।

परिधान दृष्टिकोण

सिस्टम जो कि परिधान के दृष्टिकोण का उपयोग करते हैं, SL को एक मध्यवर्ती भाषा में ट्रांसलेट करते हैं, जिसे ईन्टरलिंगुआ (IL) कहा जाता है और फिर IL से TL का अनुवाद करते हैं। निम्नलिखित MT पिरामिड की सहायता से परिधान दृष्टिकोण को समझा जा सकता है -

स्थानांतरण स्थानांतरण

इस दृष्टिकोण के साथ तीन चरण शामिल हैं।

  • पहले चरण में, स्रोत भाषा (एसएल) ग्रंथों को सार एसएल-उन्मुख अभ्यावेदन में बदल दिया जाता है।

  • दूसरे चरण में, एसएल-उन्मुख अभ्यावेदन को समतुल्य लक्ष्य भाषा (टीएल) -प्रतिष्ठित अभ्यावेदन में परिवर्तित किया जाता है।

  • तीसरे चरण में, अंतिम पाठ उत्पन्न होता है।

अनुभवजन्य एमटी दृष्टिकोण

यह एमटी के लिए एक उभरता हुआ दृष्टिकोण है। मूल रूप से, यह समानांतर कॉर्पोरा के रूप में कच्चे डेटा की बड़ी मात्रा का उपयोग करता है। कच्चे डेटा में पाठ और उनके अनुवाद शामिल हैं। एनालॉगिबेडेड, उदाहरण-आधारित, मेमोरी-आधारित मशीन अनुवाद तकनीक अनुभवजन्य MTapproach का उपयोग करती है।

फाइटिंग स्पाम

इन दिनों सबसे आम समस्याओं में से एक अवांछित ईमेल है। यह स्पैम फ़िल्टर को और अधिक महत्वपूर्ण बनाता है क्योंकि यह इस समस्या से बचाव की पहली पंक्ति है।

प्रमुख झूठे-सकारात्मक और झूठे-नकारात्मक मुद्दों पर विचार करके एनएलपी कार्यक्षमता का उपयोग करके स्पैम फ़िल्टरिंग प्रणाली विकसित की जा सकती है।

स्पैम फ़िल्टरिंग के लिए मौजूदा एनएलपी मॉडल

स्पैम फ़िल्टरिंग के लिए कुछ मौजूदा एनएलपी मॉडल निम्नलिखित हैं -

एन-ग्राम मॉडलिंग

एक एन-ग्राम मॉडल एक लंबी स्ट्रिंग का एक एन-चरित्र टुकड़ा है। इस मॉडल में, स्पैम ईमेल को संसाधित करने और उनका पता लगाने में कई अलग-अलग लंबाई के एन-ग्राम का उपयोग एक साथ किया जाता है।

शब्द स्टेमिंग

स्पैमर्स, स्पैम ईमेल के जेनरेटर, आमतौर पर अपने स्पैम में शब्दों पर हमला करने के एक या अधिक अक्षर बदलते हैं ताकि वे सामग्री-आधारित स्पैम फ़िल्टर को भंग कर सकें। इसीलिए हम कह सकते हैं कि यदि ईमेल में शब्दों या वाक्यांशों के अर्थ को नहीं समझा जा सकता है तो सामग्री-आधारित फ़िल्टर उपयोगी नहीं हैं। स्पैम फ़िल्टरिंग में इस तरह के मुद्दों को खत्म करने के लिए, एक नियम-आधारित शब्द स्टेमिंग तकनीक, जो कि एक जैसे दिखने वाले शब्दों और ध्वनि के साथ मेल खा सकती है, को विकसित किया जाता है।

बायेसियन वर्गीकरण

यह अब स्पैम फ़िल्टरिंग के लिए एक व्यापक रूप से इस्तेमाल की जाने वाली तकनीक बन गई है। किसी ईमेल में शब्दों की घटना को एक सांख्यिकीय तकनीक में अवांछित संदेशों (स्पैम) और वैध (हैम) ईमेल संदेशों के डेटाबेस में इसकी विशिष्ट घटना के खिलाफ मापा जाता है।

स्वचालित सारांश

इस डिजिटल युग में, सबसे मूल्यवान चीज डेटा है, या आप जानकारी कह सकते हैं। हालांकि, क्या हम वास्तव में उपयोगी होने के साथ-साथ आवश्यक जानकारी भी प्राप्त करते हैं? इसका उत्तर 'NO' है क्योंकि जानकारी अतिभारित है और ज्ञान और सूचना तक हमारी पहुंच इसे समझने की हमारी क्षमता से अधिक है। हमें स्वचालित पाठ संक्षेपण और सूचना की गंभीर आवश्यकता है क्योंकि इंटरनेट पर सूचनाओं की बाढ़ रुकने वाली नहीं है।

पाठ संक्षेप को लंबे पाठ दस्तावेज़ों के संक्षिप्त, सटीक सारांश बनाने की तकनीक के रूप में परिभाषित किया जा सकता है। स्वचालित पाठ संक्षेपण हमें कम समय में प्रासंगिक जानकारी के साथ मदद करेगा। प्राकृतिक भाषा प्रसंस्करण (एनएलपी) एक स्वचालित पाठ संक्षेप को विकसित करने में महत्वपूर्ण भूमिका निभाता है।

प्रश्न-उत्तर

प्राकृतिक भाषा प्रसंस्करण (एनएलपी) का एक और मुख्य अनुप्रयोग सवाल-जवाब करना है। खोज इंजन हमारी उंगलियों पर दुनिया की जानकारी डालते हैं, लेकिन वे अभी भी कमी कर रहे हैं जब यह उनकी प्राकृतिक भाषा में मानव द्वारा पोस्ट किए गए सवालों के जवाब देने की बात आती है। हमारे पास बड़ी तकनीकी कंपनियां हैं जैसे Google भी इस दिशा में काम कर रहा है।

सवाल-जवाब एअर इंडिया और एनएलपी के क्षेत्रों के भीतर एक कंप्यूटर विज्ञान का अनुशासन है। यह उन बिल्डिंग सिस्टम पर केंद्रित है जो मानव द्वारा अपनी प्राकृतिक भाषा में पोस्ट किए गए प्रश्नों का स्वचालित रूप से उत्तर देते हैं। एक कंप्यूटर प्रणाली जो प्राकृतिक भाषा को समझती है, उसमें मनुष्यों द्वारा लिखे गए वाक्यों को आंतरिक प्रतिनिधित्व में अनुवाद करने के लिए एक प्रोग्राम सिस्टम की क्षमता होती है, ताकि सिस्टम द्वारा मान्य उत्तरों को उत्पन्न किया जा सके। प्रश्नों के वाक्यविन्यास और अर्थ विश्लेषण करके सटीक उत्तर उत्पन्न किए जा सकते हैं। लेक्सिकल गैप, अस्पष्टता और बहुभाषावाद एनएलपी के लिए कुछ चुनौतियां हैं जो अच्छे प्रश्न उत्तर प्रणाली के निर्माण में हैं।

भावनाओं का विश्लेषण

प्राकृतिक भाषा प्रसंस्करण (एनएलपी) का एक अन्य महत्वपूर्ण अनुप्रयोग भावना विश्लेषण है। जैसा कि नाम से पता चलता है, भावना विश्लेषण का उपयोग कई पदों के बीच भावनाओं की पहचान करने के लिए किया जाता है। इसका उपयोग उस भावना की पहचान करने के लिए भी किया जाता है जहां भावनाओं को स्पष्ट रूप से व्यक्त नहीं किया जाता है। कंपनियां ऑनलाइन अपने ग्राहकों की राय और भावना की पहचान करने के लिए प्राकृतिक भाषा प्रसंस्करण (एनएलपी) के अनुप्रयोग, भावना विश्लेषण का उपयोग कर रही हैं। यह कंपनियों को यह समझने में मदद करेगा कि उनके ग्राहक उत्पादों और सेवाओं के बारे में क्या सोचते हैं। कंपनियां भावुक विश्लेषण की मदद से ग्राहक पदों से अपनी समग्र प्रतिष्ठा का न्याय कर सकती हैं। इस तरह, हम कह सकते हैं कि सरल ध्रुवीयता का निर्धारण करने से परे, भावना के संदर्भ में भावना का विश्लेषण हमें बेहतर तरीके से समझने में मदद करने के लिए समझ में आता है।

इस अध्याय में, हम पायथन का उपयोग करके भाषा प्रसंस्करण के बारे में जानेंगे।

निम्नलिखित विशेषताएं पायथन को अन्य भाषाओं से अलग बनाती हैं -

  • Python is interpreted - हमें इसे निष्पादित करने से पहले अपने पायथन कार्यक्रम को संकलित करने की आवश्यकता नहीं है क्योंकि दुभाषिया पायथन को रनटाइम पर संसाधित करता है।

  • Interactive - हम अपने पायथन कार्यक्रमों को लिखने के लिए दुभाषिया के साथ सीधे बातचीत कर सकते हैं।

  • Object-oriented - पायथन प्रकृति में ऑब्जेक्ट-ओरिएंटेड है और यह इस भाषा को प्रोग्राम लिखने में आसान बनाता है क्योंकि प्रोग्रामिंग की इस तकनीक की मदद से यह वस्तुओं के भीतर कोड को इनकैप्सुलेट करता है।

  • Beginner can easily learn - पायथन को शुरुआती भाषा भी कहा जाता है क्योंकि इसे समझना बहुत आसान है, और यह अनुप्रयोगों की एक विस्तृत श्रृंखला के विकास का समर्थन करता है।

आवश्यक शर्तें

पायथन 3 का नवीनतम संस्करण जारी किया गया है पायथन 3.7.1 विंडोज, मैक ओएस और लिनक्स ओएस के अधिकांश स्वादों के लिए उपलब्ध है।

  • खिड़कियों के लिए, हम Python को डाउनलोड और इंस्टॉल करने के लिए लिंक www.python.org/downloads/windows/ पर जा सकते हैं ।

  • मैक ओएस के लिए, हम www.python.org/downloads/mac-osx/ लिंक का उपयोग कर सकते हैं ।

  • लिनक्स के मामले में, लिनक्स के विभिन्न स्वाद नए पैकेजों की स्थापना के लिए विभिन्न पैकेज प्रबंधकों का उपयोग करते हैं।

    • उदाहरण के लिए, Ubuntu लिनक्स पर पायथन 3 स्थापित करने के लिए, हम टर्मिनल से निम्न कमांड का उपयोग कर सकते हैं -

$sudo apt-get install python3-minimal

पायथन प्रोग्रामिंग के बारे में अधिक अध्ययन करने के लिए, पायथन 3 मूल ट्यूटोरियल - पायथन 3 पढ़ें

एनएलटीके के साथ शुरुआत करना

हम अंग्रेजी भाषा में पाठ विश्लेषण करने के लिए पायथन लाइब्रेरी एनएलटीके (प्राकृतिक भाषा टूलकिट) का उपयोग करेंगे। नेचुरल लैंग्वेज टूलकिट (एनएलटीके) पायथन लाइब्रेरीज़ का एक संग्रह है जो विशेष रूप से अंग्रेजी जैसे प्राकृतिक भाषा के पाठ में पाए जाने वाले भाषण के हिस्सों की पहचान करने और टैग करने के लिए डिज़ाइन किया गया है।

एनएलटीके स्थापित करना

एनएलटीके का उपयोग शुरू करने से पहले, हमें इसे स्थापित करने की आवश्यकता है। निम्नलिखित आदेश की सहायता से, हम इसे अपने पायथन वातावरण में स्थापित कर सकते हैं -

pip install nltk

यदि हम एनाकोंडा का उपयोग कर रहे हैं, तो एनएलटीके के लिए एक कोंडा पैकेज निम्नलिखित कमांड का उपयोग करके बनाया जा सकता है -

conda install -c anaconda nltk

एनएलटीके डेटा डाउनलोड करना

एनएलटीके को स्थापित करने के बाद, एक और महत्वपूर्ण कार्य अपने प्रीसेट टेक्स्ट रिपॉजिटरी को डाउनलोड करना है ताकि इसे आसानी से उपयोग किया जा सके। हालांकि, इससे पहले हमें एनएलटीके आयात करने की आवश्यकता है जिस तरह से हम किसी अन्य पायथन मॉड्यूल को आयात करते हैं। निम्नलिखित आदेश हमें एनएलटीके आयात करने में मदद करेगा -

import nltk

अब, निम्नलिखित कमांड की मदद से एनएलटीके डेटा डाउनलोड करें -

nltk.download()

NLTK के सभी उपलब्ध पैकेजों को स्थापित करने में कुछ समय लगेगा।

अन्य आवश्यक पैकेज

कुछ अन्य पायथन पैकेज जैसे gensim तथा patternपाठ विश्लेषण के साथ-साथ एनएलटीके का उपयोग करके प्राकृतिक भाषा प्रसंस्करण अनुप्रयोगों के निर्माण के लिए भी बहुत आवश्यक हैं। पैकेज नीचे दिखाए अनुसार स्थापित किए जा सकते हैं -

gensim

gensim एक मजबूत सिमेंटिक मॉडलिंग लाइब्रेरी है जिसका उपयोग कई अनुप्रयोगों के लिए किया जा सकता है। हम निम्नलिखित आदेश द्वारा इसे स्थापित कर सकते हैं -

pip install gensim

प्रतिरूप

इसे बनाने के लिए इस्तेमाल किया जा सकता है gensimपैकेज ठीक से काम करते हैं। निम्न आदेश पैटर्न स्थापित करने में मदद करता है -

pip install pattern

tokenization

टोकन को दिए गए पाठ को तोड़ने की प्रक्रिया के रूप में परिभाषित किया जा सकता है, टोकन नामक छोटी इकाइयों में। शब्द, संख्या या विराम चिह्न टोकन हो सकते हैं। इसे शब्द विभाजन भी कहा जा सकता है।

उदाहरण

Input - बिस्तर और कुर्सी फर्नीचर के प्रकार हैं।

हमारे पास NLTK द्वारा प्रदान किए गए टोकन के लिए अलग-अलग पैकेज हैं। हम अपनी आवश्यकताओं के आधार पर इन पैकेजों का उपयोग कर सकते हैं। पैकेज और उनकी स्थापना का विवरण इस प्रकार है -

sent_tokenize पैकेज

इस पैकेज का उपयोग इनपुट टेक्स्ट को वाक्यों में विभाजित करने के लिए किया जा सकता है। हम निम्न कमांड का उपयोग करके इसे आयात कर सकते हैं -

from nltk.tokenize import sent_tokenize

word_tokenize पैकेज

इस पैकेज का उपयोग इनपुट टेक्स्ट को शब्दों में विभाजित करने के लिए किया जा सकता है। हम निम्न कमांड का उपयोग करके इसे आयात कर सकते हैं -

from nltk.tokenize import word_tokenize

WordPunctTokenizer पैकेज

इस पैकेज का उपयोग इनपुट टेक्स्ट को शब्दों और विराम चिह्नों में विभाजित करने के लिए किया जा सकता है। हम निम्न कमांड का उपयोग करके इसे आयात कर सकते हैं -

from nltk.tokenize import WordPuncttokenizer

स्टेमिंग

व्याकरणिक कारणों के कारण, भाषा में बहुत सारी विविधताएं शामिल हैं। विविधता इस अर्थ में कि भाषा, अंग्रेजी के साथ-साथ अन्य भाषाओं में भी, एक शब्द के विभिन्न रूप हैं। उदाहरण के लिए, जैसे शब्दdemocracy, democratic, तथा democratization। मशीन लर्निंग प्रोजेक्ट्स के लिए, मशीनों के लिए यह समझना बहुत ज़रूरी है कि ये अलग-अलग शब्द, जैसे कि एक ही आधार रूप हैं। इसीलिए पाठ का विश्लेषण करते समय शब्दों के आधार रूपों को निकालना बहुत उपयोगी है।

स्टेमिंग एक हेयुरिस्टिक प्रक्रिया है जो शब्दों के आधार रूपों को उनके सिरों को काटकर निकालने में मदद करती है।

एनएलटीके मॉड्यूल द्वारा प्रदान किए गए स्टेमिंग के लिए विभिन्न पैकेज निम्नानुसार हैं -

पोर्टरस्टेमर पैकेज

पोर्टर के एल्गोरिथ्म का उपयोग इस स्टेमिंग पैकेज द्वारा शब्दों के आधार रूप को निकालने के लिए किया जाता है। निम्नलिखित कमांड की मदद से, हम इस पैकेज को आयात कर सकते हैं -

from nltk.stem.porter import PorterStemmer

उदाहरण के लिए, ‘write’ शब्द का आउटपुट होगा ‘writing’ इस स्टेमर को इनपुट के रूप में दिया जाता है।

LancasterStemmer पैकेज

लैंकेस्टर के एल्गोरिथ्म का उपयोग शब्दों के आधार रूप को निकालने के लिए इस स्टेमिंग पैकेज द्वारा किया जाता है। निम्नलिखित आदेश की सहायता से, हम इस पैकेज को आयात कर सकते हैं -

from nltk.stem.lancaster import LancasterStemmer

उदाहरण के लिए, ‘writ’ शब्द का आउटपुट होगा ‘writing’ इस स्टेमर को इनपुट के रूप में दिया जाता है।

स्नोबॉल स्टीमर पैकेज

स्नोबॉल के एल्गोरिथ्म का उपयोग शब्दों के आधार रूप को निकालने के लिए इस स्टेमिंग पैकेज द्वारा किया जाता है। निम्नलिखित आदेश की सहायता से, हम इस पैकेज को आयात कर सकते हैं -

from nltk.stem.snowball import SnowballStemmer

उदाहरण के लिए, ‘write’ शब्द का आउटपुट होगा ‘writing’ इस स्टेमर को इनपुट के रूप में दिया जाता है।

lemmatization

यह शब्दों के आधार रूप को निकालने का एक और तरीका है, आम तौर पर शब्दावली और रूपात्मक विश्लेषण का उपयोग करके विभक्ति अंत को हटाने का लक्ष्य है। लेमैटाइजेशन के बाद, किसी भी शब्द के आधार रूप को लेम्मा कहा जाता है।

एनएलटीके मॉड्यूल लेमेट्रीकरण के लिए निम्नलिखित पैकेज प्रदान करता है -

WordNetLemmatizer पैकेज

यह पैकेज शब्द के आधार रूप को इस आधार पर निकालेगा कि यह संज्ञा के रूप में उपयोग किया जाता है या क्रिया के रूप में। इस पैकेज को आयात करने के लिए निम्नलिखित कमांड का उपयोग किया जा सकता है -

from nltk.stem import WordNetLemmatizer

गिनती पीओएस टैग-चंकिंग

भाषण के कुछ हिस्सों (पीओएस) और छोटे वाक्यांशों की पहचान चुन-चुन कर की जा सकती है। यह प्राकृतिक भाषा प्रसंस्करण में महत्वपूर्ण प्रक्रियाओं में से एक है। जैसा कि हम टोकन के निर्माण के लिए टोकनेशन की प्रक्रिया के बारे में जानते हैं, वास्तव में उन टोकन की लेबलिंग करना है। दूसरे शब्दों में, हम कह सकते हैं कि हम प्रक्रिया की सहायता से वाक्य की संरचना प्राप्त कर सकते हैं।

उदाहरण

निम्नलिखित उदाहरण में, हम एनओटीके पायथन मॉड्यूल का उपयोग करके, वाक्य में संज्ञा वाक्यांश विखंडन का पता लगाने वाले नन-फ्रास चूनकिंग को लागू करेंगे।

संज्ञा-वाक्यांश को लागू करने के लिए निम्नलिखित चरणों पर विचार करें -

Step 1: Chunk grammar definition

इस चरण में, हमें chunking के लिए व्याकरण को परिभाषित करने की आवश्यकता है। इसमें नियम शामिल होंगे, जिनका हमें पालन करना होगा।

Step 2: Chunk parser creation

अगला, हमें एक चकोर पार्सर बनाने की आवश्यकता है। यह व्याकरण को पार्स करेगा और आउटपुट देगा।

Step 3: The Output

इस चरण में, हमें आउटपुट एक ट्री फॉर्मेट में मिलेगा।

एनएलपी स्क्रिप्ट चला रहा है

NLTK पैकेज आयात करके प्रारंभ करें -

import nltk

अब, हमें वाक्य को परिभाषित करने की आवश्यकता है।

यहाँ,

  • डीटी निर्धारक है

  • VBP क्रिया है

  • जेजे विशेषण है

  • आईएन प्रीपोजिशन है

  • NN संज्ञा है

sentence = [("a", "DT"),("clever","JJ"),("fox","NN"),("was","VBP"),
   ("jumping","VBP"),("over","IN"),("the","DT"),("wall","NN")]

अगला, व्याकरण को नियमित अभिव्यक्ति के रूप में दिया जाना चाहिए।

grammar = "NP:{<DT>?<JJ>*<NN>}"

अब, हमें व्याकरण को पार्स करने के लिए एक पार्सर को परिभाषित करने की आवश्यकता है।

parser_chunking = nltk.RegexpParser(grammar)

अब, पार्सर निम्नानुसार वाक्य को पार्स करेगा -

parser_chunking.parse(sentence)

अगला, आउटपुट निम्न प्रकार से चर में होगा: -

Output = parser_chunking.parse(sentence)

अब, निम्न कोड आपको अपने उत्पादन को एक पेड़ के रूप में खींचने में मदद करेगा।

output.draw()