प्राकृतिक भाषा प्रवचन प्रसंस्करण

AI की सबसे कठिन समस्या कंप्यूटर द्वारा प्राकृतिक भाषा को संसाधित करना है या दूसरे शब्दों में, प्राकृतिक भाषा प्रसंस्करण कृत्रिम बुद्धिमत्ता की सबसे कठिन समस्या है। अगर हम एनएलपी में प्रमुख समस्याओं के बारे में बात करते हैं, तो एनएलपी में प्रमुख समस्याओं में से एक प्रवचन प्रक्रिया है - सिद्धांतों का निर्माण और मॉडल कि कैसे उच्चारण एक साथ मिलकर बनते हैं।coherent discourse। वास्तव में, भाषा में हमेशा फिल्मों की तरह अलग-थलग और असंबंधित वाक्यों के बजाय वाक्यों के संकुचित, संरचित और सुसंगत समूह होते हैं। वाक्यों के इन सुसंगत समूहों को प्रवचन कहा जाता है।

जुटना की अवधारणा

जुटना और प्रवचन संरचना कई मायनों में परस्पर जुड़े हुए हैं। सुसंगतता, अच्छे पाठ की संपत्ति के साथ, प्राकृतिक भाषा पीढ़ी प्रणाली के उत्पादन की गुणवत्ता का मूल्यांकन करने के लिए उपयोग किया जाता है। यहाँ जो प्रश्न उठता है वह यह है कि पाठ के सुसंगत होने का क्या अर्थ है? मान लीजिए कि हमने अखबार के हर पृष्ठ से एक वाक्य एकत्र किया, तो क्या यह एक प्रवचन होगा? बिलकूल नही। ऐसा इसलिए है क्योंकि ये वाक्य सुसंगतता का प्रदर्शन नहीं करते हैं। सुसंगत प्रवचन में निम्नलिखित गुण होने चाहिए -

कथनों में परस्पर संबंध

यदि इसके उच्चारण के बीच सार्थक संबंध हैं तो प्रवचन सुसंगत होगा। इस संपत्ति को सुसंगत संबंध कहा जाता है। उदाहरण के लिए, उच्चारण के बीच संबंध को सही ठहराने के लिए किसी प्रकार का स्पष्टीकरण होना चाहिए।

संस्थाओं के बीच संबंध

एक और संपत्ति जो एक प्रवचन को सुसंगत बनाती है, वह यह है कि संस्थाओं के साथ एक निश्चित प्रकार का संबंध होना चाहिए। इस तरह के सामंजस्य को इकाई-आधारित सुसंगतता कहा जाता है।

प्रवचन संरचना

प्रवचन के संबंध में एक महत्वपूर्ण प्रश्न यह है कि प्रवचन की संरचना किस प्रकार की होनी चाहिए। इस प्रश्न का उत्तर उस विभाजन पर निर्भर करता है जो हमने प्रवचन पर लागू किया था। प्रवचन विभाजन को बड़े प्रवचन के लिए संरचनाओं के प्रकार को निर्धारित करने के रूप में परिभाषित किया जा सकता है। प्रवचन विभाजन को लागू करना काफी कठिन है, लेकिन यह बहुत महत्वपूर्ण हैinformation retrieval, text summarization and information extraction अनुप्रयोगों की तरह।

प्रवचन विभाजन के लिए एल्गोरिदम

इस खंड में, हम प्रवचन विभाजन के लिए एल्गोरिदम के बारे में जानेंगे। एल्गोरिदम नीचे वर्णित हैं -

अनसुचित प्रवचन खंड

अनचाहे प्रवचन खंड के वर्ग को अक्सर रैखिक विभाजन के रूप में दर्शाया जाता है। हम एक उदाहरण की मदद से रैखिक विभाजन के कार्य को समझ सकते हैं। उदाहरण में, पाठ को बहु-पैरा इकाइयों में विभाजित करने का कार्य है; इकाइयाँ मूल पाठ के पारित होने का प्रतिनिधित्व करती हैं। ये एल्गोरिदम सामंजस्य पर निर्भर होते हैं जिन्हें कुछ भाषाई उपकरणों के उपयोग के रूप में परिभाषित किया जा सकता है ताकि पाठ इकाइयों को एक साथ जोड़ा जा सके। दूसरी ओर, लेक्सिकॉन सामंजस्य वह सामंजस्य है जो दो इकाइयों में समानार्थी शब्द के उपयोग के समान दो या दो से अधिक शब्दों के बीच संबंध द्वारा इंगित किया गया है।

पर्यवेक्षित प्रवचन विभाजन

पहले की विधि में कोई भी हाथ से लेबल वाली खंड सीमाएँ नहीं हैं। दूसरी ओर, पर्यवेक्षित प्रवचन विभाजन के लिए सीमा-लेबल प्रशिक्षण डेटा होना चाहिए। इसे हासिल करना बहुत आसान है। पर्यवेक्षित प्रवचन विभाजन में, प्रवचन मार्कर या क्यू शब्द महत्वपूर्ण भूमिका निभाते हैं। प्रवचन मार्कर या क्यू शब्द एक शब्द या वाक्यांश है जो प्रवचन संरचना को इंगित करने के लिए कार्य करता है। ये प्रवचनकर्ता डोमेन-विशिष्ट हैं।

पाठ जुटना

लेक्सिकल दोहराव एक प्रवचन में संरचना को खोजने का एक तरीका है, लेकिन यह सुसंगत प्रवचन होने की आवश्यकता को पूरा नहीं करता है। सुसंगत प्रवचन को प्राप्त करने के लिए, हमें विशेष रूप से सुसंगत संबंधों पर ध्यान देना चाहिए। जैसा कि हम जानते हैं कि सह-संबंध एक प्रवचन में कथनों के बीच संभावित संबंध को परिभाषित करता है। हेब्ब ने इस तरह के संबंधों का प्रस्ताव किया है: -

हम दो शब्द ले रहे हैं S0 तथा S1 दो संबंधित वाक्यों के अर्थ का प्रतिनिधित्व करने के लिए -

परिणाम

यह कहा जाता है कि राज्य शब्द द्वारा मुखर है S0 राज्य द्वारा इसके कारण की पुष्टि कर सकता है S1। उदाहरण के लिए, दो बयान रिश्ते के परिणाम को दर्शाते हैं: राम आग में फंस गया था। उसकी त्वचा जल गई।

व्याख्या

यह बताता है कि राज्य ने जोर दिया S1 राज्य द्वारा इसके कारण की पुष्टि कर सकता है S0। उदाहरण के लिए, दो कथन रिश्ते को दर्शाते हैं - राम ने श्याम के दोस्त के साथ लड़ाई की। वह पिया हुआ था।

समानांतर

यह पी (a1, a2,…) के जोर से उल्लंघन करता है S0 और जोर से (बी 1, बी 2, ...) S1। यहाँ ai और bi सभी के लिए समान हैं। उदाहरण के लिए, दो कथन समानांतर हैं - राम कार चाहते थे। श्याम को पैसे चाहिए थे।

विस्तार

यह एक ही प्रस्ताव P को दोनों कथनों से प्रभावित करता है - S0 तथा S1उदाहरण के लिए, दो कथन संबंध विस्तार को दर्शाते हैं: राम चंडीगढ़ से थे। श्याम केरल के रहने वाले थे।

अवसर

यह तब होता है जब राज्य के परिवर्तन का अनुमान लगाया जा सकता है S0, अंतिम स्थिति जिसमें से अनुमान लगाया जा सकता है S1और इसके विपरीत। उदाहरण के लिए, दो कथन संबंध अवसर को दर्शाते हैं: राम ने पुस्तक को उठाया। उसने श्याम को दे दिया।

इमारत पदानुक्रमित प्रवचन संरचना

पूरे प्रवचन के सामंजस्य को सह-संबंध संबंधों के बीच पदानुक्रमित संरचना द्वारा भी माना जा सकता है। उदाहरण के लिए, निम्नलिखित मार्ग को पदानुक्रमित संरचना के रूप में दर्शाया जा सकता है -

  • S1 - राम बैंक में पैसा जमा करने गया था।

  • S2 - फिर वह श्याम की कपड़े की दुकान पर ट्रेन लेकर गया।

  • S3 - वह कुछ कपड़े खरीदना चाहता था।

  • S4 - उनके पास पार्टी के लिए नए कपड़े नहीं हैं।

  • S5 - वह श्याम से उसकी सेहत के बारे में भी बात करना चाहता था

संदर्भ समाधान

किसी भी प्रवचन से वाक्यों की व्याख्या एक और महत्वपूर्ण कार्य है और इसे प्राप्त करने के लिए हमें यह जानना होगा कि किस या किस इकाई के बारे में बात की जा रही है। यहाँ, व्याख्या संदर्भ प्रमुख तत्व है।Referenceएक इकाई या व्यक्ति को निरूपित करने के लिए भाषाई अभिव्यक्ति के रूप में परिभाषित किया जा सकता है। उदाहरण के लिए, मार्ग में, राम , एबीसी बैंक के प्रबंधक , देखा उसके दोस्त श्याम एक दुकान पर। वह उनसे मिलने गए, राम, उनका, वे संदर्भ जैसे भाषाई भाव हैं।

उसी नोट पर, reference resolution यह निर्धारित करने के कार्य के रूप में परिभाषित किया जा सकता है कि किन संस्थाओं को किस भाषाई अभिव्यक्ति द्वारा संदर्भित किया जाता है।

संदर्भ संकल्प में प्रयुक्त शब्दावली

हम संदर्भ समाधान में निम्नलिखित शब्दावली का उपयोग करते हैं -

  • Referring expression- संदर्भ को करने के लिए जिस प्राकृतिक भाषा की अभिव्यक्ति का उपयोग किया जाता है, उसे संदर्भित अभिव्यक्ति कहा जाता है। उदाहरण के लिए, ऊपर दिया गया मार्ग एक संदर्भित अभिव्यक्ति है।

  • Referent- यह वह इकाई है जिसे संदर्भित किया जाता है। उदाहरण के लिए, अंतिम दिए गए उदाहरण में राम एक संदर्भ है।

  • Corefer- जब दो अभिव्यक्तियों का उपयोग एक ही इकाई को संदर्भित करने के लिए किया जाता है, तो उन्हें मूल स्थान कहा जाता है। उदाहरण के लिए,Ram तथा he मूल हैं।

  • Antecedent- इस शब्द के पास दूसरे शब्द का उपयोग करने का लाइसेंस है। उदाहरण के लिए,Ram संदर्भ का पूर्ववर्ती है he

  • Anaphora & Anaphoric- इसे एक इकाई के संदर्भ के रूप में परिभाषित किया जा सकता है जिसे पहले वाक्य में पेश किया गया है। और, रेफ़रिंग एक्सप्रेशन को एनोफ़ोरिक कहा जाता है।

  • Discourse model - वह मॉडल जिसमें उन संस्थाओं का प्रतिनिधित्व होता है जिन्हें प्रवचन में और जिस रिश्ते में वे लगे हुए हैं, में संदर्भित किया गया है।

जिक्र अभिव्यक्तियों के प्रकार

आइए अब हम विभिन्न प्रकार के संदर्भित भावों को देखते हैं। पाँच प्रकार के सन्दर्भ अभिव्यक्तियाँ नीचे वर्णित हैं -

अनिश्चित संज्ञा वाक्यांश

इस तरह का संदर्भ उन संस्थाओं का प्रतिनिधित्व करता है जो प्रवचन के संदर्भ में श्रोता के लिए नए हैं। उदाहरण के लिए - वाक्य में राम एक दिन कुछ खाना लाने के लिए चारों ओर गए थे - कुछ एक अनिश्चित संदर्भ है।

निश्चित संज्ञा वाक्यांश

उपरोक्त के विपरीत, इस तरह के संदर्भ उन संस्थाओं का प्रतिनिधित्व करते हैं जो प्रवचन के संदर्भ में श्रोता के लिए नए या पहचाने जाने योग्य नहीं हैं। उदाहरण के लिए, वाक्य में - मैं टाइम्स ऑफ इंडिया पढ़ता था - टाइम्स ऑफ इंडिया एक निश्चित संदर्भ है।

सवर्नाम

यह निश्चित संदर्भ का एक रूप है। उदाहरण के लिए, राम ने जितनी जोर से हंसी उड़ाई थी। शब्दhe सर्वनाम संदर्भित अभिव्यक्ति का प्रतिनिधित्व करता है।

संकेतवाचक

ये साधारण निश्चित सर्वनामों की तुलना में अलग तरह से प्रदर्शित और व्यवहार करते हैं। उदाहरण के लिए, यह और वह प्रदर्शनकारी सर्वनाम हैं।

नाम

यह अभिव्यक्ति का सबसे सरल प्रकार है। यह किसी व्यक्ति, संगठन और स्थान का भी नाम हो सकता है। उदाहरण के लिए, उपरोक्त उदाहरणों में, राम नाम-रेफरी अभिव्यक्ति है।

संदर्भ संकल्प कार्य

दो संदर्भ समाधान कार्य नीचे वर्णित हैं।

मूल संकल्प

यह एक पाठ में संदर्भित अभिव्यक्तियों को खोजने का कार्य है जो एक ही इकाई को संदर्भित करता है। सरल शब्दों में, यह मुख्य भाव खोजने का काम है। एक मूल भावों के समूह को कोरसेंशन चेन कहा जाता है। उदाहरण के लिए - वह, मुख्य प्रबंधक और उसका - ये उदाहरण के रूप में दिए गए पहले मार्ग में अभिव्यक्तियाँ हैं।

मूल संकल्प पर अड़चन

अंग्रेजी में, मूल संकल्प के लिए मुख्य समस्या यह सर्वनाम है। इसके पीछे कारण यह है कि सर्वनाम के कई उपयोग हैं। उदाहरण के लिए, यह उसके और उसके जैसे बहुत कुछ संदर्भित कर सकता है। सर्वनाम यह उन चीजों को भी संदर्भित करता है जो विशिष्ट चीजों को संदर्भित नहीं करते हैं। उदाहरण के लिए, बारिश हो रही है। ये वाकई अच्छा हैं।

सर्वव्यापी अनफोरा संकल्प

कोर रेजोल्यूशन के विपरीत, सर्वमान्य अनाफोरा रिज़ॉल्यूशन को एकल सर्वनाम के लिए एंटीकेडेंट खोजने के कार्य के रूप में परिभाषित किया जा सकता है। उदाहरण के लिए, सर्वनाम उसका है और सर्वनाम अनाचार संकल्प का कार्य राम शब्द को खोजना है क्योंकि राम पूर्ववत् है।