प्राकृतिक भाषा प्रसंस्करण - सिंथेटिक विश्लेषण

सिंथेटिक विश्लेषण या पार्सिंग या वाक्यविन्यास विश्लेषण एनएलपी का तीसरा चरण है। इस चरण का उद्देश्य सटीक अर्थ निकालना है, या आप पाठ से शब्दकोश अर्थ कह सकते हैं। सिंटैक्स विश्लेषण औपचारिक व्याकरण के नियमों की तुलना में अर्थपूर्णता के लिए पाठ की जांच करता है। उदाहरण के लिए, "हॉट आइस-क्रीम" जैसे वाक्य को सिमेंटिक विश्लेषक द्वारा अस्वीकार कर दिया जाएगा।

इस अर्थ में, वाक्यात्मक विश्लेषण या पार्सिंग को औपचारिक व्याकरण के नियमों के अनुरूप प्राकृतिक भाषा में प्रतीकों के तारों के विश्लेषण की प्रक्रिया के रूप में परिभाषित किया जा सकता है। शब्द की उत्पत्ति‘parsing’ लैटिन शब्द से है ‘pars’ जिसका मतलब है ‘part’

पार्सर की अवधारणा

इसका उपयोग पार्सिंग के कार्य को कार्यान्वित करने के लिए किया जाता है। इसे औपचारिक डेटा के अनुसार सही वाक्यविन्यास के लिए जाँच के बाद इनपुट डेटा (टेक्स्ट) लेने और इनपुट के संरचनात्मक प्रतिनिधित्व के लिए डिज़ाइन किए गए सॉफ़्टवेयर घटक के रूप में परिभाषित किया जा सकता है। यह आमतौर पर पार्स ट्री या एब्सट्रैक्ट सिंटैक्स ट्री या अन्य पदानुक्रमित संरचना के रूप में एक डेटा संरचना भी बनाता है।

पार्स की मुख्य भूमिकाओं में शामिल हैं -

  • किसी भी सिंटैक्स त्रुटि की रिपोर्ट करने के लिए।

  • सामान्य रूप से होने वाली त्रुटि से उबरने के लिए ताकि शेष कार्यक्रम का प्रसंस्करण जारी रखा जा सके।

  • पार्स ट्री बनाने के लिए।

  • प्रतीक तालिका बनाने के लिए।

  • मध्यवर्ती अभ्यावेदन (IR) का उत्पादन करने के लिए।

पार्सिंग के प्रकार

व्युत्पत्ति दो प्रकारों में पार्सिंग को विभाजित करती है -

  • टॉप-डाउन पार्सिंग

  • नीचे-ऊपर पार्सिंग

टॉप-डाउन पार्सिंग

इस तरह के पार्सिंग में, पार्सर स्टार्ट सिंबल से पार्स ट्री का निर्माण शुरू करता है और फिर स्टार्ट सिंबल को इनपुट में बदलने की कोशिश करता है। टॉपडाउन पार्सिंग का सबसे सामान्य रूप इनपुट को संसाधित करने के लिए पुनरावर्ती प्रक्रिया का उपयोग करता है। पुनरावर्ती वंश पार्सिंग का मुख्य नुकसान बैकट्रैकिंग है।

नीचे-ऊपर पार्सिंग

इस तरह के पार्सिंग में, पार्सर इनपुट प्रतीक के साथ शुरू होता है और पार्सर ट्री को स्टार्ट सिंबल तक बनाने की कोशिश करता है।

व्युत्पत्ति की अवधारणा

इनपुट स्ट्रिंग प्राप्त करने के लिए, हमें उत्पादन नियमों के अनुक्रम की आवश्यकता होती है। व्युत्पत्ति उत्पादन नियमों का एक समूह है। पार्सिंग के दौरान, हमें गैर-टर्मिनल को तय करने की आवश्यकता होती है, जिसे उत्पादन नियम तय करने के साथ-साथ गैर-टर्मिनल को प्रतिस्थापित किया जाना है।

व्युत्पत्ति के प्रकार

इस खंड में, हम दो प्रकार की व्युत्पत्तियों के बारे में जानेंगे, जिनका उपयोग यह तय करने के लिए किया जा सकता है कि किस गैर-टर्मिनल को उत्पादन नियम से बदला जाए -

वाम-सर्वाधिक व्युत्पत्ति

बाएं-सबसे व्युत्पन्न में, एक इनपुट के भावुक रूप को स्कैन किया जाता है और इसे बाईं ओर से दाईं ओर प्रतिस्थापित किया जाता है। इस मामले में भेजे जाने वाले रूप को बाएं-संवेदी रूप कहा जाता है।

राइट-सबसे व्युत्पत्ति

बाएं-सबसे व्युत्पन्न में, एक इनपुट के भावुक रूप को स्कैन किया जाता है और दाएं से बाएं से प्रतिस्थापित किया जाता है। इस मामले में भेजे जाने वाले रूप को सही-संवेदी रूप कहा जाता है।

पार्स ट्री का कॉन्सेप्ट

इसे व्युत्पत्ति के चित्रण चित्रण के रूप में परिभाषित किया जा सकता है। व्युत्पत्ति का प्रारंभ प्रतीक पार्स पेड़ की जड़ के रूप में कार्य करता है। प्रत्येक पार्स ट्री में, पत्ती नोड्स टर्मिनल हैं और आंतरिक नोड गैर-टर्मिनल हैं। पार्स ट्री की एक संपत्ति यह है कि इन-ऑर्डर ट्रैवर्सल मूल इनपुट स्ट्रिंग का उत्पादन करेगा।

व्याकरण की अवधारणा

व्याकरण अच्छी तरह से निर्मित कार्यक्रमों की वाक्यात्मक संरचना का वर्णन करने के लिए बहुत आवश्यक और महत्वपूर्ण है। साहित्यिक अर्थों में, वे प्राकृतिक भाषाओं में बातचीत के लिए वाक्यात्मक नियमों को निरूपित करते हैं। भाषाविज्ञान ने अंग्रेजी, हिंदी आदि प्राकृतिक भाषाओं की स्थापना के बाद से व्याकरण को परिभाषित करने का प्रयास किया है।

औपचारिक भाषाओं का सिद्धांत कंप्यूटर विज्ञान के क्षेत्र में मुख्य रूप से प्रोग्रामिंग भाषाओं और डेटा संरचना में भी लागू होता है। उदाहरण के लिए, 'सी' भाषा में, सटीक व्याकरण नियम बताता है कि सूचियों और कथनों से कैसे कार्य किए जाते हैं।

व्याकरण का एक गणितीय मॉडल द्वारा दिया गया था Noam Chomsky 1956 में, जो कंप्यूटर भाषाओं को लिखने के लिए प्रभावी है।

गणितीय रूप से, एक व्याकरण G को औपचारिक रूप से 4-टुपल (N, T, S, P) के रूप में लिखा जा सकता है -

  • N या VN = गैर-टर्मिनल प्रतीकों का सेट, अर्थात, चर।

  • T या = टर्मिनल प्रतीकों का सेट।

  • S = एस। एन जहां प्रतीक शुरू करें

  • Pटर्मिनलों के साथ-साथ गैर-टर्मिनलों के लिए उत्पादन नियमों को दर्शाता है। इसका रूप α → β है, जहां α और ∪ V N ∑ on पर तार हैं और α का कम से कम एक प्रतीक V N से संबंधित है

वाक्यांश संरचना या संविधान व्याकरण

नोम चॉम्स्की द्वारा प्रस्तुत वाक्यांश संरचना व्याकरण, निर्वाचन क्षेत्र के संबंध पर आधारित है। इसीलिए इसे निर्वाचन क्षेत्र व्याकरण भी कहा जाता है। यह निर्भरता व्याकरण के विपरीत है।

उदाहरण

निर्वाचन क्षेत्र व्याकरण का उदाहरण देने से पहले, हमें निर्वाचन क्षेत्र व्याकरण और निर्वाचन क्षेत्र संबंध के बारे में मूलभूत बिंदुओं को जानना होगा।

  • सभी संबंधित ढांचे निर्वाचन क्षेत्र के संबंध में वाक्य संरचना को देखते हैं।

  • निर्वाचन क्षेत्र का संबंध लैटिन के विषय-प्रधान विभाजन और ग्रीक व्याकरण से लिया गया है।

  • मूल खंड संरचना के संदर्भ में समझा जाता है noun phrase NP तथा verb phrase VP

हम वाक्य लिख सकते हैं “This tree is illustrating the constituency relation” निम्नानुसार है -

निर्भरता व्याकरण

यह निर्वाचन क्षेत्र के व्याकरण के विपरीत है और निर्भरता के संबंध पर आधारित है। इसे लुसिएन टेस्नीयर ने पेश किया था। निर्भरता व्याकरण (DG) निर्वाचन क्षेत्र के व्याकरण के विपरीत है, क्योंकि इसमें फॉटेसल नोड्स का अभाव है।

उदाहरण

डिपेंडेंसी व्याकरण का उदाहरण देने से पहले, हमें डिपेंडेंसी ग्रामर और डिपेंडेंसी रिलेशन के बारे में मूलभूत बिंदुओं को जानना होगा।

  • डीजी में, भाषाई इकाइयाँ, अर्थात, शब्द एक दूसरे से जुड़े हुए लिंक द्वारा जुड़े होते हैं।

  • क्रिया खंड संरचना का केंद्र बन जाती है।

  • हर दूसरी वाक्य रचना इकाइयाँ निर्देशित लिंक के संदर्भ में क्रिया से जुड़ी होती हैं। इन वाक्यात्मक इकाइयों को कहा जाता हैdependencies

हम वाक्य लिख सकते हैं “This tree is illustrating the dependency relation” निम्नलिखित नुसार;

पार्स ट्री जो संविधान सभा व्याकरण का उपयोग करता है उसे निर्वाचन क्षेत्र आधारित पार्स ट्री कहा जाता है; और पार्स पेड़ों पर निर्भरता व्याकरण का उपयोग करने वाले को निर्भरता-आधारित पार्स ट्री कहा जाता है।

प्रसंग मुक्त व्याकरण

संदर्भ मुक्त व्याकरण, जिसे सीएफजी भी कहा जाता है, भाषाओं का वर्णन करने के लिए एक संकेतन है और नियमित व्याकरण का एक सुपरसेट। इसे निम्नलिखित आरेख में देखा जा सकता है -

सीएफजी की परिभाषा

CFG में निम्नलिखित चार घटकों के साथ व्याकरण के नियमों का सीमित सेट होता है -

गैर-टर्मिनलों का सेट

यह वी। द्वारा निरूपित किया गया है। गैर-टर्मिनलों को वाक्य-विन्यास चर कहते हैं, जो कि तार के सेट को निरूपित करते हैं, जो व्याकरण द्वारा उत्पन्न भाषा को परिभाषित करने में मदद करते हैं।

टर्मिनलों का सेट

इसे टोकन भी कहा जाता है और इसे k द्वारा परिभाषित किया जाता है। टर्मिनलों के मूल प्रतीकों के साथ स्ट्रिंग्स का निर्माण होता है।

प्रोडक्शंस का सेट

यह पी द्वारा दर्शाया गया है। सेट निर्धारित करता है कि टर्मिनलों और गैर-टर्मिनलों को कैसे जोड़ा जा सकता है। हर उत्पादन (पी) में गैर-टर्मिनलों, एक तीर और टर्मिनलों (टर्मिनलों का क्रम) शामिल हैं। गैर-टर्मिनलों को उत्पादन के बाईं ओर कहा जाता है और टर्मिनलों को उत्पादन के दाईं ओर कहा जाता है।

प्रतीक शुरू करो

उत्पादन शुरू प्रतीक से शुरू होता है। इसे प्रतीक एस द्वारा निरूपित किया जाता है। गैर-टर्मिनल प्रतीक को हमेशा प्रारंभ प्रतीक के रूप में निर्दिष्ट किया जाता है।