एनएलपी - वर्ड लेवल एनालिसिस

इस अध्याय में, हम प्राकृतिक भाषा प्रसंस्करण में विश्व स्तर के विश्लेषण को समझेंगे।

नियमित अभिव्यक्ति

एक नियमित अभिव्यक्ति (आरई) पाठ खोज स्ट्रिंग को निर्दिष्ट करने के लिए एक भाषा है। आरई हमें एक पैटर्न में आयोजित विशेष सिंटैक्स का उपयोग करते हुए, तार के अन्य तारों या सेटों को मिलाने या खोजने में मदद करता है। समान तरीके से UNIX के साथ-साथ MS WORD में ग्रंथों को खोजने के लिए नियमित अभिव्यक्तियों का उपयोग किया जाता है। हमारे पास कई आरई सुविधाओं का उपयोग करके विभिन्न खोज इंजन हैं।

नियमित भाव के गुण

अनुवर्ती आरई के कुछ महत्वपूर्ण गुण हैं -

  • अमेरिकी गणितज्ञ स्टीफन कोल क्लेन ने नियमित अभिव्यक्ति भाषा को औपचारिक रूप दिया।

  • आरई एक विशेष भाषा में एक सूत्र है, जिसका उपयोग सरल वर्गों के तार, प्रतीकों के अनुक्रम को निर्दिष्ट करने के लिए किया जा सकता है। दूसरे शब्दों में, हम कह सकते हैं कि आरई स्ट्रिंग्स के एक सेट को चिह्नित करने के लिए एक बीजीय संकेतन है।

  • नियमित अभिव्यक्ति के लिए दो चीजों की आवश्यकता होती है, एक वह पैटर्न है जिसे हम खोजना चाहते हैं और दूसरा वह पाठ का एक कोष है जिसमें से हमें खोज करने की आवश्यकता है।

गणितीय रूप से, एक नियमित अभिव्यक्ति को निम्नानुसार परिभाषित किया जा सकता है -

  • ε एक नियमित अभिव्यक्ति है, जो इंगित करता है कि भाषा एक खाली स्ट्रिंग है।

  • φ एक नियमित अभिव्यक्ति है जो यह दर्शाता है कि यह एक खाली भाषा है।

  • अगर X तथा Y रेगुलर एक्सप्रेशन हैं, फिर

    • X, Y

    • X.Y(Concatenation of XY)

    • X+Y (Union of X and Y)

    • X*, Y* (Kleen Closure of X and Y)

नियमित अभिव्यक्ति भी हैं।

  • यदि कोई स्ट्रिंग उपरोक्त नियमों से प्राप्त की जाती है तो वह भी एक नियमित अभिव्यक्ति होगी।

रेगुलर एक्सप्रेशन के उदाहरण

निम्न तालिका नियमित अभिव्यक्तियों के कुछ उदाहरण दिखाती है -

नियमित अभिव्यक्ति नियमित सेट
(0 + 10 *) {, 1, 10, 100, 1000, 10000,…}
(0 * 10 *) {, 01, 10, 010, 0010,…}
(0 + ε) (1 + ε) {,, 0, 1, 01}
(ए + बी) * यह किसी भी लम्बाई के a और b के तारों का सेट होगा जिसमें null string भी शामिल है अर्थात {ε, a, b, aa, ab, bb, ba, aaa ……।}।
(ए + बी) * एबीबी यह स्ट्रिंग एब के साथ ए और बी के अंत के तारों का सेट होगा ({एबीबी, एएबीबी, बब्ब, आआब, एबब, ………… ..}
(1 1)* यह 1 की सम संख्या से मिलकर बना होगा जिसमें एक खाली स्ट्रिंग भी शामिल है ({11, 11, 1111, 111111, ………।}।
(आ) * (bb) * ख यह बी के समान संख्याओं से युक्त तारों के समूह के रूप में सेट किया जाएगा, जिसके बाद b की संख्या {b, aab, aabbb, abbbbb, aaaab, aaabbb, …………… ..} होगी
(आ + आब + बा + बीबी) * यह a और b की एक समान लंबाई होगी, जिसे null यानी {aa, ab, ba, bb, aaab, aaba, ……… सहित स्ट्रिंग्स आ, ab, ba और bb के किसी भी संयोजन को प्राप्त करके प्राप्त किया जा सकता है। ।}

नियमित सेट और उनके गुण

इसे उस सेट के रूप में परिभाषित किया जा सकता है जो नियमित अभिव्यक्ति के मूल्य का प्रतिनिधित्व करता है और इसमें विशिष्ट गुण होते हैं।

नियमित सेट के गुण

  • यदि हम दो नियमित सेटों का मिलन करते हैं तो परिणामी सेट भी रेगुला होगा।

  • यदि हम दो नियमित सेटों का प्रतिच्छेदन करते हैं तो परिणामी सेट भी नियमित होगा।

  • यदि हम नियमित सेटों के पूरक करते हैं, तो परिणामी सेट भी नियमित होगा।

  • यदि हम दो नियमित सेटों का अंतर करते हैं, तो परिणामी सेट भी नियमित होगा।

  • यदि हम नियमित सेटों को उलटते हैं, तो परिणामी सेट भी नियमित होगा।

  • यदि हम नियमित सेटों को बंद कर देते हैं, तो परिणामी सेट भी नियमित होगा।

  • यदि हम दो नियमित सेटों का संयोजन करते हैं, तो परिणामी सेट भी नियमित होगा।

परिमित स्टेट ऑटोमेटा

शब्द ऑटोमेटा, जो ग्रीक शब्द "ατμα "α" से लिया गया है, जिसका अर्थ है "स्व-अभिनय", ऑटोमेटन का बहुवचन है जिसे एक अमूर्त स्व-चालित कंप्यूटिंग डिवाइस के रूप में परिभाषित किया जा सकता है जो स्वचालित रूप से संचालन के पूर्वनिर्धारित अनुक्रम का अनुसरण करता है।

एक ऑटोमेटन में राज्यों की एक सीमित संख्या होती है, जिसे Finite Automaton (FA) या Finite State automata (FSA) कहा जाता है।

गणितीय रूप से, एक ऑटोमेटन को 5-ट्यूपल (क्यू, δ, δ, q0, F) द्वारा दर्शाया जा सकता है, जहां -

  • Q राज्यों का एक समुच्चय है।

  • Symbols प्रतीकों का एक परिमित सेट है, जिसे ऑटोमेटन की वर्णमाला कहा जाता है।

  • function संक्रमण कार्य है

  • q0 वह प्रारंभिक अवस्था है जहां से किसी भी इनपुट को संसाधित किया जाता है (q0) Q)।

  • F अंतिम अवस्था / Q के राज्यों (F set Q) का एक समूह है।

परिमित ऑटोमेटा, नियमित व्याकरण और नियमित अभिव्यक्तियों के बीच संबंध

निम्नलिखित बिंदु हमें परिमित ऑटोमेटा, नियमित व्याकरण और नियमित अभिव्यक्ति के बीच के संबंध के बारे में एक स्पष्ट दृष्टिकोण देंगे -

  • जैसा कि हम जानते हैं कि परिमित राज्य ऑटोमेटा कम्प्यूटेशनल कार्य का सैद्धांतिक आधार है और नियमित अभिव्यक्ति उनका वर्णन करने का एक तरीका है।

  • हम कह सकते हैं कि किसी भी नियमित अभिव्यक्ति को एफएसए के रूप में लागू किया जा सकता है और किसी भी एफएसए को एक नियमित अभिव्यक्ति के साथ वर्णित किया जा सकता है।

  • दूसरी ओर, नियमित अभिव्यक्ति एक तरह की भाषा है जिसे नियमित भाषा कहा जाता है। इसलिए, हम कह सकते हैं कि एफएसए और नियमित अभिव्यक्ति दोनों की मदद से नियमित भाषा का वर्णन किया जा सकता है।

  • नियमित व्याकरण, एक औपचारिक व्याकरण जो सही-नियमित या बाएं-नियमित हो सकता है, नियमित भाषा की विशेषता का एक और तरीका है।

निम्नलिखित आरेख से पता चलता है कि परिमित ऑटोमेटा, नियमित अभिव्यक्ति और नियमित व्याकरण नियमित भाषाओं के वर्णन के समान तरीके हैं।

परिमित राज्य स्वचालन के प्रकार (FSA)

परिमित राज्य स्वचालन दो प्रकार का होता है। आइए हम देखें कि प्रकार क्या हैं।

नियतात्मक परिमित स्वचालन (DFA)

इसे परिमित स्वचालन के प्रकार के रूप में परिभाषित किया जा सकता है, जिसमें प्रत्येक इनपुट प्रतीक के लिए हम यह निर्धारित कर सकते हैं कि मशीन किस दिशा में जाएगी। इसमें राज्यों की सीमित संख्या है, इसीलिए मशीन को नियतात्मक परिमित ऑटोमेटन (DFA) कहा जाता है।

गणितीय रूप से, एक डीएफए को 5-ट्यूपल (क्यू, D, δ, q0, F) द्वारा दर्शाया जा सकता है, जहां -

  • Q राज्यों का एक समुच्चय है।

  • Symbols प्रतीकों का एक परिमित सेट है, जिसे ऑटोमेटन की वर्णमाला कहा जाता है।

  • Σ संक्रमण फ़ंक्शन है जहां δ: Q ×। → Q।

  • q0 वह प्रारंभिक अवस्था है जहां से किसी भी इनपुट को संसाधित किया जाता है (q0) Q)।

  • F अंतिम अवस्था / Q के राज्यों (F set Q) का एक समूह है।

जबकि ग्राफिक रूप से, एक डीएफए का चित्रण आरेखों द्वारा किया जा सकता है, जिसे राज्य चित्र कहा जाता है -

  • राज्यों द्वारा प्रतिनिधित्व किया जाता है vertices

  • संक्रमण लेबल द्वारा दिखाए जाते हैं arcs

  • प्रारंभिक अवस्था का प्रतिनिधित्व एक द्वारा किया जाता है empty incoming arc

  • अंतिम स्थिति का प्रतिनिधित्व करता है double circle

DFA का उदाहरण

मान लीजिए कि एक DFA हो

  • क्यू = {ए, बी, सी},

  • , = {0, 1},

  • q 0 = {a},

  • F = {c},

  • संक्रमण समारोह function तालिका में निम्नानुसार दिखाया गया है -

वर्तमान स्थिति इनपुट के लिए अगला राज्य 0 इनपुट के लिए अगला राज्य 1
सी सी सी

इस डीएफए का चित्रमय प्रतिनिधित्व इस प्रकार होगा -

गैर-नियतात्मक परिमित स्वचालन (NDFA)

इसे परिमित स्वचालन के प्रकार के रूप में परिभाषित किया जा सकता है जहां हर इनपुट प्रतीक के लिए हम यह निर्धारित नहीं कर सकते हैं कि मशीन किस दिशा में जाएगी अर्थात मशीन राज्यों के किसी भी संयोजन में जा सकती है। इसमें राज्यों की एक सीमित संख्या है, यही वजह है कि मशीन को गैर-नियतात्मक परिमित स्वचालन (NDFA) कहा जाता है।

गणितीय रूप से, एनडीएफए का प्रतिनिधित्व 5-ट्यूपल (क्यू, δ, FA, q0, F) द्वारा किया जा सकता है, जहां -

  • Q राज्यों का एक समुच्चय है।

  • Symbols प्रतीकों का एक परिमित सेट है, जिसे ऑटोमेटन की वर्णमाला कहा जाता है।

  • δ: -इस संक्रमण समारोह जहां δ: Q × Q → 2 क्यू

  • q0: -प्रारंभिक स्थिति जहाँ से किसी भी इनपुट को संसाधित किया जाता है (q0) Q)।

  • एफ: -एस (एफ। क्यू) के अंतिम राज्य / राज्यों का एक सेट।

जबकि रेखांकन (डीएफए के समान), एक एनडीएफए को राज्य के आरेखों के आरेखों द्वारा दर्शाया जा सकता है जहां -

  • राज्यों द्वारा प्रतिनिधित्व किया जाता है vertices

  • संक्रमण लेबल द्वारा दिखाए जाते हैं arcs

  • प्रारंभिक अवस्था का प्रतिनिधित्व एक द्वारा किया जाता है empty incoming arc

  • अंतिम स्थिति को दोहरे द्वारा दर्शाया गया है circle

NDFA का उदाहरण

मान लीजिए कि एक NDFA हो

  • क्यू = {ए, बी, सी},

  • , = {0, 1},

  • q 0 = {a},

  • F = {c},

  • संक्रमण समारोह function तालिका में निम्नानुसार दिखाया गया है -

वर्तमान स्थिति इनपुट के लिए अगला राज्य 0 इनपुट के लिए अगला राज्य 1
ए, बी
सी एसी
सी बी, सी सी

इस NDFA का चित्रमय प्रतिनिधित्व इस प्रकार होगा -

मॉर्फोलॉजिकल पार्सिंग

मॉर्फोलॉजिकल पार्सिंग शब्द मॉर्फेम के पार्सिंग से संबंधित है। हम रूपात्मक पार्सिंग को यह पहचानने की समस्या के रूप में परिभाषित कर सकते हैं कि एक शब्द छोटे सार्थक इकाइयों में टूट जाता है जिसे मोर्फेम कहा जाता है जो इसके लिए किसी प्रकार की भाषाई संरचना का निर्माण करता है। उदाहरण के लिए, हम शब्द तोड़ सकते हैं लोमड़ियों दो, में लोमड़ी और -es । हम देख सकते हैं कि शब्द लोमड़ी , दो मोर्फेम से बना है, एक लोमड़ी है और अन्य -स है

दूसरे अर्थ में, हम कह सकते हैं कि आकृति विज्ञान का अध्ययन है -

  • शब्दों का निर्माण।

  • शब्दों की उत्पत्ति।

  • शब्दों के व्याकरणिक रूप।

  • शब्दों के निर्माण में उपसर्गों और प्रत्ययों का प्रयोग।

  • किसी भाषा के भाग (भाषण) कैसे बनते हैं।

Morphemes के प्रकार

Morphemes, सबसे छोटी अर्थ-असर इकाइयाँ, को दो प्रकारों में विभाजित किया जा सकता है -

  • Stems

  • शब्द क्रम

उपजी

यह किसी शब्द की मूल सार्थक इकाई है। हम यह भी कह सकते हैं कि यह शब्द की जड़ है। उदाहरण के लिए, लोमड़ी शब्द में, तना लोमड़ी है।

  • Affixes- जैसा कि नाम से पता चलता है, वे शब्दों में कुछ अतिरिक्त अर्थ और व्याकरणिक कार्य जोड़ते हैं। उदाहरण के लिए, लोमड़ी शब्द में, एफिक्स है - तों।

इसके अलावा, प्रत्ययों को भी चार प्रकारों में विभाजित किया जा सकता है -

    • Prefixes- जैसा कि नाम से पता चलता है, उपसर्ग स्टेम से पहले है। उदाहरण के लिए, शब्द unbuckle में, un उपसर्ग है।

    • Suffixes- जैसा कि नाम से पता चलता है, प्रत्यय स्टेम का अनुसरण करते हैं। उदाहरण के लिए, शब्द में बिल्लियों, -s प्रत्यय है।

    • Infixes- जैसा कि नाम से पता चलता है, इन्फिक्स को स्टेम के अंदर डाला जाता है। उदाहरण के लिए, cupful शब्द, infix के रूप में -s का उपयोग करके cupful के रूप में बहुवचन हो सकता है।

    • Circumfixes- वे पूर्ववर्ती और स्टेम का पालन करते हैं। अंग्रेजी भाषा में परिधि के बहुत कम उदाहरण हैं। एक बहुत ही सामान्य उदाहरण 'ए-आईएनजी' है जहां हम उपयोग कर सकते हैं-पूर्ववर्ती और -इंग स्टेम का अनुसरण करता है।

शब्द क्रम

शब्दों का क्रम रूपात्मक पार्सिंग द्वारा तय किया जाएगा। आइए अब हम एक रूपात्मक पार्सर के निर्माण की आवश्यकताओं को देखें -

शब्दकोश

एक रूपात्मक पार्सर के निर्माण के लिए पहली आवश्यकता लेक्सिकॉन है, जिसमें उनके बारे में बुनियादी जानकारी के साथ-साथ उपजी और प्रत्ययों की सूची शामिल है। उदाहरण के लिए, जानकारी जैसे कि स्टेम नाउन स्टेम है या वर्ब स्टेम, आदि।

Morphotactics

यह मूल रूप से मॉर्फेम ऑर्डरिंग का मॉडल है। दूसरे अर्थ में, मॉडल यह समझाता है कि कौन से वर्ग के लोग किसी शब्द के अंदर अन्य वर्ग के महापुरुषों का अनुसरण कर सकते हैं। उदाहरण के लिए, मॉर्फोटैक्टिक तथ्य यह है कि अंग्रेजी बहुवचन morpheme हमेशा पूर्ववर्ती संज्ञा के बजाय संज्ञा का पालन करता है।

ऑर्थोग्राफिक नियम

ये वर्तनी नियम एक शब्द में होने वाले परिवर्तनों को मॉडल करने के लिए उपयोग किए जाते हैं। उदाहरण के लिए, y को शहर + जैसे शब्दों में परिवर्तित करने का नियम + शहर नहीं शहर।