प्राकृतिक भाषा प्रसंस्करण - स्थापना

इस अध्याय में, हम प्राकृतिक भाषा प्रसंस्करण में प्राकृतिक भाषा की स्थापना पर चर्चा करेंगे। शुरुआत करने के लिए, आइए पहले समझते हैं कि प्राकृतिक भाषा व्याकरण क्या है।

प्राकृतिक भाषा व्याकरण

भाषाविज्ञान के लिए, भाषा मनमाना मुखर संकेतों का एक समूह है। हम कह सकते हैं कि भाषा रचनात्मक है, नियमों द्वारा शासित है, सहज और साथ ही सार्वभौमिक भी है। दूसरी ओर, यह मानवीय रूप से भी है। अलग-अलग लोगों के लिए भाषा की प्रकृति अलग-अलग होती है। भाषा की प्रकृति के बारे में बहुत गलत धारणा है। इसीलिए अस्पष्ट शब्द के अर्थ को समझना बहुत जरूरी है‘grammar’। भाषा विज्ञान में, व्याकरण शब्द को उन नियमों या सिद्धांतों के रूप में परिभाषित किया जा सकता है जिनकी सहायता से भाषा काम करती है। व्यापक अर्थों में, हम व्याकरण को दो श्रेणियों में विभाजित कर सकते हैं -

वर्णनात्मक व्याकरण

नियमों का समूह, जहाँ भाषाविज्ञान और व्याकरण बोलने वाले के व्याकरण की रचना करते हैं, वर्णनात्मक व्याकरण कहलाता है।

परिप्रेक्ष्य व्याकरण

यह व्याकरण की एक बहुत अलग भावना है, जो भाषा में शुद्धता का एक मानक बनाए रखने का प्रयास करती है। इस श्रेणी का भाषा के वास्तविक कामकाज से बहुत कम लेना-देना है।

भाषा के घटक

अध्ययन की भाषा को अंतरसंबंधित घटकों में विभाजित किया गया है, जो पारंपरिक और साथ ही भाषाई जांच के मनमाने विभाजन हैं। इन घटकों की व्याख्या इस प्रकार है -

ध्वनि विज्ञान

भाषा का सबसे पहला घटक स्वर विज्ञान है। यह एक विशेष भाषा के भाषण ध्वनियों का अध्ययन है। शब्द की उत्पत्ति का पता ग्रीक भाषा में लगाया जा सकता है, जहां 'फोन' का अर्थ ध्वनि या आवाज है। ध्वनि-विज्ञान, ध्वनि-विज्ञान का एक उपखंड है, जो मानव भाषा की ध्वनियों का अध्ययन उनके उत्पादन, धारणा या उनके भौतिक गुणों के परिप्रेक्ष्य से करता है। आईपीए (अंतर्राष्ट्रीय ध्वन्यात्मक वर्णमाला) एक उपकरण है जो ध्वनिविज्ञान का अध्ययन करते समय नियमित रूप से मानव ध्वनियों का प्रतिनिधित्व करता है। आईपीए में, प्रत्येक लिखित प्रतीक एक और केवल एक भाषण ध्वनि और इसके विपरीत का प्रतिनिधित्व करता है।

स्वनिम

इसे ध्वनि की इकाइयों में से एक के रूप में परिभाषित किया जा सकता है जो किसी भाषा में एक शब्द को दूसरे से अलग करती है। भाषाई में, स्लैमेस को स्लैश के बीच लिखा जाता है। उदाहरण के लिए, फोनेमे/k/ किट, स्किट जैसे शब्दों में होता है।

आकृति विज्ञान

यह भाषा का दूसरा घटक है। यह किसी विशेष भाषा में शब्दों की संरचना और वर्गीकरण का अध्ययन है। शब्द की उत्पत्ति ग्रीक भाषा से हुई है, जहाँ 'मोर्फे' शब्द का अर्थ 'रूप' होता है। आकृति विज्ञान एक भाषा में शब्दों के निर्माण के सिद्धांतों को मानता है। दूसरे शब्दों में, ध्वनियाँ उपसर्गों, प्रत्ययों और जड़ों जैसी सार्थक इकाइयों में कैसे मिलती हैं। यह यह भी मानता है कि शब्दों को भाषण के कुछ हिस्सों में कैसे वर्गीकृत किया जा सकता है।

शब्दिम

भाषाविज्ञान में, रूपात्मक विश्लेषण की अमूर्त इकाई जो एक शब्द द्वारा लिए गए रूपों के एक सेट से मेल खाती है, लेक्सेम कहलाती है। जिस तरह से एक वाक्य में एक लेक्सम का उपयोग किया जाता है वह उसके व्याकरणिक श्रेणी द्वारा निर्धारित किया जाता है। लेक्सेम व्यक्तिगत शब्द या मल्टीवर्ड हो सकता है। उदाहरण के लिए, शब्द टॉक एक व्यक्तिगत शब्द लेक्मे का एक उदाहरण है, जिसमें कई व्याकरणिक संस्करण हो सकते हैं जैसे बातचीत, बातचीत और बातचीत। Multiword lexeme को एक से अधिक ऑर्थोग्राफ़िक शब्दों से बनाया जा सकता है। उदाहरण के लिए, बोलो, ऊपर खींचो, आदि बहुशब्दीय शब्दांश के उदाहरण हैं।

वाक्य - विन्यास

यह भाषा का तीसरा घटक है। यह बड़ी इकाइयों में शब्दों के क्रम और व्यवस्था का अध्ययन है। इस शब्द का ग्रीक भाषा में पता लगाया जा सकता है, जहां शब्द suntassein का अर्थ है 'क्रम में रखना'। यह वाक्यांशों के प्रकार, वाक्यों और उनकी संरचना का अध्ययन करता है।

अर्थ विज्ञान

यह भाषा का चौथा घटक है। यह इस बात का अध्ययन है कि अर्थ को कैसे व्यक्त किया जाता है। अर्थ बाहरी दुनिया से संबंधित हो सकता है या वाक्य के व्याकरण से संबंधित हो सकता है। इस शब्द का ग्रीक भाषा में पता लगाया जा सकता है, जहाँ शब्द सेमिनिन का अर्थ है 'संकेत देना', 'दिखाना', 'संकेत'।

उपयोगितावाद

यह भाषा का पाँचवाँ घटक है। यह भाषा के कार्यों और संदर्भ में इसके उपयोग का अध्ययन है। शब्द की उत्पत्ति का पता ग्रीक भाषा से लगाया जा सकता है जहाँ 'प्राग्मा' शब्द का अर्थ 'विलेख', 'संबंध' है।

व्याकरणिक श्रेणियाँ

एक व्याकरणिक श्रेणी को भाषा के व्याकरण के भीतर इकाइयों या सुविधाओं के वर्ग के रूप में परिभाषित किया जा सकता है। ये इकाइयाँ भाषा के निर्माण खंड हैं और विशेषताओं का एक सामान्य समूह साझा करती हैं। व्याकरणिक श्रेणियों को व्याकरण संबंधी विशेषताएं भी कहा जाता है।

व्याकरणिक श्रेणियों की सूची नीचे वर्णित है -

संख्या

यह सबसे सरल व्याकरणिक श्रेणी है। हमारे पास इस श्रेणी से संबंधित दो शब्द हैं ular सिंसुलर और बहुवचन। एकवचन 'एक' की अवधारणा है जबकि, बहुवचन 'एक से अधिक' की अवधारणा है। उदाहरण के लिए, कुत्ते / कुत्ते, यह / ये।

लिंग

व्याकरणिक लिंग को व्यक्तिगत सर्वनाम और तीसरे व्यक्ति में भिन्नता द्वारा व्यक्त किया जाता है। व्याकरणिक लिंग के उदाहरण एकवचन हैं - वह, वह, वह; पहला और दूसरा व्यक्ति रूपों - मैं, हम और आप; 3 व्यक्ति बहुवचन रूप में, वे या तो सामान्य लिंग या नपुंसक लिंग हैं।

व्यक्ति

एक और सरल व्याकरणिक श्रेणी का व्यक्ति है। इसके तहत, निम्नलिखित तीन शब्दों को मान्यता दी गई है -

  • 1st person - जो व्यक्ति बोल रहा है उसे 1 व्यक्ति के रूप में पहचाना जाता है।

  • 2nd person - वह व्यक्ति जो सुनने वाला है या जिस व्यक्ति से बात की गई है, उसे 2nd व्यक्ति के रूप में मान्यता दी गई है।

  • 3rd person - जिस व्यक्ति या चीज के बारे में हम बात कर रहे हैं, उसे तीसरे व्यक्ति के रूप में पहचाना जाता है।

मामला

यह सबसे कठिन व्याकरणिक श्रेणियों में से एक है। इसे एक संज्ञा वाक्यांश (एनपी) या संज्ञा वाक्यांश के क्रिया के संबंध के संकेत के रूप में परिभाषित किया जा सकता है। हमारे पास व्यक्तिगत और पूछताछ सर्वनामों में व्यक्त निम्नलिखित तीन मामले हैं -

  • Nominative case- यह विषय का कार्य है। उदाहरण के लिए, मैं, हम, आप, वह, वह, यह, और वे नाममात्र हैं।

  • Genitive case- यह अधिकारी का कार्य है। उदाहरण के लिए, मेरे / मेरा, हमारे / हमारे, उसके, उसके / उसके, उसके, उनके / उनके, जो जननेंद्रिय हैं।

  • Objective case- यह वस्तु का कार्य है। उदाहरण के लिए, मैं, हम, आप, उसका, उसका, उनका, जिनका उद्देश्य है।

डिग्री

यह व्याकरणिक श्रेणी विशेषणों और क्रियाविशेषणों से संबंधित है। इसके निम्नलिखित तीन पद हैं -

  • Positive degree- यह एक गुणवत्ता को व्यक्त करता है। उदाहरण के लिए, बड़े, तेज, सुंदर सकारात्मक डिग्री हैं।

  • Comparative degree- यह दो वस्तुओं में से एक में गुणवत्ता की अधिक डिग्री या तीव्रता को व्यक्त करता है। उदाहरण के लिए, बड़ा, तेज, अधिक सुंदर तुलनात्मक डिग्री हैं।

  • Superlative degree- यह तीन या अधिक वस्तुओं में से एक में गुणवत्ता की सबसे बड़ी डिग्री या तीव्रता व्यक्त करता है। उदाहरण के लिए, सबसे बड़ी, सबसे तेज, सबसे सुंदर अतिशय डिग्री हैं।

निश्चितता और अनिश्चितता

ये दोनों अवधारणाएं बहुत सरल हैं। निश्चितता जैसा कि हम जानते हैं कि एक रेफ़रेंट का प्रतिनिधित्व करता है, जिसे स्पीकर या श्रोता द्वारा जाना, जाना या पहचाना जाता है। दूसरी ओर, अनिश्चितता एक ऐसे संदर्भ का प्रतिनिधित्व करती है जो ज्ञात नहीं है, या अपरिचित है। संज्ञा के साथ एक लेख की सह-घटना में अवधारणा को समझा जा सकता है -

  • definite article-

  • indefinite article- ए / ए

काल

यह व्याकरणिक श्रेणी क्रिया से संबंधित है और इसे किसी क्रिया के समय के भाषाई संकेत के रूप में परिभाषित किया जा सकता है। एक तनाव एक संबंध स्थापित करता है क्योंकि यह बोलने के क्षण के संबंध में एक घटना के समय को इंगित करता है। मोटे तौर पर, यह निम्नलिखित तीन प्रकारों में से एक है -

  • Present tense- वर्तमान क्षण में एक क्रिया की घटना का प्रतिनिधित्व करता है। उदाहरण के लिए, राम कड़ी मेहनत करते हैं।

  • Past tense- वर्तमान क्षण से पहले एक क्रिया की घटना का प्रतिनिधित्व करता है। उदाहरण के लिए, बारिश हुई।

  • Future tense- वर्तमान क्षण के बाद एक क्रिया की घटना का प्रतिनिधित्व करता है। उदाहरण के लिए, यह बारिश होगी।

पहलू

इस व्याकरणिक श्रेणी को किसी घटना के दृश्य के रूप में परिभाषित किया जा सकता है। यह निम्न प्रकार का हो सकता है -

  • Perfective aspect- दृश्य को पहलू में पूर्ण और पूर्ण के रूप में लिया जाता है। उदाहरण के लिए, सरल भूत काल जैसेyesterday I met my friend, अंग्रेजी में यह पूर्ण और संपूर्ण के रूप में घटना को देखने के रूप में सही है।

  • Imperfective aspect- दृश्य को पहलू में चल रहे और अधूरे के रूप में लिया जाता है। उदाहरण के लिए, वर्तमान पार्टिकल जैसे कालI am working on this problem, अंग्रेजी में पहलू अपूर्ण है क्योंकि यह घटना को अपूर्ण और चालू मानता है।

मनोदशा

यह व्याकरणिक श्रेणी को परिभाषित करना थोड़ा मुश्किल है लेकिन इसे केवल बोलने वाले के रवैये के संकेत के रूप में कहा जा सकता है कि वह क्या बात कर रहा है। यह क्रियाओं की व्याकरणिक विशेषता भी है। यह व्याकरणिक काल और व्याकरणिक पहलू से अलग है। मनोदशा के उदाहरण सांकेतिक, पूछताछ, अत्यावश्यक, निषेधाज्ञा, अधीन, संभावित, वैकल्पिक, जेरुन्ड और प्रतिभागी हैं।

समझौता

इसे कंसर्ड भी कहा जाता है। यह तब होता है जब एक शब्द दूसरे शब्दों पर निर्भर करता है जिससे वह संबंधित है। दूसरे शब्दों में, इसमें कुछ व्याकरणिक श्रेणी के मान को अलग-अलग शब्दों या भाषण के भाग के बीच सहमत करना शामिल है। अनुवर्ती अन्य व्याकरणिक श्रेणियों पर आधारित समझौते हैं -

  • Agreement based on Person- यह विषय और क्रिया के बीच का समझौता है। उदाहरण के लिए, हम हमेशा "I am" और "He" का उपयोग करते हैं, लेकिन कभी भी "I am" और "I" नहीं होते हैं।

  • Agreement based on Number- यह समझौता विषय और क्रिया के बीच है। इस मामले में, पहले व्यक्ति एकवचन, दूसरे व्यक्ति बहुवचन और इतने पर के लिए विशिष्ट क्रिया रूप हैं। उदाहरण के लिए, पहला व्यक्ति एकवचन: मैं वास्तव में हूँ, दूसरा व्यक्ति बहुवचन: हम वास्तव में हैं, तीसरा व्यक्ति एकवचन: लड़का गाता है, तीसरा व्यक्ति बहुवचन: लड़के गाते हैं।

  • Agreement based on Gender- अंग्रेजी में, सर्वनाम और पूर्ववृत्त के बीच लिंग में समझौता है। उदाहरण के लिए, वह अपने गंतव्य पर पहुंचा। जहाज अपने गंतव्य पर पहुँच गया।

  • Agreement based on Case- इस तरह का समझौता अंग्रेजी की महत्वपूर्ण विशेषता नहीं है। उदाहरण के लिए, जो पहले आया था - वह या उसकी बहन?

स्पोकन लैंग्वेज सिंटेक्स

लिखित अंग्रेजी और बोली जाने वाली अंग्रेजी व्याकरण में कई सामान्य विशेषताएं हैं लेकिन इसके साथ ही, वे कई पहलुओं में भी भिन्न हैं। निम्नलिखित विशेषताएं बोली जाने वाली और लिखित अंग्रेजी व्याकरण के बीच अंतर करती हैं -

मतभेद और मरम्मत

यह हड़ताली विशेषता बोली जाने वाली और लिखित अंग्रेजी व्याकरण को एक दूसरे से अलग बनाती है। इसे व्यक्तिगत रूप से अक्षमताओं की घटना और सामूहिक रूप से मरम्मत की घटनाओं के रूप में जाना जाता है। मतभेदों में निम्नलिखित का उपयोग शामिल है -

  • Fillers words- कभी-कभी वाक्य के बीच में, हम कुछ भराव शब्दों का उपयोग करते हैं। उन्हें फिलर पॉज़ का भराव कहा जाता है। ऐसे शब्दों के उदाहरण उह और उम हैं।

  • Reparandum and repair- वाक्य के बीच में दोहराए गए सेगमेंट को रिप्रेंडम कहा जाता है। उसी खंड में, परिवर्तित शब्द को मरम्मत कहा जाता है। इसे समझने के लिए निम्नलिखित उदाहरण पर विचार करें -

Does ABC airlines offer any one-way flights uh one-way fares for 5000 rupees?

उपरोक्त वाक्य में, वन-वे फ्लाइट एक रिपारडम है और वन-वे फ्लाइट एक मरम्मत है।

पुनरारंभ

भराव रोक के बाद, पुनरारंभ होता है। उदाहरण के लिए, उपरोक्त वाक्य में, पुनरारंभ तब होता है जब स्पीकर एक तरफ़ा उड़ानों के बारे में पूछना शुरू कर देता है, फिर रुक जाता है, फ़िलर ठहराव द्वारा खुद को सही करता है और फिर एक तरफ़ा किराए के बारे में पूछना शुरू करता है।

शब्द के टुकड़े

कभी-कभी हम वाक्यों को शब्दों के छोटे टुकड़ों के साथ बोलते हैं। उदाहरण के लिए,wwha-what is the time? यहाँ शब्द w-wha शब्द के टुकड़े हैं।