प्राकृतिक भाषा टूलकिट - परिचय
प्राकृतिक भाषा प्रसंस्करण (एनएलपी) क्या है?
संचार की विधि जिसकी सहायता से मनुष्य बोल, पढ़ और लिख सकता है, वह भाषा है। दूसरे शब्दों में, हम मनुष्य अपनी प्राकृतिक भाषा में सोच सकते हैं, योजना बना सकते हैं, निर्णय ले सकते हैं। यहाँ बड़ा सवाल यह है कि कृत्रिम बुद्धिमत्ता, मशीन सीखने और गहन शिक्षा के युग में, क्या मनुष्य कंप्यूटर / मशीनों के साथ प्राकृतिक भाषा में संवाद कर सकता है? एनएलपी अनुप्रयोगों का विकास करना हमारे लिए एक बड़ी चुनौती है क्योंकि कंप्यूटर को संरचित डेटा की आवश्यकता होती है, लेकिन दूसरी ओर, मानव भाषण असंरचित है और अक्सर प्रकृति में अस्पष्ट है।
प्राकृतिक भाषा कंप्यूटर विज्ञान का उपक्षेत्र है, विशेष रूप से एआई, जो कंप्यूटर / मशीनों को मानव भाषा को समझने, संसाधित करने और हेरफेर करने में सक्षम बनाता है। सरल शब्दों में, एनएलपी मानव प्राकृतिक भाषाओं जैसे हिंदी, अंग्रेजी, फ्रेंच, डच, इत्यादि से विश्लेषण, समझने और व्युत्पन्न करने के लिए मशीनों का एक तरीका है।
यह कैसे काम करता है?
एनएलपी के काम में गहरी गोता लगाने से पहले, हमें यह समझना होगा कि मानव भाषा का उपयोग कैसे करता है। हर दिन, हम मनुष्य सैकड़ों या हजारों शब्दों का उपयोग करते हैं और अन्य मनुष्य उनकी व्याख्या करते हैं और उसी के अनुसार उत्तर देते हैं। यह मनुष्यों के लिए एक सरल संचार है, है ना? लेकिन हम जानते हैं कि शब्द इससे कहीं ज्यादा गहरे चलते हैं और हम हमेशा एक संदर्भ प्राप्त करते हैं कि हम क्या कहते हैं और कैसे कहते हैं। इसलिए हम कह सकते हैं कि आवाज मॉड्यूलेशन पर ध्यान केंद्रित करने के बजाय, एनएलपी प्रासंगिक पैटर्न पर आकर्षित करता है।
आइए इसे एक उदाहरण से समझते हैं -
Man is to woman as king is to what?
We can interpret it easily and answer as follows:
Man relates to king, so woman can relate to queen.
Hence the answer is Queen.
मनुष्य कैसे जानते हैं कि शब्द का अर्थ क्या है? इस प्रश्न का उत्तर यह है कि हम अपने अनुभव से सीखते हैं। लेकिन, मशीन / कंप्यूटर कैसे सीखते हैं?
आइए इसे निम्नलिखित आसान चरणों के साथ समझते हैं -
सबसे पहले, हमें मशीनों को पर्याप्त डेटा के साथ खिलाने की आवश्यकता है ताकि मशीनें अनुभव से सीख सकें।
फिर मशीन गहरी सीख वाले एल्गोरिदम का उपयोग करके, हमारे द्वारा पहले खिलाए गए डेटा से और इसके आसपास के डेटा से वर्ड वैक्टर बनाएगी।
फिर इन शब्द वैक्टर पर सरल बीजीय संचालन करके, मशीन मानव के रूप में उत्तर प्रदान करने में सक्षम होगी।
एनएलपी के घटक
निम्नलिखित आरेख प्राकृतिक भाषा प्रसंस्करण (एनएलपी) के घटकों का प्रतिनिधित्व करता है -
आकृति विज्ञान प्रसंस्करण
मॉर्फोलॉजिकल प्रोसेसिंग एनएलपी का पहला घटक है। इसमें अनुच्छेदों, वाक्यों और शब्दों के अनुरूप टोकन के सेट में भाषा इनपुट के विखंडन को शामिल किया गया है। उदाहरण के लिए, एक शब्द की तरह“everyday” के रूप में दो उप शब्द टोकन में तोड़ा जा सकता है “every-day”।
सिंटेक्स विश्लेषण
सिंटैक्स विश्लेषण, दूसरा घटक, एनएलपी के सबसे महत्वपूर्ण घटकों में से एक है। इस घटक के उद्देश्य इस प्रकार हैं -
यह जांचने के लिए कि एक वाक्य अच्छी तरह से बनता है या नहीं।
इसे एक संरचना में तोड़ने के लिए जो विभिन्न शब्दों के बीच वाक्यात्मक संबंधों को दर्शाता है।
जैसे वाक्य “The school goes to the student” सिंटैक्स विश्लेषक द्वारा अस्वीकार कर दिया जाएगा।
शब्दार्थ विश्लेषण
शब्दार्थ विश्लेषण एनएलपी का तीसरा घटक है जिसका उपयोग पाठ की अर्थपूर्णता को जांचने के लिए किया जाता है। इसमें सटीक अर्थ ड्राइंग शामिल है, या हम पाठ से शब्दकोष अर्थ कह सकते हैं। जैसे वाक्य "यह एक गर्म आइसक्रीम है।" सिमेंटिक विश्लेषक द्वारा त्याग दिया जाएगा।
व्यावहारिक विश्लेषण
व्यावहारिक विश्लेषण एनएलपी का चौथा घटक है। इसमें उन वास्तविक वस्तुओं या घटनाओं को शामिल करना शामिल है जो प्रत्येक संदर्भ में पिछले घटक अर्थात अर्थ विश्लेषण द्वारा प्राप्त वस्तु संदर्भों के साथ मौजूद हैं। जैसे वाक्य“Put the fruits in the basket on the table” दो अर्थपूर्ण व्याख्याएं हो सकती हैं इसलिए व्यावहारिक विश्लेषक इन दोनों संभावनाओं के बीच चयन करेगा।
एनएलपी अनुप्रयोगों के उदाहरण
एनएलपी, एक उभरती हुई तकनीक, एआई के विभिन्न रूपों को प्राप्त करती है जिसे हम इन दिनों देखा करते थे। आज और कल के तेजी से संज्ञानात्मक अनुप्रयोगों के लिए, मनुष्यों और मशीनों के बीच एक सहज और इंटरैक्टिव इंटरफ़ेस बनाने में एनएलपी का उपयोग सर्वोच्च प्राथमिकता बनी रहेगी। एनएलपी के कुछ बहुत ही उपयोगी अनुप्रयोग निम्नलिखित हैं।
मशीन अनुवाद
मशीन अनुवाद (एमटी) प्राकृतिक भाषा प्रसंस्करण के सबसे महत्वपूर्ण अनुप्रयोगों में से एक है। MT मूल रूप से एक स्रोत भाषा या पाठ को दूसरी भाषा में अनुवाद करने की एक प्रक्रिया है। मशीन अनुवाद प्रणाली द्विभाषी या बहुभाषी दोनों में से हो सकती है।
फाइटिंग स्पाम
अवांछित ईमेल में भारी वृद्धि के कारण, स्पैम फ़िल्टर महत्वपूर्ण हो गए हैं क्योंकि यह इस समस्या के खिलाफ रक्षा की पहली पंक्ति है। इसके झूठे-सकारात्मक और झूठे-नकारात्मक मुद्दों को मुख्य मुद्दों के रूप में मानकर, एनएलपी की कार्यक्षमता का उपयोग स्पैम फ़िल्टरिंग सिस्टम को विकसित करने के लिए किया जा सकता है।
एन-ग्राम मॉडलिंग, वर्ड स्टेमिंग और बेयसियन वर्गीकरण कुछ मौजूदा एनएलपी मॉडल हैं जिनका उपयोग स्पैम फ़िल्टरिंग के लिए किया जा सकता है।
सूचना पुनर्प्राप्ति और वेब खोज
अधिकांश खोज इंजन जैसे Google, Yahoo, Bing, WolframAlpha, आदि एनएलपी डीप लर्निंग मॉडल पर अपने मशीन अनुवाद (MT) तकनीक को आधार बनाते हैं। इस तरह के गहरे शिक्षण मॉडल एल्गोरिदम को वेबपेज पर पाठ पढ़ने की अनुमति देते हैं, इसके अर्थ की व्याख्या करते हैं और इसे किसी अन्य भाषा में अनुवाद करते हैं।
स्वचालित पाठ सारांश
स्वचालित पाठ सारांश एक तकनीक है जो लंबे समय तक पाठ दस्तावेज़ों का एक छोटा, सटीक सारांश बनाता है। इसलिए, यह हमें कम समय में प्रासंगिक जानकारी प्राप्त करने में मदद करता है। इस डिजिटल युग में, हमें स्वचालित पाठ संक्षेपण की गंभीर आवश्यकता है क्योंकि हमारे पास इंटरनेट पर सूचनाओं की बाढ़ है जो रुकने वाली नहीं है। एनएलपी और इसकी कार्यक्षमताएँ स्वचालित पाठ संक्षेप को विकसित करने में महत्वपूर्ण भूमिका निभाती हैं।
व्याकरण सुधार
वर्तनी सुधार और व्याकरण सुधार माइक्रोसॉफ्ट वर्ड जैसे वर्ड प्रोसेसर सॉफ्टवेयर की एक बहुत ही उपयोगी विशेषता है। प्राकृतिक भाषा प्रसंस्करण (एनएलपी) इस उद्देश्य के लिए व्यापक रूप से उपयोग किया जाता है।
प्रश्न-उत्तर
सवाल-जवाब, प्राकृतिक भाषा प्रसंस्करण (एनएलपी) का एक और मुख्य अनुप्रयोग, निर्माण प्रणालियों पर केंद्रित है जो उपयोगकर्ता द्वारा उनकी प्राकृतिक भाषा में पोस्ट किए गए प्रश्न का स्वचालित रूप से उत्तर देते हैं।
भावनाओं का विश्लेषण
वाक्य विश्लेषण प्राकृतिक भाषा प्रसंस्करण (एनएलपी) के एक अन्य महत्वपूर्ण अनुप्रयोग के बीच है। जैसा कि इसके नाम का अर्थ है, सेंटीमेंट विश्लेषण का उपयोग करने के लिए किया जाता है -
कई पदों के बीच भावनाओं को पहचानें और
उस भावना को पहचानें जहां भावनाएं स्पष्ट रूप से व्यक्त नहीं की जाती हैं।
ऑनलाइन ई-कॉमर्स कंपनियां जैसे अमेज़ॅन, ईबे, आदि अपने ग्राहकों की राय और भावना को ऑनलाइन पहचानने के लिए भावना विश्लेषण का उपयोग कर रहे हैं। इससे उन्हें यह समझने में मदद मिलेगी कि उनके ग्राहक उनके उत्पादों और सेवाओं के बारे में क्या सोचते हैं।
भाषण इंजन
सिरी, गूगल वॉयस, एलेक्सा जैसे भाषण इंजन एनएलपी पर बनाए गए हैं ताकि हम अपनी प्राकृतिक भाषा में उनसे संवाद कर सकें।
एनएलपी को लागू करना
उपर्युक्त अनुप्रयोगों के निर्माण के लिए, हमें भाषा को कुशलता से संसाधित करने के लिए भाषा और उपकरणों की एक बड़ी समझ के साथ विशिष्ट कौशल निर्धारित करने की आवश्यकता है। इसे प्राप्त करने के लिए, हमारे पास विभिन्न ओपन-सोर्स टूल उपलब्ध हैं। उनमें से कुछ खुले-खट्टे हैं जबकि अन्य संगठनों द्वारा अपने स्वयं के एनएलपी अनुप्रयोगों के निर्माण के लिए विकसित किए गए हैं। निम्नलिखित कुछ एनएलपी उपकरणों की सूची है -
प्राकृतिक भाषा टूल किट (NLTK)
Mallet
GATE
एनएलपी खोलें
UIMA
Genism
स्टैनफोर्ड टूलकिट
इन उपकरणों में से अधिकांश जावा में लिखे गए हैं।
प्राकृतिक भाषा टूल किट (NLTK)
उपर्युक्त एनएलपी उपकरण के बीच, एनएलटीके स्कोर बहुत अधिक है जब यह अवधारणा के उपयोग और स्पष्टीकरण में आसानी के लिए आता है। अजगर की सीखने की अवस्था बहुत तेज़ है और NLTK को Python में लिखा गया है इसलिए NLTK में बहुत अच्छी लर्निंग किट है। एनएलटीके ने अधिकांश कार्यों को शामिल किया है जैसे कि टोकेनाइजेशन, स्टेमिंग, लेमेटेटाइजेशन, पंक्चुएशन, कैरेक्टर काउंट और वर्ड काउंट। यह काम करने के लिए बहुत ही सुंदर और आसान है।