पायथन - पाठ प्रसंस्करण परिचय
पाठ प्रसंस्करण का प्राकृतिक भाषा प्रसंस्करण के लिए एक सीधा अनुप्रयोग है, जिसे एनएलपी भी कहा जाता है। एनएलपी का उद्देश्य मनुष्यों द्वारा बोली या लिखी जाने वाली भाषाओं को संसाधित करना है जब वे एक दूसरे के साथ संवाद करते हैं। यह एक कंप्यूटर और एक मानव के बीच संचार से अलग है जहां संचार मानव द्वारा लिखे गए कंप्यूटर प्रोग्राम या कुछ इशारों पर मानव द्वारा लिखा जाता है जैसे कि किसी स्थिति में माउस को क्लिक करना। एनएलपी मनुष्यों द्वारा बोली जाने वाली प्राकृतिक भाषा को समझने और उसे वर्गीकृत करने का प्रयास करता है, यदि आवश्यक हो तो उसका विश्लेषण करता है। पायथन में पुस्तकालयों का एक समृद्ध समूह है जो एनएलपी की जरूरतों को पूरा करता है। नेचुरल लैंग्वेज टूल किट (एनएलटीके) ऐसे पुस्तकालयों का एक सूट है जो एनएलपी के लिए आवश्यक कार्यात्मकता प्रदान करता है।
नीचे कुछ एप्लिकेशन दिए गए हैं जो एनएलपी और अप्रत्यक्ष रूप से अजगर के एनएलटीके का उपयोग करते हैं।
संक्षिप्तीकरण
कई बार, हमें एक समाचार लेख, एक फिल्म की साजिश या एक बड़ी कहानी का सारांश प्राप्त करने की आवश्यकता होती है। वे सभी मानव भाषा में लिखे गए हैं और एनएलपी के बिना हमें एक और मानव की व्याख्या और हमें इस तरह के सारांश की प्रस्तुति पर भरोसा करना होगा। लेकिन एनएलपी की मदद से हम एनएलटीके का उपयोग करने के लिए कार्यक्रम लिख सकते हैं और विभिन्न मापदंडों के साथ लंबे पाठ को संक्षेप में प्रस्तुत कर सकते हैं, जैसे कि अंतिम आउटपुट में हम कितने प्रतिशत पाठ चाहते हैं, संक्षेप के लिए सकारात्मक और नकारात्मक शब्दों का चयन करना आदि। समाचार संक्षेप प्रस्तुत करने के लिए ऐसी संक्षेपण तकनीकों पर।
आवाज आधारित उपकरण
सेब के सिरी या अमेज़ॅन एलेक्सा जैसे आवाज-आधारित उपकरण मनुष्यों के साथ बातचीत को पागल समझने के लिए एनएलपी पर भरोसा करते हैं। उनके पास मानव से आने वाले प्रश्न या आदेश की व्याख्या करने और उसे संसाधित करने के लिए शब्दों, वाक्यों और व्याकरण का एक बड़ा प्रशिक्षण डेटा सेट है। यद्यपि यह आवाज के बारे में है, अप्रत्यक्ष रूप से यह पाठ में अनुवादित हो जाता है और परिणाम को उत्पन्न करने के लिए आवाज को NLP प्रणाली के माध्यम से लिया जाता है।
सूचना निकालना
वेब स्क्रैपिंग डेटा को निकालने का एक सामान्य उदाहरण है, जो अजगर कोड का उपयोग करके वेब पेज बनाते हैं। यहाँ यह कड़ाई से एनएलपी आधारित नहीं हो सकता है लेकिन इसमें टेक्स्ट प्रोसेसिंग शामिल है। उदाहरण के लिए, यदि हमें किसी html पृष्ठ में मौजूद केवल हेडर निकालने की आवश्यकता है, तो हम h1 टैग int पेज पेज संरचना की तलाश करते हैं और केवल उन टैगों के बीच पाठ को निकालने का एक तरीका खोजते हैं। यह अजगर से पाठ प्रसंस्करण कार्यक्रम की जरूरत है।
स्पैम फ़िल्टरिंग
ईमेल में स्पैम को विषय पंक्ति में पाठ और साथ ही संदेश की सामग्री का विश्लेषण करके पहचाना और समाप्त किया जा सकता है। जैसा कि स्पैम ईमेल आमतौर पर कई प्राप्तकर्ताओं को थोक में भेजे जाते हैं, भले ही उनके विषयों और सामग्रियों में थोड़ी भिन्नता हो, जो कि उन्हें स्पैम के रूप में चिह्नित करने के लिए मिलान और टैग किया जा सकता है फिर उसे एनएलटीके पुस्तकालयों के उपयोग की आवश्यकता होती है।
भाषा का अनुवाद
कम्प्यूटरीकृत भाषा अनुवाद एनएलपी पर बहुत अधिक निर्भर करता है। चूंकि ऑनलाइन प्लेटफॉर्म में अधिक से अधिक भाषाओं का उपयोग किया जाता है, इसलिए यह एक मानव भाषा से दूसरी भाषा में अनुवाद को स्वचालित करने के लिए एक आवश्यकता बन जाती है। इसमें अनुवाद में शामिल भाषाओं की शब्दावली, व्याकरण और संदर्भ टैगिंग को संभालने के लिए प्रोग्रामिंग शामिल होगी। ऐसी आवश्यकताओं को संभालने के लिए फिर से एनएलटीके का उपयोग किया जाता है।
भावनाओं का विश्लेषण
किसी फिल्म के प्रदर्शन पर समग्र प्रतिक्रिया जानने के लिए, हमें दर्शकों के हजारों फीडबैक पोस्ट पढ़ने पड़ सकते हैं। लेकिन वह भी सकारात्मक के वर्गीकरण का उपयोग करके स्वचालित किया जा सकता है शब्दों और वाक्य विश्लेषण के माध्यम से एक नकारात्मक प्रतिक्रिया। और फिर दर्शकों की समग्र भावना को खोजने के लिए सकारात्मक और नकारात्मक समीक्षाओं की आवृत्ति को मापना। यह स्पष्ट रूप से श्रोताओं द्वारा लिखित मानव भाषा के विश्लेषण की आवश्यकता है और एनएलटीके का उपयोग पाठ को संसाधित करने के लिए यहां बहुत अधिक किया जाता है।