ओपनएनएलपी - संदर्भित एपीआई

इस अध्याय में, हम उन वर्गों और विधियों के बारे में चर्चा करेंगे जिनका उपयोग हम इस ट्यूटोरियल के बाद के अध्यायों में करेंगे।

वाक्य का पता लगाना

सेंटेंसमॉडल वर्ग

यह वर्ग पूर्वनिर्धारित मॉडल का प्रतिनिधित्व करता है जिसका उपयोग दिए गए कच्चे पाठ में वाक्यों का पता लगाने के लिए किया जाता है। यह वर्ग पैकेज का हैopennlp.tools.sentdetect

इस वर्ग का निर्माणकर्ता स्वीकार करता है InputStream ऑब्जेक्ट डिटेक्टर मॉडल फ़ाइल (एन-सेंड.बिन) की वस्तु।

SentenceDetectorME वर्ग

यह वर्ग पैकेज का है opennlp.tools.sentdetectऔर इसमें कच्चे पाठ को वाक्यों में विभाजित करने के तरीके शामिल हैं। यह वर्ग किसी वाक्य के अंत का संकेत देने के लिए एक स्ट्रिंग में एंड-ऑफ़ेंसेंस वर्णों का मूल्यांकन करने के लिए अधिकतम एन्ट्रोपी मॉडल का उपयोग करता है।

इस वर्ग के महत्वपूर्ण तरीके निम्नलिखित हैं।

S.No तरीके और विवरण
1

sentDetect()

इस विधि का उपयोग इसके लिए पारित कच्चे पाठ में वाक्यों का पता लगाने के लिए किया जाता है। यह एक स्ट्रिंग चर को एक पैरामीटर के रूप में स्वीकार करता है और एक स्ट्रिंग सरणी देता है जो दिए गए कच्चे पाठ से वाक्य रखता है।

2

sentPosDetect()

इस पद्धति का उपयोग दिए गए पाठ में वाक्यों की स्थिति का पता लगाने के लिए किया जाता है। यह विधि एक स्ट्रिंग चर को स्वीकार करती है, वाक्य का प्रतिनिधित्व करती है और प्रकार की वस्तुओं की एक सरणी लौटाती हैSpan

नाम का वर्ग Span का opennlp.tools.util पैकेज का उपयोग सेट के प्रारंभ और अंत पूर्णांक को संग्रहीत करने के लिए किया जाता है।

3

getSentenceProbabilities()

यह विधि सबसे हाल की कॉल से जुड़ी संभावनाओं को वापस लौटा देती है sentDetect() तरीका।

tokenization

टोकेनाइज़रमॉडल वर्ग

यह वर्ग पूर्वनिर्धारित मॉडल का प्रतिनिधित्व करता है जिसका उपयोग दिए गए वाक्य को टोकन करने के लिए किया जाता है। यह वर्ग पैकेज का हैopennlp.tools.tokenizer

इस वर्ग का निर्माणकर्ता स्वीकार करता है InputStream टोकनर मॉडल फ़ाइल (entoken.bin) की वस्तु।

कक्षाओं

टोकन करने के लिए, ओपनएनएलपी पुस्तकालय तीन मुख्य कक्षाएं प्रदान करता है। सभी तीन वर्ग नामक इंटरफ़ेस को लागू करते हैंTokenizer

S.No कक्षाएं और विवरण
1

SimpleTokenizer

यह वर्ग वर्ण वर्गों का उपयोग करके दिए गए कच्चे पाठ को टोकन देता है।

2

WhitespaceTokenizer

यह वर्ग दिए गए पाठ को टोकन करने के लिए व्हाट्सएप का उपयोग करता है।

3

TokenizerME

यह वर्ग टोकन को अलग करने के लिए कच्चे पाठ को परिवर्तित करता है। यह अपने निर्णय लेने के लिए अधिकतम एन्ट्रापी का उपयोग करता है।

इन वर्गों में निम्नलिखित विधियाँ शामिल हैं।

S.No तरीके और विवरण
1

tokenize()

इस विधि का उपयोग कच्चे पाठ को टोकन करने के लिए किया जाता है। यह विधि एक स्ट्रिंग चर को पैरामीटर के रूप में स्वीकार करती है, और स्ट्रिंग्स (टोकन) की एक सरणी लौटाती है।

2

sentPosDetect()

इस विधि का उपयोग टोकन की स्थिति या स्पान प्राप्त करने के लिए किया जाता है। यह स्ट्रिंग के रूप में वाक्य (या) कच्चे पाठ को स्वीकार करता है और प्रकार की वस्तुओं की एक सरणी देता हैSpan

उपरोक्त दो विधियों के अलावा, TokenizerME कक्षा में है getTokenProbabilities() तरीका।

S.No तरीके और विवरण
1

getTokenProbabilities()

इस पद्धति का उपयोग सबसे हाल की कॉल से जुड़ी संभावनाओं को प्राप्त करने के लिए किया जाता है tokenizePos() तरीका।

NameEntityRecognition

टोकननफाइंडरमॉडल वर्ग

यह वर्ग पूर्वनिर्धारित मॉडल का प्रतिनिधित्व करता है जिसका उपयोग दिए गए वाक्य में नामित संस्थाओं को खोजने के लिए किया जाता है। यह वर्ग पैकेज का हैopennlp.tools.namefind

इस वर्ग का निर्माणकर्ता स्वीकार करता है InputStream नाम खोजक मॉडल फ़ाइल का उद्देश्य (enner-person.bin)।

NameFinderME वर्ग

वर्ग पैकेज के अंतर्गत आता है opennlp.tools.namefindऔर इसमें NER कार्य करने की विधियाँ सम्‍मिलित हैं। यह वर्ग दिए गए कच्चे पाठ में नामित संस्थाओं को खोजने के लिए अधिकतम एन्ट्रापी मॉडल का उपयोग करता है।

S.No तरीके और विवरण
1

find()

इस विधि का उपयोग कच्चे पाठ में नामों का पता लगाने के लिए किया जाता है। यह एक स्ट्रिंग चर को एक पैरामीटर के रूप में कच्चे पाठ का प्रतिनिधित्व करता है और, प्रकार की वस्तुओं की एक सरणी देता है।

2

probs()

इस विधि का उपयोग अंतिम डिकोड किए गए अनुक्रम की संभावनाओं को प्राप्त करने के लिए किया जाता है।

भाषण के भाग ढूँढना

POSModel वर्ग

यह वर्ग पूर्वनिर्धारित मॉडल का प्रतिनिधित्व करता है जिसका उपयोग दिए गए वाक्य के बोलने के हिस्सों को टैग करने के लिए किया जाता है। यह वर्ग पैकेज का हैopennlp.tools.postag

इस वर्ग का निर्माणकर्ता स्वीकार करता है InputStream पोज़-टैगर मॉडल फ़ाइल का उद्देश्य (enpos-maxent.bin)।

POSTaggerME वर्ग

यह वर्ग पैकेज का है opennlp.tools.postagऔर इसका उपयोग दिए गए कच्चे पाठ के भाषण के हिस्सों की भविष्यवाणी करने के लिए किया जाता है। यह अपने निर्णय लेने के लिए अधिकतम एन्ट्रापी का उपयोग करता है।

S.No तरीके और विवरण
1

tag()

इस विधि का उपयोग टोकन POS टैग्स के वाक्य को निर्दिष्ट करने के लिए किया जाता है। यह विधि एक पैरामीटर के रूप में टोकन (स्ट्रिंग) के एक सरणी को स्वीकार करती है, और एक टैग (सरणी) लौटाती है।

2

getSentenceProbabilities()

इस पद्धति का उपयोग हाल ही में टैग किए गए वाक्य के प्रत्येक टैग के लिए प्रायिकता प्राप्त करने के लिए किया जाता है।

वाक्य को पार्स करना

ParserModel वर्ग

यह वर्ग पूर्वनिर्धारित मॉडल का प्रतिनिधित्व करता है जिसका उपयोग दिए गए वाक्य को पार्स करने के लिए किया जाता है। यह वर्ग पैकेज का हैopennlp.tools.parser

इस वर्ग का निर्माणकर्ता स्वीकार करता है InputStream पार्सर मॉडल फ़ाइल का उद्देश्य (en-parserchunking.bin)।

Parser Factory class

यह वर्ग पैकेज का है opennlp.tools.parser और इसका उपयोग पार्सर बनाने के लिए किया जाता है।

S.No तरीके और विवरण
1

create()

यह एक स्थिर विधि है और इसका उपयोग पार्सर ऑब्जेक्ट बनाने के लिए किया जाता है। यह विधि पार्सर मॉडल फ़ाइल के Filestream ऑब्जेक्ट को स्वीकार करती है।

ParserTool वर्ग

यह वर्ग किसका है opennlp.tools.cmdline.parser पैकेज और, इसका उपयोग सामग्री को पार्स करने के लिए किया जाता है।

S.No तरीके और विवरण
1

parseLine()

की यह विधि ParserToolक्लास का उपयोग ओपनएनएलपी में कच्चे पाठ को पार्स करने के लिए किया जाता है। इस विधि को स्वीकार करता है -

  • स्ट्रिंग के पाठ को दर्शाने वाला एक स्ट्रिंग चर।
  • एक पार्सर वस्तु।
  • एक पूर्णांक जो no.of पार्स का प्रतिनिधित्व करता है।

ठस

ChunkerModel वर्ग

यह वर्ग पूर्वनिर्धारित मॉडल का प्रतिनिधित्व करता है जो एक वाक्य को छोटे खंडों में विभाजित करने के लिए उपयोग किया जाता है। यह वर्ग पैकेज का हैopennlp.tools.chunker

इस वर्ग का निर्माणकर्ता स्वीकार करता है InputStream की वस्तु chunker मॉडल फ़ाइल (enchunker.bin)।

ChunkerME वर्ग

यह वर्ग नाम के पैकेज का है opennlp.tools.chunker और इसका उपयोग दिए गए वाक्य को छोटे छोटे भाग में विभाजित करने के लिए किया जाता है।

S.No तरीके और विवरण
1

chunk()

इस विधि का उपयोग दिए गए वाक्य को छोटे छोटे भाग में विभाजित करने के लिए किया जाता है। यह एक वाक्य के टोकन स्वीकार करता है औरPकला OSमापदंडों के रूप में चोटियों का टैग।

2

probs()

यह विधि अंतिम डिकोड किए गए अनुक्रम की संभावनाओं को वापस करती है।