OpenNLP - Referenzierte API
In diesem Kapitel werden wir die Klassen und Methoden diskutieren, die wir in den folgenden Kapiteln dieses Tutorials verwenden werden.
Satzerkennung
Satzmodellklasse
Diese Klasse stellt das vordefinierte Modell dar, mit dem die Sätze im angegebenen Rohtext erkannt werden. Diese Klasse gehört zum Paketopennlp.tools.sentdetect.
Der Konstruktor dieser Klasse akzeptiert eine InputStream Objekt der Satzdetektor-Modelldatei (en-sent.bin).
SatzDetectorME-Klasse
Diese Klasse gehört zum Paket opennlp.tools.sentdetectund es enthält Methoden, um den Rohtext in Sätze aufzuteilen. Diese Klasse verwendet ein Maximum-Entropie-Modell, um Zeichen am Ende des Satzes in einer Zeichenfolge auszuwerten und festzustellen, ob sie das Ende eines Satzes bedeuten.
Im Folgenden sind die wichtigen Methoden dieser Klasse aufgeführt.
S.No. | Methoden und Beschreibung |
---|---|
1 | sentDetect() Diese Methode wird verwendet, um die Sätze im übergebenen Rohtext zu erkennen. Es akzeptiert eine String-Variable als Parameter und gibt ein String-Array zurück, das die Sätze aus dem angegebenen Rohtext enthält. |
2 | sentPosDetect() Diese Methode wird verwendet, um die Positionen der Sätze im angegebenen Text zu ermitteln. Diese Methode akzeptiert eine Zeichenfolgenvariable, die den Satz darstellt, und gibt ein Array von Objekten des Typs zurückSpan. Die benannte Klasse Span des opennlp.tools.util Paket wird verwendet, um die Start- und End-Ganzzahl von Mengen zu speichern. |
3 | getSentenceProbabilities() Diese Methode gibt die Wahrscheinlichkeiten zurück, die den letzten Aufrufen von zugeordnet sind sentDetect() Methode. |
Tokenisierung
TokenizerModel-Klasse
Diese Klasse stellt das vordefinierte Modell dar, mit dem der angegebene Satz tokenisiert wird. Diese Klasse gehört zum Paketopennlp.tools.tokenizer.
Der Konstruktor dieser Klasse akzeptiert a InputStream Objekt der Tokenizer-Modelldatei (entoken.bin).
Klassen
Zur Durchführung der Tokenisierung bietet die OpenNLP-Bibliothek drei Hauptklassen. Alle drei Klassen implementieren die aufgerufene SchnittstelleTokenizer.
S.No. | Klassen und Beschreibung |
---|---|
1 | SimpleTokenizer Diese Klasse markiert den angegebenen Rohtext mithilfe von Zeichenklassen. |
2 | WhitespaceTokenizer Diese Klasse verwendet Leerzeichen, um den angegebenen Text zu tokenisieren. |
3 | TokenizerME Diese Klasse konvertiert Rohtext in separate Token. Es verwendet Maximum Entropy, um seine Entscheidungen zu treffen. |
Diese Klassen enthalten die folgenden Methoden.
S.No. | Methoden und Beschreibung |
---|---|
1 | tokenize() Diese Methode wird verwendet, um den Rohtext zu tokenisieren. Diese Methode akzeptiert eine String-Variable als Parameter und gibt ein Array von Strings (Token) zurück. |
2 | sentPosDetect() Diese Methode wird verwendet, um die Positionen oder Bereiche der Token abzurufen. Es akzeptiert den Satz (oder) den Rohtext in Form der Zeichenfolge und gibt ein Array von Objekten des Typs zurückSpan. |
Zusätzlich zu den beiden oben genannten Methoden kann die TokenizerME Klasse hat die getTokenProbabilities() Methode.
S.No. | Methoden und Beschreibung |
---|---|
1 | getTokenProbabilities() Diese Methode wird verwendet, um die Wahrscheinlichkeiten abzurufen, die mit den letzten Aufrufen von verbunden sind tokenizePos() Methode. |
NameEntityRecognition
TokenNameFinderModel-Klasse
Diese Klasse stellt das vordefinierte Modell dar, mit dem die benannten Entitäten im angegebenen Satz gefunden werden. Diese Klasse gehört zum Paketopennlp.tools.namefind.
Der Konstruktor dieser Klasse akzeptiert a InputStream Objekt der Namensfinder-Modelldatei (enner-person.bin).
NameFinderME-Klasse
Die Klasse gehört zum Paket opennlp.tools.namefindund es enthält Methoden zum Ausführen der NER-Aufgaben. Diese Klasse verwendet ein maximales Entropiemodell, um die benannten Entitäten im angegebenen Rohtext zu finden.
S.No. | Methoden und Beschreibung |
---|---|
1 | find() Diese Methode wird verwendet, um die Namen im Rohtext zu erkennen. Es akzeptiert eine String-Variable, die den Rohtext als Parameter darstellt, und gibt ein Array von Objekten vom Typ Span zurück. |
2 | probs() Diese Methode wird verwendet, um die Wahrscheinlichkeiten der zuletzt decodierten Sequenz zu erhalten. |
Die Wortarten finden
POSModel-Klasse
Diese Klasse stellt das vordefinierte Modell dar, mit dem die Wortarten des angegebenen Satzes markiert werden. Diese Klasse gehört zum Paketopennlp.tools.postag.
Der Konstruktor dieser Klasse akzeptiert a InputStream Objekt der pos-tagger-Modelldatei (enpos-maxent.bin).
POSTaggerME-Klasse
Diese Klasse gehört zum Paket opennlp.tools.postagund es wird verwendet, um die Wortarten des gegebenen Rohtextes vorherzusagen. Es verwendet Maximum Entropy, um seine Entscheidungen zu treffen.
S.No. | Methoden und Beschreibung |
---|---|
1 | tag() Diese Methode wird verwendet, um den Satz von Token-POS-Tags zuzuweisen. Diese Methode akzeptiert ein Array von Token (String) als Parameter und gibt ein Tag (Array) zurück. |
2 | getSentenceProbabilities() Diese Methode wird verwendet, um die Wahrscheinlichkeiten für jedes Tag des kürzlich markierten Satzes abzurufen. |
Parsen des Satzes
ParserModel-Klasse
Diese Klasse stellt das vordefinierte Modell dar, mit dem der angegebene Satz analysiert wird. Diese Klasse gehört zum Paketopennlp.tools.parser.
Der Konstruktor dieser Klasse akzeptiert a InputStream Objekt der Parser-Modelldatei (en-parserchunking.bin).
Parser Factory Klasse
Diese Klasse gehört zum Paket opennlp.tools.parser und es wird verwendet, um Parser zu erstellen.
S.No. | Methoden und Beschreibung |
---|---|
1 | create() Dies ist eine statische Methode, mit der ein Parserobjekt erstellt wird. Diese Methode akzeptiert das Filestream-Objekt der Parser-Modelldatei. |
ParserTool-Klasse
Diese Klasse gehört zur opennlp.tools.cmdline.parser Paket und wird verwendet, um den Inhalt zu analysieren.
S.No. | Methoden und Beschreibung |
---|---|
1 | parseLine() Diese Methode der ParserToolKlasse wird verwendet, um den Rohtext in OpenNLP zu analysieren. Diese Methode akzeptiert -
|
Chunking
ChunkerModel-Klasse
Diese Klasse stellt das vordefinierte Modell dar, mit dem ein Satz in kleinere Teile unterteilt wird. Diese Klasse gehört zum Paketopennlp.tools.chunker.
Der Konstruktor dieser Klasse akzeptiert a InputStream Gegenstand der chunker Modelldatei (enchunker.bin).
ChunkerME-Klasse
Diese Klasse gehört zum genannten Paket opennlp.tools.chunker und es wird verwendet, um den gegebenen Satz in kleinere Stücke zu teilen.
S.No. | Methoden und Beschreibung |
---|---|
1 | chunk() Diese Methode wird verwendet, um den angegebenen Satz in kleinere Teile aufzuteilen. Es akzeptiert Token eines Satzes undPKunst Of SPeech-Tags als Parameter. |
2 | probs() Diese Methode gibt die Wahrscheinlichkeiten der zuletzt decodierten Sequenz zurück. |