OpenNLP - odniesiony interfejs API

W tym rozdziale omówimy klasy i metody, których będziemy używać w kolejnych rozdziałach tego samouczka.

Wykrywanie zdań

SentenceModel, klasa

Ta klasa reprezentuje predefiniowany model, który jest używany do wykrywania zdań w danym surowym tekście. Ta klasa należy do pakietuopennlp.tools.sentdetect.

Konstruktor tej klasy akceptuje plik InputStream obiekt pliku modelu detektora zdań (en-sent.bin).

SentenceDetectorME, klasa

Ta klasa należy do pakietu opennlp.tools.sentdetecti zawiera metody dzielenia surowego tekstu na zdania. Ta klasa używa modelu maksymalnej entropii do oceny znaków końca zdania w ciągu w celu określenia, czy oznaczają one koniec zdania.

Poniżej przedstawiono ważne metody tej klasy.

S.Nr Metody i opis
1

sentDetect()

Ta metoda służy do wykrywania zdań w przekazanym nieprzetworzonym tekście. Przyjmuje zmienną String jako parametr i zwraca tablicę String, która przechowuje zdania z podanego surowego tekstu.

2

sentPosDetect()

Ta metoda służy do wykrywania pozycji zdań w danym tekście. Ta metoda przyjmuje zmienną łańcuchową reprezentującą zdanie i zwraca tablicę obiektów tego typuSpan.

Klasa o nazwie Span z opennlp.tools.util pakiet służy do przechowywania początkowej i końcowej liczby całkowitej zestawów.

3

getSentenceProbabilities()

Ta metoda zwraca prawdopodobieństwa skojarzone z ostatnimi wywołaniami funkcji sentDetect() metoda.

Tokenizacja

Klasa TokenizerModel

Ta klasa reprezentuje predefiniowany model, który jest używany do tokenizacji danego zdania. Ta klasa należy do pakietuopennlp.tools.tokenizer.

Konstruktor tej klasy akceptuje plik InputStream obiekt pliku modelu tokenizera (entoken.bin).

Zajęcia

Aby przeprowadzić tokenizację, biblioteka OpenNLP udostępnia trzy główne klasy. Wszystkie trzy klasy implementują interfejs o nazwieTokenizer.

S.Nr Klasy i opis
1

SimpleTokenizer

Ta klasa tokenizuje dany surowy tekst za pomocą klas znaków.

2

WhitespaceTokenizer

Ta klasa używa białych znaków do tokenizacji podanego tekstu.

3

TokenizerME

Ta klasa konwertuje surowy tekst na oddzielne tokeny. Używa maksymalnej entropii do podejmowania decyzji.

Te klasy zawierają następujące metody.

S.Nr Metody i opis
1

tokenize()

Ta metoda służy do tokenizacji surowego tekstu. Ta metoda przyjmuje zmienną String jako parametr i zwraca tablicę Strings (tokenów).

2

sentPosDetect()

Ta metoda służy do uzyskania pozycji lub rozpiętości tokenów. Przyjmuje zdanie (lub) surowy tekst w postaci łańcucha i zwraca tablicę obiektów tego typuSpan.

Oprócz powyższych dwóch metod TokenizerME klasa ma getTokenProbabilities() metoda.

S.Nr Metody i opis
1

getTokenProbabilities()

Ta metoda służy do pobierania prawdopodobieństw skojarzonych z ostatnimi wywołaniami metody tokenizePos() metoda.

NameEntityRecognition

Klasa TokenNameFinderModel

Ta klasa reprezentuje predefiniowany model, który jest używany do wyszukiwania nazwanych jednostek w danym zdaniu. Ta klasa należy do pakietuopennlp.tools.namefind.

Konstruktor tej klasy akceptuje plik InputStream obiekt pliku modelu wyszukiwarki nazw (enner-person.bin).

NameFinderME klasa

Klasa należy do pakietu opennlp.tools.namefindi zawiera metody wykonywania zadań NER. Ta klasa używa modelu maksymalnej entropii, aby znaleźć nazwane jednostki w danym surowym tekście.

S.Nr Metody i opis
1

find()

Ta metoda służy do wykrywania nazw w surowym tekście. Przyjmuje zmienną typu String reprezentującą surowy tekst jako parametr i zwraca tablicę obiektów typu Span.

2

probs()

Ta metoda służy do uzyskania prawdopodobieństwa ostatniej dekodowanej sekwencji.

Znajdowanie części mowy

Klasa POSModel

Ta klasa reprezentuje predefiniowany model, który jest używany do oznaczania części mowy danego zdania. Ta klasa należy do pakietuopennlp.tools.postag.

Konstruktor tej klasy akceptuje plik InputStream obiekt pliku modelu pos-taggera (enpos-maxent.bin).

Klasa POSTaggerME

Ta klasa należy do pakietu opennlp.tools.postagi służy do przewidywania części mowy danego surowego tekstu. Używa maksymalnej entropii do podejmowania decyzji.

S.Nr Metody i opis
1

tag()

Ta metoda służy do przypisywania zdania znaczników tokenów POS. Ta metoda przyjmuje tablicę tokenów (String) jako parametr i zwraca tagi (tablicę).

2

getSentenceProbabilities()

Ta metoda jest używana do uzyskania prawdopodobieństw dla każdego znacznika ostatnio oznaczonego zdania.

Analiza zdania

ParserModel, klasa

Ta klasa reprezentuje predefiniowany model, który jest używany do analizowania danego zdania. Ta klasa należy do pakietuopennlp.tools.parser.

Konstruktor tej klasy akceptuje plik InputStream obiekt pliku modelu parsera (en-parserchunking.bin).

Parser Factory, klasa

Ta klasa należy do pakietu opennlp.tools.parser i jest używany do tworzenia parserów.

S.Nr Metody i opis
1

create()

Jest to metoda statyczna i służy do tworzenia obiektu analizatora składni. Ta metoda akceptuje obiekt Filestream pliku modelu parsera.

ParserTool, klasa

Ta klasa należy do opennlp.tools.cmdline.parser pakiet i służy do analizowania zawartości.

S.Nr Metody i opis
1

parseLine()

Ta metoda ParserToolklasa jest używana do analizowania surowego tekstu w OpenNLP. Ta metoda akceptuje -

  • Zmienna typu String reprezentująca tekst do przeanalizowania.
  • Obiekt parsera.
  • Liczba całkowita reprezentująca liczbę przeprowadzanych analiz.

Kruszenie

Klasa ChunkerModel

Ta klasa reprezentuje predefiniowany model, który służy do dzielenia zdania na mniejsze części. Ta klasa należy do pakietuopennlp.tools.chunker.

Konstruktor tej klasy akceptuje plik InputStream obiekt chunker plik modelu (enchunker.bin).

Klasa ChunkerME

Ta klasa należy do pakietu o nazwie opennlp.tools.chunker i służy do podzielenia danego zdania na mniejsze części.

S.Nr Metody i opis
1

chunk()

Ta metoda służy do podzielenia danego zdania na mniejsze części. Akceptuje tokeny wyroku iPsztuka Ofa SPeech tagi jako parametry.

2

probs()

Ta metoda zwraca prawdopodobieństwa ostatniej zdekodowanej sekwencji.