OpenNLP - указанный API
В этой главе мы обсудим классы и методы, которые мы будем использовать в последующих главах этого руководства.
Обнаружение приговора
SentenceModel класс
Этот класс представляет предопределенную модель, которая используется для обнаружения предложений в данном исходном тексте. Этот класс принадлежит пакетуopennlp.tools.sentdetect.
Конструктор этого класса принимает InputStream объект файла модели детектора предложений (en-sent.bin).
SentenceDetectorME класс
Этот класс принадлежит пакету opennlp.tools.sentdetectи он содержит методы для разделения необработанного текста на предложения. Этот класс использует модель максимальной энтропии для оценки символов конца предложения в строке, чтобы определить, обозначают ли они конец предложения.
Ниже приведены важные методы этого класса.
S.No | Методы и описание |
---|---|
1 |
sentDetect() Этот метод используется для обнаружения предложений в переданном ему необработанном тексте. Он принимает переменную String в качестве параметра и возвращает массив String, содержащий предложения из заданного необработанного текста. |
2 |
sentPosDetect() Этот метод используется для определения позиций предложений в данном тексте. Этот метод принимает строковую переменную, представляющую предложение, и возвращает массив объектов типаSpan. Класс с именем Span из opennlp.tools.util package используется для хранения начального и конечного целых чисел наборов. |
3 |
getSentenceProbabilities() Этот метод возвращает вероятности, связанные с самыми последними вызовами sentDetect() метод. |
Токенизация
TokenizerModel класс
Этот класс представляет предопределенную модель, которая используется для разметки данного предложения. Этот класс принадлежит пакетуopennlp.tools.tokenizer.
Конструктор этого класса принимает InputStream объект файла модели токенизатора (entoken.bin).
Классы
Для выполнения токенизации библиотека OpenNLP предоставляет три основных класса. Все три класса реализуют интерфейс под названиемTokenizer.
S.No | Классы и описание |
---|---|
1 |
SimpleTokenizer Этот класс токенизирует данный необработанный текст, используя классы символов. |
2 |
WhitespaceTokenizer Этот класс использует пробелы для токенизации данного текста. |
3 |
TokenizerME Этот класс преобразует необработанный текст в отдельные токены. Он использует максимальную энтропию для принятия решений. |
Эти классы содержат следующие методы.
S.No | Методы и описание |
---|---|
1 |
tokenize() Этот метод используется для токенизации необработанного текста. Этот метод принимает в качестве параметра строковую переменную и возвращает массив строк (токенов). |
2 |
sentPosDetect() Этот метод используется для получения позиций или промежутков токенов. Он принимает предложение (или) необработанный текст в виде строки и возвращает массив объектов типаSpan. |
В дополнение к двум вышеупомянутым методам, TokenizerME класс имеет getTokenProbabilities() метод.
S.No | Методы и описание |
---|---|
1 |
getTokenProbabilities() Этот метод используется для получения вероятностей, связанных с самыми последними вызовами tokenizePos() метод. |
ИмяEntityRecognition
TokenNameFinderModel класс
Этот класс представляет предопределенную модель, которая используется для поиска названных сущностей в данном предложении. Этот класс принадлежит пакетуopennlp.tools.namefind.
Конструктор этого класса принимает InputStream объект файла модели поиска имен (enner-person.bin).
NameFinderME класс
Класс принадлежит пакету opennlp.tools.namefindи он содержит методы для выполнения задач NER. Этот класс использует модель максимальной энтропии для поиска названных сущностей в заданном исходном тексте.
S.No | Методы и описание |
---|---|
1 |
find() Этот метод используется для обнаружения имен в необработанном тексте. Он принимает в качестве параметра строковую переменную, представляющую необработанный текст, и возвращает массив объектов типа Span. |
2 |
probs() Этот метод используется для получения вероятностей последней декодированной последовательности. |
Поиск частей речи
POSModel класс
Этот класс представляет собой предопределенную модель, которая используется для обозначения частей речи данного предложения. Этот класс принадлежит пакетуopennlp.tools.postag.
Конструктор этого класса принимает InputStream объект файла модели pos-tagger (enpos-maxent.bin).
POSTaggerME класс
Этот класс принадлежит пакету opennlp.tools.postagи он используется для предсказания частей речи данного исходного текста. Он использует максимальную энтропию для принятия решений.
S.No | Методы и описание |
---|---|
1 |
tag() Этот метод используется для присвоения предложения токенов POS-тегам. Этот метод принимает в качестве параметра массив токенов (String) и возвращает теги (массив). |
2 |
getSentenceProbabilities() Этот метод используется для получения вероятностей для каждого тега недавно помеченного предложения. |
Разбор предложения
ParserModel класс
Этот класс представляет собой предопределенную модель, которая используется для анализа данного предложения. Этот класс принадлежит пакетуopennlp.tools.parser.
Конструктор этого класса принимает InputStream объект файла модели парсера (en-parserchunking.bin).
Класс Parser Factory
Этот класс принадлежит пакету opennlp.tools.parser и используется для создания парсеров.
S.No | Методы и описание |
---|---|
1 |
create() Это статический метод, который используется для создания объекта парсера. Этот метод принимает объект Filestream файла модели анализатора. |
ParserTool класс
Этот класс принадлежит к opennlp.tools.cmdline.parser package и он используется для анализа содержимого.
S.No | Методы и описание |
---|---|
1 |
parseLine() Этот метод ParserToolКласс используется для анализа необработанного текста в OpenNLP. Этот метод принимает -
|
Разбивка
ChunkerModel класс
Этот класс представляет собой предопределенную модель, которая используется для разделения предложения на более мелкие части. Этот класс принадлежит пакетуopennlp.tools.chunker.
Конструктор этого класса принимает InputStream объект chunker файл модели (enchunker.bin).
ChunkerME класс
Этот класс принадлежит пакету с именем opennlp.tools.chunker и используется для разделения данного предложения на более мелкие части.
S.No | Методы и описание |
---|---|
1 |
chunk() Этот метод используется для разделения данного предложения на более мелкие части. Он принимает символы предложения иPискусство Oж Speech теги как параметры. |
2 |
probs() Этот метод возвращает вероятности последней декодированной последовательности. |