OpenNLP - Обзор

НЛП - это набор инструментов, используемых для получения значимой и полезной информации из источников на естественном языке, таких как веб-страницы и текстовые документы.

Что такое открытое НЛП?

Apache OpenNLP- это библиотека Java с открытым исходным кодом, которая используется для обработки текста на естественном языке. С помощью этой библиотеки вы можете создать эффективный сервис обработки текста.

OpenNLP предоставляет такие услуги, как токенизация, сегментация предложений, тегирование части речи, извлечение именованных сущностей, фрагментирование, синтаксический анализ и разрешение совместных ссылок и т. Д.

Особенности OpenNLP

Ниже приведены примечательные особенности OpenNLP:

  • Named Entity Recognition (NER) - Open NLP поддерживает NER, с помощью которого вы можете извлекать названия мест, людей и вещей даже во время обработки запросов.

  • Summarize - Использование summarize Функция, вы можете резюмировать абзацы, статьи, документы или их собрание в НЛП.

  • Searching - В OpenNLP заданная строка поиска или ее синонимы могут быть идентифицированы в данном тексте, даже если данное слово изменено или написано с ошибкой.

  • Tagging (POS) - Тегирование в НЛП используется для разделения текста на различные грамматические элементы для дальнейшего анализа.

  • Translation - В НЛП перевод помогает переводить один язык на другой.

  • Information grouping - Эта опция в НЛП группирует текстовую информацию в содержимом документа, как и Части речи.

  • Natural Language Generation - Он используется для создания информации из базы данных и автоматизации информационных отчетов, таких как анализ погоды или медицинские отчеты.

  • Feedback Analysis - Как следует из названия, НЛП собирает различные типы отзывов от людей относительно продуктов, чтобы проанализировать, насколько хорошо продукт завоевывает их сердца.

  • Speech recognition - Хотя анализировать человеческую речь сложно, в НЛП есть некоторые встроенные функции для этого требования.

Открыть NLP API

Библиотека Apache OpenNLP предоставляет классы и интерфейсы для выполнения различных задач обработки естественного языка, таких как обнаружение предложений, токенизация, поиск имени, тегирование частей речи, разбиение предложения, синтаксический анализ, разрешение совместных ссылок и категоризация документов.

В дополнение к этим задачам мы также можем обучать и оценивать наши собственные модели для любой из этих задач.

OpenNLP CLI

В дополнение к библиотеке OpenNLP также предоставляет интерфейс командной строки (CLI), где мы можем обучать и оценивать модели. Мы обсудим эту тему подробно в последней главе этого руководства.

Открытые модели НЛП

Для выполнения различных задач НЛП OpenNLP предоставляет набор предопределенных моделей. В этот набор входят модели для разных языков.

Скачивание моделей

Вы можете выполнить шаги, указанные ниже, чтобы загрузить предопределенные модели, предоставленные OpenNLP.

Step 1 - Откройте страницу индекса моделей OpenNLP, щелкнув следующую ссылку - http://opennlp.sourceforge.net/models-1.5/.

Step 2- Перейдя по данной ссылке, вы увидите список компонентов на разных языках и ссылки для их загрузки. Здесь вы можете получить список всех предопределенных моделей, предоставляемых OpenNLP.

Загрузите все эти модели в папку C:/OpenNLP_models/>, щелкнув соответствующие ссылки. Все эти модели зависят от языка, и при их использовании вы должны убедиться, что язык модели совпадает с языком входного текста.

История OpenNLP

  • В 2010 году OpenNLP вошел в инкубационный период Apache.

  • В 2011 году был выпущен Apache OpenNLP 1.5.2 Incubating, и в том же году он стал проектом Apache верхнего уровня.

  • В 2015 году был выпущен OpenNLP 1.6.0.