OpenNLP-概要
NLPは、Webページやテキストドキュメントなどの自然言語ソースから意味のある有用な情報を引き出すために使用されるツールのセットです。
Open NLPとは何ですか?
Apache OpenNLP自然言語テキストの処理に使用されるオープンソースのJavaライブラリです。このライブラリを使用して、効率的なテキスト処理サービスを構築できます。
OpenNLPは、トークン化、文のセグメンテーション、品詞のタグ付け、名前付きエンティティの抽出、チャンク化、解析、共参照の解決などのサービスを提供します。
OpenNLPの機能
以下はOpenNLPの注目すべき機能です-
Named Entity Recognition (NER) − Open NLPはNERをサポートしており、クエリの処理中でも場所、人、物の名前を抽出できます。
Summarize −を使用して summarize 機能を使用すると、段落、記事、ドキュメント、またはそれらのコレクションをNLPで要約できます。
Searching − OpenNLPでは、特定の単語が変更されたりスペルが間違っていたりしても、特定の検索文字列またはその同義語を特定のテキストで識別できます。
Tagging (POS) − NLPのタグ付けは、テキストをさまざまな文法要素に分割してさらに分析するために使用されます。
Translation − NLPでは、翻訳はある言語を別の言語に翻訳するのに役立ちます。
Information grouping − NLPのこのオプションは、品詞と同様に、ドキュメントのコンテンツ内のテキスト情報をグループ化します。
Natural Language Generation −データベースから情報を生成し、気象分析や医療レポートなどの情報レポートを自動化するために使用されます。
Feedback Analysis −名前が示すように、NLPは製品に関して人々からさまざまな種類のフィードバックを収集し、製品がどれだけ彼らの心をつかむことに成功しているかを分析します。
Speech recognition −人間の発話を分析することは困難ですが、NLPにはこの要件に対応するいくつかの機能が組み込まれています。
NLPAPIを開く
Apache OpenNLPライブラリは、文の検出、トークン化、名前の検索、品詞のタグ付け、文のチャンク化、解析、相互参照の解決、ドキュメントの分類など、自然言語処理のさまざまなタスクを実行するためのクラスとインターフェイスを提供します。
これらのタスクに加えて、これらのタスクのいずれかについて独自のモデルをトレーニングおよび評価することもできます。
OpenNLP CLI
ライブラリに加えて、OpenNLPは、モデルをトレーニングおよび評価できるコマンドラインインターフェイス(CLI)も提供します。このトピックについては、このチュートリアルの最後の章で詳しく説明します。
NLPモデルを開く
さまざまなNLPタスクを実行するために、OpenNLPは事前定義されたモデルのセットを提供します。このセットには、さまざまな言語のモデルが含まれています。
モデルのダウンロード
以下の手順に従って、OpenNLPが提供する定義済みモデルをダウンロードできます。
Step 1 −次のリンクをクリックして、OpenNLPモデルのインデックスページを開きます。 http://opennlp.sourceforge.net/models-1.5/。
Step 2−所定のリンクにアクセスすると、さまざまな言語のコンポーネントのリストとそれらをダウンロードするためのリンクが表示されます。ここでは、OpenNLPによって提供されるすべての定義済みモデルのリストを取得できます。
これらすべてのモデルをフォルダーにダウンロードします C:/OpenNLP_models/>、それぞれのリンクをクリックします。これらのモデルはすべて言語に依存しており、これらを使用するときは、モデルの言語が入力テキストの言語と一致していることを確認する必要があります。
OpenNLPの歴史
2010年、OpenNLPはApacheのインキュベーションに入りました。
2011年にApacheOpenNLP 1.5.2 Incubatingがリリースされ、同じ年にトップレベルのApacheプロジェクトとして卒業しました。
2015年、OpenNLPは1.6.0でリリースされました。