OpenNLP-参照されたAPI

この章では、このチュートリアルの後続の章で使用するクラスとメソッドについて説明します。

文の検出

SentenceModelクラス

このクラスは、指定された生のテキスト内の文を検出するために使用される事前定義されたモデルを表します。このクラスはパッケージに属していますopennlp.tools.sentdetect

このクラスのコンストラクターは、 InputStream 文検出器モデルファイル(en-sent.bin)の目的語。

SentenceDetectorMEクラス

このクラスはパッケージに属しています opennlp.tools.sentdetect生のテキストを文に分割するメソッドが含まれています。このクラスは、最大エントロピーモデルを使用して、文字列内の文末文字を評価し、それらが文の終わりを示しているかどうかを判断します。

このクラスの重要なメソッドは次のとおりです。

S.No メソッドと説明
1

sentDetect()

このメソッドは、渡された生のテキスト内の文を検出するために使用されます。String変数をパラメーターとして受け取り、指定された生のテキストからの文を保持するString配列を返します。

2

sentPosDetect()

このメソッドは、指定されたテキスト内の文の位置を検出するために使用されます。このメソッドは、文を表す文字列変数を受け入れ、タイプのオブジェクトの配列を返しますSpan

名前の付いたクラス Spanopennlp.tools.util パッケージは、セットの開始整数と終了整数を格納するために使用されます。

3

getSentenceProbabilities()

このメソッドは、への最新の呼び出しに関連付けられた確率を返します sentDetect() 方法。

トークン化

TokenizerModelクラス

このクラスは、指定された文をトークン化するために使用される事前定義されたモデルを表します。このクラスはパッケージに属していますopennlp.tools.tokenizer

このクラスのコンストラクターは、 InputStream トークナイザーモデルファイル(entoken.bin)のオブジェクト。

クラス

トークン化を実行するために、OpenNLPライブラリは3つの主要なクラスを提供します。3つのクラスはすべて、と呼ばれるインターフェイスを実装しますTokenizer

S.No クラスと説明
1

SimpleTokenizer

このクラスは、文字クラスを使用して、指定された生のテキストをトークン化します。

2

WhitespaceTokenizer

このクラスは、空白を使用して、指定されたテキストをトークン化します。

3

TokenizerME

このクラスは、生のテキストを個別のトークンに変換します。最大エントロピーを使用して決定を下します。

これらのクラスには、次のメソッドが含まれています。

S.No メソッドと説明
1

tokenize()

このメソッドは、生のテキストをトークン化するために使用されます。このメソッドは、パラメーターとしてString変数を受け入れ、String(トークン)の配列を返します。

2

sentPosDetect()

このメソッドは、トークンの位置またはスパンを取得するために使用されます。文字列の形式で文(または)生のテキストを受け入れ、タイプのオブジェクトの配列を返しますSpan

上記の2つの方法に加えて、 TokenizerME クラスには getTokenProbabilities() 方法。

S.No メソッドと説明
1

getTokenProbabilities()

このメソッドは、への最新の呼び出しに関連付けられた確率を取得するために使用されます tokenizePos() 方法。

NameEntityRecognition

TokenNameFinderModelクラス

このクラスは、指定された文で名前付きエンティティを検索するために使用される事前定義されたモデルを表します。このクラスはパッケージに属していますopennlp.tools.namefind

このクラスのコンストラクターは、 InputStream ネームファインダーモデルファイル(enner-person.bin)のオブジェクト。

NameFinderMEクラス

クラスはパッケージに属しています opennlp.tools.namefindまた、NERタスクを実行するためのメソッドが含まれています。このクラスは、最大エントロピーモデルを使用して、指定された生のテキスト内の名前付きエンティティを検索します。

S.No メソッドと説明
1

find()

このメソッドは、生のテキスト内の名前を検出するために使用されます。生のテキストを表すString変数をパラメーターとして受け取り、Span型のオブジェクトの配列を返します。

2

probs()

このメソッドは、最後にデコードされたシーケンスの確率を取得するために使用されます。

品詞を見つける

POSModelクラス

このクラスは、特定の文の品詞にタグを付けるために使用される事前定義されたモデルを表します。このクラスはパッケージに属していますopennlp.tools.postag

このクラスのコンストラクターは、 InputStream pos-taggerモデルファイル(enpos-maxent.bin)のオブジェクト。

POSTaggerMEクラス

このクラスはパッケージに属しています opennlp.tools.postagまた、特定の生のテキストの品詞を予測するために使用されます。最大エントロピーを使用して決定を下します。

S.No メソッドと説明
1

tag()

このメソッドは、トークンPOSタグの文を割り当てるために使用されます。このメソッドは、トークンの配列(String)をパラメーターとして受け取り、タグ(array)を返します。

2

getSentenceProbabilities()

このメソッドは、最近タグ付けされた文の各タグの確率を取得するために使用されます。

文の解析

ParserModelクラス

このクラスは、指定された文を解析するために使用される事前定義されたモデルを表します。このクラスはパッケージに属していますopennlp.tools.parser

このクラスのコンストラクターは、 InputStream パーサーモデルファイル(en-parserchunking.bin)のオブジェクト。

パーサーファクトリクラス

このクラスはパッケージに属しています opennlp.tools.parser パーサーを作成するために使用されます。

S.No メソッドと説明
1

create()

これは静的メソッドであり、パーサーオブジェクトを作成するために使用されます。このメソッドは、パーサーモデルファイルのFilestreamオブジェクトを受け入れます。

ParserToolクラス

このクラスはに属します opennlp.tools.cmdline.parser パッケージと、コンテンツを解析するために使用されます。

S.No メソッドと説明
1

parseLine()

この方法の ParserToolクラスは、OpenNLPの生のテキストを解析するために使用されます。このメソッドは次を受け入れます-

  • 解析するテキストを表す文字列変数。
  • パーサーオブジェクト。
  • 実行される解析の数を表す整数。

チャンキング

ChunkerModelクラス

このクラスは、文を小さなチャンクに分割するために使用される事前定義されたモデルを表します。このクラスはパッケージに属していますopennlp.tools.chunker

このクラスのコンストラクターは、 InputStream のオブジェクト chunker モデルファイル(enchunker.bin)。

ChunkerMEクラス

このクラスは、という名前のパッケージに属しています opennlp.tools.chunker そしてそれは与えられた文をより小さなチャンクに分割するために使用されます。

S.No メソッドと説明
1

chunk()

このメソッドは、指定された文を小さなチャンクに分割するために使用されます。文のトークンを受け入れ、P芸術 Of Sパラメータとしてのピーチタグ。

2

probs()

このメソッドは、最後にデコードされたシーケンスの確率を返します。