NLP-語義の曖昧性解消
単語は、文中の使用状況に基づいて異なる意味を持つことを理解しています。私たちが人間の言語について話す場合、多くの単語はそれらの出現の文脈に応じて複数の方法で解釈される可能性があるため、それらもあいまいです。
自然言語処理(NLP)における語義の曖昧性解消は、特定の文脈で単語を使用することによって単語のどの意味が活性化されるかを決定する能力として定義できます。構文的または意味的な語彙のあいまいさは、NLPシステムが直面する最初の問題の1つです。高レベルの精度を備えた品詞(POS)タガーは、Wordの構文のあいまいさを解決できます。一方、意味のあいまいさを解決する問題は、WSD(語義の曖昧性解消)と呼ばれます。意味のあいまいさを解決することは、構文のあいまいさを解決することよりも困難です。
たとえば、単語に存在する明確な意味の2つの例を考えてみましょう。 “bass” −
低音が聞こえます。
彼は焼きバスを食べるのが好きです。
単語の出現 bass明確な意味を明確に示しています。最初の文では、それは意味しますfrequency そして第二に、それは意味します fish。したがって、WSDによって明確化される場合、上記の文の正しい意味は次のように割り当てることができます。
低音/周波数音が聞こえます。
彼は焼きバス/魚を食べるのが好きです。
WSDの評価
WSDの評価には、次の2つの入力が必要です。
辞書
WSDを評価するための最初の入力は辞書です。これは、曖昧さを解消する感覚を指定するために使用されます。
テストコーパス
WSDに必要なもう1つの入力は、ターゲットまたは正しい感覚を持つ高注釈のテストコーパスです。テストコーパスには2つのタイプがあります&minsu;
Lexical sample −この種のコーパスはシステムで使用され、単語の小さなサンプルを明確にする必要があります。
All-words −この種のコーパスはシステムで使用され、実行中のテキスト内のすべての単語を明確にすることが期待されます。
語義曖昧性解消(WSD)へのアプローチと方法
WSDへのアプローチと方法は、語義の曖昧性解消に使用される知識のソースに従って分類されます。
ここで、WSDの4つの従来の方法を見てみましょう。
辞書ベースまたは知識ベースの方法
名前が示すように、明確にするために、これらの方法は主に辞書、宝物、語彙知識ベースに依存しています。彼らは、曖昧さを解消するためにコーパスの証拠を使用しません。Lesk法は、1986年にMichaelLeskによって導入された独創的な辞書ベースの方法です。Leskアルゴリズムの基礎となるLesk定義は次のとおりです。“measure overlap between sense definitions for all words in context”。ただし、2000年に、KilgarriffとRosensweigは、簡略化されたLeskの定義を次のように示しました。“measure overlap between sense definitions of word and current context”、これはさらに、一度に1つの単語の正しい意味を識別することを意味します。ここで、現在のコンテキストは、周囲の文または段落内の単語のセットです。
監視ありメソッド
曖昧さを解消するために、機械学習手法では、意味のある注釈付きコーパスを使用してトレーニングを行います。これらの方法は、文脈がそれ自体で感覚を明確にするのに十分な証拠を提供できることを前提としています。これらの方法では、知識と推論という言葉は不要と見なされます。文脈は、単語の「特徴」のセットとして表されます。周囲の単語に関する情報も含まれています。サポートベクターマシンとメモリベースの学習は、WSDへの最も成功した教師あり学習アプローチです。これらの方法は、手動でセンスタグを付けたコーパスを大量に使用するため、作成に非常に費用がかかります。
半教師あり方法
トレーニングコーパスがないため、ほとんどの語義曖昧性解消アルゴリズムは半教師あり学習方法を使用します。これは、半教師ありメソッドがラベル付きデータとラベルなしデータの両方を使用するためです。これらの方法では、非常に少量の注釈付きテキストと大量のプレーンな注釈なしテキストが必要です。半教師あり手法で使用される手法は、シードデータからのブートストラップです。
教師なしメソッド
これらの方法は、同様の感覚が同様の文脈で発生することを前提としています。そのため、文脈の類似性の尺度を使用して単語の出現をクラスタリングすることにより、テキストから感覚を誘発することができます。このタスクは、単語感覚の誘導または識別と呼ばれます。教師なし手法は、手作業に依存しないため、知識獲得のボトルネックを克服する大きな可能性を秘めています。
語義曖昧性解消(WSD)の応用
語義曖昧性解消(WSD)は、言語テクノロジーのほぼすべてのアプリケーションに適用されます。
WSDの範囲を見てみましょう-
機械翻訳
機械翻訳またはMTは、WSDの最も明白なアプリケーションです。MTでは、異なる意味で異なる翻訳を持つ単語の字句の選択は、WSDによって行われます。MTの感覚は、ターゲット言語の単語として表されます。ほとんどの機械翻訳システムは、明示的なWSDモジュールを使用していません。
情報検索(IR)
情報検索(IR)は、ドキュメントリポジトリからの情報、特にテキスト情報の編成、保存、検索、および評価を処理するソフトウェアプログラムとして定義できます。このシステムは基本的に、ユーザーが必要な情報を見つけるのを支援しますが、質問の回答を明示的に返すことはありません。WSDは、IRシステムに提供されるクエリのあいまいさを解決するために使用されます。MTと同様に、現在のIRシステムはWSDモジュールを明示的に使用せず、ユーザーがクエリに十分なコンテキストを入力して関連するドキュメントのみを取得するという概念に依存しています。
テキストマイニングと情報抽出(IE)
ほとんどのアプリケーションでは、テキストを正確に分析するためにWSDが必要です。たとえば、WSDは、インテリジェントな収集システムが正しい単語のフラグ付けを行うのに役立ちます。たとえば、医療インテリジェントシステムでは、「医療薬物」ではなく「違法薬物」のフラグを立てる必要がある場合があります。
辞書編集
最新の辞書編集はコーパスベースであるため、WSDと辞書編集はループで連携できます。辞書編集を使用すると、WSDは、大まかな経験的感覚のグループ化と、統計的に有意な感覚の文脈的指標を提供します。
語義曖昧性解消(WSD)の難しさ
以下は、語義曖昧性解消(WSD)が直面するいくつかの困難です。
辞書の違い
WSDの主な問題は、異なる感覚が非常に密接に関連している可能性があるため、単語の感覚を決定することです。異なる辞書やシソーラスでさえ、単語の感覚への異なる分割を提供できます。
さまざまなアプリケーションのためのさまざまなアルゴリズム
WSDのもう1つの問題は、アプリケーションごとにまったく異なるアルゴリズムが必要になる可能性があることです。たとえば、機械翻訳では、ターゲット単語の選択という形を取ります。情報検索では、センスインベントリは必要ありません。
裁判官間の差異
WSDのもう1つの問題は、WSDシステムは一般に、タスクの結果を人間のタスクと比較してテストすることです。これは、裁判官間の分散の問題と呼ばれます。
言葉の意味の離散性
WSDのもう1つの問題は、単語を個別のサブ意味に簡単に分割できないことです。