自然言語談話処理

AIの最も難しい問題は、コンピューターで自然言語を処理することです。言い換えれば、自然言語処理は、人工知能の最も難しい問題です。NLPの主要な問題について話す場合、NLPの主要な問題の1つは、談話処理です。つまり、発話がどのようにくっついて形成されるかについての理論とモデルを構築します。coherent discourse。実際、この言語は、映画のように孤立した無関係な文ではなく、常に、併置され、構造化され、一貫性のある文のグループで構成されています。これらの一貫した文のグループは、談話と呼ばれます。

コヒーレンスの概念

コヒーレンスと談話構造は多くの方法で相互に関連しています。コヒーレンスは、優れたテキストの特性とともに、自然言語生成システムの出力品質を評価するために使用されます。ここで生じる問題は、テキストが首尾一貫しているとはどういう意味ですか?新聞のすべてのページから1つの文を集めたとしたら、それは談話になるのでしょうか。もちろん違います。これらの文は一貫性を示さないためです。首尾一貫した談話は以下の特性を持たなければならない-

発話間のコヒーレンス関係

発話間に意味のあるつながりがあれば、談話は首尾一貫しているでしょう。この特性はコヒーレンス関係と呼ばれます。たとえば、発話間の関係を正当化するために、何らかの説明が必要です。

エンティティ間の関係

談話を首尾一貫させるもう一つの特性は、実体とのある種の関係がなければならないということです。このような種類のコヒーレンスは、エンティティベースのコヒーレンスと呼ばれます。

談話構造

談話に関する重要な問題は、談話がどのような構造を持たなければならないかということです。この質問への答えは、談話に適用したセグメンテーションによって異なります。談話のセグメンテーションは、大規模な談話の構造のタイプを決定することとして定義できます。談話セグメンテーションを実装することは非常に困難ですが、それは非常に重要ですinformation retrieval, text summarization and information extraction 一種のアプリケーション。

談話セグメンテーションのアルゴリズム

このセクションでは、談話セグメンテーションのアルゴリズムについて学習します。アルゴリズムは以下のとおりです-

教師なし談話セグメンテーション

教師なし談話セグメンテーションのクラスは、線形セグメンテーションとして表されることがよくあります。例を使用して、線形セグメンテーションのタスクを理解できます。この例では、テキストを複数段落単位にセグメント化するタスクがあります。単位は元のテキストのパッセージを表します。これらのアルゴリズムは、テキスト単位を結び付けるための特定の言語デバイスの使用として定義される可能性のある凝集性に依存しています。一方、語彙の結束は、同義語の使用のように、2つの単位内の2つ以上の単語間の関係によって示される結束です。

教師あり談話セグメンテーション

以前の方法には、手作業でラベル付けされたセグメント境界がありません。一方、教師あり談話セグメンテーションには、境界ラベル付きのトレーニングデータが必要です。入手はとても簡単です。教師あり談話セグメンテーションでは、談話マーカーまたはキューワードが重要な役割を果たします。談話マーカーまたはキューワードは、談話構造を示すように機能する単語またはフレーズです。これらの談話マーカーはドメイン固有です。

テキストの一貫性

語彙の繰り返しは、談話の構造を見つける方法ですが、一貫した談話であるという要件を満たしていません。首尾一貫した談話を達成するために、私たちは具体的に首尾一貫した関係に焦点を合わせなければなりません。コヒーレンス関係は、談話における発話間の可能な接続を定義することを私たちが知っているように。ヘブは次のような関係を提案しています-

私たちは2つの用語を取っています S0 そして S1 関連する2つの文の意味を表す-

結果

それは、用語によって主張された状態を推測します S0 によって主張された状態を引き起こす可能性があります S1。たとえば、2つのステートメントは、関係の結果を示しています。ラムは火事に巻き込まれました。彼の皮膚は焼けた。

説明

それは、によって主張された状態が S1 によって主張された状態を引き起こす可能性があります S0。たとえば、2つのステートメントは関係を示しています-ラムはシャムの友人と戦った。彼は酔っていた。

平行

のアサーションからp(a1、a2、…)を推測します S0 およびアサーションからのp(b1、b2、…) S1。ここで、aiとbiはすべてのiで類似しています。たとえば、2つのステートメントは並列です-ラムは車を望んでいました。シャムはお金が欲しかった。

精緻化

それは両方の主張から同じ命題Pを推測します- S0 そして S1たとえば、2つのステートメントは、関係の詳細を示しています。ラムはチャンディーガル出身でした。シャムはケララ州出身でした。

機会

これは、状態の変化が次のアサーションから推測できる場合に発生します。 S0、その最終状態はから推測することができます S1およびその逆。たとえば、2つのステートメントは、関係の機会を示しています。ラムは本を手に取りました。彼はそれをシャムに渡した。

階層的談話構造の構築

談話全体の一貫性は、一貫性関係間の階層構造によっても考慮することができます。たとえば、次のパッセージは階層構造として表すことができます-

  • S1 −ラムはお金を預けるために銀行に行きました。

  • S2 −その後、彼は電車に乗ってシャムの洋服店に行きました。

  • S3 −彼は服を買いたかった。

  • S4 −彼はパーティー用の新しい服を持っていません。

  • S5 −彼はまた彼の健康についてシャムと話をしたかった

照応解析

談話からの文章の解釈は別の重要なタスクであり、これを達成するには、誰またはどのエンティティが話しているのかを知る必要があります。ここでは、解釈の参照が重要な要素です。Referenceエンティティまたは個人を示すための言語表現として定義される場合があります。例えば、通路に、ラムABC銀行のマネージャーは、見た彼の店で友人シャムを。に会いに行きました、ラム、彼、彼のような言語表現は参照です。

同じように、 reference resolution どのエンティティがどの言語表現によって参照されるかを決定するタスクとして定義される場合があります。

参照解決で使用される用語

参照解決では、次の用語を使用します-

  • Referring expression−参照を実行するために使用される自然言語式は、参照式と呼ばれます。たとえば、上記で使用されているパッセージは参照式です。

  • Referent−参照されるのはエンティティです。たとえば、最後の例では、Ramは指示対象です。

  • Corefer− 2つの式を使用して同じエンティティを参照する場合、それらはコアファーと呼ばれます。例えば、Ram そして he コアファーです。

  • Antecedent−その用語には、別の用語を使用するためのライセンスがあります。例えば、Ram 参照の先行詞です he

  • Anaphora & Anaphoric−これは、以前に文に導入されたエンティティへの参照として定義される場合があります。そして、参照表現は照応と呼ばれます。

  • Discourse model −談話で参照されたエンティティの表現とそれらが関与している関係を含むモデル。

参照式の種類

ここで、さまざまなタイプの参照式を見てみましょう。以下に5種類の参照式について説明します。

不定代名詞句

そのような種類の参照は、談話の文脈において聞き手にとって新しい実体を表します。たとえば、ラムが彼に食べ物を持ってくるためにある日を回っていたという文の中で、いくつかは無期限の参照です。

明確な名詞句

上記とは反対に、そのような種類の参照は、談話の文脈で聞き手にとって新しいものでも識別可能なものでもないエンティティを表します。たとえば、「The Times of India」を読んでいた文の中で、The Times ofIndiaは明確な参考資料です。

代名詞

それは明確な参照の一形態です。たとえば、ラムはできるだけ大声で笑った。言葉he 代名詞参照式を表します。

指示語

これらは、単純な明確な代名詞とは異なる方法で示し、動作します。たとえば、これとそれは指示代名詞です。

名前

これは、最も単純なタイプの参照式です。人、組織、場所の名前にすることもできます。たとえば、上記の例では、Ramは名前を参照する式です。

照応タスク

2つの参照解決タスクを以下に説明します。

共参照解決

これは、同じエンティティを参照するテキスト内の参照式を見つけるタスクです。簡単に言えば、それはコアファー式を見つけるタスクです。相互参照式のセットは、共参照チェーンと呼ばれます。たとえば、彼、チーフマネージャー、および彼は、例として示されている最初の節の表現を参照しています。

共参照解決の制約

英語では、共参照解決の主な問題は代名詞itです。この背後にある理由は、代名詞には多くの用途があるためです。たとえば、彼と彼女のように参照できます。代名詞は、特定のものを指していないものも指します。たとえば、雨が降っています。本当にいいです。

代名詞照応解決

共参照解決とは異なり、代名詞照応解決は、単一の代名詞の先行詞を見つけるタスクとして定義できます。たとえば、代名詞は彼のものであり、代名詞照応解決のタスクは、Ramが先行詞であるため、Ramという単語を見つけることです。