品詞(PoS)のタグ付け
タグ付けは、トークンへの説明の自動割り当てとして定義できる一種の分類です。ここで、記述子はタグと呼ばれ、品詞、意味情報などの1つを表す場合があります。
ここで、品詞(PoS)のタグ付けについて説明すると、品詞の1つを特定の単語に割り当てるプロセスとして定義できます。これは一般にPOSタグ付けと呼ばれます。簡単に言えば、品詞タグ付けは、文の各単語に適切な品詞でラベルを付けるタスクであると言えます。品詞には、名詞、動詞、副詞、形容詞、代名詞、接続詞、およびそれらのサブカテゴリが含まれることはすでにわかっています。
ほとんどのPOSタグ付けは、ルールベースのPOSタグ付け、確率的POSタグ付け、および変換ベースのタグ付けに分類されます。
ルールベースのPOSタグ付け
タグ付けの最も古い手法の1つは、ルールベースのPOSタグ付けです。ルールベースのタガーは、辞書または辞書を使用して、各単語にタグを付けるための可能なタグを取得します。単語に複数の可能なタグがある場合、ルールベースのタガーは手書きのルールを使用して正しいタグを識別します。曖昧さの解消は、単語の言語的特徴をその前後の単語とともに分析することにより、ルールベースのタグ付けで実行することもできます。たとえば、単語の前の単語が冠詞である場合、単語は名詞でなければなりません。
名前が示すように、ルールベースのPOSタグ付けにおけるそのような種類の情報はすべて、ルールの形式でコード化されます。これらのルールは次のいずれかです。
コンテキストパターンルール
または、有限状態オートマトンにコンパイルされた正規表現として、字句的にあいまいな文の表現と交差しました。
また、ルールベースのPOSタグ付けは、その2段階のアーキテクチャによって理解できます。
First stage −最初の段階では、辞書を使用して、各単語に潜在的な品詞のリストを割り当てます。
Second stage −第2段階では、手書きの曖昧性解消ルールの大規模なリストを使用して、リストを単語ごとに1つの品詞に分類します。
ルールベースのPOSタグ付けのプロパティ
ルールベースのPOSタガーには、次のプロパティがあります。
これらのタガーは知識主導のタガーです。
ルールベースのPOSタグ付けのルールは、手動で作成されます。
情報はルールの形式でコード化されます。
ルールの数は限られており、約1000です。
平滑化と言語モデリングは、ルールベースのタガーで明示的に定義されています。
確率的POSタグ付け
タグ付けのもう1つの手法は、確率的POSタグ付けです。ここで発生する問題は、どのモデルが確率的である可能性があるかということです。頻度または確率(統計)を含むモデルは、確率論的と呼ぶことができます。品詞のタグ付けの問題に対するさまざまなアプローチは、確率的タガーと呼ばれます。
最も単純な確率的タガーは、POSタギングに次のアプローチを適用します-
単語頻度アプローチ
このアプローチでは、確率的タガーは、特定のタグで単語が出現する確率に基づいて単語の曖昧さを解消します。トレーニングセット内の単語で最も頻繁に遭遇するタグは、その単語のあいまいなインスタンスに割り当てられたタグであるとも言えます。このアプローチの主な問題は、許容できないタグのシーケンスが生成される可能性があることです。
タグシーケンスの確率
これは確率的タグ付けの別のアプローチであり、タガーはタグの特定のシーケンスが発生する確率を計算します。n-gramアプローチとも呼ばれます。特定の単語に最適なタグは、前のn個のタグで発生する確率によって決定されるため、このように呼ばれます。
確率的POSTタグ付けのプロパティ
確率的POSタガーは次の特性を持っています-
このPOSタグ付けは、タグが発生する確率に基づいています。
コーパスのトレーニングが必要です
コーパスに存在しない単語の可能性はありません。
さまざまなテストコーパス(トレーニングコーパス以外)を使用します。
トレーニングコーパスの単語に関連付けられた最も頻繁なタグを選択するため、これは最も単純なPOSタグ付けです。
変換ベースのタグ付け
変換ベースのタグ付けは、ブリルタグ付けとも呼ばれます。これは、変換ベースの学習(TBL)のインスタンスであり、指定されたテキストへのPOSの自動タグ付けのためのルールベースのアルゴリズムです。TBLは、読みやすい形式で言語知識を持つことを可能にし、変換規則を使用して1つの状態を別の状態に変換します。
これは、前に説明したタガー(ルールベースと確率論)の両方からインスピレーションを得ています。ルールベースと変換タガーの間に類似性が見られる場合、ルールベースと同様に、どのタグをどの単語に割り当てる必要があるかを指定するルールにも基づいています。一方、確率論的タガーと変換タガーの類似性を見ると、確率論的のように、データからルールが自動的に誘導される機械学習手法です。
変革ベースの学習(TBL)の働き
変換ベースのタガーの動作と概念を理解するには、変換ベースの学習の動作を理解する必要があります。TBLの動作を理解するには、次の手順を検討してください。
Start with the solution − TBLは通常、問題の解決策から始まり、周期的に機能します。
Most beneficial transformation chosen −各サイクルで、TBLは最も有益な変換を選択します。
Apply to the problem −最後のステップで選択した変換が問題に適用されます。
手順2で選択した変換で値が追加されないか、選択する変換がなくなると、アルゴリズムは停止します。このような種類の学習は、分類タスクに最適です。
変換ベースの学習(TBL)の利点
TBLの利点は次のとおりです-
簡単なルールの小さなセットを学び、これらのルールはタグ付けに十分です。
学習したルールは理解しやすいため、TBLでは開発とデバッグが非常に簡単です。
TBLには、機械学習されたルールと人間が生成したルールが混在しているため、タグ付けの複雑さが軽減されます。
変換ベースのタガーは、マルコフモデルのタガーよりもはるかに高速です。
変換ベースの学習(TBL)のデメリット
TBLのデメリットは次のとおりです。
変換ベースの学習(TBL)は、タグの確率を提供しません。
TBLでは、特に大規模なコーパスでは、トレーニング時間が非常に長くなります。
隠れマルコフモデル(HMM)の品詞タグ付け
HMM POSタグ付けを深く掘り下げる前に、隠れマルコフモデル(HMM)の概念を理解する必要があります。
隠れマルコフモデル
HMMモデルは、基礎となる確率過程が隠されている、二重に埋め込まれた確率モデルとして定義できます。この隠れた確率過程は、一連の観測を生成する別の一連の確率過程を通じてのみ観測できます。
例
たとえば、一連の隠されたコイントス実験が行われ、頭と尾からなる観察シーケンスのみが表示されます。プロセスの実際の詳細(使用されたコインの数、選択された順序)は、私たちには隠されています。この頭と尾のシーケンスを観察することにより、シーケンスを説明するためにいくつかのHMMを構築できます。以下は、この問題の隠れマルコフモデルの一形態です。
HMMには2つの状態があり、それぞれの状態が異なるバイアスされたコインの選択に対応していると仮定しました。次の行列は、状態遷移確率を示します-
$$ A = \ begin {bmatrix} a11&a12 \\ a21&a22 \ end {bmatrix} $$
ここに、
aij =ある状態から別の状態へのiからjへの遷移の確率。
a11 + a12= 1、21 + 22 = 1
P1 =最初のコインの頭の確率、つまり最初のコインのバイアス。
P2 = 2番目のコインの頭の確率、つまり2番目のコインのバイアス。
コインが3枚以上あると仮定してHMMモデルを作成することもできます。
このように、次の要素によってHMMを特徴付けることができます-
N、モデル内の状態の数(上記の例ではN = 2、2つの状態のみ)。
M、上記の例の各状態で表示される可能性のある個別の観測値の数M = 2、つまりHまたはT)。
A、状態遷移確率分布-上記の例の行列A。
P、各状態(この例ではP1とP2)での観測可能なシンボルの確率分布。
私、初期状態の分布。
POSタグ付けのためのHMMの使用
POSタグ付けプロセスは、特定の単語シーケンスを生成した可能性が最も高いタグのシーケンスを見つけるプロセスです。このPOSプロセスは、隠れマルコフモデル(HMM)を使用してモデル化できます。tags は hidden states それは observable output, つまり、 words。
数学的には、POSタグ付けでは、-を最大化するタグシーケンス(C)を見つけることに常に関心があります。
P (C|W)
どこ、
C = C 1、C 2、C 3 ... C T
W = W 1、W 2、W 3、W T
コインの反対側では、実際には、そのような種類のシーケンスを合理的に推定するには、多くの統計データが必要です。ただし、問題を単純化するために、いくつかの仮定とともにいくつかの数学的変換を適用できます。
POSタグ付けを行うためのHMMの使用は、ベイズ干渉の特殊なケースです。したがって、ベイズの定理を使用して問題を言い換えることから始めます。これは、上記の条件付き確率が-に等しいことを示しています。
(PROB (C1,..., CT) * PROB (W1,..., WT | C1,..., CT)) / PROB (W1,..., WT)
上記の値を最大化するシーケンスCを見つけることに関心があるため、これらすべての場合で分母を削除できます。これは私たちの答えには影響しません。さて、私たちの問題は、最大化するシーケンスCを見つけることになります。
PROB (C1,..., CT) * PROB (W1,..., WT | C1,..., CT) (1)
上記の式の問題を減らした後でも、大量のデータが必要になります。この問題を克服するために、上記の式の2つの確率について合理的な独立性の仮定を立てることができます。
最初の仮定
タグの確率は、前の1つ(バイグラムモデル)または前の2つ(トリグラムモデル)または前のn個のタグ(n-グラムモデル)に依存します。これは数学的に次のように説明できます。
PROB (C1,..., CT) = Πi=1..T PROB (Ci|Ci-n+1…Ci-1) (n-gram model)
PROB (C1,..., CT) = Πi=1..T PROB (Ci|Ci-1) (bigram model)
文の始まりは、各タグの初期確率を仮定することで説明できます。
PROB (C1|C0) = PROB initial (C1)
2番目の仮定
上記の式(1)の2番目の確率は、次のように数学的に説明できる前後のカテゴリの単語とは独立したカテゴリに単語が表示されると仮定することで概算できます。
PROB (W1,..., WT | C1,..., CT) = Πi=1..T PROB (Wi|Ci)
ここで、上記の2つの仮定に基づいて、私たちの目標は、最大化するシーケンスCを見つけることになります。
Πi=1...T PROB(Ci|Ci-1) * PROB(Wi|Ci)
ここで発生する問題は、問題を上記の形式に変換することが本当に役に立ちました。答えは-はい、そうです。タグ付けされた大きなコーパスがある場合、上記の式の2つの確率は次のように計算できます。
PROB (Ci=VERB|Ci-1=NOUN) = (# of instances where Verb follows Noun) / (# of instances where Noun appears) (2)
PROB (Wi|Ci) = (# of instances where Wi appears in Ci) /(# of instances where Ci appears) (3)