PoS-Tagging (Part of Speech)

Tagging ist eine Art Klassifizierung, die als automatische Zuordnung der Beschreibung zu den Token definiert werden kann. Hier wird der Deskriptor als Tag bezeichnet, das einen Teil der Sprache, semantische Informationen usw. darstellen kann.

Wenn wir nun über PoS-Tagging (Part-of-Speech) sprechen, kann dies als der Prozess definiert werden, bei dem dem angegebenen Wort einer der Wortteile zugewiesen wird. Es wird allgemein als POS-Tagging bezeichnet. In einfachen Worten können wir sagen, dass POS-Tagging eine Aufgabe ist, jedes Wort in einem Satz mit seinem entsprechenden Wortteil zu kennzeichnen. Wir wissen bereits, dass Teile der Sprache Substantive, Verben, Adverbien, Adjektive, Pronomen, Konjunktionen und deren Unterkategorien umfassen.

Der größte Teil des POS-Tagging fällt unter das POS-Tagging auf Regelbasis, das stochastische POS-Tagging und das transformationsbasierte Tagging.

Regelbasiertes POS-Tagging

Eine der ältesten Tagging-Techniken ist das regelbasierte POS-Tagging. Regelbasierte Tagger verwenden Wörterbuch oder Lexikon, um mögliche Tags zum Markieren jedes Wortes zu erhalten. Wenn das Wort mehr als ein mögliches Tag hat, verwenden regelbasierte Tagger handgeschriebene Regeln, um das richtige Tag zu identifizieren. Die Disambiguierung kann auch beim regelbasierten Markieren durchgeführt werden, indem die sprachlichen Merkmale eines Wortes zusammen mit seinen vorhergehenden und folgenden Wörtern analysiert werden. Angenommen, das vorhergehende Wort eines Wortes ist ein Artikel, dann muss das Wort ein Substantiv sein.

Wie der Name schon sagt, werden alle derartigen Informationen beim regelbasierten POS-Tagging in Form von Regeln codiert. Diese Regeln können entweder sein -

  • Kontextmusterregeln

  • Oder, als regulärer Ausdruck in Automaten mit endlichen Zuständen kompiliert, mit lexikalisch mehrdeutiger Satzdarstellung geschnitten.

Wir können das regelbasierte POS-Tagging auch an seiner zweistufigen Architektur verstehen -

  • First stage - In der ersten Phase wird ein Wörterbuch verwendet, um jedem Wort eine Liste potenzieller Wortarten zuzuweisen.

  • Second stage - In der zweiten Stufe werden große Listen handgeschriebener Disambiguierungsregeln verwendet, um die Liste für jedes Wort in einen einzelnen Wortteil zu sortieren.

Eigenschaften der regelbasierten POS-Kennzeichnung

Regelbasierte POS-Tagger besitzen die folgenden Eigenschaften:

  • Diese Tagger sind wissensbasierte Tagger.

  • Die Regeln für das regelbasierte POS-Tagging werden manuell erstellt.

  • Die Informationen werden in Form von Regeln codiert.

  • Wir haben eine begrenzte Anzahl von Regeln, ungefähr 1000.

  • Glättung und Sprachmodellierung werden in regelbasierten Taggern explizit definiert.

Stochastisches POS-Tagging

Eine andere Technik des Markierens ist das stochastische POS-Markieren. Hier stellt sich nun die Frage, welches Modell stochastisch sein kann. Das Modell, das Häufigkeit oder Wahrscheinlichkeit (Statistik) enthält, kann als stochastisch bezeichnet werden. Eine beliebige Anzahl verschiedener Ansätze für das Problem des Teil-der-Sprache-Markierens kann als stochastischer Tagger bezeichnet werden.

Der einfachste stochastische Tagger wendet die folgenden Ansätze für das POS-Tagging an:

Worthäufigkeitsansatz

Bei diesem Ansatz unterscheiden die stochastischen Tagger die Wörter basierend auf der Wahrscheinlichkeit, dass ein Wort mit einem bestimmten Tag auftritt. Wir können auch sagen, dass das Tag, das am häufigsten mit dem Wort im Trainingssatz angetroffen wird, dasjenige ist, das einer mehrdeutigen Instanz dieses Wortes zugewiesen ist. Das Hauptproblem bei diesem Ansatz ist, dass es zu einer unzulässigen Folge von Tags kommen kann.

Tag-Sequenzwahrscheinlichkeiten

Es ist ein weiterer Ansatz des stochastischen Markierens, bei dem der Markierer die Wahrscheinlichkeit des Auftretens einer bestimmten Folge von Markierungen berechnet. Es wird auch als n-Gramm-Ansatz bezeichnet. Es wird so genannt, weil das beste Tag für ein gegebenes Wort durch die Wahrscheinlichkeit bestimmt wird, mit der es bei den n vorherigen Tags auftritt.

Eigenschaften der stochastischen POST-Markierung

Stochastische POS-Tagger besitzen die folgenden Eigenschaften:

  • Diese POS-Kennzeichnung basiert auf der Wahrscheinlichkeit des Auftretens einer Kennzeichnung.

  • Es erfordert Trainingskorpus

  • Es würde keine Wahrscheinlichkeit für die Wörter geben, die im Korpus nicht existieren.

  • Es werden verschiedene Testkorpus verwendet (außer Trainingskorpus).

  • Es ist das einfachste POS-Tagging, da es die häufigsten Tags auswählt, die einem Wort im Trainingskorpus zugeordnet sind.

Transformationsbasiertes Tagging

Transformationsbasiertes Tagging wird auch als Brill-Tagging bezeichnet. Es ist eine Instanz des transformationsbasierten Lernens (TBL), eines regelbasierten Algorithmus zum automatischen Markieren des POS für den angegebenen Text. TBL ermöglicht es uns, Sprachkenntnisse in lesbarer Form zu haben, und transformiert einen Zustand mithilfe von Transformationsregeln in einen anderen Zustand.

Es lässt sich von den beiden zuvor erläuterten Taggern inspirieren - regelbasiert und stochastisch. Wenn wir eine Ähnlichkeit zwischen regelbasiertem und Transformations-Tagger sehen, basiert sie wie regelbasiert auch auf den Regeln, die angeben, welche Tags welchen Wörtern zugewiesen werden müssen. Wenn wir andererseits Ähnlichkeiten zwischen stochastischem und Transformations-Tagger sehen, dann ist es wie bei stochastischen eine maschinelle Lerntechnik, bei der Regeln automatisch aus Daten induziert werden.

Arbeiten des transformationsbasierten Lernens (TBL)

Um die Funktionsweise und das Konzept transformationsbasierter Tagger zu verstehen, müssen wir die Funktionsweise transformationsbasierten Lernens verstehen. Beachten Sie die folgenden Schritte, um die Funktionsweise von TBL zu verstehen:

  • Start with the solution - Die TBL beginnt normalerweise mit einer Lösung des Problems und arbeitet in Zyklen.

  • Most beneficial transformation chosen - In jedem Zyklus wählt TBL die vorteilhafteste Transformation.

  • Apply to the problem - Die im letzten Schritt gewählte Transformation wird auf das Problem angewendet.

Der Algorithmus stoppt, wenn die ausgewählte Transformation in Schritt 2 weder mehr Wert hinzufügt noch keine Transformationen mehr ausgewählt werden müssen. Eine solche Art des Lernens eignet sich am besten für Klassifizierungsaufgaben.

Vorteile des transformationsbasierten Lernens (TBL)

Die Vorteile von TBL sind wie folgt:

  • Wir lernen einen kleinen Satz einfacher Regeln und diese Regeln reichen zum Markieren aus.

  • Entwicklung und Debugging sind in TBL sehr einfach, da die erlernten Regeln leicht zu verstehen sind.

  • Die Komplexität beim Markieren wird verringert, da in TBL maschinell erlernte und vom Menschen generierte Regeln miteinander verflochten sind.

  • Transformationsbasierter Tagger ist viel schneller als Markov-Modell-Tagger.

Nachteile des transformationsbasierten Lernens (TBL)

Die Nachteile von TBL sind wie folgt:

  • Transformationsbasiertes Lernen (TBL) bietet keine Tag-Wahrscheinlichkeiten.

  • In TBL ist die Trainingszeit besonders bei großen Korpora sehr lang.

POS-Tagging mit verstecktem Markov-Modell (HMM)

Bevor wir uns eingehend mit dem HMM-POS-Tagging befassen, müssen wir das Konzept des Hidden Markov Model (HMM) verstehen.

Verstecktes Markov-Modell

Ein HMM-Modell kann als doppelt eingebettetes stochastisches Modell definiert werden, bei dem der zugrunde liegende stochastische Prozess verborgen ist. Dieser verborgene stochastische Prozess kann nur durch eine andere Reihe von stochastischen Prozessen beobachtet werden, die die Folge von Beobachtungen erzeugen.

Beispiel

Zum Beispiel wird eine Sequenz von Experimenten zum Werfen versteckter Münzen durchgeführt, und wir sehen nur die Beobachtungssequenz, die aus Kopf und Zahl besteht. Die tatsächlichen Details des Prozesses - wie viele Münzen verwendet wurden, in welcher Reihenfolge sie ausgewählt wurden - sind uns verborgen. Durch Beobachtung dieser Abfolge von Kopf und Zahl können wir mehrere HMMs erstellen, um die Abfolge zu erklären. Es folgt eine Form des Hidden Markov-Modells für dieses Problem:

Wir haben angenommen, dass es im HMM zwei Zustände gibt und jeder der Zustände der Auswahl einer unterschiedlichen vorgespannten Münze entspricht. Die folgende Matrix gibt die Zustandsübergangswahrscheinlichkeiten an -

$$ A = \ begin {bmatrix} a11 & a12 \\ a21 & a22 \ end {bmatrix} $$

Hier,

  • aij = Wahrscheinlichkeit des Übergangs von einem Zustand in einen anderen von i nach j.

  • a11 + a12= 1 und a 21 + a 22 = 1

  • P1 = Wahrscheinlichkeit der Köpfe der ersten Münze, dh die Vorspannung der ersten Münze.

  • P2 = Wahrscheinlichkeit der Köpfe der zweiten Münze, dh die Vorspannung der zweiten Münze.

Wir können auch ein HMM-Modell erstellen, vorausgesetzt, es gibt 3 Münzen oder mehr.

Auf diese Weise können wir HMM anhand der folgenden Elemente charakterisieren:

  • N die Anzahl der Zustände im Modell (im obigen Beispiel N = 2, nur zwei Zustände).

  • M, die Anzahl unterschiedlicher Beobachtungen, die mit jedem Zustand im obigen Beispiel auftreten können M = 2, dh H oder T).

  • A, die Zustandsübergangswahrscheinlichkeitsverteilung - die Matrix A im obigen Beispiel.

  • P die Wahrscheinlichkeitsverteilung der beobachtbaren Symbole in jedem Zustand (in unserem Beispiel P1 und P2).

  • Ich, die Ausgangszustandsverteilung.

Verwendung von HMM für die POS-Kennzeichnung

Der POS-Tagging-Prozess ist der Prozess des Findens der Sequenz von Tags, die höchstwahrscheinlich eine bestimmte Wortsequenz erzeugt hat. Wir können diesen POS-Prozess mithilfe eines Hidden Markov-Modells (HMM) modellierentags sind die hidden states das brachte die observable output, dh die words.

Mathematisch gesehen sind wir beim POS-Tagging immer daran interessiert, eine Tag-Sequenz (C) zu finden, die -

P (C|W)

Wo,

C = C 1 , C 2 , C 3 ... C T.

W = W 1 , W 2 , W 3 , W T.

Auf der anderen Seite der Medaille ist die Tatsache, dass wir viele statistische Daten benötigen, um solche Sequenzen vernünftig abzuschätzen. Um das Problem zu vereinfachen, können wir jedoch einige mathematische Transformationen zusammen mit einigen Annahmen anwenden.

Die Verwendung von HMM zur Durchführung eines POS-Tags ist ein Sonderfall der Bayes'schen Interferenz. Daher werden wir das Problem zunächst mit der Bayes-Regel wiederholen, die besagt, dass die oben erwähnte bedingte Wahrscheinlichkeit gleich - ist

(PROB (C1,..., CT) * PROB (W1,..., WT | C1,..., CT)) / PROB (W1,..., WT)

In all diesen Fällen können wir den Nenner eliminieren, da wir daran interessiert sind, die Sequenz C zu finden, die den obigen Wert maximiert. Dies hat keinen Einfluss auf unsere Antwort. Jetzt reduziert sich unser Problem darauf, die Sequenz C zu finden, die maximiert -

PROB (C1,..., CT) * PROB (W1,..., WT | C1,..., CT) (1)

Selbst nach dem Reduzieren des Problems im obigen Ausdruck würde es eine große Datenmenge erfordern. Wir können vernünftige Unabhängigkeitsannahmen über die beiden Wahrscheinlichkeiten im obigen Ausdruck treffen, um das Problem zu überwinden.

Erste Annahme

Die Wahrscheinlichkeit eines Tags hängt vom vorherigen (Bigram-Modell) oder den vorherigen zwei (Trigramm-Modell) oder vorherigen n-Tags (n-Gramm-Modell) ab, was mathematisch wie folgt erklärt werden kann:

PROB (C1,..., CT) = Πi=1..T PROB (Ci|Ci-n+1…Ci-1) (n-gram model)

PROB (C1,..., CT) = Πi=1..T PROB (Ci|Ci-1) (bigram model)

Der Beginn eines Satzes kann berücksichtigt werden, indem für jedes Tag eine Anfangswahrscheinlichkeit angenommen wird.

PROB (C1|C0) = PROB initial (C1)

Zweite Annahme

Die zweite Wahrscheinlichkeit in Gleichung (1) oben kann angenähert werden, indem angenommen wird, dass ein Wort in einer Kategorie erscheint, die von den Wörtern in den vorhergehenden oder nachfolgenden Kategorien unabhängig ist, was mathematisch wie folgt erklärt werden kann:

PROB (W1,..., WT | C1,..., CT) = Πi=1..T PROB (Wi|Ci)

Auf der Grundlage der beiden oben genannten Annahmen reduziert sich unser Ziel darauf, eine Sequenz C zu finden, die maximiert

Πi=1...T PROB(Ci|Ci-1) * PROB(Wi|Ci)

Die Frage, die sich hier stellt, ist, ob die Konvertierung des Problems in die obige Form uns wirklich geholfen hat. Die Antwort lautet - ja, das hat es. Wenn wir einen großen markierten Korpus haben, können die beiden Wahrscheinlichkeiten in der obigen Formel wie folgt berechnet werden:

PROB (Ci=VERB|Ci-1=NOUN) = (# of instances where Verb follows Noun) / (# of instances where Noun appears) (2)

PROB (Wi|Ci) = (# of instances where Wi appears in Ci) /(# of instances where Ci appears) (3)