Verarbeitung natürlicher Sprache - Syntaktische Analyse

Syntaktische Analyse oder Analyse oder Syntaxanalyse ist die dritte Phase von NLP. Der Zweck dieser Phase ist es, die genaue Bedeutung zu zeichnen, oder Sie können die Wörterbuchbedeutung aus dem Text sagen. Die Syntaxanalyse überprüft den Text im Vergleich zu den Regeln der formalen Grammatik auf Aussagekraft. Zum Beispiel würde der Satz wie "heißes Eis" vom semantischen Analysator abgelehnt.

In diesem Sinne kann syntaktische Analyse oder Analyse als der Prozess der Analyse der Zeichenfolgen in natürlicher Sprache definiert werden, die den Regeln der formalen Grammatik entsprechen. Der Ursprung des Wortes‘parsing’ ist vom lateinischen Wort ‘pars’ was bedeutet ‘part’.

Konzept des Parsers

Es wird verwendet, um die Aufgabe des Parsens zu implementieren. Es kann als die Softwarekomponente definiert werden, die zum Aufnehmen von Eingabedaten (Text) und zur strukturellen Darstellung der Eingabe nach Überprüfung der korrekten Syntax gemäß der formalen Grammatik entwickelt wurde. Außerdem wird eine Datenstruktur im Allgemeinen in Form eines Analysebaums oder eines abstrakten Syntaxbaums oder einer anderen hierarchischen Struktur erstellt.

Die Hauptrollen der Analyse umfassen -

  • Um einen Syntaxfehler zu melden.

  • Behebung eines häufig auftretenden Fehlers, damit die Verarbeitung des restlichen Programms fortgesetzt werden kann.

  • So erstellen Sie einen Analysebaum.

  • Symboltabelle erstellen.

  • Zwischenrepräsentationen (IR) erzeugen.

Arten der Analyse

Die Ableitung unterteilt das Parsen in die folgenden zwei Typen:

  • Top-Down-Analyse

  • Bottom-up-Analyse

Top-Down-Analyse

Bei dieser Art der Analyse beginnt der Parser mit der Erstellung des Analysebaums aus dem Startsymbol und versucht dann, das Startsymbol in die Eingabe umzuwandeln. Die häufigste Form der Topdown-Analyse verwendet eine rekursive Prozedur, um die Eingabe zu verarbeiten. Der Hauptnachteil der Analyse rekursiver Abstammung ist das Zurückverfolgen.

Bottom-up-Analyse

Bei dieser Art der Analyse beginnt der Parser mit dem Eingabesymbol und versucht, den Parser-Baum bis zum Startsymbol zu erstellen.

Konzept der Ableitung

Um die Eingabezeichenfolge zu erhalten, benötigen wir eine Folge von Produktionsregeln. Die Ableitung besteht aus einer Reihe von Produktionsregeln. Während des Parsens müssen wir das Nicht-Terminal festlegen, das ersetzt werden soll, sowie die Produktionsregel festlegen, mit deren Hilfe das Nicht-Terminal ersetzt werden soll.

Arten der Ableitung

In diesem Abschnitt lernen wir die beiden Arten von Ableitungen kennen, anhand derer entschieden werden kann, welches Nicht-Terminal durch die Produktionsregel ersetzt werden soll.

Ableitung ganz links

Bei der Ableitung ganz links wird die Sententialform einer Eingabe gescannt und von links nach rechts ersetzt. Das sententiale Formular wird in diesem Fall als links-sententiales Formular bezeichnet.

Ableitung ganz rechts

Bei der Ableitung ganz links wird die Sententialform einer Eingabe gescannt und von rechts nach links ersetzt. Das Sentential-Formular wird in diesem Fall als Right-Sentential-Formular bezeichnet.

Konzept des Analysebaums

Es kann als grafische Darstellung einer Ableitung definiert werden. Das Startsymbol der Ableitung dient als Wurzel des Analysebaums. In jedem Analysebaum sind die Blattknoten Terminals und die inneren Knoten sind keine Terminals. Eine Eigenschaft des Analysebaums ist, dass beim Durchlaufen der Reihenfolge die ursprüngliche Eingabezeichenfolge erzeugt wird.

Konzept der Grammatik

Grammatik ist sehr wichtig und wichtig, um die syntaktische Struktur wohlgeformter Programme zu beschreiben. Im literarischen Sinne bezeichnen sie syntaktische Regeln für die Konversation in natürlichen Sprachen. Die Linguistik hat seit Beginn natürlicher Sprachen wie Englisch, Hindi usw. versucht, Grammatiken zu definieren.

Die Theorie der formalen Sprachen ist auch in den Bereichen der Informatik anwendbar, hauptsächlich in Programmiersprachen und Datenstruktur. In der Sprache 'C' geben die genauen Grammatikregeln beispielsweise an, wie Funktionen aus Listen und Anweisungen erstellt werden.

Ein mathematisches Grammatikmodell wurde von gegeben Noam Chomsky im Jahr 1956, die für das Schreiben von Computersprachen wirksam ist.

Mathematisch kann eine Grammatik G formal als 4-Tupel (N, T, S, P) geschrieben werden, wobei -

  • N oder VN = Satz von nicht-terminalen Symbolen, dh Variablen.

  • T oder = Satz von Terminalsymbolen.

  • S = Startsymbol mit S ∈ N.

  • Pbezeichnet die Produktionsregeln für Terminals sowie Nicht-Terminals. Es hat die Form α → β, wobei α und β Zeichenfolgen auf V N ∪ ∑ sind und mindestens ein Symbol von α zu V N gehört

Phrasenstruktur oder Konstituentengrammatik

Die von Noam Chomsky eingeführte Grammatik der Phrasenstruktur basiert auf der Wahlkreisbeziehung. Deshalb wird es auch Wahlkreisgrammatik genannt. Es ist der Abhängigkeitsgrammatik entgegengesetzt.

Beispiel

Bevor wir ein Beispiel für die Wahlkreisgrammatik geben, müssen wir die grundlegenden Punkte der Wahlkreisgrammatik und der Wahlkreisbeziehung kennen.

  • Alle verwandten Frameworks betrachten die Satzstruktur als Wahlkreisbeziehung.

  • Die Wahlkreisbeziehung leitet sich aus der Subjekt-Prädikat-Unterteilung der lateinischen sowie der griechischen Grammatik ab.

  • Die grundlegende Klauselstruktur wird im Sinne von verstanden noun phrase NP und verb phrase VP.

Wir können den Satz schreiben “This tree is illustrating the constituency relation” wie folgt -

Abhängigkeitsgrammatik

Es ist der Wahlkreisgrammatik entgegengesetzt und basiert auf der Abhängigkeitsbeziehung. Es wurde von Lucien Tesniere eingeführt. Die Abhängigkeitsgrammatik (DG) ist der Wahlkreisgrammatik entgegengesetzt, da ihr Phrasenknoten fehlen.

Beispiel

Bevor wir ein Beispiel für die Abhängigkeitsgrammatik geben, müssen wir die grundlegenden Punkte der Abhängigkeitsgrammatik und der Abhängigkeitsbeziehung kennen.

  • In DG sind die sprachlichen Einheiten, dh Wörter, durch gerichtete Verknüpfungen miteinander verbunden.

  • Das Verb wird zum Zentrum der Klauselstruktur.

  • Alle anderen syntaktischen Einheiten sind in Bezug auf die gerichtete Verknüpfung mit dem Verb verbunden. Diese syntaktischen Einheiten werden aufgerufendependencies.

Wir können den Satz schreiben “This tree is illustrating the dependency relation” wie folgt;

Der Analysebaum, der die Konstituenz-Grammatik verwendet, wird als Wahlkreis-basierter Analysebaum bezeichnet. und die Analysebäume, die die Abhängigkeitsgrammatik verwenden, werden als abhängigkeitsbasierter Analysebaum bezeichnet.

Kontextfreie Grammatik

Die kontextfreie Grammatik, auch CFG genannt, ist eine Notation zur Beschreibung von Sprachen und eine Obermenge der regulären Grammatik. Es ist in der folgenden Abbildung zu sehen -

Definition von CFG

CFG besteht aus einem endlichen Satz von Grammatikregeln mit den folgenden vier Komponenten:

Satz Nicht-Terminals

Es wird mit V bezeichnet. Die Nicht-Terminals sind syntaktische Variablen, die die Sätze von Zeichenfolgen bezeichnen, die bei der Definition der von der Grammatik erzeugten Sprache weiter helfen.

Satz Terminals

Es wird auch Token genannt und durch Σ definiert. Strings werden mit den Grundsymbolen der Terminals gebildet.

Reihe von Produktionen

Es wird mit P bezeichnet. Das Set definiert, wie die Terminals und Nicht-Terminals kombiniert werden können. Jede Produktion (P) besteht aus Nicht-Terminals, einem Pfeil und Terminals (der Folge von Terminals). Nicht-Terminals werden als linke Seite der Produktion und Terminals als rechte Seite der Produktion bezeichnet.

Symbol starten

Die Produktion beginnt mit dem Startsymbol. Es wird mit dem Symbol S bezeichnet. Das nicht terminale Symbol wird immer als Startsymbol bezeichnet.