AI - Verarbeitung natürlicher Sprache

Natural Language Processing (NLP) bezeichnet eine KI-Methode zur Kommunikation mit intelligenten Systemen unter Verwendung einer natürlichen Sprache wie Englisch.

Die Verarbeitung der natürlichen Sprache ist erforderlich, wenn ein intelligentes System wie ein Roboter gemäß Ihren Anweisungen ausgeführt werden soll, wenn Sie die Entscheidung eines dialogbasierten klinischen Expertensystems usw. hören möchten.

Der Bereich NLP umfasst die Herstellung von Computern, um nützliche Aufgaben mit den natürlichen Sprachen auszuführen, die Menschen verwenden. Die Ein- und Ausgabe eines NLP-Systems kann sein -

  • Speech
  • Geschriebener Text

Komponenten von NLP

Es gibt zwei Komponenten von NLP als gegeben -

Natural Language Understanding (NLU)

Das Verständnis umfasst die folgenden Aufgaben:

  • Abbildung der angegebenen Eingabe in natürlicher Sprache in nützliche Darstellungen.
  • Analyse verschiedener Aspekte der Sprache.

Erzeugung natürlicher Sprache (NLG)

Es ist der Prozess, aus einer internen Repräsentation aussagekräftige Phrasen und Sätze in Form einer natürlichen Sprache zu erzeugen.

Es beinhaltet -

  • Text planning - Es umfasst das Abrufen der relevanten Inhalte aus der Wissensdatenbank.

  • Sentence planning - Dazu gehört die Auswahl der erforderlichen Wörter, die Bildung aussagekräftiger Phrasen und die Festlegung des Satztons.

  • Text Realization - Es ordnet den Satzplan der Satzstruktur zu.

Die NLU ist schwieriger als die NLG.

Schwierigkeiten in der NLU

NL hat eine extrem reiche Form und Struktur.

Es ist sehr vieldeutig. Es kann verschiedene Mehrdeutigkeitsebenen geben -

  • Lexical ambiguity - Es ist auf einer sehr primitiven Ebene wie der Wortebene.

  • Zum Beispiel das Wort "Brett" als Substantiv oder Verb behandeln?

  • Syntax Level ambiguity - Ein Satz kann auf verschiedene Arten analysiert werden.

  • Zum Beispiel: "Er hat den Käfer mit der roten Kappe angehoben." - Hat er den Käfer mit einer Kappe angehoben oder hat er einen Käfer mit roter Kappe angehoben?

  • Referential ambiguity- Mit Pronomen auf etwas verweisen. Zum Beispiel ging Rima nach Gauri. Sie sagte: "Ich bin müde." - Genau wer ist müde?

  • Eine Eingabe kann unterschiedliche Bedeutungen haben.

  • Viele Eingaben können dasselbe bedeuten.

NLP-Terminologie

  • Phonology - Es geht darum, Schall systematisch zu organisieren.

  • Morphology - Es ist eine Studie über die Konstruktion von Wörtern aus primitiven bedeutungsvollen Einheiten.

  • Morpheme - Es ist eine primitive Bedeutungseinheit in einer Sprache.

  • Syntax- Es bezieht sich auf das Anordnen von Wörtern, um einen Satz zu bilden. Dazu gehört auch die Bestimmung der strukturellen Rolle von Wörtern im Satz und in Phrasen.

  • Semantics - Es geht um die Bedeutung von Wörtern und darum, wie Wörter zu aussagekräftigen Phrasen und Sätzen kombiniert werden können.

  • Pragmatics - Es geht darum, Sätze in verschiedenen Situationen zu verwenden und zu verstehen und wie die Interpretation des Satzes beeinflusst wird.

  • Discourse - Es geht darum, wie der unmittelbar vorhergehende Satz die Interpretation des nächsten Satzes beeinflussen kann.

  • World Knowledge - Es beinhaltet das allgemeine Wissen über die Welt.

Schritte in NLP

Es gibt allgemeine fünf Schritte -

  • Lexical Analysis- Es beinhaltet die Identifizierung und Analyse der Struktur von Wörtern. Lexikon einer Sprache bedeutet die Sammlung von Wörtern und Phrasen in einer Sprache. Die lexikalische Analyse unterteilt den gesamten Teil von txt in Absätze, Sätze und Wörter.

  • Syntactic Analysis (Parsing)- Es beinhaltet die Analyse der Wörter im Satz auf Grammatik und die Anordnung der Wörter in einer Weise, die die Beziehung zwischen den Wörtern zeigt. Der Satz wie "Die Schule geht an den Jungen" wird vom englischen syntaktischen Analysator abgelehnt.

  • Semantic Analysis- Es bezieht die genaue Bedeutung oder die Wörterbuchbedeutung aus dem Text. Der Text wird auf Aussagekraft geprüft. Dazu werden syntaktische Strukturen und Objekte in der Aufgabendomäne zugeordnet. Der semantische Analysator ignoriert Sätze wie „heißes Eis“.

  • Discourse Integration- Die Bedeutung eines Satzes hängt von der Bedeutung des Satzes unmittelbar davor ab. Darüber hinaus bewirkt es auch die Bedeutung eines unmittelbar folgenden Satzes.

  • Pragmatic Analysis- Währenddessen wird das Gesagte dahingehend neu interpretiert, was es tatsächlich bedeutete. Es geht darum, jene Aspekte der Sprache abzuleiten, die Kenntnisse der realen Welt erfordern.

Implementierungsaspekte der syntaktischen Analyse

Es gibt eine Reihe von Algorithmen, die Forscher für die syntaktische Analyse entwickelt haben, aber wir betrachten nur die folgenden einfachen Methoden:

  • Kontextfreie Grammatik
  • Top-Down-Parser

Lassen Sie uns sie im Detail sehen -

Kontextfreie Grammatik

Es ist die Grammatik, die aus Regeln mit einem einzelnen Symbol auf der linken Seite der Umschreiberegeln besteht. Lassen Sie uns eine Grammatik erstellen, um einen Satz zu analysieren -

"Der Vogel pickt die Körner"

Articles (DET)- a | ein | das

Nouns- Vogel | Vögel | Getreide | Körner

Noun Phrase (NP)- Artikel + Nomen | Artikel + Adjektiv + Nomen

= DET N | DET ADJ N.

Verbs- pickt | picken | gepickt

Verb Phrase (VP)- NP V | V NP

Adjectives (ADJ)- schön | klein | zwitschern

Der Analysebaum zerlegt den Satz in strukturierte Teile, damit der Computer ihn leicht verstehen und verarbeiten kann. Damit der Parsing-Algorithmus diesen Analysebaum erstellen kann, muss eine Reihe von Umschreiberegeln erstellt werden, die beschreiben, welche Baumstrukturen zulässig sind.

Diese Regeln besagen, dass ein bestimmtes Symbol im Baum durch eine Folge anderer Symbole erweitert werden kann. Gemäß der Logikregel erster Ordnung ist die Zeichenfolge, die aus NP gefolgt von VP besteht, ein Satz, wenn zwei Zeichenfolgen Nomenphrase (NP) und Verbalphrase (VP) vorhanden sind. Die Umschreibregeln für den Satz lauten wie folgt:

S → NP VP

NP → DET N | DET ADJ N

VP → V NP

Lexocon −

DET → a | das

ADJ → schön | sich niederlassen

N → Vogel | Vögel | Getreide | Körner

V → picken | pickt | picken

Der Analysebaum kann wie gezeigt erstellt werden -

Beachten Sie nun die obigen Umschreiberegeln. Da V durch beide ersetzt werden kann, "picken" oder "picken", können Sätze wie "Der Vogel pickt die Körner" fälschlicherweise zugelassen werden. dh der Subjekt-Verb-Übereinstimmungsfehler wird als korrekt genehmigt.

Merit - Der einfachste Grammatikstil, daher weit verbreitet.

Demerits −

  • Sie sind nicht sehr präzise. Zum Beispiel ist "Die Körner picken den Vogel" laut Parser syntaktisch korrekt, aber selbst wenn es keinen Sinn ergibt, nimmt der Parser es als korrekten Satz.

  • Um eine hohe Präzision zu erzielen, müssen mehrere Grammatiksätze vorbereitet werden. Möglicherweise sind völlig andere Regelsätze zum Parsen von Singular- und Pluralvariationen, passiven Sätzen usw. erforderlich, was zur Erstellung großer Regelsätze führen kann, die nicht verwaltet werden können.

Top-Down-Parser

Hier beginnt der Parser mit dem S-Symbol und versucht, es in eine Folge von Terminalsymbolen umzuschreiben , die den Klassen der Wörter im Eingabesatz entspricht, bis es vollständig aus Terminalsymbolen besteht.

Diese werden dann mit dem Eingabesatz überprüft, um festzustellen, ob er übereinstimmt. Wenn nicht, wird der Prozess mit einem anderen Regelwerk erneut gestartet. Dies wird wiederholt, bis eine bestimmte Regel gefunden wird, die die Struktur des Satzes beschreibt.

Merit - Es ist einfach zu implementieren.

Demerits −

  • Dies ist ineffizient, da der Suchvorgang wiederholt werden muss, wenn ein Fehler auftritt.
  • Langsame Arbeitsgeschwindigkeit.