Traitement du langage naturel - Analyse syntaxique
L'analyse syntaxique ou l'analyse syntaxique ou l'analyse syntaxique est la troisième phase de la PNL. Le but de cette phase est de tirer une signification exacte, ou vous pouvez dire la signification du dictionnaire à partir du texte. L'analyse de la syntaxe vérifie la signification du texte par rapport aux règles de la grammaire formelle. Par exemple, la phrase comme «crème glacée chaude» serait rejetée par l'analyseur sémantique.
En ce sens, l'analyse syntaxique ou l'analyse syntaxique peut être définie comme le processus d'analyse des chaînes de symboles en langage naturel conformément aux règles de la grammaire formelle. L'origine du mot‘parsing’ vient du mot latin ‘pars’ ce qui signifie ‘part’.
Concept d'analyseur
Il est utilisé pour implémenter la tâche d'analyse. Il peut être défini comme le composant logiciel conçu pour prendre des données d'entrée (texte) et donner une représentation structurelle de l'entrée après avoir vérifié la syntaxe correcte selon la grammaire formelle. Il construit également une structure de données généralement sous la forme d'un arbre d'analyse ou d'un arbre de syntaxe abstraite ou d'une autre structure hiérarchique.
Les principaux rôles de l'analyse incluent -
Pour signaler toute erreur de syntaxe.
Pour récupérer d'une erreur courante afin que le traitement du reste du programme puisse être poursuivi.
Pour créer une arborescence d'analyse.
Pour créer une table de symboles.
Produire des représentations intermédiaires (IR).
Types d'analyse
La dérivation divise l'analyse en deux types suivants -
Analyse descendante
Analyse ascendante
Analyse descendante
Dans ce type d'analyse, l'analyseur commence à construire l'arborescence d'analyse à partir du symbole de début, puis essaie de transformer le symbole de début en entrée. La forme la plus courante d'analyse descendante utilise une procédure récursive pour traiter l'entrée. Le principal inconvénient de l'analyse de descente récursive est le retour en arrière.
Analyse ascendante
Dans ce type d'analyse, l'analyseur commence par le symbole d'entrée et tente de construire l'arborescence de l'analyseur jusqu'au symbole de départ.
Concept de dérivation
Afin d'obtenir la chaîne d'entrée, nous avons besoin d'une séquence de règles de production. La dérivation est un ensemble de règles de production. Lors de l'analyse, nous devons décider du non-terminal, qui doit être remplacé, ainsi que décider de la règle de production à l'aide de laquelle le non-terminal sera remplacé.
Types de dérivation
Dans cette section, nous allons découvrir les deux types de dérivations, qui peuvent être utilisées pour décider quel non-terminal à remplacer par une règle de production -
Dérivation la plus à gauche
Dans la dérivation la plus à gauche, la forme sententielle d'une entrée est scannée et remplacée de la gauche vers la droite. La forme sententielle dans ce cas est appelée la forme sententielle gauche.
Dérivation la plus à droite
Dans la dérivation la plus à gauche, la forme sententielle d'une entrée est scannée et remplacée de droite à gauche. La forme sententielle dans ce cas est appelée la forme sententielle droite.
Concept d'arbre d'analyse
Il peut être défini comme la représentation graphique d'une dérivation. Le symbole de début de la dérivation sert de racine de l'arborescence d'analyse. Dans chaque arbre d'analyse, les nœuds feuilles sont des terminaux et les nœuds intérieurs sont des non-terminaux. Une propriété de l'arborescence d'analyse est que le parcours dans l'ordre produira la chaîne d'entrée d'origine.
Concept de grammaire
La grammaire est très essentielle et importante pour décrire la structure syntaxique de programmes bien formés. Au sens littéraire, ils désignent des règles syntaxiques pour la conversation dans les langues naturelles. La linguistique a tenté de définir les grammaires depuis la création de langues naturelles comme l'anglais, l'hindi, etc.
La théorie des langages formels est également applicable dans les domaines de l'informatique principalement dans les langages de programmation et la structure de données. Par exemple, en langage «C», les règles de grammaire précises indiquent comment les fonctions sont créées à partir de listes et d'instructions.
Un modèle mathématique de grammaire a été donné par Noam Chomsky en 1956, qui est efficace pour écrire des langages informatiques.
Mathématiquement, une grammaire G peut être formellement écrite sous la forme d'un 4-tuple (N, T, S, P) où -
N ou VN = ensemble de symboles non terminaux, c'est-à-dire de variables.
T ou ∑ = ensemble de symboles terminaux.
S = Symbole de départ où S ∈ N
Pdésigne les règles de production pour les terminaux ainsi que les non-terminaux. Il a la forme α → β, où α et β sont des chaînes sur V N ∪ ∑ et au moins un symbole de α appartient à V N
Structure de phrase ou grammaire de circonscription
La grammaire de la structure des phrases, introduite par Noam Chomsky, est basée sur la relation de circonscription. C'est pourquoi on l'appelle aussi grammaire de circonscription. C'est l'opposé de la grammaire des dépendances.
Exemple
Avant de donner un exemple de grammaire de circonscription, nous devons connaître les points fondamentaux de la grammaire de circonscription et de la relation de circonscription.
Tous les cadres associés considèrent la structure de la phrase en termes de relation de circonscription.
La relation de circonscription est dérivée de la division sujet-prédicat de la grammaire latine et grecque.
La structure de la clause de base est comprise en termes de noun phrase NP et verb phrase VP.
On peut écrire la phrase “This tree is illustrating the constituency relation” comme suit -
Grammaire des dépendances
Elle est opposée à la grammaire de circonscription et basée sur une relation de dépendance. Il a été introduit par Lucien Tesniere. La grammaire de dépendance (DG) est opposée à la grammaire de circonscription car elle manque de nœuds de phrasé.
Exemple
Avant de donner un exemple de grammaire de dépendance, nous devons connaître les points fondamentaux sur la grammaire de dépendance et la relation de dépendance.
En DG, les unités linguistiques, c'est-à-dire les mots, sont reliées les unes aux autres par des liens dirigés.
Le verbe devient le centre de la structure de la clause.
Toutes les autres unités syntaxiques sont connectées au verbe en termes de lien dirigé. Ces unités syntaxiques sont appeléesdependencies.
On peut écrire la phrase “This tree is illustrating the dependency relation” comme suit;
L'arbre d'analyse qui utilise la grammaire de circonscription est appelé arbre d'analyse basé sur la circonscription; et les arbres d'analyse qui utilisent la grammaire des dépendances sont appelés arbre d'analyse basé sur les dépendances.
Grammaire sans contexte
La grammaire sans contexte, également appelée CFG, est une notation pour décrire les langues et un sur-ensemble de grammaire régulière. Il peut être vu dans le diagramme suivant -
Définition de CFG
CFG se compose d'un ensemble fini de règles de grammaire avec les quatre composants suivants -
Ensemble de non-terminaux
Il est noté V. Les non-terminaux sont des variables syntaxiques qui désignent les ensembles de chaînes, qui aident en outre à définir le langage, généré par la grammaire.
Ensemble de terminaux
Il est également appelé jetons et défini par Σ. Les chaînes sont formées avec les symboles de base des terminaux.
Ensemble de productions
Il est noté P. L'ensemble définit comment les terminaux et les non-terminaux peuvent être combinés. Chaque production (P) se compose de non-terminaux, d'une flèche et de terminaux (la séquence de terminaux). Les non-terminaux sont appelés le côté gauche de la production et les terminaux sont appelés le côté droit de la production.
Symbole de départ
La production commence à partir du symbole de départ. Il est désigné par le symbole S. Le symbole non terminal est toujours désigné comme symbole de départ.