PNL - Désambiguïsation de Word Sense
Nous comprenons que les mots ont des significations différentes en fonction du contexte de leur utilisation dans la phrase. Si nous parlons de langues humaines, elles sont également ambiguës car de nombreux mots peuvent être interprétés de multiples façons selon le contexte de leur occurrence.
La désambiguïsation du sens des mots, dans le traitement du langage naturel (PNL), peut être définie comme la capacité de déterminer quelle signification d'un mot est activée par l'utilisation d'un mot dans un contexte particulier. L'ambiguïté lexicale, syntaxique ou sémantique, est l'un des tout premiers problèmes auxquels tout système PNL est confronté. Les marqueurs de partie de parole (POS) avec un haut niveau de précision peuvent résoudre l'ambiguïté syntaxique de Word. D'autre part, le problème de la résolution de l'ambiguïté sémantique est appelé WSD (homonymie du sens des mots). La résolution de l'ambiguïté sémantique est plus difficile que la résolution de l'ambiguïté syntaxique.
Par exemple, considérons les deux exemples du sens distinct qui existent pour le mot “bass” -
Je peux entendre un son de basse.
Il aime manger du bar grillé.
L'apparition du mot bassdénote clairement le sens distinct. Dans la première phrase, cela signifiefrequency et en second, cela signifie fish. Par conséquent, s'il était désambiguïsé par WSD, le sens correct des phrases ci-dessus peut être attribué comme suit -
Je peux entendre le son des basses / fréquences.
Il aime manger des bars / poissons grillés.
Évaluation de WSD
L'évaluation de WSD nécessite les deux entrées suivantes -
Un dictionnaire
La toute première entrée pour l'évaluation de WSD est le dictionnaire, qui est utilisé pour spécifier les sens à lever l'ambiguïté.
Test Corpus
Une autre entrée requise par WSD est le corpus de test hautement annoté qui a la cible ou les sens corrects. Les corpus de test peuvent être de deux types & minsu;
Lexical sample - Ce type de corpus est utilisé dans le système, où il est nécessaire de lever l'ambiguïté d'un petit échantillon de mots.
All-words - Ce type de corpus est utilisé dans le système, où il est prévu de lever l'ambiguïté de tous les mots dans un morceau de texte courant.
Approches et méthodes de désambiguïsation de Word Sense (WSD)
Les approches et méthodes de WSD sont classées en fonction de la source de connaissances utilisée dans la désambiguïsation des mots.
Voyons maintenant les quatre méthodes conventionnelles de WSD -
Méthodes basées sur un dictionnaire ou basées sur la connaissance
Comme son nom l'indique, pour clarifier les choses, ces méthodes reposent principalement sur des dictionnaires, des trésors et une base de connaissances lexicales. Ils n'utilisent pas de preuves de corpus pour lever l'ambiguïté. La méthode Lesk est la méthode fondamentale basée sur le dictionnaire introduite par Michael Lesk en 1986. La définition de Lesk, sur laquelle est basé l'algorithme de Lesk est“measure overlap between sense definitions for all words in context”. Cependant, en 2000, Kilgarriff et Rosensweig ont donné la définition simplifiée de Lesk comme“measure overlap between sense definitions of word and current context”, ce qui signifie en outre identifier le sens correct d'un mot à la fois. Ici, le contexte actuel est l'ensemble des mots dans la phrase ou le paragraphe environnant.
Méthodes supervisées
Pour clarifier les ambiguïtés, les méthodes d'apprentissage automatique utilisent des corpus annotés de sens pour s'entraîner. Ces méthodes supposent que le contexte peut fournir suffisamment de preuves à lui seul pour lever l'ambiguïté du sens. Dans ces méthodes, les mots connaissance et raisonnement sont jugés inutiles. Le contexte est représenté comme un ensemble de «caractéristiques» des mots. Il comprend également les informations sur les mots environnants. La machine vectorielle de support et l'apprentissage basé sur la mémoire sont les approches d'apprentissage supervisé les plus réussies de WSD. Ces méthodes reposent sur une quantité importante de corpus étiquetés manuellement, ce qui est très coûteux à créer.
Méthodes semi-supervisées
En raison du manque de corpus de formation, la plupart des algorithmes de désambiguïsation du sens des mots utilisent des méthodes d'apprentissage semi-supervisé. C'est parce que les méthodes semi-supervisées utilisent à la fois des données étiquetées et non étiquetées. Ces méthodes nécessitent une très petite quantité de texte annoté et une grande quantité de texte brut non annoté. La technique utilisée par les méthodes semi-supervisées est le bootstrap à partir de données de départ.
Méthodes non supervisées
Ces méthodes supposent que des sens similaires se produisent dans un contexte similaire. C'est pourquoi les sens peuvent être induits à partir du texte en regroupant les occurrences de mots en utilisant une certaine mesure de similitude du contexte. Cette tâche est appelée induction ou discrimination du sens des mots. Les méthodes non supervisées ont un grand potentiel pour surmonter le goulot d'étranglement de l'acquisition de connaissances en raison de la non-dépendance aux efforts manuels.
Applications de la désambiguïsation de Word Sense (WSD)
L'homonymie du sens des mots (WSD) est appliquée dans presque toutes les applications de la technologie langagière.
Voyons maintenant la portée de WSD -
Traduction automatique
La traduction automatique ou MT est l'application la plus évidente de WSD. En MT, le choix lexical pour les mots qui ont des traductions distinctes pour différents sens, est fait par WSD. Les sens en MT sont représentés sous forme de mots dans la langue cible. La plupart des systèmes de traduction automatique n'utilisent pas de module WSD explicite.
Recherche d'informations (IR)
La recherche d'informations (IR) peut être définie comme un programme logiciel qui traite de l'organisation, du stockage, de la récupération et de l'évaluation d'informations à partir de référentiels de documents, en particulier d'informations textuelles. Le système aide essentiellement les utilisateurs à trouver les informations dont ils ont besoin, mais il ne renvoie pas explicitement les réponses aux questions. WSD est utilisé pour résoudre les ambiguïtés des requêtes fournies au système IR. Comme pour MT, les systèmes IR actuels n'utilisent pas explicitement le module WSD et ils reposent sur le concept selon lequel l'utilisateur taperait suffisamment de contexte dans la requête pour récupérer uniquement les documents pertinents.
Exploration de texte et extraction d'informations (IE)
Dans la plupart des applications, WSD est nécessaire pour effectuer une analyse précise du texte. Par exemple, WSD aide le système de collecte intelligent à marquer les mots corrects. Par exemple, un système médical intelligent peut nécessiter un signalement des «drogues illicites» plutôt que des «drogues médicales»
Lexicographie
WSD et la lexicographie peuvent fonctionner ensemble en boucle car la lexicographie moderne est basée sur un corpus. Avec la lexicographie, WSD fournit des groupements de sens empiriques approximatifs ainsi que des indicateurs contextuels de sens statistiquement significatifs.
Difficultés de désambiguïsation de Word Sense (WSD)
Voici quelques difficultés rencontrées par la désambiguïsation du sens des mots (WSD) -
Différences entre les dictionnaires
Le problème majeur du WSD est de décider du sens du mot car différents sens peuvent être très étroitement liés. Même différents dictionnaires et thésaurus peuvent fournir différentes divisions de mots en sens.
Différents algorithmes pour différentes applications
Un autre problème de WSD est qu'un algorithme complètement différent peut être nécessaire pour différentes applications. Par exemple, dans la traduction automatique, cela prend la forme d'une sélection de mots cibles; et dans la recherche d'informations, un inventaire des sens n'est pas nécessaire.
Variance entre juges
Un autre problème du WSD est que les systèmes WSD sont généralement testés en comparant leurs résultats sur une tâche à la tâche des êtres humains. C'est ce qu'on appelle le problème de la variance entre juges.
Discrétion au sens des mots
Une autre difficulté dans WSD est que les mots ne peuvent pas être facilement divisés en sous-significations discrètes.