OpenNLP - API référencée

Dans ce chapitre, nous discuterons des classes et des méthodes que nous utiliserons dans les chapitres suivants de ce didacticiel.

Détection des phrases

PhraseModel classe

Cette classe représente le modèle prédéfini utilisé pour détecter les phrases dans le texte brut donné. Cette classe appartient au packageopennlp.tools.sentdetect.

Le constructeur de cette classe accepte un InputStream objet du fichier modèle du détecteur de phrases (en-sent.bin).

PhraseDetectorME classe

Cette classe appartient au package opennlp.tools.sentdetectet il contient des méthodes pour diviser le texte brut en phrases. Cette classe utilise un modèle d'entropie maximale pour évaluer les caractères de fin de phrase dans une chaîne afin de déterminer s'ils signifient la fin d'une phrase.

Voici les méthodes importantes de cette classe.

S. Non Méthodes et description
1

sentDetect()

Cette méthode est utilisée pour détecter les phrases dans le texte brut qui lui est passé. Il accepte une variable String comme paramètre et retourne un tableau String qui contient les phrases du texte brut donné.

2

sentPosDetect()

Cette méthode est utilisée pour détecter les positions des phrases dans le texte donné. Cette méthode accepte une variable chaîne, représentant la phrase et retourne un tableau d'objets du typeSpan.

La classe nommée Span du opennlp.tools.util package est utilisé pour stocker les entiers de début et de fin des ensembles.

3

getSentenceProbabilities()

Cette méthode renvoie les probabilités associées aux appels les plus récents à sentDetect() méthode.

Tokenisation

Classe TokenizerModel

Cette classe représente le modèle prédéfini qui est utilisé pour tokeniser la phrase donnée. Cette classe appartient au packageopennlp.tools.tokenizer.

Le constructeur de cette classe accepte un InputStream objet du fichier de modèle de tokenizer (entoken.bin).

Des classes

Pour effectuer la tokenisation, la bibliothèque OpenNLP fournit trois classes principales. Les trois classes implémentent l'interface appeléeTokenizer.

S. Non Classes et description
1

SimpleTokenizer

Cette classe symbolise le texte brut donné en utilisant des classes de caractères.

2

WhitespaceTokenizer

Cette classe utilise des espaces pour tokeniser le texte donné.

3

TokenizerME

Cette classe convertit le texte brut en jetons séparés. Il utilise l'Entropie maximale pour prendre ses décisions.

Ces classes contiennent les méthodes suivantes.

S. Non Méthodes et description
1

tokenize()

Cette méthode est utilisée pour tokeniser le texte brut. Cette méthode accepte une variable String en tant que paramètre et renvoie un tableau de Strings (jetons).

2

sentPosDetect()

Cette méthode est utilisée pour obtenir les positions ou les étendues des jetons. Il accepte la phrase (ou) le texte brut sous la forme de la chaîne et renvoie un tableau d'objets du typeSpan.

En plus des deux méthodes ci-dessus, le TokenizerME la classe a le getTokenProbabilities() méthode.

S. Non Méthodes et description
1

getTokenProbabilities()

Cette méthode est utilisée pour obtenir les probabilités associées aux appels les plus récents au tokenizePos() méthode.

NomEntitéReconnaissance

Classe TokenNameFinderModel

Cette classe représente le modèle prédéfini utilisé pour rechercher les entités nommées dans la phrase donnée. Cette classe appartient au packageopennlp.tools.namefind.

Le constructeur de cette classe accepte un InputStream objet du fichier de modèle de recherche de noms (enner-person.bin).

Classe NameFinderME

La classe appartient au package opennlp.tools.namefindet il contient des méthodes pour effectuer les tâches NER. Cette classe utilise un modèle d'entropie maximale pour trouver les entités nommées dans le texte brut donné.

S. Non Méthodes et description
1

find()

Cette méthode est utilisée pour détecter les noms dans le texte brut. Il accepte une variable String représentant le texte brut en tant que paramètre et renvoie un tableau d'objets de type Span.

2

probs()

Cette méthode permet d'obtenir les probabilités de la dernière séquence décodée.

Trouver les parties du discours

Classe POSModel

Cette classe représente le modèle prédéfini qui est utilisé pour baliser les parties du discours de la phrase donnée. Cette classe appartient au packageopennlp.tools.postag.

Le constructeur de cette classe accepte un InputStream objet du fichier de modèle pos-tagger (enpos-maxent.bin).

Classe POSTaggerME

Cette classe appartient au package opennlp.tools.postaget il est utilisé pour prédire les parties du discours du texte brut donné. Il utilise l'Entropie maximale pour prendre ses décisions.

S. Non Méthodes et description
1

tag()

Cette méthode est utilisée pour attribuer la phrase des balises POS de jetons. Cette méthode accepte un tableau de jetons (String) en tant que paramètre et renvoie une balise (tableau).

2

getSentenceProbabilities()

Cette méthode est utilisée pour obtenir les probabilités pour chaque balise de la phrase récemment balisée.

Analyse de la phrase

Classe ParserModel

Cette classe représente le modèle prédéfini utilisé pour analyser la phrase donnée. Cette classe appartient au packageopennlp.tools.parser.

Le constructeur de cette classe accepte un InputStream objet du fichier modèle de l'analyseur (en-parserchunking.bin).

Classe Parser Factory

Cette classe appartient au package opennlp.tools.parser et il est utilisé pour créer des analyseurs.

S. Non Méthodes et description
1

create()

Il s'agit d'une méthode statique utilisée pour créer un objet analyseur. Cette méthode accepte l'objet Filestream du fichier modèle de l'analyseur.

Classe ParserTool

Cette classe appartient à la opennlp.tools.cmdline.parser package et, il est utilisé pour analyser le contenu.

S. Non Méthodes et description
1

parseLine()

Cette méthode de la ParserToolLa classe est utilisée pour analyser le texte brut dans OpenNLP. Cette méthode accepte -

  • Une variable String représentant le texte à analyser.
  • Un objet analyseur.
  • Un entier représentant le nombre d'analyses à effectuer.

Regrouper

Classe ChunkerModel

Cette classe représente le modèle prédéfini qui est utilisé pour diviser une phrase en petits morceaux. Cette classe appartient au packageopennlp.tools.chunker.

Le constructeur de cette classe accepte un InputStream objet de la chunker fichier modèle (enchunker.bin).

Classe ChunkerME

Cette classe appartient au package nommé opennlp.tools.chunker et il est utilisé pour diviser la phrase donnée en morceaux plus petits.

S. Non Méthodes et description
1

chunk()

Cette méthode est utilisée pour diviser la phrase donnée en morceaux plus petits. Il accepte les jetons d'une phrase etPles arts OF Sbalises peech comme paramètres.

2

probs()

Cette méthode renvoie les probabilités de la dernière séquence décodée.