OpenNLP - API di riferimento
In questo capitolo, discuteremo delle classi e dei metodi che useremo nei capitoli successivi di questo tutorial.
Rilevamento di frasi
Classe SentenceModel
Questa classe rappresenta il modello predefinito che viene utilizzato per rilevare le frasi nel testo grezzo fornito. Questa classe appartiene al pacchettoopennlp.tools.sentdetect.
Il costruttore di questa classe accetta un file InputStream oggetto del file di modello del rilevatore di frasi (en-sent.bin).
Classe SentenceDetectorME
Questa classe appartiene al pacchetto opennlp.tools.sentdetecte contiene metodi per dividere il testo grezzo in frasi. Questa classe utilizza un modello di entropia massima per valutare i caratteri di fine frase in una stringa per determinare se significano la fine di una frase.
Di seguito sono riportati i metodi importanti di questa classe.
S.No | Metodi e descrizione |
---|---|
1 | sentDetect() Questo metodo viene utilizzato per rilevare le frasi nel testo grezzo che gli viene passato. Accetta una variabile String come parametro e restituisce un array String che contiene le frasi dal testo grezzo fornito. |
2 | sentPosDetect() Questo metodo viene utilizzato per rilevare le posizioni delle frasi nel testo dato. Questo metodo accetta una variabile stringa, che rappresenta la frase e restituisce un array di oggetti del tipoSpan. La classe denominata Span del opennlp.tools.util pacchetto viene utilizzato per memorizzare il numero intero iniziale e finale degli insiemi. |
3 | getSentenceProbabilities() Questo metodo restituisce le probabilità associate alle chiamate più recenti a sentDetect() metodo. |
Tokenizzazione
TokenizerModel classe
Questa classe rappresenta il modello predefinito che viene utilizzato per tokenizzare la frase data. Questa classe appartiene al pacchettoopennlp.tools.tokenizer.
Il costruttore di questa classe accetta un file InputStream oggetto del file del modello di tokenizer (entoken.bin).
Classi
Per eseguire la tokenizzazione, la libreria OpenNLP fornisce tre classi principali. Tutte e tre le classi implementano l'interfaccia chiamataTokenizer.
S.No | Classi e descrizione |
---|---|
1 | SimpleTokenizer Questa classe tokenizza il testo grezzo dato utilizzando classi di caratteri. |
2 | WhitespaceTokenizer Questa classe utilizza gli spazi bianchi per tokenizzare il testo specificato. |
3 | TokenizerME Questa classe converte il testo grezzo in token separati. Usa la massima entropia per prendere le sue decisioni. |
Queste classi contengono i seguenti metodi.
S.No | Metodi e descrizione |
---|---|
1 | tokenize() Questo metodo viene utilizzato per tokenizzare il testo grezzo. Questo metodo accetta una variabile String come parametro e restituisce un array di stringhe (token). |
2 | sentPosDetect() Questo metodo viene utilizzato per ottenere le posizioni o gli intervalli dei token. Accetta la frase (o) il testo grezzo sotto forma di stringa e restituisce un array di oggetti del tipoSpan. |
Oltre ai due metodi precedenti, il TokenizerME class ha l'estensione getTokenProbabilities() metodo.
S.No | Metodi e descrizione |
---|---|
1 | getTokenProbabilities() Questo metodo viene utilizzato per ottenere le probabilità associate alle chiamate più recenti a tokenizePos() metodo. |
NameEntityRecognition
TokenNameFinderModel classe
Questa classe rappresenta il modello predefinito che viene utilizzato per trovare le entità nominate nella frase data. Questa classe appartiene al pacchettoopennlp.tools.namefind.
Il costruttore di questa classe accetta un file InputStream oggetto del file del modello di ricerca del nome (enner-person.bin).
Classe NameFinderME
La classe appartiene al pacchetto opennlp.tools.namefinde contiene metodi per eseguire le attività NER. Questa classe utilizza un modello di entropia massima per trovare le entità nominate nel testo grezzo dato.
S.No | Metodi e descrizione |
---|---|
1 | find() Questo metodo viene utilizzato per rilevare i nomi nel testo grezzo. Accetta una variabile String che rappresenta il testo grezzo come parametro e restituisce un array di oggetti del tipo Span. |
2 | probs() Questo metodo viene utilizzato per ottenere le probabilità dell'ultima sequenza decodificata. |
Trovare le parti del discorso
Classe POSModel
Questa classe rappresenta il modello predefinito che viene utilizzato per etichettare le parti del discorso della frase data. Questa classe appartiene al pacchettoopennlp.tools.postag.
Il costruttore di questa classe accetta un file InputStream oggetto del file del modello pos-tagger (enpos-maxent.bin).
Classe POSTaggerME
Questa classe appartiene al pacchetto opennlp.tools.postaged è usato per prevedere le parti del discorso del testo grezzo dato. Usa la massima entropia per prendere le sue decisioni.
S.No | Metodi e descrizione |
---|---|
1 | tag() Questo metodo viene utilizzato per assegnare la frase dei token tag POS. Questo metodo accetta un array di token (String) come parametro e restituisce un tag (array). |
2 | getSentenceProbabilities() Questo metodo viene utilizzato per ottenere le probabilità per ogni tag della frase contrassegnata di recente. |
Analisi della frase
Classe ParserModel
Questa classe rappresenta il modello predefinito che viene utilizzato per analizzare la frase data. Questa classe appartiene al pacchettoopennlp.tools.parser.
Il costruttore di questa classe accetta un file InputStream oggetto del file modello parser (en-parserchunking.bin).
Classe Parser Factory
Questa classe appartiene al pacchetto opennlp.tools.parser ed è usato per creare parser.
S.No | Metodi e descrizione |
---|---|
1 | create() Questo è un metodo statico e viene utilizzato per creare un oggetto parser. Questo metodo accetta l'oggetto Filestream del file del modello del parser. |
Classe ParserTool
Questa classe appartiene al opennlp.tools.cmdline.parser pacchetto e, viene utilizzato per analizzare il contenuto.
S.No | Metodi e descrizione |
---|---|
1 | parseLine() Questo metodo di ParserToolclass viene utilizzata per analizzare il testo grezzo in OpenNLP. Questo metodo accetta:
|
Chunking
Classe ChunkerModel
Questa classe rappresenta il modello predefinito utilizzato per dividere una frase in parti più piccole. Questa classe appartiene al pacchettoopennlp.tools.chunker.
Il costruttore di questa classe accetta un file InputStream oggetto del chunker file di modello (enchunker.bin).
Classe ChunkerME
Questa classe appartiene al pacchetto denominato opennlp.tools.chunker ed è usato per dividere la frase data in parti più piccole.
S.No | Metodi e descrizione |
---|---|
1 | chunk() Questo metodo viene utilizzato per dividere la frase data in parti più piccole. Accetta i segni di una frase eParti Of Stag peech come parametri. |
2 | probs() Questo metodo restituisce le probabilità dell'ultima sequenza decodificata. |