OpenNLP - Menemukan Parts of Speech
Menggunakan OpenNLP, Anda juga dapat mendeteksi Parts of Speech dari kalimat tertentu dan mencetaknya. Alih-alih nama lengkap bagian ucapan, OpenNLP menggunakan bentuk singkat dari setiap bagian ucapan. Tabel berikut menunjukkan berbagai bagian ucapan yang terdeteksi oleh OpenNLP dan artinya.
Bagian dari pidato | Arti dari part of speech |
---|---|
NN | Kata benda, tunggal atau massa |
DT | Penentu |
VB | Kata kerja, bentuk dasar |
VBD | Kata kerja, bentuk lampau |
VBZ | Kata kerja, hadiah orang ketiga tunggal |
DI | Kata depan atau kata sambung bawahan |
NNP | Kata benda yang tepat, tunggal |
UNTUK | untuk |
JJ | Kata sifat |
Memberi Tag pada Parts of Speech
Untuk menandai bagian-bagian ucapan sebuah kalimat, OpenNLP menggunakan model, sebuah file bernama en-posmaxent.bin. Ini adalah model standar yang dilatih untuk menandai bagian-bagian ucapan dari teks mentah yang diberikan.
Itu POSTaggerME kelas dari opennlp.tools.postagpackage digunakan untuk memuat model ini, dan menandai bagian-bagian pidato dari teks mentah yang diberikan menggunakan pustaka OpenNLP. Untuk melakukannya, Anda perlu -
Muat file en-pos-maxent.bin model menggunakan POSModel kelas.
Instantiate POSTaggerME kelas.
Tokenkan kalimat tersebut.
Hasilkan tag menggunakan tag() metode.
Cetak token dan tag menggunakan POSSample kelas.
Berikut adalah langkah-langkah yang harus diikuti untuk menulis program yang menandai bagian-bagian pidato dalam teks mentah yang diberikan menggunakan POSTaggerME kelas.
Langkah 1: Muat model
Model untuk penandaan POS diwakili oleh kelas bernama POSModel, yang termasuk dalam paket opennlp.tools.postag.
Untuk memuat model tokenizer -
Buat InputStream objek model (Membuat instance FileInputStream dan meneruskan jalur model dalam format String ke konstruktornya).
Instantiate POSModel kelas dan lulus InputStream (object) dari model sebagai parameter untuk konstruktornya, seperti yang ditunjukkan pada blok kode berikut -
//Loading Parts of speech-maxent model
InputStream inputStream = new FileInputStream("C:/OpenNLP_models/en-pos-maxent.bin");
POSModel model = new POSModel(inputStream);
Langkah 2: Membuat instance kelas POSTaggerME
Itu POSTaggerME kelas paket opennlp.tools.postagdigunakan untuk memprediksi jenis kata dari teks mentah yang diberikan. Ia menggunakan Entropi Maksimum untuk membuat keputusannya.
Buat instance kelas ini dan teruskan objek model yang dibuat pada langkah sebelumnya, seperti yang ditunjukkan di bawah ini -
//Instantiating POSTaggerME class
POSTaggerME tagger = new POSTaggerME(model);
Langkah 3: Tokenisasi kalimat
Itu tokenize() metode dari whitespaceTokenizerclass digunakan untuk memberi token pada teks mentah yang diteruskan padanya. Metode ini menerima variabel String sebagai parameter, dan mengembalikan larik String (token).
Instantiate whitespaceTokenizer kelas dan memanggil metode ini dengan meneruskan format String kalimat ke metode ini.
//Tokenizing the sentence using WhitespaceTokenizer class
WhitespaceTokenizer whitespaceTokenizer= WhitespaceTokenizer.INSTANCE;
String[] tokens = whitespaceTokenizer.tokenize(sentence);
Langkah 4: Membuat tag
Itu tag() metode dari whitespaceTokenizerkelas memberikan tag POS ke kalimat token. Metode ini menerima larik token (String) sebagai parameter dan mengembalikan tag (larik).
Panggil tag() metode dengan meneruskan token yang dihasilkan pada langkah sebelumnya ke sana.
//Generating tags
String[] tags = tagger.tag(tokens);
Langkah 5: Mencetak token dan tag
Itu POSSampleclass mewakili kalimat dengan tag POS. Untuk membuat instance kelas ini, kita membutuhkan array token (teks) dan array tag.
Itu toString()metode kelas ini mengembalikan kalimat yang diberi tag. Buat instance kelas ini dengan meneruskan token dan larik tag yang dibuat di langkah sebelumnya dan memanggilnyatoString() metode, seperti yang ditunjukkan pada blok kode berikut.
//Instantiating the POSSample class
POSSample sample = new POSSample(tokens, tags);
System.out.println(sample.toString());
Example
Berikut adalah program yang menandai bagian-bagian pidato dalam teks mentah tertentu. Simpan program ini dalam sebuah file dengan namaPosTaggerExample.java.
import java.io.FileInputStream;
import java.io.InputStream;
import opennlp.tools.postag.POSModel;
import opennlp.tools.postag.POSSample;
import opennlp.tools.postag.POSTaggerME;
import opennlp.tools.tokenize.WhitespaceTokenizer;
public class PosTaggerExample {
public static void main(String args[]) throws Exception{
//Loading Parts of speech-maxent model
InputStream inputStream = new
FileInputStream("C:/OpenNLP_models/en-pos-maxent.bin");
POSModel model = new POSModel(inputStream);
//Instantiating POSTaggerME class
POSTaggerME tagger = new POSTaggerME(model);
String sentence = "Hi welcome to Tutorialspoint";
//Tokenizing the sentence using WhitespaceTokenizer class
WhitespaceTokenizer whitespaceTokenizer= WhitespaceTokenizer.INSTANCE;
String[] tokens = whitespaceTokenizer.tokenize(sentence);
//Generating tags
String[] tags = tagger.tag(tokens);
//Instantiating the POSSample class
POSSample sample = new POSSample(tokens, tags);
System.out.println(sample.toString());
}
}
Kompilasi dan jalankan file Java yang disimpan dari Command prompt menggunakan perintah berikut -
javac PosTaggerExample.java
java PosTaggerExample
Saat menjalankan, program di atas membaca teks yang diberikan dan mendeteksi bagian-bagian dari kalimat ini dan menampilkannya, seperti yang ditunjukkan di bawah ini.
Hi_NNP welcome_JJ to_TO Tutorialspoint_VB
Performa POS Tagger
Berikut adalah program yang menandai bagian-bagian pidato dari teks mentah tertentu. Ini juga memonitor kinerja dan menampilkan kinerja tagger. Simpan program ini dalam sebuah file dengan namaPosTagger_Performance.java.
import java.io.FileInputStream;
import java.io.InputStream;
import opennlp.tools.cmdline.PerformanceMonitor;
import opennlp.tools.postag.POSModel;
import opennlp.tools.postag.POSSample;
import opennlp.tools.postag.POSTaggerME;
import opennlp.tools.tokenize.WhitespaceTokenizer;
public class PosTagger_Performance {
public static void main(String args[]) throws Exception{
//Loading Parts of speech-maxent model
InputStream inputStream = new
FileInputStream("C:/OpenNLP_models/en-pos-maxent.bin");
POSModel model = new POSModel(inputStream);
//Creating an object of WhitespaceTokenizer class
WhitespaceTokenizer whitespaceTokenizer= WhitespaceTokenizer.INSTANCE;
//Tokenizing the sentence
String sentence = "Hi welcome to Tutorialspoint";
String[] tokens = whitespaceTokenizer.tokenize(sentence);
//Instantiating POSTaggerME class
POSTaggerME tagger = new POSTaggerME(model);
//Generating tags
String[] tags = tagger.tag(tokens);
//Instantiating POSSample class
POSSample sample = new POSSample(tokens, tags);
System.out.println(sample.toString());
//Monitoring the performance of POS tagger
PerformanceMonitor perfMon = new PerformanceMonitor(System.err, "sent");
perfMon.start();
perfMon.incrementCounter();
perfMon.stopAndPrintFinalResult();
}
}
Kompilasi dan jalankan file Java yang disimpan dari Command prompt menggunakan perintah berikut -
javac PosTaggerExample.java
java PosTaggerExample
Saat menjalankan, program di atas membaca teks yang diberikan dan menandai bagian-bagian ucapan dari kalimat ini dan menampilkannya. Selain itu, ini juga memantau kinerja tagger POS dan menampilkannya.
Hi_NNP welcome_JJ to_TO Tutorialspoint_VB
Average: 0.0 sent/s
Total: 1 sent
Runtime: 0.0s
Kemungkinan POS Tagger
Itu probs() metode dari POSTaggerME class digunakan untuk menemukan probabilitas setiap tag dari kalimat yang baru-baru ini diberi tag.
//Getting the probabilities of the recent calls to tokenizePos() method
double[] probs = detector.getSentenceProbabilities();
Berikut adalah program yang menampilkan probabilitas untuk setiap tag dari kalimat terakhir yang diberi tag. Simpan program ini dalam sebuah file dengan namaPosTaggerProbs.java.
import java.io.FileInputStream;
import java.io.InputStream;
import opennlp.tools.postag.POSModel;
import opennlp.tools.postag.POSSample;
import opennlp.tools.postag.POSTaggerME;
import opennlp.tools.tokenize.WhitespaceTokenizer;
public class PosTaggerProbs {
public static void main(String args[]) throws Exception{
//Loading Parts of speech-maxent model
InputStream inputStream = new FileInputStream("C:/OpenNLP_mdl/en-pos-maxent.bin");
POSModel model = new POSModel(inputStream);
//Creating an object of WhitespaceTokenizer class
WhitespaceTokenizer whitespaceTokenizer= WhitespaceTokenizer.INSTANCE;
//Tokenizing the sentence
String sentence = "Hi welcome to Tutorialspoint";
String[] tokens = whitespaceTokenizer.tokenize(sentence);
//Instantiating POSTaggerME class
POSTaggerME tagger = new POSTaggerME(model);
//Generating tags
String[] tags = tagger.tag(tokens);
//Instantiating the POSSample class
POSSample sample = new POSSample(tokens, tags);
System.out.println(sample.toString());
//Probabilities for each tag of the last tagged sentence.
double [] probs = tagger.probs();
System.out.println(" ");
//Printing the probabilities
for(int i = 0; i<probs.length; i++)
System.out.println(probs[i]);
}
}
Kompilasi dan jalankan file Java yang disimpan dari Command prompt menggunakan perintah berikut -
javac TokenizerMEProbs.java
java TokenizerMEProbs
Saat menjalankan, program di atas membaca teks mentah yang diberikan, menandai bagian-bagian ucapan dari setiap token di dalamnya, dan menampilkannya. Selain itu, ini juga menampilkan probabilitas untuk setiap bagian ucapan dalam kalimat yang diberikan, seperti yang ditunjukkan di bawah ini.
Hi_NNP welcome_JJ to_TO Tutorialspoint_VB
0.6416834779738033
0.42983612874819177
0.8584513635863117
0.4394784478206072