OpenNLP - Menemukan Parts of Speech

Menggunakan OpenNLP, Anda juga dapat mendeteksi Parts of Speech dari kalimat tertentu dan mencetaknya. Alih-alih nama lengkap bagian ucapan, OpenNLP menggunakan bentuk singkat dari setiap bagian ucapan. Tabel berikut menunjukkan berbagai bagian ucapan yang terdeteksi oleh OpenNLP dan artinya.

Bagian dari pidato Arti dari part of speech
NN Kata benda, tunggal atau massa
DT Penentu
VB Kata kerja, bentuk dasar
VBD Kata kerja, bentuk lampau
VBZ Kata kerja, hadiah orang ketiga tunggal
DI Kata depan atau kata sambung bawahan
NNP Kata benda yang tepat, tunggal
UNTUK untuk
JJ Kata sifat

Memberi Tag pada Parts of Speech

Untuk menandai bagian-bagian ucapan sebuah kalimat, OpenNLP menggunakan model, sebuah file bernama en-posmaxent.bin. Ini adalah model standar yang dilatih untuk menandai bagian-bagian ucapan dari teks mentah yang diberikan.

Itu POSTaggerME kelas dari opennlp.tools.postagpackage digunakan untuk memuat model ini, dan menandai bagian-bagian pidato dari teks mentah yang diberikan menggunakan pustaka OpenNLP. Untuk melakukannya, Anda perlu -

  • Muat file en-pos-maxent.bin model menggunakan POSModel kelas.

  • Instantiate POSTaggerME kelas.

  • Tokenkan kalimat tersebut.

  • Hasilkan tag menggunakan tag() metode.

  • Cetak token dan tag menggunakan POSSample kelas.

Berikut adalah langkah-langkah yang harus diikuti untuk menulis program yang menandai bagian-bagian pidato dalam teks mentah yang diberikan menggunakan POSTaggerME kelas.

Langkah 1: Muat model

Model untuk penandaan POS diwakili oleh kelas bernama POSModel, yang termasuk dalam paket opennlp.tools.postag.

Untuk memuat model tokenizer -

  • Buat InputStream objek model (Membuat instance FileInputStream dan meneruskan jalur model dalam format String ke konstruktornya).

  • Instantiate POSModel kelas dan lulus InputStream (object) dari model sebagai parameter untuk konstruktornya, seperti yang ditunjukkan pada blok kode berikut -

//Loading Parts of speech-maxent model 
InputStream inputStream = new FileInputStream("C:/OpenNLP_models/en-pos-maxent.bin"); 
POSModel model = new POSModel(inputStream);

Langkah 2: Membuat instance kelas POSTaggerME

Itu POSTaggerME kelas paket opennlp.tools.postagdigunakan untuk memprediksi jenis kata dari teks mentah yang diberikan. Ia menggunakan Entropi Maksimum untuk membuat keputusannya.

Buat instance kelas ini dan teruskan objek model yang dibuat pada langkah sebelumnya, seperti yang ditunjukkan di bawah ini -

//Instantiating POSTaggerME class 
POSTaggerME tagger = new POSTaggerME(model);

Langkah 3: Tokenisasi kalimat

Itu tokenize() metode dari whitespaceTokenizerclass digunakan untuk memberi token pada teks mentah yang diteruskan padanya. Metode ini menerima variabel String sebagai parameter, dan mengembalikan larik String (token).

Instantiate whitespaceTokenizer kelas dan memanggil metode ini dengan meneruskan format String kalimat ke metode ini.

//Tokenizing the sentence using WhitespaceTokenizer class  
WhitespaceTokenizer whitespaceTokenizer= WhitespaceTokenizer.INSTANCE; 
String[] tokens = whitespaceTokenizer.tokenize(sentence);

Langkah 4: Membuat tag

Itu tag() metode dari whitespaceTokenizerkelas memberikan tag POS ke kalimat token. Metode ini menerima larik token (String) sebagai parameter dan mengembalikan tag (larik).

Panggil tag() metode dengan meneruskan token yang dihasilkan pada langkah sebelumnya ke sana.

//Generating tags 
String[] tags = tagger.tag(tokens);

Langkah 5: Mencetak token dan tag

Itu POSSampleclass mewakili kalimat dengan tag POS. Untuk membuat instance kelas ini, kita membutuhkan array token (teks) dan array tag.

Itu toString()metode kelas ini mengembalikan kalimat yang diberi tag. Buat instance kelas ini dengan meneruskan token dan larik tag yang dibuat di langkah sebelumnya dan memanggilnyatoString() metode, seperti yang ditunjukkan pada blok kode berikut.

//Instantiating the POSSample class 
POSSample sample = new POSSample(tokens, tags); 
System.out.println(sample.toString());

Example

Berikut adalah program yang menandai bagian-bagian pidato dalam teks mentah tertentu. Simpan program ini dalam sebuah file dengan namaPosTaggerExample.java.

import java.io.FileInputStream; 
import java.io.InputStream;  

import opennlp.tools.postag.POSModel; 
import opennlp.tools.postag.POSSample; 
import opennlp.tools.postag.POSTaggerME; 
import opennlp.tools.tokenize.WhitespaceTokenizer;  

public class PosTaggerExample { 
  
   public static void main(String args[]) throws Exception{ 
    
      //Loading Parts of speech-maxent model       
      InputStream inputStream = new 
         FileInputStream("C:/OpenNLP_models/en-pos-maxent.bin"); 
      POSModel model = new POSModel(inputStream); 
       
      //Instantiating POSTaggerME class 
      POSTaggerME tagger = new POSTaggerME(model); 
       
      String sentence = "Hi welcome to Tutorialspoint"; 
       
      //Tokenizing the sentence using WhitespaceTokenizer class  
      WhitespaceTokenizer whitespaceTokenizer= WhitespaceTokenizer.INSTANCE; 
      String[] tokens = whitespaceTokenizer.tokenize(sentence); 
       
      //Generating tags 
      String[] tags = tagger.tag(tokens);
      
      //Instantiating the POSSample class 
      POSSample sample = new POSSample(tokens, tags); 
      System.out.println(sample.toString()); 
   
   } 
}

Kompilasi dan jalankan file Java yang disimpan dari Command prompt menggunakan perintah berikut -

javac PosTaggerExample.java 
java PosTaggerExample

Saat menjalankan, program di atas membaca teks yang diberikan dan mendeteksi bagian-bagian dari kalimat ini dan menampilkannya, seperti yang ditunjukkan di bawah ini.

Hi_NNP welcome_JJ to_TO Tutorialspoint_VB

Performa POS Tagger

Berikut adalah program yang menandai bagian-bagian pidato dari teks mentah tertentu. Ini juga memonitor kinerja dan menampilkan kinerja tagger. Simpan program ini dalam sebuah file dengan namaPosTagger_Performance.java.

import java.io.FileInputStream; 
import java.io.InputStream;  

import opennlp.tools.cmdline.PerformanceMonitor; 
import opennlp.tools.postag.POSModel; 
import opennlp.tools.postag.POSSample; 
import opennlp.tools.postag.POSTaggerME; 
import opennlp.tools.tokenize.WhitespaceTokenizer;  

public class PosTagger_Performance { 
   public static void main(String args[]) throws Exception{ 
      //Loading Parts of speech-maxent model       
      InputStream inputStream = new 
         FileInputStream("C:/OpenNLP_models/en-pos-maxent.bin"); 
      POSModel model = new POSModel(inputStream); 
       
      //Creating an object of WhitespaceTokenizer class  
      WhitespaceTokenizer whitespaceTokenizer= WhitespaceTokenizer.INSTANCE; 
      
      //Tokenizing the sentence 
      String sentence = "Hi welcome to Tutorialspoint"; 
      String[] tokens = whitespaceTokenizer.tokenize(sentence); 
       
      //Instantiating POSTaggerME class 
      POSTaggerME tagger = new POSTaggerME(model); 
       
      //Generating tags 
      String[] tags = tagger.tag(tokens); 
       
      //Instantiating POSSample class       
      POSSample sample = new POSSample(tokens, tags); 
      System.out.println(sample.toString()); 
       
      //Monitoring the performance of POS tagger 
      PerformanceMonitor perfMon = new PerformanceMonitor(System.err, "sent"); 
      perfMon.start(); 
      perfMon.incrementCounter(); 
      perfMon.stopAndPrintFinalResult();      
   } 
}

Kompilasi dan jalankan file Java yang disimpan dari Command prompt menggunakan perintah berikut -

javac PosTaggerExample.java 
java PosTaggerExample

Saat menjalankan, program di atas membaca teks yang diberikan dan menandai bagian-bagian ucapan dari kalimat ini dan menampilkannya. Selain itu, ini juga memantau kinerja tagger POS dan menampilkannya.

Hi_NNP welcome_JJ to_TO Tutorialspoint_VB  
Average: 0.0 sent/s  
Total: 1 sent 
Runtime: 0.0s

Kemungkinan POS Tagger

Itu probs() metode dari POSTaggerME class digunakan untuk menemukan probabilitas setiap tag dari kalimat yang baru-baru ini diberi tag.

//Getting the probabilities of the recent calls to tokenizePos() method 
double[] probs = detector.getSentenceProbabilities();

Berikut adalah program yang menampilkan probabilitas untuk setiap tag dari kalimat terakhir yang diberi tag. Simpan program ini dalam sebuah file dengan namaPosTaggerProbs.java.

import java.io.FileInputStream; 
import java.io.InputStream;  

import opennlp.tools.postag.POSModel; 
import opennlp.tools.postag.POSSample; 
import opennlp.tools.postag.POSTaggerME; 
import opennlp.tools.tokenize.WhitespaceTokenizer;  

public class PosTaggerProbs { 
   
   public static void main(String args[]) throws Exception{ 
      
      //Loading Parts of speech-maxent model       
      InputStream inputStream = new FileInputStream("C:/OpenNLP_mdl/en-pos-maxent.bin"); 
      POSModel model = new POSModel(inputStream); 
       
      //Creating an object of WhitespaceTokenizer class  
      WhitespaceTokenizer whitespaceTokenizer= WhitespaceTokenizer.INSTANCE; 
       
      //Tokenizing the sentence 
      String sentence = "Hi welcome to Tutorialspoint"; 
      String[] tokens = whitespaceTokenizer.tokenize(sentence); 
       
      //Instantiating POSTaggerME class 
      POSTaggerME tagger = new POSTaggerME(model); 
             
      //Generating tags 
      String[] tags = tagger.tag(tokens);       
      
      //Instantiating the POSSample class 
      POSSample sample = new POSSample(tokens, tags);  
      System.out.println(sample.toString());
      
      //Probabilities for each tag of the last tagged sentence. 
      double [] probs = tagger.probs();       
      System.out.println("  ");       
      
      //Printing the probabilities  
      for(int i = 0; i<probs.length; i++) 
         System.out.println(probs[i]); 
   } 
}

Kompilasi dan jalankan file Java yang disimpan dari Command prompt menggunakan perintah berikut -

javac TokenizerMEProbs.java 
java TokenizerMEProbs

Saat menjalankan, program di atas membaca teks mentah yang diberikan, menandai bagian-bagian ucapan dari setiap token di dalamnya, dan menampilkannya. Selain itu, ini juga menampilkan probabilitas untuk setiap bagian ucapan dalam kalimat yang diberikan, seperti yang ditunjukkan di bawah ini.

Hi_NNP welcome_JJ to_TO Tutorialspoint_VB    
0.6416834779738033 
0.42983612874819177 
0.8584513635863117 
0.4394784478206072