OpenNLP - tokenizacja

Proces dzielenia danego zdania na mniejsze części (żetony) jest znany jako tokenization. Ogólnie rzecz biorąc, dany tekst surowy jest tokenizowany na podstawie zestawu ograniczników (głównie białych znaków).

Tokenizacja jest wykorzystywana w zadaniach takich jak sprawdzanie pisowni, przetwarzanie wyszukiwań, identyfikacja części mowy, wykrywanie zdań, klasyfikacja dokumentów dokumentów itp.

Tokenizacja za pomocą OpenNLP

Plik opennlp.tools.tokenize pakiet zawiera klasy i interfejsy, które są używane do wykonywania tokenizacji.

Aby tokenizować podane zdania na prostsze fragmenty, biblioteka OpenNLP udostępnia trzy różne klasy -

  • SimpleTokenizer - Ta klasa tokenizuje podany surowy tekst przy użyciu klas znaków.

  • WhitespaceTokenizer - Ta klasa używa białych znaków do tokenizacji podanego tekstu.

  • TokenizerME- Ta klasa konwertuje surowy tekst na oddzielne tokeny. Do podejmowania decyzji używa maksymalnej entropii.

SimpleTokenizer

Aby tokenizować zdanie za pomocą SimpleTokenizer klasa, musisz -

  • Utwórz obiekt odpowiedniej klasy.

  • Tokenizuj zdanie za pomocą tokenize() metoda.

  • Wydrukuj tokeny.

Poniżej przedstawiono kroki, które należy wykonać, aby napisać program, który tokenizuje podany surowy tekst.

Step 1 - Tworzenie instancji odpowiedniej klasy

W obu klasach nie ma dostępnych konstruktorów do ich tworzenia. Dlatego musimy tworzyć obiekty tych klas za pomocą zmiennej statycznejINSTANCE.

SimpleTokenizer tokenizer = SimpleTokenizer.INSTANCE;

Step 2 - Tokenizuj zdania

Obie te klasy zawierają metodę o nazwie tokenize(). Ta metoda akceptuje nieprzetworzony tekst w formacie String. Podczas wywoływania tokenizuje dany ciąg znaków i zwraca tablicę ciągów znaków (tokenów).

Tokenizuj zdanie za pomocą tokenizer() metoda, jak pokazano poniżej.

//Tokenizing the given sentence 
 String tokens[] = tokenizer.tokenize(sentence);

Step 3 - Wydrukuj tokeny

Po tokenizacji zdania możesz wydrukować tokeny za pomocą for loop, jak pokazano niżej.

//Printing the tokens 
for(String token : tokens)       
   System.out.println(token);

Example

Poniżej znajduje się program, który tokenizuje dane zdanie za pomocą klasy SimpleTokenizer. Zapisz ten program w pliku o nazwieSimpleTokenizerExample.java.

import opennlp.tools.tokenize.SimpleTokenizer;  
public class SimpleTokenizerExample { 
   public static void main(String args[]){ 
     
      String sentence = "Hi. How are you? Welcome to Tutorialspoint. " 
         + "We provide free tutorials on various technologies"; 
    
      //Instantiating SimpleTokenizer class 
      SimpleTokenizer simpleTokenizer = SimpleTokenizer.INSTANCE;  
       
      //Tokenizing the given sentence 
      String tokens[] = simpleTokenizer.tokenize(sentence);  
       
      //Printing the tokens 
      for(String token : tokens) {         
         System.out.println(token);  
      }       
   }  
}

Skompiluj i uruchom zapisany plik Java z wiersza polecenia, używając następujących poleceń -

javac SimpleTokenizerExample.java 
java SimpleTokenizerExample

Podczas wykonywania powyższy program odczytuje podany ciąg (nieprzetworzony tekst), tokenizuje go i wyświetla następujące dane wyjściowe -

Hi 
. 
How 
are 
you 
? 
Welcome 
to 
Tutorialspoint 
. 
We 
provide 
free 
tutorials 
on 
various 
technologies

WhitespaceTokenizer

Aby tokenizować zdanie za pomocą WhitespaceTokenizer klasa, musisz -

  • Utwórz obiekt odpowiedniej klasy.

  • Tokenizuj zdanie za pomocą tokenize() metoda.

  • Wydrukuj tokeny.

Poniżej przedstawiono kroki, które należy wykonać, aby napisać program, który tokenizuje podany surowy tekst.

Step 1 - Tworzenie instancji odpowiedniej klasy

W obu klasach nie ma dostępnych konstruktorów do ich tworzenia. Dlatego musimy tworzyć obiekty tych klas za pomocą zmiennej statycznejINSTANCE.

WhitespaceTokenizer tokenizer = WhitespaceTokenizer.INSTANCE;

Step 2 - Tokenizuj zdania

Obie te klasy zawierają metodę o nazwie tokenize(). Ta metoda akceptuje nieprzetworzony tekst w formacie String. Podczas wywoływania tokenizuje dany ciąg znaków i zwraca tablicę ciągów znaków (tokenów).

Tokenizuj zdanie za pomocą tokenizer() metoda, jak pokazano poniżej.

//Tokenizing the given sentence 
 String tokens[] = tokenizer.tokenize(sentence);

Step 3 - Wydrukuj tokeny

Po tokenizacji zdania możesz wydrukować tokeny za pomocą for loop, jak pokazano niżej.

//Printing the tokens 
for(String token : tokens)       
   System.out.println(token);

Example

Poniżej znajduje się program, który tokenizuje dane zdanie za pomocą WhitespaceTokenizerklasa. Zapisz ten program w pliku o nazwieWhitespaceTokenizerExample.java.

import opennlp.tools.tokenize.WhitespaceTokenizer;  

public class WhitespaceTokenizerExample {  
   
   public static void main(String args[]){ 
     
      String sentence = "Hi. How are you? Welcome to Tutorialspoint. " 
         + "We provide free tutorials on various technologies"; 
    
      //Instantiating whitespaceTokenizer class 
       WhitespaceTokenizer whitespaceTokenizer = WhitespaceTokenizer.INSTANCE;  
       
      //Tokenizing the given paragraph 
      String tokens[] = whitespaceTokenizer.tokenize(sentence);  
       
      //Printing the tokens 
      for(String token : tokens)     
         System.out.println(token);        
   } 
}

Skompiluj i uruchom zapisany plik Java z wiersza polecenia, używając następujących poleceń -

javac WhitespaceTokenizerExample.java 
java WhitespaceTokenizerExample

Podczas wykonywania powyższy program odczytuje dany ciąg (nieprzetworzony tekst), tokenizuje go i wyświetla następujące dane wyjściowe.

Hi. 
How 
are 
you? 
Welcome 
to 
Tutorialspoint. 
We 
provide 
free 
tutorials 
on 
various 
technologies

Klasa TokenizerME

OpenNLP używa również predefiniowanego modelu, pliku o nazwie de-token.bin, do tokenizacji zdań. Jest wyszkolony do tokenizacji zdań w danym surowym tekście.

Plik TokenizerME klasa opennlp.tools.tokenizerpackage jest używany do ładowania tego modelu i tokenizacji podanego surowego tekstu przy użyciu biblioteki OpenNLP. Aby to zrobić, musisz -

  • Załaduj en-token.bin model przy użyciu TokenizerModel klasa.

  • Utwórz wystąpienie TokenizerME klasa.

  • Tokenizuj zdania za pomocą tokenize() metoda tej klasy.

Poniżej przedstawiono kroki, które należy wykonać, aby napisać program, który tokenizuje zdania z danego surowego tekstu przy użyciu rozszerzenia TokenizerME klasa.

Step 1 - Ładowanie modelu

Model do tokenizacji jest reprezentowany przez nazwaną klasę TokenizerModel, który należy do pakietu opennlp.tools.tokenize.

Aby załadować model tokenizera -

  • Stworzyć InputStream obiekt modelu (Utwórz wystąpienie FileInputStream i przekaż ścieżkę modelu w formacie String do jego konstruktora).

  • Utwórz wystąpienie TokenizerModel klasę i zdaj InputStream (obiekt) modelu jako parametr jego konstruktora, jak pokazano w poniższym bloku kodu.

//Loading the Tokenizer model 
InputStream inputStream = new FileInputStream("C:/OpenNLP_models/en-token.bin"); 
TokenizerModel tokenModel = new TokenizerModel(inputStream);

Step 2 - Tworzenie wystąpienia klasy TokenizerME

Plik TokenizerME klasa pakietu opennlp.tools.tokenizezawiera metody cięcia surowego tekstu na mniejsze części (tokeny). Do podejmowania decyzji używa maksymalnej entropii.

Utwórz wystąpienie tej klasy i przekaż obiekt modelu utworzony w poprzednim kroku, jak pokazano poniżej.

//Instantiating the TokenizerME class 
TokenizerME tokenizer = new TokenizerME(tokenModel);

Step 3 - Tokenizacja wyroku

Plik tokenize() metoda TokenizerMEklasa jest używana do tokenizacji przekazanego do niej surowego tekstu. Ta metoda przyjmuje zmienną String jako parametr i zwraca tablicę Strings (tokenów).

Wywołaj tę metodę, przekazując format String zdania do tej metody w następujący sposób.

//Tokenizing the given raw text 
String tokens[] = tokenizer.tokenize(paragraph);

Example

Poniżej znajduje się program, który tokenizuje podany surowy tekst. Zapisz ten program w pliku o nazwieTokenizerMEExample.java.

import java.io.FileInputStream; 
import java.io.InputStream; 
import opennlp.tools.tokenize.TokenizerME; 
import opennlp.tools.tokenize.TokenizerModel;  

public class TokenizerMEExample { 
  
   public static void main(String args[]) throws Exception{     
     
      String sentence = "Hi. How are you? Welcome to Tutorialspoint. " 
            + "We provide free tutorials on various technologies"; 
       
      //Loading the Tokenizer model 
      InputStream inputStream = new FileInputStream("C:/OpenNLP_models/en-token.bin"); 
      TokenizerModel tokenModel = new TokenizerModel(inputStream); 
       
      //Instantiating the TokenizerME class 
      TokenizerME tokenizer = new TokenizerME(tokenModel); 
       
      //Tokenizing the given raw text 
      String tokens[] = tokenizer.tokenize(sentence);       
          
      //Printing the tokens  
      for (String a : tokens) 
         System.out.println(a); 
   } 
}

Skompiluj i uruchom zapisany plik Java z wiersza polecenia, używając następujących poleceń -

javac TokenizerMEExample.java 
java TokenizerMEExample

Podczas wykonywania powyższy program odczytuje podany ciąg i wykrywa zawarte w nim zdania i wyświetla następujący wynik -

Hi 
. 
How 
are 
you 
? 
Welcome 
to 
Tutorialspoint 
. 
We 
provide 
free 
tutorials 
on 
various 
technologie

Pobieranie pozycji tokenów

Możemy również uzyskać pozycje lub spans tokenów przy użyciu rozszerzenia tokenizePos()metoda. To jest metoda interfejsu Tokenizera pakietuopennlp.tools.tokenize. Ponieważ wszystkie (trzy) klasy Tokenizera implementują ten interfejs, możesz znaleźć tę metodę we wszystkich z nich.

Ta metoda przyjmuje zdanie lub surowy tekst w postaci ciągu znaków i zwraca tablicę obiektów tego typu Span.

Możesz uzyskać pozycje żetonów za pomocą tokenizePos() metoda w następujący sposób -

//Retrieving the tokens 
tokenizer.tokenizePos(sentence);

Drukowanie pozycji (przęseł)

Klasa o nazwie Span z opennlp.tools.util pakiet służy do przechowywania początkowej i końcowej liczby całkowitej zestawów.

Możesz przechowywać rozpiętości zwrócone przez tokenizePos() w tablicy Span i wydrukuj je, jak pokazano w poniższym bloku kodu.

//Retrieving the tokens 
Span[] tokens = tokenizer.tokenizePos(sentence);
//Printing the spans of tokens 
for( Span token : tokens)        
   System.out.println(token);

Wspólne drukowanie żetonów i ich pozycji

Plik substring() metoda klasy String akceptuje metodę begin i endprzesuwa i zwraca odpowiedni ciąg. Możemy użyć tej metody, aby wydrukować tokeny i ich rozpiętości (pozycje) razem, jak pokazano w poniższym bloku kodu.

//Printing the spans of tokens 
for(Span token : tokens)  
   System.out.println(token +" "+sent.substring(token.getStart(), token.getEnd()));

Example(SimpleTokenizer)

Poniżej znajduje się program, który pobiera zakresy tokenów surowego tekstu przy użyciu rozszerzenia SimpleTokenizerklasa. Drukuje również żetony wraz z ich pozycjami. Zapisz ten program w pliku o nazwieSimpleTokenizerSpans.java.

import opennlp.tools.tokenize.SimpleTokenizer; 
import opennlp.tools.util.Span;  

public class SimpleTokenizerSpans {  
   public static void main(String args[]){ 
     
      String sent = "Hi. How are you? Welcome to Tutorialspoint. " 
         + "We provide free tutorials on various technologies"; 
    
      //Instantiating SimpleTokenizer class 
      SimpleTokenizer simpleTokenizer = SimpleTokenizer.INSTANCE;  
       
      //Retrieving the boundaries of the tokens 
      Span[] tokens = simpleTokenizer.tokenizePos(sent);  
       
      //Printing the spans of tokens 
      for( Span token : tokens)
         System.out.println(token +" "+sent.substring(token.getStart(), token.getEnd()));          
   } 
}

Skompiluj i uruchom zapisany plik Java z wiersza polecenia, używając następujących poleceń -

javac SimpleTokenizerSpans.java 
java SimpleTokenizerSpans

Podczas wykonywania powyższy program odczytuje podany ciąg (nieprzetworzony tekst), tokenizuje go i wyświetla następujące dane wyjściowe -

[0..2) Hi 
[2..3) . 
[4..7) How 
[8..11) are 
[12..15) you 
[15..16) ? 
[17..24) Welcome 
[25..27) to 
[28..42) Tutorialspoint 
[42..43) . 
[44..46) We 
[47..54) provide 
[55..59) free 
[60..69) tutorials 
[70..72) on 
[73..80) various 
[81..93) technologies

Example (WhitespaceTokenizer)

Poniżej znajduje się program, który pobiera zakresy tokenów surowego tekstu przy użyciu rozszerzenia WhitespaceTokenizerklasa. Drukuje również żetony wraz z ich pozycjami. Zapisz ten program w pliku o nazwieWhitespaceTokenizerSpans.java.

import opennlp.tools.tokenize.WhitespaceTokenizer;
import opennlp.tools.util.Span; 
public class WhitespaceTokenizerSpans {  
   public static void main(String args[]){ 
     
      String sent = "Hi. How are you? Welcome to Tutorialspoint. " 
         + "We provide free tutorials on various technologies"; 
    
      //Instantiating SimpleTokenizer class 
      WhitespaceTokenizer whitespaceTokenizer = WhitespaceTokenizer.INSTANCE;  
       
      //Retrieving the tokens 
      Span[] tokens = whitespaceTokenizer.tokenizePos(sent);  
       
      //Printing the spans of tokens 
      for( Span token : tokens) 
         System.out.println(token +" 
            "+sent.substring(token.getStart(), token.getEnd()));        
   } 
}

Skompiluj i uruchom zapisany plik java z wiersza poleceń, używając następujących poleceń

javac WhitespaceTokenizerSpans.java 
java WhitespaceTokenizerSpans

Podczas wykonywania powyższy program odczytuje dany ciąg (nieprzetworzony tekst), tokenizuje go i wyświetla następujące dane wyjściowe.

[0..3) Hi. 
[4..7) How 
[8..11) are 
[12..16) you? 
[17..24) Welcome 
[25..27) to 
[28..43) Tutorialspoint. 
[44..46) We 
[47..54) provide 
[55..59) free
[60..69) tutorials 
[70..72) on 
[73..80) various 
[81..93) technologies

Example (TokenizerME)

Poniżej znajduje się program, który pobiera zakresy tokenów surowego tekstu przy użyciu rozszerzenia TokenizerMEklasa. Drukuje również żetony wraz z ich pozycjami. Zapisz ten program w pliku o nazwieTokenizerMESpans.java.

import java.io.FileInputStream; 
import java.io.InputStream; 
import opennlp.tools.tokenize.TokenizerME; 
import opennlp.tools.tokenize.TokenizerModel; 
import opennlp.tools.util.Span;  

public class TokenizerMESpans { 
   public static void main(String args[]) throws Exception{     
      String sent = "Hello John how are you welcome to Tutorialspoint"; 
       
      //Loading the Tokenizer model 
      InputStream inputStream = new FileInputStream("C:/OpenNLP_models/en-token.bin"); 
      TokenizerModel tokenModel = new TokenizerModel(inputStream); 
       
      //Instantiating the TokenizerME class 
      TokenizerME tokenizer = new TokenizerME(tokenModel); 
       
      //Retrieving the positions of the tokens 
      Span tokens[] = tokenizer.tokenizePos(sent); 
       
      //Printing the spans of tokens 
      for(Span token : tokens) 
         System.out.println(token +" "+sent.substring(token.getStart(), token.getEnd()));      
   } 
}

Skompiluj i uruchom zapisany plik Java z wiersza polecenia, używając następujących poleceń -

javac TokenizerMESpans.java 
java TokenizerMESpans

Podczas wykonywania powyższy program odczytuje podany ciąg (nieprzetworzony tekst), tokenizuje go i wyświetla następujące dane wyjściowe -

[0..5) Hello 
[6..10) John 
[11..14) how 
[15..18) are 
[19..22) you 
[23..30) welcome 
[31..33) to 
[34..48) Tutorialspoint

Prawdopodobieństwo tokenizera

Metoda getTokenProbabilities () klasy TokenizerME służy do uzyskiwania prawdopodobieństw związanych z ostatnimi wywołaniami metody tokenizePos ().

//Getting the probabilities of the recent calls to tokenizePos() method 
double[] probs = detector.getSentenceProbabilities();

Poniżej znajduje się program wyświetlający prawdopodobieństwa związane z wywołaniami metody tokenizePos (). Zapisz ten program w pliku o nazwieTokenizerMEProbs.java.

import java.io.FileInputStream; 
import java.io.InputStream; 
import opennlp.tools.tokenize.TokenizerME; 
import opennlp.tools.tokenize.TokenizerModel; 
import opennlp.tools.util.Span;  

public class TokenizerMEProbs { 
   
   public static void main(String args[]) throws Exception{     
      String sent = "Hello John how are you welcome to Tutorialspoint"; 
      
      //Loading the Tokenizer model 
      InputStream inputStream = new FileInputStream("C:/OpenNLP_models/en-token.bin"); 
      TokenizerModel tokenModel = new TokenizerModel(inputStream); 
      
      //Instantiating the TokenizerME class 
      TokenizerME tokenizer = new TokenizerME(tokenModel);
      
      //Retrieving the positions of the tokens 
      Span tokens[] = tokenizer.tokenizePos(sent); 
       
      //Getting the probabilities of the recent calls to tokenizePos() method 
      double[] probs = tokenizer.getTokenProbabilities(); 
       
      //Printing the spans of tokens 
      for(Span token : tokens) 
         System.out.println(token +" "+sent.substring(token.getStart(), token.getEnd()));      
         System.out.println("  "); 
         for(int i = 0; i<probs.length; i++) 
            System.out.println(probs[i]);          
   } 
}

Skompiluj i uruchom zapisany plik Java z wiersza polecenia, używając następujących poleceń -

javac TokenizerMEProbs.java 
java TokenizerMEProbs

Podczas wykonywania powyższy program odczytuje podany ciąg znaków, tokenizuje zdania i drukuje je. Ponadto zwraca również prawdopodobieństwa związane z ostatnimi wywołaniami metody tokenizerPos ().

[0..5) Hello 
[6..10) John 
[11..14) how 
[15..18) are 
[19..22) you 
[23..30) welcome 
[31..33) to 
[34..48) Tutorialspoint 
   
1.0 
1.0 
1.0 
1.0 
1.0 
1.0 
1.0 
1.0