OpenNLP - tokenizacja
Proces dzielenia danego zdania na mniejsze części (żetony) jest znany jako tokenization. Ogólnie rzecz biorąc, dany tekst surowy jest tokenizowany na podstawie zestawu ograniczników (głównie białych znaków).
Tokenizacja jest wykorzystywana w zadaniach takich jak sprawdzanie pisowni, przetwarzanie wyszukiwań, identyfikacja części mowy, wykrywanie zdań, klasyfikacja dokumentów dokumentów itp.
Tokenizacja za pomocą OpenNLP
Plik opennlp.tools.tokenize pakiet zawiera klasy i interfejsy, które są używane do wykonywania tokenizacji.
Aby tokenizować podane zdania na prostsze fragmenty, biblioteka OpenNLP udostępnia trzy różne klasy -
SimpleTokenizer - Ta klasa tokenizuje podany surowy tekst przy użyciu klas znaków.
WhitespaceTokenizer - Ta klasa używa białych znaków do tokenizacji podanego tekstu.
TokenizerME- Ta klasa konwertuje surowy tekst na oddzielne tokeny. Do podejmowania decyzji używa maksymalnej entropii.
SimpleTokenizer
Aby tokenizować zdanie za pomocą SimpleTokenizer klasa, musisz -
Utwórz obiekt odpowiedniej klasy.
Tokenizuj zdanie za pomocą tokenize() metoda.
Wydrukuj tokeny.
Poniżej przedstawiono kroki, które należy wykonać, aby napisać program, który tokenizuje podany surowy tekst.
Step 1 - Tworzenie instancji odpowiedniej klasy
W obu klasach nie ma dostępnych konstruktorów do ich tworzenia. Dlatego musimy tworzyć obiekty tych klas za pomocą zmiennej statycznejINSTANCE.
SimpleTokenizer tokenizer = SimpleTokenizer.INSTANCE;
Step 2 - Tokenizuj zdania
Obie te klasy zawierają metodę o nazwie tokenize(). Ta metoda akceptuje nieprzetworzony tekst w formacie String. Podczas wywoływania tokenizuje dany ciąg znaków i zwraca tablicę ciągów znaków (tokenów).
Tokenizuj zdanie za pomocą tokenizer() metoda, jak pokazano poniżej.
//Tokenizing the given sentence
String tokens[] = tokenizer.tokenize(sentence);
Step 3 - Wydrukuj tokeny
Po tokenizacji zdania możesz wydrukować tokeny za pomocą for loop, jak pokazano niżej.
//Printing the tokens
for(String token : tokens)
System.out.println(token);
Example
Poniżej znajduje się program, który tokenizuje dane zdanie za pomocą klasy SimpleTokenizer. Zapisz ten program w pliku o nazwieSimpleTokenizerExample.java.
import opennlp.tools.tokenize.SimpleTokenizer;
public class SimpleTokenizerExample {
public static void main(String args[]){
String sentence = "Hi. How are you? Welcome to Tutorialspoint. "
+ "We provide free tutorials on various technologies";
//Instantiating SimpleTokenizer class
SimpleTokenizer simpleTokenizer = SimpleTokenizer.INSTANCE;
//Tokenizing the given sentence
String tokens[] = simpleTokenizer.tokenize(sentence);
//Printing the tokens
for(String token : tokens) {
System.out.println(token);
}
}
}
Skompiluj i uruchom zapisany plik Java z wiersza polecenia, używając następujących poleceń -
javac SimpleTokenizerExample.java
java SimpleTokenizerExample
Podczas wykonywania powyższy program odczytuje podany ciąg (nieprzetworzony tekst), tokenizuje go i wyświetla następujące dane wyjściowe -
Hi
.
How
are
you
?
Welcome
to
Tutorialspoint
.
We
provide
free
tutorials
on
various
technologies
WhitespaceTokenizer
Aby tokenizować zdanie za pomocą WhitespaceTokenizer klasa, musisz -
Utwórz obiekt odpowiedniej klasy.
Tokenizuj zdanie za pomocą tokenize() metoda.
Wydrukuj tokeny.
Poniżej przedstawiono kroki, które należy wykonać, aby napisać program, który tokenizuje podany surowy tekst.
Step 1 - Tworzenie instancji odpowiedniej klasy
W obu klasach nie ma dostępnych konstruktorów do ich tworzenia. Dlatego musimy tworzyć obiekty tych klas za pomocą zmiennej statycznejINSTANCE.
WhitespaceTokenizer tokenizer = WhitespaceTokenizer.INSTANCE;
Step 2 - Tokenizuj zdania
Obie te klasy zawierają metodę o nazwie tokenize(). Ta metoda akceptuje nieprzetworzony tekst w formacie String. Podczas wywoływania tokenizuje dany ciąg znaków i zwraca tablicę ciągów znaków (tokenów).
Tokenizuj zdanie za pomocą tokenizer() metoda, jak pokazano poniżej.
//Tokenizing the given sentence
String tokens[] = tokenizer.tokenize(sentence);
Step 3 - Wydrukuj tokeny
Po tokenizacji zdania możesz wydrukować tokeny za pomocą for loop, jak pokazano niżej.
//Printing the tokens
for(String token : tokens)
System.out.println(token);
Example
Poniżej znajduje się program, który tokenizuje dane zdanie za pomocą WhitespaceTokenizerklasa. Zapisz ten program w pliku o nazwieWhitespaceTokenizerExample.java.
import opennlp.tools.tokenize.WhitespaceTokenizer;
public class WhitespaceTokenizerExample {
public static void main(String args[]){
String sentence = "Hi. How are you? Welcome to Tutorialspoint. "
+ "We provide free tutorials on various technologies";
//Instantiating whitespaceTokenizer class
WhitespaceTokenizer whitespaceTokenizer = WhitespaceTokenizer.INSTANCE;
//Tokenizing the given paragraph
String tokens[] = whitespaceTokenizer.tokenize(sentence);
//Printing the tokens
for(String token : tokens)
System.out.println(token);
}
}
Skompiluj i uruchom zapisany plik Java z wiersza polecenia, używając następujących poleceń -
javac WhitespaceTokenizerExample.java
java WhitespaceTokenizerExample
Podczas wykonywania powyższy program odczytuje dany ciąg (nieprzetworzony tekst), tokenizuje go i wyświetla następujące dane wyjściowe.
Hi.
How
are
you?
Welcome
to
Tutorialspoint.
We
provide
free
tutorials
on
various
technologies
Klasa TokenizerME
OpenNLP używa również predefiniowanego modelu, pliku o nazwie de-token.bin, do tokenizacji zdań. Jest wyszkolony do tokenizacji zdań w danym surowym tekście.
Plik TokenizerME klasa opennlp.tools.tokenizerpackage jest używany do ładowania tego modelu i tokenizacji podanego surowego tekstu przy użyciu biblioteki OpenNLP. Aby to zrobić, musisz -
Załaduj en-token.bin model przy użyciu TokenizerModel klasa.
Utwórz wystąpienie TokenizerME klasa.
Tokenizuj zdania za pomocą tokenize() metoda tej klasy.
Poniżej przedstawiono kroki, które należy wykonać, aby napisać program, który tokenizuje zdania z danego surowego tekstu przy użyciu rozszerzenia TokenizerME klasa.
Step 1 - Ładowanie modelu
Model do tokenizacji jest reprezentowany przez nazwaną klasę TokenizerModel, który należy do pakietu opennlp.tools.tokenize.
Aby załadować model tokenizera -
Stworzyć InputStream obiekt modelu (Utwórz wystąpienie FileInputStream i przekaż ścieżkę modelu w formacie String do jego konstruktora).
Utwórz wystąpienie TokenizerModel klasę i zdaj InputStream (obiekt) modelu jako parametr jego konstruktora, jak pokazano w poniższym bloku kodu.
//Loading the Tokenizer model
InputStream inputStream = new FileInputStream("C:/OpenNLP_models/en-token.bin");
TokenizerModel tokenModel = new TokenizerModel(inputStream);
Step 2 - Tworzenie wystąpienia klasy TokenizerME
Plik TokenizerME klasa pakietu opennlp.tools.tokenizezawiera metody cięcia surowego tekstu na mniejsze części (tokeny). Do podejmowania decyzji używa maksymalnej entropii.
Utwórz wystąpienie tej klasy i przekaż obiekt modelu utworzony w poprzednim kroku, jak pokazano poniżej.
//Instantiating the TokenizerME class
TokenizerME tokenizer = new TokenizerME(tokenModel);
Step 3 - Tokenizacja wyroku
Plik tokenize() metoda TokenizerMEklasa jest używana do tokenizacji przekazanego do niej surowego tekstu. Ta metoda przyjmuje zmienną String jako parametr i zwraca tablicę Strings (tokenów).
Wywołaj tę metodę, przekazując format String zdania do tej metody w następujący sposób.
//Tokenizing the given raw text
String tokens[] = tokenizer.tokenize(paragraph);
Example
Poniżej znajduje się program, który tokenizuje podany surowy tekst. Zapisz ten program w pliku o nazwieTokenizerMEExample.java.
import java.io.FileInputStream;
import java.io.InputStream;
import opennlp.tools.tokenize.TokenizerME;
import opennlp.tools.tokenize.TokenizerModel;
public class TokenizerMEExample {
public static void main(String args[]) throws Exception{
String sentence = "Hi. How are you? Welcome to Tutorialspoint. "
+ "We provide free tutorials on various technologies";
//Loading the Tokenizer model
InputStream inputStream = new FileInputStream("C:/OpenNLP_models/en-token.bin");
TokenizerModel tokenModel = new TokenizerModel(inputStream);
//Instantiating the TokenizerME class
TokenizerME tokenizer = new TokenizerME(tokenModel);
//Tokenizing the given raw text
String tokens[] = tokenizer.tokenize(sentence);
//Printing the tokens
for (String a : tokens)
System.out.println(a);
}
}
Skompiluj i uruchom zapisany plik Java z wiersza polecenia, używając następujących poleceń -
javac TokenizerMEExample.java
java TokenizerMEExample
Podczas wykonywania powyższy program odczytuje podany ciąg i wykrywa zawarte w nim zdania i wyświetla następujący wynik -
Hi
.
How
are
you
?
Welcome
to
Tutorialspoint
.
We
provide
free
tutorials
on
various
technologie
Pobieranie pozycji tokenów
Możemy również uzyskać pozycje lub spans tokenów przy użyciu rozszerzenia tokenizePos()metoda. To jest metoda interfejsu Tokenizera pakietuopennlp.tools.tokenize. Ponieważ wszystkie (trzy) klasy Tokenizera implementują ten interfejs, możesz znaleźć tę metodę we wszystkich z nich.
Ta metoda przyjmuje zdanie lub surowy tekst w postaci ciągu znaków i zwraca tablicę obiektów tego typu Span.
Możesz uzyskać pozycje żetonów za pomocą tokenizePos() metoda w następujący sposób -
//Retrieving the tokens
tokenizer.tokenizePos(sentence);
Drukowanie pozycji (przęseł)
Klasa o nazwie Span z opennlp.tools.util pakiet służy do przechowywania początkowej i końcowej liczby całkowitej zestawów.
Możesz przechowywać rozpiętości zwrócone przez tokenizePos() w tablicy Span i wydrukuj je, jak pokazano w poniższym bloku kodu.
//Retrieving the tokens
Span[] tokens = tokenizer.tokenizePos(sentence);
//Printing the spans of tokens
for( Span token : tokens)
System.out.println(token);
Wspólne drukowanie żetonów i ich pozycji
Plik substring() metoda klasy String akceptuje metodę begin i endprzesuwa i zwraca odpowiedni ciąg. Możemy użyć tej metody, aby wydrukować tokeny i ich rozpiętości (pozycje) razem, jak pokazano w poniższym bloku kodu.
//Printing the spans of tokens
for(Span token : tokens)
System.out.println(token +" "+sent.substring(token.getStart(), token.getEnd()));
Example(SimpleTokenizer)
Poniżej znajduje się program, który pobiera zakresy tokenów surowego tekstu przy użyciu rozszerzenia SimpleTokenizerklasa. Drukuje również żetony wraz z ich pozycjami. Zapisz ten program w pliku o nazwieSimpleTokenizerSpans.java.
import opennlp.tools.tokenize.SimpleTokenizer;
import opennlp.tools.util.Span;
public class SimpleTokenizerSpans {
public static void main(String args[]){
String sent = "Hi. How are you? Welcome to Tutorialspoint. "
+ "We provide free tutorials on various technologies";
//Instantiating SimpleTokenizer class
SimpleTokenizer simpleTokenizer = SimpleTokenizer.INSTANCE;
//Retrieving the boundaries of the tokens
Span[] tokens = simpleTokenizer.tokenizePos(sent);
//Printing the spans of tokens
for( Span token : tokens)
System.out.println(token +" "+sent.substring(token.getStart(), token.getEnd()));
}
}
Skompiluj i uruchom zapisany plik Java z wiersza polecenia, używając następujących poleceń -
javac SimpleTokenizerSpans.java
java SimpleTokenizerSpans
Podczas wykonywania powyższy program odczytuje podany ciąg (nieprzetworzony tekst), tokenizuje go i wyświetla następujące dane wyjściowe -
[0..2) Hi
[2..3) .
[4..7) How
[8..11) are
[12..15) you
[15..16) ?
[17..24) Welcome
[25..27) to
[28..42) Tutorialspoint
[42..43) .
[44..46) We
[47..54) provide
[55..59) free
[60..69) tutorials
[70..72) on
[73..80) various
[81..93) technologies
Example (WhitespaceTokenizer)
Poniżej znajduje się program, który pobiera zakresy tokenów surowego tekstu przy użyciu rozszerzenia WhitespaceTokenizerklasa. Drukuje również żetony wraz z ich pozycjami. Zapisz ten program w pliku o nazwieWhitespaceTokenizerSpans.java.
import opennlp.tools.tokenize.WhitespaceTokenizer;
import opennlp.tools.util.Span;
public class WhitespaceTokenizerSpans {
public static void main(String args[]){
String sent = "Hi. How are you? Welcome to Tutorialspoint. "
+ "We provide free tutorials on various technologies";
//Instantiating SimpleTokenizer class
WhitespaceTokenizer whitespaceTokenizer = WhitespaceTokenizer.INSTANCE;
//Retrieving the tokens
Span[] tokens = whitespaceTokenizer.tokenizePos(sent);
//Printing the spans of tokens
for( Span token : tokens)
System.out.println(token +"
"+sent.substring(token.getStart(), token.getEnd()));
}
}
Skompiluj i uruchom zapisany plik java z wiersza poleceń, używając następujących poleceń
javac WhitespaceTokenizerSpans.java
java WhitespaceTokenizerSpans
Podczas wykonywania powyższy program odczytuje dany ciąg (nieprzetworzony tekst), tokenizuje go i wyświetla następujące dane wyjściowe.
[0..3) Hi.
[4..7) How
[8..11) are
[12..16) you?
[17..24) Welcome
[25..27) to
[28..43) Tutorialspoint.
[44..46) We
[47..54) provide
[55..59) free
[60..69) tutorials
[70..72) on
[73..80) various
[81..93) technologies
Example (TokenizerME)
Poniżej znajduje się program, który pobiera zakresy tokenów surowego tekstu przy użyciu rozszerzenia TokenizerMEklasa. Drukuje również żetony wraz z ich pozycjami. Zapisz ten program w pliku o nazwieTokenizerMESpans.java.
import java.io.FileInputStream;
import java.io.InputStream;
import opennlp.tools.tokenize.TokenizerME;
import opennlp.tools.tokenize.TokenizerModel;
import opennlp.tools.util.Span;
public class TokenizerMESpans {
public static void main(String args[]) throws Exception{
String sent = "Hello John how are you welcome to Tutorialspoint";
//Loading the Tokenizer model
InputStream inputStream = new FileInputStream("C:/OpenNLP_models/en-token.bin");
TokenizerModel tokenModel = new TokenizerModel(inputStream);
//Instantiating the TokenizerME class
TokenizerME tokenizer = new TokenizerME(tokenModel);
//Retrieving the positions of the tokens
Span tokens[] = tokenizer.tokenizePos(sent);
//Printing the spans of tokens
for(Span token : tokens)
System.out.println(token +" "+sent.substring(token.getStart(), token.getEnd()));
}
}
Skompiluj i uruchom zapisany plik Java z wiersza polecenia, używając następujących poleceń -
javac TokenizerMESpans.java
java TokenizerMESpans
Podczas wykonywania powyższy program odczytuje podany ciąg (nieprzetworzony tekst), tokenizuje go i wyświetla następujące dane wyjściowe -
[0..5) Hello
[6..10) John
[11..14) how
[15..18) are
[19..22) you
[23..30) welcome
[31..33) to
[34..48) Tutorialspoint
Prawdopodobieństwo tokenizera
Metoda getTokenProbabilities () klasy TokenizerME służy do uzyskiwania prawdopodobieństw związanych z ostatnimi wywołaniami metody tokenizePos ().
//Getting the probabilities of the recent calls to tokenizePos() method
double[] probs = detector.getSentenceProbabilities();
Poniżej znajduje się program wyświetlający prawdopodobieństwa związane z wywołaniami metody tokenizePos (). Zapisz ten program w pliku o nazwieTokenizerMEProbs.java.
import java.io.FileInputStream;
import java.io.InputStream;
import opennlp.tools.tokenize.TokenizerME;
import opennlp.tools.tokenize.TokenizerModel;
import opennlp.tools.util.Span;
public class TokenizerMEProbs {
public static void main(String args[]) throws Exception{
String sent = "Hello John how are you welcome to Tutorialspoint";
//Loading the Tokenizer model
InputStream inputStream = new FileInputStream("C:/OpenNLP_models/en-token.bin");
TokenizerModel tokenModel = new TokenizerModel(inputStream);
//Instantiating the TokenizerME class
TokenizerME tokenizer = new TokenizerME(tokenModel);
//Retrieving the positions of the tokens
Span tokens[] = tokenizer.tokenizePos(sent);
//Getting the probabilities of the recent calls to tokenizePos() method
double[] probs = tokenizer.getTokenProbabilities();
//Printing the spans of tokens
for(Span token : tokens)
System.out.println(token +" "+sent.substring(token.getStart(), token.getEnd()));
System.out.println(" ");
for(int i = 0; i<probs.length; i++)
System.out.println(probs[i]);
}
}
Skompiluj i uruchom zapisany plik Java z wiersza polecenia, używając następujących poleceń -
javac TokenizerMEProbs.java
java TokenizerMEProbs
Podczas wykonywania powyższy program odczytuje podany ciąg znaków, tokenizuje zdania i drukuje je. Ponadto zwraca również prawdopodobieństwa związane z ostatnimi wywołaniami metody tokenizerPos ().
[0..5) Hello
[6..10) John
[11..14) how
[15..18) are
[19..22) you
[23..30) welcome
[31..33) to
[34..48) Tutorialspoint
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0