OpenNLP - Panduan Cepat
NLP adalah seperangkat alat yang digunakan untuk memperoleh informasi yang bermakna dan berguna dari sumber bahasa alami seperti halaman web dan dokumen teks.
Apa itu Open NLP?
Apache OpenNLPadalah pustaka Java sumber terbuka yang digunakan untuk memproses teks bahasa alami. Anda dapat membangun layanan pemrosesan teks yang efisien menggunakan pustaka ini.
OpenNLP menyediakan layanan seperti tokenisasi, segmentasi kalimat, penandaan part-of-speech, ekstraksi entitas bernama, chunking, parsing, dan resolusi referensi bersama, dll.
Fitur OpenNLP
Berikut adalah fitur-fitur penting dari OpenNLP -
Named Entity Recognition (NER) - Open NLP mendukung NER, yang dengannya Anda dapat mengekstrak nama lokasi, orang, dan benda bahkan saat memproses kueri.
Summarize - Menggunakan summarize fitur, Anda dapat meringkas Paragraf, artikel, dokumen atau koleksinya di NLP.
Searching - Dalam OpenNLP, string pencarian tertentu atau sinonimnya dapat diidentifikasi dalam teks tertentu, meskipun kata tersebut diubah atau salah eja.
Tagging (POS) - Pemberian tag di NLP digunakan untuk membagi teks menjadi berbagai elemen tata bahasa untuk analisis lebih lanjut.
Translation - Di NLP, Terjemahan membantu menerjemahkan satu bahasa ke bahasa lain.
Information grouping - Opsi di NLP ini mengelompokkan informasi tekstual dalam konten dokumen, seperti Part of speech.
Natural Language Generation - Digunakan untuk menghasilkan informasi dari database dan mengotomatiskan laporan informasi seperti analisis cuaca atau laporan medis.
Feedback Analysis - Sesuai dengan namanya, berbagai jenis umpan balik dari orang-orang dikumpulkan, mengenai produk, oleh NLP untuk menganalisis seberapa baik produk tersebut berhasil memenangkan hati mereka.
Speech recognition - Meskipun sulit untuk menganalisis ucapan manusia, NLP memiliki beberapa fitur bawaan untuk persyaratan ini.
Buka NLP API
Perpustakaan Apache OpenNLP menyediakan kelas dan antarmuka untuk melakukan berbagai tugas pemrosesan bahasa alami seperti deteksi kalimat, tokenisasi, menemukan nama, menandai bagian-bagian ucapan, memotong kalimat, mengurai, resolusi referensi bersama, dan kategorisasi dokumen.
Selain tugas-tugas ini, kami juga dapat melatih dan mengevaluasi model kami sendiri untuk tugas-tugas ini.
OpenNLP CLI
Selain library, OpenNLP juga menyediakan Command Line Interface (CLI), tempat kita dapat melatih dan mengevaluasi model. Kami akan membahas topik ini secara rinci di bab terakhir dari tutorial ini.
Buka Model NLP
Untuk melakukan berbagai tugas NLP, OpenNLP menyediakan satu set model yang telah ditentukan sebelumnya. Set ini mencakup model untuk berbagai bahasa.
Mendownload model
Anda dapat mengikuti langkah-langkah yang diberikan di bawah ini untuk mengunduh model yang telah ditentukan yang disediakan oleh OpenNLP.
Step 1 - Buka halaman indeks model OpenNLP dengan mengklik link berikut - http://opennlp.sourceforge.net/models-1.5/.
Step 2- Saat mengunjungi tautan yang diberikan, Anda akan melihat daftar komponen dari berbagai bahasa dan tautan untuk mengunduhnya. Di sini, Anda bisa mendapatkan daftar semua model standar yang disediakan oleh OpenNLP.
Unduh semua model ini ke folder C:/OpenNLP_models/>, dengan mengklik link masing-masing. Semua model ini bergantung pada bahasa dan saat menggunakannya, Anda harus memastikan bahwa bahasa model sesuai dengan bahasa teks input.
Sejarah OpenNLP
Pada tahun 2010, OpenNLP memasuki inkubasi Apache.
Pada tahun 2011, Apache OpenNLP 1.5.2 Incubating dirilis, dan pada tahun yang sama, ia lulus sebagai proyek Apache tingkat atas.
Pada 2015, OpenNLP dirilis 1.6.0.
Dalam bab ini, kita akan membahas bagaimana Anda dapat mengatur lingkungan OpenNLP di sistem Anda. Mari kita mulai dengan proses instalasi.
Menginstal OpenNLP
Berikut langkah-langkah untuk mendownload Apache OpenNLP library di sistem Anda.
Step 1 - Buka beranda Apache OpenNLP dengan mengklik link berikut - https://opennlp.apache.org/.
Step 2 - Sekarang, klik Downloadstautan. Saat mengklik, Anda akan diarahkan ke halaman di mana Anda dapat menemukan berbagai mirror yang akan mengarahkan Anda ke direktori Distribusi Apache Software Foundation.
Step 3- Di halaman ini Anda dapat menemukan link untuk mendownload berbagai distro Apache. Jelajahi mereka dan temukan distribusi OpenNLP dan klik.
Step 4 - Saat mengklik, Anda akan diarahkan ke direktori tempat Anda dapat melihat indeks distribusi OpenNLP, seperti yang ditunjukkan di bawah ini.
Klik pada versi terbaru dari distribusi yang tersedia.
Step 5- Setiap distribusi menyediakan file Sumber dan Biner dari pustaka OpenNLP dalam berbagai format. Unduh file sumber dan biner,apache-opennlp-1.6.0-bin.zip dan apache-opennlp1.6.0-src.zip (untuk Windows).
Mengatur Classpath
Setelah mengunduh pustaka OpenNLP, Anda perlu menyetel jalurnya ke bindirektori. Asumsikan bahwa Anda telah mengunduh pustaka OpenNLP ke drive E sistem Anda.
Sekarang, ikuti langkah-langkah yang diberikan di bawah ini -
Step 1 - Klik kanan pada 'My Computer' dan pilih 'Properties'.
Step 2 - Klik tombol 'Variabel Lingkungan' di bawah tab 'Lanjutan'.
Step 3 - Pilih path variabel dan klik Edit tombol, seperti yang ditunjukkan pada tangkapan layar berikut.
Step 4 - Di jendela Edit Variabel Lingkungan, klik New tombol dan tambahkan jalur untuk direktori OpenNLP E:\apache-opennlp-1.6.0\bin dan klik OK tombol, seperti yang ditunjukkan pada tangkapan layar berikut.
Instalasi Eclipse
Anda dapat menyetel lingkungan Eclipse untuk pustaka OpenNLP, baik dengan menyetel Build path ke file JAR atau dengan menggunakan pom.xml.
Mengatur Build Path ke File JAR
Ikuti langkah-langkah yang diberikan di bawah ini untuk menginstal OpenNLP di Eclipse -
Step 1 - Pastikan Anda telah menginstal lingkungan Eclipse di sistem Anda.
Step 2- Buka Eclipse. Klik File → New → Buka proyek baru, seperti yang ditunjukkan di bawah ini.
Step 3 - Anda akan mendapatkan New ProjectPenyihir. Di wizard ini, pilih proyek Java dan lanjutkan dengan mengklikNext tombol.
Step 4 - Selanjutnya, Anda akan mendapatkan New Java Project wizard. Di sini, Anda perlu membuat proyek baru dan klikNext tombol, seperti yang ditunjukkan di bawah ini.
Step 5 - Setelah membuat proyek baru, klik kanan padanya, pilih Build Path dan klik Configure Build Path.
Step 6 - Selanjutnya, Anda akan mendapatkan Java Build PathPenyihir. Di sini, klikAdd External JARs tombol, seperti yang ditunjukkan di bawah ini.
Step 7 - Pilih file jar opennlp-tools-1.6.0.jar dan opennlp-uima-1.6.0.jar terletak di lib folder dari apache-opennlp-1.6.0 folder.
Saat mengklik Open di layar di atas, file yang dipilih akan ditambahkan ke perpustakaan Anda.
Saat mengklik OK, Anda akan berhasil menambahkan file JAR yang diperlukan ke proyek saat ini dan Anda dapat memverifikasi perpustakaan yang ditambahkan ini dengan memperluas Perpustakaan yang Dirujuk, seperti yang ditunjukkan di bawah ini.
Menggunakan pom.xml
Ubah proyek menjadi proyek Maven dan tambahkan kode berikut ke dalamnya pom.xml.
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0
http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>myproject</groupId>
<artifactId>myproject</artifactId>
<version>0.0.1-SNAPSHOT</version>
<build>
<sourceDirectory>src</sourceDirectory>
<plugins>
<plugin>
<artifactId>maven-compiler-plugin</artifactId>
<version>3.5.1</version>
<configuration>
<source>1.8</source>
<target>1.8</target>
</configuration>
</plugin>
</plugins>
</build>
<dependencies>
<dependency>
<groupId>org.apache.opennlp</groupId>
<artifactId>opennlp-tools</artifactId>
<version>1.6.0</version>
</dependency>
<dependency>
<groupId>org.apache.opennlp</groupId>
<artifactId>opennlp-uima</artifactId>
<version>1.6.0</version>
</dependency>
</dependencies>
</project>
Pada bab ini, kita akan membahas tentang kelas dan metode yang akan kita gunakan pada bab-bab selanjutnya dari tutorial ini.
Deteksi Kalimat
Kelas SentenceModel
Kelas ini mewakili model yang telah ditentukan yang digunakan untuk mendeteksi kalimat dalam teks mentah yang diberikan. Kelas ini termasuk dalam paketopennlp.tools.sentdetect.
Konstruktor kelas ini menerima InputStream objek dari file model detektor kalimat (en-sent.bin).
SentenceDetectorME
Kelas ini termasuk dalam paket opennlp.tools.sentdetectdan ini berisi metode untuk membagi teks mentah menjadi kalimat. Kelas ini menggunakan model entropi maksimum untuk mengevaluasi karakter akhir kalimat dalam sebuah string untuk menentukan apakah mereka menandakan akhir kalimat.
Berikut adalah metode penting dari kelas ini.
S.No | Metode dan Deskripsi |
---|---|
1 | sentDetect() Metode ini digunakan untuk mendeteksi kalimat dalam teks mentah yang diteruskan kepadanya. Ini menerima variabel String sebagai parameter dan mengembalikan array String yang menyimpan kalimat dari teks mentah yang diberikan. |
2 | sentPosDetect() Metode ini digunakan untuk mendeteksi posisi kalimat dalam teks tertentu. Metode ini menerima variabel string, mewakili kalimat dan mengembalikan larik objek berjenisSpan. Kelas bernama Span dari opennlp.tools.util paket digunakan untuk menyimpan bilangan bulat awal dan akhir dari set. |
3 | getSentenceProbabilities() Metode ini mengembalikan probabilitas yang terkait dengan panggilan terbaru ke sentDetect() metode. |
Tokenisasi
Kelas TokenizerModel
Kelas ini mewakili model standar yang digunakan untuk memberi token pada kalimat yang diberikan. Kelas ini termasuk dalam paketopennlp.tools.tokenizer.
Konstruktor kelas ini menerima a InputStream objek dari file model tokenizer (entoken.bin).
Kelas
Untuk melakukan tokenisasi, pustaka OpenNLP menyediakan tiga kelas utama. Ketiga kelas menerapkan antarmuka yang disebutTokenizer.
S.No | Kelas dan Deskripsi |
---|---|
1 | SimpleTokenizer Kelas ini memberi token pada teks mentah yang diberikan menggunakan kelas karakter. |
2 | WhitespaceTokenizer Kelas ini menggunakan spasi putih untuk memberi token pada teks yang diberikan. |
3 | TokenizerME Kelas ini mengonversi teks mentah menjadi token terpisah. Ia menggunakan Entropi Maksimum untuk membuat keputusannya. |
Kelas-kelas ini berisi metode berikut.
S.No | Metode dan Deskripsi |
---|---|
1 | tokenize() Metode ini digunakan untuk membuat token teks mentah. Metode ini menerima variabel String sebagai parameter, dan mengembalikan larik String (token). |
2 | sentPosDetect() Metode ini digunakan untuk mendapatkan posisi atau rentang token. Ini menerima kalimat (atau) teks mentah dalam bentuk string dan mengembalikan array objek dari tipe tersebutSpan. |
Selain dua metode di atas, file TokenizerME kelas memiliki getTokenProbabilities() metode.
S.No | Metode dan Deskripsi |
---|---|
1 | getTokenProbabilities() Metode ini digunakan untuk mendapatkan probabilitas yang terkait dengan panggilan terbaru ke tokenizePos() metode. |
NameEntityRecognition
TokenNameFinderModel
Kelas ini mewakili model yang telah ditentukan yang digunakan untuk menemukan entitas bernama dalam kalimat yang diberikan. Kelas ini termasuk dalam paketopennlp.tools.namefind.
Konstruktor kelas ini menerima a InputStream objek dari file model pencari nama (enner-person.bin).
Kelas NameFinderME
Kelas milik paket opennlp.tools.namefinddan berisi metode untuk melakukan tugas NER. Kelas ini menggunakan model entropi maksimum untuk menemukan entitas bernama dalam teks mentah yang diberikan.
S.No | Metode dan Deskripsi |
---|---|
1 | find() Metode ini digunakan untuk mendeteksi nama-nama dalam teks mentah. Ini menerima variabel String yang mewakili teks mentah sebagai parameter dan, mengembalikan array objek dari tipe Span. |
2 | probs() Metode ini digunakan untuk mendapatkan probabilitas dari urutan yang terakhir didekodekan. |
Menemukan Bagian Pidato
Kelas POSModel
Kelas ini mewakili model yang telah ditentukan yang digunakan untuk menandai bagian-bagian pidato dari kalimat yang diberikan. Kelas ini termasuk dalam paketopennlp.tools.postag.
Konstruktor kelas ini menerima a InputStream objek dari file model pos-tagger (enpos-maxent.bin).
Kelas POSTaggerME
Kelas ini termasuk dalam paket opennlp.tools.postagdan digunakan untuk memprediksi jenis kata dari teks mentah yang diberikan. Ia menggunakan Entropi Maksimum untuk membuat keputusannya.
S.No | Metode dan Deskripsi |
---|---|
1 | tag() Metode ini digunakan untuk menetapkan kalimat tag POS token. Metode ini menerima larik token (String) sebagai parameter, dan mengembalikan tag (larik). |
2 | getSentenceProbabilities() Metode ini digunakan untuk mendapatkan probabilitas untuk setiap tag dari kalimat yang baru saja diberi tag. |
Mengurai Kalimat
Kelas ParserModel
Kelas ini mewakili model yang telah ditentukan yang digunakan untuk mengurai kalimat yang diberikan. Kelas ini termasuk dalam paketopennlp.tools.parser.
Konstruktor kelas ini menerima a InputStream objek dari file model parser (en-parserchunking.bin).
Kelas Parser Factory
Kelas ini termasuk dalam paket opennlp.tools.parser dan digunakan untuk membuat parser.
S.No | Metode dan Deskripsi |
---|---|
1 | create() Ini adalah metode statis dan digunakan untuk membuat objek parser. Metode ini menerima objek Filestream dari file model parser. |
Kelas ParserTool
Kelas ini milik opennlp.tools.cmdline.parser paket dan, digunakan untuk mengurai konten.
S.No | Metode dan Deskripsi |
---|---|
1 | parseLine() Metode ini ParserToolclass digunakan untuk mengurai teks mentah di OpenNLP. Metode ini menerima -
|
Chunking
Kelas ChunkerModel
Kelas ini mewakili model standar yang digunakan untuk membagi kalimat menjadi beberapa bagian yang lebih kecil. Kelas ini termasuk dalam paketopennlp.tools.chunker.
Konstruktor kelas ini menerima a InputStream objek dari chunker file model (enchunker.bin).
Kelas ChunkerME
Kelas ini milik paket bernama opennlp.tools.chunker dan ini digunakan untuk membagi kalimat yang diberikan menjadi bagian yang lebih kecil.
S.No | Metode dan Deskripsi |
---|---|
1 | chunk() Metode ini digunakan untuk membagi kalimat yang diberikan menjadi potongan-potongan yang lebih kecil. Ini menerima token kalimat danPseni Of Stag peech sebagai parameter. |
2 | probs() Metode ini mengembalikan probabilitas urutan yang terakhir didekodekan. |
Saat memproses bahasa alami, memutuskan awal dan akhir kalimat adalah salah satu masalah yang harus ditangani. Proses ini dikenal sebagaiSmasuk Boundary Disambiguasi (SBD) atau hanya pemutusan kalimat.
Teknik yang kami gunakan untuk mendeteksi kalimat dalam teks tertentu, bergantung pada bahasa teks.
Deteksi Kalimat Menggunakan Java
Kita bisa mendeteksi kalimat dalam teks yang diberikan di Java menggunakan, Regular Expressions, dan seperangkat aturan sederhana.
Misalnya, mari kita asumsikan titik, tanda tanya, atau tanda seru mengakhiri kalimat dalam teks yang diberikan, kemudian kita dapat membagi kalimat menggunakan split() metode dari Stringkelas. Di sini, kita harus melewatkan ekspresi reguler dalam format String.
Berikut adalah program yang menentukan kalimat dalam teks tertentu menggunakan ekspresi reguler Java (split method). Simpan program ini dalam sebuah file dengan namaSentenceDetection_RE.java.
public class SentenceDetection_RE {
public static void main(String args[]){
String sentence = " Hi. How are you? Welcome to Tutorialspoint. "
+ "We provide free tutorials on various technologies";
String simple = "[.?!]";
String[] splitString = (sentence.split(simple));
for (String string : splitString)
System.out.println(string);
}
}
Kompilasi dan jalankan file java yang disimpan dari command prompt menggunakan perintah berikut.
javac SentenceDetection_RE.java
java SentenceDetection_RE
Saat menjalankan, program di atas membuat dokumen PDF yang menampilkan pesan berikut.
Hi
How are you
Welcome to Tutorialspoint
We provide free tutorials on various technologies
Deteksi Kalimat Menggunakan OpenNLP
Untuk mendeteksi kalimat, OpenNLP menggunakan model yang telah ditentukan sebelumnya, sebuah file bernama en-sent.bin. Model standar ini dilatih untuk mendeteksi kalimat dalam teks mentah tertentu.
Itu opennlp.tools.sentdetect paket berisi kelas dan antarmuka yang digunakan untuk melakukan tugas deteksi kalimat.
Untuk mendeteksi kalimat menggunakan pustaka OpenNLP, Anda perlu -
Muat file en-sent.bin model menggunakan SentenceModel kelas
Instantiate SentenceDetectorME kelas.
Deteksi kalimat menggunakan sentDetect() metode kelas ini.
Berikut adalah langkah-langkah yang harus diikuti untuk menulis program yang mendeteksi kalimat dari teks mentah yang diberikan.
Langkah 1: Memuat model
Model untuk pendeteksian kalimat diwakili oleh kelas bernama SentenceModel, yang termasuk dalam paket opennlp.tools.sentdetect.
Untuk memuat model deteksi kalimat -
Buat InputStream objek model (Membuat instance FileInputStream dan meneruskan jalur model dalam format String ke konstruktornya).
Instantiate SentenceModel kelas dan lulus InputStream (object) dari model sebagai parameter untuk konstruktornya seperti yang ditunjukkan pada blok kode berikut -
//Loading sentence detector model
InputStream inputStream = new FileInputStream("C:/OpenNLP_models/ensent.bin");
SentenceModel model = new SentenceModel(inputStream);
Langkah 2: Membuat instance kelas SentenceDetectorME
Itu SentenceDetectorME kelas paket opennlp.tools.sentdetectberisi metode untuk membagi teks mentah menjadi kalimat. Kelas ini menggunakan model Entropi Maksimum untuk mengevaluasi karakter akhir kalimat dalam sebuah string untuk menentukan apakah mereka menandakan akhir kalimat.
Buat instance kelas ini dan teruskan objek model yang dibuat pada langkah sebelumnya, seperti yang ditunjukkan di bawah ini.
//Instantiating the SentenceDetectorME class
SentenceDetectorME detector = new SentenceDetectorME(model);
Langkah 3: Mendeteksi kalimat
Itu sentDetect() metode dari SentenceDetectorMEkelas digunakan untuk mendeteksi kalimat dalam teks mentah yang diteruskan padanya. Metode ini menerima variabel String sebagai parameter.
Panggil metode ini dengan meneruskan format String dari kalimat ke metode ini.
//Detecting the sentence
String sentences[] = detector.sentDetect(sentence);
Example
Berikut adalah program yang mendeteksi kalimat-kalimat dalam teks mentah tertentu. Simpan program ini dalam file dengan namaSentenceDetectionME.java.
import java.io.FileInputStream;
import java.io.InputStream;
import opennlp.tools.sentdetect.SentenceDetectorME;
import opennlp.tools.sentdetect.SentenceModel;
public class SentenceDetectionME {
public static void main(String args[]) throws Exception {
String sentence = "Hi. How are you? Welcome to Tutorialspoint. "
+ "We provide free tutorials on various technologies";
//Loading sentence detector model
InputStream inputStream = new FileInputStream("C:/OpenNLP_models/en-sent.bin");
SentenceModel model = new SentenceModel(inputStream);
//Instantiating the SentenceDetectorME class
SentenceDetectorME detector = new SentenceDetectorME(model);
//Detecting the sentence
String sentences[] = detector.sentDetect(sentence);
//Printing the sentences
for(String sent : sentences)
System.out.println(sent);
}
}
Kompilasi dan jalankan file Java yang disimpan dari Command prompt menggunakan perintah berikut -
javac SentenceDetectorME.java
java SentenceDetectorME
Saat menjalankan, program di atas membaca String yang diberikan dan mendeteksi kalimat di dalamnya dan menampilkan output berikut.
Hi. How are you?
Welcome to Tutorialspoint.
We provide free tutorials on various technologies
Mendeteksi Posisi Kalimat
Kami juga dapat mendeteksi posisi kalimat menggunakan metode sentPosDetect () dari SentenceDetectorME class.
Berikut adalah langkah-langkah yang harus diikuti untuk menulis program yang mendeteksi posisi kalimat dari teks mentah yang diberikan.
Langkah 1: Memuat model
Model untuk pendeteksian kalimat diwakili oleh kelas bernama SentenceModel, yang termasuk dalam paket opennlp.tools.sentdetect.
Untuk memuat model deteksi kalimat -
Buat InputStream objek model (Membuat instance FileInputStream dan meneruskan jalur model dalam format String ke konstruktornya).
Instantiate SentenceModel kelas dan lulus InputStream (objek) model sebagai parameter untuk konstruktornya, seperti yang ditunjukkan pada blok kode berikut.
//Loading sentence detector model
InputStream inputStream = new FileInputStream("C:/OpenNLP_models/en-sent.bin");
SentenceModel model = new SentenceModel(inputStream);
Langkah 2: Membuat instance kelas SentenceDetectorME
Itu SentenceDetectorME kelas paket opennlp.tools.sentdetectberisi metode untuk membagi teks mentah menjadi kalimat. Kelas ini menggunakan model Entropi Maksimum untuk mengevaluasi karakter akhir kalimat dalam sebuah string untuk menentukan apakah mereka menandakan akhir kalimat.
Buat instance kelas ini dan teruskan objek model yang dibuat di langkah sebelumnya.
//Instantiating the SentenceDetectorME class
SentenceDetectorME detector = new SentenceDetectorME(model);
Langkah 3: Mendeteksi posisi kalimat
Itu sentPosDetect() metode dari SentenceDetectorMEclass digunakan untuk mendeteksi posisi kalimat dalam teks mentah yang diteruskan padanya. Metode ini menerima variabel String sebagai parameter.
Panggil metode ini dengan meneruskan format String dari kalimat sebagai parameter untuk metode ini.
//Detecting the position of the sentences in the paragraph
Span[] spans = detector.sentPosDetect(sentence);
Langkah 4: Mencetak rentang kalimat
Itu sentPosDetect() metode dari SentenceDetectorME class mengembalikan larik objek bertipe Span. Kelas bernama Span of theopennlp.tools.util paket digunakan untuk menyimpan bilangan bulat awal dan akhir dari set.
Anda dapat menyimpan durasi yang dikembalikan oleh sentPosDetect() metode dalam array Span dan mencetaknya, seperti yang ditunjukkan pada blok kode berikut.
//Printing the sentences and their spans of a sentence
for (Span span : spans)
System.out.println(paragraph.substring(span);
Example
Berikut adalah program yang mendeteksi kalimat-kalimat dalam teks mentah yang diberikan. Simpan program ini dalam file dengan namaSentenceDetectionME.java.
import java.io.FileInputStream;
import java.io.InputStream;
import opennlp.tools.sentdetect.SentenceDetectorME;
import opennlp.tools.sentdetect.SentenceModel;
import opennlp.tools.util.Span;
public class SentencePosDetection {
public static void main(String args[]) throws Exception {
String paragraph = "Hi. How are you? Welcome to Tutorialspoint. "
+ "We provide free tutorials on various technologies";
//Loading sentence detector model
InputStream inputStream = new FileInputStream("C:/OpenNLP_models/en-sent.bin");
SentenceModel model = new SentenceModel(inputStream);
//Instantiating the SentenceDetectorME class
SentenceDetectorME detector = new SentenceDetectorME(model);
//Detecting the position of the sentences in the raw text
Span spans[] = detector.sentPosDetect(paragraph);
//Printing the spans of the sentences in the paragraph
for (Span span : spans)
System.out.println(span);
}
}
Kompilasi dan jalankan file Java yang disimpan dari Command prompt menggunakan perintah berikut -
javac SentencePosDetection.java
java SentencePosDetection
Saat menjalankan, program di atas membaca String yang diberikan dan mendeteksi kalimat di dalamnya dan menampilkan output berikut.
[0..16)
[17..43)
[44..93)
Kalimat bersama dengan Posisinya
Itu substring() metode kelas String menerima begin dan end offsetsdan mengembalikan string masing-masing. Kita dapat menggunakan metode ini untuk mencetak kalimat dan bentang (posisi) bersama-sama, seperti yang ditunjukkan pada blok kode berikut.
for (Span span : spans)
System.out.println(sen.substring(span.getStart(), span.getEnd())+" "+ span);
Berikut adalah program untuk mendeteksi kalimat dari teks mentah yang diberikan dan menampilkannya beserta posisinya. Simpan program ini dalam file dengan namaSentencesAndPosDetection.java.
import java.io.FileInputStream;
import java.io.InputStream;
import opennlp.tools.sentdetect.SentenceDetectorME;
import opennlp.tools.sentdetect.SentenceModel;
import opennlp.tools.util.Span;
public class SentencesAndPosDetection {
public static void main(String args[]) throws Exception {
String sen = "Hi. How are you? Welcome to Tutorialspoint."
+ " We provide free tutorials on various technologies";
//Loading a sentence model
InputStream inputStream = new FileInputStream("C:/OpenNLP_models/en-sent.bin");
SentenceModel model = new SentenceModel(inputStream);
//Instantiating the SentenceDetectorME class
SentenceDetectorME detector = new SentenceDetectorME(model);
//Detecting the position of the sentences in the paragraph
Span[] spans = detector.sentPosDetect(sen);
//Printing the sentences and their spans of a paragraph
for (Span span : spans)
System.out.println(sen.substring(span.getStart(), span.getEnd())+" "+ span);
}
}
Kompilasi dan jalankan file Java yang disimpan dari Command prompt menggunakan perintah berikut -
javac SentencesAndPosDetection.java
java SentencesAndPosDetection
Saat mengeksekusi, program di atas membaca String yang diberikan dan mendeteksi kalimat beserta posisinya dan menampilkan output berikut.
Hi. How are you? [0..16)
Welcome to Tutorialspoint. [17..43)
We provide free tutorials on various technologies [44..93)
Deteksi Kemungkinan Kalimat
Itu getSentenceProbabilities() metode dari SentenceDetectorME class mengembalikan probabilitas yang terkait dengan panggilan terbaru ke metode sentDetect ().
//Getting the probabilities of the last decoded sequence
double[] probs = detector.getSentenceProbabilities();
Berikut ini adalah program untuk mencetak probabilitas yang terkait dengan panggilan ke metode sentDetect (). Simpan program ini dalam sebuah file dengan namaSentenceDetectionMEProbs.java.
import java.io.FileInputStream;
import java.io.InputStream;
import opennlp.tools.sentdetect.SentenceDetectorME;
import opennlp.tools.sentdetect.SentenceModel;
public class SentenceDetectionMEProbs {
public static void main(String args[]) throws Exception {
String sentence = "Hi. How are you? Welcome to Tutorialspoint. "
+ "We provide free tutorials on various technologies";
//Loading sentence detector model
InputStream inputStream = new FileInputStream("C:/OpenNLP_models/en-sent.bin");
SentenceModel model = new SentenceModel(inputStream);
//Instantiating the SentenceDetectorME class
SentenceDetectorME detector = new SentenceDetectorME(model);
//Detecting the sentence
String sentences[] = detector.sentDetect(sentence);
//Printing the sentences
for(String sent : sentences)
System.out.println(sent);
//Getting the probabilities of the last decoded sequence
double[] probs = detector.getSentenceProbabilities();
System.out.println(" ");
for(int i = 0; i<probs.length; i++)
System.out.println(probs[i]);
}
}
Kompilasi dan jalankan file Java yang disimpan dari Command prompt menggunakan perintah berikut -
javac SentenceDetectionMEProbs.java
java SentenceDetectionMEProbs
Saat menjalankan, program di atas membaca String yang diberikan dan mendeteksi kalimat dan mencetaknya. Selain itu, ini juga mengembalikan probabilitas yang terkait dengan panggilan terbaru ke metode sentDetect (), seperti yang ditunjukkan di bawah ini.
Hi. How are you?
Welcome to Tutorialspoint.
We provide free tutorials on various technologies
0.9240246995179983
0.9957680129995953
1.0
Proses memotong kalimat yang diberikan menjadi bagian-bagian yang lebih kecil (token) dikenal sebagai tokenization. Secara umum, teks mentah yang diberikan diberi token berdasarkan sekumpulan pembatas (kebanyakan spasi).
Tokenisasi digunakan dalam tugas-tugas seperti pemeriksaan ejaan, pemrosesan pencarian, mengidentifikasi jenis kata, deteksi kalimat, klasifikasi dokumen dokumen, dll.
Tokenisasi menggunakan OpenNLP
Itu opennlp.tools.tokenize paket berisi kelas dan antarmuka yang digunakan untuk melakukan tokenisasi.
Untuk memberi token pada kalimat yang diberikan menjadi fragmen yang lebih sederhana, pustaka OpenNLP menyediakan tiga kelas berbeda -
SimpleTokenizer - Kelas ini memberi tokenize teks mentah yang diberikan menggunakan kelas karakter.
WhitespaceTokenizer - Kelas ini menggunakan spasi putih untuk memberi token pada teks yang diberikan.
TokenizerME- Kelas ini mengubah teks mentah menjadi token terpisah. Ia menggunakan Entropi Maksimum untuk membuat keputusannya.
SimpleTokenizer
Untuk memberi token pada kalimat menggunakan SimpleTokenizer kelas, Anda perlu -
Buat objek dari kelas masing-masing.
Tokenkan kalimat menggunakan tokenize() metode.
Cetak token.
Berikut adalah langkah-langkah yang harus diikuti untuk menulis program yang mentokenisasi teks mentah yang diberikan.
Step 1 - Instansiasi kelas masing-masing
Di kedua kelas, tidak ada konstruktor yang tersedia untuk membuat instance-nya. Oleh karena itu, kita perlu membuat objek dari kelas-kelas ini menggunakan variabel statisINSTANCE.
SimpleTokenizer tokenizer = SimpleTokenizer.INSTANCE;
Step 2 - Tokenkan kalimatnya
Kedua kelas ini berisi metode yang disebut tokenize(). Metode ini menerima teks mentah dalam format String. Saat dipanggil, ini memberi token pada String yang diberikan dan mengembalikan array Strings (token).
Tokenkan kalimat menggunakan tokenizer() metode seperti yang ditunjukkan di bawah ini.
//Tokenizing the given sentence
String tokens[] = tokenizer.tokenize(sentence);
Step 3 - Cetak tokennya
Setelah mentokenisasi kalimat, Anda dapat mencetak token menggunakan for loop, seperti yang ditunjukkan di bawah ini.
//Printing the tokens
for(String token : tokens)
System.out.println(token);
Example
Berikut adalah program yang memberi token pada kalimat yang diberikan menggunakan kelas SimpleTokenizer. Simpan program ini dalam sebuah file dengan namaSimpleTokenizerExample.java.
import opennlp.tools.tokenize.SimpleTokenizer;
public class SimpleTokenizerExample {
public static void main(String args[]){
String sentence = "Hi. How are you? Welcome to Tutorialspoint. "
+ "We provide free tutorials on various technologies";
//Instantiating SimpleTokenizer class
SimpleTokenizer simpleTokenizer = SimpleTokenizer.INSTANCE;
//Tokenizing the given sentence
String tokens[] = simpleTokenizer.tokenize(sentence);
//Printing the tokens
for(String token : tokens) {
System.out.println(token);
}
}
}
Kompilasi dan jalankan file Java yang disimpan dari Command prompt menggunakan perintah berikut -
javac SimpleTokenizerExample.java
java SimpleTokenizerExample
Saat menjalankan, program di atas membaca String yang diberikan (teks mentah), memberi tokenize, dan menampilkan output berikut -
Hi
.
How
are
you
?
Welcome
to
Tutorialspoint
.
We
provide
free
tutorials
on
various
technologies
WhitespaceTokenizer
Untuk memberi token pada kalimat menggunakan WhitespaceTokenizer kelas, Anda perlu -
Buat objek dari kelas masing-masing.
Tokenkan kalimat menggunakan tokenize() metode.
Cetak token.
Berikut adalah langkah-langkah yang harus diikuti untuk menulis program yang mentokenisasi teks mentah yang diberikan.
Step 1 - Instansiasi kelas masing-masing
Di kedua kelas, tidak ada konstruktor yang tersedia untuk membuat instance-nya. Oleh karena itu, kita perlu membuat objek dari kelas-kelas ini menggunakan variabel statisINSTANCE.
WhitespaceTokenizer tokenizer = WhitespaceTokenizer.INSTANCE;
Step 2 - Tokenkan kalimatnya
Kedua kelas ini berisi metode yang disebut tokenize(). Metode ini menerima teks mentah dalam format String. Saat dipanggil, ini memberi token pada String yang diberikan dan mengembalikan array Strings (token).
Tokenkan kalimat menggunakan tokenizer() metode seperti yang ditunjukkan di bawah ini.
//Tokenizing the given sentence
String tokens[] = tokenizer.tokenize(sentence);
Step 3 - Cetak tokennya
Setelah mentokenisasi kalimat, Anda dapat mencetak token menggunakan for loop, seperti yang ditunjukkan di bawah ini.
//Printing the tokens
for(String token : tokens)
System.out.println(token);
Example
Berikut adalah program yang memberi token pada kalimat yang diberikan menggunakan WhitespaceTokenizerkelas. Simpan program ini dalam sebuah file dengan namaWhitespaceTokenizerExample.java.
import opennlp.tools.tokenize.WhitespaceTokenizer;
public class WhitespaceTokenizerExample {
public static void main(String args[]){
String sentence = "Hi. How are you? Welcome to Tutorialspoint. "
+ "We provide free tutorials on various technologies";
//Instantiating whitespaceTokenizer class
WhitespaceTokenizer whitespaceTokenizer = WhitespaceTokenizer.INSTANCE;
//Tokenizing the given paragraph
String tokens[] = whitespaceTokenizer.tokenize(sentence);
//Printing the tokens
for(String token : tokens)
System.out.println(token);
}
}
Kompilasi dan jalankan file Java yang disimpan dari Command prompt menggunakan perintah berikut -
javac WhitespaceTokenizerExample.java
java WhitespaceTokenizerExample
Saat menjalankan, program di atas membaca String yang diberikan (teks mentah), memberi tokenize, dan menampilkan output berikut.
Hi.
How
are
you?
Welcome
to
Tutorialspoint.
We
provide
free
tutorials
on
various
technologies
Kelas TokenizerME
OpenNLP juga menggunakan model yang telah ditentukan, file bernama de-token.bin, untuk membuat token kalimat. Ia dilatih untuk membuat token kalimat dalam teks mentah tertentu.
Itu TokenizerME kelas dari opennlp.tools.tokenizerpaket digunakan untuk memuat model ini, dan membuat token teks mentah yang diberikan menggunakan pustaka OpenNLP. Untuk melakukannya, Anda perlu -
Muat file en-token.bin model menggunakan TokenizerModel kelas.
Instantiate TokenizerME kelas.
Tokenkan kalimat menggunakan tokenize() metode kelas ini.
Berikut adalah langkah-langkah yang harus diikuti untuk menulis program yang mentokenisasi kalimat dari teks mentah yang diberikan menggunakan TokenizerME kelas.
Step 1 - Memuat model
Model tokenisasi diwakili oleh kelas bernama TokenizerModel, yang termasuk dalam paket opennlp.tools.tokenize.
Untuk memuat model tokenizer -
Buat InputStream objek model (Membuat instance FileInputStream dan meneruskan jalur model dalam format String ke konstruktornya).
Instantiate TokenizerModel kelas dan lulus InputStream (objek) model sebagai parameter untuk konstruktornya, seperti yang ditunjukkan pada blok kode berikut.
//Loading the Tokenizer model
InputStream inputStream = new FileInputStream("C:/OpenNLP_models/en-token.bin");
TokenizerModel tokenModel = new TokenizerModel(inputStream);
Step 2 - Membuat instance kelas TokenizerME
Itu TokenizerME kelas paket opennlp.tools.tokenizeberisi metode untuk memotong teks mentah menjadi bagian-bagian yang lebih kecil (token). Ia menggunakan Entropi Maksimum untuk membuat keputusannya.
Buat instance kelas ini dan teruskan objek model yang dibuat pada langkah sebelumnya seperti yang ditunjukkan di bawah ini.
//Instantiating the TokenizerME class
TokenizerME tokenizer = new TokenizerME(tokenModel);
Step 3 - Tokenisasi kalimat
Itu tokenize() metode dari TokenizerMEclass digunakan untuk memberi token pada teks mentah yang diteruskan padanya. Metode ini menerima variabel String sebagai parameter, dan mengembalikan larik String (token).
Panggil metode ini dengan meneruskan format String dari kalimat ke metode ini, sebagai berikut.
//Tokenizing the given raw text
String tokens[] = tokenizer.tokenize(paragraph);
Example
Berikut adalah program yang memberi token pada teks mentah yang diberikan. Simpan program ini dalam sebuah file dengan namaTokenizerMEExample.java.
import java.io.FileInputStream;
import java.io.InputStream;
import opennlp.tools.tokenize.TokenizerME;
import opennlp.tools.tokenize.TokenizerModel;
public class TokenizerMEExample {
public static void main(String args[]) throws Exception{
String sentence = "Hi. How are you? Welcome to Tutorialspoint. "
+ "We provide free tutorials on various technologies";
//Loading the Tokenizer model
InputStream inputStream = new FileInputStream("C:/OpenNLP_models/en-token.bin");
TokenizerModel tokenModel = new TokenizerModel(inputStream);
//Instantiating the TokenizerME class
TokenizerME tokenizer = new TokenizerME(tokenModel);
//Tokenizing the given raw text
String tokens[] = tokenizer.tokenize(sentence);
//Printing the tokens
for (String a : tokens)
System.out.println(a);
}
}
Kompilasi dan jalankan file Java yang disimpan dari Command prompt menggunakan perintah berikut -
javac TokenizerMEExample.java
java TokenizerMEExample
Saat menjalankan, program di atas membaca String yang diberikan dan mendeteksi kalimat di dalamnya dan menampilkan output berikut -
Hi
.
How
are
you
?
Welcome
to
Tutorialspoint
.
We
provide
free
tutorials
on
various
technologie
Mengambil Posisi Token
Kami juga bisa mendapatkan posisi atau spans token yang menggunakan tokenizePos()metode. Ini adalah metode antarmuka Tokenizer dari paket tersebutopennlp.tools.tokenize. Karena semua (tiga) kelas Tokenizer menerapkan antarmuka ini, Anda dapat menemukan metode ini di semuanya.
Metode ini menerima kalimat atau teks mentah dalam bentuk string dan mengembalikan larik objek bertipe Span.
Anda bisa mendapatkan posisi token menggunakan tokenizePos() metode, sebagai berikut -
//Retrieving the tokens
tokenizer.tokenizePos(sentence);
Mencetak posisi (bentang)
Kelas bernama Span dari opennlp.tools.util paket digunakan untuk menyimpan bilangan bulat awal dan akhir dari set.
Anda dapat menyimpan durasi yang dikembalikan oleh tokenizePos() metode dalam array Span dan mencetaknya, seperti yang ditunjukkan pada blok kode berikut.
//Retrieving the tokens
Span[] tokens = tokenizer.tokenizePos(sentence);
//Printing the spans of tokens
for( Span token : tokens)
System.out.println(token);
Mencetak token dan posisinya bersama
Itu substring() metode kelas String menerima begin dan endmengimbangi dan mengembalikan string masing-masing. Kita dapat menggunakan metode ini untuk mencetak token dan span (posisinya) bersama-sama, seperti yang ditunjukkan pada blok kode berikut.
//Printing the spans of tokens
for(Span token : tokens)
System.out.println(token +" "+sent.substring(token.getStart(), token.getEnd()));
Example(SimpleTokenizer)
Berikut ini adalah program yang mengambil rentang token dari teks mentah menggunakan SimpleTokenizerkelas. Itu juga mencetak token bersama dengan posisinya. Simpan program ini dalam file dengan namaSimpleTokenizerSpans.java.
import opennlp.tools.tokenize.SimpleTokenizer;
import opennlp.tools.util.Span;
public class SimpleTokenizerSpans {
public static void main(String args[]){
String sent = "Hi. How are you? Welcome to Tutorialspoint. "
+ "We provide free tutorials on various technologies";
//Instantiating SimpleTokenizer class
SimpleTokenizer simpleTokenizer = SimpleTokenizer.INSTANCE;
//Retrieving the boundaries of the tokens
Span[] tokens = simpleTokenizer.tokenizePos(sent);
//Printing the spans of tokens
for( Span token : tokens)
System.out.println(token +" "+sent.substring(token.getStart(), token.getEnd()));
}
}
Kompilasi dan jalankan file Java yang disimpan dari Command prompt menggunakan perintah berikut -
javac SimpleTokenizerSpans.java
java SimpleTokenizerSpans
Saat menjalankan, program di atas membaca String yang diberikan (teks mentah), memberi tokenize, dan menampilkan output berikut -
[0..2) Hi
[2..3) .
[4..7) How
[8..11) are
[12..15) you
[15..16) ?
[17..24) Welcome
[25..27) to
[28..42) Tutorialspoint
[42..43) .
[44..46) We
[47..54) provide
[55..59) free
[60..69) tutorials
[70..72) on
[73..80) various
[81..93) technologies
Example (WhitespaceTokenizer)
Berikut ini adalah program yang mengambil rentang token dari teks mentah menggunakan WhitespaceTokenizerkelas. Itu juga mencetak token bersama dengan posisinya. Simpan program ini dalam sebuah file dengan namaWhitespaceTokenizerSpans.java.
import opennlp.tools.tokenize.WhitespaceTokenizer;
import opennlp.tools.util.Span;
public class WhitespaceTokenizerSpans {
public static void main(String args[]){
String sent = "Hi. How are you? Welcome to Tutorialspoint. "
+ "We provide free tutorials on various technologies";
//Instantiating SimpleTokenizer class
WhitespaceTokenizer whitespaceTokenizer = WhitespaceTokenizer.INSTANCE;
//Retrieving the tokens
Span[] tokens = whitespaceTokenizer.tokenizePos(sent);
//Printing the spans of tokens
for( Span token : tokens)
System.out.println(token +"
"+sent.substring(token.getStart(), token.getEnd()));
}
}
Kompilasi dan jalankan file java yang disimpan dari command prompt menggunakan perintah berikut
javac WhitespaceTokenizerSpans.java
java WhitespaceTokenizerSpans
Saat menjalankan, program di atas membaca String yang diberikan (teks mentah), memberi tokenize, dan menampilkan output berikut.
[0..3) Hi.
[4..7) How
[8..11) are
[12..16) you?
[17..24) Welcome
[25..27) to
[28..43) Tutorialspoint.
[44..46) We
[47..54) provide
[55..59) free
[60..69) tutorials
[70..72) on
[73..80) various
[81..93) technologies
Example (TokenizerME)
Berikut ini adalah program yang mengambil rentang token dari teks mentah menggunakan TokenizerMEkelas. Itu juga mencetak token bersama dengan posisinya. Simpan program ini dalam sebuah file dengan namaTokenizerMESpans.java.
import java.io.FileInputStream;
import java.io.InputStream;
import opennlp.tools.tokenize.TokenizerME;
import opennlp.tools.tokenize.TokenizerModel;
import opennlp.tools.util.Span;
public class TokenizerMESpans {
public static void main(String args[]) throws Exception{
String sent = "Hello John how are you welcome to Tutorialspoint";
//Loading the Tokenizer model
InputStream inputStream = new FileInputStream("C:/OpenNLP_models/en-token.bin");
TokenizerModel tokenModel = new TokenizerModel(inputStream);
//Instantiating the TokenizerME class
TokenizerME tokenizer = new TokenizerME(tokenModel);
//Retrieving the positions of the tokens
Span tokens[] = tokenizer.tokenizePos(sent);
//Printing the spans of tokens
for(Span token : tokens)
System.out.println(token +" "+sent.substring(token.getStart(), token.getEnd()));
}
}
Kompilasi dan jalankan file Java yang disimpan dari Command prompt menggunakan perintah berikut -
javac TokenizerMESpans.java
java TokenizerMESpans
Saat menjalankan, program di atas membaca String yang diberikan (teks mentah), memberi tokenize, dan menampilkan output berikut -
[0..5) Hello
[6..10) John
[11..14) how
[15..18) are
[19..22) you
[23..30) welcome
[31..33) to
[34..48) Tutorialspoint
Kemungkinan Tokenizer
Metode getTokenProbabilities () dari kelas TokenizerME digunakan untuk mendapatkan probabilitas yang terkait dengan panggilan terbaru ke metode tokenizePos ().
//Getting the probabilities of the recent calls to tokenizePos() method
double[] probs = detector.getSentenceProbabilities();
Berikut ini adalah program untuk mencetak probabilitas yang terkait dengan panggilan ke metode tokenizePos (). Simpan program ini dalam sebuah file dengan namaTokenizerMEProbs.java.
import java.io.FileInputStream;
import java.io.InputStream;
import opennlp.tools.tokenize.TokenizerME;
import opennlp.tools.tokenize.TokenizerModel;
import opennlp.tools.util.Span;
public class TokenizerMEProbs {
public static void main(String args[]) throws Exception{
String sent = "Hello John how are you welcome to Tutorialspoint";
//Loading the Tokenizer model
InputStream inputStream = new FileInputStream("C:/OpenNLP_models/en-token.bin");
TokenizerModel tokenModel = new TokenizerModel(inputStream);
//Instantiating the TokenizerME class
TokenizerME tokenizer = new TokenizerME(tokenModel);
//Retrieving the positions of the tokens
Span tokens[] = tokenizer.tokenizePos(sent);
//Getting the probabilities of the recent calls to tokenizePos() method
double[] probs = tokenizer.getTokenProbabilities();
//Printing the spans of tokens
for(Span token : tokens)
System.out.println(token +" "+sent.substring(token.getStart(), token.getEnd()));
System.out.println(" ");
for(int i = 0; i<probs.length; i++)
System.out.println(probs[i]);
}
}
Kompilasi dan jalankan file Java yang disimpan dari Command prompt menggunakan perintah berikut -
javac TokenizerMEProbs.java
java TokenizerMEProbs
Saat mengeksekusi, program di atas membaca String yang diberikan dan memberi token pada kalimat dan mencetaknya. Selain itu, ini juga mengembalikan probabilitas yang terkait dengan panggilan terbaru ke metode tokenizerPos ().
[0..5) Hello
[6..10) John
[11..14) how
[15..18) are
[19..22) you
[23..30) welcome
[31..33) to
[34..48) Tutorialspoint
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
Proses menemukan nama, orang, tempat, dan entitas lain, dari teks tertentu disebut Named Entity Recognition (NER). Pada bab ini, kita akan membahas bagaimana menjalankan NER melalui program Java dengan menggunakan library OpenNLP.
Pengakuan Entitas Bernama menggunakan NLP terbuka
Untuk melakukan berbagai tugas NER, OpenNLP menggunakan model standar yang berbeda yaitu, en-nerdate.bn, en-ner-location.bin, en-ner-organization.bin, en-ner-person.bin, dan en-ner-time. tempat sampah. Semua file ini adalah model yang telah ditentukan sebelumnya yang dilatih untuk mendeteksi entitas masing-masing dalam teks mentah tertentu.
Itu opennlp.tools.namefindpaket berisi kelas dan antarmuka yang digunakan untuk melakukan tugas NER. Untuk melakukan tugas NER menggunakan pustaka OpenNLP, Anda perlu -
Muat model terkait menggunakan TokenNameFinderModel kelas.
Instantiate NameFinder kelas.
Temukan nama dan cetaklah.
Berikut adalah langkah-langkah yang harus diikuti untuk menulis program yang mendeteksi entitas nama dari teks mentah yang diberikan.
Langkah 1: Memuat model
Model untuk pendeteksian kalimat diwakili oleh kelas bernama TokenNameFinderModel, yang termasuk dalam paket opennlp.tools.namefind.
Untuk memuat model NER -
Buat InputStream objek model (Membuat instance FileInputStream dan meneruskan jalur model NER yang sesuai dalam format String ke konstruktornya).
Instantiate TokenNameFinderModel kelas dan lulus InputStream (objek) model sebagai parameter untuk konstruktornya, seperti yang ditunjukkan pada blok kode berikut.
//Loading the NER-person model
InputStream inputStreamNameFinder = new FileInputStream(".../en-nerperson.bin");
TokenNameFinderModel model = new TokenNameFinderModel(inputStreamNameFinder);
Langkah 2: Membuat instance kelas NameFinderME
Itu NameFinderME kelas paket opennlp.tools.namefindberisi metode untuk melakukan tugas NER. Kelas ini menggunakan model Entropi Maksimum untuk menemukan entitas bernama dalam teks mentah yang diberikan.
Buat instance kelas ini dan teruskan objek model yang dibuat pada langkah sebelumnya seperti yang ditunjukkan di bawah ini -
//Instantiating the NameFinderME class
NameFinderME nameFinder = new NameFinderME(model);
Langkah 3: Menemukan nama-nama dalam kalimat
Itu find() metode dari NameFinderMEkelas digunakan untuk mendeteksi nama-nama dalam teks mentah yang diteruskan padanya. Metode ini menerima variabel String sebagai parameter.
Panggil metode ini dengan meneruskan format String dari kalimat ke metode ini.
//Finding the names in the sentence
Span nameSpans[] = nameFinder.find(sentence);
Langkah 4: Mencetak rentang nama dalam kalimat
Itu find() metode dari NameFinderMEclass mengembalikan larik objek dengan tipe Span. Kelas bernama Span of theopennlp.tools.util paket digunakan untuk menyimpan file start dan end bilangan bulat himpunan.
Anda dapat menyimpan durasi yang dikembalikan oleh find() metode dalam array Span dan mencetaknya, seperti yang ditunjukkan pada blok kode berikut.
//Printing the sentences and their spans of a sentence
for (Span span : spans)
System.out.println(paragraph.substring(span);
NER Example
Berikut adalah program yang membaca kalimat yang diberikan dan mengenali span dari nama-nama orang di dalamnya. Simpan program ini dalam sebuah file dengan namaNameFinderME_Example.java.
import java.io.FileInputStream;
import java.io.InputStream;
import opennlp.tools.namefind.NameFinderME;
import opennlp.tools.namefind.TokenNameFinderModel;
import opennlp.tools.util.Span;
public class NameFinderME_Example {
public static void main(String args[]) throws Exception{
/Loading the NER - Person model InputStream inputStream = new
FileInputStream("C:/OpenNLP_models/en-ner-person.bin");
TokenNameFinderModel model = new TokenNameFinderModel(inputStream);
//Instantiating the NameFinder class
NameFinderME nameFinder = new NameFinderME(model);
//Getting the sentence in the form of String array
String [] sentence = new String[]{
"Mike",
"and",
"Smith",
"are",
"good",
"friends"
};
//Finding the names in the sentence
Span nameSpans[] = nameFinder.find(sentence);
//Printing the spans of the names in the sentence
for(Span s: nameSpans)
System.out.println(s.toString());
}
}
Kompilasi dan jalankan file Java yang disimpan dari Command prompt menggunakan perintah berikut -
javac NameFinderME_Example.java
java NameFinderME_Example
Saat menjalankan, program di atas membaca String yang diberikan (teks mentah), mendeteksi nama-nama orang di dalamnya, dan menampilkan posisi (span) mereka, seperti yang ditunjukkan di bawah ini.
[0..1) person
[2..3) person
Nama beserta Posisinya
Itu substring() metode kelas String menerima begin dan end offsetsdan mengembalikan string masing-masing. Kita dapat menggunakan metode ini untuk mencetak nama dan bentang (posisi) mereka bersama-sama, seperti yang ditunjukkan pada blok kode berikut.
for(Span s: nameSpans)
System.out.println(s.toString()+" "+tokens[s.getStart()]);
Berikut adalah program untuk mendeteksi nama-nama dari teks mentah yang diberikan dan menampilkannya beserta posisinya. Simpan program ini dalam sebuah file dengan namaNameFinderSentences.java.
import java.io.FileInputStream;
import java.io.InputStream;
import opennlp.tools.namefind.NameFinderME;
import opennlp.tools.namefind.TokenNameFinderModel;
import opennlp.tools.tokenize.TokenizerME;
import opennlp.tools.tokenize.TokenizerModel;
import opennlp.tools.util.Span;
public class NameFinderSentences {
public static void main(String args[]) throws Exception{
//Loading the tokenizer model
InputStream inputStreamTokenizer = new
FileInputStream("C:/OpenNLP_models/entoken.bin");
TokenizerModel tokenModel = new TokenizerModel(inputStreamTokenizer);
//Instantiating the TokenizerME class
TokenizerME tokenizer = new TokenizerME(tokenModel);
//Tokenizing the sentence in to a string array
String sentence = "Mike is senior programming
manager and Rama is a clerk both are working at
Tutorialspoint";
String tokens[] = tokenizer.tokenize(sentence);
//Loading the NER-person model
InputStream inputStreamNameFinder = new
FileInputStream("C:/OpenNLP_models/enner-person.bin");
TokenNameFinderModel model = new TokenNameFinderModel(inputStreamNameFinder);
//Instantiating the NameFinderME class
NameFinderME nameFinder = new NameFinderME(model);
//Finding the names in the sentence
Span nameSpans[] = nameFinder.find(tokens);
//Printing the names and their spans in a sentence
for(Span s: nameSpans)
System.out.println(s.toString()+" "+tokens[s.getStart()]);
}
}
Kompilasi dan jalankan file Java yang disimpan dari Command prompt menggunakan perintah berikut -
javac NameFinderSentences.java
java NameFinderSentences
Saat menjalankan, program di atas membaca String yang diberikan (teks mentah), mendeteksi nama-nama orang di dalamnya, dan menampilkan posisi (span) mereka seperti yang ditunjukkan di bawah ini.
[0..1) person Mike
Menemukan Nama Lokasi
Dengan memuat berbagai model, Anda dapat mendeteksi berbagai entitas bernama. Berikut ini adalah program Java yang memuat fileen-ner-location.binmodel dan mendeteksi nama lokasi dalam kalimat yang diberikan. Simpan program ini dalam sebuah file dengan namaLocationFinder.java.
import java.io.FileInputStream;
import java.io.InputStream;
import opennlp.tools.namefind.NameFinderME;
import opennlp.tools.namefind.TokenNameFinderModel;
import opennlp.tools.tokenize.TokenizerME;
import opennlp.tools.tokenize.TokenizerModel;
import opennlp.tools.util.Span;
public class LocationFinder {
public static void main(String args[]) throws Exception{
InputStream inputStreamTokenizer = new
FileInputStream("C:/OpenNLP_models/entoken.bin");
TokenizerModel tokenModel = new TokenizerModel(inputStreamTokenizer);
//String paragraph = "Mike and Smith are classmates";
String paragraph = "Tutorialspoint is located in Hyderabad";
//Instantiating the TokenizerME class
TokenizerME tokenizer = new TokenizerME(tokenModel);
String tokens[] = tokenizer.tokenize(paragraph);
//Loading the NER-location moodel
InputStream inputStreamNameFinder = new
FileInputStream("C:/OpenNLP_models/en- ner-location.bin");
TokenNameFinderModel model = new TokenNameFinderModel(inputStreamNameFinder);
//Instantiating the NameFinderME class
NameFinderME nameFinder = new NameFinderME(model);
//Finding the names of a location
Span nameSpans[] = nameFinder.find(tokens);
//Printing the spans of the locations in the sentence
for(Span s: nameSpans)
System.out.println(s.toString()+" "+tokens[s.getStart()]);
}
}
Kompilasi dan jalankan file Java yang disimpan dari Command prompt menggunakan perintah berikut -
javac LocationFinder.java
java LocationFinder
Saat menjalankan, program di atas membaca String yang diberikan (teks mentah), mendeteksi nama-nama orang di dalamnya, dan menampilkan posisi (span) mereka, seperti yang ditunjukkan di bawah ini.
[4..5) location Hyderabad
Kemungkinan Pencari Nama
Itu probs()metode dari NameFinderME kelas digunakan untuk mendapatkan probabilitas dari urutan yang terakhir didekodekan.
double[] probs = nameFinder.probs();
Berikut adalah program untuk mencetak probabilitas. Simpan program ini dalam sebuah file dengan namaTokenizerMEProbs.java.
import java.io.FileInputStream;
import java.io.InputStream;
import opennlp.tools.tokenize.TokenizerME;
import opennlp.tools.tokenize.TokenizerModel;
import opennlp.tools.util.Span;
public class TokenizerMEProbs {
public static void main(String args[]) throws Exception{
String sent = "Hello John how are you welcome to Tutorialspoint";
//Loading the Tokenizer model
InputStream inputStream = new
FileInputStream("C:/OpenNLP_models/en-token.bin");
TokenizerModel tokenModel = new TokenizerModel(inputStream);
//Instantiating the TokenizerME class
TokenizerME tokenizer = new TokenizerME(tokenModel);
//Retrieving the positions of the tokens
Span tokens[] = tokenizer.tokenizePos(sent);
//Getting the probabilities of the recent calls to tokenizePos() method
double[] probs = tokenizer.getTokenProbabilities();
//Printing the spans of tokens
for( Span token : tokens)
System.out.println(token +"
"+sent.substring(token.getStart(), token.getEnd()));
System.out.println(" ");
for(int i = 0; i<probs.length; i++)
System.out.println(probs[i]);
}
}
Kompilasi dan jalankan file Java yang disimpan dari Command prompt menggunakan perintah berikut -
javac TokenizerMEProbs.java
java TokenizerMEProbs
Saat mengeksekusi, program di atas membaca String yang diberikan, memberi token pada kalimat, dan mencetaknya. Selain itu, ini juga mengembalikan probabilitas urutan yang terakhir didekodekan, seperti yang ditunjukkan di bawah ini.
[0..5) Hello
[6..10) John
[11..14) how
[15..18) are
[19..22) you
[23..30) welcome
[31..33) to
[34..48) Tutorialspoint
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
Menggunakan OpenNLP, Anda juga dapat mendeteksi Parts of Speech dari kalimat tertentu dan mencetaknya. Alih-alih nama lengkap bagian ucapan, OpenNLP menggunakan bentuk singkat dari setiap bagian ucapan. Tabel berikut menunjukkan berbagai bagian ucapan yang terdeteksi oleh OpenNLP dan artinya.
Bagian dari pidato | Arti dari part of speech |
---|---|
NN | Kata benda, tunggal atau massa |
DT | Penentu |
VB | Kata kerja, bentuk dasar |
VBD | Kata kerja, bentuk lampau |
VBZ | Kata kerja, hadiah orang ketiga tunggal |
DI | Kata depan atau kata sambung bawahan |
NNP | Kata benda yang tepat, tunggal |
UNTUK | untuk |
JJ | Kata sifat |
Memberi Tag pada Parts of Speech
Untuk menandai bagian-bagian ucapan sebuah kalimat, OpenNLP menggunakan model, sebuah file bernama en-posmaxent.bin. Ini adalah model standar yang dilatih untuk menandai bagian-bagian ucapan dari teks mentah yang diberikan.
Itu POSTaggerME kelas dari opennlp.tools.postagpackage digunakan untuk memuat model ini, dan menandai bagian-bagian pidato dari teks mentah yang diberikan menggunakan pustaka OpenNLP. Untuk melakukannya, Anda perlu -
Muat file en-pos-maxent.bin model menggunakan POSModel kelas.
Instantiate POSTaggerME kelas.
Tokenkan kalimat tersebut.
Hasilkan tag menggunakan tag() metode.
Cetak token dan tag menggunakan POSSample kelas.
Berikut adalah langkah-langkah yang harus diikuti untuk menulis program yang menandai bagian-bagian pidato dalam teks mentah yang diberikan menggunakan POSTaggerME kelas.
Langkah 1: Muat model
Model untuk penandaan POS diwakili oleh kelas bernama POSModel, yang termasuk dalam paket opennlp.tools.postag.
Untuk memuat model tokenizer -
Buat InputStream objek model (Membuat instance FileInputStream dan meneruskan jalur model dalam format String ke konstruktornya).
Instantiate POSModel kelas dan lulus InputStream (object) dari model sebagai parameter untuk konstruktornya, seperti yang ditunjukkan pada blok kode berikut -
//Loading Parts of speech-maxent model
InputStream inputStream = new FileInputStream("C:/OpenNLP_models/en-pos-maxent.bin");
POSModel model = new POSModel(inputStream);
Langkah 2: Membuat instance kelas POSTaggerME
Itu POSTaggerME kelas paket opennlp.tools.postagdigunakan untuk memprediksi jenis kata dari teks mentah yang diberikan. Ia menggunakan Entropi Maksimum untuk membuat keputusannya.
Buat instance kelas ini dan teruskan objek model yang dibuat pada langkah sebelumnya, seperti yang ditunjukkan di bawah ini -
//Instantiating POSTaggerME class
POSTaggerME tagger = new POSTaggerME(model);
Langkah 3: Tokenisasi kalimat
Itu tokenize() metode dari whitespaceTokenizerclass digunakan untuk memberi token pada teks mentah yang diteruskan padanya. Metode ini menerima variabel String sebagai parameter, dan mengembalikan larik String (token).
Instantiate whitespaceTokenizer kelas dan memanggil metode ini dengan meneruskan format String kalimat ke metode ini.
//Tokenizing the sentence using WhitespaceTokenizer class
WhitespaceTokenizer whitespaceTokenizer= WhitespaceTokenizer.INSTANCE;
String[] tokens = whitespaceTokenizer.tokenize(sentence);
Langkah 4: Membuat tag
Itu tag() metode dari whitespaceTokenizerkelas memberikan tag POS ke kalimat token. Metode ini menerima larik token (String) sebagai parameter dan mengembalikan tag (larik).
Panggil tag() metode dengan meneruskan token yang dihasilkan pada langkah sebelumnya ke sana.
//Generating tags
String[] tags = tagger.tag(tokens);
Langkah 5: Mencetak token dan tag
Itu POSSampleclass mewakili kalimat dengan tag POS. Untuk membuat instance kelas ini, kita membutuhkan array token (teks) dan array tag.
Itu toString()metode kelas ini mengembalikan kalimat yang diberi tag. Buat instance kelas ini dengan meneruskan token dan larik tag yang dibuat di langkah sebelumnya dan memanggilnyatoString() metode, seperti yang ditunjukkan pada blok kode berikut.
//Instantiating the POSSample class
POSSample sample = new POSSample(tokens, tags);
System.out.println(sample.toString());
Example
Berikut adalah program yang menandai bagian-bagian pidato dalam teks mentah tertentu. Simpan program ini dalam sebuah file dengan namaPosTaggerExample.java.
import java.io.FileInputStream;
import java.io.InputStream;
import opennlp.tools.postag.POSModel;
import opennlp.tools.postag.POSSample;
import opennlp.tools.postag.POSTaggerME;
import opennlp.tools.tokenize.WhitespaceTokenizer;
public class PosTaggerExample {
public static void main(String args[]) throws Exception{
//Loading Parts of speech-maxent model
InputStream inputStream = new
FileInputStream("C:/OpenNLP_models/en-pos-maxent.bin");
POSModel model = new POSModel(inputStream);
//Instantiating POSTaggerME class
POSTaggerME tagger = new POSTaggerME(model);
String sentence = "Hi welcome to Tutorialspoint";
//Tokenizing the sentence using WhitespaceTokenizer class
WhitespaceTokenizer whitespaceTokenizer= WhitespaceTokenizer.INSTANCE;
String[] tokens = whitespaceTokenizer.tokenize(sentence);
//Generating tags
String[] tags = tagger.tag(tokens);
//Instantiating the POSSample class
POSSample sample = new POSSample(tokens, tags);
System.out.println(sample.toString());
}
}
Kompilasi dan jalankan file Java yang disimpan dari Command prompt menggunakan perintah berikut -
javac PosTaggerExample.java
java PosTaggerExample
Saat menjalankan, program di atas membaca teks yang diberikan dan mendeteksi bagian-bagian dari kalimat ini dan menampilkannya, seperti yang ditunjukkan di bawah ini.
Hi_NNP welcome_JJ to_TO Tutorialspoint_VB
Performa POS Tagger
Berikut adalah program yang menandai bagian-bagian pidato dari teks mentah tertentu. Ini juga memonitor kinerja dan menampilkan kinerja tagger. Simpan program ini dalam sebuah file dengan namaPosTagger_Performance.java.
import java.io.FileInputStream;
import java.io.InputStream;
import opennlp.tools.cmdline.PerformanceMonitor;
import opennlp.tools.postag.POSModel;
import opennlp.tools.postag.POSSample;
import opennlp.tools.postag.POSTaggerME;
import opennlp.tools.tokenize.WhitespaceTokenizer;
public class PosTagger_Performance {
public static void main(String args[]) throws Exception{
//Loading Parts of speech-maxent model
InputStream inputStream = new
FileInputStream("C:/OpenNLP_models/en-pos-maxent.bin");
POSModel model = new POSModel(inputStream);
//Creating an object of WhitespaceTokenizer class
WhitespaceTokenizer whitespaceTokenizer= WhitespaceTokenizer.INSTANCE;
//Tokenizing the sentence
String sentence = "Hi welcome to Tutorialspoint";
String[] tokens = whitespaceTokenizer.tokenize(sentence);
//Instantiating POSTaggerME class
POSTaggerME tagger = new POSTaggerME(model);
//Generating tags
String[] tags = tagger.tag(tokens);
//Instantiating POSSample class
POSSample sample = new POSSample(tokens, tags);
System.out.println(sample.toString());
//Monitoring the performance of POS tagger
PerformanceMonitor perfMon = new PerformanceMonitor(System.err, "sent");
perfMon.start();
perfMon.incrementCounter();
perfMon.stopAndPrintFinalResult();
}
}
Kompilasi dan jalankan file Java yang disimpan dari Command prompt menggunakan perintah berikut -
javac PosTaggerExample.java
java PosTaggerExample
Saat menjalankan, program di atas membaca teks yang diberikan dan menandai bagian-bagian ucapan dari kalimat ini dan menampilkannya. Selain itu, ini juga memantau kinerja tagger POS dan menampilkannya.
Hi_NNP welcome_JJ to_TO Tutorialspoint_VB
Average: 0.0 sent/s
Total: 1 sent
Runtime: 0.0s
Kemungkinan POS Tagger
Itu probs() metode dari POSTaggerME class digunakan untuk menemukan probabilitas setiap tag dari kalimat yang baru-baru ini diberi tag.
//Getting the probabilities of the recent calls to tokenizePos() method
double[] probs = detector.getSentenceProbabilities();
Berikut adalah program yang menampilkan probabilitas untuk setiap tag dari kalimat terakhir yang diberi tag. Simpan program ini dalam sebuah file dengan namaPosTaggerProbs.java.
import java.io.FileInputStream;
import java.io.InputStream;
import opennlp.tools.postag.POSModel;
import opennlp.tools.postag.POSSample;
import opennlp.tools.postag.POSTaggerME;
import opennlp.tools.tokenize.WhitespaceTokenizer;
public class PosTaggerProbs {
public static void main(String args[]) throws Exception{
//Loading Parts of speech-maxent model
InputStream inputStream = new FileInputStream("C:/OpenNLP_mdl/en-pos-maxent.bin");
POSModel model = new POSModel(inputStream);
//Creating an object of WhitespaceTokenizer class
WhitespaceTokenizer whitespaceTokenizer= WhitespaceTokenizer.INSTANCE;
//Tokenizing the sentence
String sentence = "Hi welcome to Tutorialspoint";
String[] tokens = whitespaceTokenizer.tokenize(sentence);
//Instantiating POSTaggerME class
POSTaggerME tagger = new POSTaggerME(model);
//Generating tags
String[] tags = tagger.tag(tokens);
//Instantiating the POSSample class
POSSample sample = new POSSample(tokens, tags);
System.out.println(sample.toString());
//Probabilities for each tag of the last tagged sentence.
double [] probs = tagger.probs();
System.out.println(" ");
//Printing the probabilities
for(int i = 0; i<probs.length; i++)
System.out.println(probs[i]);
}
}
Kompilasi dan jalankan file Java yang disimpan dari Command prompt menggunakan perintah berikut -
javac TokenizerMEProbs.java
java TokenizerMEProbs
Saat menjalankan, program di atas membaca teks mentah yang diberikan, menandai bagian-bagian ucapan dari setiap token di dalamnya, dan menampilkannya. Selain itu, ini juga menampilkan probabilitas untuk setiap bagian ucapan dalam kalimat yang diberikan, seperti yang ditunjukkan di bawah ini.
Hi_NNP welcome_JJ to_TO Tutorialspoint_VB
0.6416834779738033
0.42983612874819177
0.8584513635863117
0.4394784478206072
Menggunakan OpenNLP API, Anda bisa mengurai kalimat yang diberikan. Pada bab ini, kita akan membahas bagaimana mengurai teks mentah menggunakan OpenNLP API.
Parsing Teks Mentah menggunakan OpenNLP Library
Untuk mendeteksi kalimat, OpenNLP menggunakan model yang telah ditentukan sebelumnya, sebuah file bernama en-parserchunking.bin. Ini adalah model standar yang dilatih untuk mengurai teks mentah yang diberikan.
Itu Parser kelas dari opennlp.tools.Parser paket digunakan untuk menampung konstituen parse dan ParserTool kelas dari opennlp.tools.cmdline.parser paket digunakan untuk mengurai konten.
Berikut adalah langkah-langkah yang harus diikuti untuk menulis program yang mengurai teks mentah yang diberikan menggunakan ParserTool kelas.
Langkah 1: Memuat model
Model untuk teks parsing diwakili oleh kelas bernama ParserModel, yang termasuk dalam paket opennlp.tools.parser.
Untuk memuat model tokenizer -
Buat InputStream objek model (Membuat instance FileInputStream dan meneruskan jalur model dalam format String ke konstruktornya).
Instantiate ParserModel kelas dan lulus InputStream (objek) model sebagai parameter untuk konstruktornya, seperti yang ditunjukkan pada blok kode berikut.
//Loading parser model
InputStream inputStream = new FileInputStream(".../en-parserchunking.bin");
ParserModel model = new ParserModel(inputStream);
Langkah 2: Membuat objek dari kelas Parser
Itu Parser kelas paket opennlp.tools.parsermewakili struktur data untuk menyimpan konstituen parse. Anda dapat membuat objek dari kelas ini menggunakan statiscreate() metode dari ParserFactory kelas.
Panggil create() metode dari ParserFactory dengan melewatkan objek model yang dibuat pada langkah sebelumnya, seperti yang ditunjukkan di bawah ini -
//Creating a parser Parser parser = ParserFactory.create(model);
Langkah 3: Parsing kalimat
Itu parseLine() metode dari ParserToolclass digunakan untuk mengurai teks mentah di OpenNLP. Metode ini menerima -
variabel String yang mewakili teks yang akan diurai.
objek parser.
sebuah integer yang mewakili jumlah parsing yang akan dilakukan.
Panggil metode ini dengan meneruskan kalimat parameter berikut: objek parse yang dibuat di langkah sebelumnya, dan integer yang mewakili jumlah parse yang diperlukan untuk dijalankan.
//Parsing the sentence
String sentence = "Tutorialspoint is the largest tutorial library.";
Parse topParses[] = ParserTool.parseLine(sentence, parser, 1);
Example
Berikut adalah program yang mengurai teks mentah yang diberikan. Simpan program ini dalam sebuah file dengan namaParserExample.java.
import java.io.FileInputStream;
import java.io.InputStream;
import opennlp.tools.cmdline.parser.ParserTool;
import opennlp.tools.parser.Parse;
import opennlp.tools.parser.Parser;
import opennlp.tools.parser.ParserFactory;
import opennlp.tools.parser.ParserModel;
public class ParserExample {
public static void main(String args[]) throws Exception{
//Loading parser model
InputStream inputStream = new FileInputStream(".../en-parserchunking.bin");
ParserModel model = new ParserModel(inputStream);
//Creating a parser
Parser parser = ParserFactory.create(model);
//Parsing the sentence
String sentence = "Tutorialspoint is the largest tutorial library.";
Parse topParses[] = ParserTool.parseLine(sentence, parser, 1);
for (Parse p : topParses)
p.show();
}
}
Kompilasi dan jalankan file Java yang disimpan dari Command prompt menggunakan perintah berikut -
javac ParserExample.java
java ParserExample
Saat menjalankan, program di atas membaca teks mentah yang diberikan, mem-parsingnya, dan menampilkan keluaran berikut -
(TOP (S (NP (NN Tutorialspoint)) (VP (VBZ is) (NP (DT the) (JJS largest) (NN
tutorial) (NN library.)))))
Memotong kalimat mengacu pada pemecahan / pembagian kalimat menjadi beberapa bagian kata seperti kelompok kata dan kelompok kata kerja.
Memecah Kalimat menggunakan OpenNLP
Untuk mendeteksi kalimat, OpenNLP menggunakan model, file bernama en-chunker.bin. Ini adalah model standar yang dilatih untuk memecah kalimat dalam teks mentah yang diberikan.
Itu opennlp.tools.chunker paket berisi kelas dan antarmuka yang digunakan untuk menemukan anotasi sintaksis non-rekursif seperti potongan frase kata benda.
Anda dapat memotong kalimat menggunakan metode ini chunk() dari ChunkerMEkelas. Metode ini menerima token kalimat dan tag POS sebagai parameter. Oleh karena itu, sebelum memulai proses chunking, pertama-tama Anda perlu melakukan Token pada kalimat dan membuat tag POS bagian-bagiannya.
Untuk memotong kalimat menggunakan pustaka OpenNLP, Anda perlu -
Tokenkan kalimat tersebut.
Hasilkan tag POS untuk itu.
Muat file en-chunker.bin model menggunakan ChunkerModel kelas
Instantiate ChunkerME kelas.
Potong kalimat menggunakan chunk() metode kelas ini.
Berikut adalah langkah-langkah yang harus diikuti untuk menulis program untuk memotong kalimat dari teks mentah yang diberikan.
Langkah 1: Tokenisasi kalimat
Tokenkan kalimat menggunakan tokenize() metode dari whitespaceTokenizer kelas, seperti yang ditunjukkan pada blok kode berikut.
//Tokenizing the sentence
String sentence = "Hi welcome to Tutorialspoint";
WhitespaceTokenizer whitespaceTokenizer= WhitespaceTokenizer.INSTANCE;
String[] tokens = whitespaceTokenizer.tokenize(sentence);
Langkah 2: Membuat tag POS
Hasilkan tag POS dari kalimat menggunakan tag() metode dari POSTaggerME kelas, seperti yang ditunjukkan pada blok kode berikut.
//Generating the POS tags
File file = new File("C:/OpenNLP_models/en-pos-maxent.bin");
POSModel model = new POSModelLoader().load(file);
//Constructing the tagger
POSTaggerME tagger = new POSTaggerME(model);
//Generating tags from the tokens
String[] tags = tagger.tag(tokens);
Langkah 3: Memuat model
Model untuk memotong kalimat diwakili oleh kelas bernama ChunkerModel, yang termasuk dalam paket opennlp.tools.chunker.
Untuk memuat model deteksi kalimat -
Buat InputStream objek model (Membuat instance FileInputStream dan meneruskan jalur model dalam format String ke konstruktornya).
Instantiate ChunkerModel kelas dan lulus InputStream (object) dari model sebagai parameter untuk konstruktornya, seperti yang ditunjukkan pada blok kode berikut -
//Loading the chunker model
InputStream inputStream = new FileInputStream("C:/OpenNLP_models/en-chunker.bin");
ChunkerModel chunkerModel = new ChunkerModel(inputStream);
Langkah 4: Membuat instance kelas chunkerME
Itu chunkerME kelas paket opennlp.tools.chunkerberisi metode untuk memotong kalimat. Ini adalah chunker berbasis entropi maksimum.
Buat instance kelas ini dan teruskan objek model yang dibuat di langkah sebelumnya.
//Instantiate the ChunkerME class
ChunkerME chunkerME = new ChunkerME(chunkerModel);
Langkah 5: Memotong kalimat
Itu chunk() metode dari ChunkerMEclass digunakan untuk memotong kalimat dalam teks mentah yang diteruskan padanya. Metode ini menerima dua larik String yang mewakili token dan tag, sebagai parameter.
Panggil metode ini dengan meneruskan larik token dan larik tag yang dibuat pada langkah sebelumnya sebagai parameter.
//Generating the chunks
String result[] = chunkerME.chunk(tokens, tags);
Example
Berikut adalah program untuk memotong kalimat dalam teks mentah yang diberikan. Simpan program ini dalam sebuah file dengan namaChunkerExample.java.
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import opennlp.tools.chunker.ChunkerME;
import opennlp.tools.chunker.ChunkerModel;
import opennlp.tools.cmdline.postag.POSModelLoader;
import opennlp.tools.postag.POSModel;
import opennlp.tools.postag.POSTaggerME;
import opennlp.tools.tokenize.WhitespaceTokenizer;
public class ChunkerExample{
public static void main(String args[]) throws IOException {
//Tokenizing the sentence
String sentence = "Hi welcome to Tutorialspoint";
WhitespaceTokenizer whitespaceTokenizer= WhitespaceTokenizer.INSTANCE;
String[] tokens = whitespaceTokenizer.tokenize(sentence);
//Generating the POS tags
//Load the parts of speech model
File file = new File("C:/OpenNLP_models/en-pos-maxent.bin");
POSModel model = new POSModelLoader().load(file);
//Constructing the tagger
POSTaggerME tagger = new POSTaggerME(model);
//Generating tags from the tokens
String[] tags = tagger.tag(tokens);
//Loading the chunker model
InputStream inputStream = new
FileInputStream("C:/OpenNLP_models/en-chunker.bin");
ChunkerModel chunkerModel = new ChunkerModel(inputStream);
//Instantiate the ChunkerME class
ChunkerME chunkerME = new ChunkerME(chunkerModel);
//Generating the chunks
String result[] = chunkerME.chunk(tokens, tags);
for (String s : result)
System.out.println(s);
}
}
Kompilasi dan jalankan file Java yang disimpan dari Command prompt menggunakan perintah berikut -
javac ChunkerExample.java
java ChunkerExample
Saat menjalankan, program di atas membaca String yang diberikan dan memotong kalimat di dalamnya, dan menampilkannya seperti yang ditunjukkan di bawah ini.
Loading POS Tagger model ... done (1.040s)
B-NP
I-NP
B-VP
I-VP
Mendeteksi Posisi Token
Kami juga dapat mendeteksi posisi atau bentang potongan menggunakan chunkAsSpans() metode dari ChunkerMEkelas. Metode ini mengembalikan larik objek dengan tipe Span. Kelas bernama Span of theopennlp.tools.util paket digunakan untuk menyimpan file start dan end bilangan bulat himpunan.
Anda dapat menyimpan durasi yang dikembalikan oleh chunkAsSpans() metode dalam array Span dan mencetaknya, seperti yang ditunjukkan pada blok kode berikut.
//Generating the tagged chunk spans
Span[] span = chunkerME.chunkAsSpans(tokens, tags);
for (Span s : span)
System.out.println(s.toString());
Example
Berikut adalah program yang mendeteksi kalimat-kalimat dalam teks mentah yang diberikan. Simpan program ini dalam sebuah file dengan namaChunkerSpansEample.java.
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import opennlp.tools.chunker.ChunkerME;
import opennlp.tools.chunker.ChunkerModel;
import opennlp.tools.cmdline.postag.POSModelLoader;
import opennlp.tools.postag.POSModel;
import opennlp.tools.postag.POSTaggerME;
import opennlp.tools.tokenize.WhitespaceTokenizer;
import opennlp.tools.util.Span;
public class ChunkerSpansEample{
public static void main(String args[]) throws IOException {
//Load the parts of speech model
File file = new File("C:/OpenNLP_models/en-pos-maxent.bin");
POSModel model = new POSModelLoader().load(file);
//Constructing the tagger
POSTaggerME tagger = new POSTaggerME(model);
//Tokenizing the sentence
String sentence = "Hi welcome to Tutorialspoint";
WhitespaceTokenizer whitespaceTokenizer= WhitespaceTokenizer.INSTANCE;
String[] tokens = whitespaceTokenizer.tokenize(sentence);
//Generating tags from the tokens
String[] tags = tagger.tag(tokens);
//Loading the chunker model
InputStream inputStream = new
FileInputStream("C:/OpenNLP_models/en-chunker.bin");
ChunkerModel chunkerModel = new ChunkerModel(inputStream);
ChunkerME chunkerME = new ChunkerME(chunkerModel);
//Generating the tagged chunk spans
Span[] span = chunkerME.chunkAsSpans(tokens, tags);
for (Span s : span)
System.out.println(s.toString());
}
}
Kompilasi dan jalankan file Java yang disimpan dari Command prompt menggunakan perintah berikut -
javac ChunkerSpansEample.java
java ChunkerSpansEample
Saat menjalankan, program di atas membaca String dan span yang diberikan dari potongan di dalamnya, dan menampilkan output berikut -
Loading POS Tagger model ... done (1.059s)
[0..2) NP
[2..4) VP
Deteksi Kemungkinan Chunker
Itu probs() metode dari ChunkerME kelas mengembalikan probabilitas dari urutan yang terakhir didekodekan.
//Getting the probabilities of the last decoded sequence
double[] probs = chunkerME.probs();
Berikut adalah program untuk mencetak probabilitas dari urutan decode terakhir oleh chunker. Simpan program ini dalam sebuah file dengan namaChunkerProbsExample.java.
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import opennlp.tools.chunker.ChunkerME;
import opennlp.tools.chunker.ChunkerModel;
import opennlp.tools.cmdline.postag.POSModelLoader;
import opennlp.tools.postag.POSModel;
import opennlp.tools.postag.POSTaggerME;
import opennlp.tools.tokenize.WhitespaceTokenizer;
public class ChunkerProbsExample{
public static void main(String args[]) throws IOException {
//Load the parts of speech model
File file = new File("C:/OpenNLP_models/en-pos-maxent.bin");
POSModel model = new POSModelLoader().load(file);
//Constructing the tagger
POSTaggerME tagger = new POSTaggerME(model);
//Tokenizing the sentence
String sentence = "Hi welcome to Tutorialspoint";
WhitespaceTokenizer whitespaceTokenizer= WhitespaceTokenizer.INSTANCE;
String[] tokens = whitespaceTokenizer.tokenize(sentence);
//Generating tags from the tokens
String[] tags = tagger.tag(tokens);
//Loading the chunker model
InputStream inputStream = new
FileInputStream("C:/OpenNLP_models/en-chunker.bin");
ChunkerModel cModel = new ChunkerModel(inputStream);
ChunkerME chunkerME = new ChunkerME(cModel);
//Generating the chunk tags
chunkerME.chunk(tokens, tags);
//Getting the probabilities of the last decoded sequence
double[] probs = chunkerME.probs();
for(int i = 0; i<probs.length; i++)
System.out.println(probs[i]);
}
}
Kompilasi dan jalankan file Java yang disimpan dari Command prompt menggunakan perintah berikut -
javac ChunkerProbsExample.java
java ChunkerProbsExample
Saat menjalankan, program di atas membaca String yang diberikan, memotongnya, dan mencetak probabilitas dari urutan yang terakhir didekodekan.
0.9592746040797778
0.6883933131241501
0.8830563473996004
0.8951150529746051
OpenNLP menyediakan Command Line Interface (CLI) untuk melakukan operasi yang berbeda melalui baris perintah. Dalam bab ini, kita akan mengambil beberapa contoh untuk menunjukkan bagaimana kita dapat menggunakan Antarmuka Baris Perintah OpenNLP.
Tokenisasi
input.txt
Hi. How are you? Welcome to Tutorialspoint. We provide free tutorials on various technologies
Sintaksis
> opennlp TokenizerME path_for_models../en-token.bin <inputfile..> outputfile..
perintah
C:\> opennlp TokenizerME C:\OpenNLP_models/en-token.bin <input.txt >output.txt
keluaran
Loading Tokenizer model ... done (0.207s)
Average: 214.3 sent/s
Total: 3 sent
Runtime: 0.014s
output.txt
Hi . How are you ? Welcome to Tutorialspoint . We provide free tutorials on various technologies
Deteksi Kalimat
input.txt
Hi. How are you? Welcome to Tutorialspoint. We provide free tutorials on various technologies
Sintaksis
> opennlp SentenceDetector path_for_models../en-token.bin <inputfile..> outputfile..
perintah
C:\> opennlp SentenceDetector C:\OpenNLP_models/en-sent.bin <input.txt > output_sendet.txt
Keluaran
Loading Sentence Detector model ... done (0.067s)
Average: 750.0 sent/s
Total: 3 sent
Runtime: 0.004s
Output_sendet.txt
Hi. How are you?
Welcome to Tutorialspoint.
We provide free tutorials on various technologies
Pengakuan Entitas Bernama
input.txt
<START:person> <START:person> Mike <END> <END> is senior programming manager and
<START:person> Rama <END> is a clerk both are working at Tutorialspoint
Sintaksis
> opennlp TokenNameFinder path_for_models../en-token.bin <inputfile..
Perintah
C:\>opennlp TokenNameFinder C:\OpenNLP_models\en-ner-person.bin <input_namefinder.txt
Keluaran
Loading Token Name Finder model ... done (0.730s)
<START:person> <START:person> Mike <END> <END> is senior programming manager and
<START:person> Rama <END> is a clerk both are working at Tutorialspoint
Average: 55.6 sent/s
Total: 1 sent
Runtime: 0.018s
Bagian dari Speech Tagging
Input.txt
Hi. How are you? Welcome to Tutorialspoint. We provide free tutorials on various technologies
Sintaksis
> opennlp POSTagger path_for_models../en-token.bin <inputfile..
Perintah
C:\>opennlp POSTagger C:\OpenNLP_models/en-pos-maxent.bin < input.txt
Keluaran
Loading POS Tagger model ... done (1.315s)
Hi._NNP How_WRB are_VBP you?_JJ Welcome_NNP to_TO Tutorialspoint._NNP We_PRP
provide_VBP free_JJ tutorials_NNS on_IN various_JJ technologies_NNS
Average: 66.7 sent/s
Total: 1 sent
Runtime: 0.015s