Lucene - Analisis
Di salah satu bab sebelumnya, kita telah melihat bahwa Lucene menggunakan IndexWriter untuk menganalisis Dokumen menggunakan Analyzer dan kemudian membuat / membuka / mengedit indeks sesuai kebutuhan. Dalam bab ini, kita akan membahas berbagai jenis objek Analyzer dan objek relevan lainnya yang digunakan selama proses analisis. Memahami proses Analisis dan cara kerja penganalisis akan memberi Anda wawasan yang luas tentang cara Lucene mengindeks dokumen.
Berikut adalah daftar objek yang akan kita bahas nanti.
S.No. | Kelas & Deskripsi |
---|---|
1 | Token Token mewakili teks atau kata dalam dokumen dengan detail yang relevan seperti metadatanya (posisi, offset awal, offset akhir, jenis token, dan kenaikan posisinya). |
2 | TokenStream TokenStream adalah hasil dari proses analisis dan terdiri dari serangkaian token. Ini adalah kelas abstrak. |
3 | Penganalisis Ini adalah kelas dasar abstrak untuk setiap jenis Analyzer. |
4 | WhitespaceAnalyzer Penganalisis ini membagi teks dalam dokumen berdasarkan spasi. |
5 | SimpleAnalyzer Penganalisis ini membagi teks dalam dokumen berdasarkan karakter bukan huruf dan meletakkan teks dalam huruf kecil. |
6 | StopAnalyzer Penganalisis ini bekerja seperti SimpleAnalyzer dan menghapus kata-kata umum seperti 'a', 'an', 'the', dll. |
7 | StandardAnalyzer Ini adalah penganalisis paling canggih dan mampu menangani nama, alamat email, dll. Ini menurunkan huruf besar setiap token dan menghapus kata-kata dan tanda baca umum, jika ada. |