Lucene - Panduan Cepat
Lucene adalah berbasis Java yang sederhana namun kuat SearchPerpustakaan. Ini dapat digunakan dalam aplikasi apa pun untuk menambah kemampuan pencarian. Lucene adalah proyek sumber terbuka. Ini terukur. Pustaka berkinerja tinggi ini digunakan untuk mengindeks dan mencari hampir semua jenis teks. Perpustakaan Lucene menyediakan operasi inti yang dibutuhkan oleh aplikasi pencarian apa pun. Pengindeksan dan Pencarian.
Bagaimana Aplikasi Pencarian bekerja?
Aplikasi Pencarian melakukan semua atau beberapa operasi berikut -
Langkah | Judul | Deskripsi |
---|---|---|
1 | Acquire Raw Content |
Langkah pertama dari setiap aplikasi pencarian adalah mengumpulkan konten target di mana aplikasi pencarian akan dilakukan. |
2 | Build the document |
Langkah selanjutnya adalah membuat dokumen dari konten mentah, yang dapat dipahami dan ditafsirkan oleh aplikasi penelusuran dengan mudah. |
3 | Analyze the document |
Sebelum proses pengindeksan dimulai, dokumen harus dianalisis sebagai bagian teks mana yang akan diindeks. Proses inilah dimana dokumen dianalisis. |
4 | Indexing the document |
Setelah dokumen dibuat dan dianalisis, langkah selanjutnya adalah mengindeksnya sehingga dokumen ini dapat diambil berdasarkan kunci tertentu alih-alih seluruh konten dokumen. Proses pengindeksan mirip dengan pengindeksan di akhir buku di mana kata-kata umum ditunjukkan dengan nomor halamannya sehingga kata-kata ini dapat dilacak dengan cepat daripada mencari di buku lengkap. |
5 | User Interface for Search |
Setelah database indeks siap, aplikasi dapat melakukan pencarian apa pun. Untuk memudahkan pengguna melakukan pencarian, aplikasi harus menyediakan satu penggunaa mean atau a user interface di mana pengguna dapat memasukkan teks dan memulai proses pencarian. |
6 | Build Query |
Setelah pengguna membuat permintaan untuk mencari teks, aplikasi harus menyiapkan objek Query menggunakan teks tersebut yang dapat digunakan untuk menanyakan database indeks untuk mendapatkan detail yang relevan. |
7 | Search Query |
Menggunakan objek kueri, database indeks kemudian diperiksa untuk mendapatkan detail yang relevan dan dokumen konten. |
8 | Render Results |
Setelah hasilnya diterima, aplikasi harus memutuskan bagaimana menampilkan hasil kepada pengguna menggunakan Antarmuka Pengguna. Berapa banyak informasi yang akan ditampilkan pada tampilan pertama dan seterusnya. |
Selain operasi dasar ini, aplikasi pencarian juga dapat menyediakan administration user interfacedan membantu administrator aplikasi untuk mengontrol tingkat pencarian berdasarkan profil pengguna. Analisis hasil pencarian adalah aspek penting dan lanjutan dari setiap aplikasi pencarian.
Peran Lucene dalam Aplikasi Pencarian
Lucene berperan dalam langkah 2 hingga langkah 7 yang disebutkan di atas dan menyediakan kelas untuk melakukan operasi yang diperlukan. Singkatnya, Lucene adalah jantung dari semua aplikasi pencarian dan menyediakan operasi penting yang berkaitan dengan pengindeksan dan pencarian. Mendapatkan konten dan menampilkan hasilnya diserahkan kepada bagian aplikasi untuk ditangani.
Pada bab berikutnya, kita akan melakukan aplikasi Pencarian sederhana menggunakan perpustakaan Pencarian Lucene.
Tutorial ini akan memandu Anda tentang cara mempersiapkan lingkungan pengembangan untuk memulai pekerjaan Anda dengan Spring Framework. Tutorial ini juga akan mengajari Anda cara menyiapkan JDK, Tomcat, dan Eclipse di mesin Anda sebelum Anda menyiapkan Spring Framework -
Langkah 1 - Penyiapan Java Development Kit (JDK)
Anda dapat mengunduh versi terbaru SDK dari situs Java Oracle: Java SE Downloads . Anda akan menemukan instruksi untuk menginstal JDK dalam file yang diunduh; ikuti instruksi yang diberikan untuk menginstal dan mengkonfigurasi pengaturan. Terakhir, setel variabel lingkungan PATH dan JAVA_HOME untuk merujuk ke direktori yang berisi Java dan javac, biasanya masing-masing java_install_dir / bin dan java_install_dir.
Jika Anda menjalankan Windows dan menginstal JDK di C: \ jdk1.6.0_15, Anda harus meletakkan baris berikut di file C: \ autoexec.bat Anda.
set PATH = C:\jdk1.6.0_15\bin;%PATH%
set JAVA_HOME = C:\jdk1.6.0_15
Atau, pada Windows NT / 2000 / XP, Anda juga dapat mengklik kanan My Computer, Pilih Properties, kemudian Advanced, kemudian Environment Variables. Kemudian, Anda akan memperbaruiPATH nilai dan tekan OK tombol.
Di Unix (Solaris, Linux, dll.), Jika SDK diinstal di /usr/local/jdk1.6.0_15 dan Anda menggunakan shell C, Anda akan memasukkan yang berikut ini ke dalam file .cshrc Anda.
setenv PATH /usr/local/jdk1.6.0_15/bin:$PATH
setenv JAVA_HOME /usr/local/jdk1.6.0_15
Atau, jika Anda menggunakan file Integrated Development Environment (IDE) seperti Borland JBuilder, Eclipse, IntelliJ IDEA, atau Sun ONE Studio, kompilasi dan jalankan program sederhana untuk memastikan bahwa IDE mengetahui di mana Anda menginstal Java, jika tidak, lakukan penyiapan yang tepat seperti yang diberikan dalam dokumen IDE.
Langkah 2 - Eclipse IDE Setup
Semua contoh dalam tutorial ini telah ditulis menggunakan Eclipse IDE. Jadi saya sarankan Anda harus menginstal Eclipse versi terbaru di komputer Anda.
Untuk menginstal Eclipse IDE, unduh binari Eclipse terbaru dari https://www.eclipse.org/downloads/. Setelah Anda mengunduh instalasi, keluarkan distribusi biner ke lokasi yang nyaman. Misalnya, diC:\eclipse on windows, atau /usr/local/eclipse on Linux/Unix dan akhirnya mengatur variabel PATH dengan tepat.
Eclipse dapat dimulai dengan menjalankan perintah berikut di mesin windows, atau Anda cukup mengklik dua kali eclipse.exe
%C:\eclipse\eclipse.exe
Eclipse dapat dimulai dengan menjalankan perintah berikut di mesin Unix (Solaris, Linux, dll.) -
$/usr/local/eclipse/eclipse
Setelah startup berhasil, itu akan menampilkan hasil berikut -
Langkah 3 - Siapkan Perpustakaan Kerangka Lucene
Jika startup berhasil, Anda dapat melanjutkan untuk menyiapkan framework Lucene Anda. Berikut adalah langkah-langkah sederhana untuk mendownload dan menginstal framework di komputer Anda.
https://archive.apache.org/dist/lucene/java/3.6.2/
Tentukan pilihan apakah Anda ingin menginstal Lucene di Windows, atau Unix, lalu lanjutkan ke langkah berikutnya untuk mengunduh file .zip untuk windows dan file .tz untuk Unix.
Unduh versi biner kerangka kerja Lucene yang sesuai dari https://archive.apache.org/dist/lucene/java/.
Pada saat menulis tutorial ini, saya mengunduh lucene-3.6.2.zip di mesin Windows saya dan ketika Anda mengekstrak file yang diunduh itu akan memberi Anda struktur direktori di dalam C: \ lucene-3.6.2 sebagai berikut.
Anda akan menemukan semua perpustakaan Lucene di direktori C:\lucene-3.6.2. Pastikan Anda mengatur variabel CLASSPATH Anda pada direktori ini dengan benar jika tidak, Anda akan menghadapi masalah saat menjalankan aplikasi Anda. Jika Anda menggunakan Eclipse, maka tidak perlu mengatur CLASSPATH karena semua pengaturan akan dilakukan melalui Eclipse.
Setelah Anda selesai dengan langkah terakhir ini, Anda siap untuk melanjutkan untuk Contoh Lucene pertama Anda yang akan Anda lihat di bab berikutnya.
Pada bab ini, kita akan mempelajari pemrograman sebenarnya dengan Lucene Framework. Sebelum Anda mulai menulis contoh pertama Anda menggunakan kerangka kerja Lucene, Anda harus memastikan bahwa Anda telah mengatur lingkungan Lucene Anda dengan benar seperti yang dijelaskan dalam tutorial Lucene - Pengaturan Lingkungan . Direkomendasikan agar Anda memiliki pengetahuan kerja tentang Eclipse IDE.
Mari kita lanjutkan dengan menulis Aplikasi Pencarian sederhana yang akan mencetak jumlah hasil pencarian yang ditemukan. Kami juga akan melihat daftar indeks yang dibuat selama proses ini.
Langkah 1 - Buat Proyek Java
Langkah pertama adalah membuat Proyek Java sederhana menggunakan Eclipse IDE. Ikuti opsinyaFile > New -> Project dan akhirnya pilih Java Projectwizard dari daftar wizard. Sekarang beri nama proyek Anda sebagaiLuceneFirstApplication menggunakan jendela wizard sebagai berikut -
Setelah proyek Anda berhasil dibuat, Anda akan memiliki konten berikut di Project Explorer -
Langkah 2 - Tambahkan Perpustakaan yang Diperlukan
Sekarang mari kita tambahkan pustaka kerangka kerja inti Lucene dalam proyek kita. Untuk melakukan ini, klik kanan pada nama proyek AndaLuceneFirstApplication dan kemudian ikuti opsi berikut yang tersedia di menu konteks: Build Path -> Configure Build Path untuk menampilkan jendela Java Build Path sebagai berikut -
Sekarang gunakan Add External JARs tombol tersedia di bawah Libraries tab untuk menambahkan JAR inti berikut dari direktori instalasi Lucene -
- lucene-core-3.6.2
Langkah 3 - Buat File Sumber
Mari kita sekarang membuat file sumber aktual di bawah LuceneFirstApplicationproyek. Pertama kita perlu membuat paket bernamacom.tutorialspoint.lucene. Untuk melakukan ini, klik kanan pada src di bagian penjelajah paket dan ikuti opsi: New -> Package.
Selanjutnya kita akan membuat LuceneTester.java dan kelas java lainnya di bawah com.tutorialspoint.lucene paket.
LuceneConstants.java
Kelas ini digunakan untuk menyediakan berbagai konstanta yang akan digunakan di seluruh aplikasi sampel.
package com.tutorialspoint.lucene;
public class LuceneConstants {
public static final String CONTENTS = "contents";
public static final String FILE_NAME = "filename";
public static final String FILE_PATH = "filepath";
public static final int MAX_SEARCH = 10;
}
TextFileFilter.java
Kelas ini digunakan sebagai a .txt file Saring.
package com.tutorialspoint.lucene;
import java.io.File;
import java.io.FileFilter;
public class TextFileFilter implements FileFilter {
@Override
public boolean accept(File pathname) {
return pathname.getName().toLowerCase().endsWith(".txt");
}
}
Indexer.java
Kelas ini digunakan untuk mengindeks data mentah sehingga kita dapat membuatnya dapat dicari menggunakan pustaka Lucene.
package com.tutorialspoint.lucene;
import java.io.File;
import java.io.FileFilter;
import java.io.FileReader;
import java.io.IOException;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.util.Version;
public class Indexer {
private IndexWriter writer;
public Indexer(String indexDirectoryPath) throws IOException {
//this directory will contain the indexes
Directory indexDirectory =
FSDirectory.open(new File(indexDirectoryPath));
//create the indexer
writer = new IndexWriter(indexDirectory,
new StandardAnalyzer(Version.LUCENE_36),true,
IndexWriter.MaxFieldLength.UNLIMITED);
}
public void close() throws CorruptIndexException, IOException {
writer.close();
}
private Document getDocument(File file) throws IOException {
Document document = new Document();
//index file contents
Field contentField = new Field(LuceneConstants.CONTENTS, new FileReader(file));
//index file name
Field fileNameField = new Field(LuceneConstants.FILE_NAME,
file.getName(),Field.Store.YES,Field.Index.NOT_ANALYZED);
//index file path
Field filePathField = new Field(LuceneConstants.FILE_PATH,
file.getCanonicalPath(),Field.Store.YES,Field.Index.NOT_ANALYZED);
document.add(contentField);
document.add(fileNameField);
document.add(filePathField);
return document;
}
private void indexFile(File file) throws IOException {
System.out.println("Indexing "+file.getCanonicalPath());
Document document = getDocument(file);
writer.addDocument(document);
}
public int createIndex(String dataDirPath, FileFilter filter)
throws IOException {
//get all files in the data directory
File[] files = new File(dataDirPath).listFiles();
for (File file : files) {
if(!file.isDirectory()
&& !file.isHidden()
&& file.exists()
&& file.canRead()
&& filter.accept(file)
){
indexFile(file);
}
}
return writer.numDocs();
}
}
Searcher.java
Kelas ini digunakan untuk mencari indeks yang dibuat oleh Pengindeks untuk mencari konten yang diminta.
package com.tutorialspoint.lucene;
import java.io.File;
import java.io.IOException;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.queryParser.ParseException;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.util.Version;
public class Searcher {
IndexSearcher indexSearcher;
QueryParser queryParser;
Query query;
public Searcher(String indexDirectoryPath)
throws IOException {
Directory indexDirectory =
FSDirectory.open(new File(indexDirectoryPath));
indexSearcher = new IndexSearcher(indexDirectory);
queryParser = new QueryParser(Version.LUCENE_36,
LuceneConstants.CONTENTS,
new StandardAnalyzer(Version.LUCENE_36));
}
public TopDocs search( String searchQuery)
throws IOException, ParseException {
query = queryParser.parse(searchQuery);
return indexSearcher.search(query, LuceneConstants.MAX_SEARCH);
}
public Document getDocument(ScoreDoc scoreDoc)
throws CorruptIndexException, IOException {
return indexSearcher.doc(scoreDoc.doc);
}
public void close() throws IOException {
indexSearcher.close();
}
}
LuceneTester.java
Kelas ini digunakan untuk menguji kemampuan pengindeksan dan pencarian perpustakaan Lucene.
package com.tutorialspoint.lucene;
import java.io.IOException;
import org.apache.lucene.document.Document;
import org.apache.lucene.queryParser.ParseException;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopDocs;
public class LuceneTester {
String indexDir = "E:\\Lucene\\Index";
String dataDir = "E:\\Lucene\\Data";
Indexer indexer;
Searcher searcher;
public static void main(String[] args) {
LuceneTester tester;
try {
tester = new LuceneTester();
tester.createIndex();
tester.search("Mohan");
} catch (IOException e) {
e.printStackTrace();
} catch (ParseException e) {
e.printStackTrace();
}
}
private void createIndex() throws IOException {
indexer = new Indexer(indexDir);
int numIndexed;
long startTime = System.currentTimeMillis();
numIndexed = indexer.createIndex(dataDir, new TextFileFilter());
long endTime = System.currentTimeMillis();
indexer.close();
System.out.println(numIndexed+" File indexed, time taken: "
+(endTime-startTime)+" ms");
}
private void search(String searchQuery) throws IOException, ParseException {
searcher = new Searcher(indexDir);
long startTime = System.currentTimeMillis();
TopDocs hits = searcher.search(searchQuery);
long endTime = System.currentTimeMillis();
System.out.println(hits.totalHits +
" documents found. Time :" + (endTime - startTime));
for(ScoreDoc scoreDoc : hits.scoreDocs) {
Document doc = searcher.getDocument(scoreDoc);
System.out.println("File: "
+ doc.get(LuceneConstants.FILE_PATH));
}
searcher.close();
}
}
Langkah 4 - Pembuatan direktori Data & Indeks
Kami telah menggunakan 10 file teks dari record1.txt ke record10.txt yang berisi nama dan detail siswa lainnya dan meletakkannya di direktori E:\Lucene\Data. Uji Data . Jalur direktori indeks harus dibuat sebagaiE:\Lucene\Index. Setelah menjalankan program ini, Anda dapat melihat daftar file indeks yang dibuat di folder tersebut.
Langkah 5 - Jalankan program
Setelah Anda selesai dengan pembuatan sumber, data mentah, direktori data dan direktori indeks, Anda siap untuk mengompilasi dan menjalankan program Anda. Untuk melakukan ini, pertahankanLuceneTester.Java tab file aktif dan gunakan file Run pilihan yang tersedia di Eclipse IDE atau gunakan Ctrl + F11 untuk mengkompilasi dan menjalankan file LuceneTesteraplikasi. Jika aplikasi berhasil dijalankan, itu akan mencetak pesan berikut di konsol Eclipse IDE -
Indexing E:\Lucene\Data\record1.txt
Indexing E:\Lucene\Data\record10.txt
Indexing E:\Lucene\Data\record2.txt
Indexing E:\Lucene\Data\record3.txt
Indexing E:\Lucene\Data\record4.txt
Indexing E:\Lucene\Data\record5.txt
Indexing E:\Lucene\Data\record6.txt
Indexing E:\Lucene\Data\record7.txt
Indexing E:\Lucene\Data\record8.txt
Indexing E:\Lucene\Data\record9.txt
10 File indexed, time taken: 109 ms
1 documents found. Time :0
File: E:\Lucene\Data\record4.txt
Setelah Anda menjalankan program dengan sukses, Anda akan memiliki konten berikut di index directory -
Proses pengindeksan adalah salah satu fungsi inti yang disediakan oleh Lucene. Diagram berikut menggambarkan proses pengindeksan dan penggunaan kelas.IndexWriter adalah yang paling penting dan komponen inti dari proses pengindeksan.
Kami menambah Document(s) mengandung Field(s) ke IndexWriter yang menganalisis file Document(s) menggunakan Analyzer lalu buat / buka / edit indeks sesuai kebutuhan dan simpan / perbarui di a Directory. IndexWriter digunakan untuk memperbarui atau membuat indeks. Itu tidak digunakan untuk membaca indeks.
Kelas Pengindeksan
Berikut ini adalah daftar kelas yang umum digunakan selama proses pengindeksan.
S.No. | Kelas & Deskripsi |
---|---|
1 | Penulis Indeks Kelas ini bertindak sebagai komponen inti yang membuat / memperbarui indeks selama proses pengindeksan. |
2 | Direktori Kelas ini mewakili lokasi penyimpanan indeks. |
3 | Penganalisis Kelas ini bertanggung jawab untuk menganalisa dokumen dan mendapatkan token / kata dari teks yang akan diindeks. Tanpa analisis yang dilakukan, IndexWriter tidak dapat membuat indeks. |
4 | Dokumen Kelas ini merepresentasikan dokumen virtual dengan Fields dimana Field merupakan objek yang dapat berisi isi dokumen fisik, meta data dan lain sebagainya. Penganalisis hanya dapat memahami Dokumen. |
5 | Bidang Ini adalah unit terendah atau titik awal dari proses pengindeksan. Ini mewakili hubungan pasangan nilai kunci di mana kunci digunakan untuk mengidentifikasi nilai yang akan diindeks. Mari kita asumsikan bidang yang digunakan untuk merepresentasikan konten dokumen akan memiliki kunci sebagai "konten" dan nilainya dapat berisi sebagian atau seluruh teks atau konten numerik dokumen. Lucene hanya dapat mengindeks konten teks atau numerik. |
Proses Pencarian lagi-lagi merupakan salah satu fungsi inti yang disediakan oleh Lucene. Alirannya mirip dengan proses pengindeksan. Pencarian dasar Lucene dapat dilakukan dengan menggunakan kelas-kelas berikut yang juga dapat disebut sebagai kelas dasar untuk semua operasi terkait pencarian.
Mencari Kelas
Berikut adalah daftar kelas yang biasa digunakan selama proses pencarian.
S.No. | Kelas & Deskripsi |
---|---|
1 | IndexSearcher Kelas ini bertindak sebagai komponen inti yang membaca / mencari indeks yang dibuat setelah proses pengindeksan. Dibutuhkan contoh direktori yang menunjuk ke lokasi yang berisi indeks. |
2 | Istilah Kelas ini adalah unit pencarian terendah. Ini mirip dengan Field dalam proses pengindeksan. |
3 | Pertanyaan Kueri adalah kelas abstrak dan berisi berbagai metode utilitas dan merupakan induk dari semua jenis kueri yang digunakan Lucene selama proses pencarian. |
4 | TermQuery TermQuery adalah objek kueri yang paling umum digunakan dan merupakan dasar dari banyak kueri kompleks yang dapat digunakan Lucene. |
5 | TopDocs TopDocs menunjuk ke N hasil pencarian teratas yang cocok dengan kriteria pencarian. Ini adalah wadah sederhana dari pointer untuk menunjuk ke dokumen yang merupakan output dari hasil pencarian. |
Proses pengindeksan adalah salah satu fungsi inti yang disediakan oleh Lucene. Diagram berikut menggambarkan proses pengindeksan dan penggunaan kelas. IndexWriter adalah komponen terpenting dan inti dari proses pengindeksan.
Kami menambahkan Dokumen yang berisi Bidang ke IndexWriter yang menganalisis Dokumen menggunakan Analyzer dan kemudian membuat / membuka / mengedit indeks sesuai kebutuhan dan menyimpan / memperbaruinya dalam Direktori . IndexWriter digunakan untuk memperbarui atau membuat indeks. Itu tidak digunakan untuk membaca indeks.
Sekarang kami akan menunjukkan kepada Anda proses langkah demi langkah untuk memulai dalam memahami proses pengindeksan menggunakan contoh dasar.
Buat dokumen
Buat metode untuk mendapatkan dokumen lucene dari file teks.
Buat berbagai jenis bidang yang merupakan pasangan nilai kunci yang berisi kunci sebagai nama dan nilai sebagai konten yang akan diindeks.
Setel bidang untuk dianalisis atau tidak. Dalam kasus kami, hanya konten yang akan dianalisis karena dapat berisi data seperti a, am, are, dll. Yang tidak diperlukan dalam operasi pencarian.
Tambahkan bidang yang baru dibuat ke objek dokumen dan kembalikan ke metode pemanggil.
private Document getDocument(File file) throws IOException {
Document document = new Document();
//index file contents
Field contentField = new Field(LuceneConstants.CONTENTS,
new FileReader(file));
//index file name
Field fileNameField = new Field(LuceneConstants.FILE_NAME,
file.getName(),
Field.Store.YES,Field.Index.NOT_ANALYZED);
//index file path
Field filePathField = new Field(LuceneConstants.FILE_PATH,
file.getCanonicalPath(),
Field.Store.YES,Field.Index.NOT_ANALYZED);
document.add(contentField);
document.add(fileNameField);
document.add(filePathField);
return document;
}
Buat Penulis Indeks
Kelas IndexWriter bertindak sebagai komponen inti yang membuat / memperbarui indeks selama proses pengindeksan. Ikuti langkah-langkah ini untuk membuat IndexWriter -
Step 1 - Buat objek IndexWriter.
Step 2 - Buat direktori Lucene yang harus menunjuk ke lokasi di mana indeks akan disimpan.
Step 3 - Inisialisasi objek IndexWriter yang dibuat dengan direktori indeks, penganalisis standar yang memiliki informasi versi dan parameter wajib / opsional lainnya.
private IndexWriter writer;
public Indexer(String indexDirectoryPath) throws IOException {
//this directory will contain the indexes
Directory indexDirectory =
FSDirectory.open(new File(indexDirectoryPath));
//create the indexer
writer = new IndexWriter(indexDirectory,
new StandardAnalyzer(Version.LUCENE_36),true,
IndexWriter.MaxFieldLength.UNLIMITED);
}
Mulai Proses Pengindeksan
Program berikut menunjukkan cara memulai proses pengindeksan -
private void indexFile(File file) throws IOException {
System.out.println("Indexing "+file.getCanonicalPath());
Document document = getDocument(file);
writer.addDocument(document);
}
Contoh Aplikasi
Untuk menguji proses pengindeksan, kita perlu membuat tes aplikasi Lucene.
Langkah | Deskripsi |
---|---|
1 | Buat proyek dengan nama LuceneFirstApplication di bawah paket com.tutorialspoint.lucene seperti yang dijelaskan di Lucene - bab Aplikasi Pertama . Anda juga dapat menggunakan proyek yang dibuat di Lucene - bab Aplikasi Pertama untuk bab ini untuk memahami proses pengindeksan. |
2 | Buat LuceneConstants.java, TextFileFilter.java dan Indexer.java seperti yang dijelaskan di Lucene - bab Aplikasi Pertama . Jaga sisa file tidak berubah. |
3 | Buat LuceneTester.java seperti yang disebutkan di bawah ini. |
4 | Bersihkan dan bangun aplikasi untuk memastikan logika bisnis berfungsi sesuai persyaratan. |
LuceneConstants.java
Kelas ini digunakan untuk menyediakan berbagai konstanta yang akan digunakan di seluruh aplikasi sampel.
package com.tutorialspoint.lucene;
public class LuceneConstants {
public static final String CONTENTS = "contents";
public static final String FILE_NAME = "filename";
public static final String FILE_PATH = "filepath";
public static final int MAX_SEARCH = 10;
}
TextFileFilter.java
Kelas ini digunakan sebagai a .txt filter file.
package com.tutorialspoint.lucene;
import java.io.File;
import java.io.FileFilter;
public class TextFileFilter implements FileFilter {
@Override
public boolean accept(File pathname) {
return pathname.getName().toLowerCase().endsWith(".txt");
}
}
Indexer.java
Kelas ini digunakan untuk mengindeks data mentah sehingga kita dapat membuatnya dapat dicari menggunakan pustaka Lucene.
package com.tutorialspoint.lucene;
import java.io.File;
import java.io.FileFilter;
import java.io.FileReader;
import java.io.IOException;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.util.Version;
public class Indexer {
private IndexWriter writer;
public Indexer(String indexDirectoryPath) throws IOException {
//this directory will contain the indexes
Directory indexDirectory =
FSDirectory.open(new File(indexDirectoryPath));
//create the indexer
writer = new IndexWriter(indexDirectory,
new StandardAnalyzer(Version.LUCENE_36),true,
IndexWriter.MaxFieldLength.UNLIMITED);
}
public void close() throws CorruptIndexException, IOException {
writer.close();
}
private Document getDocument(File file) throws IOException {
Document document = new Document();
//index file contents
Field contentField = new Field(LuceneConstants.CONTENTS,
new FileReader(file));
//index file name
Field fileNameField = new Field(LuceneConstants.FILE_NAME,
file.getName(),
Field.Store.YES,Field.Index.NOT_ANALYZED);
//index file path
Field filePathField = new Field(LuceneConstants.FILE_PATH,
file.getCanonicalPath(),
Field.Store.YES,Field.Index.NOT_ANALYZED);
document.add(contentField);
document.add(fileNameField);
document.add(filePathField);
return document;
}
private void indexFile(File file) throws IOException {
System.out.println("Indexing "+file.getCanonicalPath());
Document document = getDocument(file);
writer.addDocument(document);
}
public int createIndex(String dataDirPath, FileFilter filter)
throws IOException {
//get all files in the data directory
File[] files = new File(dataDirPath).listFiles();
for (File file : files) {
if(!file.isDirectory()
&& !file.isHidden()
&& file.exists()
&& file.canRead()
&& filter.accept(file)
){
indexFile(file);
}
}
return writer.numDocs();
}
}
LuceneTester.java
Kelas ini digunakan untuk menguji kemampuan pengindeksan perpustakaan Lucene.
package com.tutorialspoint.lucene;
import java.io.IOException;
public class LuceneTester {
String indexDir = "E:\\Lucene\\Index";
String dataDir = "E:\\Lucene\\Data";
Indexer indexer;
public static void main(String[] args) {
LuceneTester tester;
try {
tester = new LuceneTester();
tester.createIndex();
} catch (IOException e) {
e.printStackTrace();
}
}
private void createIndex() throws IOException {
indexer = new Indexer(indexDir);
int numIndexed;
long startTime = System.currentTimeMillis();
numIndexed = indexer.createIndex(dataDir, new TextFileFilter());
long endTime = System.currentTimeMillis();
indexer.close();
System.out.println(numIndexed+" File indexed, time taken: "
+(endTime-startTime)+" ms");
}
}
Pembuatan Direktori Data & Indeks
Kami telah menggunakan 10 file teks dari record1.txt ke record10.txt yang berisi nama dan detail siswa lainnya dan meletakkannya di direktori E:\Lucene\Data. Uji Data . Jalur direktori indeks harus dibuat sebagaiE:\Lucene\Index. Setelah menjalankan program ini, Anda dapat melihat daftar file indeks yang dibuat di folder tersebut.
Menjalankan Program
Setelah Anda selesai dengan pembuatan sumber, data mentah, direktori data dan direktori indeks, Anda dapat melanjutkan dengan mengompilasi dan menjalankan program Anda. Untuk melakukan ini, biarkan tab file LuceneTester.Java aktif dan gunakan fileRun pilihan yang tersedia di Eclipse IDE atau gunakan Ctrl + F11 untuk mengkompilasi dan menjalankan file LuceneTesteraplikasi. Jika aplikasi Anda berjalan dengan sukses, itu akan mencetak pesan berikut di konsol Eclipse IDE -
Indexing E:\Lucene\Data\record1.txt
Indexing E:\Lucene\Data\record10.txt
Indexing E:\Lucene\Data\record2.txt
Indexing E:\Lucene\Data\record3.txt
Indexing E:\Lucene\Data\record4.txt
Indexing E:\Lucene\Data\record5.txt
Indexing E:\Lucene\Data\record6.txt
Indexing E:\Lucene\Data\record7.txt
Indexing E:\Lucene\Data\record8.txt
Indexing E:\Lucene\Data\record9.txt
10 File indexed, time taken: 109 ms
Setelah Anda menjalankan program dengan sukses, Anda akan memiliki konten berikut di index directory −
Dalam bab ini, kita akan membahas empat operasi utama pengindeksan. Operasi ini berguna di berbagai waktu dan digunakan di seluruh aplikasi pencarian perangkat lunak.
Operasi Pengindeksan
Berikut adalah daftar operasi yang umum digunakan selama proses pengindeksan.
S.No. | Operasi & Deskripsi |
---|---|
1 | Tambahkan Dokumen Operasi ini digunakan pada tahap awal proses pengindeksan untuk membuat indeks pada konten yang baru tersedia. |
2 | Perbarui Dokumen Operasi ini digunakan untuk memperbarui indeks untuk mencerminkan perubahan dalam konten yang diperbarui. Ini mirip dengan membuat ulang indeks. |
3 | Hapus Dokumen Operasi ini digunakan untuk memperbarui indeks untuk mengecualikan dokumen yang tidak perlu diindeks / dicari. |
4 | Opsi Bidang Opsi bidang menentukan cara atau mengontrol cara agar konten bidang dapat dicari. |
Proses pencarian adalah salah satu fungsi inti yang disediakan oleh Lucene. Diagram berikut menggambarkan proses dan penggunaannya. IndexSearcher adalah salah satu komponen inti dari proses pencarian.
Pertama-tama kita membuat Direktori yang berisi indeks dan kemudian meneruskannya ke IndexSearcher yang membuka Direktori menggunakan IndexReader . Kemudian kita membuat Query dengan Term dan melakukan pencarian menggunakan IndexSearcher dengan meneruskan Query tersebut ke pencari. IndexSearcher mengembalikan objek TopDocs yang berisi detail pencarian bersama dengan ID dokumen dari Dokumen yang merupakan hasil dari operasi pencarian.
Sekarang kami akan menunjukkan kepada Anda pendekatan langkah-bijak dan membantu Anda memahami proses pengindeksan menggunakan contoh dasar.
Buat QueryParser
Kelas QueryParser mem-parsing masukan yang dimasukkan pengguna ke dalam format kueri yang dapat dimengerti Lucene. Ikuti langkah-langkah berikut untuk membuat QueryParser -
Step 1 - Buat objek QueryParser.
Step 2 - Inisialisasi objek QueryParser yang dibuat dengan penganalisis standar yang memiliki informasi versi dan nama indeks tempat kueri ini akan dijalankan.
QueryParser queryParser;
public Searcher(String indexDirectoryPath) throws IOException {
queryParser = new QueryParser(Version.LUCENE_36,
LuceneConstants.CONTENTS,
new StandardAnalyzer(Version.LUCENE_36));
}
Buat IndexSearcher
Kelas IndexSearcher bertindak sebagai komponen inti yang dibuat oleh indeks pencari selama proses pengindeksan. Ikuti langkah-langkah berikut untuk membuat IndexSearcher -
Step 1 - Buat objek IndexSearcher.
Step 2 - Buat direktori Lucene yang harus menunjuk ke lokasi di mana indeks akan disimpan.
Step 3 - Inisialisasi objek IndexSearcher yang dibuat dengan direktori indeks.
IndexSearcher indexSearcher;
public Searcher(String indexDirectoryPath) throws IOException {
Directory indexDirectory =
FSDirectory.open(new File(indexDirectoryPath));
indexSearcher = new IndexSearcher(indexDirectory);
}
Lakukan pencarian
Ikuti langkah-langkah ini untuk melakukan pencarian -
Step 1 - Buat objek Query dengan mengurai ekspresi pencarian melalui QueryParser.
Step 2 - Lakukan pencarian dengan memanggil metode IndexSearcher.search ().
Query query;
public TopDocs search( String searchQuery) throws IOException, ParseException {
query = queryParser.parse(searchQuery);
return indexSearcher.search(query, LuceneConstants.MAX_SEARCH);
}
Dapatkan Dokumennya
Program berikut menunjukkan bagaimana mendapatkan dokumen tersebut.
public Document getDocument(ScoreDoc scoreDoc)
throws CorruptIndexException, IOException {
return indexSearcher.doc(scoreDoc.doc);
}
Tutup IndexSearcher
Program berikut menunjukkan bagaimana menutup IndexSearcher.
public void close() throws IOException {
indexSearcher.close();
}
Contoh Aplikasi
Mari kita buat aplikasi uji Lucene untuk menguji proses pencarian.
Langkah | Deskripsi |
---|---|
1 | Buat proyek dengan nama LuceneFirstApplication di bawah paket com.tutorialspoint.lucene seperti yang dijelaskan di Lucene - bab Aplikasi Pertama . Anda juga dapat menggunakan proyek yang dibuat di Lucene - bab Aplikasi Pertama seperti untuk bab ini untuk memahami proses pencarian. |
2 | Buat LuceneConstants.java, TextFileFilter.java dan Searcher.java seperti yang dijelaskan di Lucene - bab Aplikasi Pertama . Jaga sisa file tidak berubah. |
3 | Buat LuceneTester.java seperti yang disebutkan di bawah ini. |
4 | Bersihkan dan Bangun aplikasi untuk memastikan logika bisnis berfungsi sesuai persyaratan. |
LuceneConstants.java
Kelas ini digunakan untuk menyediakan berbagai konstanta yang akan digunakan di seluruh aplikasi sampel.
package com.tutorialspoint.lucene;
public class LuceneConstants {
public static final String CONTENTS = "contents";
public static final String FILE_NAME = "filename";
public static final String FILE_PATH = "filepath";
public static final int MAX_SEARCH = 10;
}
TextFileFilter.java
Kelas ini digunakan sebagai a .txt filter file.
package com.tutorialspoint.lucene;
import java.io.File;
import java.io.FileFilter;
public class TextFileFilter implements FileFilter {
@Override
public boolean accept(File pathname) {
return pathname.getName().toLowerCase().endsWith(".txt");
}
}
Searcher.java
Kelas ini digunakan untuk membaca indeks yang dibuat pada data mentah dan mencari data menggunakan perpustakaan Lucene.
package com.tutorialspoint.lucene;
import java.io.File;
import java.io.IOException;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.queryParser.ParseException;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.util.Version;
public class Searcher {
IndexSearcher indexSearcher;
QueryParser queryParser;
Query query;
public Searcher(String indexDirectoryPath) throws IOException {
Directory indexDirectory =
FSDirectory.open(new File(indexDirectoryPath));
indexSearcher = new IndexSearcher(indexDirectory);
queryParser = new QueryParser(Version.LUCENE_36,
LuceneConstants.CONTENTS,
new StandardAnalyzer(Version.LUCENE_36));
}
public TopDocs search( String searchQuery)
throws IOException, ParseException {
query = queryParser.parse(searchQuery);
return indexSearcher.search(query, LuceneConstants.MAX_SEARCH);
}
public Document getDocument(ScoreDoc scoreDoc)
throws CorruptIndexException, IOException {
return indexSearcher.doc(scoreDoc.doc);
}
public void close() throws IOException {
indexSearcher.close();
}
}
LuceneTester.java
Kelas ini digunakan untuk menguji kemampuan pencarian perpustakaan Lucene.
package com.tutorialspoint.lucene;
import java.io.IOException;
import org.apache.lucene.document.Document;
import org.apache.lucene.queryParser.ParseException;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopDocs;
public class LuceneTester {
String indexDir = "E:\\Lucene\\Index";
String dataDir = "E:\\Lucene\\Data";
Searcher searcher;
public static void main(String[] args) {
LuceneTester tester;
try {
tester = new LuceneTester();
tester.search("Mohan");
} catch (IOException e) {
e.printStackTrace();
} catch (ParseException e) {
e.printStackTrace();
}
}
private void search(String searchQuery) throws IOException, ParseException {
searcher = new Searcher(indexDir);
long startTime = System.currentTimeMillis();
TopDocs hits = searcher.search(searchQuery);
long endTime = System.currentTimeMillis();
System.out.println(hits.totalHits +
" documents found. Time :" + (endTime - startTime) +" ms");
for(ScoreDoc scoreDoc : hits.scoreDocs) {
Document doc = searcher.getDocument(scoreDoc);
System.out.println("File: "+ doc.get(LuceneConstants.FILE_PATH));
}
searcher.close();
}
}
Pembuatan Direktori Data & Indeks
Kami telah menggunakan 10 file teks bernama record1.txt ke record10.txt yang berisi nama dan rincian siswa lainnya dan meletakkannya di direktori E: \ Lucene \ Data. Uji Data . Jalur direktori indeks harus dibuat sebagai E: \ Lucene \ Index. Setelah menjalankan program pengindeksan di bab tersebutLucene - Indexing Process, Anda dapat melihat daftar file indeks yang dibuat di folder itu.
Menjalankan Program
Setelah Anda selesai dengan pembuatan sumber, data mentah, direktori data, direktori indeks dan indeks, Anda dapat melanjutkan dengan menyusun dan menjalankan program Anda. Untuk melakukan ini, pertahankanLuceneTester.Java file tab aktif dan gunakan opsi Run yang tersedia di Eclipse IDE atau gunakan Ctrl + F11 untuk mengkompilasi dan menjalankan file LuceneTesterapplication. Jika aplikasi Anda berjalan dengan sukses, itu akan mencetak pesan berikut di konsol Eclipse IDE -
1 documents found. Time :29 ms
File: E:\Lucene\Data\record4.txt
Kami telah melihat di bab sebelumnya Lucene - Search Operation, Lucene menggunakan IndexSearcher untuk melakukan pencarian dan menggunakan objek Query yang dibuat oleh QueryParser sebagai input. Dalam bab ini, kita akan membahas berbagai jenis objek Query dan berbagai cara untuk membuatnya secara terprogram. Membuat tipe objek Query yang berbeda memberikan kontrol pada jenis pencarian yang akan dilakukan.
Pertimbangkan kasus Pencarian Lanjutan, yang disediakan oleh banyak aplikasi di mana pengguna diberikan beberapa opsi untuk membatasi hasil pencarian. Dengan pemrograman Query, kita dapat mencapai hal yang sama dengan sangat mudah.
Berikut adalah daftar jenis Query yang akan kita diskusikan nanti.
S.No. | Kelas & Deskripsi |
---|---|
1 | TermQuery Kelas ini bertindak sebagai komponen inti yang membuat / memperbarui indeks selama proses pengindeksan. |
2 | TermRangeQuery TermRangeQuery digunakan ketika berbagai istilah tekstual akan dicari. |
3 | PrefixQuery PrefixQuery digunakan untuk mencocokkan dokumen yang indeksnya dimulai dengan string tertentu. |
4 | BooleanQuery BooleanQuery digunakan untuk mencari dokumen yang merupakan hasil dari beberapa query menggunakan AND, OR atau NOT operator. |
5 | PhraseQuery Permintaan frase digunakan untuk mencari dokumen yang berisi urutan istilah tertentu. |
6 | WildCardQuery WildcardQuery digunakan untuk mencari dokumen menggunakan wildcard seperti '*' untuk setiap urutan karakter ,? mencocokkan satu karakter. |
7 | FuzzyQuery FuzzyQuery digunakan untuk mencari dokumen menggunakan implementasi fuzzy yaitu pencarian perkiraan berdasarkan algoritma edit jarak. |
8 | MatchAllDocsQuery MatchAllDocsQuery seperti namanya cocok dengan semua dokumen. |
Di salah satu bab sebelumnya, kita telah melihat bahwa Lucene menggunakan IndexWriter untuk menganalisis Dokumen menggunakan Analyzer dan kemudian membuat / membuka / mengedit indeks sesuai kebutuhan. Pada bab ini, kita akan membahas berbagai jenis objek Analyzer dan objek relevan lainnya yang digunakan selama proses analisis. Memahami proses Analisis dan cara kerja penganalisis akan memberi Anda wawasan yang luas tentang cara Lucene mengindeks dokumen.
Berikut adalah daftar objek yang akan kita bahas nanti.
S.No. | Kelas & Deskripsi |
---|---|
1 | Token Token mewakili teks atau kata dalam dokumen dengan detail yang relevan seperti metadatanya (posisi, offset awal, offset akhir, jenis token, dan kenaikan posisinya). |
2 | TokenStream TokenStream adalah hasil dari proses analisis dan terdiri dari serangkaian token. Ini adalah kelas abstrak. |
3 | Penganalisis Ini adalah kelas dasar abstrak untuk setiap jenis Analyzer. |
4 | WhitespaceAnalyzer Penganalisis ini membagi teks dalam dokumen berdasarkan spasi. |
5 | SimpleAnalyzer Penganalisis ini membagi teks dalam dokumen berdasarkan karakter bukan huruf dan meletakkan teks dalam huruf kecil. |
6 | StopAnalyzer Penganalisis ini bekerja seperti SimpleAnalyzer dan menghapus kata-kata umum seperti 'a', 'an', 'the', dll. |
7 | StandardAnalyzer Ini adalah penganalisis yang paling canggih dan mampu menangani nama, alamat email, dll. Ini menurunkan huruf besar setiap token dan menghapus kata dan tanda baca umum, jika ada. |
Di bab ini, kita akan melihat urutan pengurutan di mana Lucene memberikan hasil pencarian secara default atau dapat dimanipulasi sesuai kebutuhan.
Menyortir menurut Relevansi
Ini adalah mode penyortiran default yang digunakan oleh Lucene. Lucene memberikan hasil berdasarkan hit paling relevan di atas.
private void sortUsingRelevance(String searchQuery)
throws IOException, ParseException {
searcher = new Searcher(indexDir);
long startTime = System.currentTimeMillis();
//create a term to search file name
Term term = new Term(LuceneConstants.FILE_NAME, searchQuery);
//create the term query object
Query query = new FuzzyQuery(term);
searcher.setDefaultFieldSortScoring(true, false);
//do the search
TopDocs hits = searcher.search(query,Sort.RELEVANCE);
long endTime = System.currentTimeMillis();
System.out.println(hits.totalHits +
" documents found. Time :" + (endTime - startTime) + "ms");
for(ScoreDoc scoreDoc : hits.scoreDocs) {
Document doc = searcher.getDocument(scoreDoc);
System.out.print("Score: "+ scoreDoc.score + " ");
System.out.println("File: "+ doc.get(LuceneConstants.FILE_PATH));
}
searcher.close();
}
Mengurutkan berdasarkan IndexOrder
Mode penyortiran ini digunakan oleh Lucene. Di sini, dokumen pertama yang diindeks ditampilkan pertama di hasil pencarian.
private void sortUsingIndex(String searchQuery)
throws IOException, ParseException {
searcher = new Searcher(indexDir);
long startTime = System.currentTimeMillis();
//create a term to search file name
Term term = new Term(LuceneConstants.FILE_NAME, searchQuery);
//create the term query object
Query query = new FuzzyQuery(term);
searcher.setDefaultFieldSortScoring(true, false);
//do the search
TopDocs hits = searcher.search(query,Sort.INDEXORDER);
long endTime = System.currentTimeMillis();
System.out.println(hits.totalHits +
" documents found. Time :" + (endTime - startTime) + "ms");
for(ScoreDoc scoreDoc : hits.scoreDocs) {
Document doc = searcher.getDocument(scoreDoc);
System.out.print("Score: "+ scoreDoc.score + " ");
System.out.println("File: "+ doc.get(LuceneConstants.FILE_PATH));
}
searcher.close();
}
Contoh Aplikasi
Mari kita buat aplikasi uji Lucene untuk menguji proses penyortiran.
Langkah | Deskripsi |
---|---|
1 | Buat proyek dengan nama LuceneFirstApplication di bawah paket com.tutorialspoint.lucene seperti yang dijelaskan di Lucene - bab Aplikasi Pertama . Anda juga dapat menggunakan proyek yang dibuat di Lucene - bab Aplikasi Pertama seperti untuk bab ini untuk memahami proses pencarian. |
2 | Buat LuceneConstants.java dan Searcher.java seperti yang dijelaskan di Lucene - bab Aplikasi Pertama . Jaga sisa file tidak berubah. |
3 | Buat LuceneTester.java seperti yang disebutkan di bawah ini. |
4 | Bersihkan dan Bangun aplikasi untuk memastikan logika bisnis berfungsi sesuai persyaratan. |
LuceneConstants.java
Kelas ini digunakan untuk menyediakan berbagai konstanta yang akan digunakan di seluruh aplikasi sampel.
package com.tutorialspoint.lucene;
public class LuceneConstants {
public static final String CONTENTS = "contents";
public static final String FILE_NAME = "filename";
public static final String FILE_PATH = "filepath";
public static final int MAX_SEARCH = 10;
}
Searcher.java
Kelas ini digunakan untuk membaca indeks yang dibuat pada data mentah dan mencari data menggunakan perpustakaan Lucene.
package com.tutorialspoint.lucene;
import java.io.File;
import java.io.IOException;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.queryParser.ParseException;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.Sort;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.util.Version;
public class Searcher {
IndexSearcher indexSearcher;
QueryParser queryParser;
Query query;
public Searcher(String indexDirectoryPath) throws IOException {
Directory indexDirectory
= FSDirectory.open(new File(indexDirectoryPath));
indexSearcher = new IndexSearcher(indexDirectory);
queryParser = new QueryParser(Version.LUCENE_36,
LuceneConstants.CONTENTS,
new StandardAnalyzer(Version.LUCENE_36));
}
public TopDocs search( String searchQuery)
throws IOException, ParseException {
query = queryParser.parse(searchQuery);
return indexSearcher.search(query, LuceneConstants.MAX_SEARCH);
}
public TopDocs search(Query query)
throws IOException, ParseException {
return indexSearcher.search(query, LuceneConstants.MAX_SEARCH);
}
public TopDocs search(Query query,Sort sort)
throws IOException, ParseException {
return indexSearcher.search(query,
LuceneConstants.MAX_SEARCH,sort);
}
public void setDefaultFieldSortScoring(boolean doTrackScores,
boolean doMaxScores) {
indexSearcher.setDefaultFieldSortScoring(
doTrackScores,doMaxScores);
}
public Document getDocument(ScoreDoc scoreDoc)
throws CorruptIndexException, IOException {
return indexSearcher.doc(scoreDoc.doc);
}
public void close() throws IOException {
indexSearcher.close();
}
}
LuceneTester.java
Kelas ini digunakan untuk menguji kemampuan pencarian perpustakaan Lucene.
package com.tutorialspoint.lucene;
import java.io.IOException;
import org.apache.lucene.document.Document;
import org.apache.lucene.index.Term;
import org.apache.lucene.queryParser.ParseException;
import org.apache.lucene.search.FuzzyQuery;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.Sort;
import org.apache.lucene.search.TopDocs;
public class LuceneTester {
String indexDir = "E:\\Lucene\\Index";
String dataDir = "E:\\Lucene\\Data";
Indexer indexer;
Searcher searcher;
public static void main(String[] args) {
LuceneTester tester;
try {
tester = new LuceneTester();
tester.sortUsingRelevance("cord3.txt");
tester.sortUsingIndex("cord3.txt");
} catch (IOException e) {
e.printStackTrace();
} catch (ParseException e) {
e.printStackTrace();
}
}
private void sortUsingRelevance(String searchQuery)
throws IOException, ParseException {
searcher = new Searcher(indexDir);
long startTime = System.currentTimeMillis();
//create a term to search file name
Term term = new Term(LuceneConstants.FILE_NAME, searchQuery);
//create the term query object
Query query = new FuzzyQuery(term);
searcher.setDefaultFieldSortScoring(true, false);
//do the search
TopDocs hits = searcher.search(query,Sort.RELEVANCE);
long endTime = System.currentTimeMillis();
System.out.println(hits.totalHits +
" documents found. Time :" + (endTime - startTime) + "ms");
for(ScoreDoc scoreDoc : hits.scoreDocs) {
Document doc = searcher.getDocument(scoreDoc);
System.out.print("Score: "+ scoreDoc.score + " ");
System.out.println("File: "+ doc.get(LuceneConstants.FILE_PATH));
}
searcher.close();
}
private void sortUsingIndex(String searchQuery)
throws IOException, ParseException {
searcher = new Searcher(indexDir);
long startTime = System.currentTimeMillis();
//create a term to search file name
Term term = new Term(LuceneConstants.FILE_NAME, searchQuery);
//create the term query object
Query query = new FuzzyQuery(term);
searcher.setDefaultFieldSortScoring(true, false);
//do the search
TopDocs hits = searcher.search(query,Sort.INDEXORDER);
long endTime = System.currentTimeMillis();
System.out.println(hits.totalHits +
" documents found. Time :" + (endTime - startTime) + "ms");
for(ScoreDoc scoreDoc : hits.scoreDocs) {
Document doc = searcher.getDocument(scoreDoc);
System.out.print("Score: "+ scoreDoc.score + " ");
System.out.println("File: "+ doc.get(LuceneConstants.FILE_PATH));
}
searcher.close();
}
}
Pembuatan Direktori Data & Indeks
Kami telah menggunakan 10 file teks dari record1.txt ke record10.txt yang berisi nama dan detail siswa lainnya dan meletakkannya di direktori E:\Lucene\Data. Uji Data . Jalur direktori indeks harus dibuat sebagai E: \ Lucene \ Index. Setelah menjalankan program pengindeksan di bab tersebutLucene - Indexing Process, Anda dapat melihat daftar file indeks yang dibuat di folder itu.
Menjalankan Program
Setelah Anda selesai dengan pembuatan sumber, data mentah, direktori data, direktori indeks dan indeks, Anda dapat mengkompilasi dan menjalankan program Anda. Untuk melakukan ini, Simpan fileLuceneTester.Java file tab aktif dan gunakan opsi Run yang tersedia di Eclipse IDE atau gunakan Ctrl + F11 untuk mengkompilasi dan menjalankan file LuceneTesteraplikasi. Jika aplikasi Anda berjalan dengan sukses, itu akan mencetak pesan berikut di konsol Eclipse IDE -
10 documents found. Time :31ms
Score: 1.3179655 File: E:\Lucene\Data\record3.txt
Score: 0.790779 File: E:\Lucene\Data\record1.txt
Score: 0.790779 File: E:\Lucene\Data\record2.txt
Score: 0.790779 File: E:\Lucene\Data\record4.txt
Score: 0.790779 File: E:\Lucene\Data\record5.txt
Score: 0.790779 File: E:\Lucene\Data\record6.txt
Score: 0.790779 File: E:\Lucene\Data\record7.txt
Score: 0.790779 File: E:\Lucene\Data\record8.txt
Score: 0.790779 File: E:\Lucene\Data\record9.txt
Score: 0.2635932 File: E:\Lucene\Data\record10.txt
10 documents found. Time :0ms
Score: 0.790779 File: E:\Lucene\Data\record1.txt
Score: 0.2635932 File: E:\Lucene\Data\record10.txt
Score: 0.790779 File: E:\Lucene\Data\record2.txt
Score: 1.3179655 File: E:\Lucene\Data\record3.txt
Score: 0.790779 File: E:\Lucene\Data\record4.txt
Score: 0.790779 File: E:\Lucene\Data\record5.txt
Score: 0.790779 File: E:\Lucene\Data\record6.txt
Score: 0.790779 File: E:\Lucene\Data\record7.txt
Score: 0.790779 File: E:\Lucene\Data\record8.txt
Score: 0.790779 File: E:\Lucene\Data\record9.txt