Apache Solr - Mengindeks Data
Secara umum, indexingadalah susunan dokumen atau (entitas lain) secara sistematis. Pengindeksan memungkinkan pengguna untuk menemukan informasi dalam dokumen.
Pengindeksan mengumpulkan, mengurai, dan menyimpan dokumen.
Pengindeksan dilakukan untuk meningkatkan kecepatan dan kinerja kueri penelusuran saat menemukan dokumen yang diperlukan.
Mengindeks di Apache Solr
Di Apache Solr, kita dapat mengindeks (menambah, menghapus, mengubah) berbagai format dokumen seperti xml, csv, pdf, dll. Kita dapat menambahkan data ke indeks Solr dengan beberapa cara.
Dalam bab ini, kita akan membahas pengindeksan -
- Menggunakan Antarmuka Web Solr.
- Menggunakan salah satu API klien seperti Java, Python, dll.
- Menggunakan post tool.
Pada bab ini, kita akan membahas cara menambahkan data ke indeks Apache Solr menggunakan berbagai antarmuka (baris perintah, antarmuka web, dan API klien Java)
Menambahkan Dokumen menggunakan Post Command
Solr memiliki file post perintah di dalamnya bin/direktori. Dengan menggunakan perintah ini, Anda dapat mengindeks berbagai format file seperti JSON, XML, CSV di Apache Solr.
Jelajahi bin direktori Apache Solr dan jalankan file –h option dari perintah posting, seperti yang ditunjukkan pada blok kode berikut.
[Hadoop@localhost bin]$ cd $SOLR_HOME
[Hadoop@localhost bin]$ ./post -h
Saat menjalankan perintah di atas, Anda akan mendapatkan daftar opsi post command, seperti yang ditunjukkan di bawah ini.
Usage: post -c <collection> [OPTIONS] <files|directories|urls|-d [".."]>
or post –help
collection name defaults to DEFAULT_SOLR_COLLECTION if not specified
OPTIONS
=======
Solr options:
-url <base Solr update URL> (overrides collection, host, and port)
-host <host> (default: localhost)
-p or -port <port> (default: 8983)
-commit yes|no (default: yes)
Web crawl options:
-recursive <depth> (default: 1)
-delay <seconds> (default: 10)
Directory crawl options:
-delay <seconds> (default: 0)
stdin/args options:
-type <content/type> (default: application/xml)
Other options:
-filetypes <type>[,<type>,...] (default:
xml,json,jsonl,csv,pdf,doc,docx,ppt,pptx,xls,xlsx,odt,odp,ods,ott,otp,ots,
rtf,htm,html,txt,log)
-params "<key> = <value>[&<key> = <value>...]" (values must be
URL-encoded; these pass through to Solr update request)
-out yes|no (default: no; yes outputs Solr response to console)
-format Solr (sends application/json content as Solr commands
to /update instead of /update/json/docs)
Examples:
* JSON file:./post -c wizbang events.json
* XML files: ./post -c records article*.xml
* CSV file: ./post -c signals LATEST-signals.csv
* Directory of files: ./post -c myfiles ~/Documents
* Web crawl: ./post -c gettingstarted http://lucene.apache.org/Solr -recursive 1 -delay 1
* Standard input (stdin): echo '{commit: {}}' | ./post -c my_collection -
type application/json -out yes –d
* Data as string: ./post -c signals -type text/csv -out yes -d $'id,value\n1,0.47'
Contoh
Misalkan kita memiliki file bernama sample.csv dengan konten berikut (di bin direktori).
Identitas Siswa | Nama depan | Nama Lasst | Telepon | Kota |
---|---|---|---|---|
001 | Rajiv | Reddy | 9848022337 | Hyderabad |
002 | Siddharth | Bhattacharya | 9848022338 | Kolkata |
003 | Rajesh | Khanna | 9848022339 | Delhi |
004 | Preethi | Agarwal | 9848022330 | Pune |
005 | Trupthi | Mohanty | 9848022336 | Bhubaneshwar |
006 | Archana | Mishra | 9848022335 | Chennai |
Dataset di atas berisi detail pribadi seperti Student id, nama depan, nama belakang, telepon, dan kota. File CSV dari kumpulan data ditampilkan di bawah ini. Di sini, Anda harus mencatat bahwa Anda perlu menyebutkan skema, yang mendokumentasikan baris pertamanya.
id, first_name, last_name, phone_no, location
001, Pruthvi, Reddy, 9848022337, Hyderabad
002, kasyap, Sastry, 9848022338, Vishakapatnam
003, Rajesh, Khanna, 9848022339, Delhi
004, Preethi, Agarwal, 9848022330, Pune
005, Trupthi, Mohanty, 9848022336, Bhubaneshwar
006, Archana, Mishra, 9848022335, Chennai
Anda dapat mengindeks data ini di bawah inti bernama sample_Solr menggunakan post perintah sebagai berikut -
[Hadoop@localhost bin]$ ./post -c Solr_sample sample.csv
Saat menjalankan perintah di atas, dokumen yang diberikan diindeks di bawah inti yang ditentukan, menghasilkan keluaran berikut.
/home/Hadoop/java/bin/java -classpath /home/Hadoop/Solr/dist/Solr-core
6.2.0.jar -Dauto = yes -Dc = Solr_sample -Ddata = files
org.apache.Solr.util.SimplePostTool sample.csv
SimplePostTool version 5.0.0
Posting files to [base] url http://localhost:8983/Solr/Solr_sample/update...
Entering auto mode. File endings considered are
xml,json,jsonl,csv,pdf,doc,docx,ppt,pptx,xls,xlsx,odt,odp,ods,ott,otp,ots,rtf,
htm,html,txt,log
POSTing file sample.csv (text/csv) to [base]
1 files indexed.
COMMITting Solr index changes to
http://localhost:8983/Solr/Solr_sample/update...
Time spent: 0:00:00.228
Kunjungi beranda Solr Web UI menggunakan URL berikut -
http://localhost:8983/
Pilih inti Solr_sample. Secara default, penangan permintaan adalah/selectdan kuerinya adalah ":". Tanpa melakukan modifikasi apapun, klikExecuteQuery tombol di bagian bawah halaman.
Saat menjalankan kueri, Anda dapat mengamati konten dokumen CSV yang diindeks dalam format JSON (default), seperti yang ditunjukkan pada tangkapan layar berikut.
Note - Dengan cara yang sama, Anda dapat mengindeks format file lain seperti JSON, XML, CSV, dll.
Menambahkan Dokumen menggunakan Antarmuka Web Solr
Anda juga dapat mengindeks dokumen menggunakan antarmuka web yang disediakan oleh Solr. Mari kita lihat cara mengindeks dokumen JSON berikut.
[
{
"id" : "001",
"name" : "Ram",
"age" : 53,
"Designation" : "Manager",
"Location" : "Hyderabad",
},
{
"id" : "002",
"name" : "Robert",
"age" : 43,
"Designation" : "SR.Programmer",
"Location" : "Chennai",
},
{
"id" : "003",
"name" : "Rahim",
"age" : 25,
"Designation" : "JR.Programmer",
"Location" : "Delhi",
}
]
Langkah 1
Buka antarmuka web Solr menggunakan URL berikut -
http://localhost:8983/
Step 2
Pilih inti Solr_sample. Secara default, nilai bidang Request Handler, Common Within, Overwrite, dan Boost masing-masing adalah / update, 1000, true, dan 1.0, seperti yang ditunjukkan pada tangkapan layar berikut.
Sekarang, pilih format dokumen yang Anda inginkan dari JSON, CSV, XML, dll. Ketik dokumen yang akan diindeks di area teks dan klik Submit Document tombol, seperti yang ditunjukkan pada tangkapan layar berikut.
Menambahkan Dokumen menggunakan Java Client API
Berikut adalah program Java untuk menambahkan dokumen ke indeks Apache Solr. Simpan kode ini dalam file dengan namaAddingDocument.java.
import java.io.IOException;
import org.apache.Solr.client.Solrj.SolrClient;
import org.apache.Solr.client.Solrj.SolrServerException;
import org.apache.Solr.client.Solrj.impl.HttpSolrClient;
import org.apache.Solr.common.SolrInputDocument;
public class AddingDocument {
public static void main(String args[]) throws Exception {
//Preparing the Solr client
String urlString = "http://localhost:8983/Solr/my_core";
SolrClient Solr = new HttpSolrClient.Builder(urlString).build();
//Preparing the Solr document
SolrInputDocument doc = new SolrInputDocument();
//Adding fields to the document
doc.addField("id", "003");
doc.addField("name", "Rajaman");
doc.addField("age","34");
doc.addField("addr","vishakapatnam");
//Adding the document to Solr
Solr.add(doc);
//Saving the changes
Solr.commit();
System.out.println("Documents added");
}
}
Kompilasi kode di atas dengan menjalankan perintah berikut di terminal -
[Hadoop@localhost bin]$ javac AddingDocument
[Hadoop@localhost bin]$ java AddingDocument
Saat menjalankan perintah di atas, Anda akan mendapatkan output berikut.
Documents added