Apache Solr - Mengindeks Data

Secara umum, indexingadalah susunan dokumen atau (entitas lain) secara sistematis. Pengindeksan memungkinkan pengguna untuk menemukan informasi dalam dokumen.

  • Pengindeksan mengumpulkan, mengurai, dan menyimpan dokumen.

  • Pengindeksan dilakukan untuk meningkatkan kecepatan dan kinerja kueri penelusuran saat menemukan dokumen yang diperlukan.

Mengindeks di Apache Solr

Di Apache Solr, kita dapat mengindeks (menambah, menghapus, mengubah) berbagai format dokumen seperti xml, csv, pdf, dll. Kita dapat menambahkan data ke indeks Solr dengan beberapa cara.

Dalam bab ini, kita akan membahas pengindeksan -

  • Menggunakan Antarmuka Web Solr.
  • Menggunakan salah satu API klien seperti Java, Python, dll.
  • Menggunakan post tool.

Pada bab ini, kita akan membahas cara menambahkan data ke indeks Apache Solr menggunakan berbagai antarmuka (baris perintah, antarmuka web, dan API klien Java)

Menambahkan Dokumen menggunakan Post Command

Solr memiliki file post perintah di dalamnya bin/direktori. Dengan menggunakan perintah ini, Anda dapat mengindeks berbagai format file seperti JSON, XML, CSV di Apache Solr.

Jelajahi bin direktori Apache Solr dan jalankan file –h option dari perintah posting, seperti yang ditunjukkan pada blok kode berikut.

[Hadoop@localhost bin]$ cd $SOLR_HOME 
[Hadoop@localhost bin]$ ./post -h

Saat menjalankan perintah di atas, Anda akan mendapatkan daftar opsi post command, seperti yang ditunjukkan di bawah ini.

Usage: post -c <collection> [OPTIONS] <files|directories|urls|-d [".."]> 
or post –help  
   collection name defaults to DEFAULT_SOLR_COLLECTION if not specified  
OPTIONS 
======= 
Solr options: 
   -url <base Solr update URL> (overrides collection, host, and port) 
   -host <host> (default: localhost) 
   -p or -port <port> (default: 8983) 
   -commit yes|no (default: yes)  

Web crawl options:  
   -recursive <depth> (default: 1) 
   -delay <seconds> (default: 10)  

Directory crawl options: 
   -delay <seconds> (default: 0)  

stdin/args options: 
   -type <content/type> (default: application/xml)  

Other options: 
   -filetypes <type>[,<type>,...] (default:   
   xml,json,jsonl,csv,pdf,doc,docx,ppt,pptx,xls,xlsx,odt,odp,ods,ott,otp,ots,
   rtf,htm,html,txt,log) 
   -params "<key> = <value>[&<key> = <value>...]" (values must be 
   URL-encoded; these pass through to Solr update request) 
   -out yes|no (default: no; yes outputs Solr response to console) 
   -format Solr (sends application/json content as Solr commands 
   to /update instead of /update/json/docs)  

Examples: 
* JSON file:./post -c wizbang events.json 
* XML files: ./post -c records article*.xml 
* CSV file: ./post -c signals LATEST-signals.csv 
* Directory of files: ./post -c myfiles ~/Documents 
* Web crawl: ./post -c gettingstarted http://lucene.apache.org/Solr -recursive 1 -delay 1 
* Standard input (stdin): echo '{commit: {}}' | ./post -c my_collection -
type application/json -out yes –d 
* Data as string: ./post -c signals -type text/csv -out yes -d $'id,value\n1,0.47'

Contoh

Misalkan kita memiliki file bernama sample.csv dengan konten berikut (di bin direktori).

Identitas Siswa Nama depan Nama Lasst Telepon Kota
001 Rajiv Reddy 9848022337 Hyderabad
002 Siddharth Bhattacharya 9848022338 Kolkata
003 Rajesh Khanna 9848022339 Delhi
004 Preethi Agarwal 9848022330 Pune
005 Trupthi Mohanty 9848022336 Bhubaneshwar
006 Archana Mishra 9848022335 Chennai

Dataset di atas berisi detail pribadi seperti Student id, nama depan, nama belakang, telepon, dan kota. File CSV dari kumpulan data ditampilkan di bawah ini. Di sini, Anda harus mencatat bahwa Anda perlu menyebutkan skema, yang mendokumentasikan baris pertamanya.

id,    first_name,   last_name,   phone_no,      location 
001,   Pruthvi,      Reddy,       9848022337,    Hyderabad 
002,   kasyap,       Sastry,      9848022338,    Vishakapatnam 
003,   Rajesh,       Khanna,      9848022339,    Delhi 
004,   Preethi,      Agarwal,     9848022330,    Pune 
005,   Trupthi,      Mohanty,     9848022336,    Bhubaneshwar 
006,   Archana,      Mishra,      9848022335,    Chennai

Anda dapat mengindeks data ini di bawah inti bernama sample_Solr menggunakan post perintah sebagai berikut -

[Hadoop@localhost bin]$ ./post -c Solr_sample sample.csv

Saat menjalankan perintah di atas, dokumen yang diberikan diindeks di bawah inti yang ditentukan, menghasilkan keluaran berikut.

/home/Hadoop/java/bin/java -classpath /home/Hadoop/Solr/dist/Solr-core
6.2.0.jar -Dauto = yes -Dc = Solr_sample -Ddata = files 
org.apache.Solr.util.SimplePostTool sample.csv 
SimplePostTool version 5.0.0 
Posting files to [base] url http://localhost:8983/Solr/Solr_sample/update... 
Entering auto mode. File endings considered are 
xml,json,jsonl,csv,pdf,doc,docx,ppt,pptx,xls,xlsx,odt,odp,ods,ott,otp,ots,rtf,
htm,html,txt,log 
POSTing file sample.csv (text/csv) to [base] 
1 files indexed. 
COMMITting Solr index changes to 
http://localhost:8983/Solr/Solr_sample/update... 
Time spent: 0:00:00.228

Kunjungi beranda Solr Web UI menggunakan URL berikut -

http://localhost:8983/

Pilih inti Solr_sample. Secara default, penangan permintaan adalah/selectdan kuerinya adalah ":". Tanpa melakukan modifikasi apapun, klikExecuteQuery tombol di bagian bawah halaman.

Saat menjalankan kueri, Anda dapat mengamati konten dokumen CSV yang diindeks dalam format JSON (default), seperti yang ditunjukkan pada tangkapan layar berikut.

Note - Dengan cara yang sama, Anda dapat mengindeks format file lain seperti JSON, XML, CSV, dll.

Menambahkan Dokumen menggunakan Antarmuka Web Solr

Anda juga dapat mengindeks dokumen menggunakan antarmuka web yang disediakan oleh Solr. Mari kita lihat cara mengindeks dokumen JSON berikut.

[ 
   { 
      "id" : "001", 
      "name" : "Ram", 
      "age" : 53, 
      "Designation" : "Manager", 
      "Location" : "Hyderabad", 
   }, 
   { 
      "id" : "002", 
      "name" : "Robert", 
      "age" : 43, 
      "Designation" : "SR.Programmer", 
      "Location" : "Chennai", 
   }, 
   { 
      "id" : "003", 
      "name" : "Rahim", 
      "age" : 25, 
      "Designation" : "JR.Programmer", 
      "Location" : "Delhi", 
   } 
]

Langkah 1

Buka antarmuka web Solr menggunakan URL berikut -

http://localhost:8983/

Step 2

Pilih inti Solr_sample. Secara default, nilai bidang Request Handler, Common Within, Overwrite, dan Boost masing-masing adalah / update, 1000, true, dan 1.0, seperti yang ditunjukkan pada tangkapan layar berikut.

Sekarang, pilih format dokumen yang Anda inginkan dari JSON, CSV, XML, dll. Ketik dokumen yang akan diindeks di area teks dan klik Submit Document tombol, seperti yang ditunjukkan pada tangkapan layar berikut.

Menambahkan Dokumen menggunakan Java Client API

Berikut adalah program Java untuk menambahkan dokumen ke indeks Apache Solr. Simpan kode ini dalam file dengan namaAddingDocument.java.

import java.io.IOException;  

import org.apache.Solr.client.Solrj.SolrClient; 
import org.apache.Solr.client.Solrj.SolrServerException; 
import org.apache.Solr.client.Solrj.impl.HttpSolrClient; 
import org.apache.Solr.common.SolrInputDocument; 

public class AddingDocument { 
   public static void main(String args[]) throws Exception { 
      //Preparing the Solr client 
      String urlString = "http://localhost:8983/Solr/my_core"; 
      SolrClient Solr = new HttpSolrClient.Builder(urlString).build();   
      
      //Preparing the Solr document 
      SolrInputDocument doc = new SolrInputDocument(); 
   
      //Adding fields to the document 
      doc.addField("id", "003"); 
      doc.addField("name", "Rajaman"); 
      doc.addField("age","34"); 
      doc.addField("addr","vishakapatnam"); 
         
      //Adding the document to Solr 
      Solr.add(doc);         
         
      //Saving the changes 
      Solr.commit(); 
      System.out.println("Documents added"); 
   } 
}

Kompilasi kode di atas dengan menjalankan perintah berikut di terminal -

[Hadoop@localhost bin]$ javac AddingDocument 
[Hadoop@localhost bin]$ java AddingDocument

Saat menjalankan perintah di atas, Anda akan mendapatkan output berikut.

Documents added