Apache Solr - Panduan Cepat

Solr adalah platform pencarian sumber terbuka yang digunakan untuk membangun search applications. Itu dibangun di atasLucene(mesin pencari teks lengkap). Solr siap untuk perusahaan, cepat dan sangat skalabel. Aplikasi yang dibangun menggunakan Solr canggih dan memberikan kinerja tinggi.

Dulu Yonik Seelyyang membuat Solr pada tahun 2004 untuk menambah kemampuan pencarian ke situs web perusahaan Jaringan CNET. Pada Jan 2006, itu dibuat sebagai proyek sumber terbuka di bawah Apache Software Foundation. Versi terbarunya, Solr 6.0, dirilis pada tahun 2016 dengan dukungan untuk eksekusi kueri SQL paralel.

Solr dapat digunakan bersama Hadoop. Karena Hadoop menangani data dalam jumlah besar, Solr membantu kami menemukan informasi yang diperlukan dari sumber yang begitu besar. Tidak hanya pencarian, Solr juga dapat digunakan untuk tujuan penyimpanan. Seperti database NoSQL lainnya, ini adalahnon-relational data storage dan processing technology.

Singkatnya, Solr adalah mesin pencari / penyimpanan yang terukur, siap untuk digunakan, dan dioptimalkan untuk mencari volume besar data teks-sentris.

Fitur Apache Solr

Solr adalah pembungkus API Java Lucene. Oleh karena itu, dengan menggunakan Solr, Anda dapat memanfaatkan semua fitur Lucene. Mari kita lihat beberapa fitur paling menonjol dari Solr -

  • Restful APIs- Untuk berkomunikasi dengan Solr, tidak wajib memiliki keahlian pemrograman Java. Sebaliknya, Anda dapat menggunakan layanan yang menenangkan untuk berkomunikasi dengannya. Kami memasukkan dokumen dalam Solr dalam format file seperti XML, JSON dan .CSV dan mendapatkan hasil dalam format file yang sama.

  • Full text search - Solr menyediakan semua kemampuan yang dibutuhkan untuk pencarian teks lengkap seperti token, frase, pemeriksa ejaan, wildcard, dan pelengkapan otomatis.

  • Enterprise ready - Sesuai dengan kebutuhan organisasi, Solr dapat digunakan di semua jenis sistem (besar atau kecil) seperti mandiri, terdistribusi, cloud, dll.

  • Flexible and Extensible - Dengan memperluas kelas-kelas Java dan mengkonfigurasi yang sesuai, kita dapat menyesuaikan komponen Solr dengan mudah.

  • NoSQL database - Solr juga dapat digunakan sebagai database NOSQL skala data besar di mana kami dapat mendistribusikan tugas pencarian di sepanjang cluster.

  • Admin Interface - Solr menyediakan antarmuka pengguna yang mudah digunakan, ramah pengguna, didukung fitur, yang dengannya kita dapat melakukan semua tugas yang memungkinkan seperti mengelola log, menambah, menghapus, memperbarui, dan mencari dokumen.

  • Highly Scalable - Saat menggunakan Solr dengan Hadoop, kita dapat mengukur kapasitasnya dengan menambahkan replika.

  • Text-Centric and Sorted by Relevance - Solr banyak digunakan untuk mencari dokumen teks dan hasilnya dikirimkan sesuai dengan relevansi dengan permintaan pengguna secara berurutan.

Tidak seperti Lucene, Anda tidak perlu memiliki keahlian pemrograman Java saat bekerja dengan Apache Solr. Ini menyediakan layanan siap-pakai yang luar biasa untuk membangun kotak telusur yang menampilkan pelengkapan otomatis, yang tidak disediakan Lucene. Menggunakan Solr, kita dapat menskalakan, mendistribusikan, dan mengelola indeks, untuk aplikasi skala besar (Big Data).

Lucene dalam Aplikasi Pencarian

Lucene adalah perpustakaan pencarian berbasis Java yang sederhana namun kuat. Ini dapat digunakan dalam aplikasi apa pun untuk menambah kemampuan pencarian. Lucene adalah pustaka berskala dan berkinerja tinggi yang digunakan untuk mengindeks dan menelusuri hampir semua jenis teks. Perpustakaan Lucene menyediakan operasi inti yang dibutuhkan oleh aplikasi pencarian apa pun, sepertiIndexing dan Searching.

Jika kami memiliki portal web dengan volume data yang besar, kemungkinan besar kami memerlukan mesin pencari di portal kami untuk mengekstrak informasi yang relevan dari kumpulan data yang sangat besar. Lucene bekerja sebagai jantung dari semua aplikasi pencarian dan menyediakan operasi penting yang berkaitan dengan pengindeksan dan pencarian.

Mesin Pencari mengacu pada database besar dari sumber daya Internet seperti halaman web, grup berita, program, gambar, dll. Ini membantu untuk menemukan informasi di World Wide Web.

Pengguna dapat mencari informasi dengan mengirimkan pertanyaan ke Search Engine dalam bentuk kata kunci atau frase. Mesin Pencari kemudian mencari di database-nya dan mengembalikan tautan yang relevan ke pengguna.

Komponen Mesin Pencari

Secara umum, ada tiga komponen dasar mesin pencari seperti yang tercantum di bawah ini -

  • Web Crawler - Perayap web juga dikenal sebagai spiders atau bots. Ini adalah komponen perangkat lunak yang melintasi web untuk mengumpulkan informasi.

  • Database- Semua informasi di Web disimpan dalam database. Mereka berisi sejumlah besar sumber daya web.

  • Search Interfaces- Komponen ini merupakan antarmuka antara pengguna dan database. Ini membantu pengguna untuk mencari melalui database.

Bagaimana Mesin Pencari Bekerja?

Setiap aplikasi pencarian diperlukan untuk melakukan beberapa atau semua operasi berikut.

Langkah Judul Deskripsi

1

Dapatkan Konten Mentah

Langkah pertama dari aplikasi pencarian apa pun adalah mengumpulkan konten target tempat pencarian akan dilakukan.

2

Bangun dokumen

Langkah selanjutnya adalah membangun dokumen dari konten mentah yang dapat dipahami dan ditafsirkan oleh aplikasi pencarian dengan mudah.

3

Analisis dokumen

Sebelum pengindeksan dapat dimulai, dokumen harus dianalisis.

4

Mengindeks dokumen

Setelah dokumen dibuat dan dianalisis, langkah selanjutnya adalah mengindeksnya sehingga dokumen ini dapat diambil berdasarkan kunci tertentu, bukan seluruh konten dokumen.

Pengindeksan mirip dengan indeks yang kita miliki di akhir buku di mana kata-kata umum ditunjukkan dengan nomor halamannya sehingga kata-kata ini dapat dilacak dengan cepat, daripada mencari di seluruh buku.

5

Antarmuka Pengguna untuk Pencarian

Setelah database indeks siap, maka aplikasi dapat melakukan operasi pencarian. Untuk membantu pengguna melakukan pencarian, aplikasi harus menyediakan antarmuka pengguna di mana pengguna dapat memasukkan teks dan memulai proses pencarian

6

Buat Kueri

Setelah pengguna membuat permintaan untuk mencari teks, aplikasi harus menyiapkan objek kueri menggunakan teks itu, yang kemudian dapat digunakan untuk menanyakan database indeks untuk mendapatkan detail yang relevan.

7

Kueri Pencarian

Menggunakan objek kueri, database indeks diperiksa untuk mendapatkan detail yang relevan dan dokumen konten.

8

Render Hasil

Setelah hasil yang diinginkan diterima, aplikasi harus memutuskan bagaimana menampilkan hasil kepada pengguna menggunakan Antarmuka Pengguna.

Perhatikan ilustrasi berikut. Ini menunjukkan pandangan keseluruhan tentang bagaimana Mesin Pencari berfungsi.

Selain operasi dasar ini, aplikasi pencarian juga dapat menyediakan antarmuka administrasi-pengguna untuk membantu administrator mengontrol tingkat pencarian berdasarkan profil pengguna. Analisis hasil pencarian adalah aspek penting dan lanjutan dari setiap aplikasi pencarian.

Pada bab ini, kita akan membahas cara mengatur Solr di lingkungan Windows. Untuk menginstal Solr di sistem Windows Anda, Anda perlu mengikuti langkah-langkah yang diberikan di bawah ini -

  • Kunjungi beranda Apache Solr dan klik tombol unduh.

  • Pilih salah satu mirror untuk mendapatkan indeks Apache Solr. Dari sana unduh file bernamaSolr-6.2.0.zip.

  • Pindahkan file dari downloads folder ke direktori yang diperlukan dan unzip.

Misalkan Anda mendownload Solr fie dan mengekstraknya ke drive C. Dalam kasus seperti itu, Anda dapat memulai Solr seperti yang ditunjukkan pada gambar layar berikut.

Untuk memverifikasi penginstalan, gunakan URL berikut di browser Anda.

http://localhost:8983/

Jika proses instalasi berhasil, maka Anda akan melihat dashboard dari user interface Apache Solr seperti gambar di bawah ini.

Mengatur Lingkungan Java

Kami juga dapat berkomunikasi dengan Apache Solr menggunakan pustaka Java; tapi sebelum mengakses Solr menggunakan Java API, Anda perlu menyetel classpath untuk library tersebut.

Mengatur Classpath

Mengatur classpath ke perpustakaan Solr di .bashrcmengajukan. Buka.bashrc di salah satu editor seperti yang ditunjukkan di bawah ini.

$ gedit ~/.bashrc

Setel jalur kelas untuk perpustakaan Solr (lib folder di HBase) seperti yang ditunjukkan di bawah ini.

export CLASSPATH = $CLASSPATH://home/hadoop/Solr/lib/*

Ini untuk mencegah pengecualian "kelas tidak ditemukan" saat mengakses HBase menggunakan Java API.

Solr dapat digunakan bersama Hadoop. Karena Hadoop menangani data dalam jumlah besar, Solr membantu kami menemukan informasi yang diperlukan dari sumber yang begitu besar. Di bagian ini, beri tahu kami bagaimana Anda dapat menginstal Hadoop di sistem Anda.

Mendownload Hadoop

Diberikan di bawah ini adalah langkah-langkah yang harus diikuti untuk mengunduh Hadoop ke sistem Anda.

Step 1- Buka beranda Hadoop. Anda dapat menggunakan tautan - www.hadoop.apache.org/ . Klik link tersebutReleases, seperti yang disorot di tangkapan layar berikut.

Ini akan mengarahkan Anda ke Apache Hadoop Releases halaman yang berisi link untuk mirror file sumber dan biner dari berbagai versi Hadoop sebagai berikut -

Step 2 - Pilih versi terbaru Hadoop (dalam tutorial kami, ini adalah 2.6.4) dan klik binary link. Ini akan membawa Anda ke halaman di mana mirror untuk biner Hadoop tersedia. Klik salah satu mirror ini untuk mendownload Hadoop.

Unduh Hadoop dari Command Prompt

Buka terminal Linux dan login sebagai pengguna super.

$ su 
password:

Buka direktori tempat Anda perlu menginstal Hadoop, dan simpan file di sana menggunakan tautan yang disalin sebelumnya, seperti yang ditunjukkan pada blok kode berikut.

# cd /usr/local 
# wget http://redrockdigimark.com/apachemirror/hadoop/common/hadoop-
2.6.4/hadoop-2.6.4.tar.gz

Setelah mengunduh Hadoop, ekstrak menggunakan perintah berikut.

# tar zxvf hadoop-2.6.4.tar.gz  
# mkdir hadoop 
# mv hadoop-2.6.4/* to hadoop/ 
# exit

Memasang Hadoop

Ikuti langkah-langkah yang diberikan di bawah ini untuk menginstal Hadoop dalam mode pseudo-didistribusikan.

Langkah 1: Menyiapkan Hadoop

Anda dapat menyetel variabel lingkungan Hadoop dengan menambahkan perintah berikut ke ~/.bashrc mengajukan.

export HADOOP_HOME = /usr/local/hadoop export
HADOOP_MAPRED_HOME = $HADOOP_HOME export
HADOOP_COMMON_HOME = $HADOOP_HOME export 
HADOOP_HDFS_HOME = $HADOOP_HOME export 
YARN_HOME = $HADOOP_HOME 
export HADOOP_COMMON_LIB_NATIVE_DIR = $HADOOP_HOME/lib/native 
export PATH = $PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin 
export HADOOP_INSTALL = $HADOOP_HOME

Selanjutnya, terapkan semua perubahan ke dalam sistem yang sedang berjalan.

$ source ~/.bashrc

Langkah 2: Konfigurasi Hadoop

Anda dapat menemukan semua file konfigurasi Hadoop di lokasi "$ HADOOP_HOME / etc / hadoop". Diperlukan untuk membuat perubahan pada file konfigurasi tersebut sesuai dengan infrastruktur Hadoop Anda.

$ cd $HADOOP_HOME/etc/hadoop

Untuk mengembangkan program Hadoop di Java, Anda harus mengatur ulang variabel lingkungan Java di hadoop-env.sh mengajukan dengan mengganti JAVA_HOME nilai dengan lokasi Java di sistem Anda.

export JAVA_HOME = /usr/local/jdk1.7.0_71

Berikut ini adalah daftar file yang harus Anda edit untuk mengkonfigurasi Hadoop -

  • core-site.xml
  • hdfs-site.xml
  • yarn-site.xml
  • mapred-site.xml

core-site.xml

Itu core-site.xml file berisi informasi seperti nomor port yang digunakan untuk instance Hadoop, memori yang dialokasikan untuk sistem file, batas memori untuk menyimpan data, dan ukuran buffer Baca / Tulis.

Buka core-site.xml dan tambahkan properti berikut di dalam tag <configuration>, </configuration>.

<configuration> 
   <property>     
      <name>fs.default.name</name>     
      <value>hdfs://localhost:9000</value>   
   </property> 
</configuration>

hdfs-site.xml

Itu hdfs-site.xml file berisi informasi seperti nilai data replikasi, namenode jalan, dan datanodejalur sistem file lokal Anda. Artinya tempat di mana Anda ingin menyimpan infrastruktur Hadoop.

Mari kita asumsikan data berikut.

dfs.replication (data replication value) = 1  

(In the below given path /hadoop/ is the user name. 
hadoopinfra/hdfs/namenode is the directory created by hdfs file system.) 
namenode path = //home/hadoop/hadoopinfra/hdfs/namenode  

(hadoopinfra/hdfs/datanode is the directory created by hdfs file system.) 
datanode path = //home/hadoop/hadoopinfra/hdfs/datanode

Buka file ini dan tambahkan properti berikut di dalam tag <configuration>, </configuration>.

<configuration> 
   <property>     
      <name>dfs.replication</name>     
      <value>1</value>   
   </property>  
   
   <property>     
      <name>dfs.name.dir</name>     
      <value>file:///home/hadoop/hadoopinfra/hdfs/namenode</value>   
   </property>  
   
   <property>     
      <name>dfs.data.dir</name>     
      <value>file:///home/hadoop/hadoopinfra/hdfs/datanode</value>   
   </property> 
</configuration>

Note - Dalam file di atas, semua nilai properti ditentukan pengguna dan Anda dapat membuat perubahan sesuai dengan infrastruktur Hadoop Anda.

yarn-site.xml

File ini digunakan untuk mengkonfigurasi benang menjadi Hadoop. Buka file yarn-site.xml dan tambahkan properti berikut di antara tag <configuration>, </configuration> di file ini.

<configuration> 
   <property>     
      <name>yarn.nodemanager.aux-services</name>     
      <value>mapreduce_shuffle</value>   
   </property> 
</configuration>

mapred-site.xml

File ini digunakan untuk menentukan kerangka MapReduce mana yang kita gunakan. Secara default, Hadoop berisi template benang-situs.xml. Pertama-tama, Anda harus menyalin file darimapred-site,xml.template untuk mapred-site.xml file menggunakan perintah berikut.

$ cp mapred-site.xml.template mapred-site.xml

Buka mapred-site.xml file dan tambahkan properti berikut di dalam tag <configuration>, </configuration>.

<configuration> 
   <property>     
      <name>mapreduce.framework.name</name>     
      <value>yarn</value>   
   </property> 
</configuration>

Memverifikasi Instalasi Hadoop

Langkah-langkah berikut digunakan untuk memverifikasi penginstalan Hadoop.

Langkah 1: Penyiapan Node Nama

Siapkan namenode menggunakan perintah "hdfs namenode –format" sebagai berikut.

$ cd ~ 
$ hdfs namenode -format

Hasil yang diharapkan adalah sebagai berikut.

10/24/14 21:30:55 INFO namenode.NameNode: STARTUP_MSG: 
/************************************************************ 
STARTUP_MSG: Starting NameNode 
STARTUP_MSG:   host = localhost/192.168.1.11 
STARTUP_MSG:   args = [-format] STARTUP_MSG:   version = 2.6.4 
... 
... 
10/24/14 21:30:56 INFO common.Storage: Storage directory 
/home/hadoop/hadoopinfra/hdfs/namenode has been successfully formatted. 
10/24/14 21:30:56 INFO namenode.NNStorageRetentionManager: Going to retain 1 
images with txid >= 0 
10/24/14 21:30:56 INFO util.ExitUtil: Exiting with status 0 
10/24/14 21:30:56 INFO namenode.NameNode: SHUTDOWN_MSG: 
/************************************************************ 
SHUTDOWN_MSG: Shutting down NameNode at localhost/192.168.1.11 
************************************************************/

Langkah 2: Memverifikasi Hadoop dfs

Perintah berikut digunakan untuk memulai Hadoop dfs. Menjalankan perintah ini akan memulai sistem file Hadoop Anda.

$ start-dfs.sh

Output yang diharapkan adalah sebagai berikut -

10/24/14 21:37:56 
Starting namenodes on [localhost] 
localhost: starting namenode, logging to /home/hadoop/hadoop-2.6.4/logs/hadoop-
hadoop-namenode-localhost.out 
localhost: starting datanode, logging to /home/hadoop/hadoop-2.6.4/logs/hadoop-
hadoop-datanode-localhost.out 
Starting secondary namenodes [0.0.0.0]

Langkah 3: Memverifikasi Skrip Benang

Perintah berikut digunakan untuk memulai skrip Yarn. Menjalankan perintah ini akan memulai iblis Benang Anda.

$ start-yarn.sh

Output yang diharapkan sebagai berikut -

starting yarn daemons 
starting resourcemanager, logging to /home/hadoop/hadoop-2.6.4/logs/yarn-
hadoop-resourcemanager-localhost.out 
localhost: starting nodemanager, logging to /home/hadoop/hadoop-
2.6.4/logs/yarn-hadoop-nodemanager-localhost.out

Langkah 4: Mengakses Hadoop di Browser

Nomor port default untuk mengakses Hadoop adalah 50070. Gunakan URL berikut untuk mendapatkan layanan Hadoop di browser.

http://localhost:50070/

Menginstal Solr di Hadoop

Ikuti langkah-langkah yang diberikan di bawah ini untuk mengunduh dan menginstal Solr.

Langkah 1

Buka beranda Apache Solr dengan mengklik tautan berikut - https://lucene.apache.org/solr/

Langkah 2

Klik download button(disorot pada tangkapan layar di atas). Saat mengklik, Anda akan diarahkan ke halaman di mana Anda memiliki berbagai mirror Apache Solr. Pilih cermin dan klik di atasnya, yang akan mengarahkan Anda ke halaman tempat Anda dapat mengunduh file sumber dan biner Apache Solr, seperti yang ditunjukkan pada tangkapan layar berikut.

LANGKAH 3

Saat mengklik, folder bernama Solr-6.2.0.tqzakan diunduh di folder unduhan sistem Anda. Ekstrak konten folder yang diunduh.

LANGKAH 4

Buat folder bernama Solr di direktori home Hadoop dan pindahkan konten folder yang diekstrak ke sana, seperti yang ditunjukkan di bawah ini.

$ mkdir Solr 
$ cd Downloads 
$ mv Solr-6.2.0 /home/Hadoop/

Verifikasi

Jelajahi bin folder dari direktori Home Solr dan verifikasi penginstalan menggunakan version opsi, seperti yang ditunjukkan pada blok kode berikut.

$ cd bin/ 
$ ./Solr version 
6.2.0

Setting rumah dan jalan setapak

Buka .bashrc file menggunakan perintah berikut -

[Hadoop@localhost ~]$ source ~/.bashrc

Sekarang atur direktori home dan path untuk Apache Solr sebagai berikut -

export SOLR_HOME = /home/Hadoop/Solr  
export PATH = $PATH:/$SOLR_HOME/bin/

Buka terminal dan jalankan perintah berikut -

[Hadoop@localhost Solr]$ source ~/.bashrc

Sekarang, Anda dapat menjalankan perintah Solr dari direktori manapun.

Pada bab ini, kita akan membahas arsitektur Apache Solr. Ilustrasi berikut menunjukkan diagram blok dari arsitektur Apache Solr.

Arsitektur Solr ─ Blok Bangunan

Berikut ini adalah blok bangunan utama (komponen) Apache Solr -

  • Request Handler- Permintaan yang kami kirim ke Apache Solr diproses oleh penangan permintaan ini. Permintaan tersebut mungkin permintaan kueri atau permintaan pembaruan indeks. Berdasarkan kebutuhan kita, kita perlu memilih penangan permintaan. Untuk meneruskan permintaan ke Solr, kita biasanya akan memetakan handler ke titik akhir URI tertentu dan permintaan yang ditentukan akan dilayani olehnya.

  • Search Component- Komponen pencarian adalah jenis (fitur) pencarian yang disediakan di Apache Solr. Mungkin pemeriksaan ejaan, kueri, faceting, penyorotan klik, dll. Komponen penelusuran ini terdaftar sebagaisearch handlers. Beberapa komponen dapat didaftarkan ke penangan pencarian.

  • Query Parser- Parser kueri Apache Solr mem-parsing kueri yang kami teruskan ke Solr dan memverifikasi kueri untuk kesalahan sintaksis. Setelah mengurai kueri, itu menerjemahkannya ke format yang dimengerti Lucene.

  • Response Writer- Penulis tanggapan di Apache Solr adalah komponen yang menghasilkan keluaran yang diformat untuk kueri pengguna. Solr mendukung format respons seperti XML, JSON, CSV, dll. Kami memiliki penulis respons yang berbeda untuk setiap jenis respons.

  • Analyzer/tokenizer- Lucene mengenali data dalam bentuk token. Apache Solr menganalisis konten, membaginya menjadi token, dan meneruskan token ini ke Lucene. Penganalisis di Apache Solr memeriksa teks kolom dan menghasilkan aliran token. Tokenizer memecah aliran token yang disiapkan oleh penganalisis menjadi token.

  • Update Request Processor - Setiap kali kami mengirim permintaan pembaruan ke Apache Solr, permintaan tersebut dijalankan melalui sekumpulan plugin (tanda tangan, logging, pengindeksan), yang secara kolektif dikenal sebagai update request processor. Prosesor ini bertanggung jawab untuk modifikasi seperti menjatuhkan bidang, menambahkan bidang, dll.

Dalam bab ini, kita akan mencoba memahami arti sebenarnya dari beberapa istilah yang sering digunakan saat mengerjakan Solr.

Terminologi Umum

Berikut ini adalah daftar istilah umum yang digunakan di semua jenis penyiapan Solr -

  • Instance - Seperti a tomcat instance atau a jetty instance, istilah ini mengacu pada server aplikasi, yang berjalan di dalam JVM. Direktori home Solr menyediakan referensi ke masing-masing instance Solr ini, di mana satu atau lebih inti dapat dikonfigurasi untuk dijalankan di setiap instance.

  • Core - Saat menjalankan beberapa indeks dalam aplikasi Anda, Anda dapat memiliki beberapa inti di setiap instance, alih-alih beberapa instance, masing-masing memiliki satu inti.

  • Home - Istilah $ SOLR_HOME mengacu pada direktori home yang memiliki semua informasi mengenai inti dan indeks, konfigurasi, dan dependensinya.

  • Shard - Dalam lingkungan terdistribusi, data dipartisi antara beberapa contoh Solr, di mana setiap potongan data dapat disebut sebagai a Shard. Ini berisi subset dari keseluruhan indeks.

Terminologi SolrCloud

Di bab sebelumnya, kami membahas cara menginstal Apache Solr dalam mode mandiri. Perhatikan bahwa kita juga dapat menginstal Solr dalam mode terdistribusi (lingkungan cloud) di mana Solr diinstal dalam pola master-slave. Dalam mode terdistribusi, indeks dibuat di server master dan direplikasi ke satu atau lebih server budak.

Istilah kunci yang terkait dengan Solr Cloud adalah sebagai berikut -

  • Node - Di awan Solr, setiap contoh Solr dianggap sebagai file node.

  • Cluster - Semua node lingkungan digabungkan bersama-sama membuat a cluster.

  • Collection - Sebuah cluster memiliki indeks logis yang dikenal sebagai file collection.

  • Shard - Pecahan adalah bagian dari koleksi yang memiliki satu atau lebih replika indeks.

  • Replica - Dalam Solr Core, salinan pecahan yang berjalan di node dikenal sebagai a replica.

  • Leader - Ini juga merupakan replika pecahan, yang mendistribusikan permintaan Cloud Solr ke replika yang tersisa.

  • Zookeeper - Ini adalah proyek Apache yang digunakan Solr Cloud untuk konfigurasi dan koordinasi terpusat, untuk mengelola cluster dan memilih pemimpin.

File Konfigurasi

File konfigurasi utama di Apache Solr adalah sebagai berikut -

  • Solr.xml- Ini adalah file di direktori $ SOLR_HOME yang berisi informasi terkait Solr Cloud. Untuk memuat inti, Solr mengacu pada file ini, yang membantu dalam mengidentifikasi mereka.

  • Solrconfig.xml - File ini berisi definisi dan konfigurasi khusus inti yang terkait dengan penanganan permintaan dan pemformatan respons, bersama dengan pengindeksan, konfigurasi, pengelolaan memori, dan pembuatan commit.

  • Schema.xml - File ini berisi seluruh skema bersama dengan bidang dan jenis bidang.

  • Core.properties- File ini berisi konfigurasi khusus untuk inti. Itu dirujuk untukcore discovery, karena berisi nama inti dan jalur direktori data. Ini dapat digunakan di direktori manapun, yang kemudian akan diperlakukan sebagai filecore directory.

Memulai Solr

Setelah menginstal Solr, telusuri file bin folder di direktori home Solr dan mulai Solr menggunakan perintah berikut.

[Hadoop@localhost ~]$ cd   
[Hadoop@localhost ~]$ cd Solr/ 
[Hadoop@localhost Solr]$ cd bin/ 
[Hadoop@localhost bin]$ ./Solr start

Perintah ini memulai Solr di latar belakang, mendengarkan pada port 8983 dengan menampilkan pesan berikut.

Waiting up to 30 seconds to see Solr running on port 8983 [\]   
Started Solr server on port 8983 (pid = 6035). Happy searching!

Memulai Solr di latar depan

Jika Anda mulai Solr menggunakan startperintah, maka Solr akan mulai di latar belakang. Sebagai gantinya, Anda bisa memulai Solr di latar depan menggunakan file–f option.

[Hadoop@localhost bin]$ ./Solr start –f  

5823 INFO  (coreLoadExecutor-6-thread-2) [   ] o.a.s.c.SolrResourceLoader 
Adding 'file:/home/Hadoop/Solr/contrib/extraction/lib/xmlbeans-2.6.0.jar' to 
classloader 
5823 INFO  (coreLoadExecutor-6-thread-2) [   ] o.a.s.c.SolrResourceLoader 
Adding 'file:/home/Hadoop/Solr/dist/Solr-cell-6.2.0.jar' to classloader 
5823 INFO  (coreLoadExecutor-6-thread-2) [   ] o.a.s.c.SolrResourceLoader 
Adding 'file:/home/Hadoop/Solr/contrib/clustering/lib/carrot2-guava-18.0.jar' 
to classloader 
5823 INFO  (coreLoadExecutor-6-thread-2) [   ] o.a.s.c.SolrResourceLoader 
Adding 'file:/home/Hadoop/Solr/contrib/clustering/lib/attributes-binder1.3.1.jar' 
to classloader 
5823 INFO  (coreLoadExecutor-6-thread-2) [   ] o.a.s.c.SolrResourceLoader 
Adding 'file:/home/Hadoop/Solr/contrib/clustering/lib/simple-xml-2.7.1.jar' 
to classloader 
…………………………………………………………………………………………………………………………………………………………………………………………………………… 
…………………………………………………………………………………………………………………………………………………………………………………………………. 
12901 INFO  (coreLoadExecutor-6-thread-1) [   x:Solr_sample] o.a.s.u.UpdateLog 
Took 24.0ms to seed version buckets with highest version 1546058939881226240 12902 
INFO  (coreLoadExecutor-6-thread-1) [   x:Solr_sample] 
o.a.s.c.CoreContainer registering core: Solr_sample 
12904 INFO  (coreLoadExecutor-6-thread-2) [   x:my_core] o.a.s.u.UpdateLog Took 
16.0ms to seed version buckets with highest version 1546058939894857728 
12904 INFO  (coreLoadExecutor-6-thread-2) [   x:my_core] o.a.s.c.CoreContainer 
registering core: my_core

Memulai Solr di port lain

Menggunakan –p option dari start perintah, kita dapat memulai Solr di port lain, seperti yang ditunjukkan pada blok kode berikut.

[Hadoop@localhost bin]$ ./Solr start -p 8984  

Waiting up to 30 seconds to see Solr running on port 8984 [-]   
Started Solr server on port 8984 (pid = 10137). Happy searching!

Menghentikan Solr

Anda dapat menghentikan Solr menggunakan stop perintah.

$ ./Solr stop

Perintah ini menghentikan Solr, menampilkan pesan seperti yang ditunjukkan di bawah ini.

Sending stop command to Solr running on port 8983 ... waiting 5 seconds to 
allow Jetty process 6035 to stop gracefully.

Memulai ulang Solr

Itu restartperintah Solr menghentikan Solr selama 5 detik dan memulainya lagi. Anda dapat memulai ulang Solr menggunakan perintah berikut -

./Solr restart

Perintah ini memulai ulang Solr, menampilkan pesan berikut -

Sending stop command to Solr running on port 8983 ... waiting 5 seconds to 
allow Jetty process 6671 to stop gracefully. 
Waiting up to 30 seconds to see Solr running on port 8983 [|]  [/]   
Started Solr server on port 8983 (pid = 6906). Happy searching!

Solr ─ bantu Perintah

Itu help perintah Solr dapat digunakan untuk memeriksa penggunaan prompt Solr dan opsinya.

[Hadoop@localhost bin]$ ./Solr -help  

Usage: Solr COMMAND OPTIONS        
   where COMMAND is one of: start, stop, restart, status, healthcheck, 
create, create_core, create_collection, delete, version, zk  
Standalone server example (start Solr running in the background on port 8984):  
   ./Solr start -p 8984  
SolrCloud example (start Solr running in SolrCloud mode using localhost:2181 
to connect to Zookeeper, with 1g max heap size and remote Java debug options enabled):  
   ./Solr start -c -m 1g -z localhost:2181 -a "-Xdebug -
   Xrunjdwp:transport = dt_socket,server = y,suspend = n,address = 1044"  
Pass -help after any COMMAND to see command-specific usage information,   
such as: ./Solr start -help or ./Solr stop -help

Solr ─ Perintah status

Ini statusPerintah Solr dapat digunakan untuk mencari dan mengetahui contoh Solr yang sedang berjalan di komputer Anda. Ini dapat memberi Anda informasi tentang instans Solr seperti versinya, penggunaan memori, dll.

Anda dapat memeriksa status contoh Solr, menggunakan perintah status sebagai berikut -

[Hadoop@localhost bin]$ ./Solr status

Saat menjalankan, perintah di atas menampilkan status Solr sebagai berikut -

Found 1 Solr nodes:   

Solr process 6906 running on port 8983 {   
   "Solr_home":"/home/Hadoop/Solr/server/Solr",   
   "version":"6.2.0 764d0f19151dbff6f5fcd9fc4b2682cf934590c5 - 
   mike - 2016-08-20 05:41:37",   
   "startTime":"2016-09-20T06:00:02.877Z",   
   "uptime":"0 days, 0 hours, 5 minutes, 14 seconds",   
   "memory":"30.6 MB (%6.2) of 490.7 MB"
}

Admin Solr

Setelah memulai Apache Solr, Anda dapat mengunjungi beranda file Solr web interface dengan menggunakan URL berikut.

Localhost:8983/Solr/

Antarmuka Admin Solr muncul sebagai berikut -

Solr Core adalah contoh berjalan dari indeks Lucene yang berisi semua file konfigurasi Solr yang diperlukan untuk menggunakannya. Kita perlu membuat Solr Core untuk melakukan operasi seperti pengindeksan dan analisis.

Aplikasi Solr mungkin berisi satu atau beberapa inti. Jika perlu, dua inti dalam aplikasi Solr dapat saling berkomunikasi.

Membuat Inti

Setelah menginstal dan memulai Solr, Anda dapat terhubung ke klien (antarmuka web) Solr.

Seperti yang disorot pada tangkapan layar berikut, awalnya tidak ada inti di Apache Solr. Sekarang, kita akan melihat cara membuat inti di Solr.

Menggunakan perintah create

Salah satu cara untuk membuat inti adalah dengan membuat file schema-less core menggunakan create perintah, seperti yang ditunjukkan di bawah ini -

[Hadoop@localhost bin]$ ./Solr create -c Solr_sample

Di sini, kami mencoba membuat inti bernama Solr_sampledi Apache Solr. Perintah ini membuat inti yang menampilkan pesan berikut.

Copying configuration to new core instance directory:
/home/Hadoop/Solr/server/Solr/Solr_sample 

Creating new core 'Solr_sample' using command: 
http://localhost:8983/Solr/admin/cores?action=CREATE&name=Solr_sample&instanceD 
ir = Solr_sample {  
   "responseHeader":{    
      "status":0,    
      "QTime":11550
   },  
   "core":"Solr_sample" 
}

Anda dapat membuat banyak inti di Solr. Di sisi kiri Admin Solr, Anda dapat melihat filecore selector di mana Anda dapat memilih inti yang baru dibuat, seperti yang ditunjukkan pada tangkapan layar berikut.

Menggunakan perintah create_core

Alternatifnya, Anda dapat membuat inti menggunakan create_coreperintah. Perintah ini memiliki opsi berikut -

–C core_name Nama inti yang ingin Anda buat
-p port_name Pelabuhan tempat Anda ingin membuat intinya
-d conf_dir Direktori konfigurasi port

Mari kita lihat bagaimana Anda dapat menggunakan create_coreperintah. Di sini, kami akan mencoba membuat inti bernamamy_core.

[Hadoop@localhost bin]$ ./Solr create_core -c my_core

Saat menjalankan, perintah di atas membuat inti yang menampilkan pesan berikut -

Copying configuration to new core instance directory: 
/home/Hadoop/Solr/server/Solr/my_core  

Creating new core 'my_core' using command: 
http://localhost:8983/Solr/admin/cores?action=CREATE&name=my_core&instanceD
ir = my_core {  
   "responseHeader":{  
      "status":0,  
      "QTime":1346
   },  
   "core":"my_core" 
}

Menghapus Inti

Anda dapat menghapus inti menggunakan deleteperintah Apache Solr. Misalkan kita memiliki inti bernamamy_core di Solr, seperti yang ditunjukkan pada gambar layar berikut.

Anda dapat menghapus inti ini menggunakan delete perintah dengan meneruskan nama inti ke perintah ini sebagai berikut -

[Hadoop@localhost bin]$ ./Solr delete -c my_core

Saat menjalankan perintah di atas, inti yang ditentukan akan dihapus dan menampilkan pesan berikut.

Deleting core 'my_core' using command: 
http://localhost:8983/Solr/admin/cores?action=UNLOAD&core = my_core&deleteIndex
   = true&deleteDataDir = true&deleteInstanceDir = true  {
   
   "responseHeader" :{    
      "status":0,    
      "QTime":170
   }
}

Anda dapat membuka antarmuka web Solr untuk memverifikasi apakah inti telah dihapus atau tidak.

Secara umum, indexingadalah susunan dokumen atau (entitas lain) secara sistematis. Pengindeksan memungkinkan pengguna untuk menemukan informasi dalam dokumen.

  • Pengindeksan mengumpulkan, mengurai, dan menyimpan dokumen.

  • Pengindeksan dilakukan untuk meningkatkan kecepatan dan kinerja kueri penelusuran saat menemukan dokumen yang diperlukan.

Mengindeks di Apache Solr

Di Apache Solr, kita dapat mengindeks (menambah, menghapus, memodifikasi) berbagai format dokumen seperti xml, csv, pdf, dll. Kita dapat menambahkan data ke indeks Solr dengan beberapa cara.

Dalam bab ini, kita akan membahas pengindeksan -

  • Menggunakan Antarmuka Web Solr.
  • Menggunakan salah satu API klien seperti Java, Python, dll.
  • Menggunakan post tool.

Pada bab ini, kita akan membahas cara menambahkan data ke indeks Apache Solr menggunakan berbagai antarmuka (baris perintah, antarmuka web, dan API klien Java)

Menambahkan Dokumen menggunakan Post Command

Solr memiliki file post perintah di dalamnya bin/direktori. Dengan menggunakan perintah ini, Anda dapat mengindeks berbagai format file seperti JSON, XML, CSV di Apache Solr.

Jelajahi bin direktori Apache Solr dan jalankan file –h option dari perintah posting, seperti yang ditunjukkan pada blok kode berikut.

[Hadoop@localhost bin]$ cd $SOLR_HOME 
[Hadoop@localhost bin]$ ./post -h

Saat menjalankan perintah di atas, Anda akan mendapatkan daftar opsi post command, seperti yang ditunjukkan di bawah ini.

Usage: post -c <collection> [OPTIONS] <files|directories|urls|-d [".."]> 
or post –help  
   collection name defaults to DEFAULT_SOLR_COLLECTION if not specified  
OPTIONS 
======= 
Solr options: 
   -url <base Solr update URL> (overrides collection, host, and port) 
   -host <host> (default: localhost) 
   -p or -port <port> (default: 8983) 
   -commit yes|no (default: yes)  

Web crawl options:  
   -recursive <depth> (default: 1) 
   -delay <seconds> (default: 10)  

Directory crawl options: 
   -delay <seconds> (default: 0)  

stdin/args options: 
   -type <content/type> (default: application/xml)  

Other options: 
   -filetypes <type>[,<type>,...] (default:   
   xml,json,jsonl,csv,pdf,doc,docx,ppt,pptx,xls,xlsx,odt,odp,ods,ott,otp,ots,
   rtf,htm,html,txt,log) 
   -params "<key> = <value>[&<key> = <value>...]" (values must be 
   URL-encoded; these pass through to Solr update request) 
   -out yes|no (default: no; yes outputs Solr response to console) 
   -format Solr (sends application/json content as Solr commands 
   to /update instead of /update/json/docs)  

Examples: 
* JSON file:./post -c wizbang events.json 
* XML files: ./post -c records article*.xml 
* CSV file: ./post -c signals LATEST-signals.csv 
* Directory of files: ./post -c myfiles ~/Documents 
* Web crawl: ./post -c gettingstarted http://lucene.apache.org/Solr -recursive 1 -delay 1 
* Standard input (stdin): echo '{commit: {}}' | ./post -c my_collection -
type application/json -out yes –d 
* Data as string: ./post -c signals -type text/csv -out yes -d $'id,value\n1,0.47'

Contoh

Misalkan kita memiliki file bernama sample.csv dengan konten berikut (di bin direktori).

Identitas Siswa Nama depan Nama Lasst Telepon Kota
001 Rajiv Reddy 9848022337 Hyderabad
002 Siddharth Bhattacharya 9848022338 Kolkata
003 Rajesh Khanna 9848022339 Delhi
004 Preethi Agarwal 9848022330 Pune
005 Trupthi Mohanty 9848022336 Bhubaneshwar
006 Archana Mishra 9848022335 Chennai

Dataset di atas berisi detail pribadi seperti Student id, nama depan, nama belakang, telepon, dan kota. File CSV dari kumpulan data ditampilkan di bawah ini. Di sini, Anda harus mencatat bahwa Anda perlu menyebutkan skema, yang mendokumentasikan baris pertamanya.

id,    first_name,   last_name,   phone_no,      location 
001,   Pruthvi,      Reddy,       9848022337,    Hyderabad 
002,   kasyap,       Sastry,      9848022338,    Vishakapatnam 
003,   Rajesh,       Khanna,      9848022339,    Delhi 
004,   Preethi,      Agarwal,     9848022330,    Pune 
005,   Trupthi,      Mohanty,     9848022336,    Bhubaneshwar 
006,   Archana,      Mishra,      9848022335,    Chennai

Anda dapat mengindeks data ini di bawah inti bernama sample_Solr menggunakan post perintah sebagai berikut -

[Hadoop@localhost bin]$ ./post -c Solr_sample sample.csv

Saat menjalankan perintah di atas, dokumen yang diberikan diindeks di bawah inti yang ditentukan, menghasilkan keluaran berikut.

/home/Hadoop/java/bin/java -classpath /home/Hadoop/Solr/dist/Solr-core
6.2.0.jar -Dauto = yes -Dc = Solr_sample -Ddata = files 
org.apache.Solr.util.SimplePostTool sample.csv 
SimplePostTool version 5.0.0 
Posting files to [base] url http://localhost:8983/Solr/Solr_sample/update... 
Entering auto mode. File endings considered are 
xml,json,jsonl,csv,pdf,doc,docx,ppt,pptx,xls,xlsx,odt,odp,ods,ott,otp,ots,rtf,
htm,html,txt,log 
POSTing file sample.csv (text/csv) to [base] 
1 files indexed. 
COMMITting Solr index changes to 
http://localhost:8983/Solr/Solr_sample/update... 
Time spent: 0:00:00.228

Kunjungi beranda Solr Web UI menggunakan URL berikut -

http://localhost:8983/

Pilih inti Solr_sample. Secara default, penangan permintaan adalah/selectdan kuerinya adalah ":". Tanpa melakukan modifikasi apapun, klikExecuteQuery tombol di bagian bawah halaman.

Saat menjalankan kueri, Anda dapat mengamati konten dokumen CSV yang diindeks dalam format JSON (default), seperti yang ditunjukkan pada tangkapan layar berikut.

Note - Dengan cara yang sama, Anda dapat mengindeks format file lain seperti JSON, XML, CSV, dll.

Menambahkan Dokumen menggunakan Antarmuka Web Solr

Anda juga dapat mengindeks dokumen menggunakan antarmuka web yang disediakan oleh Solr. Mari kita lihat cara mengindeks dokumen JSON berikut.

[ 
   { 
      "id" : "001", 
      "name" : "Ram", 
      "age" : 53, 
      "Designation" : "Manager", 
      "Location" : "Hyderabad", 
   }, 
   { 
      "id" : "002", 
      "name" : "Robert", 
      "age" : 43, 
      "Designation" : "SR.Programmer", 
      "Location" : "Chennai", 
   }, 
   { 
      "id" : "003", 
      "name" : "Rahim", 
      "age" : 25, 
      "Designation" : "JR.Programmer", 
      "Location" : "Delhi", 
   } 
]

Langkah 1

Buka antarmuka web Solr menggunakan URL berikut -

http://localhost:8983/

Step 2

Pilih inti Solr_sample. Secara default, nilai bidang Request Handler, Common Within, Overwrite, dan Boost masing-masing adalah / update, 1000, true, dan 1.0, seperti yang ditunjukkan pada tangkapan layar berikut.

Sekarang, pilih format dokumen yang Anda inginkan dari JSON, CSV, XML, dll. Ketik dokumen yang akan diindeks di area teks dan klik Submit Document tombol, seperti yang ditunjukkan pada tangkapan layar berikut.

Menambahkan Dokumen menggunakan Java Client API

Berikut adalah program Java untuk menambahkan dokumen ke indeks Apache Solr. Simpan kode ini dalam file dengan namaAddingDocument.java.

import java.io.IOException;  

import org.apache.Solr.client.Solrj.SolrClient; 
import org.apache.Solr.client.Solrj.SolrServerException; 
import org.apache.Solr.client.Solrj.impl.HttpSolrClient; 
import org.apache.Solr.common.SolrInputDocument; 

public class AddingDocument { 
   public static void main(String args[]) throws Exception { 
      //Preparing the Solr client 
      String urlString = "http://localhost:8983/Solr/my_core"; 
      SolrClient Solr = new HttpSolrClient.Builder(urlString).build();   
      
      //Preparing the Solr document 
      SolrInputDocument doc = new SolrInputDocument(); 
   
      //Adding fields to the document 
      doc.addField("id", "003"); 
      doc.addField("name", "Rajaman"); 
      doc.addField("age","34"); 
      doc.addField("addr","vishakapatnam"); 
         
      //Adding the document to Solr 
      Solr.add(doc);         
         
      //Saving the changes 
      Solr.commit(); 
      System.out.println("Documents added"); 
   } 
}

Kompilasi kode di atas dengan menjalankan perintah berikut di terminal -

[Hadoop@localhost bin]$ javac AddingDocument 
[Hadoop@localhost bin]$ java AddingDocument

Saat menjalankan perintah di atas, Anda akan mendapatkan output berikut.

Documents added

Pada bab sebelumnya telah dijelaskan cara menambahkan data ke dalam Solr yang berformat file JSON dan .CSV. Pada bab ini, kami akan mendemonstrasikan cara menambahkan data dalam indeks Apache Solr menggunakan format dokumen XML.

Contoh data

Misalkan kita perlu menambahkan data berikut ke indeks Solr menggunakan format file XML.

Identitas Siswa Nama depan Nama keluarga Telepon Kota
001 Rajiv Reddy 9848022337 Hyderabad
002 Siddharth Bhattacharya 9848022338 Kolkata
003 Rajesh Khanna 9848022339 Delhi
004 Preethi Agarwal 9848022330 Pune
005 Trupthi Mohanty 9848022336 Bhubaneshwar
006 Archana Mishra 9848022335 Chennai

Menambahkan Dokumen Menggunakan XML

Untuk menambahkan data di atas ke dalam indeks Solr, kita perlu menyiapkan dokumen XML, seperti gambar di bawah ini. Simpan dokumen ini dalam file dengan namasample.xml.

<add> 
   <doc> 
      <field name = "id">001</field> 
      <field name = "first name">Rajiv</field> 
      <field name = "last name">Reddy</field> 
      <field name = "phone">9848022337</field> 
      <field name = "city">Hyderabad</field> 
   </doc>  
   <doc> 
      <field name = "id">002</field> 
      <field name = "first name">Siddarth</field> 
      <field name = "last name">Battacharya</field> 
      <field name = "phone">9848022338</field> 
      <field name = "city">Kolkata</field> 
   </doc>  
   <doc> 
      <field name = "id">003</field> 
      <field name = "first name">Rajesh</field> 
      <field name = "last name">Khanna</field> 
      <field name = "phone">9848022339</field> 
      <field name = "city">Delhi</field> 
   </doc>  
   <doc> 
      <field name = "id">004</field> 
      <field name = "first name">Preethi</field> 
      <field name = "last name">Agarwal</field> 
      <field name = "phone">9848022330</field> 
      <field name = "city">Pune</field> 
   </doc>  
   <doc> 
      <field name = "id">005</field> 
      <field name = "first name">Trupthi</field> 
      <field name = "last name">Mohanthy</field> 
      <field name = "phone">9848022336</field> 
      <field name = "city">Bhuwaeshwar</field> 
   </doc> 
   <doc> 
      <field name = "id">006</field> 
      <field name = "first name">Archana</field> 
      <field name = "last name">Mishra</field> 
      <field name = "phone">9848022335</field> 
      <field name = "city">Chennai</field> 
   </doc> 
</add>

Seperti yang bisa Anda amati, file XML yang ditulis untuk menambahkan data ke indeks berisi tiga tag penting yaitu, <add> </add>, <doc> </doc>, dan <field> </ field>.

  • add- Ini adalah tag root untuk menambahkan dokumen ke indeks. Ini berisi satu atau lebih dokumen yang akan ditambahkan.

  • doc- Dokumen yang kita tambahkan harus dibungkus dalam tag <doc> </doc>. Dokumen ini berisi data-data berupa field.

  • field - Tag bidang menyimpan nama dan nilai bidang dokumen.

Setelah menyiapkan dokumen, Anda dapat menambahkan dokumen ini ke indeks menggunakan salah satu cara yang dibahas di bab sebelumnya.

Misalkan file XML ada di bin direktori Solr dan itu akan diindeks dalam nama inti my_core, lalu Anda dapat menambahkannya ke indeks Solr menggunakan file post alat sebagai berikut -

[Hadoop@localhost bin]$ ./post -c my_core sample.xml

Saat menjalankan perintah di atas, Anda akan mendapatkan output berikut.

/home/Hadoop/java/bin/java -classpath /home/Hadoop/Solr/dist/Solr-
core6.2.0.jar -Dauto = yes -Dc = my_core -Ddata = files 
org.apache.Solr.util.SimplePostTool sample.xml 
SimplePostTool version 5.0.0 
Posting files to [base] url http://localhost:8983/Solr/my_core/update... 
Entering auto mode. File endings considered are xml,json,jsonl,csv,pdf,doc,docx,ppt,pptx,
xls,xlsx,odt,odp,ods,ott,otp,ots,rtf,htm,html,txt,log 
POSTing file sample.xml (application/xml) to [base] 
1 files indexed. 
COMMITting Solr index changes to http://localhost:8983/Solr/my_core/update... 
Time spent: 0:00:00.201

Verifikasi

Kunjungi beranda antarmuka web Apache Solr dan pilih intinya my_core. Cobalah untuk mengambil semua dokumen dengan meneruskan kueri ":" di area teksqdan jalankan kueri. Saat menjalankan, Anda dapat mengamati bahwa data yang diinginkan ditambahkan ke indeks Solr.

Memperbarui Dokumen Menggunakan XML

Berikut adalah file XML yang digunakan untuk memperbarui bidang di dokumen yang sudah ada. Simpan ini dalam file dengan namaupdate.xml.

<add>   
   <doc>     
      <field name = "id">001</field>     
      <field name = "first name" update = "set">Raj</field>     
      <field name = "last name" update = "add">Malhotra</field>     
      <field name = "phone" update = "add">9000000000</field>    
      <field name = "city" update = "add">Delhi</field>   
   </doc> 
</add>

Seperti yang bisa Anda amati, file XML yang ditulis untuk memperbarui data sama seperti yang kita gunakan untuk menambahkan dokumen. Tetapi satu-satunya perbedaan adalah kami menggunakanupdate atribut lapangan.

Dalam contoh kami, kami akan menggunakan dokumen di atas dan mencoba memperbarui bidang dokumen dengan id 001.

Misalkan dokumen XML ada di bindirektori Solr. Karena kami memperbarui indeks yang ada di inti bernamamy_core, Anda dapat memperbarui menggunakan post alat sebagai berikut -

[Hadoop@localhost bin]$ ./post -c my_core update.xml

Saat menjalankan perintah di atas, Anda akan mendapatkan output berikut.

/home/Hadoop/java/bin/java -classpath /home/Hadoop/Solr/dist/Solr-core
6.2.0.jar -Dauto = yes -Dc = my_core -Ddata = files 
org.apache.Solr.util.SimplePostTool update.xml 
SimplePostTool version 5.0.0 
Posting files to [base] url http://localhost:8983/Solr/my_core/update... 
Entering auto mode. File endings considered are 
xml,json,jsonl,csv,pdf,doc,docx,ppt,pptx,xls,xlsx,odt,odp,ods,ott,otp,ots,rtf,
htm,html,txt,log 
POSTing file update.xml (application/xml) to [base] 
1 files indexed. 
COMMITting Solr index changes to http://localhost:8983/Solr/my_core/update... 
Time spent: 0:00:00.159

Verifikasi

Kunjungi beranda antarmuka web Apache Solr dan pilih inti sebagai my_core. Cobalah untuk mengambil semua dokumen dengan meneruskan kueri ":" di area teksqdan jalankan kueri. Saat menjalankan, Anda dapat mengamati bahwa dokumen diperbarui.

Memperbarui Dokumen Menggunakan Java (Client API)

Berikut adalah program Java untuk menambahkan dokumen ke indeks Apache Solr. Simpan kode ini dalam file dengan namaUpdatingDocument.java.

import java.io.IOException;  

import org.apache.Solr.client.Solrj.SolrClient; 
import org.apache.Solr.client.Solrj.SolrServerException; 
import org.apache.Solr.client.Solrj.impl.HttpSolrClient; 
import org.apache.Solr.client.Solrj.request.UpdateRequest; 
import org.apache.Solr.client.Solrj.response.UpdateResponse;
import org.apache.Solr.common.SolrInputDocument;  

public class UpdatingDocument { 
   public static void main(String args[]) throws SolrServerException, IOException { 
      //Preparing the Solr client 
      String urlString = "http://localhost:8983/Solr/my_core"; 
      SolrClient Solr = new HttpSolrClient.Builder(urlString).build();   
      
      //Preparing the Solr document 
      SolrInputDocument doc = new SolrInputDocument(); 
   
      UpdateRequest updateRequest = new UpdateRequest();  
      updateRequest.setAction( UpdateRequest.ACTION.COMMIT, false, false);    
      SolrInputDocument myDocumentInstantlycommited = new SolrInputDocument();  
      
      myDocumentInstantlycommited.addField("id", "002"); 
      myDocumentInstantlycommited.addField("name", "Rahman"); 
      myDocumentInstantlycommited.addField("age","27"); 
      myDocumentInstantlycommited.addField("addr","hyderabad"); 
      
      updateRequest.add( myDocumentInstantlycommited);  
      UpdateResponse rsp = updateRequest.process(Solr); 
      System.out.println("Documents Updated"); 
   } 
}

Kompilasi kode di atas dengan menjalankan perintah berikut di terminal -

[Hadoop@localhost bin]$ javac UpdatingDocument 
[Hadoop@localhost bin]$ java UpdatingDocument

Saat menjalankan perintah di atas, Anda akan mendapatkan output berikut.

Documents updated

Menghapus Dokumen

Untuk menghapus dokumen dari indeks Apache Solr, kita perlu menentukan ID dokumen yang akan dihapus di antara tag <delete> </delete>.

<delete>   
   <id>003</id>   
   <id>005</id> 
   <id>004</id> 
   <id>002</id> 
</delete>

Di sini, kode XML ini digunakan untuk menghapus dokumen dengan ID 003 dan 005. Simpan kode ini dalam file dengan namadelete.xml.

Jika Anda ingin menghapus dokumen dari indeks yang dimiliki oleh inti bernama my_core, lalu Anda dapat mengeposkan delete.xml file menggunakan post alat, seperti yang ditunjukkan di bawah ini.

[Hadoop@localhost bin]$ ./post -c my_core delete.xml

Saat menjalankan perintah di atas, Anda akan mendapatkan output berikut.

/home/Hadoop/java/bin/java -classpath /home/Hadoop/Solr/dist/Solr-core
6.2.0.jar -Dauto = yes -Dc = my_core -Ddata = files 
org.apache.Solr.util.SimplePostTool delete.xml 
SimplePostTool version 5.0.0 
Posting files to [base] url http://localhost:8983/Solr/my_core/update... 
Entering auto mode. File endings considered are 
xml,json,jsonl,csv,pdf,doc,docx,ppt,pptx,xls,xlsx,odt,odp,ods,ott,otp,ots,
rtf,htm,html,txt,log 
POSTing file delete.xml (application/xml) to [base] 
1 files indexed. 
COMMITting Solr index changes to http://localhost:8983/Solr/my_core/update... 
Time spent: 0:00:00.179

Verifikasi

Kunjungi beranda antarmuka web Apache Solr dan pilih inti sebagai my_core. Cobalah untuk mengambil semua dokumen dengan meneruskan kueri ":" di area teksqdan jalankan kueri. Saat menjalankan, Anda dapat mengamati bahwa dokumen tertentu dihapus.

Menghapus Field

Terkadang kami perlu menghapus dokumen berdasarkan bidang selain ID. Misalnya, kami mungkin harus menghapus dokumen yang kotanya adalah Chennai.

Dalam kasus seperti itu, Anda perlu menentukan nama dan nilai bidang dalam pasangan tag <query> </query>.

<delete> 
   <query>city:Chennai</query> 
</delete>

Simpan sebagai delete_field.xml dan melakukan operasi penghapusan pada inti bernama my_core menggunakan post alat Solr.

[Hadoop@localhost bin]$ ./post -c my_core delete_field.xml

Saat menjalankan perintah di atas, ini menghasilkan output berikut.

/home/Hadoop/java/bin/java -classpath /home/Hadoop/Solr/dist/Solr-core
6.2.0.jar -Dauto = yes -Dc = my_core -Ddata = files 
org.apache.Solr.util.SimplePostTool delete_field.xml 
SimplePostTool version 5.0.0 
Posting files to [base] url http://localhost:8983/Solr/my_core/update... 
Entering auto mode. File endings considered are 
xml,json,jsonl,csv,pdf,doc,docx,ppt,pptx,xls,xlsx,odt,odp,ods,ott,otp,ots,
rtf,htm,html,txt,log 
POSTing file delete_field.xml (application/xml) to [base] 
1 files indexed. 
COMMITting Solr index changes to http://localhost:8983/Solr/my_core/update... 
Time spent: 0:00:00.084

Verifikasi

Kunjungi beranda antarmuka web Apache Solr dan pilih inti sebagai my_core. Cobalah untuk mengambil semua dokumen dengan meneruskan kueri ":" di area teksqdan jalankan kueri. Saat menjalankan, Anda dapat mengamati bahwa dokumen yang berisi pasangan nilai bidang yang ditentukan dihapus.

Menghapus Semua Dokumen

Sama seperti menghapus bidang tertentu, jika Anda ingin menghapus semua dokumen dari indeks, Anda hanya perlu meneruskan simbol “:” di antara tag <query> </ query>, seperti yang ditunjukkan di bawah ini.

<delete> 
   <query>*:*</query> 
</delete>

Simpan sebagai delete_all.xml dan melakukan operasi penghapusan pada inti bernama my_core menggunakan post alat Solr.

[Hadoop@localhost bin]$ ./post -c my_core delete_all.xml

Saat menjalankan perintah di atas, ini menghasilkan output berikut.

/home/Hadoop/java/bin/java -classpath /home/Hadoop/Solr/dist/Solr-core
6.2.0.jar -Dauto = yes -Dc = my_core -Ddata = files 
org.apache.Solr.util.SimplePostTool deleteAll.xml 
SimplePostTool version 5.0.0 
Posting files to [base] url http://localhost:8983/Solr/my_core/update... 
Entering auto mode. File endings considered are 
xml,json,jsonl,csv,pdf,doc,docx,ppt,pptx,xls,xlsx,odt,odp,ods,ott,otp,ots,rtf,
htm,html,txt,log 
POSTing file deleteAll.xml (application/xml) to [base] 
1 files indexed. 
COMMITting Solr index changes to http://localhost:8983/Solr/my_core/update... 
Time spent: 0:00:00.138

Verifikasi

Kunjungi beranda antarmuka web Apache Solr dan pilih inti sebagai my_core. Cobalah untuk mengambil semua dokumen dengan meneruskan kueri ":" di area teksqdan jalankan kueri. Saat menjalankan, Anda dapat mengamati bahwa dokumen yang berisi pasangan nilai bidang yang ditentukan dihapus.

Menghapus semua dokumen menggunakan Java (Client API)

Berikut adalah program Java untuk menambahkan dokumen ke indeks Apache Solr. Simpan kode ini dalam file dengan namaUpdatingDocument.java.

import java.io.IOException;  

import org.apache.Solr.client.Solrj.SolrClient; 
import org.apache.Solr.client.Solrj.SolrServerException; 
import org.apache.Solr.client.Solrj.impl.HttpSolrClient; 
import org.apache.Solr.common.SolrInputDocument;  

public class DeletingAllDocuments { 
   public static void main(String args[]) throws SolrServerException, IOException {
      //Preparing the Solr client 
      String urlString = "http://localhost:8983/Solr/my_core"; 
      SolrClient Solr = new HttpSolrClient.Builder(urlString).build();   
      
      //Preparing the Solr document 
      SolrInputDocument doc = new SolrInputDocument();   
          
      //Deleting the documents from Solr 
      Solr.deleteByQuery("*");        
         
      //Saving the document 
      Solr.commit(); 
      System.out.println("Documents deleted"); 
   } 
}

Kompilasi kode di atas dengan menjalankan perintah berikut di terminal -

[Hadoop@localhost bin]$ javac DeletingAllDocuments 
[Hadoop@localhost bin]$ java DeletingAllDocuments

Saat menjalankan perintah di atas, Anda akan mendapatkan output berikut.

Documents deleted

Pada bab ini, kita akan membahas cara mengambil data menggunakan Java Client API. Misalkan kita memiliki dokumen .csv bernamasample.csv dengan konten berikut.

001,9848022337,Hyderabad,Rajiv,Reddy  
002,9848022338,Kolkata,Siddarth,Battacharya 
003,9848022339,Delhi,Rajesh,Khanna

Anda dapat mengindeks data ini di bawah inti bernama sample_Solr menggunakan post perintah.

[Hadoop@localhost bin]$ ./post -c Solr_sample sample.csv

Berikut adalah program Java untuk menambahkan dokumen ke indeks Apache Solr. Simpan kode ini dalam file bernamaRetrievingData.java.

import java.io.IOException;  

import org.apache.Solr.client.Solrj.SolrClient; 
import org.apache.Solr.client.Solrj.SolrQuery; 
import org.apache.Solr.client.Solrj.SolrServerException; 
import org.apache.Solr.client.Solrj.impl.HttpSolrClient; 
import org.apache.Solr.client.Solrj.response.QueryResponse; 
import org.apache.Solr.common.SolrDocumentList;  

public class RetrievingData { 
   public static void main(String args[]) throws SolrServerException, IOException  { 
      //Preparing the Solr client 
      String urlString = "http://localhost:8983/Solr/my_core"; 
      SolrClient Solr = new HttpSolrClient.Builder(urlString).build();  
      
      //Preparing Solr query 
      SolrQuery query = new SolrQuery();  
      query.setQuery("*:*");  
   
      //Adding the field to be retrieved 
      query.addField("*");  
   
      //Executing the query 
      QueryResponse queryResponse = Solr.query(query);  
   
      //Storing the results of the query 
      SolrDocumentList docs = queryResponse.getResults();    
      System.out.println(docs); 
      System.out.println(docs.get(0)); 
      System.out.println(docs.get(1)); 
      System.out.println(docs.get(2));   
         
      //Saving the operations 
      Solr.commit();         
   } 
}

Kompilasi kode di atas dengan menjalankan perintah berikut di terminal -

[Hadoop@localhost bin]$ javac RetrievingData 
[Hadoop@localhost bin]$ java RetrievingData

Saat menjalankan perintah di atas, Anda akan mendapatkan output berikut.

{numFound = 3,start = 0,docs = [SolrDocument{id=001, phone = [9848022337], 
city = [Hyderabad], first_name = [Rajiv], last_name = [Reddy], 
_version_ = 1547262806014820352}, SolrDocument{id = 002, phone = [9848022338], 
city = [Kolkata], first_name = [Siddarth], last_name = [Battacharya], 

_version_ = 1547262806026354688}, SolrDocument{id = 003, phone = [9848022339], 
city = [Delhi], first_name = [Rajesh], last_name = [Khanna], 

_version_ = 1547262806029500416}]} 

SolrDocument{id = 001, phone = [9848022337], city = [Hyderabad], first_name = [Rajiv], 
last_name = [Reddy], _version_ = 1547262806014820352} 

SolrDocument{id = 002, phone = [9848022338], city = [Kolkata], first_name = [Siddarth], 
last_name = [Battacharya], _version_ = 1547262806026354688} 

SolrDocument{id = 003, phone = [9848022339], city = [Delhi], first_name = [Rajesh], 
last_name = [Khanna], _version_ = 1547262806029500416}

Selain menyimpan data, Apache Solr juga menyediakan fasilitas untuk menanyakannya kembali jika diperlukan. Solr menyediakan parameter tertentu yang dapat digunakan untuk menanyakan data yang disimpan di dalamnya.

Pada tabel berikut, kami telah mencantumkan berbagai parameter kueri yang tersedia di Apache Solr.

Parameter Deskripsi
q Ini adalah parameter kueri utama Apache Solr, dokumen dinilai berdasarkan kesamaannya dengan istilah dalam parameter ini.
fq Parameter ini mewakili kueri filter Apache Solr yang membatasi kumpulan hasil ke dokumen yang cocok dengan filter ini.
Mulailah Parameter awal mewakili offset awal untuk hasil halaman, nilai default parameter ini adalah 0.
baris Parameter ini mewakili jumlah dokumen yang akan diambil per halaman. Nilai default dari parameter ini adalah 10.
menyortir Parameter ini menetapkan daftar bidang, dipisahkan dengan koma, berdasarkan hasil kueri yang akan diurutkan.
fl Parameter ini menetapkan daftar bidang yang akan dikembalikan untuk setiap dokumen di kumpulan hasil.
wt Parameter ini mewakili jenis tanggapan penulis yang ingin kita lihat hasilnya.

Anda dapat melihat semua parameter ini sebagai opsi untuk meminta Apache Solr. Kunjungi beranda Apache Solr. Di sisi kiri halaman, klik pada opsi Query. Di sini, Anda dapat melihat bidang untuk parameter kueri.

Mengambil Catatan

Asumsikan kita memiliki 3 record dalam nama inti my_core. Untuk mengambil rekaman tertentu dari inti yang dipilih, Anda harus meneruskan pasangan nama dan nilai bidang dokumen tertentu. Misalnya, jika Anda ingin mengambil record dengan nilai bidangid, Anda harus meneruskan pasangan nama-nilai bidang sebagai - Id:001 sebagai nilai parameter q dan jalankan kueri.

Dengan cara yang sama, Anda bisa mengambil semua record dari indeks dengan meneruskan *: * sebagai nilai ke parameter q, seperti yang ditunjukkan pada tangkapan layar berikut.

Mengambil dari 2 nd rekor

Kita bisa mengambil record dari record kedua dengan meneruskan 2 sebagai nilai ke parameter start, seperti yang ditunjukkan pada tangkapan layar berikut.

Membatasi Jumlah Record

Anda dapat membatasi jumlah rekaman dengan menentukan nilai di rowsparameter. Misalnya, kita dapat membatasi jumlah total record dalam hasil query menjadi 2 dengan meneruskan nilai 2 ke dalam parameterrows, seperti yang ditunjukkan pada tangkapan layar berikut.

Jenis Penulis Tanggapan

Anda bisa mendapatkan respons dalam jenis dokumen yang diperlukan dengan memilih salah satu dari nilai parameter yang diberikan wt.

Dalam contoh di atas, kami telah memilih .csv format untuk mendapatkan respons.

Daftar Bidang

Jika kita ingin memiliki bidang tertentu dalam dokumen yang dihasilkan, kita harus meneruskan daftar bidang yang diperlukan, dipisahkan dengan koma, sebagai nilai properti fl.

Dalam contoh berikut, kami mencoba mengambil bidang - id, phone, dan first_name.

Faceting di Apache Solr mengacu pada klasifikasi hasil pencarian ke dalam berbagai kategori. Di bab ini, kita akan membahas jenis-jenis faceting yang tersedia di Apache Solr -

  • Query faceting - Ini mengembalikan jumlah dokumen dalam hasil pencarian saat ini yang juga cocok dengan kueri yang diberikan.

  • Date faceting - Ini mengembalikan jumlah dokumen yang termasuk dalam rentang tanggal tertentu.

Perintah faceting ditambahkan ke permintaan kueri Solr normal, dan jumlah faceting kembali dalam respons kueri yang sama.

Contoh Faceting Query

Menggunakan lapangan faceting, kami dapat mengambil hitungan untuk semua istilah, atau hanya istilah teratas di bidang tertentu.

Sebagai contoh, mari kita perhatikan yang berikut ini books.csv file yang berisi data tentang berbagai buku.

id,cat,name,price,inStock,author,series_t,sequence_i,genre_s 
0553573403,book,A Game of Thrones,5.99,true,George R.R. Martin,"A Song of Ice 
and Fire",1,fantasy 

0553579908,book,A Clash of Kings,10.99,true,George R.R. Martin,"A Song of Ice 
and Fire",2,fantasy 

055357342X,book,A Storm of Swords,7.99,true,George R.R. Martin,"A Song of Ice 
and Fire",3,fantasy 

0553293354,book,Foundation,7.99,true,Isaac Asimov,Foundation Novels,1,scifi 
0812521390,book,The Black Company,4.99,false,Glen Cook,The Chronicles of The 
Black Company,1,fantasy 

0812550706,book,Ender's Game,6.99,true,Orson Scott Card,Ender,1,scifi 
0441385532,book,Jhereg,7.95,false,Steven Brust,Vlad Taltos,1,fantasy 
0380014300,book,Nine Princes In Amber,6.99,true,Roger Zelazny,the Chronicles of 
Amber,1,fantasy 

0805080481,book,The Book of Three,5.99,true,Lloyd Alexander,The Chronicles of 
Prydain,1,fantasy 

080508049X,book,The Black Cauldron,5.99,true,Lloyd Alexander,The Chronicles of 
Prydain,2,fantasy

Mari kita posting file ini ke Apache Solr menggunakan post alat.

[Hadoop@localhost bin]$ ./post -c Solr_sample sample.csv

Saat menjalankan perintah di atas, semua dokumen yang disebutkan dalam diberikan .csv file akan diunggah ke Apache Solr.

Sekarang mari kita jalankan kueri segi di lapangan author dengan 0 baris pada koleksi / inti my_core.

Buka UI web Apache Solr dan di sisi kiri halaman, centang kotak facet, seperti yang ditunjukkan pada tangkapan layar berikut.

Saat mencentang kotak, Anda akan memiliki tiga bidang teks lagi untuk meneruskan parameter pencarian faset. Sekarang, sebagai parameter kueri, teruskan nilai berikut.

q = *:*, rows = 0, facet.field = author

Terakhir, jalankan kueri dengan mengklik Execute Query tombol.

Saat dieksekusi, itu akan menghasilkan hasil sebagai berikut.

Ini mengkategorikan dokumen dalam indeks berdasarkan penulis dan menentukan jumlah buku yang dikontribusikan oleh setiap penulis.

Faceting Menggunakan Java Client API

Berikut adalah program Java untuk menambahkan dokumen ke indeks Apache Solr. Simpan kode ini dalam file dengan namaHitHighlighting.java.

import java.io.IOException; 
import java.util.List;  

import org.apache.Solr.client.Solrj.SolrClient; 
import org.apache.Solr.client.Solrj.SolrQuery; 
import org.apache.Solr.client.Solrj.SolrServerException; 
import org.apache.Solr.client.Solrj.impl.HttpSolrClient; 
import org.apache.Solr.client.Solrj.request.QueryRequest; 
import org.apache.Solr.client.Solrj.response.FacetField; 
import org.apache.Solr.client.Solrj.response.FacetField.Count;
import org.apache.Solr.client.Solrj.response.QueryResponse; 
import org.apache.Solr.common.SolrInputDocument;  

public class HitHighlighting { 
   public static void main(String args[]) throws SolrServerException, IOException { 
      //Preparing the Solr client 
      String urlString = "http://localhost:8983/Solr/my_core"; 
      SolrClient Solr = new HttpSolrClient.Builder(urlString).build();   
      
      //Preparing the Solr document 
      SolrInputDocument doc = new SolrInputDocument(); 
   
      //String query = request.query;    
      SolrQuery query = new SolrQuery(); 
         
      //Setting the query string 
      query.setQuery("*:*"); 
         
      //Setting the no.of rows 
      query.setRows(0); 
         
      //Adding the facet field 
      query.addFacetField("author");        
         
      //Creating the query request 
      QueryRequest qryReq = new QueryRequest(query); 
      
      //Creating the query response 
      QueryResponse resp = qryReq.process(Solr);  
      
      //Retrieving the response fields 
      System.out.println(resp.getFacetFields()); 
      
      List<FacetField> facetFields = resp.getFacetFields(); 
      for (int i = 0; i > facetFields.size(); i++) { 
         FacetField facetField = facetFields.get(i); 
         List<Count> facetInfo = facetField.getValues(); 
         
         for (FacetField.Count facetInstance : facetInfo) { 
            System.out.println(facetInstance.getName() + " : " + 
               facetInstance.getCount() + " [drilldown qry:" + 
               facetInstance.getAsFilterQuery()); 
         } 
         System.out.println("Hello"); 
      } 
   } 
}

Kompilasi kode di atas dengan menjalankan perintah berikut di terminal -

[Hadoop@localhost bin]$ javac HitHighlighting 
[Hadoop@localhost bin]$ java HitHighlighting

Saat menjalankan perintah di atas, Anda akan mendapatkan output berikut.

[author:[George R.R. Martin (3), Lloyd Alexander (2), Glen Cook (1), Isaac 
Asimov (1), Orson Scott Card (1), Roger Zelazny (1), Steven Brust (1)]]