Apache Solr - Thêm tài liệu (XML)
Trong chương trước, chúng tôi đã giải thích cách thêm dữ liệu vào Solr ở định dạng tệp JSON và .CSV. Trong chương này, chúng tôi sẽ trình bày cách thêm dữ liệu trong chỉ mục Apache Solr bằng định dạng tài liệu XML.
Dữ liệu mẫu
Giả sử chúng ta cần thêm dữ liệu sau vào chỉ mục Solr bằng cách sử dụng định dạng tệp XML.
thẻ học sinh | Tên đầu tiên | Họ | Điện thoại | Tp. |
---|---|---|---|---|
001 | Rajiv | Reddy | 9848022337 | Hyderabad |
002 | Siddharth | Bhattacharya | 9848022338 | Kolkata |
003 | Rajesh | Khanna | 9848022339 | Delhi |
004 | Preethi | Agarwal | 9848022330 | Pune |
005 | Trupthi | Mohanty | 9848022336 | Bhubaneshwar |
006 | Archana | Mishra | 9848022335 | Chennai |
Thêm tài liệu bằng XML
Để thêm dữ liệu trên vào chỉ mục Solr, chúng ta cần chuẩn bị một tài liệu XML, như hình dưới đây. Lưu tài liệu này trong một tệp có tênsample.xml.
<add>
<doc>
<field name = "id">001</field>
<field name = "first name">Rajiv</field>
<field name = "last name">Reddy</field>
<field name = "phone">9848022337</field>
<field name = "city">Hyderabad</field>
</doc>
<doc>
<field name = "id">002</field>
<field name = "first name">Siddarth</field>
<field name = "last name">Battacharya</field>
<field name = "phone">9848022338</field>
<field name = "city">Kolkata</field>
</doc>
<doc>
<field name = "id">003</field>
<field name = "first name">Rajesh</field>
<field name = "last name">Khanna</field>
<field name = "phone">9848022339</field>
<field name = "city">Delhi</field>
</doc>
<doc>
<field name = "id">004</field>
<field name = "first name">Preethi</field>
<field name = "last name">Agarwal</field>
<field name = "phone">9848022330</field>
<field name = "city">Pune</field>
</doc>
<doc>
<field name = "id">005</field>
<field name = "first name">Trupthi</field>
<field name = "last name">Mohanthy</field>
<field name = "phone">9848022336</field>
<field name = "city">Bhuwaeshwar</field>
</doc>
<doc>
<field name = "id">006</field>
<field name = "first name">Archana</field>
<field name = "last name">Mishra</field>
<field name = "phone">9848022335</field>
<field name = "city">Chennai</field>
</doc>
</add>
Như bạn có thể quan sát, tệp XML được viết để thêm dữ liệu vào chỉ mục chứa ba thẻ quan trọng là <add> </add>, <doc> </doc> và <field> </ field>.
add- Đây là thẻ gốc để thêm tài liệu vào chỉ mục. Nó chứa một hoặc nhiều tài liệu sẽ được thêm vào.
doc- Các tài liệu chúng tôi thêm vào phải được bao bọc trong các thẻ <doc> </doc>. Tài liệu này chứa dữ liệu ở dạng trường.
field - Thẻ trường chứa tên và giá trị của các trường của tài liệu.
Sau khi chuẩn bị tài liệu, bạn có thể thêm tài liệu này vào chỉ mục bằng bất kỳ phương tiện nào được thảo luận trong chương trước.
Giả sử tệp XML tồn tại trong bin thư mục của Solr và nó sẽ được lập chỉ mục trong lõi có tên my_core, sau đó bạn có thể thêm nó vào chỉ mục Solr bằng cách sử dụng post công cụ như sau -
[Hadoop@localhost bin]$ ./post -c my_core sample.xml
Khi thực hiện lệnh trên, bạn sẽ nhận được kết quả sau.
/home/Hadoop/java/bin/java -classpath /home/Hadoop/Solr/dist/Solr-
core6.2.0.jar -Dauto = yes -Dc = my_core -Ddata = files
org.apache.Solr.util.SimplePostTool sample.xml
SimplePostTool version 5.0.0
Posting files to [base] url http://localhost:8983/Solr/my_core/update...
Entering auto mode. File endings considered are xml,json,jsonl,csv,pdf,doc,docx,ppt,pptx,
xls,xlsx,odt,odp,ods,ott,otp,ots,rtf,htm,html,txt,log
POSTing file sample.xml (application/xml) to [base]
1 files indexed.
COMMITting Solr index changes to http://localhost:8983/Solr/my_core/update...
Time spent: 0:00:00.201
xác minh
Truy cập trang chủ của giao diện web Apache Solr và chọn lõi my_core. Cố gắng truy xuất tất cả các tài liệu bằng cách chuyển truy vấn “:” vào vùng văn bảnqvà thực hiện truy vấn. Khi thực thi, bạn có thể thấy rằng dữ liệu mong muốn được thêm vào chỉ mục Solr.