Apache Solr - दस्तावेज़ जोड़ना (XML)
पिछले अध्याय में, हमने समझाया कि सोल में डेटा कैसे जोड़ा जाए जो कि JSON और .CSV फ़ाइल स्वरूपों में है। इस अध्याय में, हम एक्सपी दस्तावेज़ प्रारूप का उपयोग करके अपाचे सोलर इंडेक्स में डेटा जोड़ने का तरीका प्रदर्शित करेंगे।
नमूना डेटा
मान लें कि हमें XML फाइल फॉर्मेट का उपयोग करके निम्नलिखित डेटा को सोलर इंडेक्स में जोड़ना है।
छात्र आईडी | पहला नाम | उपनाम | फ़ोन | Faridabad |
---|---|---|---|---|
001 | राजीव | रेड्डी | 9848022337 | हैदराबाद |
002 | सिद्धार्थ | भट्टाचार्य | 9848022338 | कोलकाता |
003 | राजेश | खन्ना | 9848022339 | दिल्ली |
004 | प्रीती | अग्रवाल | 9848022330 | पुणे |
005 | Trupthi | मोहंती | 9848022336 | भुवनेश्वर |
006 | अर्चना | मिश्रा | 9848022335 | चेन्नई |
XML का उपयोग करके दस्तावेज़ जोड़ना
उपरोक्त डेटा को सोलर इंडेक्स में जोड़ने के लिए, हमें एक XML दस्तावेज़ तैयार करने की आवश्यकता है, जैसा कि नीचे दिखाया गया है। नाम के साथ एक फ़ाइल में इस दस्तावेज़ को सहेजेंsample.xml।
<add>
<doc>
<field name = "id">001</field>
<field name = "first name">Rajiv</field>
<field name = "last name">Reddy</field>
<field name = "phone">9848022337</field>
<field name = "city">Hyderabad</field>
</doc>
<doc>
<field name = "id">002</field>
<field name = "first name">Siddarth</field>
<field name = "last name">Battacharya</field>
<field name = "phone">9848022338</field>
<field name = "city">Kolkata</field>
</doc>
<doc>
<field name = "id">003</field>
<field name = "first name">Rajesh</field>
<field name = "last name">Khanna</field>
<field name = "phone">9848022339</field>
<field name = "city">Delhi</field>
</doc>
<doc>
<field name = "id">004</field>
<field name = "first name">Preethi</field>
<field name = "last name">Agarwal</field>
<field name = "phone">9848022330</field>
<field name = "city">Pune</field>
</doc>
<doc>
<field name = "id">005</field>
<field name = "first name">Trupthi</field>
<field name = "last name">Mohanthy</field>
<field name = "phone">9848022336</field>
<field name = "city">Bhuwaeshwar</field>
</doc>
<doc>
<field name = "id">006</field>
<field name = "first name">Archana</field>
<field name = "last name">Mishra</field>
<field name = "phone">9848022335</field>
<field name = "city">Chennai</field>
</doc>
</add>
जैसा कि आप देख सकते हैं, डेटा को इंडेक्स में जोड़ने के लिए लिखी गई XML फ़ाइल में तीन महत्वपूर्ण टैग हैं, <add> </ add>, <doc> </ doc>, और <फ़ील्ड> </ फ़ील्ड>।
add- यह इंडेक्स में दस्तावेजों को जोड़ने के लिए रूट टैग है। इसमें एक या एक से अधिक दस्तावेज़ हैं जिन्हें जोड़ा जाना है।
doc- हमारे द्वारा जोड़े गए दस्तावेजों को <doc> </ doc> टैग के भीतर लपेटा जाना चाहिए। इस दस्तावेज़ में फ़ील्ड के रूप में डेटा है।
field - फ़ील्ड टैग दस्तावेज़ के क्षेत्रों का नाम और मूल्य रखता है।
दस्तावेज़ तैयार करने के बाद, आप पिछले अध्याय में चर्चा किए गए किसी भी साधन का उपयोग करके इस दस्तावेज़ को सूचकांक में जोड़ सकते हैं।
मान लीजिए कि XML फ़ाइल में मौजूद है bin सोलर की निर्देशिका और इसे नामित कोर में अनुक्रमित किया जाना है my_core, तो आप इसका उपयोग कर सोलर इंडेक्स में जोड़ सकते हैं post उपकरण इस प्रकार है -
[Hadoop@localhost bin]$ ./post -c my_core sample.xml
उपरोक्त कमांड निष्पादित करने पर, आपको निम्न आउटपुट मिलेगा।
/home/Hadoop/java/bin/java -classpath /home/Hadoop/Solr/dist/Solr-
core6.2.0.jar -Dauto = yes -Dc = my_core -Ddata = files
org.apache.Solr.util.SimplePostTool sample.xml
SimplePostTool version 5.0.0
Posting files to [base] url http://localhost:8983/Solr/my_core/update...
Entering auto mode. File endings considered are xml,json,jsonl,csv,pdf,doc,docx,ppt,pptx,
xls,xlsx,odt,odp,ods,ott,otp,ots,rtf,htm,html,txt,log
POSTing file sample.xml (application/xml) to [base]
1 files indexed.
COMMITting Solr index changes to http://localhost:8983/Solr/my_core/update...
Time spent: 0:00:00.201
सत्यापन
Apache Solr वेब इंटरफेस के होमपेज पर जाएं और कोर का चयन करें my_core। पाठ क्षेत्र में ":" क्वेरी पास करके सभी दस्तावेजों को पुनः प्राप्त करने का प्रयास करेंqऔर क्वेरी निष्पादित करें। निष्पादित करने पर, आप देख सकते हैं कि वांछित डेटा सोलर इंडेक्स में जोड़ा गया है।