एलेस्टिक्स खोज - विश्लेषण
जब खोज ऑपरेशन के दौरान किसी क्वेरी को संसाधित किया जाता है, तो विश्लेषण मॉड्यूल द्वारा किसी भी सूचकांक में सामग्री का विश्लेषण किया जाता है। इस मॉड्यूल में विश्लेषक, टोकनधारक, टोकनफिल्टर और चारफिल्टर शामिल हैं। यदि कोई विश्लेषक परिभाषित नहीं है, तो डिफ़ॉल्ट रूप से बिल्ट इन एनालाइज़र, टोकन, फ़िल्टर और टोकन विश्लेषक विश्लेषण मॉड्यूल के साथ पंजीकृत हो जाते हैं।
निम्नलिखित उदाहरण में, हम एक मानक विश्लेषक का उपयोग करते हैं जिसका उपयोग तब किया जाता है जब कोई अन्य विश्लेषक निर्दिष्ट नहीं होता है। यह व्याकरण पर आधारित वाक्य का विश्लेषण करेगा और वाक्य में प्रयुक्त शब्दों का उत्पादन करेगा।
POST _analyze
{
"analyzer": "standard",
"text": "Today's weather is beautiful"
}
उपरोक्त कोड चलाने पर, हमें नीचे दिखाए अनुसार प्रतिक्रिया मिलती है -
{
"tokens" : [
{
"token" : "today's",
"start_offset" : 0,
"end_offset" : 7,
"type" : "",
"position" : 0
},
{
"token" : "weather",
"start_offset" : 8,
"end_offset" : 15,
"type" : "",
"position" : 1
},
{
"token" : "is",
"start_offset" : 16,
"end_offset" : 18,
"type" : "",
"position" : 2
},
{
"token" : "beautiful",
"start_offset" : 19,
"end_offset" : 28,
"type" : "",
"position" : 3
}
]
}
मानक विश्लेषक कॉन्फ़िगर करना
हम अपनी कस्टम आवश्यकताओं को प्राप्त करने के लिए विभिन्न मानकों के साथ मानक विश्लेषक को कॉन्फ़िगर कर सकते हैं।
निम्नलिखित उदाहरण में, हम मानक विश्लेषक को 5 के एक max_token_length के लिए कॉन्फ़िगर करते हैं।
इसके लिए, हम पहले विश्लेषक के साथ एक इंडेक्स बनाते हैं, जिसमें max_length_token पैरामीटर होता है।
PUT index_4_analysis
{
"settings": {
"analysis": {
"analyzer": {
"my_english_analyzer": {
"type": "standard",
"max_token_length": 5,
"stopwords": "_english_"
}
}
}
}
}
आगे हम विश्लेषक को एक पाठ के साथ लागू करते हैं जैसा कि नीचे दिखाया गया है। कृपया ध्यान दें कि टोकन दिखाई नहीं देता है क्योंकि इसमें शुरुआत में दो स्थान और अंत में दो स्थान हैं। शब्द "के लिए" है, इसकी शुरुआत में एक स्थान है और इसके अंत में एक स्थान है। उन सभी को लेते हुए, यह रिक्त स्थान के साथ 4 अक्षर बन जाता है और यह इसे एक शब्द नहीं बनाता है। कम से कम शुरुआत या अंत में एक निरर्थक चरित्र होना चाहिए, जिससे इसे एक शब्द गिना जा सके।
POST index_4_analysis/_analyze
{
"analyzer": "my_english_analyzer",
"text": "Today's weather is beautiful"
}
उपरोक्त कोड चलाने पर, हमें नीचे दिखाए अनुसार प्रतिक्रिया मिलती है -
{
"tokens" : [
{
"token" : "today",
"start_offset" : 0,
"end_offset" : 5,
"type" : "",
"position" : 0
},
{
"token" : "s",
"start_offset" : 6,
"end_offset" : 7,
"type" : "",
"position" : 1
},
{
"token" : "weath",
"start_offset" : 8,
"end_offset" : 13,
"type" : "",
"position" : 2
},
{
"token" : "er",
"start_offset" : 13,
"end_offset" : 15,
"type" : "",
"position" : 3
},
{
"token" : "beaut",
"start_offset" : 19,
"end_offset" : 24,
"type" : "",
"position" : 5
},
{
"token" : "iful",
"start_offset" : 24,
"end_offset" : 28,
"type" : "",
"position" : 6
}
]
}
विभिन्न विश्लेषणकर्ताओं की सूची और उनका विवरण नीचे दी गई तालिका में दिया गया है -
S.No | विश्लेषक और विवरण |
---|---|
1 | Standard analyzer (standard) इस विश्लेषक के लिए stopwords और max_token_length सेटिंग सेट की जा सकती है। डिफ़ॉल्ट रूप से, स्टॉपवार्ड सूची खाली है और अधिकतम_टोकन_लॉन्ग 255 है। |
2 | Simple analyzer (simple) यह विश्लेषक लोअरकेस टोकेनाइज़र से बना है। |
3 | Whitespace analyzer (whitespace) यह विश्लेषक व्हॉट्सएप टोकन से बना है। |
4 | Stop analyzer (stop) stopwords और stopwords_path को कॉन्फ़िगर किया जा सकता है। डिफ़ॉल्ट रूप से अंग्रेजी स्टॉप शब्दों के लिए प्रारंभिक स्टॉपमार्क और स्टॉप वर्ड्स_पथ में स्टॉप शब्दों के साथ एक टेक्स्ट फ़ाइल का पथ होता है। |
Tokenizers
टोकनसाइज़र का उपयोग एलिस्टिक्स खोज में एक पाठ से टोकन उत्पन्न करने के लिए किया जाता है। व्हॉट्सएप या अन्य विराम चिह्नों को ध्यान में रखकर पाठ को टोकन में तोड़ा जा सकता है। इलास्टिसर्च में बहुत सारे अंतर्निर्मित टोकन हैं, जिनका उपयोग कस्टम विश्लेषक में किया जा सकता है।
टोकन का एक उदाहरण जो पाठ को शब्दों में तोड़ता है जब भी यह एक ऐसे चरित्र का सामना करता है जो एक अक्षर नहीं है, लेकिन यह सभी शर्तों को कम करता है, नीचे दिखाया गया है -
POST _analyze
{
"tokenizer": "lowercase",
"text": "It Was a Beautiful Weather 5 Days ago."
}
उपरोक्त कोड चलाने पर, हमें नीचे दिखाए अनुसार प्रतिक्रिया मिलती है -
{
"tokens" : [
{
"token" : "it",
"start_offset" : 0,
"end_offset" : 2,
"type" : "word",
"position" : 0
},
{
"token" : "was",
"start_offset" : 3,
"end_offset" : 6,
"type" : "word",
"position" : 1
},
{
"token" : "a",
"start_offset" : 7,
"end_offset" : 8,
"type" : "word",
"position" : 2
},
{
"token" : "beautiful",
"start_offset" : 9,
"end_offset" : 18,
"type" : "word",
"position" : 3
},
{
"token" : "weather",
"start_offset" : 19,
"end_offset" : 26,
"type" : "word",
"position" : 4
},
{
"token" : "days",
"start_offset" : 29,
"end_offset" : 33,
"type" : "word",
"position" : 5
},
{
"token" : "ago",
"start_offset" : 34,
"end_offset" : 37,
"type" : "word",
"position" : 6
}
]
}
Tokenizers और उनके विवरण की एक सूची नीचे दी गई तालिका में दिखाई गई है -
S.No | टोकनर और विवरण |
---|---|
1 | Standard tokenizer (standard) यह व्याकरण आधारित टोकनर पर बनाया गया है और इस टोकन के लिए max_token_length को कॉन्फ़िगर किया जा सकता है। |
2 | Edge NGram tokenizer (edgeNGram) इस टोकन के लिए min_gram, max_gram, token_chars जैसी सेटिंग्स सेट की जा सकती हैं। |
3 | Keyword tokenizer (keyword) यह पूरे इनपुट को आउटपुट के रूप में उत्पन्न करता है और इसके लिए बफर_साइज़ को सेट किया जा सकता है। |
4 | Letter tokenizer (letter) यह पूरे शब्द को तब तक पकड़ता है जब तक कोई गैर-पत्र सामने नहीं आता है। |