एलेस्टिक्स खोज - विश्लेषण

जब खोज ऑपरेशन के दौरान किसी क्वेरी को संसाधित किया जाता है, तो विश्लेषण मॉड्यूल द्वारा किसी भी सूचकांक में सामग्री का विश्लेषण किया जाता है। इस मॉड्यूल में विश्लेषक, टोकनधारक, टोकनफिल्टर और चारफिल्टर शामिल हैं। यदि कोई विश्लेषक परिभाषित नहीं है, तो डिफ़ॉल्ट रूप से बिल्ट इन एनालाइज़र, टोकन, फ़िल्टर और टोकन विश्लेषक विश्लेषण मॉड्यूल के साथ पंजीकृत हो जाते हैं।

निम्नलिखित उदाहरण में, हम एक मानक विश्लेषक का उपयोग करते हैं जिसका उपयोग तब किया जाता है जब कोई अन्य विश्लेषक निर्दिष्ट नहीं होता है। यह व्याकरण पर आधारित वाक्य का विश्लेषण करेगा और वाक्य में प्रयुक्त शब्दों का उत्पादन करेगा।

POST _analyze
{
   "analyzer": "standard",
   "text": "Today's weather is beautiful"
}

उपरोक्त कोड चलाने पर, हमें नीचे दिखाए अनुसार प्रतिक्रिया मिलती है -

{
   "tokens" : [
      {
         "token" : "today's",
         "start_offset" : 0,
         "end_offset" : 7,
         "type" : "",
         "position" : 0
      },
      {
         "token" : "weather",
         "start_offset" : 8,
         "end_offset" : 15,
         "type" : "",
         "position" : 1
      },
      {
         "token" : "is",
         "start_offset" : 16,
         "end_offset" : 18,
         "type" : "",
         "position" : 2
      },
      {
         "token" : "beautiful",
         "start_offset" : 19,
         "end_offset" : 28,
         "type" : "",
         "position" : 3
      }
   ]
}

मानक विश्लेषक कॉन्फ़िगर करना

हम अपनी कस्टम आवश्यकताओं को प्राप्त करने के लिए विभिन्न मानकों के साथ मानक विश्लेषक को कॉन्फ़िगर कर सकते हैं।

निम्नलिखित उदाहरण में, हम मानक विश्लेषक को 5 के एक max_token_length के लिए कॉन्फ़िगर करते हैं।

इसके लिए, हम पहले विश्लेषक के साथ एक इंडेक्स बनाते हैं, जिसमें max_length_token पैरामीटर होता है।

PUT index_4_analysis
{
   "settings": {
      "analysis": {
         "analyzer": {
            "my_english_analyzer": {
               "type": "standard",
               "max_token_length": 5,
               "stopwords": "_english_"
            }
         }
      }
   }
}

आगे हम विश्लेषक को एक पाठ के साथ लागू करते हैं जैसा कि नीचे दिखाया गया है। कृपया ध्यान दें कि टोकन दिखाई नहीं देता है क्योंकि इसमें शुरुआत में दो स्थान और अंत में दो स्थान हैं। शब्द "के लिए" है, इसकी शुरुआत में एक स्थान है और इसके अंत में एक स्थान है। उन सभी को लेते हुए, यह रिक्त स्थान के साथ 4 अक्षर बन जाता है और यह इसे एक शब्द नहीं बनाता है। कम से कम शुरुआत या अंत में एक निरर्थक चरित्र होना चाहिए, जिससे इसे एक शब्द गिना जा सके।

POST index_4_analysis/_analyze
{
   "analyzer": "my_english_analyzer",
   "text": "Today's weather is beautiful"
}

उपरोक्त कोड चलाने पर, हमें नीचे दिखाए अनुसार प्रतिक्रिया मिलती है -

{
   "tokens" : [
      {
         "token" : "today",
         "start_offset" : 0,
         "end_offset" : 5,
         "type" : "",
         "position" : 0
      },
      {
         "token" : "s",
         "start_offset" : 6,
         "end_offset" : 7,
         "type" : "",
         "position" : 1
      },
      {
         "token" : "weath",
         "start_offset" : 8,
         "end_offset" : 13,
         "type" : "",
         "position" : 2
      },
      {
         "token" : "er",
         "start_offset" : 13,
         "end_offset" : 15,
         "type" : "",
         "position" : 3
      },
      {
         "token" : "beaut",
         "start_offset" : 19,
         "end_offset" : 24,
         "type" : "",
         "position" : 5
      },
      {
         "token" : "iful",
         "start_offset" : 24,
         "end_offset" : 28,
         "type" : "",
         "position" : 6
      }
   ]
}

विभिन्न विश्लेषणकर्ताओं की सूची और उनका विवरण नीचे दी गई तालिका में दिया गया है -

S.No विश्लेषक और विवरण
1

Standard analyzer (standard)

इस विश्लेषक के लिए stopwords और max_token_length सेटिंग सेट की जा सकती है। डिफ़ॉल्ट रूप से, स्टॉपवार्ड सूची खाली है और अधिकतम_टोकन_लॉन्ग 255 है।

2

Simple analyzer (simple)

यह विश्लेषक लोअरकेस टोकेनाइज़र से बना है।

3

Whitespace analyzer (whitespace)

यह विश्लेषक व्हॉट्सएप टोकन से बना है।

4

Stop analyzer (stop)

stopwords और stopwords_path को कॉन्फ़िगर किया जा सकता है। डिफ़ॉल्ट रूप से अंग्रेजी स्टॉप शब्दों के लिए प्रारंभिक स्टॉपमार्क और स्टॉप वर्ड्स_पथ में स्टॉप शब्दों के साथ एक टेक्स्ट फ़ाइल का पथ होता है।

Tokenizers

टोकनसाइज़र का उपयोग एलिस्टिक्स खोज में एक पाठ से टोकन उत्पन्न करने के लिए किया जाता है। व्हॉट्सएप या अन्य विराम चिह्नों को ध्यान में रखकर पाठ को टोकन में तोड़ा जा सकता है। इलास्टिसर्च में बहुत सारे अंतर्निर्मित टोकन हैं, जिनका उपयोग कस्टम विश्लेषक में किया जा सकता है।

टोकन का एक उदाहरण जो पाठ को शब्दों में तोड़ता है जब भी यह एक ऐसे चरित्र का सामना करता है जो एक अक्षर नहीं है, लेकिन यह सभी शर्तों को कम करता है, नीचे दिखाया गया है -

POST _analyze
{
   "tokenizer": "lowercase",
   "text": "It Was a Beautiful Weather 5 Days ago."
}

उपरोक्त कोड चलाने पर, हमें नीचे दिखाए अनुसार प्रतिक्रिया मिलती है -

{
   "tokens" : [
      {
         "token" : "it",
         "start_offset" : 0,
         "end_offset" : 2,
         "type" : "word",
         "position" : 0
      },
      {
         "token" : "was",
         "start_offset" : 3,
         "end_offset" : 6,
         "type" : "word",
         "position" : 1
      },
      {
         "token" : "a",
         "start_offset" : 7,
         "end_offset" : 8,
         "type" : "word",
         "position" : 2
      },
      {
         "token" : "beautiful",
         "start_offset" : 9,
         "end_offset" : 18,
         "type" : "word",
         "position" : 3
      },
      {
         "token" : "weather",
         "start_offset" : 19,
         "end_offset" : 26,
         "type" : "word",
         "position" : 4
      },
      {
         "token" : "days",
         "start_offset" : 29,
         "end_offset" : 33,
         "type" : "word",
         "position" : 5
      },
      {
         "token" : "ago",
         "start_offset" : 34,
         "end_offset" : 37,
         "type" : "word",
         "position" : 6
      }
   ]
}

Tokenizers और उनके विवरण की एक सूची नीचे दी गई तालिका में दिखाई गई है -

S.No टोकनर और विवरण
1

Standard tokenizer (standard)

यह व्याकरण आधारित टोकनर पर बनाया गया है और इस टोकन के लिए max_token_length को कॉन्फ़िगर किया जा सकता है।

2

Edge NGram tokenizer (edgeNGram)

इस टोकन के लिए min_gram, max_gram, token_chars जैसी सेटिंग्स सेट की जा सकती हैं।

3

Keyword tokenizer (keyword)

यह पूरे इनपुट को आउटपुट के रूप में उत्पन्न करता है और इसके लिए बफर_साइज़ को सेट किया जा सकता है।

4

Letter tokenizer (letter)

यह पूरे शब्द को तब तक पकड़ता है जब तक कोई गैर-पत्र सामने नहीं आता है।