Elasticsearch-분석

검색 작업 중에 쿼리가 처리되면 모든 인덱스의 콘텐츠가 분석 모듈에 의해 분석됩니다. 이 모듈은 분석기, 토크 나이저, 토큰 필터 및 문자 필터로 구성됩니다. 분석기가 정의되어 있지 않으면 기본적으로 내장 분석기, 토큰, 필터 및 토크 나이저가 분석 모듈에 등록됩니다.

다음 예에서는 다른 분석기가 지정되지 않은 경우 사용되는 표준 분석기를 사용합니다. 문법에 따라 문장을 분석하고 문장에 사용 된 단어를 생성합니다.

POST _analyze
{
   "analyzer": "standard",
   "text": "Today's weather is beautiful"
}

위의 코드를 실행하면 아래와 같은 응답을받습니다.

{
   "tokens" : [
      {
         "token" : "today's",
         "start_offset" : 0,
         "end_offset" : 7,
         "type" : "",
         "position" : 0
      },
      {
         "token" : "weather",
         "start_offset" : 8,
         "end_offset" : 15,
         "type" : "",
         "position" : 1
      },
      {
         "token" : "is",
         "start_offset" : 16,
         "end_offset" : 18,
         "type" : "",
         "position" : 2
      },
      {
         "token" : "beautiful",
         "start_offset" : 19,
         "end_offset" : 28,
         "type" : "",
         "position" : 3
      }
   ]
}

표준 분석기 구성

맞춤형 요구 사항을 얻기 위해 다양한 매개 변수로 표준 분석기를 구성 할 수 있습니다.

다음 예에서는 max_token_length가 5가되도록 표준 분석기를 구성합니다.

이를 위해 먼저 max_length_token 매개 변수가있는 분석기로 인덱스를 생성합니다.

PUT index_4_analysis
{
   "settings": {
      "analysis": {
         "analyzer": {
            "my_english_analyzer": {
               "type": "standard",
               "max_token_length": 5,
               "stopwords": "_english_"
            }
         }
      }
   }
}

다음으로 아래와 같이 텍스트로 분석기를 적용합니다. 토큰은 처음에 두 개의 공백과 끝에 두 개의 공백이 있기 때문에 표시되지 않습니다. "is"라는 단어의 경우 시작 부분에 공백이 있고 끝 부분에 공백이 있습니다. 모두 가져 가면 공백이있는 4 글자가되어 단어가되지 않습니다. 계산할 단어로 만들려면 적어도 시작 또는 끝에 공백이 아닌 문자가 있어야합니다.

POST index_4_analysis/_analyze
{
   "analyzer": "my_english_analyzer",
   "text": "Today's weather is beautiful"
}

위의 코드를 실행하면 아래와 같은 응답을받습니다.

{
   "tokens" : [
      {
         "token" : "today",
         "start_offset" : 0,
         "end_offset" : 5,
         "type" : "",
         "position" : 0
      },
      {
         "token" : "s",
         "start_offset" : 6,
         "end_offset" : 7,
         "type" : "",
         "position" : 1
      },
      {
         "token" : "weath",
         "start_offset" : 8,
         "end_offset" : 13,
         "type" : "",
         "position" : 2
      },
      {
         "token" : "er",
         "start_offset" : 13,
         "end_offset" : 15,
         "type" : "",
         "position" : 3
      },
      {
         "token" : "beaut",
         "start_offset" : 19,
         "end_offset" : 24,
         "type" : "",
         "position" : 5
      },
      {
         "token" : "iful",
         "start_offset" : 24,
         "end_offset" : 28,
         "type" : "",
         "position" : 6
      }
   ]
}

다양한 분석기 목록과 설명은 아래 표에 나와 있습니다.

S. 아니 분석기 및 설명
1

Standard analyzer (standard)

이 분석기에 불용어 및 max_token_length 설정을 설정할 수 있습니다. 기본적으로 불용어 목록은 비어 있고 max_token_length는 255입니다.

2

Simple analyzer (simple)

이 분석기는 소문자 토크 나이저로 구성됩니다.

Whitespace analyzer (whitespace)

이 분석기는 공백 토크 나이저로 구성됩니다.

4

Stop analyzer (stop)

stopwords 및 stopwords_path를 구성 할 수 있습니다. 기본적으로 불용어는 영어 불용어로 초기화되고 불용어는 불용어가있는 텍스트 파일에 대한 경로를 포함합니다.

토크 나이저

Tokenizer는 Elasticsearch의 텍스트에서 토큰을 생성하는 데 사용됩니다. 공백이나 기타 구두점을 고려하여 텍스트를 토큰으로 나눌 수 있습니다. Elasticsearch에는 사용자 지정 분석기에서 사용할 수있는 많은 내장 토크 나이저가 있습니다.

문자가 아닌 문자를 만날 때마다 텍스트를 용어로 나누는 토크 나이저의 예는 다음과 같습니다.

POST _analyze
{
   "tokenizer": "lowercase",
   "text": "It Was a Beautiful Weather 5 Days ago."
}

위의 코드를 실행하면 아래와 같은 응답을받습니다.

{
   "tokens" : [
      {
         "token" : "it",
         "start_offset" : 0,
         "end_offset" : 2,
         "type" : "word",
         "position" : 0
      },
      {
         "token" : "was",
         "start_offset" : 3,
         "end_offset" : 6,
         "type" : "word",
         "position" : 1
      },
      {
         "token" : "a",
         "start_offset" : 7,
         "end_offset" : 8,
         "type" : "word",
         "position" : 2
      },
      {
         "token" : "beautiful",
         "start_offset" : 9,
         "end_offset" : 18,
         "type" : "word",
         "position" : 3
      },
      {
         "token" : "weather",
         "start_offset" : 19,
         "end_offset" : 26,
         "type" : "word",
         "position" : 4
      },
      {
         "token" : "days",
         "start_offset" : 29,
         "end_offset" : 33,
         "type" : "word",
         "position" : 5
      },
      {
         "token" : "ago",
         "start_offset" : 34,
         "end_offset" : 37,
         "type" : "word",
         "position" : 6
      }
   ]
}

Tokenizer 목록과 그 설명은 아래 표에 나와 있습니다.

S. 아니 토크 나이저 및 설명
1

Standard tokenizer (standard)

이것은 문법 기반 토크 나이저를 기반으로하며이 토크 나이저에 대해 max_token_length를 구성 할 수 있습니다.

2

Edge NGram tokenizer (edgeNGram)

이 토크 나이저에 대해 min_gram, max_gram, token_chars와 같은 설정을 설정할 수 있습니다.

Keyword tokenizer (keyword)

이것은 전체 입력을 출력으로 생성하고이를 위해 buffer_size를 설정할 수 있습니다.

4

Letter tokenizer (letter)

이것은 문자가 아닌 것을 만날 때까지 전체 단어를 캡처합니다.