Elasticsearch-분석
검색 작업 중에 쿼리가 처리되면 모든 인덱스의 콘텐츠가 분석 모듈에 의해 분석됩니다. 이 모듈은 분석기, 토크 나이저, 토큰 필터 및 문자 필터로 구성됩니다. 분석기가 정의되어 있지 않으면 기본적으로 내장 분석기, 토큰, 필터 및 토크 나이저가 분석 모듈에 등록됩니다.
다음 예에서는 다른 분석기가 지정되지 않은 경우 사용되는 표준 분석기를 사용합니다. 문법에 따라 문장을 분석하고 문장에 사용 된 단어를 생성합니다.
POST _analyze
{
"analyzer": "standard",
"text": "Today's weather is beautiful"
}
위의 코드를 실행하면 아래와 같은 응답을받습니다.
{
"tokens" : [
{
"token" : "today's",
"start_offset" : 0,
"end_offset" : 7,
"type" : "",
"position" : 0
},
{
"token" : "weather",
"start_offset" : 8,
"end_offset" : 15,
"type" : "",
"position" : 1
},
{
"token" : "is",
"start_offset" : 16,
"end_offset" : 18,
"type" : "",
"position" : 2
},
{
"token" : "beautiful",
"start_offset" : 19,
"end_offset" : 28,
"type" : "",
"position" : 3
}
]
}
표준 분석기 구성
맞춤형 요구 사항을 얻기 위해 다양한 매개 변수로 표준 분석기를 구성 할 수 있습니다.
다음 예에서는 max_token_length가 5가되도록 표준 분석기를 구성합니다.
이를 위해 먼저 max_length_token 매개 변수가있는 분석기로 인덱스를 생성합니다.
PUT index_4_analysis
{
"settings": {
"analysis": {
"analyzer": {
"my_english_analyzer": {
"type": "standard",
"max_token_length": 5,
"stopwords": "_english_"
}
}
}
}
}
다음으로 아래와 같이 텍스트로 분석기를 적용합니다. 토큰은 처음에 두 개의 공백과 끝에 두 개의 공백이 있기 때문에 표시되지 않습니다. "is"라는 단어의 경우 시작 부분에 공백이 있고 끝 부분에 공백이 있습니다. 모두 가져 가면 공백이있는 4 글자가되어 단어가되지 않습니다. 계산할 단어로 만들려면 적어도 시작 또는 끝에 공백이 아닌 문자가 있어야합니다.
POST index_4_analysis/_analyze
{
"analyzer": "my_english_analyzer",
"text": "Today's weather is beautiful"
}
위의 코드를 실행하면 아래와 같은 응답을받습니다.
{
"tokens" : [
{
"token" : "today",
"start_offset" : 0,
"end_offset" : 5,
"type" : "",
"position" : 0
},
{
"token" : "s",
"start_offset" : 6,
"end_offset" : 7,
"type" : "",
"position" : 1
},
{
"token" : "weath",
"start_offset" : 8,
"end_offset" : 13,
"type" : "",
"position" : 2
},
{
"token" : "er",
"start_offset" : 13,
"end_offset" : 15,
"type" : "",
"position" : 3
},
{
"token" : "beaut",
"start_offset" : 19,
"end_offset" : 24,
"type" : "",
"position" : 5
},
{
"token" : "iful",
"start_offset" : 24,
"end_offset" : 28,
"type" : "",
"position" : 6
}
]
}
다양한 분석기 목록과 설명은 아래 표에 나와 있습니다.
S. 아니 | 분석기 및 설명 |
---|---|
1 |
Standard analyzer (standard) 이 분석기에 불용어 및 max_token_length 설정을 설정할 수 있습니다. 기본적으로 불용어 목록은 비어 있고 max_token_length는 255입니다. |
2 |
Simple analyzer (simple) 이 분석기는 소문자 토크 나이저로 구성됩니다. |
삼 |
Whitespace analyzer (whitespace) 이 분석기는 공백 토크 나이저로 구성됩니다. |
4 |
Stop analyzer (stop) stopwords 및 stopwords_path를 구성 할 수 있습니다. 기본적으로 불용어는 영어 불용어로 초기화되고 불용어는 불용어가있는 텍스트 파일에 대한 경로를 포함합니다. |
토크 나이저
Tokenizer는 Elasticsearch의 텍스트에서 토큰을 생성하는 데 사용됩니다. 공백이나 기타 구두점을 고려하여 텍스트를 토큰으로 나눌 수 있습니다. Elasticsearch에는 사용자 지정 분석기에서 사용할 수있는 많은 내장 토크 나이저가 있습니다.
문자가 아닌 문자를 만날 때마다 텍스트를 용어로 나누는 토크 나이저의 예는 다음과 같습니다.
POST _analyze
{
"tokenizer": "lowercase",
"text": "It Was a Beautiful Weather 5 Days ago."
}
위의 코드를 실행하면 아래와 같은 응답을받습니다.
{
"tokens" : [
{
"token" : "it",
"start_offset" : 0,
"end_offset" : 2,
"type" : "word",
"position" : 0
},
{
"token" : "was",
"start_offset" : 3,
"end_offset" : 6,
"type" : "word",
"position" : 1
},
{
"token" : "a",
"start_offset" : 7,
"end_offset" : 8,
"type" : "word",
"position" : 2
},
{
"token" : "beautiful",
"start_offset" : 9,
"end_offset" : 18,
"type" : "word",
"position" : 3
},
{
"token" : "weather",
"start_offset" : 19,
"end_offset" : 26,
"type" : "word",
"position" : 4
},
{
"token" : "days",
"start_offset" : 29,
"end_offset" : 33,
"type" : "word",
"position" : 5
},
{
"token" : "ago",
"start_offset" : 34,
"end_offset" : 37,
"type" : "word",
"position" : 6
}
]
}
Tokenizer 목록과 그 설명은 아래 표에 나와 있습니다.
S. 아니 | 토크 나이저 및 설명 |
---|---|
1 |
Standard tokenizer (standard) 이것은 문법 기반 토크 나이저를 기반으로하며이 토크 나이저에 대해 max_token_length를 구성 할 수 있습니다. |
2 |
Edge NGram tokenizer (edgeNGram) 이 토크 나이저에 대해 min_gram, max_gram, token_chars와 같은 설정을 설정할 수 있습니다. |
삼 |
Keyword tokenizer (keyword) 이것은 전체 입력을 출력으로 생성하고이를 위해 buffer_size를 설정할 수 있습니다. |
4 |
Letter tokenizer (letter) 이것은 문자가 아닌 것을 만날 때까지 전체 단어를 캡처합니다. |