Lucene - Análise
Em um de nossos capítulos anteriores, vimos que Lucene usa IndexWriter para analisar o (s) Documento (s) usando o Analyzer e, em seguida, cria / abre / edita índices conforme necessário. Neste capítulo, vamos discutir os vários tipos de objetos do Analyzer e outros objetos relevantes que são usados durante o processo de análise. Compreender o processo de Análise e como os analisadores funcionam lhe dará uma ótima visão sobre como o Lucene indexa os documentos.
A seguir está a lista de objetos que discutiremos no devido tempo.
| S.No. | Classe e descrição |
|---|---|
| 1 | Símbolo Token representa texto ou palavra em um documento com detalhes relevantes como seus metadados (posição, deslocamento inicial, deslocamento final, tipo de token e seu incremento de posição). |
| 2 | TokenStream TokenStream é uma saída do processo de análise e é composto por uma série de tokens. É uma classe abstrata. |
| 3 | Analisador Esta é uma classe base abstrata para todo e qualquer tipo de Analyzer. |
| 4 | WhitespaceAnalyzer Este analisador divide o texto em um documento com base em espaços em branco. |
| 5 | SimpleAnalyzer Este analisador divide o texto em um documento com base em caracteres que não são letras e coloca o texto em minúsculas. |
| 6 | StopAnalyzer Este analisador funciona como o SimpleAnalyzer e remove as palavras comuns como 'a', 'an', 'the', etc. |
| 7 | StandardAnalyzer Este é o analisador mais sofisticado e é capaz de lidar com nomes, endereços de e-mail, etc. Ele coloca cada token em minúsculas e remove palavras comuns e pontuações, se houver. |