Lucene - Indizierungsklassen

Der Indexierungsprozess ist eine der Kernfunktionen von Lucene. Das folgende Diagramm zeigt den Indizierungsprozess und die Verwendung von Klassen.IndexWriter ist die wichtigste und zentrale Komponente des Indexierungsprozesses.

Wir fügen hinzu Document(s) enthält Field(s) an IndexWriter, der die Document(s) Verwendung der Analyzer und erstellt / öffnet / bearbeitet dann Indizes nach Bedarf und speichert / aktualisiert sie in a Directory. IndexWriter wird zum Aktualisieren oder Erstellen von Indizes verwendet. Es wird nicht zum Lesen von Indizes verwendet.

Indizierungsklassen

Im Folgenden finden Sie eine Liste häufig verwendeter Klassen während des Indizierungsprozesses.

S.No. Klasse & Beschreibung
1 IndexWriter

Diese Klasse fungiert als Kernkomponente, die während des Indizierungsprozesses Indizes erstellt / aktualisiert.

2 Verzeichnis

Diese Klasse repräsentiert den Speicherort der Indizes.

3 Analysator

Diese Klasse ist dafür verantwortlich, ein Dokument zu analysieren und die Token / Wörter aus dem zu indizierenden Text zu erhalten. Ohne Analyse kann IndexWriter keinen Index erstellen.

4 Dokument

Diese Klasse stellt ein virtuelles Dokument mit Feldern dar, wobei das Feld ein Objekt ist, das den Inhalt des physischen Dokuments, seine Metadaten usw. enthalten kann. Der Analysator kann nur ein Dokument verstehen.

5 Feld

Dies ist die niedrigste Einheit oder der Ausgangspunkt des Indexierungsprozesses. Es stellt die Schlüsselwertpaarbeziehung dar, bei der ein Schlüssel verwendet wird, um den zu indizierenden Wert zu identifizieren. Nehmen wir an, ein Feld, das zur Darstellung des Inhalts eines Dokuments verwendet wird, hat den Schlüssel "Inhalt" und der Wert kann den gesamten oder den gesamten Text oder den numerischen Inhalt des Dokuments enthalten. Lucene kann nur Text oder numerischen Inhalt indizieren.