TIKA - Architektur
Architektur auf Anwendungsebene von Tika
Anwendungsprogrammierer können Tika problemlos in ihre Anwendungen integrieren. Tika bietet eine Befehlszeilenschnittstelle und eine grafische Benutzeroberfläche, um sie benutzerfreundlich zu gestalten.
In diesem Kapitel werden wir die vier wichtigen Module diskutieren, die die Tika-Architektur ausmachen. Die folgende Abbildung zeigt die Architektur von Tika mit seinen vier Modulen -
- Spracherkennungsmechanismus.
- MIME-Erkennungsmechanismus.
- Parser-Schnittstelle.
- Tika Fassadenklasse.
Spracherkennungsmechanismus
Immer wenn ein Textdokument an Tika übergeben wird, erkennt es die Sprache, in der es geschrieben wurde. Es akzeptiert Dokumente ohne Sprachanmerkung und fügt diese Informationen in die Metadaten des Dokuments ein, indem die Sprache erkannt wird.
Zur Unterstützung der Sprachidentifikation hat Tika eine Klasse namens Language Identifier im Paket org.apache.tika.languageund ein Sprachidentifikations-Repository, das Algorithmen zur Spracherkennung aus einem gegebenen Text enthält. Tika verwendet intern den N-Gramm-Algorithmus zur Spracherkennung.
MIME-Erkennungsmechanismus
Tika kann den Dokumenttyp gemäß den MIME-Standards erkennen. Die Standarderkennung des MIME-Typs in Tika erfolgt mit org.apache.tika.mime.mimeTypes . Es verwendet die Schnittstelle org.apache.tika.detect.Detector für den größten Teil der Erkennung von Inhaltstypen.
Intern verwendet Tika verschiedene Techniken wie Dateiglob, Hinweise zum Inhaltstyp, magische Bytes, Zeichencodierungen und verschiedene andere Techniken.
Parser-Schnittstelle
Die Parser-Schnittstelle von org.apache.tika.parser ist die Schlüsselschnittstelle zum Parsen von Dokumenten in Tika. Diese Schnittstelle extrahiert den Text und die Metadaten aus einem Dokument und fasst sie für externe Benutzer zusammen, die bereit sind, Parser-Plugins zu schreiben.
Tika verwendet verschiedene konkrete Parser-Klassen, die für einzelne Dokumenttypen spezifisch sind, und unterstützt viele Dokumentformate. Diese formatspezifischen Klassen bieten Unterstützung für verschiedene Dokumentformate, entweder durch direkte Implementierung der Parser-Logik oder durch Verwendung externer Parser-Bibliotheken.
Tika Fassadenklasse
Die Verwendung der Tika-Fassadenklasse ist die einfachste und direkteste Methode, um Tika von Java aus aufzurufen, und folgt dem Muster der Fassadengestaltung. Sie finden die Tika-Fassadenklasse im Paket org.apache.tika der Tika-API.
Durch die Implementierung grundlegender Anwendungsfälle fungiert Tika als Vermittler von Landschaft. Es abstrahiert die zugrunde liegende Komplexität der Tika-Bibliothek wie den MIME-Erkennungsmechanismus, die Parser-Schnittstelle und den Spracherkennungsmechanismus und bietet den Benutzern eine einfache Benutzeroberfläche.
Eigenschaften von Tika
Unified parser Interface- Tika kapselt alle Parser-Bibliotheken von Drittanbietern in einer einzigen Parser-Schnittstelle. Aufgrund dieser Funktion entgeht der Benutzer der Last, die geeignete Parser-Bibliothek auszuwählen und entsprechend dem gefundenen Dateityp zu verwenden.
Low memory usage- Tika verbraucht weniger Speicherressourcen und kann daher problemlos in Java-Anwendungen eingebettet werden. Wir können Tika auch in der Anwendung verwenden, die auf Plattformen mit weniger Ressourcen wie mobilen PDAs ausgeführt wird.
Fast processing - Eine schnelle Erkennung und Extraktion von Inhalten aus Anwendungen ist zu erwarten.
Flexible metadata - Tika versteht alle Metadatenmodelle, die zur Beschreibung von Dateien verwendet werden.
Parser integration - Tika kann verschiedene Parser-Bibliotheken verwenden, die für jeden Dokumenttyp in einer einzigen Anwendung verfügbar sind.
MIME type detection - Tika kann Inhalte aus allen in den MIME-Standards enthaltenen Medientypen erkennen und extrahieren.
Language detection - Tika enthält eine Sprachidentifizierungsfunktion und kann daher in Dokumenten verwendet werden, die auf dem Sprachtyp einer mehrsprachigen Website basieren.
Funktionen von Tika
Tika unterstützt verschiedene Funktionen -
- Dokumenttyperkennung
- Extraktion von Inhalten
- Metadatenextraktion
- Spracherkennung
Dokumenttyperkennung
Tika verwendet verschiedene Erkennungstechniken und erkennt den Typ des ihm gegebenen Dokuments.
Extraktion von Inhalten
Tika verfügt über eine Parser-Bibliothek, mit der der Inhalt verschiedener Dokumentformate analysiert und extrahiert werden kann. Nachdem der Dokumenttyp erkannt wurde, wählt er den entsprechenden Parser aus dem Parser-Repository aus und übergibt das Dokument. Verschiedene Klassen von Tika haben Methoden, um verschiedene Dokumentformate zu analysieren.
Metadatenextraktion
Zusammen mit dem Inhalt extrahiert Tika die Metadaten des Dokuments nach dem gleichen Verfahren wie beim Extrahieren von Inhalten. Für einige Dokumenttypen verfügt Tika über Klassen zum Extrahieren von Metadaten.
Spracherkennung
Intern folgt Tika Algorithmen wie n-gramum die Sprache des Inhalts in einem bestimmten Dokument zu erkennen. Tika hängt von Klassen wie abLanguageidentifier und Profiler zur Sprachidentifikation.