TIKA - Umwelt

Dieses Kapitel führt Sie durch die Einrichtung von Apache Tika unter Windows und Linux. Bei der Installation von Apache Tika ist eine Benutzerverwaltung erforderlich.

System Anforderungen

JDK Java SE 2 JDK 1.6 oder höher
Erinnerung 1 GB RAM (empfohlen)
Festplattenplatz Keine Mindestanforderung
Betriebssystemversion Windows XP oder höher, Linux

Schritt 1: Überprüfen der Java-Installation

Öffnen Sie die Konsole und führen Sie die folgenden Schritte aus, um die Java-Installation zu überprüfen java Befehl.

Betriebssystem Aufgabe Befehl
Windows Öffnen Sie die Befehlskonsole \> Java-Version
Linux Befehlsterminal öffnen $ java –Version

Wenn Java ordnungsgemäß auf Ihrem System installiert wurde, sollten Sie abhängig von der Plattform, auf der Sie arbeiten, eine der folgenden Ausgaben erhalten.

Betriebssystem Ausgabe
Windows

Java-Version "1.7.0_60"

Java (TM) SE-Laufzeitumgebung (Build 1.7.0_60-b19)

Java Hotspot (TM) 64-Bit-Server-VM (Build 24.60-b09, gemischter Modus)

Lunix

Java-Version "1.7.0_25"

Öffnen Sie die JDK-Laufzeitumgebung (rhel-2.3.10.4.el6_4-x86_64).

Öffnen Sie die JDK 64-Bit-Server-VM (Build 23.7-b01, gemischter Modus).

  • Wir gehen davon aus, dass die Leser dieses Tutorials Java 1.7.0_60 auf ihrem System installiert haben, bevor sie mit diesem Tutorial fortfahren.

  • Falls Sie kein Java SDK haben, laden Sie die aktuelle Version von herunter https://www.oracle.com/technetwork/java/javase/downloads/index.html and have it installed.

Schritt 2: Einstellen der Java-Umgebung

Stellen Sie die Umgebungsvariable JAVA_HOME so ein, dass sie auf den Speicherort des Basisverzeichnisses verweist, in dem Java auf Ihrem Computer installiert ist. Zum Beispiel,

Betriebssystem Ausgabe
Windows Setzen Sie die Umgebungsvariable JAVA_HOME auf C: \ ProgramFiles \ java \ jdk1.7.0_60
Linux export JAVA_HOME = / usr / local / java-current

Hängen Sie den vollständigen Pfad des Java-Compiler-Speicherorts an den Systempfad an.

Betriebssystem Ausgabe
Windows Hänge den String an; C: \ Programme \ Java \ jdk1.7.0_60 \ bin bis zum Ende der Systemvariablen PATH.
Linux export PATH = $ PATH: $ JAVA_HOME / bin /

Überprüfen Sie den Befehl java-version an der Eingabeaufforderung wie oben erläutert.

Schritt 3: Einrichten der Apache Tika-Umgebung

Programmierer können Apache Tika mithilfe von in ihre Umgebung integrieren

  • Befehlszeile,
  • Tika API,
  • Befehlszeilenschnittstelle (CLI) von Tika,
  • Grafische Benutzeroberfläche (GUI) von Tika oder
  • der Quellcode.

Für jeden dieser Ansätze müssen Sie zunächst den Quellcode von Tika herunterladen.

Den Quellcode von Tika finden Sie unter https://Tika.apache.org/download.html, wo Sie zwei Links finden -

  • apache-tika-1.6-src.zip - Es enthält den Quellcode von Tika und

  • Tika -app-1.6.jar - Es ist eine JAR-Datei, die die Tika-Anwendung enthält.

Laden Sie diese beiden Dateien herunter. Ein Schnappschuss der offiziellen Website von Tika ist unten dargestellt.

Legen Sie nach dem Herunterladen der Dateien den Klassenpfad für die JAR-Datei fest tika-app-1.6.jar. Fügen Sie den vollständigen Pfad der JAR-Datei hinzu, wie in der folgenden Tabelle gezeigt.

Betriebssystem Ausgabe
Windows Hängen Sie die Zeichenfolge "C: \ jars \ Tika-app-1.6.jar" an die Benutzerumgebungsvariable CLASSPATH an
Linux

Export CLASSPATH = $ CLASSPATH -

/usr/share/jars/Tika-app-1.6.tar -

Apache bietet die Tika-Anwendung, eine grafische Benutzeroberfläche (GUI) mit Eclipse.

Tika-Maven Build mit Eclipse

  • Öffnen Sie Eclipse und erstellen Sie ein neues Projekt.

  • Wenn Sie Maven nicht in Ihrer Eclipse haben, richten Sie es ein, indem Sie die angegebenen Schritte ausführen.

    • Öffnen Sie den Link https://wiki.eclipse.org/M2E_updatesite_and_gittags . Dort finden Sie die m2e-Plugin-Releases in Tabellenform

  • Wählen Sie die neueste Version und speichern Sie den Pfad der URL in der Spalte p2 url.

  • Klicken Sie in der Menüleiste erneut auf Eclipse Help, und wähle Install New Software aus dem Dropdown-Menü

  • Drücke den AddGeben Sie auf die Schaltfläche einen beliebigen Namen ein, da dieser optional ist. Fügen Sie nun die gespeicherte URL in das Feld einLocation Feld.

  • Ein neues Plugin mit dem Namen, den Sie im vorherigen Schritt ausgewählt haben, wird hinzugefügt. Aktivieren Sie das Kontrollkästchen davor und klicken Sie auf Next.

  • Fahren Sie mit der Installation fort. Starten Sie die Eclipse nach Abschluss neu.

  • Klicken Sie nun mit der rechten Maustaste auf das Projekt und in das configure Option auswählen convert to maven project.

  • Ein neuer Assistent zum Erstellen eines neuen Poms wird angezeigt. Geben Sie die Gruppen-ID als org.apache.tika ein, geben Sie die neueste Version von Tika ein und wählen Sie die auspackaging als Glas und klicken Finish.

Das Maven-Projekt wurde erfolgreich installiert und Ihr Projekt wird in Maven konvertiert. Jetzt müssen Sie die Datei pom.xml konfigurieren.

Konfigurieren Sie die XML-Datei

Holen Sie sich die Tika Maven-Abhängigkeit vonhttps://mvnrepository.com/artifact/org.apache.tika

Unten ist die vollständige Maven-Abhängigkeit von Apache Tika dargestellt.

<dependency>
   <groupId>org.apache.Tika</groupId>
   <artifactId>Tika-core</artifactId>
   <version>1.6</version>

   <groupId>org.apache.Tika</groupId>
   <artifactId> Tika-parsers</artifactId>
   <version> 1.6</version>

   <groupId> org.apache.Tika</groupId>
   <artifactId>Tika</artifactId>
   <version>1.6</version>

   <groupId>org.apache.Tika</groupId>
   < artifactId>Tika-serialization</artifactId>
   < version>1.6< /version>

   < groupId>org.apache.Tika< /groupId>
   < artifactId>Tika-app< /artifactId>
   < version>1.6< /version>

   <groupId>org.apache.Tika</groupId>
   <artifactId>Tika-bundle</artifactId>
   <version>1.6</version>
</dependency>