TIKA - Ambiente

Questo capitolo ti guida attraverso il processo di configurazione di Apache Tika su Windows e Linux. È necessaria l'amministrazione degli utenti durante l'installazione di Apache Tika.

Requisiti di sistema

JDK Java SE 2 JDK 1.6 o successivo
Memoria 1 GB di RAM (consigliato)
Spazio sul disco Nessun requisito minimo
Versione del sistema operativo Windows XP o successivo, Linux

Passaggio 1: verifica dell'installazione di Java

Per verificare l'installazione di Java, aprire la console ed eseguire quanto segue java comando.

OS Compito Comando
finestre Apri la console dei comandi \> java –version
Linux Apri il terminale di comando $ java –version

Se Java è stato installato correttamente sul tuo sistema, dovresti ottenere uno dei seguenti output, a seconda della piattaforma su cui stai lavorando.

OS Produzione
finestre

Versione Java "1.7.0_60"

Java (TM) SE Run Time Environment (build 1.7.0_60-b19)

VM server Java Hotspot (TM) a 64 bit (build 24.60-b09, modalità mista)

Lunix

versione java "1.7.0_25"

Aprire JDK Runtime Environment (rhel-2.3.10.4.el6_4-x86_64)

Apri la VM server JDK a 64 bit (build 23.7-b01, modalità mista)

  • Si presume che i lettori di questo tutorial abbiano Java 1.7.0_60 installato sul proprio sistema prima di procedere con questo tutorial.

  • Se non disponi di Java SDK, scarica la versione corrente da https://www.oracle.com/technetwork/java/javase/downloads/index.html and have it installed.

Passaggio 2: impostazione dell'ambiente Java

Impostare la variabile di ambiente JAVA_HOME in modo che punti alla posizione della directory di base in cui Java è installato sulla macchina. Per esempio,

OS Produzione
finestre Imposta la variabile ambientale JAVA_HOME su C: \ ProgramFiles \ java \ jdk1.7.0_60
Linux export JAVA_HOME = / usr / local / java-current

Aggiungi il percorso completo della posizione del compilatore Java al percorso di sistema.

OS Produzione
finestre Aggiungi la stringa; C: \ Program Files \ Java \ jdk1.7.0_60 \ bin alla fine della variabile di sistema PATH.
Linux export PATH = $ PATH: $ JAVA_HOME / bin /

Verificare il comando java-version dal prompt dei comandi come spiegato sopra.

Passaggio 3: configurazione dell'ambiente Apache Tika

I programmatori possono integrare Apache Tika nel loro ambiente utilizzando

  • Riga di comando,
  • Tika API,
  • Interfaccia a riga di comando (CLI) di Tika,
  • Interfaccia utente grafica (GUI) di Tika, o
  • il codice sorgente.

Per ognuno di questi approcci, prima di tutto, devi scaricare il codice sorgente di Tika.

Troverai il codice sorgente di Tika su https://Tika.apache.org/download.html, dove troverai due link:

  • apache-tika-1.6-src.zip - Contiene il codice sorgente di Tika e

  • Tika -app-1.6.jar - È un file jar che contiene l'applicazione Tika.

Scarica questi due file. Di seguito è mostrata un'istantanea del sito ufficiale di Tika.

Dopo aver scaricato i file, impostare il percorso di classe per il file jar tika-app-1.6.jar. Aggiungi il percorso completo del file jar come mostrato nella tabella sottostante.

OS Produzione
finestre Aggiungi la stringa "C: \ jars \ Tika-app-1.6.jar" alla variabile di ambiente utente CLASSPATH
Linux

Esporta CLASSPATH = $ CLASSPATH -

/usr/share/jars/Tika-app-1.6.tar -

Apache fornisce l'applicazione Tika, un'applicazione GUI (Graphical User Interface) che utilizza Eclipse.

Tika-Maven Build utilizzando Eclipse

  • Apri eclipse e crea un nuovo progetto.

  • Se non hai Maven nel tuo Eclipse, configuralo seguendo i passaggi indicati.

    • Apri il link https://wiki.eclipse.org/M2E_updatesite_and_gittags . Lì troverai le versioni del plugin m2e in formato tabulare

  • Scegli l'ultima versione e salva il percorso dell'URL nella colonna p2 url.

  • Ora rivisita eclipse, nella barra dei menu, fai clic su Helpe scegli Install New Software dal menu a tendina

  • Clicca il Addpulsante, digitare il nome desiderato, poiché è facoltativo. Ora incolla l'URL salvato nel fileLocation campo.

  • Verrà aggiunto un nuovo plug-in con il nome che hai scelto nel passaggio precedente, seleziona la casella di controllo davanti e fai clic su Next.

  • Procedi con l'installazione. Una volta completato, riavvia Eclipse.

  • Ora fai clic con il pulsante destro del mouse sul progetto e nel file configure opzione, selezionare convert to maven project.

  • Viene visualizzata una nuova procedura guidata per la creazione di un nuovo pom. Inserisci l'ID gruppo come org.apache.tika, inserisci l'ultima versione di Tika, seleziona il filepackaging come barattolo e fare clic su Finish.

Il progetto Maven viene installato correttamente e il progetto viene convertito in Maven. Ora devi configurare il file pom.xml.

Configura il file XML

Ottieni la dipendenza da Tika dahttps://mvnrepository.com/artifact/org.apache.tika

Di seguito è mostrata la completa dipendenza Maven di Apache Tika.

<dependency>
   <groupId>org.apache.Tika</groupId>
   <artifactId>Tika-core</artifactId>
   <version>1.6</version>

   <groupId>org.apache.Tika</groupId>
   <artifactId> Tika-parsers</artifactId>
   <version> 1.6</version>

   <groupId> org.apache.Tika</groupId>
   <artifactId>Tika</artifactId>
   <version>1.6</version>

   <groupId>org.apache.Tika</groupId>
   < artifactId>Tika-serialization</artifactId>
   < version>1.6< /version>

   < groupId>org.apache.Tika< /groupId>
   < artifactId>Tika-app< /artifactId>
   < version>1.6< /version>

   <groupId>org.apache.Tika</groupId>
   <artifactId>Tika-bundle</artifactId>
   <version>1.6</version>
</dependency>