TIKA - Environnement

Ce chapitre vous guide tout au long du processus de configuration d'Apache Tika sous Windows et Linux. L'administration des utilisateurs est nécessaire lors de l'installation d'Apache Tika.

Configuration requise

JDK Java SE 2 JDK 1.6 ou supérieur
Mémoire 1 Go de RAM (recommandé)
Espace disque Aucune exigence minimale
Version du système d'exploitation Windows XP ou supérieur, Linux

Étape 1: vérification de l'installation de Java

Pour vérifier l'installation de Java, ouvrez la console et exécutez ce qui suit java commander.

OS Tâche Commander
les fenêtres Ouvrir la console de commande \> java –version
Linux Ouvrir le terminal de commande $ java –version

Si Java a été correctement installé sur votre système, vous devriez obtenir l'une des sorties suivantes, en fonction de la plate-forme sur laquelle vous travaillez.

OS Production
les fenêtres

Version Java "1.7.0_60"

Environnement d'exécution Java (TM) SE (build 1.7.0_60-b19)

VM serveur 64 bits Java Hotspot (TM) (build 24.60-b09, mode mixte)

Lunix

version java "1.7.0_25"

Ouvrir l'environnement d'exécution JDK (rhel-2.3.10.4.el6_4-x86_64)

Ouvrez la machine virtuelle du serveur JDK 64 bits (build 23.7-b01, mode mixte)

  • Nous supposons que les lecteurs de ce didacticiel ont installé Java 1.7.0_60 sur leur système avant de poursuivre ce didacticiel.

  • Si vous ne disposez pas du SDK Java, téléchargez sa version actuelle sur https://www.oracle.com/technetwork/java/javase/downloads/index.html and have it installed.

Étape 2: Configuration de l'environnement Java

Définissez la variable d'environnement JAVA_HOME pour qu'elle pointe vers l'emplacement du répertoire de base où Java est installé sur votre machine. Par exemple,

OS Production
les fenêtres Définissez la variable d'environnement JAVA_HOME sur C: \ ProgramFiles \ java \ jdk1.7.0_60
Linux export JAVA_HOME = / usr / local / java-current

Ajoutez le chemin complet de l'emplacement du compilateur Java au chemin système.

OS Production
les fenêtres Ajoutez la chaîne; C: \ Program Files \ Java \ jdk1.7.0_60 \ bin à la fin de la variable système PATH.
Linux export PATH = $ PATH: $ JAVA_HOME / bin /

Vérifiez la commande java-version à partir de l'invite de commande comme expliqué ci-dessus.

Étape 3: Configuration de l'environnement Apache Tika

Les programmeurs peuvent intégrer Apache Tika dans leur environnement en utilisant

  • Ligne de commande,
  • API Tika,
  • Interface de ligne de commande (CLI) de Tika,
  • Interface utilisateur graphique (GUI) de Tika, ou
  • le code source.

Pour l'une de ces approches, tout d'abord, vous devez télécharger le code source de Tika.

Vous trouverez le code source de Tika sur https://Tika.apache.org/download.html, où vous trouverez deux liens -

  • apache-tika-1.6-src.zip - Il contient le code source de Tika, et

  • Tika -app-1.6.jar - C'est un fichier jar qui contient l'application Tika.

Téléchargez ces deux fichiers. Un aperçu du site officiel de Tika est présenté ci-dessous.

Après avoir téléchargé les fichiers, définissez le chemin d'accès aux classes pour le fichier jar tika-app-1.6.jar. Ajoutez le chemin complet du fichier jar comme indiqué dans le tableau ci-dessous.

OS Production
les fenêtres Ajoutez la chaîne «C: \ jars \ Tika-app-1.6.jar» à la variable d'environnement utilisateur CLASSPATH
Linux

Exporter CLASSPATH = $ CLASSPATH -

/usr/share/jars/Tika-app-1.6.tar -

Apache fournit l'application Tika, une application d'interface utilisateur graphique (GUI) utilisant Eclipse.

Construire Tika-Maven avec Eclipse

  • Ouvrez eclipse et créez un nouveau projet.

  • Si vous n'avez pas Maven dans votre Eclipse, configurez-le en suivant les étapes indiquées.

    • Ouvrez le lien https://wiki.eclipse.org/M2E_updatesite_and_gittags . Vous y trouverez les versions du plugin m2e dans un format tabulaire

  • Choisissez la dernière version et enregistrez le chemin de l'url dans la colonne url p2.

  • Maintenant, revisitez eclipse, dans la barre de menu, cliquez sur Help, et choisissez Install New Software dans le menu déroulant

  • Clique le Add, tapez le nom souhaité, car il est facultatif. Collez maintenant l'URL enregistrée dans leLocation champ.

  • Un nouveau plugin sera ajouté avec le nom que vous avez choisi à l'étape précédente, cochez la case en face et cliquez sur Next.

  • Poursuivez l'installation. Une fois terminé, redémarrez l'Eclipse.

  • Maintenant, faites un clic droit sur le projet, et dans le configure option, sélectionnez convert to maven project.

  • Un nouvel assistant de création d'un nouveau pom apparaît. Entrez l'ID du groupe comme org.apache.tika, entrez la dernière version de Tika, sélectionnez lepackaging comme pot, et cliquez sur Finish.

Le projet Maven est installé avec succès et votre projet est converti en Maven. Vous devez maintenant configurer le fichier pom.xml.

Configurer le fichier XML

Obtenez la dépendance Tika Maven dehttps://mvnrepository.com/artifact/org.apache.tika

Vous trouverez ci-dessous la dépendance Maven complète d'Apache Tika.

<dependency>
   <groupId>org.apache.Tika</groupId>
   <artifactId>Tika-core</artifactId>
   <version>1.6</version>

   <groupId>org.apache.Tika</groupId>
   <artifactId> Tika-parsers</artifactId>
   <version> 1.6</version>

   <groupId> org.apache.Tika</groupId>
   <artifactId>Tika</artifactId>
   <version>1.6</version>

   <groupId>org.apache.Tika</groupId>
   < artifactId>Tika-serialization</artifactId>
   < version>1.6< /version>

   < groupId>org.apache.Tika< /groupId>
   < artifactId>Tika-app< /artifactId>
   < version>1.6< /version>

   <groupId>org.apache.Tika</groupId>
   <artifactId>Tika-bundle</artifactId>
   <version>1.6</version>
</dependency>