TIKA - Meio Ambiente

Este capítulo o conduz pelo processo de configuração do Apache Tika no Windows e Linux. A administração do usuário é necessária durante a instalação do Apache Tika.

Requisitos de sistema

JDK Java SE 2 JDK 1.6 ou superior
Memória 1 GB de RAM (recomendado)
Espaço em disco Sem requisitos mínimos
Versão do sistema operacional Windows XP ou superior, Linux

Etapa 1: Verificar a instalação do Java

Para verificar a instalação do Java, abra o console e execute o seguinte java comando.

SO Tarefa Comando
janelas Abra o console de comando \> java –version
Linux Abra o terminal de comando $ java –version

Se o Java foi instalado corretamente em seu sistema, você deverá obter uma das seguintes saídas, dependendo da plataforma em que está trabalhando.

SO Resultado
janelas

Versão Java "1.7.0_60"

Java (TM) SE Run Time Environment (build 1.7.0_60-b19)

Java Hotspot (TM) Servidor VM de 64 bits (versão 24.60-b09, modo misto)

Lunix

versão java "1.7.0_25"

Open JDK Runtime Environment (rhel-2.3.10.4.el6_4-x86_64)

Abra o servidor VM JDK de 64 bits (compilação 23.7-b01, modo misto)

  • Presumimos que os leitores deste tutorial tenham o Java 1.7.0_60 instalado em seus sistemas antes de prosseguir para este tutorial.

  • Caso você não tenha Java SDK, baixe sua versão atual em https://www.oracle.com/technetwork/java/javase/downloads/index.html and have it installed.

Etapa 2: configuração do ambiente Java

Defina a variável de ambiente JAVA_HOME para apontar para o local do diretório base onde o Java está instalado em sua máquina. Por exemplo,

SO Resultado
janelas Defina a variável ambiental JAVA_HOME para C: \ ProgramFiles \ java \ jdk1.7.0_60
Linux export JAVA_HOME = / usr / local / java-current

Anexe o caminho completo do local do compilador Java ao caminho do sistema.

SO Resultado
janelas Anexar a string; C: \ Arquivos de programas \ Java \ jdk1.7.0_60 \ bin ao final da variável de sistema PATH.
Linux exportar PATH = $ PATH: $ JAVA_HOME / bin /

Verifique o comando java-version no prompt de comando conforme explicado acima.

Etapa 3: Configurando o ambiente Apache Tika

Os programadores podem integrar o Apache Tika em seu ambiente usando

  • Linha de comando,
  • API Tika,
  • Interface de linha de comando (CLI) de Tika,
  • Interface gráfica do usuário (GUI) de Tika, ou
  • o código-fonte.

Para qualquer uma dessas abordagens, em primeiro lugar, você deve baixar o código-fonte do Tika.

Você encontrará o código-fonte do Tika em https://Tika.apache.org/download.html, onde você encontrará dois links -

  • apache-tika-1.6-src.zip - Contém o código-fonte do Tika, e

  • Tika -app-1.6.jar - É um arquivo jar que contém o aplicativo Tika.

Baixe esses dois arquivos. Um instantâneo do site oficial da Tika é mostrado abaixo.

Depois de baixar os arquivos, defina o caminho de classe para o arquivo jar tika-app-1.6.jar. Adicione o caminho completo do arquivo jar conforme mostrado na tabela abaixo.

SO Resultado
janelas Anexe a string “C: \ jars \ Tika-app-1.6.jar” à variável de ambiente do usuário CLASSPATH
Linux

Exportar CLASSPATH = $ CLASSPATH -

/usr/share/jars/Tika-app-1.6.tar -

O Apache fornece o aplicativo Tika, um aplicativo Graphical User Interface (GUI) usando Eclipse.

Compilação Tika-Maven usando Eclipse

  • Abra o eclipse e crie um novo projeto.

  • Se você não tiver o Maven em seu Eclipse, configure-o seguindo as etapas fornecidas.

    • Abra o link https://wiki.eclipse.org/M2E_updatesite_and_gittags . Lá você encontrará os lançamentos do plugin m2e em um formato tabular

  • Escolha a versão mais recente e salve o caminho do url na coluna p2 url.

  • Agora revisite o eclipse, na barra de menu, clique Helpe escolha Install New Software no menu suspenso

  • Clique no Addbotão, digite qualquer nome desejado, pois é opcional. Agora cole o url salvo noLocation campo.

  • Um novo plug-in será adicionado com o nome que você escolheu na etapa anterior, marque a caixa de seleção na frente dele e clique Next.

  • Continue com a instalação. Depois de concluído, reinicie o Eclipse.

  • Agora clique com o botão direito no projeto, e no configure opção, selecione convert to maven project.

  • Um novo assistente para criar um novo pom aparece. Insira o ID do grupo como org.apache.tika, insira a versão mais recente do Tika, selecione opackaging como jar, e clique Finish.

O projeto Maven foi instalado com sucesso e seu projeto foi convertido em Maven. Agora você deve configurar o arquivo pom.xml.

Configure o arquivo XML

Obtenha a dependência do maven Tika dehttps://mvnrepository.com/artifact/org.apache.tika

Abaixo é mostrada a dependência Maven completa do Apache Tika.

<dependency>
   <groupId>org.apache.Tika</groupId>
   <artifactId>Tika-core</artifactId>
   <version>1.6</version>

   <groupId>org.apache.Tika</groupId>
   <artifactId> Tika-parsers</artifactId>
   <version> 1.6</version>

   <groupId> org.apache.Tika</groupId>
   <artifactId>Tika</artifactId>
   <version>1.6</version>

   <groupId>org.apache.Tika</groupId>
   < artifactId>Tika-serialization</artifactId>
   < version>1.6< /version>

   < groupId>org.apache.Tika< /groupId>
   < artifactId>Tika-app< /artifactId>
   < version>1.6< /version>

   <groupId>org.apache.Tika</groupId>
   <artifactId>Tika-bundle</artifactId>
   <version>1.6</version>
</dependency>