ТИКА - Окружающая среда

В этой главе вы узнаете, как настроить Apache Tika в Windows и Linux. При установке Apache Tika необходимо администрирование пользователей.

Системные Требования

JDK Java SE 2 JDK 1.6 или выше
объем памяти 1 ГБ ОЗУ (рекомендуется)
Дисковое пространство Нет минимальных требований
Версия операционной системы Windows XP или выше, Linux

Шаг 1. Проверка установки Java

Чтобы проверить установку Java, откройте консоль и выполните следующее java команда.

Операционные системы Задача Команда
Windows Открыть командную консоль \> java –version
Linux Открыть командный терминал $ java –version

Если Java была правильно установлена ​​в вашей системе, вы должны получить один из следующих результатов, в зависимости от платформы, на которой вы работаете.

Операционные системы Вывод
Windows

Версия Java "1.7.0_60"

Среда выполнения Java (TM) SE (сборка 1.7.0_60-b19)

64-разрядная серверная виртуальная машина Java Hotspot (TM) (сборка 24.60-b09, смешанный режим)

Lunix

версия java "1.7.0_25"

Откройте среду выполнения JDK (rhel-2.3.10.4.el6_4-x86_64)

Откройте виртуальную машину 64-разрядного сервера JDK (сборка 23.7-b01, смешанный режим)

  • Мы предполагаем, что читатели этого руководства установили Java 1.7.0_60 в своей системе, прежде чем приступить к этому руководству.

  • Если у вас нет Java SDK, загрузите его текущую версию с https://www.oracle.com/technetwork/java/javase/downloads/index.html and have it installed.

Шаг 2: настройка среды Java

Установите переменную среды JAVA_HOME так, чтобы она указывала на расположение базового каталога, в котором установлена ​​Java на вашем компьютере. Например,

Операционные системы Вывод
Windows Установите для переменной среды JAVA_HOME значение C: \ ProgramFiles \ java \ jdk1.7.0_60
Linux экспорт JAVA_HOME = / usr / local / java-current

Добавьте полный путь расположения компилятора Java к системному пути.

Операционные системы Вывод
Windows Добавить строку; C: \ Program Files \ Java \ jdk1.7.0_60 \ bin до конца системной переменной PATH.
Linux экспорт PATH = $ PATH: $ JAVA_HOME / bin /

Проверьте версию команды java из командной строки, как описано выше.

Шаг 3. Настройка среды Apache Tika

Программисты могут интегрировать Apache Tika в свою среду, используя

  • Командная строка,
  • Tika API,
  • Интерфейс командной строки (CLI) Tika,
  • Графический интерфейс пользователя (GUI) Tika, или
  • исходный код.

Для любого из этих подходов, прежде всего, вам необходимо загрузить исходный код Tika.

Вы найдете исходный код Tika по адресу https://Tika.apache.org/download.html, где вы найдете две ссылки -

  • apache-tika-1.6-src.zip - Он содержит исходный код Tika, и

  • Tika -app-1.6.jar - Это jar-файл, содержащий приложение Tika.

Загрузите эти два файла. Снимок официального сайта Tika представлен ниже.

После загрузки файлов установите путь к классам для файла jar tika-app-1.6.jar. Добавьте полный путь к файлу jar, как показано в таблице ниже.

Операционные системы Вывод
Windows Добавьте строку «C: \ jars \ Tika-app-1.6.jar» в переменную среды пользователя CLASSPATH.
Linux

Экспорт CLASSPATH = $ CLASSPATH -

/usr/share/jars/Tika-app-1.6.tar -

Apache предоставляет приложение Tika, приложение с графическим интерфейсом пользователя (GUI), использующее Eclipse.

Tika-Maven Build с использованием Eclipse

  • Откройте eclipse и создайте новый проект.

  • Если у вас нет Maven в вашем Eclipse, настройте его, выполнив указанные шаги.

    • Откройте ссылку https://wiki.eclipse.org/M2E_updatesite_and_gittags . Там вы найдете релизы плагина m2e в табличном формате.

  • Выберите последнюю версию и сохраните путь к URL-адресу в столбце p2 url.

  • Теперь вернитесь к затмению, в строке меню щелкните Help, и выберите Install New Software из раскрывающегося меню

  • Щелкните значок Addкнопку, введите любое желаемое имя, так как это необязательно. Теперь вставьте сохраненный URL вLocation поле.

  • Будет добавлен новый плагин с именем, которое вы выбрали на предыдущем шаге, установите флажок перед ним и нажмите Next.

  • Продолжайте установку. После завершения перезапустите Eclipse.

  • Теперь щелкните правой кнопкой мыши проект и в configure вариант, выберите convert to maven project.

  • Появится новый мастер создания нового помпа. Введите идентификатор группы как org.apache.tika, введите последнюю версию Tika, выберитеpackaging как банку и щелкните Finish.

Проект Maven успешно установлен, и ваш проект преобразован в Maven. Теперь вам нужно настроить файл pom.xml.

Настроить файл XML

Получите зависимость Tika maven отhttps://mvnrepository.com/artifact/org.apache.tika

Ниже показана полная зависимость Apache Tika от Maven.

<dependency>
   <groupId>org.apache.Tika</groupId>
   <artifactId>Tika-core</artifactId>
   <version>1.6</version>

   <groupId>org.apache.Tika</groupId>
   <artifactId> Tika-parsers</artifactId>
   <version> 1.6</version>

   <groupId> org.apache.Tika</groupId>
   <artifactId>Tika</artifactId>
   <version>1.6</version>

   <groupId>org.apache.Tika</groupId>
   < artifactId>Tika-serialization</artifactId>
   < version>1.6< /version>

   < groupId>org.apache.Tika< /groupId>
   < artifactId>Tika-app< /artifactId>
   < version>1.6< /version>

   <groupId>org.apache.Tika</groupId>
   <artifactId>Tika-bundle</artifactId>
   <version>1.6</version>
</dependency>