TIKA - Môi trường

Chương này sẽ hướng dẫn bạn quá trình thiết lập Apache Tika trên Windows và Linux. Quản trị người dùng là cần thiết khi cài đặt Apache Tika.

yêu cầu hệ thống

JDK Java SE 2 JDK 1.6 trở lên
Ký ức RAM 1 GB (khuyến nghị)
Dung lượng đĩa Không có yêu cầu tối thiểu
Phiên bản hệ điều hành Windows XP trở lên, Linux

Bước 1: Xác minh cài đặt Java

Để xác minh cài đặt Java, hãy mở bảng điều khiển và thực hiện các thao tác sau java chỉ huy.

Hệ điều hành Bài tập Chỉ huy
các cửa sổ Mở bảng điều khiển lệnh \> java –version
Linux Mở thiết bị đầu cuối lệnh $ java –version

Nếu Java đã được cài đặt đúng cách trên hệ thống của bạn, thì bạn sẽ nhận được một trong các kết quả sau, tùy thuộc vào nền tảng bạn đang làm việc.

Hệ điều hành Đầu ra
các cửa sổ

Phiên bản Java "1.7.0_60"

Môi trường thời gian chạy Java (TM) SE (bản dựng 1.7.0_60-b19)

Java Hotspot (TM) 64-bit Server VM (bản dựng 24.60-b09, chế độ hỗn hợp)

Lunix

phiên bản java "1.7.0_25"

Mở môi trường thời gian chạy JDK (rhel-2.3.10.4.el6_4-x86_64)

Mở JDK 64-Bit Server VM (bản dựng 23.7-b01, chế độ hỗn hợp)

  • Chúng tôi giả định rằng người đọc của hướng dẫn này đã cài đặt Java 1.7.0_60 trên hệ thống của họ trước khi tiếp tục hướng dẫn này.

  • Trong trường hợp bạn không có Java SDK, hãy tải xuống phiên bản hiện tại của nó từ https://www.oracle.com/technetwork/java/javase/downloads/index.html and have it installed.

Bước 2: Thiết lập Môi trường Java

Đặt biến môi trường JAVA_HOME trỏ đến vị trí thư mục cơ sở nơi Java được cài đặt trên máy của bạn. Ví dụ,

Hệ điều hành Đầu ra
các cửa sổ Đặt biến môi trường JAVA_HOME thành C: \ ProgramFiles \ java \ jdk1.7.0_60
Linux xuất JAVA_HOME = / usr / local / java-current

Nối đường dẫn đầy đủ của vị trí trình biên dịch Java vào Đường dẫn Hệ thống.

Hệ điều hành Đầu ra
các cửa sổ Nối chuỗi; C: \ Program Files \ Java \ jdk1.7.0_60 \ bin vào cuối biến hệ thống PATH.
Linux xuất PATH = $ PATH: $ JAVA_HOME / bin /

Xác minh lệnh java-version từ dấu nhắc lệnh như đã giải thích ở trên.

Bước 3: Thiết lập Môi trường Apache Tika

Lập trình viên có thể tích hợp Apache Tika trong môi trường của họ bằng cách sử dụng

  • Dòng lệnh,
  • API Tika,
  • Giao diện dòng lệnh (CLI) của Tika,
  • Giao diện người dùng đồ họa (GUI) của Tika, hoặc
  • mã nguồn.

Đối với bất kỳ cách tiếp cận nào trong số này, trước hết, bạn phải tải xuống mã nguồn của Tika.

Bạn sẽ tìm thấy mã nguồn của Tika tại https://Tika.apache.org/download.html, nơi bạn sẽ tìm thấy hai liên kết -

  • apache-tika-1.6-src.zip - Nó chứa mã nguồn của Tika, và

  • Tika -app-1.6.jar - Đây là một tệp jar có chứa ứng dụng Tika.

Tải xuống hai tệp này. Ảnh chụp nhanh trang web chính thức của Tika được hiển thị bên dưới.

Sau khi tải xuống các tệp, hãy đặt classpath cho tệp jar tika-app-1.6.jar. Thêm đường dẫn đầy đủ của tệp jar như được hiển thị trong bảng dưới đây.

Hệ điều hành Đầu ra
các cửa sổ Nối chuỗi “C: \ jar \ Tika-app-1.6.jar” vào biến môi trường người dùng CLASSPATH
Linux

Xuất CLASSPATH = $ CLASSPATH -

/usr/share/jars/Tika-app-1.6.tar -

Apache cung cấp ứng dụng Tika, một ứng dụng Giao diện Người dùng Đồ họa (GUI) sử dụng Eclipse.

Tika-Maven Build bằng Eclipse

  • Mở nhật thực và tạo một dự án mới.

  • Nếu bạn không có Maven trong Eclipse của mình, hãy thiết lập nó bằng cách làm theo các bước đã cho.

    • Mở liên kết https://wiki.eclipse.org/M2E_updatesite_and_gittags . Ở đó, bạn sẽ tìm thấy các bản phát hành plugin m2e ở định dạng bảng

  • Chọn phiên bản mới nhất và lưu đường dẫn của url trong cột url p2.

  • Bây giờ truy cập lại nhật thực, trong thanh menu, nhấp vào Help, và lựa chọn Install New Software từ menu thả xuống

  • Nhấn vào Add, nhập bất kỳ tên mong muốn nào, vì nó là tùy chọn. Bây giờ hãy dán url đã lưu vàoLocation cánh đồng.

  • Một plugin mới sẽ được thêm vào với tên bạn đã chọn ở bước trước, hãy chọn hộp kiểm ở phía trước nó và nhấp vào Next.

  • Tiến hành cài đặt. Sau khi hoàn tất, khởi động lại Eclipse.

  • Bây giờ nhấp chuột phải vào dự án và trong configure tùy chọn, chọn convert to maven project.

  • Một trình hướng dẫn mới để tạo một pom mới xuất hiện. Nhập Mã nhóm là org.apache.tika, nhập phiên bản mới nhất của Tika, chọnpackaging dưới dạng jar và nhấp vào Finish.

Dự án Maven được cài đặt thành công và dự án của bạn được chuyển đổi thành Maven. Bây giờ bạn phải cấu hình tệp pom.xml.

Định cấu hình tệp XML

Nhận sự phụ thuộc của maven Tika từhttps://mvnrepository.com/artifact/org.apache.tika

Hình dưới đây là sự phụ thuộc Maven hoàn chỉnh của Apache Tika.

<dependency>
   <groupId>org.apache.Tika</groupId>
   <artifactId>Tika-core</artifactId>
   <version>1.6</version>

   <groupId>org.apache.Tika</groupId>
   <artifactId> Tika-parsers</artifactId>
   <version> 1.6</version>

   <groupId> org.apache.Tika</groupId>
   <artifactId>Tika</artifactId>
   <version>1.6</version>

   <groupId>org.apache.Tika</groupId>
   < artifactId>Tika-serialization</artifactId>
   < version>1.6< /version>

   < groupId>org.apache.Tika< /groupId>
   < artifactId>Tika-app< /artifactId>
   < version>1.6< /version>

   <groupId>org.apache.Tika</groupId>
   <artifactId>Tika-bundle</artifactId>
   <version>1.6</version>
</dependency>