TIKA - สิ่งแวดล้อม

บทนี้จะนำคุณเข้าสู่กระบวนการตั้งค่า Apache Tika บน Windows และ Linux จำเป็นต้องมีการดูแลผู้ใช้ในขณะติดตั้ง Apache Tika

ความต้องการของระบบ

JDK Java SE 2 JDK 1.6 หรือสูงกว่า
หน่วยความจำ RAM 1 GB (แนะนำ)
พื้นที่ดิสก์ ไม่มีข้อกำหนดขั้นต่ำ
เวอร์ชันระบบปฏิบัติการ Windows XP ขึ้นไปลินุกซ์

ขั้นตอนที่ 1: ตรวจสอบการติดตั้ง Java

ในการตรวจสอบการติดตั้ง Java ให้เปิดคอนโซลและดำเนินการดังต่อไปนี้ java คำสั่ง

ระบบปฏิบัติการ งาน คำสั่ง
Windows เปิดคอนโซลคำสั่ง \> java - รุ่น
ลินุกซ์ เปิดเทอร์มินัลคำสั่ง $ java -version

หาก Java ได้รับการติดตั้งอย่างถูกต้องบนระบบของคุณคุณควรได้รับหนึ่งในผลลัพธ์ต่อไปนี้ขึ้นอยู่กับแพลตฟอร์มที่คุณกำลังทำงานอยู่

ระบบปฏิบัติการ เอาต์พุต
Windows

เวอร์ชัน Java "1.7.0_60"

Java (TM) SE Run Time Environment (บิวด์ 1.7.0_60-b19)

Java Hotspot (TM) 64-bit Server VM (build 24.60-b09, mixed mode)

ลูนิกซ์

เวอร์ชัน java "1.7.0_25"

เปิด JDK Runtime Environment (rhel-2.3.10.4.el6_4-x86_64)

เปิด JDK 64-Bit Server VM (สร้าง 23.7-b01 โหมดผสม)

  • เราถือว่าผู้อ่านของบทช่วยสอนนี้ติดตั้ง Java 1.7.0_60 ในระบบของตนก่อนดำเนินการสำหรับบทช่วยสอนนี้

  • ในกรณีที่คุณไม่มี Java SDK ให้ดาวน์โหลดเวอร์ชันปัจจุบันจากไฟล์ https://www.oracle.com/technetwork/java/javase/downloads/index.html and have it installed.

ขั้นตอนที่ 2: การตั้งค่าสภาพแวดล้อม Java

ตั้งค่าตัวแปรสภาวะแวดล้อม JAVA_HOME ให้ชี้ไปยังตำแหน่งไดเร็กทอรีฐานที่ติดตั้ง Java บนเครื่องของคุณ ตัวอย่างเช่น,

ระบบปฏิบัติการ เอาต์พุต
Windows ตั้งค่าตัวแปรสภาพแวดล้อม JAVA_HOME เป็น C: \ ProgramFiles \ java \ jdk1.7.0_60
ลินุกซ์ ส่งออก JAVA_HOME = / usr / local / java-current

ผนวกพา ธ แบบเต็มของตำแหน่งคอมไพเลอร์ Java เข้ากับ System Path

ระบบปฏิบัติการ เอาต์พุต
Windows ต่อท้ายสตริง; C: \ Program Files \ Java \ jdk1.7.0_60 \ bin ต่อท้ายตัวแปรระบบ PATH
ลินุกซ์ ส่งออก PATH = $ PATH: $ JAVA_HOME / bin /

ตรวจสอบคำสั่ง java-version จาก command prompt ตามที่อธิบายไว้ข้างต้น

ขั้นตอนที่ 3: การตั้งค่าสภาพแวดล้อม Apache Tika

โปรแกรมเมอร์สามารถรวม Apache Tika ในสภาพแวดล้อมได้โดยใช้ไฟล์

  • บรรทัดคำสั่ง,
  • Tika API
  • อินเทอร์เฟซบรรทัดคำสั่ง (CLI) ของ Tika
  • อินเทอร์เฟซผู้ใช้แบบกราฟิก (GUI) ของ Tika หรือ
  • ซอร์สโค้ด

สำหรับวิธีการเหล่านี้ก่อนอื่นคุณต้องดาวน์โหลดซอร์สโค้ดของ Tika

คุณจะพบซอร์สโค้ดของ Tika ได้ที่ https://Tika.apache.org/download.html, ซึ่งคุณจะพบสองลิงค์ -

  • apache-tika-1.6-src.zip - มีซอร์สโค้ดของ Tika และ

  • Tika -app-1.6.jar - เป็นไฟล์ jar ที่มีแอปพลิเคชัน Tika

ดาวน์โหลดสองไฟล์นี้ ภาพรวมของเว็บไซต์อย่างเป็นทางการของ Tika แสดงอยู่ด้านล่าง

หลังจากดาวน์โหลดไฟล์แล้วให้ตั้งค่า classpath สำหรับไฟล์ jar tika-app-1.6.jar. เพิ่มพา ธ ที่สมบูรณ์ของไฟล์ jar ดังแสดงในตารางด้านล่าง

ระบบปฏิบัติการ เอาต์พุต
Windows ต่อท้ายสตริง“ C: \ jars \ Tika-app-1.6.jar” กับตัวแปรสภาพแวดล้อมผู้ใช้ CLASSPATH
ลินุกซ์

ส่งออก CLASSPATH = $ CLASSPATH -

/usr/share/jars/Tika-app-1.6.tar -

Apache มีแอปพลิเคชัน Tika ซึ่งเป็นแอปพลิเคชัน Graphical User Interface (GUI) โดยใช้ Eclipse

สร้าง Tika-Maven โดยใช้ Eclipse

  • เปิด eclipse และสร้างโปรเจ็กต์ใหม่

  • หากคุณไม่มี Maven ใน Eclipse ของคุณให้ตั้งค่าโดยทำตามขั้นตอนที่กำหนด

    • เปิดการเชื่อมโยง https://wiki.eclipse.org/M2E_updatesite_and_gittags คุณจะพบปลั๊กอิน m2e ที่เผยแพร่ในรูปแบบตาราง

  • เลือกเวอร์ชันล่าสุดและบันทึกเส้นทางของ url ในคอลัมน์ p2 url

  • ตอนนี้ทบทวนคราสในแถบเมนูคลิก Helpและเลือก Install New Software จากเมนูแบบเลื่อนลง

  • คลิก Addพิมพ์ชื่อที่ต้องการเนื่องจากเป็นทางเลือก ตอนนี้วาง URL ที่บันทึกไว้ในไฟล์Location ฟิลด์

  • ปลั๊กอินใหม่จะถูกเพิ่มพร้อมชื่อที่คุณเลือกในขั้นตอนก่อนหน้าทำเครื่องหมายที่ช่องข้างหน้าแล้วคลิก Next.

  • ดำเนินการติดตั้ง เมื่อเสร็จสิ้นให้รีสตาร์ท Eclipse

  • ตอนนี้คลิกขวาที่โครงการและในไฟล์ configure ตัวเลือกเลือก convert to maven project.

  • ตัวช่วยใหม่สำหรับการสร้างปอมใหม่ปรากฏขึ้น ป้อนรหัสกลุ่มเป็น org.apache.tika ป้อน Tika เวอร์ชันล่าสุดเลือกไฟล์packaging เป็นขวดแล้วคลิก Finish.

ติดตั้งโครงการ Maven เรียบร้อยแล้วและโครงการของคุณถูกแปลงเป็น Maven ตอนนี้คุณต้องกำหนดค่าไฟล์ pom.xml

กำหนดค่าไฟล์ XML

รับการพึ่งพา Tika maven จากhttps://mvnrepository.com/artifact/org.apache.tika

ด้านล่างนี้คือการพึ่งพา Maven ที่สมบูรณ์ของ Apache Tika

<dependency>
   <groupId>org.apache.Tika</groupId>
   <artifactId>Tika-core</artifactId>
   <version>1.6</version>

   <groupId>org.apache.Tika</groupId>
   <artifactId> Tika-parsers</artifactId>
   <version> 1.6</version>

   <groupId> org.apache.Tika</groupId>
   <artifactId>Tika</artifactId>
   <version>1.6</version>

   <groupId>org.apache.Tika</groupId>
   < artifactId>Tika-serialization</artifactId>
   < version>1.6< /version>

   < groupId>org.apache.Tika< /groupId>
   < artifactId>Tika-app< /artifactId>
   < version>1.6< /version>

   <groupId>org.apache.Tika</groupId>
   <artifactId>Tika-bundle</artifactId>
   <version>1.6</version>
</dependency>