TIKA - API อ้างอิง
ผู้ใช้สามารถฝัง Tika ในแอปพลิเคชันของตนโดยใช้คลาส Tika facade มีวิธีการสำรวจฟังก์ชันทั้งหมดของ Tika เนื่องจากเป็นชั้นด้านหน้าอาคาร Tika จึงแยกแยะความซับซ้อนที่อยู่เบื้องหลังการทำงานของมัน นอกจากนี้ผู้ใช้ยังสามารถใช้คลาสต่างๆของ Tika ในแอปพลิเคชันของตนได้อีกด้วย
Tika Class (ซุ้ม)
นี่คือชั้นที่โดดเด่นที่สุดของห้องสมุด Tika และเป็นไปตามรูปแบบการออกแบบซุ้ม ดังนั้นจึงสรุปการใช้งานภายในทั้งหมดและมีวิธีการง่ายๆในการเข้าถึงฟังก์ชัน Tika ตารางต่อไปนี้แสดงรายการคอนสตรัคเตอร์ของคลาสนี้พร้อมกับคำอธิบาย
package - org.apache.tika
class - ติก้า
ซีเนียร์ | ตัวสร้างและคำอธิบาย |
---|---|
1 | Tika () ใช้การกำหนดค่าเริ่มต้นและสร้างคลาส Tika |
2 | Tika (Detector detector) สร้างส่วนหน้าของ Tika โดยยอมรับอินสแตนซ์ตัวตรวจจับเป็นพารามิเตอร์ |
3 | Tika (Detector detector, Parser parser) สร้างส่วนหน้าของ Tika โดยยอมรับอินสแตนซ์ตัวตรวจจับและตัวแยกวิเคราะห์เป็นพารามิเตอร์ |
4 | Tika (Detector detector, Parser parser, Translator translator) สร้างส่วนหน้าของ Tika โดยยอมรับตัวตรวจจับตัวแยกวิเคราะห์และอินสแตนซ์ตัวแปลเป็นพารามิเตอร์ |
5 | Tika (TikaConfig config) สร้างส่วนหน้าของ Tika โดยยอมรับวัตถุของคลาส TikaConfig เป็นพารามิเตอร์ |
วิธีการและคำอธิบาย
ต่อไปนี้เป็นวิธีการที่สำคัญของคลาส Tika facade -
ซีเนียร์ | วิธีการและคำอธิบาย |
---|---|
1 | แยกวิเคราะห์ToString (File ไฟล์) วิธีนี้และตัวแปรทั้งหมดจะแยกวิเคราะห์ไฟล์ที่ส่งผ่านเป็นพารามิเตอร์และส่งคืนเนื้อหาข้อความที่แยกออกมาในรูปแบบ String ตามค่าเริ่มต้นความยาวของพารามิเตอร์สตริงนี้ถูก จำกัด |
2 | int getMaxStringLength () ส่งคืนความยาวสูงสุดของสตริงที่ส่งคืนโดยเมธอด parseToString |
3 | เป็นโมฆะ setMaxStringLength (int maxStringLength) ตั้งค่าความยาวสูงสุดของสตริงที่ส่งคืนโดยเมธอด parseToString |
4 | ผู้อ่าน parse (File ไฟล์) เมธอดนี้และตัวแปรทั้งหมดจะแยกวิเคราะห์ไฟล์ที่ส่งผ่านเป็นพารามิเตอร์และส่งคืนเนื้อหาข้อความที่แยกออกมาในรูปแบบของอ็อบเจ็กต์ java.io.reader |
5 | สตริง detect (InputStream กระแส, Metadata ข้อมูลเมตา) เมธอดนี้และตัวแปรทั้งหมดยอมรับอ็อบเจ็กต์ InputStream และอ็อบเจ็กต์ Metadata เป็นพารามิเตอร์ตรวจจับชนิดของเอกสารที่กำหนดและส่งคืนชื่อชนิดเอกสารเป็นอ็อบเจกต์ String วิธีนี้เป็นนามธรรมของกลไกการตรวจจับที่ Tika ใช้ |
6 | สตริง translate (InputStream ข้อความ String ภาษาเป้าหมาย) วิธีนี้และตัวแปรทั้งหมดยอมรับออบเจ็กต์ InputStream และสตริงที่แสดงถึงภาษาที่เราต้องการให้แปลข้อความของเราและแปลข้อความที่กำหนดเป็นภาษาที่ต้องการโดยพยายามตรวจหาภาษาต้นทางโดยอัตโนมัติ |
พาร์เซอร์อินเทอร์เฟซ
นี่คืออินเทอร์เฟซที่ใช้งานโดยคลาส parser ทั้งหมดของแพ็คเกจ Tika
package - org.apache.tika.parser
Interface - โปรแกรมแยกวิเคราะห์
วิธีการและคำอธิบาย
ต่อไปนี้เป็นวิธีการที่สำคัญของอินเทอร์เฟซ Tika Parser -
ซีเนียร์ | วิธีการและคำอธิบาย |
---|---|
1 | parse (InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context) วิธีนี้จะแยกวิเคราะห์เอกสารที่กำหนดเป็นลำดับเหตุการณ์ XHTML และ SAX หลังจากแยกวิเคราะห์แล้วจะวางเนื้อหาเอกสารที่แยกไว้ในอ็อบเจ็กต์ของคลาส ContentHandler และข้อมูลเมตาในอ็อบเจ็กต์ของคลาส Metadata |
คลาสข้อมูลเมตา
คลาสนี้ใช้อินเทอร์เฟซที่หลากหลายเช่น CreativeCommons, Geographic, HttpHeaders, Message, MSOffice, ClimateForcast, TIFF, TikaMetadataKeys, TikaMimeKeys, Serializable เพื่อรองรับโมเดลข้อมูลต่างๆ ตารางต่อไปนี้แสดงรายการตัวสร้างและวิธีการของคลาสนี้พร้อมกับคำอธิบาย
package - org.apache.tika.metadata
class - ข้อมูลเมตา
ซีเนียร์ | ตัวสร้างและคำอธิบาย |
---|---|
1 | Metadata() สร้างข้อมูลเมตาใหม่ที่ว่างเปล่า |
ซีเนียร์ | วิธีการและคำอธิบาย |
---|---|
1 | add (Property property, String value) เพิ่มการแมปคุณสมบัติ / ค่าข้อมูลเมตาให้กับเอกสารที่กำหนด การใช้ฟังก์ชันนี้เราสามารถตั้งค่าเป็นคุณสมบัติ |
2 | add (String name, String value) เพิ่มการแมปคุณสมบัติ / ค่าข้อมูลเมตาให้กับเอกสารที่กำหนด เมื่อใช้วิธีนี้เราสามารถตั้งค่าชื่อใหม่ให้กับข้อมูลเมตาที่มีอยู่ของเอกสาร |
3 | String get (Property property) ส่งคืนค่า (ถ้ามี) ของคุณสมบัติข้อมูลเมตาที่กำหนด |
4 | String get (String name) ส่งคืนค่า (ถ้ามี) ของชื่อข้อมูลเมตาที่กำหนด |
5 | Date getDate (Property property) ส่งกลับค่าคุณสมบัติ Date metadata |
6 | String[] getValues (Property property) ส่งคืนค่าทั้งหมดของคุณสมบัติข้อมูลเมตา |
7 | String[] getValues (String name) ส่งคืนค่าทั้งหมดของชื่อข้อมูลเมตาที่กำหนด |
8 | String[] names() ส่งคืนชื่อทั้งหมดขององค์ประกอบข้อมูลเมตาในออบเจ็กต์ข้อมูลเมตา |
9 | set (Property property, Date date) ตั้งค่าวันที่ของคุณสมบัติข้อมูลเมตาที่กำหนด |
10 | set(Property property, String[] values) ตั้งค่าหลายค่าให้กับคุณสมบัติข้อมูลเมตา |
คลาสตัวระบุภาษา
คลาสนี้ระบุภาษาของเนื้อหาที่กำหนด ตารางต่อไปนี้แสดงรายการตัวสร้างของคลาสนี้พร้อมกับคำอธิบาย
package - org.apache.tika.language
class - ตัวระบุภาษา
ซีเนียร์ | ตัวสร้างและคำอธิบาย |
---|---|
1 | LanguageIdentifier (LanguageProfile profile) สร้างตัวระบุภาษาทันที ที่นี่คุณต้องส่งผ่านวัตถุ LanguageProfile เป็นพารามิเตอร์ |
2 | LanguageIdentifier (String content) ตัวสร้างนี้สามารถสร้างอินสแตนซ์ตัวระบุภาษาได้โดยส่งผ่านสตริงจากเนื้อหาข้อความ |
ซีเนียร์ | วิธีการและคำอธิบาย |
---|---|
1 | String getLanguage () ส่งคืนภาษาที่กำหนดให้กับอ็อบเจ็กต์ LanguageIdentifier ปัจจุบัน |