TIKA - ภาพรวม
Apache Tika คืออะไร?
Apache Tika เป็นไลบรารีที่ใช้สำหรับการตรวจจับชนิดเอกสารและการแยกเนื้อหาจากไฟล์รูปแบบต่างๆ
ภายใน Tika ใช้ตัวแยกวิเคราะห์เอกสารต่างๆที่มีอยู่และเทคนิคการตรวจจับประเภทเอกสารเพื่อตรวจจับและดึงข้อมูล
การใช้ Tika เราสามารถพัฒนาตัวตรวจจับประเภทสากลและตัวแยกเนื้อหาเพื่อแยกข้อความที่มีโครงสร้างและข้อมูลเมตาจากเอกสารประเภทต่างๆเช่นสเปรดชีตเอกสารข้อความรูปภาพ PDF และแม้แต่รูปแบบอินพุตมัลติมีเดียได้ในระดับหนึ่ง
Tika มี API ทั่วไปเดียวสำหรับการแยกวิเคราะห์ไฟล์รูปแบบต่างๆ ใช้ไลบรารีตัวแยกวิเคราะห์เฉพาะที่มีอยู่สำหรับเอกสารแต่ละประเภท
ไลบรารีตัวแยกวิเคราะห์ทั้งหมดเหล่านี้ถูกห่อหุ้มไว้ภายใต้อินเทอร์เฟซเดียวที่เรียกว่า Parser interface.
ทำไม Tika?
ตาม filext.com มีเนื้อหาประมาณ 15k ถึง 51k ประเภทและจำนวนนี้เพิ่มขึ้นทุกวัน ข้อมูลจะถูกจัดเก็บในรูปแบบต่างๆเช่นเอกสารข้อความสเปรดชีต excel PDF รูปภาพและไฟล์มัลติมีเดียเพื่อตั้งชื่อไม่กี่ ดังนั้นแอปพลิเคชันเช่นเครื่องมือค้นหาและระบบจัดการเนื้อหาจึงต้องการการสนับสนุนเพิ่มเติมเพื่อให้สามารถดึงข้อมูลออกจากประเภทเอกสารเหล่านี้ได้ง่าย Apache Tika ทำหน้าที่นี้โดยจัดเตรียม API ทั่วไปเพื่อค้นหาและดึงข้อมูลจากไฟล์หลายรูปแบบ
แอพพลิเคชั่น Apache Tika
มีแอปพลิเคชั่นต่างๆที่ใช้ประโยชน์จาก Apache Tika ในที่นี้เราจะพูดถึงแอพพลิเคชั่นที่โดดเด่นบางตัวที่ต้องพึ่งพา Apache Tika
เครื่องมือค้นหา
Tika ใช้กันอย่างแพร่หลายในขณะที่พัฒนาเครื่องมือค้นหาเพื่อจัดทำดัชนีเนื้อหาข้อความของเอกสารดิจิทัล
เครื่องมือค้นหาคือระบบประมวลผลข้อมูลที่ออกแบบมาเพื่อค้นหาข้อมูลและเอกสารที่จัดทำดัชนีจากเว็บ
Crawler เป็นองค์ประกอบสำคัญของเครื่องมือค้นหาที่รวบรวมข้อมูลผ่านเว็บเพื่อดึงเอกสารที่จะจัดทำดัชนีโดยใช้เทคนิคการจัดทำดัชนี หลังจากนั้นโปรแกรมรวบรวมข้อมูลจะโอนเอกสารที่จัดทำดัชนีเหล่านี้ไปยังส่วนประกอบการแยก
หน้าที่ขององค์ประกอบการแยกคือการแยกข้อความและข้อมูลเมตาจากเอกสาร เนื้อหาและข้อมูลเมตาที่แยกออกมาดังกล่าวมีประโยชน์มากสำหรับเครื่องมือค้นหา ส่วนประกอบการสกัดนี้มี Tika
จากนั้นเนื้อหาที่แยกแล้วจะถูกส่งไปยังตัวสร้างดัชนีของเครื่องมือค้นหาที่ใช้เพื่อสร้างดัชนีการค้นหา นอกเหนือจากนี้เครื่องมือค้นหายังใช้เนื้อหาที่แยกออกมาในรูปแบบอื่น ๆ อีกมากมายเช่นกัน
การวิเคราะห์เอกสาร
ในด้านปัญญาประดิษฐ์มีเครื่องมือบางอย่างในการวิเคราะห์เอกสารโดยอัตโนมัติในระดับความหมายและดึงข้อมูลทุกประเภทจากเอกสารเหล่านี้
ในแอปพลิเคชันดังกล่าวเอกสารจะถูกจัดประเภทตามข้อกำหนดที่โดดเด่นในเนื้อหาที่แยกออกมาของเอกสาร
เครื่องมือเหล่านี้ใช้ประโยชน์จาก Tika สำหรับการแยกเนื้อหาเพื่อวิเคราะห์เอกสารที่แตกต่างกันไปตั้งแต่ข้อความธรรมดาไปจนถึงเอกสารดิจิทัล
การจัดการสินทรัพย์ดิจิทัล
องค์กรบางแห่งจัดการสินทรัพย์ดิจิทัลของตนเช่นภาพถ่าย ebooks ภาพวาดเพลงและวิดีโอโดยใช้แอปพลิเคชันพิเศษที่เรียกว่าการจัดการสินทรัพย์ดิจิทัล (DAM)
แอปพลิเคชันดังกล่าวใช้ความช่วยเหลือของตัวตรวจจับประเภทเอกสารและตัวแยกข้อมูลเมตาเพื่อจัดประเภทเอกสารต่างๆ
การวิเคราะห์เนื้อหา
เว็บไซต์เช่น Amazon แนะนำเนื้อหาที่ออกใหม่ของเว็บไซต์ให้กับผู้ใช้แต่ละรายตามความสนใจ โดยทำตามเว็บไซต์เหล่านี้machine learning techniquesหรือใช้ความช่วยเหลือของเว็บไซต์โซเชียลมีเดียเช่น Facebook เพื่อดึงข้อมูลที่จำเป็นเช่นไลค์และความสนใจของผู้ใช้ ข้อมูลที่รวบรวมนี้จะอยู่ในรูปแบบของแท็ก html หรือรูปแบบอื่น ๆ ที่ต้องมีการตรวจจับและแยกประเภทเนื้อหาเพิ่มเติม
สำหรับการวิเคราะห์เนื้อหาของเอกสารเรามีเทคโนโลยีที่ใช้เทคนิคการเรียนรู้ของเครื่องเช่น UIMA และ Mahout. เทคโนโลยีเหล่านี้มีประโยชน์ในการจัดกลุ่มและวิเคราะห์ข้อมูลในเอกสาร
Apache Mahoutเป็นเฟรมเวิร์กที่ให้อัลกอริทึม ML บน Apache Hadoop ซึ่งเป็นแพลตฟอร์มคลาวด์คอมพิวติ้ง Mahout จัดเตรียมสถาปัตยกรรมโดยทำตามเทคนิคการทำคลัสเตอร์และการกรองบางอย่าง ด้วยการปฏิบัติตามสถาปัตยกรรมนี้โปรแกรมเมอร์สามารถเขียนอัลกอริทึม ML ของตนเองเพื่อสร้างคำแนะนำโดยใช้การผสมผสานข้อความและข้อมูลเมตาต่างๆ ในการจัดหาอินพุตให้กับอัลกอริทึมเหล่านี้ Mahout เวอร์ชันล่าสุดใช้ Tika เพื่อแยกข้อความและข้อมูลเมตาจากเนื้อหาไบนารี
Apache UIMAวิเคราะห์และประมวลผลภาษาโปรแกรมต่างๆและสร้างคำอธิบายประกอบ UIMA ภายในจะใช้ Tika Annotator เพื่อแยกข้อความเอกสารและข้อมูลเมตา
ประวัติศาสตร์
ปี | การพัฒนา |
---|---|
พ.ศ. 2549 | ความคิดของ Tika ถูกฉายต่อหน้าคณะกรรมการบริหารโครงการของ Lucene |
พ.ศ. 2549 | มีการพูดถึงแนวคิดของ Tika และประโยชน์ในโครงการ Jackrabbit |
พ.ศ. 2550 | ทิก้าเข้าไปในตู้อบอาปาเช่ |
พ.ศ. 2551 | เวอร์ชัน 0.1 และ 0.2 ได้รับการเผยแพร่และ Tika จบการศึกษาจากศูนย์บ่มเพาะไปยังโครงการย่อยของ Lucene |
2552 | เวอร์ชัน 0.3, 0.4 และ 0.5 ได้รับการเผยแพร่แล้ว |
พ.ศ. 2553 | เวอร์ชัน 0.6 และ 0.7 ได้รับการเผยแพร่และ Tika ได้เข้าสู่โครงการ Apache ระดับบนสุด |
2554 | Tika 1.0 ได้รับการปล่อยตัวและหนังสือเรื่อง Tika "Tika in Action" ก็วางจำหน่ายในปีเดียวกัน |