TIKA - ภาพรวม

Apache Tika คืออะไร?

  • Apache Tika เป็นไลบรารีที่ใช้สำหรับการตรวจจับชนิดเอกสารและการแยกเนื้อหาจากไฟล์รูปแบบต่างๆ

  • ภายใน Tika ใช้ตัวแยกวิเคราะห์เอกสารต่างๆที่มีอยู่และเทคนิคการตรวจจับประเภทเอกสารเพื่อตรวจจับและดึงข้อมูล

  • การใช้ Tika เราสามารถพัฒนาตัวตรวจจับประเภทสากลและตัวแยกเนื้อหาเพื่อแยกข้อความที่มีโครงสร้างและข้อมูลเมตาจากเอกสารประเภทต่างๆเช่นสเปรดชีตเอกสารข้อความรูปภาพ PDF และแม้แต่รูปแบบอินพุตมัลติมีเดียได้ในระดับหนึ่ง

  • Tika มี API ทั่วไปเดียวสำหรับการแยกวิเคราะห์ไฟล์รูปแบบต่างๆ ใช้ไลบรารีตัวแยกวิเคราะห์เฉพาะที่มีอยู่สำหรับเอกสารแต่ละประเภท

  • ไลบรารีตัวแยกวิเคราะห์ทั้งหมดเหล่านี้ถูกห่อหุ้มไว้ภายใต้อินเทอร์เฟซเดียวที่เรียกว่า Parser interface.

ทำไม Tika?

ตาม filext.com มีเนื้อหาประมาณ 15k ถึง 51k ประเภทและจำนวนนี้เพิ่มขึ้นทุกวัน ข้อมูลจะถูกจัดเก็บในรูปแบบต่างๆเช่นเอกสารข้อความสเปรดชีต excel PDF รูปภาพและไฟล์มัลติมีเดียเพื่อตั้งชื่อไม่กี่ ดังนั้นแอปพลิเคชันเช่นเครื่องมือค้นหาและระบบจัดการเนื้อหาจึงต้องการการสนับสนุนเพิ่มเติมเพื่อให้สามารถดึงข้อมูลออกจากประเภทเอกสารเหล่านี้ได้ง่าย Apache Tika ทำหน้าที่นี้โดยจัดเตรียม API ทั่วไปเพื่อค้นหาและดึงข้อมูลจากไฟล์หลายรูปแบบ

แอพพลิเคชั่น Apache Tika

มีแอปพลิเคชั่นต่างๆที่ใช้ประโยชน์จาก Apache Tika ในที่นี้เราจะพูดถึงแอพพลิเคชั่นที่โดดเด่นบางตัวที่ต้องพึ่งพา Apache Tika

เครื่องมือค้นหา

Tika ใช้กันอย่างแพร่หลายในขณะที่พัฒนาเครื่องมือค้นหาเพื่อจัดทำดัชนีเนื้อหาข้อความของเอกสารดิจิทัล

  • เครื่องมือค้นหาคือระบบประมวลผลข้อมูลที่ออกแบบมาเพื่อค้นหาข้อมูลและเอกสารที่จัดทำดัชนีจากเว็บ

  • Crawler เป็นองค์ประกอบสำคัญของเครื่องมือค้นหาที่รวบรวมข้อมูลผ่านเว็บเพื่อดึงเอกสารที่จะจัดทำดัชนีโดยใช้เทคนิคการจัดทำดัชนี หลังจากนั้นโปรแกรมรวบรวมข้อมูลจะโอนเอกสารที่จัดทำดัชนีเหล่านี้ไปยังส่วนประกอบการแยก

  • หน้าที่ขององค์ประกอบการแยกคือการแยกข้อความและข้อมูลเมตาจากเอกสาร เนื้อหาและข้อมูลเมตาที่แยกออกมาดังกล่าวมีประโยชน์มากสำหรับเครื่องมือค้นหา ส่วนประกอบการสกัดนี้มี Tika

  • จากนั้นเนื้อหาที่แยกแล้วจะถูกส่งไปยังตัวสร้างดัชนีของเครื่องมือค้นหาที่ใช้เพื่อสร้างดัชนีการค้นหา นอกเหนือจากนี้เครื่องมือค้นหายังใช้เนื้อหาที่แยกออกมาในรูปแบบอื่น ๆ อีกมากมายเช่นกัน

การวิเคราะห์เอกสาร

  • ในด้านปัญญาประดิษฐ์มีเครื่องมือบางอย่างในการวิเคราะห์เอกสารโดยอัตโนมัติในระดับความหมายและดึงข้อมูลทุกประเภทจากเอกสารเหล่านี้

  • ในแอปพลิเคชันดังกล่าวเอกสารจะถูกจัดประเภทตามข้อกำหนดที่โดดเด่นในเนื้อหาที่แยกออกมาของเอกสาร

  • เครื่องมือเหล่านี้ใช้ประโยชน์จาก Tika สำหรับการแยกเนื้อหาเพื่อวิเคราะห์เอกสารที่แตกต่างกันไปตั้งแต่ข้อความธรรมดาไปจนถึงเอกสารดิจิทัล

การจัดการสินทรัพย์ดิจิทัล

  • องค์กรบางแห่งจัดการสินทรัพย์ดิจิทัลของตนเช่นภาพถ่าย ebooks ภาพวาดเพลงและวิดีโอโดยใช้แอปพลิเคชันพิเศษที่เรียกว่าการจัดการสินทรัพย์ดิจิทัล (DAM)

  • แอปพลิเคชันดังกล่าวใช้ความช่วยเหลือของตัวตรวจจับประเภทเอกสารและตัวแยกข้อมูลเมตาเพื่อจัดประเภทเอกสารต่างๆ

การวิเคราะห์เนื้อหา

  • เว็บไซต์เช่น Amazon แนะนำเนื้อหาที่ออกใหม่ของเว็บไซต์ให้กับผู้ใช้แต่ละรายตามความสนใจ โดยทำตามเว็บไซต์เหล่านี้machine learning techniquesหรือใช้ความช่วยเหลือของเว็บไซต์โซเชียลมีเดียเช่น Facebook เพื่อดึงข้อมูลที่จำเป็นเช่นไลค์และความสนใจของผู้ใช้ ข้อมูลที่รวบรวมนี้จะอยู่ในรูปแบบของแท็ก html หรือรูปแบบอื่น ๆ ที่ต้องมีการตรวจจับและแยกประเภทเนื้อหาเพิ่มเติม

  • สำหรับการวิเคราะห์เนื้อหาของเอกสารเรามีเทคโนโลยีที่ใช้เทคนิคการเรียนรู้ของเครื่องเช่น UIMA และ Mahout. เทคโนโลยีเหล่านี้มีประโยชน์ในการจัดกลุ่มและวิเคราะห์ข้อมูลในเอกสาร

  • Apache Mahoutเป็นเฟรมเวิร์กที่ให้อัลกอริทึม ML บน Apache Hadoop ซึ่งเป็นแพลตฟอร์มคลาวด์คอมพิวติ้ง Mahout จัดเตรียมสถาปัตยกรรมโดยทำตามเทคนิคการทำคลัสเตอร์และการกรองบางอย่าง ด้วยการปฏิบัติตามสถาปัตยกรรมนี้โปรแกรมเมอร์สามารถเขียนอัลกอริทึม ML ของตนเองเพื่อสร้างคำแนะนำโดยใช้การผสมผสานข้อความและข้อมูลเมตาต่างๆ ในการจัดหาอินพุตให้กับอัลกอริทึมเหล่านี้ Mahout เวอร์ชันล่าสุดใช้ Tika เพื่อแยกข้อความและข้อมูลเมตาจากเนื้อหาไบนารี

  • Apache UIMAวิเคราะห์และประมวลผลภาษาโปรแกรมต่างๆและสร้างคำอธิบายประกอบ UIMA ภายในจะใช้ Tika Annotator เพื่อแยกข้อความเอกสารและข้อมูลเมตา

ประวัติศาสตร์

ปี การพัฒนา
พ.ศ. 2549 ความคิดของ Tika ถูกฉายต่อหน้าคณะกรรมการบริหารโครงการของ Lucene
พ.ศ. 2549 มีการพูดถึงแนวคิดของ Tika และประโยชน์ในโครงการ Jackrabbit
พ.ศ. 2550 ทิก้าเข้าไปในตู้อบอาปาเช่
พ.ศ. 2551 เวอร์ชัน 0.1 และ 0.2 ได้รับการเผยแพร่และ Tika จบการศึกษาจากศูนย์บ่มเพาะไปยังโครงการย่อยของ Lucene
2552 เวอร์ชัน 0.3, 0.4 และ 0.5 ได้รับการเผยแพร่แล้ว
พ.ศ. 2553 เวอร์ชัน 0.6 และ 0.7 ได้รับการเผยแพร่และ Tika ได้เข้าสู่โครงการ Apache ระดับบนสุด
2554 Tika 1.0 ได้รับการปล่อยตัวและหนังสือเรื่อง Tika "Tika in Action" ก็วางจำหน่ายในปีเดียวกัน