TIKA - รูปแบบไฟล์
รูปแบบไฟล์รองรับโดย Tika
ตารางต่อไปนี้แสดงรูปแบบไฟล์ที่ Tika รองรับ
รูปแบบไฟล์ | ไลบรารีแพ็คเกจ | ชั้นเรียนใน Tika |
---|---|---|
XML | org.apache.tika.parser.xml | XMLParser |
HTML | org.apache.tika.parser.html และใช้ Tagsoup Library | HtmlParser |
เอกสารประกอบ MS-Office Ole2 จนถึง 2007 ooxml 2007 เป็นต้นไป | org.apache.tika.parser.microsoft org.apache.tika.parser.microsoft.ooxml และใช้ไลบรารี Apache Poi |
OfficeParser (ole2) OOXMLParser (ooxml) |
รูปแบบ OpenDocument openoffice | org.apache.tika.parser.odf | OpenOfficeParser |
รูปแบบเอกสารพกพา (PDF) | org.apache.tika.parser.pdf และแพ็คเกจนี้ใช้ไลบรารี Apache PdfBox | PDFParser |
รูปแบบสิ่งพิมพ์อิเล็กทรอนิกส์ (หนังสือดิจิทัล) | org.apache.tika.parser.epub | EpubParser |
รูปแบบ Rich Text | org.apache.tika.parser.rtf | RTFParser |
รูปแบบการบีบอัดและบรรจุภัณฑ์ | org.apache.tika.parser.pkg และแพ็คเกจนี้ใช้ไลบรารีบีบอัดทั่วไป | PackageParser และ CompressorParser และคลาสย่อย |
รูปแบบข้อความ | org.apache.tika.parser.txt | TXTarser |
รูปแบบฟีดและการเผยแพร่ | org.apache.tika.parser.feed | FeedParser |
รูปแบบเสียง | org.apache.tika.parser.audio และ org.apache.tika.parser.mp3 | AudioParser MidiParser Mp3- สำหรับ mp3parser |
Imageparsers | org.apache.tika.parser.jpeg | JpegParser - สำหรับรูปภาพ jpeg |
รูปแบบวิดีโอ | org.apache.tika.parser.mp4 และ org.apache.tika.parser.video ตัวแยกวิเคราะห์นี้ภายในใช้ Simple Algorithm เพื่อแยกวิเคราะห์รูปแบบวิดีโอแฟลช | Mp4parser FlvParser |
ไฟล์คลาส java และไฟล์ jar | org.apache.tika.parser.asm | ClassParser CompressorParser |
Mobxformat (ข้อความอีเมล) | org.apache.tika.parser.mbox | MobXParser |
รูปแบบ CAD | org.apache.tika.parser.dwg | DWGParser |
FontFormats | org.apache.tika.parser.font | TrueTypeParser |
โปรแกรมปฏิบัติการและไลบรารี | org.apache.tika.parser.executable | ExecutableParser |