TIKA - Dateiformate

Von Tika unterstützte Dateiformate

Die folgende Tabelle zeigt die von Tika unterstützten Dateiformate.

Datei Format Paketbibliothek Klasse in Tika
XML org.apache.tika.parser.xml XMLParser
HTML org.apache.tika.parser.html und verwendet die Tagsoup Library HtmlParser
MS-Office-Verbunddokument Ole2 bis 2007 ab 2007 ooxml

org.apache.tika.parser.microsoft

org.apache.tika.parser.microsoft.ooxml und verwendet die Apache Poi-Bibliothek

OfficeParser (ole2)

OOXMLParser (ooxml)

OpenDocument Format openoffice org.apache.tika.parser.odf OpenOfficeParser
tragbares Dokumentformat (PDF) org.apache.tika.parser.pdf und dieses Paket verwendet die Apache PdfBox-Bibliothek PDFParser
Elektronisches Publikationsformat (digitale Bücher) org.apache.tika.parser.epub EpubParser
Rich-text-Format org.apache.tika.parser.rtf RTFParser
Komprimierungs- und Verpackungsformate org.apache.tika.parser.pkg und dieses Paket verwendet die Common Compress Library PackageParser und CompressorParser und ihre Unterklassen
Textformat org.apache.tika.parser.txt TXTParser
Feed- und Syndication-Formate org.apache.tika.parser.feed FeedParser
Audioformate org.apache.tika.parser.audio und org.apache.tika.parser.mp3 AudioParser MidiParser Mp3- für mp3parser
Imageparsers org.apache.tika.parser.jpeg JpegParser-für JPEG-Bilder
Videoformate org.apache.tika.parser.mp4 und org.apache.tika.parser.video Dieser Parser verwendet intern den einfachen Algorithmus, um Flash-Videoformate zu analysieren Mp4parser FlvParser
Java-Klassendateien und JAR-Dateien org.apache.tika.parser.asm ClassParser CompressorParser
Mobxformat (E-Mail-Nachrichten) org.apache.tika.parser.mbox MobXParser
Cad-Formate org.apache.tika.parser.dwg DWGParser
FontFormats org.apache.tika.parser.font TrueTypeParser
ausführbare Programme und Bibliotheken org.apache.tika.parser.executable ExecutableParser