TIKA - Dateiformate
Von Tika unterstützte Dateiformate
Die folgende Tabelle zeigt die von Tika unterstützten Dateiformate.
Datei Format | Paketbibliothek | Klasse in Tika |
---|---|---|
XML | org.apache.tika.parser.xml | XMLParser |
HTML | org.apache.tika.parser.html und verwendet die Tagsoup Library | HtmlParser |
MS-Office-Verbunddokument Ole2 bis 2007 ab 2007 ooxml | org.apache.tika.parser.microsoft org.apache.tika.parser.microsoft.ooxml und verwendet die Apache Poi-Bibliothek |
OfficeParser (ole2) OOXMLParser (ooxml) |
OpenDocument Format openoffice | org.apache.tika.parser.odf | OpenOfficeParser |
tragbares Dokumentformat (PDF) | org.apache.tika.parser.pdf und dieses Paket verwendet die Apache PdfBox-Bibliothek | PDFParser |
Elektronisches Publikationsformat (digitale Bücher) | org.apache.tika.parser.epub | EpubParser |
Rich-text-Format | org.apache.tika.parser.rtf | RTFParser |
Komprimierungs- und Verpackungsformate | org.apache.tika.parser.pkg und dieses Paket verwendet die Common Compress Library | PackageParser und CompressorParser und ihre Unterklassen |
Textformat | org.apache.tika.parser.txt | TXTParser |
Feed- und Syndication-Formate | org.apache.tika.parser.feed | FeedParser |
Audioformate | org.apache.tika.parser.audio und org.apache.tika.parser.mp3 | AudioParser MidiParser Mp3- für mp3parser |
Imageparsers | org.apache.tika.parser.jpeg | JpegParser-für JPEG-Bilder |
Videoformate | org.apache.tika.parser.mp4 und org.apache.tika.parser.video Dieser Parser verwendet intern den einfachen Algorithmus, um Flash-Videoformate zu analysieren | Mp4parser FlvParser |
Java-Klassendateien und JAR-Dateien | org.apache.tika.parser.asm | ClassParser CompressorParser |
Mobxformat (E-Mail-Nachrichten) | org.apache.tika.parser.mbox | MobXParser |
Cad-Formate | org.apache.tika.parser.dwg | DWGParser |
FontFormats | org.apache.tika.parser.font | TrueTypeParser |
ausführbare Programme und Bibliotheken | org.apache.tika.parser.executable | ExecutableParser |