TIKA-ファイル形式
Tikaでサポートされているファイル形式
次の表に、Tikaがサポートするファイル形式を示します。
ファイル形式 | パッケージライブラリ | ティカのクラス |
---|---|---|
XML | org.apache.tika.parser.xml | XMLParser |
HTML | org.apache.tika.parser.htmlであり、Tagsoupライブラリを使用します | HtmlParser |
MS-Office複合ドキュメントOle2から2007ooxml2007以降 | org.apache.tika.parser.microsoft org.apache.tika.parser.microsoft.ooxmlであり、ApachePoiライブラリを使用します |
OfficeParser(ole2) OOXMLParser(ooxml) |
OpenDocument形式のopenoffice | org.apache.tika.parser.odf | OpenOfficeParser |
ポータブルドキュメントフォーマット(PDF) | org.apache.tika.parser.pdfおよびこのパッケージはApachePdfBoxライブラリを使用します | PDFParser |
電子出版フォーマット(デジタルブック) | org.apache.tika.parser.epub | EpubParser |
リッチテキスト形式 | org.apache.tika.parser.rtf | RTFParser |
圧縮およびパッケージ形式 | org.apache.tika.parser.pkgおよびこのパッケージは共通の圧縮ライブラリを使用します | PackageParserとCompressorParserおよびそのサブクラス |
テキスト形式 | org.apache.tika.parser.txt | TXTParser |
フィードおよびシンジケーション形式 | org.apache.tika.parser.feed | FeedParser |
オーディオフォーマット | org.apache.tika.parser.audioおよびorg.apache.tika.parser.mp3 | AudioParser MidiParser Mp3-mp3parser用 |
イメージパーサー | org.apache.tika.parser.jpeg | JpegParser-jpeg画像用 |
ビデオフォーマット | org.apache.tika.parser.mp4およびorg.apache.tika.parser.videoこのパーサーは、内部でSimpleAlgorithmを使用してFlashビデオ形式を解析します | Mp4parser FlvParser |
javaクラスファイルとjarファイル | org.apache.tika.parser.asm | ClassParser CompressorParser |
Mobxformat(電子メールメッセージ) | org.apache.tika.parser.mbox | MobXParser |
CADフォーマット | org.apache.tika.parser.dwg | DWGParser |
FontFormats | org.apache.tika.parser.font | TrueTypeParser |
実行可能プログラムとライブラリ | org.apache.tika.parser.executable | ExecutableParser |