TIKA-ファイル形式

Tikaでサポートされているファイル形式

次の表に、Tikaがサポートするファイル形式を示します。

ファイル形式 パッケージライブラリ ティカのクラス
XML org.apache.tika.parser.xml XMLParser
HTML org.apache.tika.parser.htmlであり、Tagsoupライブラリを使用します HtmlParser
MS-Office複合ドキュメントOle2から2007ooxml2007以降

org.apache.tika.parser.microsoft

org.apache.tika.parser.microsoft.ooxmlであり、ApachePoiライブラリを使用します

OfficeParser(ole2)

OOXMLParser(ooxml)

OpenDocument形式のopenoffice org.apache.tika.parser.odf OpenOfficeParser
ポータブルドキュメントフォーマット(PDF) org.apache.tika.parser.pdfおよびこのパッケージはApachePdfBoxライブラリを使用します PDFParser
電子出版フォーマット(デジタルブック) org.apache.tika.parser.epub EpubParser
リッチテキスト形式 org.apache.tika.parser.rtf RTFParser
圧縮およびパッケージ形式 org.apache.tika.parser.pkgおよびこのパッケージは共通の圧縮ライブラリを使用します PackageParserとCompressorParserおよびそのサブクラス
テキスト形式 org.apache.tika.parser.txt TXTParser
フィードおよびシンジケーション形式 org.apache.tika.parser.feed FeedParser
オーディオフォーマット org.apache.tika.parser.audioおよびorg.apache.tika.parser.mp3 AudioParser MidiParser Mp3-mp3parser用
イメージパーサー org.apache.tika.parser.jpeg JpegParser-jpeg画像用
ビデオフォーマット org.apache.tika.parser.mp4およびorg.apache.tika.parser.videoこのパーサーは、内部でSimpleAlgorithmを使用してFlashビデオ形式を解析します Mp4parser FlvParser
javaクラスファイルとjarファイル org.apache.tika.parser.asm ClassParser CompressorParser
Mobxformat(電子メールメッセージ) org.apache.tika.parser.mbox MobXParser
CADフォーマット org.apache.tika.parser.dwg DWGParser
FontFormats org.apache.tika.parser.font TrueTypeParser
実行可能プログラムとライブラリ org.apache.tika.parser.executable ExecutableParser