TIKA - formatos de arquivo

Formatos de arquivo suportados por Tika

A tabela a seguir mostra os formatos de arquivo suportados pelo Tika.

Formato de arquivo Biblioteca de Pacotes Aula em Tika
XML org.apache.tika.parser.xml XMLParser
HTML org.apache.tika.parser.html e usa a Biblioteca Tagsoup HtmlParser
Documento composto MS-Office Ole2 até 2007 ooxml 2007 em diante

org.apache.tika.parser.microsoft

org.apache.tika.parser.microsoft.ooxml e usa a biblioteca Apache Poi

OfficeParser (ole2)

OOXMLParser (ooxml)

OpenDocument Format openoffice org.apache.tika.parser.odf OpenOfficeParser
Portable Document Format (PDF) org.apache.tika.parser.pdf e este pacote usa a biblioteca Apache PdfBox PDFParser
Formato de publicação eletrônica (livros digitais) org.apache.tika.parser.epub EpubParser
Formato de texto rico org.apache.tika.parser.rtf RTFParser
Formatos de compressão e embalagem org.apache.tika.parser.pkg e este pacote usa a biblioteca de compressão comum PackageParser e CompressorParser e suas subclasses
Formato de texto org.apache.tika.parser.txt TXTParser
Formatos de feed e distribuição org.apache.tika.parser.feed FeedParser
Formatos de áudio org.apache.tika.parser.audio e org.apache.tika.parser.mp3 AudioParser MidiParser Mp3- para mp3parser
Imageparsers org.apache.tika.parser.jpeg JpegParser - para imagens jpeg
Videoformatos org.apache.tika.parser.mp4 e org.apache.tika.parser.video este analisador usa internamente Algoritmo Simples para analisar formatos de vídeo em flash Mp4parser FlvParser
arquivos de classe java e arquivos jar org.apache.tika.parser.asm ClassParser CompressorParser
Mobxformat (mensagens de e-mail) org.apache.tika.parser.mbox MobXParser
Formatos Cad org.apache.tika.parser.dwg DWGParser
FontFormats org.apache.tika.parser.font TrueTypeParser
programas executáveis ​​e bibliotecas org.apache.tika.parser.executable ExecutableParser