TIKA - formatos de arquivo
Formatos de arquivo suportados por Tika
A tabela a seguir mostra os formatos de arquivo suportados pelo Tika.
Formato de arquivo | Biblioteca de Pacotes | Aula em Tika |
---|---|---|
XML | org.apache.tika.parser.xml | XMLParser |
HTML | org.apache.tika.parser.html e usa a Biblioteca Tagsoup | HtmlParser |
Documento composto MS-Office Ole2 até 2007 ooxml 2007 em diante | org.apache.tika.parser.microsoft org.apache.tika.parser.microsoft.ooxml e usa a biblioteca Apache Poi |
OfficeParser (ole2) OOXMLParser (ooxml) |
OpenDocument Format openoffice | org.apache.tika.parser.odf | OpenOfficeParser |
Portable Document Format (PDF) | org.apache.tika.parser.pdf e este pacote usa a biblioteca Apache PdfBox | PDFParser |
Formato de publicação eletrônica (livros digitais) | org.apache.tika.parser.epub | EpubParser |
Formato de texto rico | org.apache.tika.parser.rtf | RTFParser |
Formatos de compressão e embalagem | org.apache.tika.parser.pkg e este pacote usa a biblioteca de compressão comum | PackageParser e CompressorParser e suas subclasses |
Formato de texto | org.apache.tika.parser.txt | TXTParser |
Formatos de feed e distribuição | org.apache.tika.parser.feed | FeedParser |
Formatos de áudio | org.apache.tika.parser.audio e org.apache.tika.parser.mp3 | AudioParser MidiParser Mp3- para mp3parser |
Imageparsers | org.apache.tika.parser.jpeg | JpegParser - para imagens jpeg |
Videoformatos | org.apache.tika.parser.mp4 e org.apache.tika.parser.video este analisador usa internamente Algoritmo Simples para analisar formatos de vídeo em flash | Mp4parser FlvParser |
arquivos de classe java e arquivos jar | org.apache.tika.parser.asm | ClassParser CompressorParser |
Mobxformat (mensagens de e-mail) | org.apache.tika.parser.mbox | MobXParser |
Formatos Cad | org.apache.tika.parser.dwg | DWGParser |
FontFormats | org.apache.tika.parser.font | TrueTypeParser |
programas executáveis e bibliotecas | org.apache.tika.parser.executable | ExecutableParser |