TIKA - formatos de arquivo
Formatos de arquivo suportados por Tika
A tabela a seguir mostra os formatos de arquivo suportados pelo Tika.
| Formato de arquivo | Biblioteca de Pacotes | Aula em Tika |
|---|---|---|
| XML | org.apache.tika.parser.xml | XMLParser |
| HTML | org.apache.tika.parser.html e usa a Biblioteca Tagsoup | HtmlParser |
| Documento composto MS-Office Ole2 até 2007 ooxml 2007 em diante | org.apache.tika.parser.microsoft org.apache.tika.parser.microsoft.ooxml e usa a biblioteca Apache Poi |
OfficeParser (ole2) OOXMLParser (ooxml) |
| OpenDocument Format openoffice | org.apache.tika.parser.odf | OpenOfficeParser |
| Portable Document Format (PDF) | org.apache.tika.parser.pdf e este pacote usa a biblioteca Apache PdfBox | PDFParser |
| Formato de publicação eletrônica (livros digitais) | org.apache.tika.parser.epub | EpubParser |
| Formato de texto rico | org.apache.tika.parser.rtf | RTFParser |
| Formatos de compressão e embalagem | org.apache.tika.parser.pkg e este pacote usa a biblioteca de compressão comum | PackageParser e CompressorParser e suas subclasses |
| Formato de texto | org.apache.tika.parser.txt | TXTParser |
| Formatos de feed e distribuição | org.apache.tika.parser.feed | FeedParser |
| Formatos de áudio | org.apache.tika.parser.audio e org.apache.tika.parser.mp3 | AudioParser MidiParser Mp3- para mp3parser |
| Imageparsers | org.apache.tika.parser.jpeg | JpegParser - para imagens jpeg |
| Videoformatos | org.apache.tika.parser.mp4 e org.apache.tika.parser.video este analisador usa internamente Algoritmo Simples para analisar formatos de vídeo em flash | Mp4parser FlvParser |
| arquivos de classe java e arquivos jar | org.apache.tika.parser.asm | ClassParser CompressorParser |
| Mobxformat (mensagens de e-mail) | org.apache.tika.parser.mbox | MobXParser |
| Formatos Cad | org.apache.tika.parser.dwg | DWGParser |
| FontFormats | org.apache.tika.parser.font | TrueTypeParser |
| programas executáveis e bibliotecas | org.apache.tika.parser.executable | ExecutableParser |