TIKA - Formatos de archivo
Formatos de archivo admitidos por Tika
La siguiente tabla muestra los formatos de archivo que admite Tika.
| Formato de archivo | Biblioteca de paquetes | Clase en Tika |
|---|---|---|
| XML | org.apache.tika.parser.xml | XMLParser |
| HTML | org.apache.tika.parser.html y utiliza la biblioteca de grupos de etiquetas | HtmlParser |
| Documento compuesto de MS-Office Ole2 hasta 2007 ooxml 2007 en adelante | org.apache.tika.parser.microsoft org.apache.tika.parser.microsoft.ooxml y usa la biblioteca Apache Poi |
OfficeParser (ole2) OOXMLParser (ooxml) |
| Formato OpenDocument openoffice | org.apache.tika.parser.odf | OpenOfficeParser |
| formato de documento portátil (PDF) | org.apache.tika.parser.pdf y este paquete usa la biblioteca Apache PdfBox | PDFParser |
| Formato de publicación electrónica (libros digitales) | org.apache.tika.parser.epub | EpubParser |
| Formato de texto enriquecido | org.apache.tika.parser.rtf | RTFParser |
| Formatos de compresión y empaque | org.apache.tika.parser.pkg y este paquete usa la biblioteca de compresión común | PackageParser y CompressorParser y sus subclases |
| Formato de texto | org.apache.tika.parser.txt | TXTParser |
| Formatos de distribución y alimentación | org.apache.tika.parser.feed | FeedParser |
| Formatos de audio | org.apache.tika.parser.audio y org.apache.tika.parser.mp3 | AudioParser MidiParser Mp3- para mp3parser |
| Analizadores de imágenes | org.apache.tika.parser.jpeg | JpegParser-para imágenes jpeg |
| Videoformatos | org.apache.tika.parser.mp4 y org.apache.tika.parser.video este analizador utiliza internamente un algoritmo simple para analizar formatos de video flash | Mp4parser FlvParser |
| archivos de clase java y archivos jar | org.apache.tika.parser.asm | ClassParser CompressorParser |
| Mobxformat (mensajes de correo electrónico) | org.apache.tika.parser.mbox | MobXParser |
| Formatos cad | org.apache.tika.parser.dwg | DWGParser |
| FontFormats | org.apache.tika.parser.font | TrueTypeParser |
| programas y bibliotecas ejecutables | org.apache.tika.parser.executable | ExecutableParser |