TIKA - Formats de fichier
Formats de fichiers pris en charge par Tika
Le tableau suivant présente les formats de fichiers pris en charge par Tika.
| Format de fichier | Bibliothèque de packages | Cours à Tika |
|---|---|---|
| XML | org.apache.tika.parser.xml | XMLParser |
| HTML | org.apache.tika.parser.html et utilise la bibliothèque Tagsoup | HtmlParser |
| Document composé MS-Office Ole2 jusqu'en 2007 ooxml à partir de 2007 | org.apache.tika.parser.microsoft org.apache.tika.parser.microsoft.ooxml et utilise la bibliothèque Apache Poi |
OfficeParser (ole2) OOXMLParser (ooxml) |
| OpenOffice au format OpenDocument | org.apache.tika.parser.odf | OpenOfficeParser |
| Format de document portable (PDF) | org.apache.tika.parser.pdf et ce package utilise la bibliothèque Apache PdfBox | PDFParser |
| Format de publication électronique (livres numériques) | org.apache.tika.parser.epub | EpubParser |
| Format de texte enrichi | org.apache.tika.parser.rtf | RTFParser |
| Formats de compression et d'emballage | org.apache.tika.parser.pkg et ce package utilise la bibliothèque de compression commune | PackageParser et CompressorParser et ses sous-classes |
| Format de texte | org.apache.tika.parser.txt | TXTParser |
| Formats d'alimentation et de syndication | org.apache.tika.parser.feed | FeedParser |
| Formats audio | org.apache.tika.parser.audio et org.apache.tika.parser.mp3 | AudioParser MidiParser Mp3- pour mp3parser |
| Analyseurs d'images | org.apache.tika.parser.jpeg | JpegParser-pour les images jpeg |
| Vidéoformats | org.apache.tika.parser.mp4 et org.apache.tika.parser.video cet analyseur utilise en interne un algorithme simple pour analyser les formats vidéo flash | Mp4parser FlvParser |
| fichiers de classe java et fichiers jar | org.apache.tika.parser.asm | ClasseParser CompressorParser |
| Mobxformat (messages électroniques) | org.apache.tika.parser.mbox | MobXParser |
| Formats CAO | org.apache.tika.parser.dwg | DWGParser |
| FontFormats | org.apache.tika.parser.font | TrueTypeParser |
| programmes exécutables et bibliothèques | org.apache.tika.parser.executable | ExécutableParser |