TIKA - Formats de fichier
Formats de fichiers pris en charge par Tika
Le tableau suivant présente les formats de fichiers pris en charge par Tika.
Format de fichier | Bibliothèque de packages | Cours à Tika |
---|---|---|
XML | org.apache.tika.parser.xml | XMLParser |
HTML | org.apache.tika.parser.html et utilise la bibliothèque Tagsoup | HtmlParser |
Document composé MS-Office Ole2 jusqu'en 2007 ooxml à partir de 2007 | org.apache.tika.parser.microsoft org.apache.tika.parser.microsoft.ooxml et utilise la bibliothèque Apache Poi |
OfficeParser (ole2) OOXMLParser (ooxml) |
OpenOffice au format OpenDocument | org.apache.tika.parser.odf | OpenOfficeParser |
Format de document portable (PDF) | org.apache.tika.parser.pdf et ce package utilise la bibliothèque Apache PdfBox | PDFParser |
Format de publication électronique (livres numériques) | org.apache.tika.parser.epub | EpubParser |
Format de texte enrichi | org.apache.tika.parser.rtf | RTFParser |
Formats de compression et d'emballage | org.apache.tika.parser.pkg et ce package utilise la bibliothèque de compression commune | PackageParser et CompressorParser et ses sous-classes |
Format de texte | org.apache.tika.parser.txt | TXTParser |
Formats d'alimentation et de syndication | org.apache.tika.parser.feed | FeedParser |
Formats audio | org.apache.tika.parser.audio et org.apache.tika.parser.mp3 | AudioParser MidiParser Mp3- pour mp3parser |
Analyseurs d'images | org.apache.tika.parser.jpeg | JpegParser-pour les images jpeg |
Vidéoformats | org.apache.tika.parser.mp4 et org.apache.tika.parser.video cet analyseur utilise en interne un algorithme simple pour analyser les formats vidéo flash | Mp4parser FlvParser |
fichiers de classe java et fichiers jar | org.apache.tika.parser.asm | ClasseParser CompressorParser |
Mobxformat (messages électroniques) | org.apache.tika.parser.mbox | MobXParser |
Formats CAO | org.apache.tika.parser.dwg | DWGParser |
FontFormats | org.apache.tika.parser.font | TrueTypeParser |
programmes exécutables et bibliothèques | org.apache.tika.parser.executable | ExécutableParser |