TIKA - Форматы файлов
Форматы файлов, поддерживаемые Tika
В следующей таблице показаны форматы файлов, которые поддерживает Tika.
| Формат файла | Библиотека пакетов | Класс в Тике |
|---|---|---|
| XML | org.apache.tika.parser.xml | XMLParser |
| HTML | org.apache.tika.parser.html и использует библиотеку Tagsoup | HtmlParser |
| Составной документ MS-Office Ole2 до 2007 г. ooxml 2007 г. | org.apache.tika.parser.microsoft org.apache.tika.parser.microsoft.ooxml и использует библиотеку Apache Poi |
OfficeParser (ole2) OOXMLParser (ooxml) |
| Формат OpenDocument openoffice | org.apache.tika.parser.odf | OpenOfficeParser |
| переносимый формат документа (PDF) | org.apache.tika.parser.pdf, и этот пакет использует библиотеку Apache PdfBox | PDFParser |
| Формат электронных публикаций (электронные книги) | org.apache.tika.parser.epub | EpubParser |
| Формат Rich Text | org.apache.tika.parser.rtf | RTFParser |
| Форматы сжатия и упаковки | org.apache.tika.parser.pkg, и этот пакет использует общую библиотеку сжатия | PackageParser и CompressorParser и его подклассы |
| Текстовый формат | org.apache.tika.parser.txt | TXTParser |
| Форматы каналов и распространения | org.apache.tika.parser.feed | FeedParser |
| Аудио форматы | org.apache.tika.parser.audio и org.apache.tika.parser.mp3 | AudioParser MidiParser Mp3 - для mp3parser |
| Анализаторы изображений | org.apache.tika.parser.jpeg | JpegParser-для изображений jpeg |
| Видеоформаты | org.apache.tika.parser.mp4 и org.apache.tika.parser.video этот парсер внутренне использует простой алгоритм для синтаксического анализа форматов flash-видео | Mp4parser FlvParser |
| файлы классов java и файлы jar | org.apache.tika.parser.asm | ClassParser CompressorParser |
| Mobxformat (сообщения электронной почты) | org.apache.tika.parser.mbox | MobXParser |
| Cad форматы | org.apache.tika.parser.dwg | DWGParser |
| FontFormats | org.apache.tika.parser.font | TrueTypeParser |
| исполняемые программы и библиотеки | org.apache.tika.parser.executable | ExecutableParser |