TIKA - Formaty plików
Formaty plików obsługiwane przez Tika
Poniższa tabela przedstawia formaty plików obsługiwane przez Tika.
| Format pliku | Biblioteka pakietów | Zajęcia w Tika |
|---|---|---|
| XML | org.apache.tika.parser.xml | XMLParser |
| HTML | org.apache.tika.parser.html i korzysta z biblioteki Tagsoup | HtmlParser |
| Dokument złożony MS-Office Ole2 do 2007 ooxml 2007 i nowsze | org.apache.tika.parser.microsoft org.apache.tika.parser.microsoft.ooxml i korzysta z biblioteki Apache Poi |
OfficeParser (ole2) OOXMLParser (ooxml) |
| OpenDocument Format openoffice | org.apache.tika.parser.odf | OpenOfficeParser |
| przenośny format dokumentu (PDF) | org.apache.tika.parser.pdf i ten pakiet wykorzystuje bibliotekę Apache PdfBox | PDFParser |
| Format publikacji elektronicznej (książki cyfrowe) | org.apache.tika.parser.epub | EpubParser |
| Bogaty format tekstu | org.apache.tika.parser.rtf | RTFParser |
| Formaty kompresji i pakowania | org.apache.tika.parser.pkg, a ten pakiet używa wspólnej biblioteki kompresji | PackageParser i CompressorParser oraz jego podklasy |
| Format tekstu | org.apache.tika.parser.txt | TXTParser |
| Formaty kanałów i dystrybucji | org.apache.tika.parser.feed | FeedParser |
| Formaty audio | org.apache.tika.parser.audio i org.apache.tika.parser.mp3 | AudioParser MidiParser Mp3- dla mp3parser |
| Imageparsers | org.apache.tika.parser.jpeg | JpegParser - dla obrazów jpeg |
| Videoformats | org.apache.tika.parser.mp4 i org.apache.tika.parser.video ten parser wewnętrznie używa prostego algorytmu do analizowania formatów wideo flash | Mp4parser FlvParser |
| Pliki klas java i pliki jar | org.apache.tika.parser.asm | ClassParser CompressorParser |
| Mobxformat (wiadomości e-mail) | org.apache.tika.parser.mbox | MobXParser |
| Formaty CAD | org.apache.tika.parser.dwg | DWGParser |
| FontFormats | org.apache.tika.parser.font | TrueTypeParser |
| wykonywalne programy i biblioteki | org.apache.tika.parser.executable | ExecutableParser |