TIKA-파일 형식
Tika에서 지원하는 파일 형식
다음 표는 Tika가 지원하는 파일 형식을 보여줍니다.
| 파일 형식 | 패키지 라이브러리 | Tika 클래스 |
|---|---|---|
| XML | org.apache.tika.parser.xml | XMLParser |
| HTML | org.apache.tika.parser.html 및 Tagsoup 라이브러리를 사용합니다. | HtmlParser |
| MS-Office 복합 문서 Ole2 ~ 2007 년 ooxml 2007 이후 | org.apache.tika.parser.microsoft org.apache.tika.parser.microsoft.ooxml이며 Apache Poi 라이브러리를 사용합니다. |
OfficeParser (ole2) OOXMLParser (ooxml) |
| OpenDocument 형식 openoffice | org.apache.tika.parser.odf | OpenOfficeParser |
| 휴대용 문서 형식 (PDF) | org.apache.tika.parser.pdf 및이 패키지는 Apache PdfBox 라이브러리를 사용합니다. | PDFParser |
| 전자 출판 형식 (디지털 책) | org.apache.tika.parser.epub | EpubParser |
| 서식있는 텍스트 형식 | org.apache.tika.parser.rtf | RTFParser |
| 압축 및 패키징 형식 | org.apache.tika.parser.pkg 및이 패키지는 공통 압축 라이브러리를 사용합니다. | PackageParser 및 CompressorParser 및 해당 하위 클래스 |
| 텍스트 형식 | org.apache.tika.parser.txt | TXTParser |
| 피드 및 신디케이션 형식 | org.apache.tika.parser.feed | FeedParser |
| 오디오 형식 | org.apache.tika.parser.audio 및 org.apache.tika.parser.mp3 | AudioParser MidiParser Mp3- for mp3parser |
| 이미지 파서 | org.apache.tika.parser.jpeg | JpegParser-for jpeg 이미지 |
| 비디오 형식 | org.apache.tika.parser.mp4 및 org.apache.tika.parser.video이 파서는 내부적으로 단순 알고리즘을 사용하여 플래시 비디오 형식을 구문 분석합니다. | Mp4parser FlvParser |
| Java 클래스 파일 및 jar 파일 | org.apache.tika.parser.asm | ClassParser CompressorParser |
| Mobxformat (이메일 메시지) | org.apache.tika.parser.mbox | MobXParser |
| CAD 형식 | org.apache.tika.parser.dwg | DWGParser |
| 글꼴 형식 | org.apache.tika.parser.font | TrueTypeParser |
| 실행 가능한 프로그램 및 라이브러리 | org.apache.tika.parser.executable | ExecutableParser |