TIKA-파일 형식
Tika에서 지원하는 파일 형식
다음 표는 Tika가 지원하는 파일 형식을 보여줍니다.
파일 형식 | 패키지 라이브러리 | Tika 클래스 |
---|---|---|
XML | org.apache.tika.parser.xml | XMLParser |
HTML | org.apache.tika.parser.html 및 Tagsoup 라이브러리를 사용합니다. | HtmlParser |
MS-Office 복합 문서 Ole2 ~ 2007 년 ooxml 2007 이후 | org.apache.tika.parser.microsoft org.apache.tika.parser.microsoft.ooxml이며 Apache Poi 라이브러리를 사용합니다. |
OfficeParser (ole2) OOXMLParser (ooxml) |
OpenDocument 형식 openoffice | org.apache.tika.parser.odf | OpenOfficeParser |
휴대용 문서 형식 (PDF) | org.apache.tika.parser.pdf 및이 패키지는 Apache PdfBox 라이브러리를 사용합니다. | PDFParser |
전자 출판 형식 (디지털 책) | org.apache.tika.parser.epub | EpubParser |
서식있는 텍스트 형식 | org.apache.tika.parser.rtf | RTFParser |
압축 및 패키징 형식 | org.apache.tika.parser.pkg 및이 패키지는 공통 압축 라이브러리를 사용합니다. | PackageParser 및 CompressorParser 및 해당 하위 클래스 |
텍스트 형식 | org.apache.tika.parser.txt | TXTParser |
피드 및 신디케이션 형식 | org.apache.tika.parser.feed | FeedParser |
오디오 형식 | org.apache.tika.parser.audio 및 org.apache.tika.parser.mp3 | AudioParser MidiParser Mp3- for mp3parser |
이미지 파서 | org.apache.tika.parser.jpeg | JpegParser-for jpeg 이미지 |
비디오 형식 | org.apache.tika.parser.mp4 및 org.apache.tika.parser.video이 파서는 내부적으로 단순 알고리즘을 사용하여 플래시 비디오 형식을 구문 분석합니다. | Mp4parser FlvParser |
Java 클래스 파일 및 jar 파일 | org.apache.tika.parser.asm | ClassParser CompressorParser |
Mobxformat (이메일 메시지) | org.apache.tika.parser.mbox | MobXParser |
CAD 형식 | org.apache.tika.parser.dwg | DWGParser |
글꼴 형식 | org.apache.tika.parser.font | TrueTypeParser |
실행 가능한 프로그램 및 라이브러리 | org.apache.tika.parser.executable | ExecutableParser |