TIKA - Ekstraksi Konten
Tika menggunakan berbagai pustaka parser untuk mengekstrak konten dari parser yang diberikan. Itu memilih parser yang tepat untuk mengekstrak jenis dokumen yang diberikan.
Untuk penguraian dokumen, metode parseToString () dari kelas fasad Tika umumnya digunakan. Di bawah ini adalah langkah-langkah yang terlibat dalam proses parsing dan ini diabstraksikan oleh metode Tika ParsertoString ().
Mengabstraksi proses parsing -
Awalnya ketika kami meneruskan dokumen ke Tika, ia menggunakan mekanisme deteksi tipe yang sesuai yang tersedia dengannya dan mendeteksi tipe dokumen.
Setelah jenis dokumen diketahui, ia memilih parser yang sesuai dari repositori parsernya. Repositori parser berisi kelas yang menggunakan perpustakaan eksternal.
Kemudian dokumen diteruskan untuk memilih parser yang akan mengurai konten, mengekstrak teks, dan juga membuang pengecualian untuk format yang tidak dapat dibaca.
Ekstraksi Konten menggunakan Tika
Diberikan di bawah ini adalah program untuk mengekstraksi teks dari file menggunakan kelas fasad Tika -
import java.io.File;
import java.io.IOException;
import org.apache.tika.Tika;
import org.apache.tika.exception.TikaException;
import org.xml.sax.SAXException;
public class TikaExtraction {
public static void main(final String[] args) throws IOException, TikaException {
//Assume sample.txt is in your current directory
File file = new File("sample.txt");
//Instantiating Tika facade class
Tika tika = new Tika();
String filecontent = tika.parseToString(file);
System.out.println("Extracted Content: " + filecontent);
}
}
Simpan kode di atas sebagai TikaExtraction.java dan jalankan dari command prompt -
javac TikaExtraction.java
java TikaExtraction
Diberikan di bawah ini adalah konten sample.txt.
Hi students welcome to tutorialspoint
Ini memberi Anda output berikut -
Extracted Content: Hi students welcome to tutorialspoint
Ekstraksi Konten menggunakan Antarmuka Parser
Paket parser Tika menyediakan beberapa antarmuka dan kelas yang dapat digunakan untuk mengurai dokumen teks. Diberikan di bawah ini adalah diagram blok dariorg.apache.tika.parser paket.
Ada beberapa kelas parser yang tersedia, misalnya, pdf parser, Mp3Passer, OfficeParser, dll., Untuk mengurai dokumen masing-masing satu per satu. Semua kelas ini mengimplementasikan antarmuka parser.
CompositeParser
Diagram yang diberikan menunjukkan kelas parser tujuan umum Tika: CompositeParser dan AutoDetectParser. Karena kelas CompositeParser mengikuti pola desain komposit, Anda dapat menggunakan grup instance parser sebagai parser tunggal. Kelas CompositeParser juga memungkinkan akses ke semua kelas yang mengimplementasikan antarmuka parser.
AutoDetectParser
Ini adalah subclass dari CompositeParser dan menyediakan deteksi tipe otomatis. Menggunakan fungsionalitas ini, AutoDetectParser secara otomatis mengirim dokumen masuk ke kelas parser yang sesuai menggunakan metodologi komposit.
parse ()
Bersama dengan parseToString (), Anda juga bisa menggunakan metode parse () dari Antarmuka parser. Prototipe metode ini ditunjukkan di bawah ini.
parse(InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context)
Tabel berikut mencantumkan empat objek yang diterimanya sebagai parameter.
Sr.No. | Objek & Deskripsi |
---|---|
1 | InputStream stream Objek Inputstream apa pun yang berisi konten file |
2 | ContentHandler handler Tika meneruskan dokumen sebagai konten XHTML ke penangan ini, setelah itu dokumen tersebut diproses menggunakan SAX API. Ini menyediakan pemrosesan pasca konten yang efisien dalam dokumen. |
3 | Metadata metadata Objek metadata digunakan sebagai sumber dan target metadata dokumen. |
4 | ParseContext context Objek ini digunakan jika aplikasi klien ingin menyesuaikan proses parsing. |
Contoh
Diberikan di bawah ini adalah contoh yang menunjukkan bagaimana metode parse () digunakan.
Step 1 -
Untuk menggunakan metode parse () dari antarmuka parser, buat instance kelas mana pun yang menyediakan implementasi untuk antarmuka ini.
Ada kelas pengurai individual seperti PDFParser, OfficeParser, XMLParser, dll. Anda dapat menggunakan salah satu pengurai dokumen individual ini. Alternatifnya, Anda dapat menggunakan CompositeParser atau AutoDetectParser yang menggunakan semua kelas parser secara internal dan mengekstrak konten dokumen menggunakan parser yang sesuai.
Parser parser = new AutoDetectParser();
(or)
Parser parser = new CompositeParser();
(or)
object of any individual parsers given in Tika Library
Step 2 -
Buat objek kelas penangan. Diberikan di bawah ini adalah tiga penangan konten -
Sr.No. | Kelas & Deskripsi |
---|---|
1 | BodyContentHandler Kelas ini mengambil bagian tubuh dari keluaran XHTML dan menulis konten itu ke penulis keluaran atau aliran keluaran. Kemudian mengalihkan konten XHTML ke contoh penangan konten lain. |
2 | LinkContentHandler Kelas ini mendeteksi dan mengambil semua tag H-Ref dari dokumen XHTML dan meneruskannya untuk penggunaan alat seperti web crawler. |
3 | TeeContentHandler Kelas ini membantu dalam menggunakan beberapa alat secara bersamaan. |
Karena target kami adalah mengekstrak konten teks dari dokumen, gunakan BodyContentHandler seperti yang ditunjukkan di bawah ini -
BodyContentHandler handler = new BodyContentHandler( );
Step 3 -
Buat objek Metadata seperti yang ditunjukkan di bawah ini -
Metadata metadata = new Metadata();
Step 4 -
Buat salah satu objek input stream, dan teruskan file Anda yang harus diekstrak ke sana.
FileInputstream
Membuat instance objek file dengan meneruskan jalur file sebagai parameter dan meneruskan objek ini ke konstruktor kelas FileInputStream.
Note - Path yang diteruskan ke objek file tidak boleh mengandung spasi.
Masalah dengan kelas aliran input ini adalah kelas tersebut tidak mendukung akses baca acak, yang diperlukan untuk memproses beberapa format file secara efisien. Untuk mengatasi masalah ini, Tika menyediakan TikaInputStream.
File file = new File(filepath)
FileInputStream inputstream = new FileInputStream(file);
(or)
InputStream stream = TikaInputStream.get(new File(filename));
Step 5 -
Buat objek konteks parse seperti yang ditunjukkan di bawah ini -
ParseContext context =new ParseContext();
Step 6 -
Buat instance objek parser, panggil metode parse, dan teruskan semua objek yang diperlukan, seperti yang ditunjukkan pada prototipe di bawah ini -
parser.parse(inputstream, handler, metadata, context);
Diberikan di bawah ini adalah program untuk ekstraksi konten menggunakan antarmuka parser -
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;
public class ParserExtraction {
public static void main(final String[] args) throws IOException,SAXException, TikaException {
//Assume sample.txt is in your current directory
File file = new File("sample.txt");
//parse method parameters
Parser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(file);
ParseContext context = new ParseContext();
//parsing the file
parser.parse(inputstream, handler, metadata, context);
System.out.println("File content : " + Handler.toString());
}
}
Simpan kode di atas sebagai ParserExtraction.java dan jalankan dari command prompt -
javac ParserExtraction.java
java ParserExtraction
Diberikan di bawah ini adalah konten sample.txt
Hi students welcome to tutorialspoint
Jika Anda menjalankan program di atas, ini akan memberi Anda output berikut -
File content : Hi students welcome to tutorialspoint