TIKA - Panduan Cepat
Apa itu Apache Tika?
Apache Tika adalah pustaka yang digunakan untuk deteksi tipe dokumen dan ekstraksi konten dari berbagai format file.
Secara internal, Tika menggunakan berbagai parser dokumen dan teknik deteksi tipe dokumen yang ada untuk mendeteksi dan mengekstrak data.
Dengan menggunakan Tika, seseorang dapat mengembangkan detektor tipe universal dan ekstraktor konten untuk mengekstrak teks terstruktur serta metadata dari berbagai jenis dokumen seperti spreadsheet, dokumen teks, gambar, PDF, dan bahkan format input multimedia sampai batas tertentu.
Tika menyediakan API generik tunggal untuk mengurai berbagai format file. Ini menggunakan pustaka parser khusus yang ada untuk setiap jenis dokumen.
Semua pustaka parser ini dienkapsulasi di bawah satu antarmuka yang disebut Parser interface.
Kenapa Tika?
Menurut filext.com, ada sekitar 15 ribu hingga 51 ribu jenis konten, dan jumlah ini terus bertambah dari hari ke hari. Data disimpan dalam berbagai format seperti dokumen teks, spreadsheet excel, PDF, gambar, dan file multimedia, untuk beberapa nama. Oleh karena itu, aplikasi seperti mesin pencari dan sistem manajemen konten memerlukan dukungan tambahan untuk memudahkan ekstraksi data dari jenis dokumen ini. Apache Tika melayani tujuan ini dengan menyediakan API umum untuk mencari dan mengekstrak data dari berbagai format file.
Aplikasi Apache Tika
Ada berbagai aplikasi yang menggunakan Apache Tika. Di sini kita akan membahas beberapa aplikasi terkemuka yang sangat bergantung pada Apache Tika.
Mesin pencari
Tika banyak digunakan saat mengembangkan mesin pencari untuk mengindeks konten teks dokumen digital.
Mesin pencari adalah sistem pemrosesan informasi yang dirancang untuk mencari informasi dan dokumen yang diindeks dari Web.
Perayap adalah komponen penting dari mesin telusur yang merayapi web untuk mengambil dokumen yang akan diindeks menggunakan beberapa teknik pengindeksan. Setelah itu, crawler mentransfer dokumen yang diindeks ini ke komponen ekstraksi.
Tugas komponen ekstraksi adalah mengekstrak teks dan metadata dari dokumen. Konten dan metadata yang diekstrak seperti itu sangat berguna untuk mesin pencari. Komponen ekstraksi ini mengandung Tika.
Konten yang diekstrak kemudian diteruskan ke pengindeks mesin pencari yang menggunakannya untuk membuat indeks pencarian. Selain itu, mesin pencari menggunakan konten yang diekstraksi dengan banyak cara lain juga.
Analisis Dokumen
Di bidang kecerdasan buatan, terdapat alat tertentu untuk menganalisis dokumen secara otomatis pada tingkat semantik dan mengekstrak semua jenis data darinya.
Dalam aplikasi tersebut, dokumen diklasifikasikan berdasarkan istilah yang menonjol dalam konten dokumen yang diekstraksi.
Alat-alat ini memanfaatkan Tika untuk ekstraksi konten untuk menganalisis dokumen yang bervariasi dari teks biasa hingga dokumen digital.
Manajemen Aset Digital
Beberapa organisasi mengelola aset digital mereka seperti foto, ebooks, gambar, musik, dan video menggunakan aplikasi khusus yang disebut manajemen aset digital (DAM).
Aplikasi semacam itu membutuhkan bantuan detektor tipe dokumen dan ekstraktor metadata untuk mengklasifikasikan berbagai dokumen.
Analisis Isi
Situs web seperti Amazon merekomendasikan konten situs web mereka yang baru dirilis kepada pengguna individu sesuai dengan minat mereka. Untuk melakukannya, situs web ini mengikutimachine learning techniques, atau mengambil bantuan situs web media sosial seperti Facebook untuk mengekstrak informasi yang diperlukan seperti kesukaan dan minat pengguna. Informasi yang dikumpulkan ini akan dalam bentuk tag html atau format lain yang memerlukan deteksi dan ekstraksi jenis konten lebih lanjut.
Untuk analisis konten dokumen, kami memiliki teknologi yang menerapkan teknik pembelajaran mesin seperti UIMA dan Mahout. Teknologi ini berguna dalam mengelompokkan dan menganalisis data dalam dokumen.
Apache Mahoutadalah framework yang menyediakan algoritme ML di Apache Hadoop - platform komputasi awan. Mahout menyediakan arsitektur dengan mengikuti teknik clustering dan filtering tertentu. Dengan mengikuti arsitektur ini, programmer dapat membuat algoritme ML mereka sendiri untuk menghasilkan rekomendasi dengan mengambil berbagai kombinasi teks dan metadata. Untuk memberikan masukan ke algoritme ini, versi terbaru Mahout menggunakan Tika untuk mengekstrak teks dan metadata dari konten biner.
Apache UIMAmenganalisis dan memproses berbagai bahasa pemrograman dan menghasilkan penjelasan UIMA. Secara internal menggunakan Tika Annotator untuk mengekstrak teks dokumen dan metadata.
Sejarah
Tahun | Pengembangan |
---|---|
2006 | Ide Tika diproyeksikan di hadapan Komite Manajemen Proyek Lucene. |
2006 | Konsep Tika dan kegunaannya dalam proyek Jackrabbit dibahas. |
2007 | Tika masuk ke inkubator Apache. |
2008 | Versi 0.1 dan 0.2 dirilis dan Tika lulus dari inkubator ke sub-proyek Lucene. |
2009 | Versi 0,3, 0,4, dan 0,5 dirilis. |
2010 | Versi 0.6 dan 0.7 dirilis dan Tika lulus ke dalam proyek Apache tingkat atas. |
2011 | Tika 1.0 dirilis dan buku tentang Tika "Tika in Action" juga dirilis di tahun yang sama. |
Arsitektur Tingkat Aplikasi Tika
Pemrogram aplikasi dapat dengan mudah mengintegrasikan Tika dalam aplikasinya. Tika menyediakan Command Line Interface dan GUI untuk membuatnya mudah digunakan.
Pada bab ini, kita akan membahas empat modul penting yang membentuk arsitektur Tika. Ilustrasi berikut menunjukkan arsitektur Tika beserta empat modulnya -
- Mekanisme deteksi bahasa.
- Mekanisme deteksi MIME.
- Antarmuka pengurai.
- Kelas Tika Facade.
Mekanisme Deteksi Bahasa
Setiap kali dokumen teks dikirimkan ke Tika, itu akan mendeteksi bahasa di mana dokumen itu ditulis. Ini menerima dokumen tanpa anotasi bahasa dan menambahkan informasi itu dalam metadata dokumen dengan mendeteksi bahasa.
Untuk mendukung identifikasi bahasa, Tika memiliki kelas bernama Language Identifier di dalam paket org.apache.tika.language, dan repositori identifikasi bahasa di dalamnya yang berisi algoritme untuk deteksi bahasa dari teks tertentu. Tika secara internal menggunakan algoritma N-gram untuk deteksi bahasa.
Mekanisme Deteksi MIME
Tika dapat mendeteksi tipe dokumen sesuai dengan standar MIME. Deteksi tipe MIME default di Tika dilakukan menggunakan org.apache.tika.mime.mimeTypes . Ini menggunakan antarmuka org.apache.tika.detect.Detector untuk sebagian besar deteksi tipe konten.
Secara internal, Tika menggunakan beberapa teknik seperti file globs, petunjuk tipe konten, byte ajaib, pengkodean karakter, dan beberapa teknik lainnya.
Antarmuka Parser
Antarmuka parser org.apache.tika.parser adalah antarmuka kunci untuk mem-parse dokumen di Tika. Antarmuka ini mengekstrak teks dan metadata dari dokumen dan merangkumnya untuk pengguna eksternal yang ingin menulis plugin parser.
Menggunakan kelas pengurai beton yang berbeda, khusus untuk jenis dokumen individu, Tika mendukung banyak format dokumen. Kelas khusus format ini memberikan dukungan untuk berbagai format dokumen, baik dengan langsung menerapkan logika parser atau dengan menggunakan pustaka parser eksternal.
Kelas Fasad Tika
Penggunaan kelas fasad Tika adalah cara yang paling sederhana dan langsung untuk memanggil Tika dari Jawa, dan mengikuti pola desain fasad. Anda dapat menemukan kelas fasad Tika di paket org.apache.tika dari Tika API.
Dengan menerapkan kasus penggunaan dasar, Tika bertindak sebagai broker lanskap. Ini mengabstraksi kompleksitas yang mendasari pustaka Tika seperti mekanisme deteksi MIME, antarmuka parser, dan mekanisme deteksi bahasa, dan menyediakan antarmuka yang sederhana untuk digunakan kepada pengguna.
Fitur Tika
Unified parser Interface- Tika merangkum semua pustaka parser pihak ketiga dalam satu antarmuka parser. Karena fitur ini, pengguna lolos dari beban memilih pustaka parser yang sesuai dan menggunakannya sesuai dengan jenis file yang ditemukan.
Low memory usage- Tika menggunakan lebih sedikit sumber daya memori sehingga mudah disematkan dengan aplikasi Java. Kami juga dapat menggunakan Tika dalam aplikasi yang berjalan pada platform dengan sumber daya yang lebih sedikit seperti PDA seluler.
Fast processing - Deteksi konten dan ekstraksi cepat dari aplikasi dapat diharapkan.
Flexible metadata - Tika memahami semua model metadata yang digunakan untuk mendeskripsikan file.
Parser integration - Tika dapat menggunakan berbagai pustaka parser yang tersedia untuk setiap jenis dokumen dalam satu aplikasi.
MIME type detection - Tika dapat mendeteksi dan mengekstrak konten dari semua jenis media yang termasuk dalam standar MIME.
Language detection - Tika menyertakan fitur identifikasi bahasa, oleh karena itu dapat digunakan pada dokumen berdasarkan jenis bahasa di situs multi bahasa.
Fungsi Tika
Tika mendukung berbagai fungsi -
- Deteksi tipe dokumen
- Ekstraksi konten
- Ekstraksi metadata
- Deteksi bahasa
Deteksi Jenis Dokumen
Tika menggunakan berbagai teknik deteksi dan mendeteksi jenis dokumen yang diberikan padanya.
Ekstraksi Konten
Tika memiliki pustaka parser yang dapat mengurai konten dari berbagai format dokumen dan mengekstraknya. Setelah mendeteksi jenis dokumen, ia memilih parser yang sesuai dari repositori parser dan meneruskan dokumen. Kelas Tika yang berbeda memiliki metode untuk mengurai format dokumen yang berbeda.
Ekstraksi Metadata
Bersamaan dengan konten, Tika mengekstrak metadata dokumen dengan prosedur yang sama seperti ekstraksi konten. Untuk beberapa tipe dokumen, Tika memiliki kelas untuk mengekstrak metadata.
Deteksi Bahasa
Secara internal, Tika mengikuti algoritma seperti n-gramuntuk mendeteksi bahasa konten dalam dokumen tertentu. Tika bergantung pada kelas seperti ituLanguageidentifier dan Profiler untuk identifikasi bahasa.
Bab ini memandu Anda melalui proses penyiapan Apache Tika di Windows dan Linux. Administrasi pengguna diperlukan saat menginstal Apache Tika.
Persyaratan sistem
JDK | Java SE 2 JDK 1.6 atau lebih tinggi |
Penyimpanan | RAM 1 GB (direkomendasikan) |
Ruang Disk | Tidak ada persyaratan minimum |
Versi Sistem Operasi | Windows XP atau yang lebih baru, Linux |
Langkah 1: Memverifikasi Instalasi Java
Untuk memverifikasi instalasi Java, buka konsol dan jalankan perintah berikut java perintah.
OS | Tugas | Perintah |
---|---|---|
Windows | Buka konsol perintah | \> java –version |
Linux | Buka terminal perintah | $ java –version |
Jika Java telah diinstal dengan benar di sistem Anda, maka Anda akan mendapatkan salah satu dari keluaran berikut, tergantung pada platform yang Anda gunakan.
OS | Keluaran |
---|---|
Windows | Versi Java "1.7.0_60"
Java (TM) SE Run Time Environment (build 1.7.0_60-b19) Java Hotspot (TM) 64-bit Server VM (build 24.60-b09, mode campuran) |
Lunix | versi java "1.7.0_25" Buka JDK Runtime Environment (rhel-2.3.10.4.el6_4-x86_64) Buka VM Server JDK 64-Bit (build 23.7-b01, mode campuran) |
Kami berasumsi bahwa pembaca tutorial ini telah menginstal Java 1.7.0_60 di sistem mereka sebelum melanjutkan ke tutorial ini.
Jika Anda tidak memiliki Java SDK, unduh versi saat ini dari https://www.oracle.com/technetwork/java/javase/downloads/index.html and have it installed.
Langkah 2: Mengatur Lingkungan Java
Setel variabel lingkungan JAVA_HOME untuk menunjuk ke lokasi direktori dasar tempat Java diinstal pada mesin Anda. Sebagai contoh,
OS | Keluaran |
---|---|
Windows | Setel variabel Lingkungan JAVA_HOME ke C: \ ProgramFiles \ java \ jdk1.7.0_60 |
Linux | ekspor JAVA_HOME = / usr / local / java-current |
Tambahkan jalur lengkap lokasi kompilator Java ke Jalur Sistem.
OS | Keluaran |
---|---|
Windows | Tambahkan String; C: \ Program Files \ Java \ jdk1.7.0_60 \ bin ke akhir PATH variabel sistem. |
Linux | ekspor PATH = $ PATH: $ JAVA_HOME / bin / |
Verifikasi perintah versi java dari command prompt seperti dijelaskan di atas.
Langkah 3: Menyiapkan Apache Tika Environment
Pemrogram dapat mengintegrasikan Apache Tika di lingkungan mereka dengan menggunakan
- Garis komando,
- Tika API,
- Antarmuka baris perintah (CLI) dari Tika,
- Antarmuka Pengguna Grafis (GUI) dari Tika, atau
- kode sumber.
Untuk salah satu dari pendekatan ini, pertama-tama, Anda harus mengunduh kode sumber Tika.
Anda akan menemukan kode sumber Tika di https://Tika.apache.org/download.html, di mana Anda akan menemukan dua tautan -
apache-tika-1.6-src.zip - Berisi kode sumber Tika, dan
Tika -app-1.6.jar - Ini adalah file jar yang berisi aplikasi Tika.
Unduh dua file ini. Cuplikan dari situs resmi Tika ditampilkan di bawah ini.
Setelah mendownload file, setel classpath untuk file jar tika-app-1.6.jar. Tambahkan path lengkap dari file jar seperti yang ditunjukkan pada tabel di bawah.
OS | Keluaran |
---|---|
Windows | Tambahkan String “C: \ jars \ Tika-app-1.6.jar” ke variabel lingkungan pengguna CLASSPATH |
Linux | Ekspor CLASSPATH = $ CLASSPATH - /usr/share/jars/Tika-app-1.6.tar - |
Apache menyediakan aplikasi Tika, aplikasi Graphical User Interface (GUI) dengan menggunakan Eclipse.
Tika-Maven Build menggunakan Eclipse
Buka gerhana dan buat proyek baru.
Jika Anda tidak memiliki Maven di Eclipse Anda, atur dengan mengikuti langkah-langkah yang diberikan.
Buka tautan https://wiki.eclipse.org/M2E_updatesite_and_gittags . Di sana Anda akan menemukan rilis plugin m2e dalam format tabel
Pilih versi terbaru dan simpan jalur url di kolom url p2.
Sekarang kunjungi kembali gerhana, di bilah menu, klik Help, dan pilih Install New Software dari menu tarik-turun
Klik Addtombol, ketik nama yang diinginkan, karena ini opsional. Sekarang tempel url yang disimpan diLocation bidang.
Plugin baru akan ditambahkan dengan nama yang telah Anda pilih pada langkah sebelumnya, centang kotak di depannya, dan klik Next.
Lanjutkan dengan penginstalan. Setelah selesai, restart Eclipse.
Sekarang klik kanan pada proyek, dan di configure pilihan, pilih convert to maven project.
Wizard baru untuk membuat pom baru muncul. Masukkan ID Grup sebagai org.apache.tika, masukkan Tika versi terbaru, pilihpackaging sebagai toples, dan klik Finish.
Proyek Maven berhasil dipasang, dan proyek Anda diubah menjadi Maven. Sekarang Anda harus mengkonfigurasi file pom.xml.
Konfigurasikan File XML
Dapatkan ketergantungan Tika maven darihttps://mvnrepository.com/artifact/org.apache.tika
Di bawah ini adalah dependensi Maven lengkap dari Apache Tika.
<dependency>
<groupId>org.apache.Tika</groupId>
<artifactId>Tika-core</artifactId>
<version>1.6</version>
<groupId>org.apache.Tika</groupId>
<artifactId> Tika-parsers</artifactId>
<version> 1.6</version>
<groupId> org.apache.Tika</groupId>
<artifactId>Tika</artifactId>
<version>1.6</version>
<groupId>org.apache.Tika</groupId>
< artifactId>Tika-serialization</artifactId>
< version>1.6< /version>
< groupId>org.apache.Tika< /groupId>
< artifactId>Tika-app< /artifactId>
< version>1.6< /version>
<groupId>org.apache.Tika</groupId>
<artifactId>Tika-bundle</artifactId>
<version>1.6</version>
</dependency>
Pengguna dapat menyematkan Tika dalam aplikasinya menggunakan kelas fasad Tika. Ia memiliki metode untuk mengeksplorasi semua fungsi Tika. Karena merupakan kelas fasad, Tika mengabstraksi kompleksitas di balik fungsinya. Selain itu, pengguna juga dapat menggunakan berbagai kelas Tika dalam aplikasinya.
Kelas Tika (fasad)
Ini adalah kelas paling menonjol dari perpustakaan Tika dan mengikuti pola desain fasad. Oleh karena itu, ia mengabstraksi semua implementasi internal dan menyediakan metode sederhana untuk mengakses fungsi Tika. Tabel berikut mencantumkan konstruktor kelas ini beserta deskripsinya.
package - org.apache.tika
class - Tika
Sr.No. | Pembuat & Deskripsi |
---|---|
1 | Tika () Menggunakan konfigurasi default dan membangun kelas Tika. |
2 | Tika (Detector detector) Membuat fasad Tika dengan menerima instance detektor sebagai parameter |
3 | Tika (Detector detector, Parser parser) Membuat fasad Tika dengan menerima instance detektor dan parser sebagai parameter. |
4 | Tika (Detector detector, Parser parser, Translator translator) Membuat fasad Tika dengan menerima detektor, parser, dan instance penerjemah sebagai parameter. |
5 | Tika (TikaConfig config) Membuat fasad Tika dengan menerima objek kelas TikaConfig sebagai parameter. |
Metode dan Deskripsi
Berikut ini adalah metode penting kelas fasad Tika -
Sr.No. | Metode & Deskripsi |
---|---|
1 | menguraiToString (File mengajukan) Metode ini dan semua variasinya mengurai file yang diteruskan sebagai parameter dan mengembalikan konten teks yang diekstrak dalam format String. Secara default, panjang parameter string ini dibatasi. |
2 | int getMaxStringLength () Mengembalikan panjang maksimum string yang dikembalikan oleh metode parseToString. |
3 | kosong setMaxStringLength (int maxStringLength) Menyetel panjang maksimum string yang dikembalikan oleh metode parseToString. |
4 | Pembaca parse (File mengajukan) Metode ini dan semua variannya mengurai file yang diteruskan sebagai parameter dan mengembalikan konten teks yang diekstrak dalam bentuk objek java.io.reader. |
5 | Tali detect (InputStream aliran, Metadata metadata) Metode ini dan semua variasinya menerima objek InputStream dan objek Metadata sebagai parameter, mendeteksi tipe dokumen yang diberikan, dan mengembalikan nama tipe dokumen sebagai objek String. Metode ini mengabstraksi mekanisme deteksi yang digunakan oleh Tika. |
6 | Tali translate (InputStream teks, String targetLanguage) Metode ini dan semua variannya menerima objek InputStream dan String yang mewakili bahasa yang kita ingin teks kita diterjemahkan, dan menerjemahkan teks yang diberikan ke bahasa yang diinginkan, mencoba mendeteksi bahasa sumber secara otomatis. |
Antarmuka Parser
Ini adalah antarmuka yang diimplementasikan oleh semua kelas parser dari paket Tika.
package - org.apache.tika.parser
Interface - Parser
Metode dan Deskripsi
Berikut ini adalah metode penting dari antarmuka Tika Parser -
Sr.No. | Metode & Deskripsi |
---|---|
1 | parse (InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context) Metode ini mengurai dokumen yang diberikan menjadi urutan kejadian XHTML dan SAX. Setelah parsing, ini menempatkan konten dokumen yang diekstrak di objek kelas ContentHandler dan metadata di objek kelas Metadata. |
Kelas Metadata
Kelas ini mengimplementasikan berbagai antarmuka seperti CreativeCommons, Geographic, HttpHeaders, Message, MSOffice, ClimateForcast, TIFF, TikaMetadataKeys, TikaMimeKeys, Serializable untuk mendukung berbagai model data. Tabel berikut mencantumkan konstruktor dan metode kelas ini beserta deskripsinya.
package - org.apache.tika.metadata
class - Metadata
Sr.No. | Pembuat & Deskripsi |
---|---|
1 | Metadata() Membangun metadata kosong yang baru. |
Sr.No. | Metode & Deskripsi |
---|---|
1 | add (Property property, String value) Menambahkan pemetaan properti / nilai metadata ke dokumen tertentu. Dengan menggunakan fungsi ini, kita dapat mengatur nilainya menjadi properti. |
2 | add (String name, String value) Menambahkan pemetaan properti / nilai metadata ke dokumen tertentu. Dengan menggunakan metode ini, kita dapat menetapkan nilai nama baru ke metadata dokumen yang ada. |
3 | String get (Property property) Mengembalikan nilai (jika ada) dari properti metadata yang diberikan. |
4 | String get (String name) Mengembalikan nilai (jika ada) dari nama metadata yang diberikan. |
5 | Date getDate (Property property) Mengembalikan nilai properti metadata Tanggal. |
6 | String[] getValues (Property property) Menampilkan semua nilai properti metadata. |
7 | String[] getValues (String name) Menampilkan semua nilai dari nama metadata tertentu. |
8 | String[] names() Menampilkan semua nama elemen metadata dalam objek metadata. |
9 | set (Property property, Date date) Menyetel nilai tanggal dari properti metadata tertentu |
10 | set(Property property, String[] values) Menetapkan beberapa nilai ke properti metadata. |
Kelas Pengenal Bahasa
Kelas ini mengidentifikasi bahasa konten yang diberikan. Tabel berikut mencantumkan konstruktor kelas ini beserta deskripsinya.
package - org.apache.tika.language
class - Pengenal Bahasa
Sr.No. | Pembuat & Deskripsi |
---|---|
1 | LanguageIdentifier (LanguageProfile profile) Membuat instance pengenal bahasa. Di sini Anda harus meneruskan objek LanguageProfile sebagai parameter. |
2 | LanguageIdentifier (String content) Konstruktor ini dapat membuat contoh pengenal bahasa dengan meneruskan String dari konten teks. |
Sr.No. | Metode & Deskripsi |
---|---|
1 | String getLanguage () Mengembalikan bahasa yang diberikan ke objek LanguageIdentifier saat ini. |
Format File Didukung oleh Tika
Tabel berikut menunjukkan format file yang didukung Tika.
Format file | Pustaka Paket | Kelas di Tika |
---|---|---|
XML | org.apache.tika.parser.xml | XMLParser |
HTML | org.apache.tika.parser.html dan menggunakan Perpustakaan Tagsoup | HtmlParser |
Dokumen gabungan MS-Office Ole2 hingga 2007 ooxml 2007 dan seterusnya | org.apache.tika.parser.microsoft org.apache.tika.parser.microsoft.ooxml dan menggunakan pustaka Apache Poi |
OfficeParser (ole2) OOXMLParser (ooxml) |
Format OpenDocument openoffice | org.apache.tika.parser.odf | OpenOfficeParser |
Format Dokumen portabel (PDF) | org.apache.tika.parser.pdf dan paket ini menggunakan pustaka Apache PdfBox | PDFParser |
Format Publikasi Elektronik (buku digital) | org.apache.tika.parser.epub | EpubParser |
Format Teks Kaya | org.apache.tika.parser.rtf | RTFParser |
Format kompresi dan pengemasan | org.apache.tika.parser.pkg dan paket ini menggunakan pustaka kompres umum | PackageParser dan CompressorParser dan sub-kelasnya |
Format teks | org.apache.tika.parser.txt | TXTParser |
Format umpan dan sindikasi | org.apache.tika.parser.feed | FeedParser |
Format audio | org.apache.tika.parser.audio dan org.apache.tika.parser.mp3 | AudioParser MidiParser Mp3- untuk mp3parser |
Imageparsers | org.apache.tika.parser.jpeg | JpegParser-untuk gambar jpeg |
Format video | org.apache.tika.parser.mp4 dan org.apache.tika.parser.video pengurai ini secara internal menggunakan Algoritme Sederhana untuk mengurai format video flash | Mp4parser FlvParser |
file kelas java dan file jar | org.apache.tika.parser.asm | ClassParser CompressorParser |
Mobxformat (pesan email) | org.apache.tika.parser.mbox | MobXParser |
Format cad | org.apache.tika.parser.dwg | DWGParser |
FontFormats | org.apache.tika.parser.font | TrueTypeParser |
program dan perpustakaan yang dapat dieksekusi | org.apache.tika.parser.executable | ExecutableParser |
Standar MIME
Standar Multipurpose Internet Mail Extensions (MIME) adalah standar terbaik yang tersedia untuk mengidentifikasi jenis dokumen. Pengetahuan tentang standar ini membantu browser selama interaksi internal.
Setiap kali browser menemukan file media, ia memilih perangkat lunak kompatibel yang tersedia dengannya untuk menampilkan isinya. Jika tidak memiliki aplikasi yang sesuai untuk menjalankan file media tertentu, pengguna disarankan untuk mendapatkan perangkat lunak plugin yang sesuai untuknya.
Ketik Deteksi di Tika
Tika mendukung semua jenis dokumen media Internet yang disediakan dalam MIME. Setiap kali file melewati Tika, ia mendeteksi file dan jenis dokumennya. Untuk mendeteksi jenis media, Tika secara internal menggunakan mekanisme berikut.
Ekstensi File
Memeriksa ekstensi file adalah metode paling sederhana dan paling banyak digunakan untuk mendeteksi format file. Banyak aplikasi dan sistem operasi memberikan dukungan untuk ekstensi ini. Di bawah ini adalah ekstensi dari beberapa jenis file yang dikenal.
Nama file | Perluasan |
---|---|
gambar | .jpg |
audio | .mp3 |
file arsip java | .botol |
file kelas java | .kelas |
Petunjuk tipe konten
Setiap kali Anda mengambil file dari database atau melampirkannya ke dokumen lain, Anda mungkin kehilangan nama atau ekstensi file. Dalam kasus seperti itu, metadata yang disertakan dengan file digunakan untuk mendeteksi ekstensi file.
Magic Byte
Mengamati byte mentah dari file, Anda dapat menemukan beberapa pola karakter unik untuk setiap file. Beberapa file memiliki awalan byte khusus yang disebutmagic bytes yang dibuat secara khusus dan disertakan dalam file untuk tujuan mengidentifikasi jenis file
Misalnya, Anda dapat menemukan CA FE BA BE (format heksadesimal) dalam file java dan% PDF (format ASCII) dalam file pdf. Tika menggunakan informasi ini untuk mengidentifikasi jenis media file.
Pengodean Karakter
File dengan teks biasa dikodekan menggunakan berbagai jenis pengkodean karakter. Tantangan utama di sini adalah mengidentifikasi jenis pengkodean karakter yang digunakan dalam file. Tika mengikuti teknik pengkodean karakter sepertiBom markers dan Byte Frequencies untuk mengidentifikasi sistem pengkodean yang digunakan oleh konten teks biasa.
Karakter Root XML
Untuk mendeteksi dokumen XML, Tika mem-parsing dokumen xml dan mengekstrak informasi seperti elemen root, namespace, dan skema yang direferensikan dari mana jenis media sebenarnya dari file tersebut dapat ditemukan.
Jenis Deteksi menggunakan Kelas Fasad
Itu detect()Metode kelas fasad digunakan untuk mendeteksi tipe dokumen. Metode ini menerima file sebagai input. Di bawah ini adalah contoh program untuk deteksi tipe dokumen dengan kelas fasad Tika.
import java.io.File;
import org.apache.tika.Tika;
public class Typedetection {
public static void main(String[] args) throws Exception {
//assume example.mp3 is in your current directory
File file = new File("example.mp3");//
//Instantiating tika facade class
Tika tika = new Tika();
//detecting the file type using detect method
String filetype = tika.detect(file);
System.out.println(filetype);
}
}
Simpan kode di atas sebagai TypeDetection.java dan jalankan dari command prompt menggunakan perintah berikut -
javac TypeDetection.java
java TypeDetection
audio/mpeg
Tika menggunakan berbagai pustaka parser untuk mengekstrak konten dari parser yang diberikan. Itu memilih parser yang tepat untuk mengekstrak jenis dokumen yang diberikan.
Untuk penguraian dokumen, metode parseToString () dari kelas fasad Tika umumnya digunakan. Di bawah ini adalah langkah-langkah yang terlibat dalam proses parsing dan ini diabstraksi oleh metode Tika ParsertoString ().
Mengabstraksi proses parsing -
Awalnya ketika kami meneruskan dokumen ke Tika, ia menggunakan mekanisme deteksi tipe yang sesuai yang tersedia dengannya dan mendeteksi tipe dokumen.
Setelah jenis dokumen diketahui, ia memilih parser yang sesuai dari repositori parsernya. Repositori parser berisi kelas yang menggunakan perpustakaan eksternal.
Kemudian dokumen diteruskan untuk memilih parser yang akan mengurai konten, mengekstrak teks, dan juga membuang pengecualian untuk format yang tidak dapat dibaca.
Ekstraksi Konten menggunakan Tika
Diberikan di bawah ini adalah program untuk mengekstraksi teks dari file menggunakan kelas fasad Tika -
import java.io.File;
import java.io.IOException;
import org.apache.tika.Tika;
import org.apache.tika.exception.TikaException;
import org.xml.sax.SAXException;
public class TikaExtraction {
public static void main(final String[] args) throws IOException, TikaException {
//Assume sample.txt is in your current directory
File file = new File("sample.txt");
//Instantiating Tika facade class
Tika tika = new Tika();
String filecontent = tika.parseToString(file);
System.out.println("Extracted Content: " + filecontent);
}
}
Simpan kode di atas sebagai TikaExtraction.java dan jalankan dari command prompt -
javac TikaExtraction.java
java TikaExtraction
Diberikan di bawah ini adalah konten sample.txt.
Hi students welcome to tutorialspoint
Ini memberi Anda output berikut -
Extracted Content: Hi students welcome to tutorialspoint
Ekstraksi Konten menggunakan Antarmuka Parser
Paket parser Tika menyediakan beberapa antarmuka dan kelas yang dapat digunakan untuk mengurai dokumen teks. Diberikan di bawah ini adalah diagram blok dariorg.apache.tika.parser paket.
Ada beberapa kelas parser yang tersedia, misalnya, pdf parser, Mp3Passer, OfficeParser, dll., Untuk mengurai dokumen masing-masing satu per satu. Semua kelas ini mengimplementasikan antarmuka parser.
CompositeParser
Diagram yang diberikan menunjukkan kelas parser tujuan umum Tika: CompositeParser dan AutoDetectParser. Karena kelas CompositeParser mengikuti pola desain komposit, Anda dapat menggunakan grup instance parser sebagai parser tunggal. Kelas CompositeParser juga memungkinkan akses ke semua kelas yang mengimplementasikan antarmuka parser.
AutoDetectParser
Ini adalah subkelas dari CompositeParser dan menyediakan deteksi tipe otomatis. Menggunakan fungsionalitas ini, AutoDetectParser secara otomatis mengirim dokumen masuk ke kelas parser yang sesuai menggunakan metodologi komposit.
parse ()
Bersama dengan parseToString (), Anda juga bisa menggunakan metode parse () dari Antarmuka parser. Prototipe metode ini ditunjukkan di bawah ini.
parse(InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context)
Tabel berikut mencantumkan empat objek yang diterimanya sebagai parameter.
Sr.No. | Objek & Deskripsi |
---|---|
1 | InputStream stream Objek Inputstream apa pun yang berisi konten file |
2 | ContentHandler handler Tika meneruskan dokumen sebagai konten XHTML ke penangan ini, setelah itu dokumen tersebut diproses menggunakan SAX API. Ini menyediakan pemrosesan pasca konten yang efisien dalam dokumen. |
3 | Metadata metadata Objek metadata digunakan baik sebagai sumber dan target metadata dokumen. |
4 | ParseContext context Objek ini digunakan jika aplikasi klien ingin menyesuaikan proses parsing. |
Contoh
Diberikan di bawah ini adalah contoh yang menunjukkan bagaimana metode parse () digunakan.
Step 1 -
Untuk menggunakan metode parse () dari antarmuka parser, buat instance kelas apa pun yang menyediakan implementasi untuk antarmuka ini.
Ada kelas pengurai individual seperti PDFParser, OfficeParser, XMLParser, dll. Anda dapat menggunakan salah satu pengurai dokumen individual ini. Alternatifnya, Anda dapat menggunakan CompositeParser atau AutoDetectParser yang menggunakan semua kelas parser secara internal dan mengekstrak konten dokumen menggunakan parser yang sesuai.
Parser parser = new AutoDetectParser();
(or)
Parser parser = new CompositeParser();
(or)
object of any individual parsers given in Tika Library
Step 2 -
Buat objek kelas penangan. Diberikan di bawah ini adalah tiga penangan konten -
Sr.No. | Kelas & Deskripsi |
---|---|
1 | BodyContentHandler Kelas ini mengambil bagian tubuh dari keluaran XHTML dan menulis konten itu ke penulis keluaran atau aliran keluaran. Kemudian mengalihkan konten XHTML ke contoh penangan konten lain. |
2 | LinkContentHandler Kelas ini mendeteksi dan mengambil semua tag H-Ref dari dokumen XHTML dan meneruskannya untuk penggunaan alat seperti web crawler. |
3 | TeeContentHandler Kelas ini membantu dalam menggunakan beberapa alat secara bersamaan. |
Karena target kami adalah mengekstrak konten teks dari dokumen, gunakan BodyContentHandler seperti yang ditunjukkan di bawah ini -
BodyContentHandler handler = new BodyContentHandler( );
Step 3 -
Buat objek Metadata seperti yang ditunjukkan di bawah ini -
Metadata metadata = new Metadata();
Step 4 -
Buat salah satu objek input stream, dan teruskan file Anda yang harus diekstrak ke sana.
FileInputstream
Membuat instance objek file dengan meneruskan jalur file sebagai parameter dan meneruskan objek ini ke konstruktor kelas FileInputStream.
Note - Path yang diteruskan ke objek file tidak boleh mengandung spasi.
Masalah dengan kelas aliran input ini adalah kelas tersebut tidak mendukung akses baca acak, yang diperlukan untuk memproses beberapa format file secara efisien. Untuk mengatasi masalah ini, Tika menyediakan TikaInputStream.
File file = new File(filepath)
FileInputStream inputstream = new FileInputStream(file);
(or)
InputStream stream = TikaInputStream.get(new File(filename));
Step 5 -
Buat objek konteks parse seperti yang ditunjukkan di bawah ini -
ParseContext context =new ParseContext();
Step 6 -
Buat instance objek parser, panggil metode parse, dan teruskan semua objek yang diperlukan, seperti yang ditunjukkan pada prototipe di bawah ini -
parser.parse(inputstream, handler, metadata, context);
Diberikan di bawah ini adalah program untuk ekstraksi konten menggunakan antarmuka parser -
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;
public class ParserExtraction {
public static void main(final String[] args) throws IOException,SAXException, TikaException {
//Assume sample.txt is in your current directory
File file = new File("sample.txt");
//parse method parameters
Parser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(file);
ParseContext context = new ParseContext();
//parsing the file
parser.parse(inputstream, handler, metadata, context);
System.out.println("File content : " + Handler.toString());
}
}
Simpan kode di atas sebagai ParserExtraction.java dan jalankan dari command prompt -
javac ParserExtraction.java
java ParserExtraction
Diberikan di bawah ini adalah konten sample.txt
Hi students welcome to tutorialspoint
Jika Anda menjalankan program di atas, ini akan memberi Anda output berikut -
File content : Hi students welcome to tutorialspoint
Selain konten, Tika juga mengekstrak metadata dari sebuah file. Metadata tidak lain adalah informasi tambahan yang disertakan dengan file. Jika kami menganggap file audio, nama artis, nama album, judul berada di bawah metadata.
Standar XMP
Platform Metadata yang Dapat Diperluas (XMP) adalah standar untuk memproses dan menyimpan informasi yang terkait dengan konten file. Buku itu diciptakan oleh Adobe Systems Inc . XMP memberikan standar untuk mendefinisikan, membuat, dan memproses metadata . Anda dapat memasukkan standar ini ke dalam beberapa format file seperti PDF , JPEG , JPEG , GIF , jpg , HTML dll.
Kelas Properti
Tika menggunakan kelas Properti untuk mengikuti definisi properti XMP. Ini menyediakan enum PropertyType dan ValueType untuk menangkap nama dan nilai metadata.
Kelas Metadata
Kelas ini mengimplementasikan berbagai antarmuka seperti ClimateForcast , CativeCommons, Geographic , TIFF, dll. Untuk memberikan dukungan untuk berbagai model metadata. Selain itu, kelas ini menyediakan berbagai metode untuk mengekstrak konten dari file.
Nama Metadata
Kita bisa mengekstrak daftar semua nama metadata dari sebuah file dari objek metadata-nya menggunakan nama metode () . Ini mengembalikan semua nama sebagai larik string. Menggunakan nama metadata, kita bisa mendapatkan nilainya menggunakanget()metode. Ini mengambil nama metadata dan mengembalikan nilai yang terkait dengannya.
String[] metadaNames = metadata.names();
String value = metadata.get(name);
Mengekstrak Metadata menggunakan Metode Parse
Setiap kali kami mengurai file menggunakan parse (), kami mengirimkan objek metadata kosong sebagai salah satu parameter. Metode ini mengekstrak metadata dari file yang diberikan (jika file itu mengandung), dan menempatkannya di objek metadata. Oleh karena itu, setelah mengurai file menggunakan parse (), kita dapat mengekstrak metadata dari objek tersebut.
Parser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata(); //empty metadata object
FileInputStream inputstream = new FileInputStream(file);
ParseContext context = new ParseContext();
parser.parse(inputstream, handler, metadata, context);
// now this metadata object contains the extracted metadata of the given file.
metadata.metadata.names();
Diberikan di bawah ini adalah program lengkap untuk mengekstrak metadata dari file teks.
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;
public class GetMetadata {
public static void main(final String[] args) throws IOException, TikaException {
//Assume that boy.jpg is in your current directory
File file = new File("boy.jpg");
//Parser method parameters
Parser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(file);
ParseContext context = new ParseContext();
parser.parse(inputstream, handler, metadata, context);
System.out.println(handler.toString());
//getting the list of all meta data elements
String[] metadataNames = metadata.names();
for(String name : metadataNames) {
System.out.println(name + ": " + metadata.get(name));
}
}
}
Simpan kode di atas sebagai GetMetadata.java dan jalankan dari command prompt menggunakan perintah berikut -
javac GetMetadata .java
java GetMetadata
Diberikan di bawah ini adalah snapshot dari boy.jpg
Jika Anda menjalankan program di atas, ini akan memberi Anda output berikut -
X-Parsed-By: org.apache.tika.parser.DefaultParser
Resolution Units: inch
Compression Type: Baseline
Data Precision: 8 bits
Number of Components: 3
tiff:ImageLength: 3000
Component 2: Cb component: Quantization table 1, Sampling factors 1 horiz/1 vert
Component 1: Y component: Quantization table 0, Sampling factors 2 horiz/2 vert
Image Height: 3000 pixels
X Resolution: 300 dots
Original Transmission Reference:
53616c7465645f5f2368da84ca932841b336ac1a49edb1a93fae938b8db2cb3ec9cc4dc28d7383f1
Image Width: 4000 pixels
IPTC-NAA record: 92 bytes binary data
Component 3: Cr component: Quantization table 1, Sampling factors 1 horiz/1 vert
tiff:BitsPerSample: 8
Application Record Version: 4
tiff:ImageWidth: 4000
Content-Type: image/jpeg
Y Resolution: 300 dots
Kita juga bisa mendapatkan nilai metadata yang kita inginkan.
Menambahkan Nilai Metadata Baru
Kita bisa menambahkan nilai metadata baru menggunakan metode add () dari kelas metadata. Diberikan di bawah ini adalah sintaks dari metode ini. Di sini kami menambahkan nama penulis.
metadata.add(“author”,”Tutorials point”);
Kelas Metadata memiliki properti yang telah ditentukan termasuk properti yang diwarisi dari kelas seperti ClimateForcast , CativeCommons, Geographic , dll., Untuk mendukung berbagai model data. Di bawah ini adalah penggunaan tipe data PERANGKAT LUNAK yang diwarisi dari antarmuka TIFF yang diimplementasikan oleh Tika untuk mengikuti standar metadata XMP untuk format gambar TIFF.
metadata.add(Metadata.SOFTWARE,"ms paint");
Diberikan di bawah ini adalah program lengkap yang menunjukkan cara menambahkan nilai metadata ke file tertentu. Di sini daftar elemen metadata ditampilkan di keluaran sehingga Anda dapat mengamati perubahan dalam daftar setelah menambahkan nilai baru.
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.util.Arrays;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;
public class AddMetadata {
public static void main(final String[] args) throws IOException, SAXException, TikaException {
//create a file object and assume sample.txt is in your current directory
File file = new File("Example.txt");
//Parser method parameters
Parser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(file);
ParseContext context = new ParseContext();
//parsing the document
parser.parse(inputstream, handler, metadata, context);
//list of meta data elements before adding new elements
System.out.println( " metadata elements :" +Arrays.toString(metadata.names()));
//adding new meta data name value pair
metadata.add("Author","Tutorials Point");
System.out.println(" metadata name value pair is successfully added");
//printing all the meta data elements after adding new elements
System.out.println("Here is the list of all the metadata
elements after adding new elements");
System.out.println( Arrays.toString(metadata.names()));
}
}
Simpan kode di atas sebagai kelas AddMetadata.java dan jalankan dari command prompt -
javac AddMetadata .java
java AddMetadata
Diberikan di bawah ini adalah konten Example.txt
Hi students welcome to tutorialspoint
Jika Anda menjalankan program di atas, ini akan memberi Anda output berikut -
metadata elements of the given file :
[Content-Encoding, Content-Type]
enter the number of metadata name value pairs to be added 1
enter metadata1name:
Author enter metadata1value:
Tutorials point metadata name value pair is successfully added
Here is the list of all the metadata elements after adding new elements
[Content-Encoding, Author, Content-Type]
Mengatur Nilai ke Elemen Metadata yang Ada
Anda bisa menyetel nilai ke elemen metadata yang ada menggunakan metode set (). Sintaks untuk menyetel properti tanggal menggunakan metode set () adalah sebagai berikut -
metadata.set(Metadata.DATE, new Date());
Anda juga dapat menyetel beberapa nilai ke properti menggunakan metode set (). Sintaks untuk menyetel beberapa nilai ke properti Author menggunakan metode set () adalah sebagai berikut -
metadata.set(Metadata.AUTHOR, "ram ,raheem ,robin ");
Diberikan di bawah ini adalah program lengkap yang mendemonstrasikan metode set ().
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.util.Date;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;
public class SetMetadata {
public static void main(final String[] args) throws IOException,SAXException, TikaException {
//Create a file object and assume example.txt is in your current directory
File file = new File("example.txt");
//parameters of parse() method
Parser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(file);
ParseContext context = new ParseContext();
//Parsing the given file
parser.parse(inputstream, handler, metadata, context);
//list of meta data elements elements
System.out.println( " metadata elements and values of the given file :");
String[] metadataNamesb4 = metadata.names();
for(String name : metadataNamesb4) {
System.out.println(name + ": " + metadata.get(name));
}
//setting date meta data
metadata.set(Metadata.DATE, new Date());
//setting multiple values to author property
metadata.set(Metadata.AUTHOR, "ram ,raheem ,robin ");
//printing all the meta data elements with new elements
System.out.println("List of all the metadata elements after adding new elements ");
String[] metadataNamesafter = metadata.names();
for(String name : metadataNamesafter) {
System.out.println(name + ": " + metadata.get(name));
}
}
}
Simpan kode di atas sebagai SetMetadata.java dan jalankan dari command prompt -
javac SetMetadata.java
java SetMetadata
Diberikan di bawah ini adalah konten dari example.txt.
Hi students welcome to tutorialspoint
Jika Anda menjalankan program di atas, ini akan memberi Anda output berikut. Dalam output, Anda dapat mengamati elemen metadata yang baru ditambahkan.
metadata elements and values of the given file :
Content-Encoding: ISO-8859-1
Content-Type: text/plain; charset = ISO-8859-1
Here is the list of all the metadata elements after adding new elements
date: 2014-09-24T07:01:32Z
Content-Encoding: ISO-8859-1
Author: ram, raheem, robin
Content-Type: text/plain; charset = ISO-8859-1
Perlunya Deteksi Bahasa
Untuk pengklasifikasian dokumen berdasarkan bahasa penulisannya di website multibahasa, diperlukan alat pendeteksi bahasa. Alat ini harus menerima dokumen tanpa anotasi bahasa (metadata) dan menambahkan informasi tersebut dalam metadata dokumen dengan mendeteksi bahasanya.
Algoritma untuk Pembuatan Profil Corpus
Apa itu Corpus?
Untuk mendeteksi bahasa dokumen, profil bahasa dibuat dan dibandingkan dengan profil bahasa yang diketahui. Kumpulan teks dari bahasa yang dikenal ini dikenal sebagai acorpus.
Korpus adalah kumpulan teks bahasa tertulis yang menjelaskan bagaimana bahasa tersebut digunakan dalam situasi nyata.
Korpus dikembangkan dari buku, transkrip, dan sumber data lain seperti Internet. Akurasi korpus bergantung pada algoritme profil yang kami gunakan untuk membingkai korpus.
Apa itu Algoritma Profil?
Cara umum untuk mendeteksi bahasa adalah dengan menggunakan kamus. Kata-kata yang digunakan dalam suatu teks akan dicocokkan dengan kata-kata yang ada di kamus.
Daftar kata-kata umum yang digunakan dalam suatu bahasa akan menjadi korpus yang paling sederhana dan efektif untuk mendeteksi bahasa tertentu, misalnya artikel a, an, the dalam Bahasa Inggris.
Menggunakan Kumpulan Kata sebagai Corpus
Menggunakan kumpulan kata, algoritme sederhana dibuat untuk mencari jarak antara dua corpora, yang akan sama dengan jumlah perbedaan antara frekuensi kata yang cocok.
Algoritme semacam itu mengalami masalah berikut -
Karena frekuensi pencocokan kata sangat sedikit, algoritme tidak dapat bekerja secara efisien dengan teks kecil yang memiliki sedikit kalimat. Ini membutuhkan banyak teks untuk kecocokan yang akurat.
Itu tidak dapat mendeteksi batas kata untuk bahasa yang memiliki kalimat majemuk, dan yang tidak memiliki pemisah kata seperti spasi atau tanda baca.
Karena kesulitan ini dalam menggunakan kumpulan kata sebagai korpus, karakter individu atau kelompok karakter dipertimbangkan.
Menggunakan Kumpulan Karakter sebagai Corpus
Karena karakter yang umum digunakan dalam suatu bahasa jumlahnya terbatas, maka mudah untuk menerapkan algoritme berdasarkan frekuensi kata daripada karakter. Algoritme ini bekerja lebih baik jika kumpulan karakter tertentu digunakan dalam satu atau sangat sedikit bahasa.
Algoritme ini mengalami beberapa kelemahan berikut -
Sulit untuk membedakan dua bahasa yang memiliki frekuensi karakter serupa.
Tidak ada alat atau algoritma khusus untuk secara khusus mengidentifikasi bahasa dengan bantuan (sebagai korpus) kumpulan karakter yang digunakan oleh banyak bahasa.
Algoritma N-gram
Kelemahan yang disebutkan di atas memunculkan pendekatan baru dalam menggunakan urutan karakter dengan panjang tertentu untuk membuat profil korpus. Urutan karakter seperti itu secara umum disebut N-gram, di mana N melambangkan panjang urutan karakter.
Algoritma N-gram adalah pendekatan yang efektif untuk deteksi bahasa, terutama dalam kasus bahasa Eropa seperti Inggris.
Algoritme ini berfungsi dengan baik dengan teks pendek.
Meskipun ada algoritme profil bahasa tingkat lanjut untuk mendeteksi beberapa bahasa dalam dokumen multibahasa yang memiliki fitur yang lebih menarik, Tika menggunakan algoritme 3-gram, karena cocok dalam sebagian besar situasi praktis.
Deteksi Bahasa di Tika
Di antara 184 bahasa standar yang distandarisasi oleh ISO 639-1, Tika dapat mendeteksi 18 bahasa. Deteksi bahasa di Tika dilakukan dengan menggunakangetLanguage() metode dari LanguageIdentifierkelas. Metode ini mengembalikan nama kode bahasa dalam format String. Diberikan di bawah ini adalah daftar dari 18 pasangan kode bahasa yang terdeteksi oleh Tika -
da — Denmark | de — Jerman | et — Estonia | el — Yunani |
en — Inggris | es — Spanyol | fi — Finlandia | fr — Prancis |
hu — Hongaria | adalah — Islandia | itu — Italia | nl — Belanda |
tidak — Norwegia | pl — Polandia | pt — Portugis | ru — Rusia |
sv — Swedia | th — Thai |
Saat membuat instance LanguageIdentifier kelas, Anda harus meneruskan format String dari konten yang akan diekstraksi, atau LanguageProfile objek kelas.
LanguageIdentifier object = new LanguageIdentifier(“this is english”);
Diberikan di bawah ini adalah contoh program untuk Deteksi bahasa di Tika.
import java.io.IOException;
import org.apache.tika.exception.TikaException;
import org.apache.tika.language.LanguageIdentifier;
import org.xml.sax.SAXException;
public class LanguageDetection {
public static void main(String args[])throws IOException, SAXException, TikaException {
LanguageIdentifier identifier = new LanguageIdentifier("this is english ");
String language = identifier.getLanguage();
System.out.println("Language of the given content is : " + language);
}
}
Simpan kode di atas sebagai LanguageDetection.java dan jalankan dari command prompt menggunakan perintah berikut -
javac LanguageDetection.java
java LanguageDetection
Jika Anda menjalankan program di atas, ia memberikan outpu− berikut
Language of the given content is : en
Deteksi Bahasa Dokumen
Untuk mendeteksi bahasa dokumen tertentu, Anda harus menguraikannya menggunakan metode parse (). Metode parse () mem-parsing konten dan menyimpannya di objek handler, yang diteruskan sebagai salah satu argumen. Meneruskan format String dari objek handler ke konstruktorLanguageIdentifier kelas seperti yang ditunjukkan di bawah ini -
parser.parse(inputstream, handler, metadata, context);
LanguageIdentifier object = new LanguageIdentifier(handler.toString());
Diberikan di bawah ini adalah program lengkap yang menunjukkan bagaimana mendeteksi bahasa dokumen yang diberikan -
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;
import org.apache.tika.language.*;
import org.xml.sax.SAXException;
public class DocumentLanguageDetection {
public static void main(final String[] args) throws IOException, SAXException, TikaException {
//Instantiating a file object
File file = new File("Example.txt");
//Parser method parameters
Parser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream content = new FileInputStream(file);
//Parsing the given document
parser.parse(content, handler, metadata, new ParseContext());
LanguageIdentifier object = new LanguageIdentifier(handler.toString());
System.out.println("Language name :" + object.getLanguage());
}
}
Simpan kode di atas sebagai SetMetadata.java dan jalankan dari command prompt -
javac SetMetadata.java
java SetMetadata
Diberikan di bawah ini adalah konten Example.txt.
Hi students welcome to tutorialspoint
Jika Anda menjalankan program di atas, ini akan memberi Anda output berikut -
Language name :en
Bersama dengan toples Tika, Tika menyediakan aplikasi Graphical User Interface (GUI) dan aplikasi Command Line Interface (CLI). Anda juga dapat menjalankan aplikasi Tika dari command prompt seperti aplikasi Java lainnya.
Antarmuka Pengguna Grafis (GUI)
Tika menyediakan file jar beserta kode sumbernya di link berikut https://tika.apache.org/download.html.
Unduh kedua file, setel jalur kelas untuk file jar.
Ekstrak folder zip kode sumber, buka folder tika-app.
Di folder yang diekstrak di "tika-1.6 \ tika-app \ src \ main \ java \ org \ apache \ Tika \ gui" Anda akan melihat dua file kelas: ParsingTransferHandler.java dan TikaGUI.java.
Kompilasi kedua file kelas dan jalankan file kelas TikaGUI.java, ini akan membuka jendela berikut.
Sekarang mari kita lihat bagaimana menggunakan Tika GUI.
Pada GUI, klik buka, telusuri dan pilih file yang akan diekstrak, atau seret ke ruang putih jendela.
Tika mengekstrak konten file dan menampilkannya dalam lima format berbeda, yaitu. metadata, teks berformat, teks biasa, konten utama, dan teks terstruktur. Anda dapat memilih format apa pun yang Anda inginkan.
Dengan cara yang sama, Anda juga akan menemukan kelas CLI di folder “tika-1.6 \ tikaapp \ src \ main \ java \ org \ apache \ tika \ cli”.
Ilustrasi berikut menunjukkan apa yang bisa dilakukan Tika. Saat kami meletakkan gambar di GUI, Tika mengekstrak dan menampilkan metadatanya.
Diberikan di bawah ini adalah program untuk mengekstrak konten dan metadata dari PDF.
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.pdf.PDFParser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;
public class PdfParse {
public static void main(final String[] args) throws IOException,TikaException {
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(new File("Example.pdf"));
ParseContext pcontext = new ParseContext();
//parsing the document using PDF parser
PDFParser pdfparser = new PDFParser();
pdfparser.parse(inputstream, handler, metadata,pcontext);
//getting the content of the document
System.out.println("Contents of the PDF :" + handler.toString());
//getting metadata of the document
System.out.println("Metadata of the PDF:");
String[] metadataNames = metadata.names();
for(String name : metadataNames) {
System.out.println(name+ " : " + metadata.get(name));
}
}
}
Simpan kode di atas sebagai PdfParse.java, dan kompilasi dari command prompt dengan menggunakan perintah berikut -
javac PdfParse.java
java PdfParse
Di bawah ini adalah snapshot dari example.pdf
PDF yang kami kirimkan memiliki properti berikut -
Setelah program dikompilasi, Anda akan mendapatkan output seperti gambar di bawah ini.
Output -
Contents of the PDF:
Apache Tika is a framework for content type detection and content extraction
which was designed by Apache software foundation. It detects and extracts metadata
and structured text content from different types of documents such as spreadsheets,
text documents, images or PDFs including audio or video input formats to certain extent.
Metadata of the PDF:
dcterms:modified : 2014-09-28T12:31:16Z
meta:creation-date : 2014-09-28T12:31:16Z
meta:save-date : 2014-09-28T12:31:16Z
dc:creator : Krishna Kasyap
pdf:PDFVersion : 1.5
Last-Modified : 2014-09-28T12:31:16Z
Author : Krishna Kasyap
dcterms:created : 2014-09-28T12:31:16Z
date : 2014-09-28T12:31:16Z
modified : 2014-09-28T12:31:16Z
creator : Krishna Kasyap
xmpTPg:NPages : 1
Creation-Date : 2014-09-28T12:31:16Z
pdf:encrypted : false
meta:author : Krishna Kasyap
created : Sun Sep 28 05:31:16 PDT 2014
dc:format : application/pdf; version = 1.5
producer : Microsoft® Word 2013
Content-Type : application/pdf
xmp:CreatorTool : Microsoft® Word 2013
Last-Save-Date : 2014-09-28T12:31:16Z
Diberikan di bawah ini adalah program untuk mengekstrak konten dan metadata dari Open Office Document Format (ODF).
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.odf.OpenDocumentParser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;
public class OpenDocumentParse {
public static void main(final String[] args) throws IOException,SAXException, TikaException {
//detecting the file type
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(new File("example_open_document_presentation.odp"));
ParseContext pcontext = new ParseContext();
//Open Document Parser
OpenDocumentParser openofficeparser = new OpenDocumentParser ();
openofficeparser.parse(inputstream, handler, metadata,pcontext);
System.out.println("Contents of the document:" + handler.toString());
System.out.println("Metadata of the document:");
String[] metadataNames = metadata.names();
for(String name : metadataNames) {
System.out.println(name + " : " + metadata.get(name));
}
}
}
Simpan kode di atas sebagai OpenDocumentParse.java, dan kompilasi di command prompt dengan menggunakan perintah berikut -
javac OpenDocumentParse.java
java OpenDocumentParse
Diberikan di bawah ini adalah snapshot dari file example_open_document_presentation.odp.
Dokumen ini memiliki properti berikut -
Setelah program dikompilasi, Anda akan mendapatkan output berikut.
Output -
Contents of the document:
Apache Tika
Apache Tika is a framework for content type detection and content extraction which was designed
by Apache software foundation. It detects and extracts metadata and structured text content from
different types of documents such as spreadsheets, text documents, images or PDFs including audio
or video input formats to certain extent.
Metadata of the document:
editing-cycles: 4
meta:creation-date: 2009-04-16T11:32:32.86
dcterms:modified: 2014-09-28T07:46:13.03
meta:save-date: 2014-09-28T07:46:13.03
Last-Modified: 2014-09-28T07:46:13.03
dcterms:created: 2009-04-16T11:32:32.86
date: 2014-09-28T07:46:13.03
modified: 2014-09-28T07:46:13.03
nbObject: 36
Edit-Time: PT32M6S
Creation-Date: 2009-04-16T11:32:32.86
Object-Count: 36
meta:object-count: 36
generator: OpenOffice/4.1.0$Win32 OpenOffice.org_project/410m18$Build-9764
Content-Type: application/vnd.oasis.opendocument.presentation
Last-Save-Date: 2014-09-28T07:46:13.03
Diberikan di bawah ini adalah program untuk mengekstrak konten dan metadata dari Dokumen Microsoft Office.
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.microsoft.ooxml.OOXMLParser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;
public class MSExcelParse {
public static void main(final String[] args) throws IOException, TikaException {
//detecting the file type
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(new File("example_msExcel.xlsx"));
ParseContext pcontext = new ParseContext();
//OOXml parser
OOXMLParser msofficeparser = new OOXMLParser ();
msofficeparser.parse(inputstream, handler, metadata,pcontext);
System.out.println("Contents of the document:" + handler.toString());
System.out.println("Metadata of the document:");
String[] metadataNames = metadata.names();
for(String name : metadataNames) {
System.out.println(name + ": " + metadata.get(name));
}
}
}
Simpan kode di atas sebagai MSExelParse.java, dan kompilasi dari command prompt dengan menggunakan perintah berikut -
javac MSExcelParse.java
java MSExcelParse
Di sini kami memberikan contoh file Excel berikut.
File Excel yang diberikan memiliki properti berikut -
Setelah menjalankan program di atas, Anda akan mendapatkan output berikut.
Output -
Contents of the document:
Sheet1
Name Age Designation Salary
Ramu 50 Manager 50,000
Raheem 40 Assistant manager 40,000
Robert 30 Superviser 30,000
sita 25 Clerk 25,000
sameer 25 Section in-charge 20,000
Metadata of the document:
meta:creation-date: 2006-09-16T00:00:00Z
dcterms:modified: 2014-09-28T15:18:41Z
meta:save-date: 2014-09-28T15:18:41Z
Application-Name: Microsoft Excel
extended-properties:Company:
dcterms:created: 2006-09-16T00:00:00Z
Last-Modified: 2014-09-28T15:18:41Z
Application-Version: 15.0300
date: 2014-09-28T15:18:41Z
publisher:
modified: 2014-09-28T15:18:41Z
Creation-Date: 2006-09-16T00:00:00Z
extended-properties:AppVersion: 15.0300
protected: false
dc:publisher:
extended-properties:Application: Microsoft Excel
Content-Type: application/vnd.openxmlformats-officedocument.spreadsheetml.sheet
Last-Save-Date: 2014-09-28T15:18:41Z
Diberikan di bawah ini adalah program untuk mengekstrak konten dan metadata dari dokumen Teks -
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.sax.BodyContentHandler;
import org.apache.tika.parser.txt.TXTParser;
import org.xml.sax.SAXException;
public class TextParser {
public static void main(final String[] args) throws IOException,SAXException, TikaException {
//detecting the file type
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(new File("example.txt"));
ParseContext pcontext=new ParseContext();
//Text document parser
TXTParser TexTParser = new TXTParser();
TexTParser.parse(inputstream, handler, metadata,pcontext);
System.out.println("Contents of the document:" + handler.toString());
System.out.println("Metadata of the document:");
String[] metadataNames = metadata.names();
for(String name : metadataNames) {
System.out.println(name + " : " + metadata.get(name));
}
}
}
Simpan kode di atas sebagai TextParser.java, dan kompilasi dari command prompt dengan menggunakan perintah berikut -
javac TextParser.java
java TextParser
Diberikan di bawah ini adalah snapshot dari file sample.txt -
Dokumen teks memiliki properti berikut -
Jika Anda menjalankan program di atas, ini akan memberi Anda output berikut.
Output -
Contents of the document:
At tutorialspoint.com, we strive hard to provide quality tutorials for self-learning
purpose in the domains of Academics, Information Technology, Management and Computer
Programming Languages.
The endeavour started by Mohtashim, an AMU alumni, who is the founder and the managing
director of Tutorials Point (I) Pvt. Ltd. He came up with the website tutorialspoint.com
in year 2006 with the help of handpicked freelancers, with an array of tutorials for
computer programming languages.
Metadata of the document:
Content-Encoding: windows-1252
Content-Type: text/plain; charset = windows-1252
Diberikan di bawah ini adalah program untuk mengekstrak konten dan metadata dari dokumen HTML.
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.html.HtmlParser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;
public class HtmlParse {
public static void main(final String[] args) throws IOException,SAXException, TikaException {
//detecting the file type
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(new File("example.html"));
ParseContext pcontext = new ParseContext();
//Html parser
HtmlParser htmlparser = new HtmlParser();
htmlparser.parse(inputstream, handler, metadata,pcontext);
System.out.println("Contents of the document:" + handler.toString());
System.out.println("Metadata of the document:");
String[] metadataNames = metadata.names();
for(String name : metadataNames) {
System.out.println(name + ": " + metadata.get(name));
}
}
}
Simpan kode di atas sebagai HtmlParse.java, dan kompilasi dari command prompt dengan menggunakan perintah berikut -
javac HtmlParse.java
java HtmlParse
Diberikan di bawah ini adalah snapshot dari file example.txt.
Dokumen HTML memiliki properti berikut-
Jika Anda menjalankan program di atas, ini akan memberi Anda output berikut.
Output -
Contents of the document:
Name Salary age
Ramesh Raman 50000 20
Shabbir Hussein 70000 25
Umesh Raman 50000 30
Somesh 50000 35
Metadata of the document:
title: HTML Table Header
Content-Encoding: windows-1252
Content-Type: text/html; charset = windows-1252
dc:title: HTML Table Header
Diberikan di bawah ini adalah program untuk mengekstrak konten dan metadata dari dokumen XML -
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.xml.XMLParser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;
public class XmlParse {
public static void main(final String[] args) throws IOException,SAXException, TikaException {
//detecting the file type
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(new File("pom.xml"));
ParseContext pcontext = new ParseContext();
//Xml parser
XMLParser xmlparser = new XMLParser();
xmlparser.parse(inputstream, handler, metadata, pcontext);
System.out.println("Contents of the document:" + handler.toString());
System.out.println("Metadata of the document:");
String[] metadataNames = metadata.names();
for(String name : metadataNames) {
System.out.println(name + ": " + metadata.get(name));
}
}
}
Simpan kode di atas sebagai XmlParse.java, dan kompilasi dari command prompt dengan menggunakan perintah berikut -
javac XmlParse.java
java XmlParse
Diberikan di bawah ini adalah snapshot dari file example.xml
Dokumen ini memiliki properti berikut -
Jika Anda menjalankan program di atas, ini akan memberi Anda output berikut -
Output -
Contents of the document:
4.0.0
org.apache.tika
tika
1.6
org.apache.tika
tika-core
1.6
org.apache.tika
tika-parsers
1.6
src
maven-compiler-plugin
3.1
1.7
1.7
Metadata of the document:
Content-Type: application/xml
Diberikan di bawah ini adalah program untuk mengekstrak konten dan metadata dari file .class.
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.asm.ClassParser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;
public class JavaClassParse {
public static void main(final String[] args) throws IOException,SAXException, TikaException {
//detecting the file type
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(new File("Example.class"));
ParseContext pcontext = new ParseContext();
//Html parser
ClassParser ClassParser = new ClassParser();
ClassParser.parse(inputstream, handler, metadata,pcontext);
System.out.println("Contents of the document:" + handler.toString());
System.out.println("Metadata of the document:");
String[] metadataNames = metadata.names();
for(String name : metadataNames) {
System.out.println(name + " : " + metadata.get(name));
}
}
}
Simpan kode di atas sebagai JavaClassParse.java, dan kompilasi dari command prompt dengan menggunakan perintah berikut -
javac JavaClassParse.java
java JavaClassParse
Diberikan di bawah ini adalah snapshot dari Example.java yang akan menghasilkan Example.class setelah kompilasi.
Example.class file memiliki properti berikut -
Setelah menjalankan program di atas, Anda akan mendapatkan keluaran sebagai berikut.
Output -
Contents of the document:
package tutorialspoint.tika.examples;
public synchronized class Example {
public void Example();
public static void main(String[]);
}
Metadata of the document:
title: Example
resourceName: Example.class
dc:title: Example
Diberikan di bawah ini adalah program untuk mengekstrak konten dan metadata dari file Java Archive (jar) -
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.sax.BodyContentHandler;
import org.apache.tika.parser.pkg.PackageParser;
import org.xml.sax.SAXException;
public class PackageParse {
public static void main(final String[] args) throws IOException,SAXException, TikaException {
//detecting the file type
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(new File("Example.jar"));
ParseContext pcontext = new ParseContext();
//Package parser
PackageParser packageparser = new PackageParser();
packageparser.parse(inputstream, handler, metadata,pcontext);
System.out.println("Contents of the document: " + handler.toString());
System.out.println("Metadata of the document:");
String[] metadataNames = metadata.names();
for(String name : metadataNames) {
System.out.println(name + ": " + metadata.get(name));
}
}
}
Simpan kode di atas sebagai PackageParse.java, dan kompilasi dari command prompt dengan menggunakan perintah berikut -
javac PackageParse.java
java PackageParse
Diberikan di bawah ini adalah snapshot dari Example.java yang berada di dalam paket.
File jar memiliki properti berikut -
Setelah menjalankan program di atas, ini akan memberi Anda output berikut -
Output -
Contents of the document:
META-INF/MANIFEST.MF
tutorialspoint/tika/examples/Example.class
Metadata of the document:
Content-Type: application/zip
Diberikan di bawah ini adalah program untuk mengekstrak konten dan meta data dari gambar JPEG.
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.jpeg.JpegParser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;
public class JpegParse {
public static void main(final String[] args) throws IOException,SAXException, TikaException {
//detecting the file type
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(new File("boy.jpg"));
ParseContext pcontext = new ParseContext();
//Jpeg Parse
JpegParser JpegParser = new JpegParser();
JpegParser.parse(inputstream, handler, metadata,pcontext);
System.out.println("Contents of the document:" + handler.toString());
System.out.println("Metadata of the document:");
String[] metadataNames = metadata.names();
for(String name : metadataNames) {
System.out.println(name + ": " + metadata.get(name));
}
}
}
Simpan kode di atas sebagai JpegParse.java, dan kompilasi dari command prompt dengan menggunakan perintah berikut -
javac JpegParse.java
java JpegParse
Diberikan di bawah ini adalah snapshot dari Example.jpeg -
File JPEG memiliki properti berikut -
Setelah menjalankan program, Anda akan mendapatkan output berikut.
Output −
Contents of the document:
Meta data of the document:
Resolution Units: inch
Compression Type: Baseline
Data Precision: 8 bits
Number of Components: 3
tiff:ImageLength: 3000
Component 2: Cb component: Quantization table 1, Sampling factors 1 horiz/1 vert
Component 1: Y component: Quantization table 0, Sampling factors 2 horiz/2 vert
Image Height: 3000 pixels
X Resolution: 300 dots
Original Transmission Reference: 53616c7465645f5f2368da84ca932841b336ac1a49edb1a93fae938b8db2cb3ec9cc4dc28d7383f1
Image Width: 4000 pixels
IPTC-NAA record: 92 bytes binary data
Component 3: Cr component: Quantization table 1, Sampling factors 1 horiz/1 vert
tiff:BitsPerSample: 8
Application Record Version: 4
tiff:ImageWidth: 4000
Y Resolution: 300 dots
Diberikan di bawah ini adalah program untuk mengekstrak konten dan metadata dari file mp4 -
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.mp4.MP4Parser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;
public class Mp4Parse {
public static void main(final String[] args) throws IOException,SAXException, TikaException {
//detecting the file type
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(new File("example.mp4"));
ParseContext pcontext = new ParseContext();
//Html parser
MP4Parser MP4Parser = new MP4Parser();
MP4Parser.parse(inputstream, handler, metadata,pcontext);
System.out.println("Contents of the document: :" + handler.toString());
System.out.println("Metadata of the document:");
String[] metadataNames = metadata.names();
for(String name : metadataNames) {
System.out.println(name + ": " + metadata.get(name));
}
}
}
Simpan kode di atas sebagai JpegParse.java, dan kompilasi dari command prompt dengan menggunakan perintah berikut -
javac Mp4Parse.java
java Mp4Parse
Diberikan di bawah ini adalah snapshot dari properti file Example.mp4.
Setelah menjalankan program di atas, Anda akan mendapatkan output berikut -
Output -
Contents of the document:
Metadata of the document:
dcterms:modified: 2014-01-06T12:10:27Z
meta:creation-date: 1904-01-01T00:00:00Z
meta:save-date: 2014-01-06T12:10:27Z
Last-Modified: 2014-01-06T12:10:27Z
dcterms:created: 1904-01-01T00:00:00Z
date: 2014-01-06T12:10:27Z
tiff:ImageLength: 360
modified: 2014-01-06T12:10:27Z
Creation-Date: 1904-01-01T00:00:00Z
tiff:ImageWidth: 640
Content-Type: video/mp4
Last-Save-Date: 2014-01-06T12:10:27Z
Diberikan di bawah ini adalah program untuk mengekstrak konten dan metadata dari file mp3 -
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.mp3.LyricsHandler;
import org.apache.tika.parser.mp3.Mp3Parser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;
public class Mp3Parse {
public static void main(final String[] args) throws Exception, IOException, SAXException, TikaException {
//detecting the file type
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(new File("example.mp3"));
ParseContext pcontext = new ParseContext();
//Mp3 parser
Mp3Parser Mp3Parser = new Mp3Parser();
Mp3Parser.parse(inputstream, handler, metadata, pcontext);
LyricsHandler lyrics = new LyricsHandler(inputstream,handler);
while(lyrics.hasLyrics()) {
System.out.println(lyrics.toString());
}
System.out.println("Contents of the document:" + handler.toString());
System.out.println("Metadata of the document:");
String[] metadataNames = metadata.names();
for(String name : metadataNames) {
System.out.println(name + ": " + metadata.get(name));
}
}
}
Simpan kode di atas sebagai JpegParse.java, dan kompilasi dari command prompt dengan menggunakan perintah berikut -
javac Mp3Parse.java
java Mp3Parse
Contoh file.mp3 memiliki properti berikut -
Anda akan mendapatkan keluaran berikut setelah menjalankan program. Jika file yang diberikan memiliki lirik, aplikasi kita akan menangkap dan menampilkannya bersama dengan outputnya.
Output -
Contents of the document:
Kanulanu Thaake
Arijit Singh
Manam (2014), track 01/06
2014
Soundtrack
30171.65
eng -
DRGM
Arijit Singh
Manam (2014), track 01/06
2014
Soundtrack
30171.65
eng -
DRGM
Metadata of the document:
xmpDM:releaseDate: 2014
xmpDM:duration: 30171.650390625
xmpDM:audioChannelType: Stereo
dc:creator: Arijit Singh
xmpDM:album: Manam (2014)
Author: Arijit Singh
xmpDM:artist: Arijit Singh
channels: 2
xmpDM:audioSampleRate: 44100
xmpDM:logComment: eng -
DRGM
xmpDM:trackNumber: 01/06
version: MPEG 3 Layer III Version 1
creator: Arijit Singh
xmpDM:composer: Music : Anoop Rubens | Lyrics : Vanamali
xmpDM:audioCompressor: MP3
title: Kanulanu Thaake
samplerate: 44100
meta:author: Arijit Singh
xmpDM:genre: Soundtrack
Content-Type: audio/mpeg
xmpDM:albumArtist: Manam (2014)
dc:title: Kanulanu Thaake