TIKA - Panduan Cepat

Apa itu Apache Tika?

  • Apache Tika adalah pustaka yang digunakan untuk deteksi tipe dokumen dan ekstraksi konten dari berbagai format file.

  • Secara internal, Tika menggunakan berbagai parser dokumen dan teknik deteksi tipe dokumen yang ada untuk mendeteksi dan mengekstrak data.

  • Dengan menggunakan Tika, seseorang dapat mengembangkan detektor tipe universal dan ekstraktor konten untuk mengekstrak teks terstruktur serta metadata dari berbagai jenis dokumen seperti spreadsheet, dokumen teks, gambar, PDF, dan bahkan format input multimedia sampai batas tertentu.

  • Tika menyediakan API generik tunggal untuk mengurai berbagai format file. Ini menggunakan pustaka parser khusus yang ada untuk setiap jenis dokumen.

  • Semua pustaka parser ini dienkapsulasi di bawah satu antarmuka yang disebut Parser interface.

Kenapa Tika?

Menurut filext.com, ada sekitar 15 ribu hingga 51 ribu jenis konten, dan jumlah ini terus bertambah dari hari ke hari. Data disimpan dalam berbagai format seperti dokumen teks, spreadsheet excel, PDF, gambar, dan file multimedia, untuk beberapa nama. Oleh karena itu, aplikasi seperti mesin pencari dan sistem manajemen konten memerlukan dukungan tambahan untuk memudahkan ekstraksi data dari jenis dokumen ini. Apache Tika melayani tujuan ini dengan menyediakan API umum untuk mencari dan mengekstrak data dari berbagai format file.

Aplikasi Apache Tika

Ada berbagai aplikasi yang menggunakan Apache Tika. Di sini kita akan membahas beberapa aplikasi terkemuka yang sangat bergantung pada Apache Tika.

Mesin pencari

Tika banyak digunakan saat mengembangkan mesin pencari untuk mengindeks konten teks dokumen digital.

  • Mesin pencari adalah sistem pemrosesan informasi yang dirancang untuk mencari informasi dan dokumen yang diindeks dari Web.

  • Perayap adalah komponen penting dari mesin telusur yang merayapi web untuk mengambil dokumen yang akan diindeks menggunakan beberapa teknik pengindeksan. Setelah itu, crawler mentransfer dokumen yang diindeks ini ke komponen ekstraksi.

  • Tugas komponen ekstraksi adalah mengekstrak teks dan metadata dari dokumen. Konten dan metadata yang diekstrak seperti itu sangat berguna untuk mesin pencari. Komponen ekstraksi ini mengandung Tika.

  • Konten yang diekstrak kemudian diteruskan ke pengindeks mesin pencari yang menggunakannya untuk membuat indeks pencarian. Selain itu, mesin pencari menggunakan konten yang diekstraksi dengan banyak cara lain juga.

Analisis Dokumen

  • Di bidang kecerdasan buatan, terdapat alat tertentu untuk menganalisis dokumen secara otomatis pada tingkat semantik dan mengekstrak semua jenis data darinya.

  • Dalam aplikasi tersebut, dokumen diklasifikasikan berdasarkan istilah yang menonjol dalam konten dokumen yang diekstraksi.

  • Alat-alat ini memanfaatkan Tika untuk ekstraksi konten untuk menganalisis dokumen yang bervariasi dari teks biasa hingga dokumen digital.

Manajemen Aset Digital

  • Beberapa organisasi mengelola aset digital mereka seperti foto, ebooks, gambar, musik, dan video menggunakan aplikasi khusus yang disebut manajemen aset digital (DAM).

  • Aplikasi semacam itu membutuhkan bantuan detektor tipe dokumen dan ekstraktor metadata untuk mengklasifikasikan berbagai dokumen.

Analisis Isi

  • Situs web seperti Amazon merekomendasikan konten situs web mereka yang baru dirilis kepada pengguna individu sesuai dengan minat mereka. Untuk melakukannya, situs web ini mengikutimachine learning techniques, atau mengambil bantuan situs web media sosial seperti Facebook untuk mengekstrak informasi yang diperlukan seperti kesukaan dan minat pengguna. Informasi yang dikumpulkan ini akan dalam bentuk tag html atau format lain yang memerlukan deteksi dan ekstraksi jenis konten lebih lanjut.

  • Untuk analisis konten dokumen, kami memiliki teknologi yang menerapkan teknik pembelajaran mesin seperti UIMA dan Mahout. Teknologi ini berguna dalam mengelompokkan dan menganalisis data dalam dokumen.

  • Apache Mahoutadalah framework yang menyediakan algoritme ML di Apache Hadoop - platform komputasi awan. Mahout menyediakan arsitektur dengan mengikuti teknik clustering dan filtering tertentu. Dengan mengikuti arsitektur ini, programmer dapat membuat algoritme ML mereka sendiri untuk menghasilkan rekomendasi dengan mengambil berbagai kombinasi teks dan metadata. Untuk memberikan masukan ke algoritme ini, versi terbaru Mahout menggunakan Tika untuk mengekstrak teks dan metadata dari konten biner.

  • Apache UIMAmenganalisis dan memproses berbagai bahasa pemrograman dan menghasilkan penjelasan UIMA. Secara internal menggunakan Tika Annotator untuk mengekstrak teks dokumen dan metadata.

Sejarah

Tahun Pengembangan
2006 Ide Tika diproyeksikan di hadapan Komite Manajemen Proyek Lucene.
2006 Konsep Tika dan kegunaannya dalam proyek Jackrabbit dibahas.
2007 Tika masuk ke inkubator Apache.
2008 Versi 0.1 dan 0.2 dirilis dan Tika lulus dari inkubator ke sub-proyek Lucene.
2009 Versi 0,3, 0,4, dan 0,5 dirilis.
2010 Versi 0.6 dan 0.7 dirilis dan Tika lulus ke dalam proyek Apache tingkat atas.
2011 Tika 1.0 dirilis dan buku tentang Tika "Tika in Action" juga dirilis di tahun yang sama.

Arsitektur Tingkat Aplikasi Tika

Pemrogram aplikasi dapat dengan mudah mengintegrasikan Tika dalam aplikasinya. Tika menyediakan Command Line Interface dan GUI untuk membuatnya mudah digunakan.

Pada bab ini, kita akan membahas empat modul penting yang membentuk arsitektur Tika. Ilustrasi berikut menunjukkan arsitektur Tika beserta empat modulnya -

  • Mekanisme deteksi bahasa.
  • Mekanisme deteksi MIME.
  • Antarmuka pengurai.
  • Kelas Tika Facade.

Mekanisme Deteksi Bahasa

Setiap kali dokumen teks dikirimkan ke Tika, itu akan mendeteksi bahasa di mana dokumen itu ditulis. Ini menerima dokumen tanpa anotasi bahasa dan menambahkan informasi itu dalam metadata dokumen dengan mendeteksi bahasa.

Untuk mendukung identifikasi bahasa, Tika memiliki kelas bernama Language Identifier di dalam paket org.apache.tika.language, dan repositori identifikasi bahasa di dalamnya yang berisi algoritme untuk deteksi bahasa dari teks tertentu. Tika secara internal menggunakan algoritma N-gram untuk deteksi bahasa.

Mekanisme Deteksi MIME

Tika dapat mendeteksi tipe dokumen sesuai dengan standar MIME. Deteksi tipe MIME default di Tika dilakukan menggunakan org.apache.tika.mime.mimeTypes . Ini menggunakan antarmuka org.apache.tika.detect.Detector untuk sebagian besar deteksi tipe konten.

Secara internal, Tika menggunakan beberapa teknik seperti file globs, petunjuk tipe konten, byte ajaib, pengkodean karakter, dan beberapa teknik lainnya.

Antarmuka Parser

Antarmuka parser org.apache.tika.parser adalah antarmuka kunci untuk mem-parse dokumen di Tika. Antarmuka ini mengekstrak teks dan metadata dari dokumen dan merangkumnya untuk pengguna eksternal yang ingin menulis plugin parser.

Menggunakan kelas pengurai beton yang berbeda, khusus untuk jenis dokumen individu, Tika mendukung banyak format dokumen. Kelas khusus format ini memberikan dukungan untuk berbagai format dokumen, baik dengan langsung menerapkan logika parser atau dengan menggunakan pustaka parser eksternal.

Kelas Fasad Tika

Penggunaan kelas fasad Tika adalah cara yang paling sederhana dan langsung untuk memanggil Tika dari Jawa, dan mengikuti pola desain fasad. Anda dapat menemukan kelas fasad Tika di paket org.apache.tika dari Tika API.

Dengan menerapkan kasus penggunaan dasar, Tika bertindak sebagai broker lanskap. Ini mengabstraksi kompleksitas yang mendasari pustaka Tika seperti mekanisme deteksi MIME, antarmuka parser, dan mekanisme deteksi bahasa, dan menyediakan antarmuka yang sederhana untuk digunakan kepada pengguna.

Fitur Tika

  • Unified parser Interface- Tika merangkum semua pustaka parser pihak ketiga dalam satu antarmuka parser. Karena fitur ini, pengguna lolos dari beban memilih pustaka parser yang sesuai dan menggunakannya sesuai dengan jenis file yang ditemukan.

  • Low memory usage- Tika menggunakan lebih sedikit sumber daya memori sehingga mudah disematkan dengan aplikasi Java. Kami juga dapat menggunakan Tika dalam aplikasi yang berjalan pada platform dengan sumber daya yang lebih sedikit seperti PDA seluler.

  • Fast processing - Deteksi konten dan ekstraksi cepat dari aplikasi dapat diharapkan.

  • Flexible metadata - Tika memahami semua model metadata yang digunakan untuk mendeskripsikan file.

  • Parser integration - Tika dapat menggunakan berbagai pustaka parser yang tersedia untuk setiap jenis dokumen dalam satu aplikasi.

  • MIME type detection - Tika dapat mendeteksi dan mengekstrak konten dari semua jenis media yang termasuk dalam standar MIME.

  • Language detection - Tika menyertakan fitur identifikasi bahasa, oleh karena itu dapat digunakan pada dokumen berdasarkan jenis bahasa di situs multi bahasa.

Fungsi Tika

Tika mendukung berbagai fungsi -

  • Deteksi tipe dokumen
  • Ekstraksi konten
  • Ekstraksi metadata
  • Deteksi bahasa

Deteksi Jenis Dokumen

Tika menggunakan berbagai teknik deteksi dan mendeteksi jenis dokumen yang diberikan padanya.

Ekstraksi Konten

Tika memiliki pustaka parser yang dapat mengurai konten dari berbagai format dokumen dan mengekstraknya. Setelah mendeteksi jenis dokumen, ia memilih parser yang sesuai dari repositori parser dan meneruskan dokumen. Kelas Tika yang berbeda memiliki metode untuk mengurai format dokumen yang berbeda.

Ekstraksi Metadata

Bersamaan dengan konten, Tika mengekstrak metadata dokumen dengan prosedur yang sama seperti ekstraksi konten. Untuk beberapa tipe dokumen, Tika memiliki kelas untuk mengekstrak metadata.

Deteksi Bahasa

Secara internal, Tika mengikuti algoritma seperti n-gramuntuk mendeteksi bahasa konten dalam dokumen tertentu. Tika bergantung pada kelas seperti ituLanguageidentifier dan Profiler untuk identifikasi bahasa.

Bab ini memandu Anda melalui proses penyiapan Apache Tika di Windows dan Linux. Administrasi pengguna diperlukan saat menginstal Apache Tika.

Persyaratan sistem

JDK Java SE 2 JDK 1.6 atau lebih tinggi
Penyimpanan RAM 1 GB (direkomendasikan)
Ruang Disk Tidak ada persyaratan minimum
Versi Sistem Operasi Windows XP atau yang lebih baru, Linux

Langkah 1: Memverifikasi Instalasi Java

Untuk memverifikasi instalasi Java, buka konsol dan jalankan perintah berikut java perintah.

OS Tugas Perintah
Windows Buka konsol perintah \> java –version
Linux Buka terminal perintah $ java –version

Jika Java telah diinstal dengan benar di sistem Anda, maka Anda akan mendapatkan salah satu dari keluaran berikut, tergantung pada platform yang Anda gunakan.

OS Keluaran
Windows

Versi Java "1.7.0_60"

Java (TM) SE Run Time Environment (build 1.7.0_60-b19)

Java Hotspot (TM) 64-bit Server VM (build 24.60-b09, mode campuran)

Lunix

versi java "1.7.0_25"

Buka JDK Runtime Environment (rhel-2.3.10.4.el6_4-x86_64)

Buka VM Server JDK 64-Bit (build 23.7-b01, mode campuran)

  • Kami berasumsi bahwa pembaca tutorial ini telah menginstal Java 1.7.0_60 di sistem mereka sebelum melanjutkan ke tutorial ini.

  • Jika Anda tidak memiliki Java SDK, unduh versi saat ini dari https://www.oracle.com/technetwork/java/javase/downloads/index.html and have it installed.

Langkah 2: Mengatur Lingkungan Java

Setel variabel lingkungan JAVA_HOME untuk menunjuk ke lokasi direktori dasar tempat Java diinstal pada mesin Anda. Sebagai contoh,

OS Keluaran
Windows Setel variabel Lingkungan JAVA_HOME ke C: \ ProgramFiles \ java \ jdk1.7.0_60
Linux ekspor JAVA_HOME = / usr / local / java-current

Tambahkan jalur lengkap lokasi kompilator Java ke Jalur Sistem.

OS Keluaran
Windows Tambahkan String; C: \ Program Files \ Java \ jdk1.7.0_60 \ bin ke akhir PATH variabel sistem.
Linux ekspor PATH = $ PATH: $ JAVA_HOME / bin /

Verifikasi perintah versi java dari command prompt seperti dijelaskan di atas.

Langkah 3: Menyiapkan Apache Tika Environment

Pemrogram dapat mengintegrasikan Apache Tika di lingkungan mereka dengan menggunakan

  • Garis komando,
  • Tika API,
  • Antarmuka baris perintah (CLI) dari Tika,
  • Antarmuka Pengguna Grafis (GUI) dari Tika, atau
  • kode sumber.

Untuk salah satu dari pendekatan ini, pertama-tama, Anda harus mengunduh kode sumber Tika.

Anda akan menemukan kode sumber Tika di https://Tika.apache.org/download.html, di mana Anda akan menemukan dua tautan -

  • apache-tika-1.6-src.zip - Berisi kode sumber Tika, dan

  • Tika -app-1.6.jar - Ini adalah file jar yang berisi aplikasi Tika.

Unduh dua file ini. Cuplikan dari situs resmi Tika ditampilkan di bawah ini.

Setelah mendownload file, setel classpath untuk file jar tika-app-1.6.jar. Tambahkan path lengkap dari file jar seperti yang ditunjukkan pada tabel di bawah.

OS Keluaran
Windows Tambahkan String “C: \ jars \ Tika-app-1.6.jar” ke variabel lingkungan pengguna CLASSPATH
Linux

Ekspor CLASSPATH = $ CLASSPATH -

/usr/share/jars/Tika-app-1.6.tar -

Apache menyediakan aplikasi Tika, aplikasi Graphical User Interface (GUI) dengan menggunakan Eclipse.

Tika-Maven Build menggunakan Eclipse

  • Buka gerhana dan buat proyek baru.

  • Jika Anda tidak memiliki Maven di Eclipse Anda, atur dengan mengikuti langkah-langkah yang diberikan.

    • Buka tautan https://wiki.eclipse.org/M2E_updatesite_and_gittags . Di sana Anda akan menemukan rilis plugin m2e dalam format tabel

  • Pilih versi terbaru dan simpan jalur url di kolom url p2.

  • Sekarang kunjungi kembali gerhana, di bilah menu, klik Help, dan pilih Install New Software dari menu tarik-turun

  • Klik Addtombol, ketik nama yang diinginkan, karena ini opsional. Sekarang tempel url yang disimpan diLocation bidang.

  • Plugin baru akan ditambahkan dengan nama yang telah Anda pilih pada langkah sebelumnya, centang kotak di depannya, dan klik Next.

  • Lanjutkan dengan penginstalan. Setelah selesai, restart Eclipse.

  • Sekarang klik kanan pada proyek, dan di configure pilihan, pilih convert to maven project.

  • Wizard baru untuk membuat pom baru muncul. Masukkan ID Grup sebagai org.apache.tika, masukkan Tika versi terbaru, pilihpackaging sebagai toples, dan klik Finish.

Proyek Maven berhasil dipasang, dan proyek Anda diubah menjadi Maven. Sekarang Anda harus mengkonfigurasi file pom.xml.

Konfigurasikan File XML

Dapatkan ketergantungan Tika maven darihttps://mvnrepository.com/artifact/org.apache.tika

Di bawah ini adalah dependensi Maven lengkap dari Apache Tika.

<dependency>
   <groupId>org.apache.Tika</groupId>
   <artifactId>Tika-core</artifactId>
   <version>1.6</version>

   <groupId>org.apache.Tika</groupId>
   <artifactId> Tika-parsers</artifactId>
   <version> 1.6</version>

   <groupId> org.apache.Tika</groupId>
   <artifactId>Tika</artifactId>
   <version>1.6</version>

   <groupId>org.apache.Tika</groupId>
   < artifactId>Tika-serialization</artifactId>
   < version>1.6< /version>

   < groupId>org.apache.Tika< /groupId>
   < artifactId>Tika-app< /artifactId>
   < version>1.6< /version>

   <groupId>org.apache.Tika</groupId>
   <artifactId>Tika-bundle</artifactId>
   <version>1.6</version>
</dependency>

Pengguna dapat menyematkan Tika dalam aplikasinya menggunakan kelas fasad Tika. Ia memiliki metode untuk mengeksplorasi semua fungsi Tika. Karena merupakan kelas fasad, Tika mengabstraksi kompleksitas di balik fungsinya. Selain itu, pengguna juga dapat menggunakan berbagai kelas Tika dalam aplikasinya.

Kelas Tika (fasad)

Ini adalah kelas paling menonjol dari perpustakaan Tika dan mengikuti pola desain fasad. Oleh karena itu, ia mengabstraksi semua implementasi internal dan menyediakan metode sederhana untuk mengakses fungsi Tika. Tabel berikut mencantumkan konstruktor kelas ini beserta deskripsinya.

package - org.apache.tika

class - Tika

Sr.No. Pembuat & Deskripsi
1

Tika ()

Menggunakan konfigurasi default dan membangun kelas Tika.

2

Tika (Detector detector)

Membuat fasad Tika dengan menerima instance detektor sebagai parameter

3

Tika (Detector detector, Parser parser)

Membuat fasad Tika dengan menerima instance detektor dan parser sebagai parameter.

4

Tika (Detector detector, Parser parser, Translator translator)

Membuat fasad Tika dengan menerima detektor, parser, dan instance penerjemah sebagai parameter.

5

Tika (TikaConfig config)

Membuat fasad Tika dengan menerima objek kelas TikaConfig sebagai parameter.

Metode dan Deskripsi

Berikut ini adalah metode penting kelas fasad Tika -

Sr.No. Metode & Deskripsi
1

menguraiToString (File mengajukan)

Metode ini dan semua variasinya mengurai file yang diteruskan sebagai parameter dan mengembalikan konten teks yang diekstrak dalam format String. Secara default, panjang parameter string ini dibatasi.

2

int getMaxStringLength ()

Mengembalikan panjang maksimum string yang dikembalikan oleh metode parseToString.

3

kosong setMaxStringLength (int maxStringLength)

Menyetel panjang maksimum string yang dikembalikan oleh metode parseToString.

4

Pembaca parse (File mengajukan)

Metode ini dan semua variannya mengurai file yang diteruskan sebagai parameter dan mengembalikan konten teks yang diekstrak dalam bentuk objek java.io.reader.

5

Tali detect (InputStream aliran, Metadata metadata)

Metode ini dan semua variasinya menerima objek InputStream dan objek Metadata sebagai parameter, mendeteksi tipe dokumen yang diberikan, dan mengembalikan nama tipe dokumen sebagai objek String. Metode ini mengabstraksi mekanisme deteksi yang digunakan oleh Tika.

6

Tali translate (InputStream teks, String targetLanguage)

Metode ini dan semua variannya menerima objek InputStream dan String yang mewakili bahasa yang kita ingin teks kita diterjemahkan, dan menerjemahkan teks yang diberikan ke bahasa yang diinginkan, mencoba mendeteksi bahasa sumber secara otomatis.

Antarmuka Parser

Ini adalah antarmuka yang diimplementasikan oleh semua kelas parser dari paket Tika.

package - org.apache.tika.parser

Interface - Parser

Metode dan Deskripsi

Berikut ini adalah metode penting dari antarmuka Tika Parser -

Sr.No. Metode & Deskripsi
1

parse (InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context)

Metode ini mengurai dokumen yang diberikan menjadi urutan kejadian XHTML dan SAX. Setelah parsing, ini menempatkan konten dokumen yang diekstrak di objek kelas ContentHandler dan metadata di objek kelas Metadata.

Kelas Metadata

Kelas ini mengimplementasikan berbagai antarmuka seperti CreativeCommons, Geographic, HttpHeaders, Message, MSOffice, ClimateForcast, TIFF, TikaMetadataKeys, TikaMimeKeys, Serializable untuk mendukung berbagai model data. Tabel berikut mencantumkan konstruktor dan metode kelas ini beserta deskripsinya.

package - org.apache.tika.metadata

class - Metadata

Sr.No. Pembuat & Deskripsi
1

Metadata()

Membangun metadata kosong yang baru.

Sr.No. Metode & Deskripsi
1

add (Property property, String value)

Menambahkan pemetaan properti / nilai metadata ke dokumen tertentu. Dengan menggunakan fungsi ini, kita dapat mengatur nilainya menjadi properti.

2

add (String name, String value)

Menambahkan pemetaan properti / nilai metadata ke dokumen tertentu. Dengan menggunakan metode ini, kita dapat menetapkan nilai nama baru ke metadata dokumen yang ada.

3

String get (Property property)

Mengembalikan nilai (jika ada) dari properti metadata yang diberikan.

4

String get (String name)

Mengembalikan nilai (jika ada) dari nama metadata yang diberikan.

5

Date getDate (Property property)

Mengembalikan nilai properti metadata Tanggal.

6

String[] getValues (Property property)

Menampilkan semua nilai properti metadata.

7

String[] getValues (String name)

Menampilkan semua nilai dari nama metadata tertentu.

8

String[] names()

Menampilkan semua nama elemen metadata dalam objek metadata.

9

set (Property property, Date date)

Menyetel nilai tanggal dari properti metadata tertentu

10

set(Property property, String[] values)

Menetapkan beberapa nilai ke properti metadata.

Kelas Pengenal Bahasa

Kelas ini mengidentifikasi bahasa konten yang diberikan. Tabel berikut mencantumkan konstruktor kelas ini beserta deskripsinya.

package - org.apache.tika.language

class - Pengenal Bahasa

Sr.No. Pembuat & Deskripsi
1

LanguageIdentifier (LanguageProfile profile)

Membuat instance pengenal bahasa. Di sini Anda harus meneruskan objek LanguageProfile sebagai parameter.

2

LanguageIdentifier (String content)

Konstruktor ini dapat membuat contoh pengenal bahasa dengan meneruskan String dari konten teks.

Sr.No. Metode & Deskripsi
1

String getLanguage ()

Mengembalikan bahasa yang diberikan ke objek LanguageIdentifier saat ini.

Format File Didukung oleh Tika

Tabel berikut menunjukkan format file yang didukung Tika.

Format file Pustaka Paket Kelas di Tika
XML org.apache.tika.parser.xml XMLParser
HTML org.apache.tika.parser.html dan menggunakan Perpustakaan Tagsoup HtmlParser
Dokumen gabungan MS-Office Ole2 hingga 2007 ooxml 2007 dan seterusnya

org.apache.tika.parser.microsoft

org.apache.tika.parser.microsoft.ooxml dan menggunakan pustaka Apache Poi

OfficeParser (ole2)

OOXMLParser (ooxml)

Format OpenDocument openoffice org.apache.tika.parser.odf OpenOfficeParser
Format Dokumen portabel (PDF) org.apache.tika.parser.pdf dan paket ini menggunakan pustaka Apache PdfBox PDFParser
Format Publikasi Elektronik (buku digital) org.apache.tika.parser.epub EpubParser
Format Teks Kaya org.apache.tika.parser.rtf RTFParser
Format kompresi dan pengemasan org.apache.tika.parser.pkg dan paket ini menggunakan pustaka kompres umum PackageParser dan CompressorParser dan sub-kelasnya
Format teks org.apache.tika.parser.txt TXTParser
Format umpan dan sindikasi org.apache.tika.parser.feed FeedParser
Format audio org.apache.tika.parser.audio dan org.apache.tika.parser.mp3 AudioParser MidiParser Mp3- untuk mp3parser
Imageparsers org.apache.tika.parser.jpeg JpegParser-untuk gambar jpeg
Format video org.apache.tika.parser.mp4 dan org.apache.tika.parser.video pengurai ini secara internal menggunakan Algoritme Sederhana untuk mengurai format video flash Mp4parser FlvParser
file kelas java dan file jar org.apache.tika.parser.asm ClassParser CompressorParser
Mobxformat (pesan email) org.apache.tika.parser.mbox MobXParser
Format cad org.apache.tika.parser.dwg DWGParser
FontFormats org.apache.tika.parser.font TrueTypeParser
program dan perpustakaan yang dapat dieksekusi org.apache.tika.parser.executable ExecutableParser

Standar MIME

Standar Multipurpose Internet Mail Extensions (MIME) adalah standar terbaik yang tersedia untuk mengidentifikasi jenis dokumen. Pengetahuan tentang standar ini membantu browser selama interaksi internal.

Setiap kali browser menemukan file media, ia memilih perangkat lunak kompatibel yang tersedia dengannya untuk menampilkan isinya. Jika tidak memiliki aplikasi yang sesuai untuk menjalankan file media tertentu, pengguna disarankan untuk mendapatkan perangkat lunak plugin yang sesuai untuknya.

Ketik Deteksi di Tika

Tika mendukung semua jenis dokumen media Internet yang disediakan dalam MIME. Setiap kali file melewati Tika, ia mendeteksi file dan jenis dokumennya. Untuk mendeteksi jenis media, Tika secara internal menggunakan mekanisme berikut.

Ekstensi File

Memeriksa ekstensi file adalah metode paling sederhana dan paling banyak digunakan untuk mendeteksi format file. Banyak aplikasi dan sistem operasi memberikan dukungan untuk ekstensi ini. Di bawah ini adalah ekstensi dari beberapa jenis file yang dikenal.

Nama file Perluasan
gambar .jpg
audio .mp3
file arsip java .botol
file kelas java .kelas

Petunjuk tipe konten

Setiap kali Anda mengambil file dari database atau melampirkannya ke dokumen lain, Anda mungkin kehilangan nama atau ekstensi file. Dalam kasus seperti itu, metadata yang disertakan dengan file digunakan untuk mendeteksi ekstensi file.

Magic Byte

Mengamati byte mentah dari file, Anda dapat menemukan beberapa pola karakter unik untuk setiap file. Beberapa file memiliki awalan byte khusus yang disebutmagic bytes yang dibuat secara khusus dan disertakan dalam file untuk tujuan mengidentifikasi jenis file

Misalnya, Anda dapat menemukan CA FE BA BE (format heksadesimal) dalam file java dan% PDF (format ASCII) dalam file pdf. Tika menggunakan informasi ini untuk mengidentifikasi jenis media file.

Pengodean Karakter

File dengan teks biasa dikodekan menggunakan berbagai jenis pengkodean karakter. Tantangan utama di sini adalah mengidentifikasi jenis pengkodean karakter yang digunakan dalam file. Tika mengikuti teknik pengkodean karakter sepertiBom markers dan Byte Frequencies untuk mengidentifikasi sistem pengkodean yang digunakan oleh konten teks biasa.

Karakter Root XML

Untuk mendeteksi dokumen XML, Tika mem-parsing dokumen xml dan mengekstrak informasi seperti elemen root, namespace, dan skema yang direferensikan dari mana jenis media sebenarnya dari file tersebut dapat ditemukan.

Jenis Deteksi menggunakan Kelas Fasad

Itu detect()Metode kelas fasad digunakan untuk mendeteksi tipe dokumen. Metode ini menerima file sebagai input. Di bawah ini adalah contoh program untuk deteksi tipe dokumen dengan kelas fasad Tika.

import java.io.File;

import org.apache.tika.Tika;

public class Typedetection {

   public static void main(String[] args) throws Exception {

      //assume example.mp3 is in your current directory
      File file = new File("example.mp3");//
      
      //Instantiating tika facade class 
      Tika tika = new Tika();
      
      //detecting the file type using detect method
      String filetype = tika.detect(file);
      System.out.println(filetype);
   }
}

Simpan kode di atas sebagai TypeDetection.java dan jalankan dari command prompt menggunakan perintah berikut -

javac TypeDetection.java
java TypeDetection 

audio/mpeg

Tika menggunakan berbagai pustaka parser untuk mengekstrak konten dari parser yang diberikan. Itu memilih parser yang tepat untuk mengekstrak jenis dokumen yang diberikan.

Untuk penguraian dokumen, metode parseToString () dari kelas fasad Tika umumnya digunakan. Di bawah ini adalah langkah-langkah yang terlibat dalam proses parsing dan ini diabstraksi oleh metode Tika ParsertoString ().

Mengabstraksi proses parsing -

  • Awalnya ketika kami meneruskan dokumen ke Tika, ia menggunakan mekanisme deteksi tipe yang sesuai yang tersedia dengannya dan mendeteksi tipe dokumen.

  • Setelah jenis dokumen diketahui, ia memilih parser yang sesuai dari repositori parsernya. Repositori parser berisi kelas yang menggunakan perpustakaan eksternal.

  • Kemudian dokumen diteruskan untuk memilih parser yang akan mengurai konten, mengekstrak teks, dan juga membuang pengecualian untuk format yang tidak dapat dibaca.

Ekstraksi Konten menggunakan Tika

Diberikan di bawah ini adalah program untuk mengekstraksi teks dari file menggunakan kelas fasad Tika -

import java.io.File;
import java.io.IOException;

import org.apache.tika.Tika;
import org.apache.tika.exception.TikaException;

import org.xml.sax.SAXException;

public class TikaExtraction {
	
   public static void main(final String[] args) throws IOException, TikaException {

      //Assume sample.txt is in your current directory		        
      File file = new File("sample.txt");
      
      //Instantiating Tika facade class
      Tika tika = new Tika();
      String filecontent = tika.parseToString(file);
      System.out.println("Extracted Content: " + filecontent);
   }		 
}

Simpan kode di atas sebagai TikaExtraction.java dan jalankan dari command prompt -

javac TikaExtraction.java 
java TikaExtraction

Diberikan di bawah ini adalah konten sample.txt.

Hi students welcome to tutorialspoint

Ini memberi Anda output berikut -

Extracted Content: Hi students welcome to tutorialspoint

Ekstraksi Konten menggunakan Antarmuka Parser

Paket parser Tika menyediakan beberapa antarmuka dan kelas yang dapat digunakan untuk mengurai dokumen teks. Diberikan di bawah ini adalah diagram blok dariorg.apache.tika.parser paket.

Ada beberapa kelas parser yang tersedia, misalnya, pdf parser, Mp3Passer, OfficeParser, dll., Untuk mengurai dokumen masing-masing satu per satu. Semua kelas ini mengimplementasikan antarmuka parser.

CompositeParser

Diagram yang diberikan menunjukkan kelas parser tujuan umum Tika: CompositeParser dan AutoDetectParser. Karena kelas CompositeParser mengikuti pola desain komposit, Anda dapat menggunakan grup instance parser sebagai parser tunggal. Kelas CompositeParser juga memungkinkan akses ke semua kelas yang mengimplementasikan antarmuka parser.

AutoDetectParser

Ini adalah subkelas dari CompositeParser dan menyediakan deteksi tipe otomatis. Menggunakan fungsionalitas ini, AutoDetectParser secara otomatis mengirim dokumen masuk ke kelas parser yang sesuai menggunakan metodologi komposit.

parse ()

Bersama dengan parseToString (), Anda juga bisa menggunakan metode parse () dari Antarmuka parser. Prototipe metode ini ditunjukkan di bawah ini.

parse(InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context)

Tabel berikut mencantumkan empat objek yang diterimanya sebagai parameter.

Sr.No. Objek & Deskripsi
1

InputStream stream

Objek Inputstream apa pun yang berisi konten file

2

ContentHandler handler

Tika meneruskan dokumen sebagai konten XHTML ke penangan ini, setelah itu dokumen tersebut diproses menggunakan SAX API. Ini menyediakan pemrosesan pasca konten yang efisien dalam dokumen.

3

Metadata metadata

Objek metadata digunakan baik sebagai sumber dan target metadata dokumen.

4

ParseContext context

Objek ini digunakan jika aplikasi klien ingin menyesuaikan proses parsing.

Contoh

Diberikan di bawah ini adalah contoh yang menunjukkan bagaimana metode parse () digunakan.

Step 1 -

Untuk menggunakan metode parse () dari antarmuka parser, buat instance kelas apa pun yang menyediakan implementasi untuk antarmuka ini.

Ada kelas pengurai individual seperti PDFParser, OfficeParser, XMLParser, dll. Anda dapat menggunakan salah satu pengurai dokumen individual ini. Alternatifnya, Anda dapat menggunakan CompositeParser atau AutoDetectParser yang menggunakan semua kelas parser secara internal dan mengekstrak konten dokumen menggunakan parser yang sesuai.

Parser parser = new AutoDetectParser();
   (or)
Parser parser = new CompositeParser();  
   (or)        
object of any individual parsers given in Tika Library

Step 2 -

Buat objek kelas penangan. Diberikan di bawah ini adalah tiga penangan konten -

Sr.No. Kelas & Deskripsi
1

BodyContentHandler

Kelas ini mengambil bagian tubuh dari keluaran XHTML dan menulis konten itu ke penulis keluaran atau aliran keluaran. Kemudian mengalihkan konten XHTML ke contoh penangan konten lain.

2

LinkContentHandler

Kelas ini mendeteksi dan mengambil semua tag H-Ref dari dokumen XHTML dan meneruskannya untuk penggunaan alat seperti web crawler.

3

TeeContentHandler

Kelas ini membantu dalam menggunakan beberapa alat secara bersamaan.

Karena target kami adalah mengekstrak konten teks dari dokumen, gunakan BodyContentHandler seperti yang ditunjukkan di bawah ini -

BodyContentHandler handler = new BodyContentHandler( );

Step 3 -

Buat objek Metadata seperti yang ditunjukkan di bawah ini -

Metadata metadata = new Metadata();

Step 4 -

Buat salah satu objek input stream, dan teruskan file Anda yang harus diekstrak ke sana.

FileInputstream

Membuat instance objek file dengan meneruskan jalur file sebagai parameter dan meneruskan objek ini ke konstruktor kelas FileInputStream.

Note - Path yang diteruskan ke objek file tidak boleh mengandung spasi.

Masalah dengan kelas aliran input ini adalah kelas tersebut tidak mendukung akses baca acak, yang diperlukan untuk memproses beberapa format file secara efisien. Untuk mengatasi masalah ini, Tika menyediakan TikaInputStream.

File  file = new File(filepath)
FileInputStream inputstream = new FileInputStream(file);
   (or)
InputStream stream = TikaInputStream.get(new File(filename));

Step 5 -

Buat objek konteks parse seperti yang ditunjukkan di bawah ini -

ParseContext context =new ParseContext();

Step 6 -

Buat instance objek parser, panggil metode parse, dan teruskan semua objek yang diperlukan, seperti yang ditunjukkan pada prototipe di bawah ini -

parser.parse(inputstream, handler, metadata, context);

Diberikan di bawah ini adalah program untuk ekstraksi konten menggunakan antarmuka parser -

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class ParserExtraction {
	
   public static void main(final String[] args) throws IOException,SAXException, TikaException {

      //Assume sample.txt is in your current directory
      File file = new File("sample.txt");
      
      //parse method parameters
      Parser parser = new AutoDetectParser();
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(file);
      ParseContext context = new ParseContext();
      
      //parsing the file
      parser.parse(inputstream, handler, metadata, context);
      System.out.println("File content : " + Handler.toString());
   }
}

Simpan kode di atas sebagai ParserExtraction.java dan jalankan dari command prompt -

javac  ParserExtraction.java 
java  ParserExtraction

Diberikan di bawah ini adalah konten sample.txt

Hi students welcome to tutorialspoint

Jika Anda menjalankan program di atas, ini akan memberi Anda output berikut -

File content : Hi students welcome to tutorialspoint

Selain konten, Tika juga mengekstrak metadata dari sebuah file. Metadata tidak lain adalah informasi tambahan yang disertakan dengan file. Jika kami menganggap file audio, nama artis, nama album, judul berada di bawah metadata.

Standar XMP

Platform Metadata yang Dapat Diperluas (XMP) adalah standar untuk memproses dan menyimpan informasi yang terkait dengan konten file. Buku itu diciptakan oleh Adobe Systems Inc . XMP memberikan standar untuk mendefinisikan, membuat, dan memproses metadata . Anda dapat memasukkan standar ini ke dalam beberapa format file seperti PDF , JPEG , JPEG , GIF , jpg , HTML dll.

Kelas Properti

Tika menggunakan kelas Properti untuk mengikuti definisi properti XMP. Ini menyediakan enum PropertyType dan ValueType untuk menangkap nama dan nilai metadata.

Kelas Metadata

Kelas ini mengimplementasikan berbagai antarmuka seperti ClimateForcast , CativeCommons, Geographic , TIFF, dll. Untuk memberikan dukungan untuk berbagai model metadata. Selain itu, kelas ini menyediakan berbagai metode untuk mengekstrak konten dari file.

Nama Metadata

Kita bisa mengekstrak daftar semua nama metadata dari sebuah file dari objek metadata-nya menggunakan nama metode () . Ini mengembalikan semua nama sebagai larik string. Menggunakan nama metadata, kita bisa mendapatkan nilainya menggunakanget()metode. Ini mengambil nama metadata dan mengembalikan nilai yang terkait dengannya.

String[] metadaNames = metadata.names();

String value = metadata.get(name);

Mengekstrak Metadata menggunakan Metode Parse

Setiap kali kami mengurai file menggunakan parse (), kami mengirimkan objek metadata kosong sebagai salah satu parameter. Metode ini mengekstrak metadata dari file yang diberikan (jika file itu mengandung), dan menempatkannya di objek metadata. Oleh karena itu, setelah mengurai file menggunakan parse (), kita dapat mengekstrak metadata dari objek tersebut.

Parser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();   //empty metadata object 
FileInputStream inputstream = new FileInputStream(file);
ParseContext context = new ParseContext();
parser.parse(inputstream, handler, metadata, context);

// now this metadata object contains the extracted metadata of the given file.
metadata.metadata.names();

Diberikan di bawah ini adalah program lengkap untuk mengekstrak metadata dari file teks.

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class GetMetadata {
	
   public static void main(final String[] args) throws IOException, TikaException {
	
      //Assume that boy.jpg is in your current directory
      File file = new File("boy.jpg");

      //Parser method parameters
      Parser parser = new AutoDetectParser();
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(file);
      ParseContext context = new ParseContext();
      
      parser.parse(inputstream, handler, metadata, context);
      System.out.println(handler.toString());

      //getting the list of all meta data elements 
      String[] metadataNames = metadata.names();

      for(String name : metadataNames) {		        
         System.out.println(name + ": " + metadata.get(name));
      }
   }
}

Simpan kode di atas sebagai GetMetadata.java dan jalankan dari command prompt menggunakan perintah berikut -

javac  GetMetadata .java
java  GetMetadata

Diberikan di bawah ini adalah snapshot dari boy.jpg

Jika Anda menjalankan program di atas, ini akan memberi Anda output berikut -

X-Parsed-By: org.apache.tika.parser.DefaultParser
Resolution Units: inch
Compression Type: Baseline
Data Precision: 8 bits
Number of Components: 3
tiff:ImageLength: 3000
Component 2: Cb component: Quantization table 1, Sampling factors 1 horiz/1 vert
Component 1: Y component: Quantization table 0, Sampling factors 2 horiz/2 vert
Image Height: 3000 pixels
X Resolution: 300 dots
Original Transmission Reference:
   53616c7465645f5f2368da84ca932841b336ac1a49edb1a93fae938b8db2cb3ec9cc4dc28d7383f1
Image Width: 4000 pixels
IPTC-NAA record: 92 bytes binary data
Component 3: Cr component: Quantization table 1, Sampling factors 1 horiz/1 vert
tiff:BitsPerSample: 8
Application Record Version: 4
tiff:ImageWidth: 4000
Content-Type: image/jpeg
Y Resolution: 300 dots

Kita juga bisa mendapatkan nilai metadata yang kita inginkan.

Menambahkan Nilai Metadata Baru

Kita bisa menambahkan nilai metadata baru menggunakan metode add () dari kelas metadata. Diberikan di bawah ini adalah sintaks dari metode ini. Di sini kami menambahkan nama penulis.

metadata.add(“author”,”Tutorials point”);

Kelas Metadata memiliki properti yang telah ditentukan termasuk properti yang diwarisi dari kelas seperti ClimateForcast , CativeCommons, Geographic , dll., Untuk mendukung berbagai model data. Di bawah ini adalah penggunaan tipe data PERANGKAT LUNAK yang diwarisi dari antarmuka TIFF yang diimplementasikan oleh Tika untuk mengikuti standar metadata XMP untuk format gambar TIFF.

metadata.add(Metadata.SOFTWARE,"ms paint");

Diberikan di bawah ini adalah program lengkap yang menunjukkan cara menambahkan nilai metadata ke file tertentu. Di sini daftar elemen metadata ditampilkan di keluaran sehingga Anda dapat mengamati perubahan dalam daftar setelah menambahkan nilai baru.

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.util.Arrays;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class AddMetadata {

   public static void main(final String[] args) throws IOException, SAXException, TikaException {

      //create a file object and assume sample.txt is in your current directory
      File file = new File("Example.txt");

      //Parser method parameters
      Parser parser = new AutoDetectParser();
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(file);
      ParseContext context = new ParseContext();

      //parsing the document
      parser.parse(inputstream, handler, metadata, context);

      //list of meta data elements before adding new elements
      System.out.println( " metadata elements :"  +Arrays.toString(metadata.names()));

      //adding new meta data name value pair
      metadata.add("Author","Tutorials Point");
      System.out.println(" metadata name value pair is successfully added");
      
      //printing all the meta data elements after adding new elements
      System.out.println("Here is the list of all the metadata 
         elements after adding new elements");
      System.out.println( Arrays.toString(metadata.names()));
   }
}

Simpan kode di atas sebagai kelas AddMetadata.java dan jalankan dari command prompt -

javac  AddMetadata .java 
java  AddMetadata

Diberikan di bawah ini adalah konten Example.txt

Hi students welcome to tutorialspoint

Jika Anda menjalankan program di atas, ini akan memberi Anda output berikut -

metadata elements of the given file :
[Content-Encoding, Content-Type] 
enter the number of metadata name value pairs to be added 1
enter metadata1name: 
Author enter metadata1value: 
Tutorials point metadata name value pair is successfully added
Here is the list of all the metadata elements  after adding new elements
[Content-Encoding, Author, Content-Type]

Mengatur Nilai ke Elemen Metadata yang Ada

Anda bisa menyetel nilai ke elemen metadata yang ada menggunakan metode set (). Sintaks untuk menyetel properti tanggal menggunakan metode set () adalah sebagai berikut -

metadata.set(Metadata.DATE, new Date());

Anda juga dapat menyetel beberapa nilai ke properti menggunakan metode set (). Sintaks untuk menyetel beberapa nilai ke properti Author menggunakan metode set () adalah sebagai berikut -

metadata.set(Metadata.AUTHOR, "ram ,raheem ,robin ");

Diberikan di bawah ini adalah program lengkap yang mendemonstrasikan metode set ().

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import java.util.Date;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class SetMetadata {

   public static void main(final String[] args) throws IOException,SAXException, TikaException {
   
      //Create a file object and assume example.txt is in your current directory
      File file = new File("example.txt");
      
      //parameters of parse() method
      Parser parser = new AutoDetectParser();
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(file);
      ParseContext context = new ParseContext();
      
      //Parsing the given file
      parser.parse(inputstream, handler, metadata, context);
     
      //list of meta data elements elements
      System.out.println( " metadata elements and values of the given file :");
      String[] metadataNamesb4 = metadata.names();
      
      for(String name : metadataNamesb4) {
    	  System.out.println(name + ": " + metadata.get(name));
      }
      
      //setting date meta data 
      metadata.set(Metadata.DATE, new Date());
      
      //setting multiple values to author property
      metadata.set(Metadata.AUTHOR, "ram ,raheem ,robin ");
      
      //printing all the meta data elements with new elements
      System.out.println("List of all the metadata elements  after adding new elements ");
      String[] metadataNamesafter = metadata.names();
      
      for(String name : metadataNamesafter) {
         System.out.println(name + ": " + metadata.get(name));
      }
   }
}

Simpan kode di atas sebagai SetMetadata.java dan jalankan dari command prompt -

javac  SetMetadata.java 
java  SetMetadata

Diberikan di bawah ini adalah konten dari example.txt.

Hi students welcome to tutorialspoint

Jika Anda menjalankan program di atas, ini akan memberi Anda output berikut. Dalam output, Anda dapat mengamati elemen metadata yang baru ditambahkan.

metadata elements and values of the given file :
Content-Encoding: ISO-8859-1
Content-Type: text/plain; charset = ISO-8859-1
Here is the list of all the metadata elements  after adding new elements 
date: 2014-09-24T07:01:32Z
Content-Encoding: ISO-8859-1
Author: ram, raheem, robin 
Content-Type: text/plain; charset = ISO-8859-1

Perlunya Deteksi Bahasa

Untuk pengklasifikasian dokumen berdasarkan bahasa penulisannya di website multibahasa, diperlukan alat pendeteksi bahasa. Alat ini harus menerima dokumen tanpa anotasi bahasa (metadata) dan menambahkan informasi tersebut dalam metadata dokumen dengan mendeteksi bahasanya.

Algoritma untuk Pembuatan Profil Corpus

Apa itu Corpus?

Untuk mendeteksi bahasa dokumen, profil bahasa dibuat dan dibandingkan dengan profil bahasa yang diketahui. Kumpulan teks dari bahasa yang dikenal ini dikenal sebagai acorpus.

Korpus adalah kumpulan teks bahasa tertulis yang menjelaskan bagaimana bahasa tersebut digunakan dalam situasi nyata.

Korpus dikembangkan dari buku, transkrip, dan sumber data lain seperti Internet. Akurasi korpus bergantung pada algoritme profil yang kami gunakan untuk membingkai korpus.

Apa itu Algoritma Profil?

Cara umum untuk mendeteksi bahasa adalah dengan menggunakan kamus. Kata-kata yang digunakan dalam suatu teks akan dicocokkan dengan kata-kata yang ada di kamus.

Daftar kata-kata umum yang digunakan dalam suatu bahasa akan menjadi korpus yang paling sederhana dan efektif untuk mendeteksi bahasa tertentu, misalnya artikel a, an, the dalam Bahasa Inggris.

Menggunakan Kumpulan Kata sebagai Corpus

Menggunakan kumpulan kata, algoritme sederhana dibuat untuk mencari jarak antara dua corpora, yang akan sama dengan jumlah perbedaan antara frekuensi kata yang cocok.

Algoritme semacam itu mengalami masalah berikut -

  • Karena frekuensi pencocokan kata sangat sedikit, algoritme tidak dapat bekerja secara efisien dengan teks kecil yang memiliki sedikit kalimat. Ini membutuhkan banyak teks untuk kecocokan yang akurat.

  • Itu tidak dapat mendeteksi batas kata untuk bahasa yang memiliki kalimat majemuk, dan yang tidak memiliki pemisah kata seperti spasi atau tanda baca.

Karena kesulitan ini dalam menggunakan kumpulan kata sebagai korpus, karakter individu atau kelompok karakter dipertimbangkan.

Menggunakan Kumpulan Karakter sebagai Corpus

Karena karakter yang umum digunakan dalam suatu bahasa jumlahnya terbatas, maka mudah untuk menerapkan algoritme berdasarkan frekuensi kata daripada karakter. Algoritme ini bekerja lebih baik jika kumpulan karakter tertentu digunakan dalam satu atau sangat sedikit bahasa.

Algoritme ini mengalami beberapa kelemahan berikut -

  • Sulit untuk membedakan dua bahasa yang memiliki frekuensi karakter serupa.

  • Tidak ada alat atau algoritma khusus untuk secara khusus mengidentifikasi bahasa dengan bantuan (sebagai korpus) kumpulan karakter yang digunakan oleh banyak bahasa.

Algoritma N-gram

Kelemahan yang disebutkan di atas memunculkan pendekatan baru dalam menggunakan urutan karakter dengan panjang tertentu untuk membuat profil korpus. Urutan karakter seperti itu secara umum disebut N-gram, di mana N melambangkan panjang urutan karakter.

  • Algoritma N-gram adalah pendekatan yang efektif untuk deteksi bahasa, terutama dalam kasus bahasa Eropa seperti Inggris.

  • Algoritme ini berfungsi dengan baik dengan teks pendek.

  • Meskipun ada algoritme profil bahasa tingkat lanjut untuk mendeteksi beberapa bahasa dalam dokumen multibahasa yang memiliki fitur yang lebih menarik, Tika menggunakan algoritme 3-gram, karena cocok dalam sebagian besar situasi praktis.

Deteksi Bahasa di Tika

Di antara 184 bahasa standar yang distandarisasi oleh ISO 639-1, Tika dapat mendeteksi 18 bahasa. Deteksi bahasa di Tika dilakukan dengan menggunakangetLanguage() metode dari LanguageIdentifierkelas. Metode ini mengembalikan nama kode bahasa dalam format String. Diberikan di bawah ini adalah daftar dari 18 pasangan kode bahasa yang terdeteksi oleh Tika -

da — Denmark de — Jerman et — Estonia el — Yunani
en — Inggris es — Spanyol fi — Finlandia fr — Prancis
hu — Hongaria adalah — Islandia itu — Italia nl — Belanda
tidak — Norwegia pl — Polandia pt — Portugis ru — Rusia
sv — Swedia th — Thai

Saat membuat instance LanguageIdentifier kelas, Anda harus meneruskan format String dari konten yang akan diekstraksi, atau LanguageProfile objek kelas.

LanguageIdentifier object = new LanguageIdentifier(“this is english”);

Diberikan di bawah ini adalah contoh program untuk Deteksi bahasa di Tika.

import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.language.LanguageIdentifier;

import org.xml.sax.SAXException;

public class LanguageDetection {

   public static void main(String args[])throws IOException, SAXException, TikaException {

      LanguageIdentifier identifier = new LanguageIdentifier("this is english ");
      String language = identifier.getLanguage();
      System.out.println("Language of the given content is : " + language);
   }
}

Simpan kode di atas sebagai LanguageDetection.java dan jalankan dari command prompt menggunakan perintah berikut -

javac  LanguageDetection.java 
java  LanguageDetection

Jika Anda menjalankan program di atas, ia memberikan outpu− berikut

Language of the given content is : en

Deteksi Bahasa Dokumen

Untuk mendeteksi bahasa dokumen tertentu, Anda harus menguraikannya menggunakan metode parse (). Metode parse () mem-parsing konten dan menyimpannya di objek handler, yang diteruskan sebagai salah satu argumen. Meneruskan format String dari objek handler ke konstruktorLanguageIdentifier kelas seperti yang ditunjukkan di bawah ini -

parser.parse(inputstream, handler, metadata, context);
LanguageIdentifier object = new LanguageIdentifier(handler.toString());

Diberikan di bawah ini adalah program lengkap yang menunjukkan bagaimana mendeteksi bahasa dokumen yang diberikan -

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;
import org.apache.tika.language.*;

import org.xml.sax.SAXException;

public class DocumentLanguageDetection {

   public static void main(final String[] args) throws IOException, SAXException, TikaException {

      //Instantiating a file object
      File file = new File("Example.txt");

      //Parser method parameters
      Parser parser = new AutoDetectParser();
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream content = new FileInputStream(file);

      //Parsing the given document
      parser.parse(content, handler, metadata, new ParseContext());

      LanguageIdentifier object = new LanguageIdentifier(handler.toString());
      System.out.println("Language name :" + object.getLanguage());
   }
}

Simpan kode di atas sebagai SetMetadata.java dan jalankan dari command prompt -

javac  SetMetadata.java 
java  SetMetadata

Diberikan di bawah ini adalah konten Example.txt.

Hi students welcome to tutorialspoint

Jika Anda menjalankan program di atas, ini akan memberi Anda output berikut -

Language name :en

Bersama dengan toples Tika, Tika menyediakan aplikasi Graphical User Interface (GUI) dan aplikasi Command Line Interface (CLI). Anda juga dapat menjalankan aplikasi Tika dari command prompt seperti aplikasi Java lainnya.

Antarmuka Pengguna Grafis (GUI)

  • Tika menyediakan file jar beserta kode sumbernya di link berikut https://tika.apache.org/download.html.

  • Unduh kedua file, setel jalur kelas untuk file jar.

  • Ekstrak folder zip kode sumber, buka folder tika-app.

  • Di folder yang diekstrak di "tika-1.6 \ tika-app \ src \ main \ java \ org \ apache \ Tika \ gui" Anda akan melihat dua file kelas: ParsingTransferHandler.java dan TikaGUI.java.

  • Kompilasi kedua file kelas dan jalankan file kelas TikaGUI.java, ini akan membuka jendela berikut.

Sekarang mari kita lihat bagaimana menggunakan Tika GUI.

Pada GUI, klik buka, telusuri dan pilih file yang akan diekstrak, atau seret ke ruang putih jendela.

Tika mengekstrak konten file dan menampilkannya dalam lima format berbeda, yaitu. metadata, teks berformat, teks biasa, konten utama, dan teks terstruktur. Anda dapat memilih format apa pun yang Anda inginkan.

Dengan cara yang sama, Anda juga akan menemukan kelas CLI di folder “tika-1.6 \ tikaapp \ src \ main \ java \ org \ apache \ tika \ cli”.

Ilustrasi berikut menunjukkan apa yang bisa dilakukan Tika. Saat kami meletakkan gambar di GUI, Tika mengekstrak dan menampilkan metadatanya.

Diberikan di bawah ini adalah program untuk mengekstrak konten dan metadata dari PDF.

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.pdf.PDFParser;
import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class PdfParse {

   public static void main(final String[] args) throws IOException,TikaException {

      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(new File("Example.pdf"));
      ParseContext pcontext = new ParseContext();
      
      //parsing the document using PDF parser
      PDFParser pdfparser = new PDFParser(); 
      pdfparser.parse(inputstream, handler, metadata,pcontext);
      
      //getting the content of the document
      System.out.println("Contents of the PDF :" + handler.toString());
      
      //getting metadata of the document
      System.out.println("Metadata of the PDF:");
      String[] metadataNames = metadata.names();
      
      for(String name : metadataNames) {
         System.out.println(name+ " : " + metadata.get(name));
      }
   }
}

Simpan kode di atas sebagai PdfParse.java, dan kompilasi dari command prompt dengan menggunakan perintah berikut -

javac PdfParse.java
java PdfParse

Di bawah ini adalah snapshot dari example.pdf

PDF yang kami kirimkan memiliki properti berikut -

Setelah program dikompilasi, Anda akan mendapatkan output seperti gambar di bawah ini.

Output -

Contents of the PDF:

Apache Tika is a framework for content type detection and content extraction 
which was designed by Apache software foundation. It detects and extracts metadata 
and structured text content from different types of documents such as spreadsheets, 
text documents, images or PDFs including audio or video input formats to certain extent.

Metadata of the PDF:

dcterms:modified :     2014-09-28T12:31:16Z
meta:creation-date :     2014-09-28T12:31:16Z
meta:save-date :     2014-09-28T12:31:16Z
dc:creator :     Krishna Kasyap
pdf:PDFVersion :     1.5
Last-Modified :     2014-09-28T12:31:16Z
Author :     Krishna Kasyap
dcterms:created :     2014-09-28T12:31:16Z
date :     2014-09-28T12:31:16Z
modified :     2014-09-28T12:31:16Z
creator :     Krishna Kasyap
xmpTPg:NPages :     1
Creation-Date :     2014-09-28T12:31:16Z
pdf:encrypted :     false
meta:author :     Krishna Kasyap
created :     Sun Sep 28 05:31:16 PDT 2014
dc:format :     application/pdf; version = 1.5
producer :     Microsoft® Word 2013
Content-Type :     application/pdf
xmp:CreatorTool :     Microsoft® Word 2013
Last-Save-Date :     2014-09-28T12:31:16Z

Diberikan di bawah ini adalah program untuk mengekstrak konten dan metadata dari Open Office Document Format (ODF).

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.odf.OpenDocumentParser;
import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class OpenDocumentParse {

   public static void main(final String[] args) throws IOException,SAXException, TikaException {

      //detecting the file type
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(new File("example_open_document_presentation.odp"));
      ParseContext pcontext = new ParseContext();
      
      //Open Document Parser
      OpenDocumentParser openofficeparser = new OpenDocumentParser (); 
      openofficeparser.parse(inputstream, handler, metadata,pcontext); 
      System.out.println("Contents of the document:" + handler.toString());
      System.out.println("Metadata of the document:");
      String[] metadataNames = metadata.names();
      
      for(String name : metadataNames) {		        
         System.out.println(name + " :  " + metadata.get(name)); 
      }
   }
}

Simpan kode di atas sebagai OpenDocumentParse.java, dan kompilasi di command prompt dengan menggunakan perintah berikut -

javac OpenDocumentParse.java
java OpenDocumentParse

Diberikan di bawah ini adalah snapshot dari file example_open_document_presentation.odp.

Dokumen ini memiliki properti berikut -

Setelah program dikompilasi, Anda akan mendapatkan output berikut.

Output -

Contents of the document:

Apache Tika
Apache Tika is a framework for content type detection and content extraction which was designed 
by Apache software foundation. It detects and extracts metadata and structured text content from 
different types of documents such as spreadsheets, text documents, images or PDFs including audio 
or video input formats to certain extent. 

Metadata of the document:

editing-cycles:   4
meta:creation-date:   2009-04-16T11:32:32.86
dcterms:modified:   2014-09-28T07:46:13.03
meta:save-date:   2014-09-28T07:46:13.03
Last-Modified:   2014-09-28T07:46:13.03
dcterms:created:   2009-04-16T11:32:32.86
date:   2014-09-28T07:46:13.03
modified:   2014-09-28T07:46:13.03
nbObject:   36
Edit-Time:   PT32M6S
Creation-Date:   2009-04-16T11:32:32.86
Object-Count:   36
meta:object-count:   36
generator:   OpenOffice/4.1.0$Win32 OpenOffice.org_project/410m18$Build-9764
Content-Type:   application/vnd.oasis.opendocument.presentation
Last-Save-Date:   2014-09-28T07:46:13.03

Diberikan di bawah ini adalah program untuk mengekstrak konten dan metadata dari Dokumen Microsoft Office.

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.microsoft.ooxml.OOXMLParser;
import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class MSExcelParse {

   public static void main(final String[] args) throws IOException, TikaException {
      
      //detecting the file type
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(new File("example_msExcel.xlsx"));
      ParseContext pcontext = new ParseContext();
      
      //OOXml parser
      OOXMLParser  msofficeparser = new OOXMLParser (); 
      msofficeparser.parse(inputstream, handler, metadata,pcontext);
      System.out.println("Contents of the document:" + handler.toString());
      System.out.println("Metadata of the document:");
      String[] metadataNames = metadata.names();
      
      for(String name : metadataNames) {
         System.out.println(name + ": " + metadata.get(name));
      }
   }
}

Simpan kode di atas sebagai MSExelParse.java, dan kompilasi dari command prompt dengan menggunakan perintah berikut -

javac MSExcelParse.java
java MSExcelParse

Di sini kami memberikan contoh file Excel berikut.

File Excel yang diberikan memiliki properti berikut -

Setelah menjalankan program di atas, Anda akan mendapatkan output berikut.

Output -

Contents of the document:

Sheet1
Name	Age	Designation		Salary
Ramu	50	Manager			50,000
Raheem	40	Assistant manager	40,000
Robert	30	Superviser		30,000
sita	25	Clerk			25,000
sameer	25	Section in-charge	20,000

Metadata of the document:

meta:creation-date:    2006-09-16T00:00:00Z
dcterms:modified:    2014-09-28T15:18:41Z
meta:save-date:    2014-09-28T15:18:41Z
Application-Name:    Microsoft Excel
extended-properties:Company:    
dcterms:created:    2006-09-16T00:00:00Z
Last-Modified:    2014-09-28T15:18:41Z
Application-Version:    15.0300
date:    2014-09-28T15:18:41Z
publisher:    
modified:    2014-09-28T15:18:41Z
Creation-Date:    2006-09-16T00:00:00Z
extended-properties:AppVersion:    15.0300
protected:    false
dc:publisher:    
extended-properties:Application:    Microsoft Excel
Content-Type:    application/vnd.openxmlformats-officedocument.spreadsheetml.sheet
Last-Save-Date:    2014-09-28T15:18:41Z

Diberikan di bawah ini adalah program untuk mengekstrak konten dan metadata dari dokumen Teks -

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.sax.BodyContentHandler;
import org.apache.tika.parser.txt.TXTParser;

import org.xml.sax.SAXException;

public class TextParser {

   public static void main(final String[] args) throws IOException,SAXException, TikaException {

      //detecting the file type
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(new File("example.txt"));
      ParseContext pcontext=new ParseContext();
      
      //Text document parser
      TXTParser  TexTParser = new TXTParser();
      TexTParser.parse(inputstream, handler, metadata,pcontext);
      System.out.println("Contents of the document:" + handler.toString());
      System.out.println("Metadata of the document:");
      String[] metadataNames = metadata.names();
      
      for(String name : metadataNames) {
         System.out.println(name + " : " + metadata.get(name));
      }
   }
}

Simpan kode di atas sebagai TextParser.java, dan kompilasi dari command prompt dengan menggunakan perintah berikut -

javac TextParser.java
java TextParser

Diberikan di bawah ini adalah snapshot dari file sample.txt -

Dokumen teks memiliki properti berikut -

Jika Anda menjalankan program di atas, ini akan memberi Anda output berikut.

Output -

Contents of the document:

At tutorialspoint.com, we strive hard to provide quality tutorials for self-learning 
purpose in the domains of Academics, Information Technology, Management and Computer 
Programming Languages.
The endeavour started by Mohtashim, an AMU alumni, who is the founder and the managing 
director of Tutorials Point (I) Pvt. Ltd. He came up with the website tutorialspoint.com 
in year 2006 with the help of handpicked freelancers, with an array of tutorials for 
computer programming languages.

Metadata of the document:

Content-Encoding:   windows-1252
Content-Type:   text/plain; charset = windows-1252

Diberikan di bawah ini adalah program untuk mengekstrak konten dan metadata dari dokumen HTML.

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.html.HtmlParser;
import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class HtmlParse {

   public static void main(final String[] args) throws IOException,SAXException, TikaException {

      //detecting the file type
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(new File("example.html"));
      ParseContext pcontext = new ParseContext();
      
      //Html parser 
      HtmlParser htmlparser = new HtmlParser();
      htmlparser.parse(inputstream, handler, metadata,pcontext);
      System.out.println("Contents of the document:" + handler.toString());
      System.out.println("Metadata of the document:");
      String[] metadataNames = metadata.names();
      
      for(String name : metadataNames) {
         System.out.println(name + ":   " + metadata.get(name));  
      }
   }
}

Simpan kode di atas sebagai HtmlParse.java, dan kompilasi dari command prompt dengan menggunakan perintah berikut -

javac HtmlParse.java
java HtmlParse

Diberikan di bawah ini adalah snapshot dari file example.txt.

Dokumen HTML memiliki properti berikut-

Jika Anda menjalankan program di atas, ini akan memberi Anda output berikut.

Output -

Contents of the document:

	Name	                     Salary	    age
	Ramesh Raman	             50000	    20
	Shabbir Hussein	             70000          25
	Umesh Raman	             50000	    30
	Somesh	                     50000	    35

Metadata of the document:

title:   HTML Table Header
Content-Encoding:   windows-1252
Content-Type:   text/html; charset = windows-1252
dc:title:   HTML Table Header

Diberikan di bawah ini adalah program untuk mengekstrak konten dan metadata dari dokumen XML -

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.xml.XMLParser;
import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class XmlParse {

   public static void main(final String[] args) throws IOException,SAXException, TikaException {

      //detecting the file type
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(new File("pom.xml"));
      ParseContext pcontext = new ParseContext();
      
      //Xml parser
      XMLParser xmlparser = new XMLParser(); 
      xmlparser.parse(inputstream, handler, metadata, pcontext);
      System.out.println("Contents of the document:" + handler.toString());
      System.out.println("Metadata of the document:");
      String[] metadataNames = metadata.names();
      
      for(String name : metadataNames) {
         System.out.println(name + ": " + metadata.get(name));
      }
   }
}

Simpan kode di atas sebagai XmlParse.java, dan kompilasi dari command prompt dengan menggunakan perintah berikut -

javac XmlParse.java
java XmlParse

Diberikan di bawah ini adalah snapshot dari file example.xml

Dokumen ini memiliki properti berikut -

Jika Anda menjalankan program di atas, ini akan memberi Anda output berikut -

Output -

Contents of the document:
  
4.0.0
org.apache.tika
tika
1.6
org.apache.tika
tika-core
1.6
org.apache.tika
tika-parsers
1.6
src
maven-compiler-plugin
3.1
1.7
1.7

Metadata of the document:

Content-Type:   application/xml

Diberikan di bawah ini adalah program untuk mengekstrak konten dan metadata dari file .class.

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.asm.ClassParser;
import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class JavaClassParse {

   public static void main(final String[] args) throws IOException,SAXException, TikaException {

      //detecting the file type
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(new File("Example.class"));
      ParseContext pcontext = new ParseContext();

      //Html parser
      ClassParser  ClassParser = new  ClassParser();
      ClassParser.parse(inputstream, handler, metadata,pcontext);
      System.out.println("Contents of the document:" + handler.toString());
      System.out.println("Metadata of the document:");
      String[] metadataNames = metadata.names();
      
      for(String name : metadataNames) {		        
         System.out.println(name + " :  " + metadata.get(name));  
      }
   }
}

Simpan kode di atas sebagai JavaClassParse.java, dan kompilasi dari command prompt dengan menggunakan perintah berikut -

javac JavaClassParse.java
java JavaClassParse

Diberikan di bawah ini adalah snapshot dari Example.java yang akan menghasilkan Example.class setelah kompilasi.

Example.class file memiliki properti berikut -

Setelah menjalankan program di atas, Anda akan mendapatkan keluaran sebagai berikut.

Output -

Contents of the document:

package tutorialspoint.tika.examples;
public synchronized class Example {
   public void Example();
   public static void main(String[]);
}

Metadata of the document:

title: Example
resourceName: Example.class
dc:title: Example

Diberikan di bawah ini adalah program untuk mengekstrak konten dan metadata dari file Java Archive (jar) -

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.sax.BodyContentHandler;
import org.apache.tika.parser.pkg.PackageParser;

import org.xml.sax.SAXException;

public class PackageParse {

   public static void main(final String[] args) throws IOException,SAXException, TikaException {

      //detecting the file type
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(new File("Example.jar"));
      ParseContext pcontext = new ParseContext();
      
      //Package parser
      PackageParser packageparser = new PackageParser();
      packageparser.parse(inputstream, handler, metadata,pcontext);
      System.out.println("Contents of the document: " + handler.toString());
      System.out.println("Metadata of the document:");
      String[] metadataNames = metadata.names();
      
      for(String name : metadataNames) {
         System.out.println(name + ":   " + metadata.get(name));
      }
   }
}

Simpan kode di atas sebagai PackageParse.java, dan kompilasi dari command prompt dengan menggunakan perintah berikut -

javac PackageParse.java
java PackageParse

Diberikan di bawah ini adalah snapshot dari Example.java yang berada di dalam paket.

File jar memiliki properti berikut -

Setelah menjalankan program di atas, ini akan memberi Anda output berikut -

Output -

Contents of the document:

META-INF/MANIFEST.MF
tutorialspoint/tika/examples/Example.class

Metadata of the document:

Content-Type:   application/zip

Diberikan di bawah ini adalah program untuk mengekstrak konten dan meta data dari gambar JPEG.

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.jpeg.JpegParser;
import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class JpegParse {

   public static void main(final String[] args) throws IOException,SAXException, TikaException {

      //detecting the file type
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(new File("boy.jpg"));
      ParseContext pcontext = new ParseContext();
      
      //Jpeg Parse
      JpegParser  JpegParser = new JpegParser();
      JpegParser.parse(inputstream, handler, metadata,pcontext);
      System.out.println("Contents of the document:" + handler.toString());
      System.out.println("Metadata of the document:");
      String[] metadataNames = metadata.names();
      
      for(String name : metadataNames) { 		        
         System.out.println(name + ": " + metadata.get(name));
      }
   }
}

Simpan kode di atas sebagai JpegParse.java, dan kompilasi dari command prompt dengan menggunakan perintah berikut -

javac JpegParse.java
java JpegParse

Diberikan di bawah ini adalah snapshot dari Example.jpeg -

File JPEG memiliki properti berikut -

Setelah menjalankan program, Anda akan mendapatkan output berikut.

Output −

Contents of the document:

Meta data of the document:

Resolution Units: inch
Compression Type: Baseline
Data Precision: 8 bits
Number of Components: 3
tiff:ImageLength: 3000
Component 2: Cb component: Quantization table 1, Sampling factors 1 horiz/1 vert
Component 1: Y component: Quantization table 0, Sampling factors 2 horiz/2 vert
Image Height: 3000 pixels
X Resolution: 300 dots
Original Transmission Reference: 53616c7465645f5f2368da84ca932841b336ac1a49edb1a93fae938b8db2cb3ec9cc4dc28d7383f1
Image Width: 4000 pixels
IPTC-NAA record: 92 bytes binary data
Component 3: Cr component: Quantization table 1, Sampling factors 1 horiz/1 vert
tiff:BitsPerSample: 8
Application Record Version: 4
tiff:ImageWidth: 4000
Y Resolution: 300 dots

Diberikan di bawah ini adalah program untuk mengekstrak konten dan metadata dari file mp4 -

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.mp4.MP4Parser;
import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class Mp4Parse {

   public static void main(final String[] args) throws IOException,SAXException, TikaException {

      //detecting the file type
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(new File("example.mp4"));
      ParseContext pcontext = new ParseContext();
      
      //Html parser
      MP4Parser MP4Parser = new MP4Parser();
      MP4Parser.parse(inputstream, handler, metadata,pcontext);
      System.out.println("Contents of the document:  :" + handler.toString());
      System.out.println("Metadata of the document:");
      String[] metadataNames = metadata.names();
      
      for(String name : metadataNames) {
         System.out.println(name + ": " + metadata.get(name));
      }
   }  
}

Simpan kode di atas sebagai JpegParse.java, dan kompilasi dari command prompt dengan menggunakan perintah berikut -

javac Mp4Parse.java
java Mp4Parse

Diberikan di bawah ini adalah snapshot dari properti file Example.mp4.

Setelah menjalankan program di atas, Anda akan mendapatkan output berikut -

Output -

Contents of the document:

Metadata of the document:

dcterms:modified: 2014-01-06T12:10:27Z
meta:creation-date: 1904-01-01T00:00:00Z
meta:save-date: 2014-01-06T12:10:27Z
Last-Modified: 2014-01-06T12:10:27Z
dcterms:created: 1904-01-01T00:00:00Z
date: 2014-01-06T12:10:27Z
tiff:ImageLength: 360
modified: 2014-01-06T12:10:27Z
Creation-Date: 1904-01-01T00:00:00Z
tiff:ImageWidth: 640
Content-Type: video/mp4
Last-Save-Date: 2014-01-06T12:10:27Z

Diberikan di bawah ini adalah program untuk mengekstrak konten dan metadata dari file mp3 -

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.mp3.LyricsHandler;
import org.apache.tika.parser.mp3.Mp3Parser;
import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class Mp3Parse {

   public static void main(final String[] args) throws Exception, IOException, SAXException, TikaException {

      //detecting the file type
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(new File("example.mp3"));
      ParseContext pcontext = new ParseContext();
      
      //Mp3 parser
      Mp3Parser  Mp3Parser = new  Mp3Parser();
      Mp3Parser.parse(inputstream, handler, metadata, pcontext);
      LyricsHandler lyrics = new LyricsHandler(inputstream,handler);
      
      while(lyrics.hasLyrics()) {
    	  System.out.println(lyrics.toString());
      }
      
      System.out.println("Contents of the document:" + handler.toString());
      System.out.println("Metadata of the document:");
      String[] metadataNames = metadata.names();

      for(String name : metadataNames) {		        
    	  System.out.println(name + ": " + metadata.get(name));
      }
   }
}

Simpan kode di atas sebagai JpegParse.java, dan kompilasi dari command prompt dengan menggunakan perintah berikut -

javac Mp3Parse.java
java Mp3Parse

Contoh file.mp3 memiliki properti berikut -

Anda akan mendapatkan keluaran berikut setelah menjalankan program. Jika file yang diberikan memiliki lirik, aplikasi kita akan menangkap dan menampilkannya bersama dengan outputnya.

Output -

Contents of the document:

Kanulanu Thaake
Arijit Singh
Manam (2014), track 01/06
2014
Soundtrack
30171.65
eng - 
DRGM
Arijit Singh
Manam (2014), track 01/06
2014
Soundtrack
30171.65
eng - 
DRGM

Metadata of the document:

xmpDM:releaseDate: 2014
xmpDM:duration: 30171.650390625
xmpDM:audioChannelType: Stereo
dc:creator: Arijit Singh
xmpDM:album: Manam (2014)
Author: Arijit Singh
xmpDM:artist: Arijit Singh
channels: 2
xmpDM:audioSampleRate: 44100
xmpDM:logComment: eng - 
DRGM
xmpDM:trackNumber: 01/06
version: MPEG 3 Layer III Version 1
creator: Arijit Singh
xmpDM:composer: Music : Anoop Rubens | Lyrics : Vanamali
xmpDM:audioCompressor: MP3
title: Kanulanu Thaake
samplerate: 44100
meta:author: Arijit Singh
xmpDM:genre: Soundtrack
Content-Type: audio/mpeg
xmpDM:albumArtist: Manam (2014)
dc:title: Kanulanu Thaake