TIKA - Deteksi Bahasa
Perlunya Deteksi Bahasa
Untuk pengklasifikasian dokumen berdasarkan bahasa penulisannya di website multibahasa, diperlukan alat pendeteksi bahasa. Alat ini harus menerima dokumen tanpa anotasi bahasa (metadata) dan menambahkan informasi tersebut dalam metadata dokumen dengan mendeteksi bahasanya.
Algoritma untuk Profiling Corpus
Apa itu Corpus?
Untuk mendeteksi bahasa dokumen, profil bahasa dibuat dan dibandingkan dengan profil bahasa yang diketahui. Kumpulan teks dari bahasa yang dikenal ini dikenal sebagai acorpus.
Korpus adalah kumpulan teks bahasa tertulis yang menjelaskan bagaimana bahasa tersebut digunakan dalam situasi nyata.
Korpus dikembangkan dari buku, transkrip, dan sumber data lain seperti Internet. Akurasi korpus tergantung pada algoritma profil yang kita gunakan untuk membingkai korpus.
Apa itu Algoritma Profil?
Cara umum untuk mendeteksi bahasa adalah dengan menggunakan kamus. Kata-kata yang digunakan dalam suatu teks akan dicocokkan dengan kata-kata yang ada di kamus.
Daftar kata-kata umum yang digunakan dalam suatu bahasa akan menjadi korpus yang paling sederhana dan efektif untuk mendeteksi bahasa tertentu, misalnya artikel a, an, the dalam Bahasa Inggris.
Menggunakan Kumpulan Kata sebagai Corpus
Menggunakan kumpulan kata, algoritme sederhana dibuat untuk mencari jarak antara dua corpora, yang akan sama dengan jumlah perbedaan antara frekuensi kata yang cocok.
Algoritme semacam itu mengalami masalah berikut -
Karena frekuensi pencocokan kata sangat sedikit, algoritme tidak dapat bekerja secara efisien dengan teks kecil yang memiliki sedikit kalimat. Ini membutuhkan banyak teks untuk kecocokan yang akurat.
Itu tidak dapat mendeteksi batas kata untuk bahasa yang memiliki kalimat majemuk, dan yang tidak memiliki pemisah kata seperti spasi atau tanda baca.
Karena kesulitan ini dalam menggunakan kumpulan kata sebagai korpus, karakter individu atau kelompok karakter dipertimbangkan.
Menggunakan Kumpulan Karakter sebagai Corpus
Karena karakter yang umum digunakan dalam suatu bahasa jumlahnya terbatas, maka mudah untuk menerapkan algoritme berdasarkan frekuensi kata daripada karakter. Algoritme ini bekerja lebih baik jika kumpulan karakter tertentu digunakan dalam satu atau sangat sedikit bahasa.
Algoritme ini mengalami beberapa kelemahan berikut -
Sulit untuk membedakan dua bahasa yang memiliki frekuensi karakter serupa.
Tidak ada alat atau algoritma khusus untuk secara khusus mengidentifikasi bahasa dengan bantuan (sebagai korpus) kumpulan karakter yang digunakan oleh banyak bahasa.
Algoritma N-gram
Kelemahan yang disebutkan di atas memunculkan pendekatan baru dalam menggunakan urutan karakter dengan panjang tertentu untuk membuat profil korpus. Urutan karakter seperti itu secara umum disebut N-gram, di mana N mewakili panjang urutan karakter.
Algoritma N-gram adalah pendekatan yang efektif untuk deteksi bahasa, terutama dalam kasus bahasa Eropa seperti Inggris.
Algoritme ini berfungsi dengan baik dengan teks pendek.
Meskipun ada algoritme profil bahasa tingkat lanjut untuk mendeteksi beberapa bahasa dalam dokumen multibahasa yang memiliki fitur yang lebih menarik, Tika menggunakan algoritme 3-gram, karena cocok dalam sebagian besar situasi praktis.
Deteksi Bahasa di Tika
Di antara 184 bahasa standar yang distandarisasi oleh ISO 639-1, Tika dapat mendeteksi 18 bahasa. Deteksi bahasa di Tika dilakukan dengan menggunakangetLanguage() metode dari LanguageIdentifierkelas. Metode ini mengembalikan nama kode bahasa dalam format String. Diberikan di bawah ini adalah daftar dari 18 pasangan kode bahasa yang terdeteksi oleh Tika -
da — Denmark | de — Jerman | et — Estonia | el — Yunani |
en — Inggris | es — Spanyol | fi — Finlandia | fr — Prancis |
hu — Hongaria | adalah — Islandia | itu — Italia | nl — Belanda |
tidak — Norwegia | pl — Polandia | pt — Portugis | ru — Rusia |
sv — Swedia | th — Thai |
Saat membuat instance LanguageIdentifier kelas, Anda harus meneruskan format String dari konten yang akan diekstraksi, atau LanguageProfile objek kelas.
LanguageIdentifier object = new LanguageIdentifier(“this is english”);
Diberikan di bawah ini adalah contoh program untuk Deteksi bahasa di Tika.
import java.io.IOException;
import org.apache.tika.exception.TikaException;
import org.apache.tika.language.LanguageIdentifier;
import org.xml.sax.SAXException;
public class LanguageDetection {
public static void main(String args[])throws IOException, SAXException, TikaException {
LanguageIdentifier identifier = new LanguageIdentifier("this is english ");
String language = identifier.getLanguage();
System.out.println("Language of the given content is : " + language);
}
}
Simpan kode di atas sebagai LanguageDetection.java dan jalankan dari command prompt menggunakan perintah berikut -
javac LanguageDetection.java
java LanguageDetection
Jika Anda menjalankan program di atas, ia akan memberikan outpu− berikut
Language of the given content is : en
Deteksi Bahasa Dokumen
Untuk mendeteksi bahasa dokumen tertentu, Anda harus menguraikannya menggunakan metode parse (). Metode parse () mengurai konten dan menyimpannya di objek handler, yang diteruskan ke sana sebagai salah satu argumen. Meneruskan format String dari objek handler ke konstruktorLanguageIdentifier kelas seperti yang ditunjukkan di bawah ini -
parser.parse(inputstream, handler, metadata, context);
LanguageIdentifier object = new LanguageIdentifier(handler.toString());
Diberikan di bawah ini adalah program lengkap yang menunjukkan bagaimana mendeteksi bahasa dokumen yang diberikan -
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;
import org.apache.tika.language.*;
import org.xml.sax.SAXException;
public class DocumentLanguageDetection {
public static void main(final String[] args) throws IOException, SAXException, TikaException {
//Instantiating a file object
File file = new File("Example.txt");
//Parser method parameters
Parser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream content = new FileInputStream(file);
//Parsing the given document
parser.parse(content, handler, metadata, new ParseContext());
LanguageIdentifier object = new LanguageIdentifier(handler.toString());
System.out.println("Language name :" + object.getLanguage());
}
}
Simpan kode di atas sebagai SetMetadata.java dan jalankan dari command prompt -
javac SetMetadata.java
java SetMetadata
Diberikan di bawah ini adalah konten Example.txt.
Hi students welcome to tutorialspoint
Jika Anda menjalankan program di atas, ini akan memberi Anda output berikut -
Language name :en
Bersama dengan toples Tika, Tika menyediakan aplikasi Graphical User Interface (GUI) dan aplikasi Command Line Interface (CLI). Anda juga dapat menjalankan aplikasi Tika dari command prompt seperti aplikasi Java lainnya.