NLP - Disambiguasi Rasa Kata

Kami memahami bahwa kata-kata memiliki arti yang berbeda berdasarkan konteks penggunaannya dalam kalimat. Jika kita berbicara tentang bahasa manusia, maka mereka juga ambigu karena banyak kata dapat diinterpretasikan dengan berbagai cara tergantung pada konteks kemunculannya.

Disambiguasi pengertian kata, dalam pemrosesan bahasa alami (NLP), dapat didefinisikan sebagai kemampuan untuk menentukan arti kata mana yang diaktifkan dengan penggunaan kata dalam konteks tertentu. Ambiguitas leksikal, sintaksis atau semantik, adalah salah satu masalah pertama yang dihadapi setiap sistem NLP. Pemberi tag Part-of-speech (POS) dengan tingkat akurasi yang tinggi dapat memecahkan ambiguitas sintaksis Word. Di sisi lain, penyelesaian ambiguitas semantik disebut WSD (word sense disambiguation). Menyelesaikan ambiguitas semantik lebih sulit daripada menyelesaikan ambiguitas sintaksis.

Misalnya, perhatikan dua contoh arti berbeda yang ada untuk kata tersebut “bass” -

  • Saya bisa mendengar suara bass.

  • Dia suka makan bass panggang.

Terjadinya kata bassdengan jelas menunjukkan arti yang berbeda. Dalam kalimat pertama, artinyafrequency dan kedua, artinya fish. Oleh karena itu, jika disambigasikan oleh WSD maka makna yang benar untuk kalimat di atas dapat diberikan sebagai berikut -

  • Saya bisa mendengar suara bass / frekuensi.

  • Dia suka makan bass / ikan bakar.

Evaluasi WSD

Evaluasi WSD membutuhkan dua masukan berikut -

Sebuah kamus

Masukan pertama untuk evaluasi WSD adalah kamus, yang digunakan untuk menentukan indera yang akan disambigasikan.

Uji Corpus

Input lain yang dibutuhkan oleh WSD adalah korpus tes beranotasi tinggi yang memiliki target atau indra yang benar. Korpora uji dapat terdiri dari dua jenis & minsu;

  • Lexical sample - Corpora jenis ini digunakan dalam sistem, di mana diperlukan untuk menghilangkan sedikit contoh kata.

  • All-words - Corpora semacam ini digunakan dalam sistem, yang diharapkan dapat menghilangkan ambiguitas semua kata dalam sebuah running text.

Pendekatan dan Metode untuk Word Sense Disambiguation (WSD)

Pendekatan dan metode WSD diklasifikasikan menurut sumber pengetahuan yang digunakan dalam disambiguasi kata.

Sekarang mari kita lihat empat metode konvensional untuk WSD -

Metode Berbasis Kamus atau Pengetahuan

Seperti namanya, untuk disambiguasi, metode ini terutama mengandalkan kamus, harta karun, dan basis pengetahuan leksikal. Mereka tidak menggunakan bukti corpora untuk disambiguasi. Metode Lesk adalah metode berbasis kamus mani yang diperkenalkan oleh Michael Lesk pada tahun 1986. Definisi Lesk, yang menjadi dasar algoritma Lesk adalah“measure overlap between sense definitions for all words in context”. Namun, pada tahun 2000, Kilgarriff dan Rosensweig memberikan definisi Lesk yang disederhanakan sebagai“measure overlap between sense definitions of word and current context”, yang selanjutnya berarti mengidentifikasi arti yang benar untuk satu kata pada satu waktu. Di sini konteks saat ini adalah sekumpulan kata dalam kalimat atau paragraf sekitarnya.

Metode yang Diawasi

Untuk menghilangkan keraguan, metode pembelajaran mesin menggunakan corpora beranotasi pengertian untuk dilatih. Metode-metode ini mengasumsikan bahwa konteks dapat memberikan cukup bukti dengan sendirinya untuk menghilangkan pengertiannya. Dalam metode ini, kata-kata pengetahuan dan nalar dianggap tidak perlu. Konteks direpresentasikan sebagai sekumpulan "fitur" dari kata-kata. Ini termasuk informasi tentang kata-kata di sekitarnya juga. Mendukung mesin vektor dan pembelajaran berbasis memori adalah pendekatan pembelajaran terawasi yang paling berhasil untuk WSD. Metode ini mengandalkan sejumlah besar korpora yang diberi tag indra secara manual, yang pembuatannya sangat mahal.

Metode Semi-supervisi

Karena kurangnya korpus pelatihan, sebagian besar algoritma disambiguasi arti kata menggunakan metode pembelajaran semi-supervised. Itu karena metode semi-supervised menggunakan data berlabel maupun tidak berlabel. Metode ini membutuhkan teks beranotasi dalam jumlah yang sangat kecil dan teks polos tanpa anotasi dalam jumlah besar. Teknik yang digunakan metode semisupervised adalah bootstrap dari data seed.

Metode Tanpa Pengawasan

Metode ini mengasumsikan bahwa indra yang serupa terjadi dalam konteks yang serupa. Itulah mengapa indra dapat diinduksi dari teks dengan mengelompokkan kemunculan kata dengan menggunakan beberapa ukuran kesamaan konteks. Tugas ini disebut induksi atau diskriminasi pengertian kata. Metode tanpa pengawasan memiliki potensi besar untuk mengatasi kemacetan akuisisi pengetahuan karena tidak bergantung pada upaya manual.

Aplikasi Word Sense Disambiguation (WSD)

Word sense disambiguation (WSD) diterapkan di hampir setiap aplikasi teknologi bahasa.

Sekarang mari kita lihat cakupan WSD -

Mesin penerjemah

Terjemahan mesin atau MT adalah aplikasi WSD yang paling jelas. Di MT, pilihan leksikal untuk kata-kata yang memiliki terjemahan berbeda untuk pengertian yang berbeda, dilakukan oleh WSD. Indra di MT direpresentasikan sebagai kata-kata dalam bahasa target. Sebagian besar sistem terjemahan mesin tidak menggunakan modul WSD eksplisit.

Pengambilan Informasi (IR)

Pengambilan informasi (IR) dapat didefinisikan sebagai program perangkat lunak yang berhubungan dengan organisasi, penyimpanan, pengambilan dan evaluasi informasi dari repositori dokumen terutama informasi tekstual. Sistem pada dasarnya membantu pengguna dalam menemukan informasi yang mereka butuhkan tetapi tidak secara eksplisit mengembalikan jawaban dari pertanyaan. WSD digunakan untuk menyelesaikan ambiguitas kueri yang diberikan ke sistem IR. Seperti halnya MT, sistem IR saat ini tidak secara eksplisit menggunakan modul WSD dan mereka bergantung pada konsep bahwa pengguna akan mengetik konteks yang cukup dalam kueri untuk hanya mengambil dokumen yang relevan.

Penambangan Teks dan Ekstraksi Informasi (IE)

Di sebagian besar aplikasi, WSD diperlukan untuk melakukan analisis teks yang akurat. Misalnya, WSD membantu sistem pengumpulan cerdas untuk menandai kata-kata yang benar. Misalnya, sistem intelijen medis mungkin perlu menandai "obat-obatan terlarang" daripada "obat-obatan medis"

Leksikografi

WSD dan leksikografi dapat bekerja sama dalam satu lingkaran karena leksikografi modern berbasis korpus. Dengan leksikografi, WSD memberikan pengelompokan pengertian empiris yang kasar serta indikator kontekstual yang signifikan secara statistik.

Kesulitan dalam Word Sense Disambiguation (WSD)

Berikut adalah beberapa kesulitan yang dihadapi oleh word sense disambiguation (WSD) -

Perbedaan antar kamus

Masalah utama dari WSD adalah menentukan arti kata tersebut karena pengertian yang berbeda bisa sangat erat kaitannya. Bahkan kamus dan tesaurus yang berbeda dapat memberikan pembagian kata yang berbeda ke dalam pengertian.

Algoritme berbeda untuk aplikasi berbeda

Masalah lain dari WSD adalah bahwa algoritma yang sama sekali berbeda mungkin diperlukan untuk aplikasi yang berbeda. Misalnya, dalam terjemahan mesin, ia mengambil bentuk pemilihan kata target; dan dalam pencarian informasi, inventaris pengertian tidak diperlukan.

Varians antar juri

Masalah lain dari WSD adalah bahwa sistem WSD umumnya diuji dengan mendapatkan hasil pada suatu tugas dibandingkan dengan tugas manusia. Ini disebut masalah varians interjudge.

Kebijaksanaan pengertian kata

Kesulitan lain dalam WSD adalah kata-kata tidak dapat dengan mudah dibagi menjadi sub-arti tersendiri.