Part of Speech (PoS) Tagging
Pemberian tag adalah jenis klasifikasi yang dapat didefinisikan sebagai penetapan otomatis dari deskripsi ke token. Di sini deskriptor disebut tag, yang mungkin mewakili salah satu bagian-of-speech, informasi semantik, dan seterusnya.
Sekarang, jika kita berbicara tentang penandaan Part-of-Speech (PoS), maka itu dapat didefinisikan sebagai proses menetapkan salah satu bagian ucapan ke kata tertentu. Ini umumnya disebut penandaan POS. Dengan kata sederhana, kita dapat mengatakan bahwa penandaan POS adalah tugas memberi label pada setiap kata dalam kalimat dengan bagian ucapan yang sesuai. Kita sudah tahu bahwa parts of speech mencakup kata benda, kata kerja, kata keterangan, kata sifat, kata ganti, konjungsi, dan subkategorinya.
Sebagian besar penandaan POS berada di bawah penandaan Rule Base POS, penandaan POS Stochastic, dan penandaan berbasis Transformasi.
Pemberian Tag POS berbasis aturan
Salah satu teknik penandaan tertua adalah penandaan POS berbasis aturan. Pemberi tag berbasis aturan menggunakan kamus atau leksikon untuk mendapatkan kemungkinan tag untuk menandai setiap kata. Jika kata tersebut memiliki lebih dari satu kemungkinan tag, maka pemberi tag berbasis aturan menggunakan aturan yang ditulis tangan untuk mengidentifikasi tag yang benar. Disambiguasi juga dapat dilakukan dalam penandaan berbasis aturan dengan menganalisis fitur linguistik dari sebuah kata bersama dengan kata-kata sebelumnya dan kata-kata berikutnya. Misalnya, jika kata sebelumnya dari sebuah kata adalah artikel maka kata tersebut haruslah kata benda.
Seperti namanya, semua jenis informasi dalam penandaan POS berbasis aturan dikodekan dalam bentuk aturan. Aturan ini bisa berupa -
Aturan pola konteks
Atau, sebagai ekspresi Reguler yang dikompilasi menjadi automata keadaan-hingga, berpotongan dengan representasi kalimat yang ambigu secara leksikal.
Kami juga dapat memahami penandaan POS berbasis aturan dengan arsitektur dua tahapnya -
First stage - Pada tahap pertama, menggunakan kamus untuk menetapkan setiap kata daftar potensi part-of-speech.
Second stage - Pada tahap kedua, menggunakan daftar besar aturan disambiguasi tulisan tangan untuk mengurutkan daftar menjadi satu bagian ucapan untuk setiap kata.
Properti Penandaan POS Berbasis Aturan
Pemberi tag POS berbasis aturan memiliki properti berikut -
Pemberi tag ini adalah pemberi tag berdasarkan pengetahuan.
Aturan dalam penandaan POS berbasis aturan dibuat secara manual.
Informasi tersebut dikodekan dalam bentuk aturan.
Kami memiliki sejumlah aturan terbatas sekitar 1000.
Pemulusan dan pemodelan bahasa didefinisikan secara eksplisit dalam tagger berbasis aturan.
Stochastic POS Tagging
Teknik penandaan lainnya adalah Stochastic POS Tagging. Sekarang, pertanyaan yang muncul di sini adalah model mana yang bisa menjadi stokastik. Model yang menyertakan frekuensi atau probabilitas (statistik) bisa disebut stokastik. Sejumlah pendekatan berbeda untuk masalah penandaan part-of-speech dapat disebut sebagai penandaan stokastik.
Stochastic tagger paling sederhana menerapkan pendekatan berikut untuk penandaan POS -
Pendekatan Frekuensi Kata
Dalam pendekatan ini, stochastic taggers menguraikan kata-kata tersebut berdasarkan probabilitas bahwa sebuah kata muncul dengan tag tertentu. Kita juga dapat mengatakan bahwa tag yang paling sering ditemukan dengan kata di set pelatihan adalah tag yang ditetapkan ke instance kata yang ambigu. Masalah utama dengan pendekatan ini adalah mungkin menghasilkan urutan tag yang tidak dapat diterima.
Probabilitas Urutan Tag
Ini adalah pendekatan lain dari pemberian tag stokastik, di mana pemberi tag menghitung kemungkinan terjadinya urutan tag tertentu. Ini juga disebut pendekatan n-gram. Disebut demikian karena tag terbaik untuk kata tertentu ditentukan oleh probabilitas kemunculannya dengan n tag sebelumnya.
Sifat-sifat Stochastic POST Tagging
Stochastic POS taggers memiliki properti berikut -
Pemberian tag POS ini didasarkan pada kemungkinan terjadinya tag.
Ini membutuhkan korpus pelatihan
Tidak ada kemungkinan untuk kata-kata yang tidak ada dalam korpus.
Ini menggunakan korpus pengujian yang berbeda (selain korpus pelatihan).
Ini adalah penandaan POS paling sederhana karena ia memilih tag yang paling sering dikaitkan dengan sebuah kata dalam korpus pelatihan.
Penandaan Berbasis Transformasi
Penandaan berbasis transformasi juga disebut penandaan Brill. Ini adalah contoh dari pembelajaran berbasis transformasi (TBL), yang merupakan algoritma berbasis aturan untuk penandaan otomatis POS ke teks yang diberikan. TBL, memungkinkan kita memiliki pengetahuan linguistik dalam bentuk yang dapat dibaca, mengubah satu keadaan ke keadaan lain dengan menggunakan aturan transformasi.
Ini menarik inspirasi dari kedua tagger yang dijelaskan sebelumnya - berbasis aturan dan stokastik. Jika kita melihat kesamaan antara rule-based dan tranformation tagger, maka seperti rule-based, hal ini juga berdasarkan pada rules yang menentukan tag apa yang perlu diberikan ke kata apa. Di sisi lain, jika kita melihat kemiripan antara tagger stokastik dan transformasi maka seperti stokastik, itu adalah teknik pembelajaran mesin di mana aturan secara otomatis diinduksi dari data.
Cara Kerja Transformation Based Learning (TBL)
Untuk memahami cara kerja dan konsep tagger berbasis transformasi, kita perlu memahami cara kerja pembelajaran berbasis transformasi. Pertimbangkan langkah-langkah berikut untuk memahami cara kerja TBL -
Start with the solution - TBL biasanya dimulai dengan beberapa solusi untuk masalah dan bekerja dalam beberapa siklus.
Most beneficial transformation chosen - Dalam setiap siklus, TBL akan memilih transformasi yang paling menguntungkan.
Apply to the problem - Transformasi yang dipilih pada langkah terakhir akan diterapkan ke masalah.
Algoritme akan berhenti ketika transformasi yang dipilih pada langkah 2 tidak akan menambah nilai lebih atau tidak ada lagi transformasi untuk dipilih. Jenis pembelajaran seperti itu paling cocok untuk tugas klasifikasi.
Keuntungan Pembelajaran Berbasis Transformasi (TBL)
Keunggulan TBL adalah sebagai berikut -
Kami mempelajari sekumpulan kecil aturan sederhana dan aturan ini cukup untuk pemberian tag.
Pengembangan serta debugging sangat mudah di TBL karena aturan yang dipelajari mudah dipahami.
Kompleksitas dalam penandaan berkurang karena di TBL ada jalinan aturan yang dipelajari oleh mesin dan yang dibuat oleh manusia.
Pemberi tag berbasis transformasi jauh lebih cepat daripada penanda model Markov.
Kekurangan Pembelajaran Berbasis Transformasi (TBL)
Kerugian dari TBL adalah sebagai berikut -
Pembelajaran berbasis transformasi (TBL) tidak memberikan probabilitas tag.
Di TBL waktu pelatihannya sangat lama terutama pada perusahaan besar.
Penandaan POS Hidden Markov Model (HMM)
Sebelum mendalami penandaan POS HMM, kita harus memahami konsep Hidden Markov Model (HMM).
Model Markov Tersembunyi
Model HMM dapat didefinisikan sebagai model stokastik tertanam ganda, di mana proses stokastik yang mendasarinya tersembunyi. Proses stokastik tersembunyi ini hanya dapat diamati melalui sekumpulan proses stokastik lainnya yang menghasilkan urutan pengamatan.
Contoh
Misalnya, urutan percobaan melempar koin tersembunyi dilakukan dan kita hanya melihat urutan pengamatan yang terdiri dari kepala dan ekor. Detail proses yang sebenarnya - berapa banyak koin yang digunakan, urutan pemilihannya - disembunyikan dari kami. Dengan mengamati urutan head dan tails ini, kita dapat membangun beberapa HMM untuk menjelaskan urutannya. Berikut adalah salah satu bentuk Model Markov Tersembunyi untuk masalah ini -
Kami berasumsi bahwa ada dua negara bagian di HMM dan masing-masing negara bagian sesuai dengan pemilihan koin bias yang berbeda. Matriks berikut memberikan probabilitas transisi status -
$$ A = \ begin {bmatrix} a11 & a12 \\ a21 & a22 \ end {bmatrix} $$
Sini,
aij = probabilitas transisi dari satu keadaan ke keadaan lain dari i ke j.
a11 + a12= 1 dan a 21 + a 22 = 1
P1 = probabilitas kepala koin pertama, yaitu bias koin pertama.
P2 = probabilitas kepala koin kedua, yaitu bias koin kedua.
Kami juga dapat membuat model HMM dengan asumsi ada 3 koin atau lebih.
Dengan cara ini, kita dapat mengkarakterisasi HMM dengan elemen berikut -
N, banyaknya state dalam model (dalam contoh di atas N = 2, hanya dua state).
M, jumlah pengamatan berbeda yang dapat muncul dengan setiap status pada contoh di atas M = 2, yaitu, H atau T).
A, distribusi probabilitas transisi status - matriks A dalam contoh di atas.
P, distribusi probabilitas dari simbol yang dapat diamati di setiap status (dalam contoh kita P1 dan P2).
I, distribusi keadaan awal.
Penggunaan HMM untuk Penandaan POS
Proses penandaan POS adalah proses menemukan urutan tag yang paling mungkin menghasilkan urutan kata tertentu. Kita dapat memodelkan proses POS ini dengan menggunakan Hidden Markov Model (HMM), dimanatags adalah hidden states yang menghasilkan observable output, yaitu, words.
Secara matematis, dalam penandaan POS, kami selalu tertarik untuk menemukan urutan tag (C) yang memaksimalkan -
P (C|W)
Dimana,
C = C 1 , C 2 , C 3 ... C T
W = W 1 , W 2 , W 3 , W T
Di sisi lain, faktanya adalah kita membutuhkan banyak data statistik untuk memperkirakan secara wajar urutan semacam itu. Namun, untuk menyederhanakan masalah, kita dapat menerapkan beberapa transformasi matematis beserta beberapa asumsi.
Penggunaan HMM untuk melakukan penandaan POS adalah kasus khusus gangguan Bayesian. Oleh karena itu, kita akan mulai dengan mengulang masalah menggunakan aturan Bayes, yang mengatakan bahwa probabilitas bersyarat yang disebutkan di atas sama dengan -
(PROB (C1,..., CT) * PROB (W1,..., WT | C1,..., CT)) / PROB (W1,..., WT)
Kita dapat menghilangkan penyebut dalam semua kasus ini karena kita tertarik untuk menemukan barisan C yang memaksimalkan nilai di atas. Ini tidak akan mempengaruhi jawaban kita. Sekarang, masalah kita berkurang menjadi menemukan urutan C yang memaksimalkan -
PROB (C1,..., CT) * PROB (W1,..., WT | C1,..., CT) (1)
Bahkan setelah mengurangi masalah pada ekspresi di atas, itu akan membutuhkan data dalam jumlah besar. Kita dapat membuat asumsi independensi yang masuk akal tentang dua kemungkinan dalam ekspresi di atas untuk mengatasi masalah tersebut.
Asumsi Pertama
Probabilitas suatu tag tergantung pada tag sebelumnya (model bigram) atau dua sebelumnya (model trigram) atau tag n sebelumnya (model n-gram) yang secara matematis dapat dijelaskan sebagai berikut -
PROB (C1,..., CT) = Πi=1..T PROB (Ci|Ci-n+1…Ci-1) (n-gram model)
PROB (C1,..., CT) = Πi=1..T PROB (Ci|Ci-1) (bigram model)
Awal kalimat dapat dihitung dengan mengasumsikan probabilitas awal untuk setiap tag.
PROB (C1|C0) = PROB initial (C1)
Asumsi Kedua
Probabilitas kedua dalam persamaan (1) di atas dapat didekati dengan asumsi bahwa sebuah kata muncul dalam kategori yang tidak bergantung pada kata-kata dalam kategori sebelumnya atau selanjutnya yang dapat dijelaskan secara matematis sebagai berikut -
PROB (W1,..., WT | C1,..., CT) = Πi=1..T PROB (Wi|Ci)
Sekarang, berdasarkan dua asumsi di atas, tujuan kita berkurang menjadi menemukan urutan C yang memaksimalkan
Πi=1...T PROB(Ci|Ci-1) * PROB(Wi|Ci)
Sekarang pertanyaan yang muncul di sini adalah mengubah masalah ke bentuk di atas sangat membantu kami. Jawabannya adalah - ya, benar. Jika kita memiliki korpus bertanda besar, maka dua probabilitas dalam rumus di atas dapat dihitung sebagai -
PROB (Ci=VERB|Ci-1=NOUN) = (# of instances where Verb follows Noun) / (# of instances where Noun appears) (2)
PROB (Wi|Ci) = (# of instances where Wi appears in Ci) /(# of instances where Ci appears) (3)