NLP - Pencarian Informasi
Pengambilan informasi (IR) dapat didefinisikan sebagai program perangkat lunak yang berhubungan dengan organisasi, penyimpanan, pengambilan dan evaluasi informasi dari repositori dokumen terutama informasi tekstual. Sistem membantu pengguna dalam menemukan informasi yang mereka butuhkan tetapi tidak secara eksplisit mengembalikan jawaban dari pertanyaan. Ini menginformasikan keberadaan dan lokasi dokumen yang mungkin terdiri dari informasi yang diperlukan. Dokumen yang memenuhi kebutuhan pengguna disebut dokumen yang relevan. Sistem IR yang sempurna hanya akan mengambil dokumen yang relevan.
Dengan bantuan diagram berikut, kita dapat memahami proses pengambilan informasi (IR) -
Jelas dari diagram di atas bahwa pengguna yang membutuhkan informasi harus merumuskan permintaan dalam bentuk query dalam bahasa alami. Kemudian sistem IR akan merespon dengan mengambil output yang relevan, berupa dokumen, tentang informasi yang dibutuhkan.
Masalah Klasik dalam Sistem Information Retrieval (IR)
Tujuan utama penelitian IR adalah mengembangkan model untuk mengambil informasi dari repositori dokumen. Di sini, kita akan membahas masalah klasik bernamaad-hoc retrieval problem, terkait dengan sistem IR.
Dalam pengambilan ad-hoc, pengguna harus memasukkan kueri dalam bahasa alami yang menjelaskan informasi yang diperlukan. Kemudian sistem IR akan mengembalikan dokumen yang diperlukan terkait dengan informasi yang diinginkan. Misalnya, kita mencari sesuatu di Internet dan memberikan beberapa halaman persis yang relevan sesuai kebutuhan kita, tetapi mungkin ada beberapa halaman yang tidak relevan juga. Hal ini karena masalah pengambilan ad-hoc.
Aspek Pengambilan Ad-hoc
Berikut adalah beberapa aspek pengambilan ad-hoc yang dibahas dalam penelitian IR -
Bagaimana pengguna dengan bantuan umpan balik relevansi dapat meningkatkan formulasi asli dari sebuah kueri?
Bagaimana menerapkan penggabungan database, yaitu bagaimana hasil dari database teks yang berbeda dapat digabungkan menjadi satu kumpulan hasil?
Bagaimana cara menangani sebagian data yang rusak? Model mana yang cocok untuk hal yang sama?
Model Pengambilan Informasi (IR)
Secara matematis, model digunakan di banyak bidang ilmiah yang bertujuan untuk memahami beberapa fenomena di dunia nyata. Model pencarian informasi memprediksi dan menjelaskan apa yang akan ditemukan pengguna dalam relevansinya dengan kueri yang diberikan. Model IR pada dasarnya adalah pola yang mendefinisikan aspek prosedur pengambilan yang disebutkan di atas dan terdiri dari:
Model untuk dokumen.
Model untuk kueri.
Fungsi pencocokan yang membandingkan kueri dengan dokumen.
Secara matematis, model pengambilan terdiri dari -
D - Representasi untuk dokumen.
R - Representasi untuk pertanyaan.
F - Kerangka pemodelan untuk D, Q bersama dengan hubungan di antara mereka.
R (q,di)- Fungsi kesamaan yang memesan dokumen sehubungan dengan kueri. Ini juga disebut peringkat.
Jenis Model Information Retrieval (IR)
Model model informasi (IR) dapat diklasifikasikan ke dalam tiga model berikut -
Model IR Klasik
Ini adalah model IR yang paling sederhana dan mudah diimplementasikan. Model ini didasarkan pada pengetahuan matematika yang mudah dikenali dan dipahami dengan baik. Boolean, Vektor dan Probabilistik adalah tiga model IR klasik.
Model IR Non-Klasik
Ini sepenuhnya berlawanan dengan model IR klasik. Model IR semacam itu didasarkan pada prinsip selain kesamaan, probabilitas, operasi Boolean. Model logika informasi, model teori situasi dan model interaksi adalah contoh model IR non klasik.
Model IR Alternatif
Ini adalah peningkatan model IR klasik yang menggunakan beberapa teknik tertentu dari beberapa bidang lain. Model cluster, model fuzzy dan model latent semantic indexing (LSI) adalah contoh model IR alternatif.
Fitur desain sistem temu kembali informasi (IR)
Sekarang mari kita belajar tentang fitur desain sistem IR -
Indeks Terbalik
Struktur data primer dari sebagian besar sistem IR berbentuk indeks terbalik. Kita dapat mendefinisikan indeks terbalik sebagai struktur data yang mencantumkan, untuk setiap kata, semua dokumen yang memuatnya dan frekuensi kemunculan dalam dokumen. Ini memudahkan untuk mencari 'hits' dari kata kueri.
Hentikan Penghapusan Kata
Kata berhenti adalah kata-kata berfrekuensi tinggi yang dianggap tidak mungkin berguna untuk pencarian. Mereka memiliki bobot semantik yang lebih sedikit. Semua kata semacam itu ada dalam daftar yang disebut daftar berhenti. Misalnya, artikel "a", "an", "the" dan preposisi seperti "in", "of", "for", "at", dll. Adalah contoh kata berhenti. Ukuran indeks terbalik dapat dikurangi secara signifikan dengan daftar berhenti. Sesuai hukum Zipf, daftar berhenti yang mencakup beberapa lusin kata mengurangi ukuran indeks terbalik hampir setengahnya. Di sisi lain, terkadang penghapusan kata berhenti dapat menyebabkan penghapusan istilah yang berguna untuk pencarian. Misalnya, jika kita menghilangkan alfabet "A" dari "Vitamin A" maka itu tidak ada artinya.
Stemming
Stemming, bentuk sederhana dari analisis morfologi, adalah proses heuristik penggalian bentuk dasar kata dengan memotong ujung kata. Misalnya, kata tertawa, tertawa, tertawa akan berasal dari akar kata tertawa.
Di bagian selanjutnya, kami akan membahas tentang beberapa model IR yang penting dan berguna.
Model Boolean
Ini adalah model pengambilan informasi (IR) tertua. Model ini didasarkan pada teori himpunan dan aljabar Boolean, di mana dokumen adalah himpunan istilah dan kueri adalah ekspresi Boolean pada istilah. Model Boolean dapat didefinisikan sebagai -
D- Sekumpulan kata, yaitu istilah pengindeksan yang ada dalam dokumen. Di sini, setiap suku ada (1) atau tidak ada (0).
Q - Ekspresi Boolean, di mana istilah adalah istilah indeks dan operator adalah produk logika - AND, jumlah logis - ATAU dan perbedaan logis - BUKAN
F - Aljabar Boolean atas kumpulan istilah serta kumpulan dokumen
Jika kita berbicara tentang umpan balik relevansi, maka dalam model IR Boolean, prediksi Relevansi dapat didefinisikan sebagai berikut -
R - Dokumen diprediksi relevan dengan ekspresi kueri jika dan hanya jika memenuhi ekspresi kueri seperti -
((˅) ˄ ˄ ˜ ℎ)
Kami dapat menjelaskan model ini dengan istilah kueri sebagai definisi yang tidak ambigu dari sekumpulan dokumen.
Misalnya, istilah kueri “economic” mendefinisikan kumpulan dokumen yang diindeks dengan istilah “economic”.
Sekarang, apa hasil setelah menggabungkan suku-suku dengan Boolean AND Operator? Ini akan menentukan kumpulan dokumen yang lebih kecil dari atau sama dengan kumpulan dokumen dari salah satu istilah tunggal. Misalnya, kueri dengan istilah“social” dan “economic”akan menghasilkan kumpulan dokumen dari dokumen yang diindeks dengan kedua istilah tersebut. Dengan kata lain, kumpulan dokumen dengan perpotongan dari kedua kumpulan.
Sekarang, apa hasil setelah menggabungkan suku-suku dengan operator Boolean OR? Ini akan menentukan kumpulan dokumen yang lebih besar dari atau sama dengan kumpulan dokumen dari salah satu istilah tunggal. Misalnya, kueri dengan istilah“social” atau “economic” akan menghasilkan kumpulan dokumen dokumen yang diindeks dengan salah satu istilah tersebut “social” atau “economic”. Dengan kata lain, dokumen diatur dengan penyatuan kedua set.
Keuntungan dari Mode Boolean
Keuntungan dari model Boolean adalah sebagai berikut -
Model paling sederhana, yang didasarkan pada set.
Mudah dipahami dan diterapkan.
Ini hanya mengambil kecocokan persis
Ini memberi pengguna rasa kendali atas sistem.
Kekurangan Model Boolean
Kerugian dari model Boolean adalah sebagai berikut -
Fungsi kesamaan model adalah Boolean. Karenanya, tidak akan ada kecocokan parsial. Ini bisa mengganggu pengguna.
Dalam model ini, penggunaan operator Boolean memiliki pengaruh yang jauh lebih besar daripada kata kritis.
Bahasa kueri ekspresif, tetapi juga rumit.
Tidak ada peringkat untuk dokumen yang diambil.
Model Ruang Vektor
Karena kelemahan model Boolean di atas, Gerard Salton dan rekannya menyarankan model, yang didasarkan pada kriteria kesamaan Luhn. Kriteria kesamaan yang dirumuskan oleh Luhn menyatakan, "semakin banyak dua representasi yang disetujui dalam elemen tertentu dan distribusinya, semakin tinggi kemungkinan representasi informasi serupa."
Pertimbangkan poin penting berikut untuk memahami lebih lanjut tentang Model Ruang Vektor -
Representasi indeks (dokumen) dan kueri dianggap sebagai vektor yang disematkan dalam ruang Euclidean berdimensi tinggi.
Ukuran kesamaan dari vektor dokumen ke vektor query biasanya cosinus dari sudut di antara mereka.
Rumus Pengukuran Kesamaan Cosine
Cosine adalah produk titik yang dinormalisasi, yang dapat dihitung dengan bantuan rumus berikut -
$$Score \lgroup \vec{d} \vec{q} \rgroup= \frac{\sum_{k=1}^m d_{k}\:.q_{k}}{\sqrt{\sum_{k=1}^m\lgroup d_{k}\rgroup^2}\:.\sqrt{\sum_{k=1}^m}m\lgroup q_{k}\rgroup^2 }$$
$$Score \lgroup \vec{d} \vec{q}\rgroup =1\:when\:d =q $$
$$Score \lgroup \vec{d} \vec{q}\rgroup =0\:when\:d\:and\:q\:share\:no\:items$$
Representasi Ruang Vektor dengan Query dan Dokumen
Kueri dan dokumen diwakili oleh ruang vektor dua dimensi. Istilahnya adalahcar dan insurance. Ada satu kueri dan tiga dokumen dalam ruang vektor.
Dokumen peringkat teratas dalam menanggapi istilah mobil dan asuransi adalah dokumen tersebut d2 karena sudut antara q dan d2adalah yang terkecil. Alasan di balik ini adalah bahwa baik konsep mobil maupun asuransi menonjol di d 2 dan karenanya memiliki bobot yang tinggi. Di sisi lain,d1 dan d3 juga menyebutkan kedua istilah tersebut tetapi dalam setiap kasus, salah satunya bukan istilah yang sangat penting dalam dokumen.
Pembobotan Jangka
Bobot term berarti bobot pada istilah dalam ruang vektor. Semakin tinggi bobot suku, semakin besar dampak suku pada cosinus. Lebih banyak bobot harus diberikan ke istilah yang lebih penting dalam model. Sekarang pertanyaan yang muncul di sini adalah bagaimana kita bisa membuat model ini.
Salah satu cara untuk melakukannya adalah dengan menghitung kata-kata dalam dokumen sebagai bobot istilahnya. Namun, menurut Anda apakah itu akan menjadi metode yang efektif?
Metode lain, yang lebih efektif, adalah dengan menggunakan term frequency (tfij), document frequency (dfi) dan collection frequency (cfi).
Frekuensi Jangka (tf ij )
Ini dapat didefinisikan sebagai jumlah kemunculan wi di dj. Informasi yang ditangkap oleh term frekuensi adalah seberapa menonjol sebuah kata dalam dokumen yang diberikan atau dengan kata lain kita dapat mengatakan bahwa semakin tinggi term frekuensi, semakin banyak kata tersebut yang merupakan deskripsi yang baik dari isi dokumen tersebut.
Frekuensi Dokumen (df i )
Ini dapat didefinisikan sebagai jumlah total dokumen dalam koleksi tempat w i terjadi. Ini adalah indikator keinformatifan. Kata-kata yang difokuskan secara semantik akan muncul beberapa kali dalam dokumen tidak seperti kata-kata yang tidak fokus secara semantik.
Frekuensi Pengumpulan (cf i )
Ini dapat didefinisikan sebagai jumlah total kemunculan wi dalam koleksi.
Secara matematis, $df_{i}\leq cf_{i}\:and\:\sum_{j}tf_{ij} = cf_{i}$
Bentuk Pembobotan Frekuensi Dokumen
Sekarang mari kita belajar tentang berbagai bentuk pembobotan frekuensi dokumen. Formulir dijelaskan di bawah ini -
Faktor Frekuensi Jangka
Ini juga diklasifikasikan sebagai faktor frekuensi istilah, yang berarti jika istilah t sering muncul di dokumen lalu kueri yang berisi tharus mengambil dokumen itu. Kita bisa menggabungkan kataterm frequency (tfij) dan document frequency (dfi) menjadi satu bobot sebagai berikut -
$$weight \left ( i,j \right ) =\begin{cases}(1+log(tf_{ij}))log\frac{N}{df_{i}}\:if\:tf_{i,j}\:\geq1\\0 \:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\: if\:tf_{i,j}\:=0\end{cases}$$
Di sini N adalah jumlah dokumen.
Frekuensi Dokumen Terbalik (idf)
Ini adalah bentuk lain dari pembobotan frekuensi dokumen dan sering disebut pembobotan idf atau pembobotan frekuensi dokumen terbalik. Poin penting dari pembobotan idf adalah bahwa kelangkaan istilah di seluruh koleksi adalah ukuran kepentingan dan kepentingannya berbanding terbalik dengan frekuensi kemunculannya.
Secara matematis,
$$idf_{t} = log\left(1+\frac{N}{n_{t}}\right)$$
$$idf_{t} = log\left(\frac{N-n_{t}}{n_{t}}\right)$$
Sini,
N = dokumen dalam koleksi
n t = dokumen yang mengandung term t
Peningkatan Permintaan Pengguna
Tujuan utama dari sistem pengambilan informasi harus keakuratan - untuk menghasilkan dokumen yang relevan sesuai kebutuhan pengguna. Namun, pertanyaan yang muncul di sini adalah bagaimana kami dapat meningkatkan keluaran dengan meningkatkan gaya pembentukan kueri pengguna. Tentu saja, keluaran dari sistem IR apa pun bergantung pada kueri pengguna dan kueri yang diformat dengan baik akan menghasilkan hasil yang lebih akurat. Pengguna dapat meningkatkan permintaannya dengan bantuanrelevance feedback, aspek penting dari model IR apa pun.
Umpan Balik Relevansi
Umpan balik relevansi mengambil keluaran yang awalnya dikembalikan dari kueri yang diberikan. Output awal ini dapat digunakan untuk mengumpulkan informasi pengguna dan untuk mengetahui apakah output tersebut relevan untuk melakukan kueri baru atau tidak. Umpan balik dapat diklasifikasikan sebagai berikut -
Umpan Balik Eksplisit
Ini dapat didefinisikan sebagai umpan balik yang diperoleh dari penilai relevansi. Penilai ini juga akan menunjukkan relevansi dokumen yang diambil dari kueri. Untuk meningkatkan kinerja pengambilan kueri, informasi umpan balik relevansi perlu diinterpolasi dengan kueri asli.
Penilai atau pengguna lain sistem dapat menunjukkan relevansi secara eksplisit dengan menggunakan sistem relevansi berikut -
Binary relevance system - Sistem umpan balik relevansi ini menunjukkan bahwa dokumen relevan (1) atau tidak relevan (0) untuk kueri tertentu.
Graded relevance system- Sistem umpan balik relevansi bertingkat menunjukkan relevansi dokumen, untuk kueri tertentu, berdasarkan penilaian dengan menggunakan angka, huruf, atau deskripsi. Deskripsi bisa seperti "tidak relevan", "agak relevan", "sangat relevan", atau "relevan".
Umpan Balik Implisit
Itu adalah umpan balik yang disimpulkan dari perilaku pengguna. Perilaku tersebut mencakup durasi waktu yang dihabiskan pengguna untuk melihat dokumen, dokumen mana yang dipilih untuk dilihat dan mana yang tidak, penjelajahan halaman dan tindakan menggulir, dll. Salah satu contoh terbaik dari umpan balik implisit adalahdwell time, yang merupakan ukuran berapa banyak waktu yang dihabiskan pengguna untuk melihat halaman yang ditautkan dalam hasil penelusuran.
Umpan Balik Semu
Ini juga disebut Umpan balik buta. Ini memberikan metode untuk analisis lokal otomatis. Bagian manual dari umpan balik relevansi diotomatiskan dengan bantuan umpan balik relevansi semu sehingga pengguna mendapat peningkatan kinerja pengambilan tanpa interaksi yang diperpanjang. Keuntungan utama dari sistem umpan balik ini adalah tidak memerlukan penilai seperti dalam sistem umpan balik relevansi eksplisit.
Pertimbangkan langkah-langkah berikut untuk menerapkan umpan balik ini -
Step 1- Pertama, hasil yang dikembalikan oleh permintaan awal harus dianggap sebagai hasil yang relevan. Kisaran hasil yang relevan harus berada di 10-50 hasil teratas.
Step 2 - Sekarang, pilih 20-30 term teratas dari dokumen yang menggunakan bobot misalnya term frequency (tf) -inverse document frequency (idf).
Step 3- Tambahkan istilah ini ke kueri dan cocok dengan dokumen yang dikembalikan. Kemudian kembalikan dokumen yang paling relevan.