Gensim - Membuat Matriks TF-IDF

Di sini, kita akan belajar membuat Matriks Term Frequency-Inverse Document Frequency (TF-IDF) dengan bantuan Gensim.

Apakah TF-IDF itu?

Ini adalah model Term Frequency-Inverse Document Frequency yang juga merupakan model bag-of-words. Ini berbeda dari korpus biasa karena menurunkan bobot token yaitu kata-kata yang sering muncul di seluruh dokumen. Selama inisialisasi, algoritma model tf-idf ini mengharapkan korpus pelatihan memiliki nilai integer (seperti model Bag-of-Words).

Kemudian setelah itu pada saat transformasi, dibutuhkan representasi vektor dan mengembalikan representasi vektor lainnya. Vektor keluaran akan memiliki dimensi yang sama tetapi nilai fitur langka (pada saat pelatihan) akan ditingkatkan. Ini pada dasarnya mengubah vektor bernilai integer menjadi vektor bernilai nyata.

Bagaimana Ini Dihitung?

Model TF-IDF menghitung tfidf dengan bantuan dua langkah sederhana berikut -

Langkah 1: Menggandakan komponen lokal dan global

Pada langkah pertama ini model akan mengalikan komponen lokal seperti TF (Term Frequency) dengan komponen global seperti IDF (Inverse Document Frequency).

Langkah 2: Normalisasikan Hasil

Setelah dilakukan perkalian, pada langkah selanjutnya model TFIDF akan menormalkan hasil ke satuan panjang.

Sebagai akibat dari dua langkah di atas, kata-kata yang sering terjadi di seluruh dokumen akan diturunkan bobotnya.

Bagaimana cara mendapatkan Bobot TF-IDF?

Di sini, kita akan menerapkan contoh untuk melihat bagaimana kita bisa mendapatkan bobot TF-IDF. Pada dasarnya, untuk mendapatkan bobot TF-IDF, pertama kita perlu melatih korpus dan kemudian menerapkan korpus tersebut di dalam model tfidf.

Latih Corpus

Seperti yang dikatakan di atas untuk mendapatkan TF-IDF, pertama-tama kita perlu melatih korpus kita. Pertama, kita perlu mengimpor semua paket yang diperlukan sebagai berikut -

import gensim
import pprint
from gensim import corpora
from gensim.utils import simple_preprocess

Sekarang berikan daftar yang berisi kalimat. Kami memiliki tiga kalimat dalam daftar kami -

doc_list = [
   "Hello, how are you?", "How do you do?", 
   "Hey what are you doing? yes you What are you doing?"
]

Selanjutnya lakukan tokenisasi pada kalimat sebagai berikut -

doc_tokenized = [simple_preprocess(doc) for doc in doc_list]

Buat objek dari corpora.Dictionary() sebagai berikut -

dictionary = corpora.Dictionary()

Sekarang teruskan kalimat token ini ke dictionary.doc2bow() objek sebagai berikut -

BoW_corpus = [dictionary.doc2bow(doc, allow_update=True) for doc in doc_tokenized]

Selanjutnya, kita akan mendapatkan kata id dan frekuensinya dalam dokumen kita.

for doc in BoW_corpus:
   print([[dictionary[id], freq] for id, freq in doc])

Keluaran

[['are', 1], ['hello', 1], ['how', 1], ['you', 1]]
[['how', 1], ['you', 1], ['do', 2]]
[['are', 2], ['you', 3], ['doing', 2], ['hey', 1], ['what', 2], ['yes', 1]]

Dengan cara ini kami telah melatih korpus kami (Bag-of-Word corpus).

Selanjutnya, kita perlu menerapkan korpus terlatih ini dalam model tfidf models.TfidfModel().

Impor pertama paket numpay -

import numpy as np

Sekarang menerapkan korpus terlatih kami (BoW_corpus) dalam tanda kurung siku models.TfidfModel()

tfidf = models.TfidfModel(BoW_corpus, smartirs='ntc')

Selanjutnya, kita akan mendapatkan kata id dan frekuensinya di corpus model tfidf kita -

for doc in tfidf[BoW_corpus]:
   print([[dictionary[id], np.around(freq,decomal=2)] for id, freq in doc])

Keluaran

[['are', 0.33], ['hello', 0.89], ['how', 0.33]]
[['how', 0.18], ['do', 0.98]]
[['are', 0.23], ['doing', 0.62], ['hey', 0.31], ['what', 0.62], ['yes', 0.31]]

[['are', 1], ['hello', 1], ['how', 1], ['you', 1]]
[['how', 1], ['you', 1], ['do', 2]]
[['are', 2], ['you', 3], ['doing', 2], ['hey', 1], ['what', 2], ['yes', 1]]

[['are', 0.33], ['hello', 0.89], ['how', 0.33]]
[['how', 0.18], ['do', 0.98]]
[['are', 0.23], ['doing', 0.62], ['hey', 0.31], ['what', 0.62], ['yes', 0.31]]

Dari keluaran di atas, kami melihat perbedaan frekuensi kata-kata dalam dokumen kami.

Contoh Implementasi Lengkap

import gensim
import pprint
from gensim import corpora
from gensim.utils import simple_preprocess
doc_list = [
   "Hello, how are you?", "How do you do?", 
   "Hey what are you doing? yes you What are you doing?"
]
doc_tokenized = [simple_preprocess(doc) for doc in doc_list]
dictionary = corpora.Dictionary()
BoW_corpus = [dictionary.doc2bow(doc, allow_update=True) for doc in doc_tokenized]
for doc in BoW_corpus:
   print([[dictionary[id], freq] for id, freq in doc])
import numpy as np
tfidf = models.TfidfModel(BoW_corpus, smartirs='ntc')
for doc in tfidf[BoW_corpus]:
   print([[dictionary[id], np.around(freq,decomal=2)] for id, freq in doc])

Perbedaan Bobot Kata

Seperti dibahas di atas, kata-kata yang akan muncul lebih sering dalam dokumen akan mendapatkan bobot yang lebih kecil. Mari kita pahami perbedaan bobot kata dari dua keluaran di atas. Kata‘are’terjadi dalam dua dokumen dan telah diberi bobot. Begitu pula dengan kata‘you’ muncul di semua dokumen dan dihapus seluruhnya.