Gensim - Membuat Kamus

Di bab terakhir yang membahas tentang vektor dan model, Anda mendapat gambaran tentang kamus. Di sini, kita akan membahasnyaDictionary objek secara lebih detail.

Apa itu Kamus?

Sebelum mendalami konsep kamus, mari kita pahami beberapa konsep NLP sederhana -

  • Token - Token berarti 'kata'.

  • Document - Dokumen mengacu pada kalimat atau paragraf.

  • Corpus - Mengacu pada kumpulan dokumen sebagai sekantong kata (BoW).

Untuk semua dokumen, korpus selalu berisi id token setiap kata bersama dengan jumlah frekuensinya dalam dokumen.

Mari beralih ke konsep kamus di Gensim. Untuk mengerjakan dokumen teks, Gensim juga membutuhkan kata-kata, yaitu token untuk diubah menjadi id uniknya. Untuk mencapai ini, itu memberi kita fasilitasDictionary object, yang memetakan setiap kata ke id integer uniknya. Ini dilakukan dengan mengubah teks input ke daftar kata dan kemudian meneruskannya kecorpora.Dictionary() obyek.

Kebutuhan Kamus

Sekarang pertanyaan yang muncul adalah apa sebenarnya kebutuhan objek kamus dan di mana bisa digunakan? Dalam Gensim, objek kamus digunakan untuk membuat sekumpulan kata (BoW) corpus yang selanjutnya digunakan sebagai masukan untuk pemodelan topik dan model lainnya.

Bentuk Input Teks

Ada tiga bentuk teks masukan yang berbeda, kami dapat memberikan kepada Gensim -

  • Sebagai kalimat yang disimpan dalam objek daftar asli Python (dikenal sebagai str dengan Python 3)

  • Sebagai satu file teks tunggal (bisa kecil atau besar)

  • Beberapa file teks

Membuat Kamus Menggunakan Gensim

Seperti yang telah dibahas, di Gensim, kamus berisi pemetaan semua kata, alias token ke id integer uniknya. Kita dapat membuat kamus dari daftar kalimat, dari satu atau lebih file teks (file teks berisi banyak baris teks). Jadi, pertama-tama mari kita mulai dengan membuat kamus menggunakan daftar kalimat.

Dari Daftar Kalimat

Pada contoh berikut kita akan membuat kamus dari daftar kalimat. Ketika kami memiliki daftar kalimat atau Anda dapat mengatakan beberapa kalimat, kami harus mengubah setiap kalimat menjadi daftar kata dan pemahaman adalah salah satu cara yang paling umum untuk melakukan ini.

Contoh Implementasi

Pertama, impor paket yang diperlukan dan diperlukan sebagai berikut -

import gensim
from gensim import corpora
from pprint import pprint

Selanjutnya, buat daftar pemahaman dari daftar kalimat / dokumen untuk digunakan membuat kamus -

doc = [
   "CNTK formerly known as Computational Network Toolkit",
   "is a free easy-to-use open-source commercial-grade toolkit",
   "that enable us to train deep learning algorithms to learn like the human brain."
]

Selanjutnya, kita perlu membagi kalimat menjadi kata-kata. Ini disebut tokenisasi.

text_tokens = [[text for text in doc.split()] for doc in doc]

Sekarang, dengan bantuan skrip berikut, kita dapat membuat kamus -

dict_LoS = corpora.Dictionary(text_tokens)

Sekarang mari kita dapatkan lebih banyak informasi seperti jumlah token di kamus -

print(dict_LoS)

Keluaran

Dictionary(27 unique tokens: ['CNTK', 'Computational', 'Network', 'Toolkit', 'as']...)

Kita juga dapat melihat kata ke pemetaan integer unik sebagai berikut -

print(dict_LoS.token2id)

Keluaran

{
   'CNTK': 0, 'Computational': 1, 'Network': 2, 'Toolkit': 3, 'as': 4, 
   'formerly': 5, 'known': 6, 'a': 7, 'commercial-grade': 8, 'easy-to-use': 9,
   'free': 10, 'is': 11, 'open-source': 12, 'toolkit': 13, 'algorithms': 14,
   'brain.': 15, 'deep': 16, 'enable': 17, 'human': 18, 'learn': 19, 'learning': 20,
   'like': 21, 'that': 22, 'the': 23, 'to': 24, 'train': 25, 'us': 26
}

Contoh Implementasi Lengkap

import gensim
from gensim import corpora
from pprint import pprint
doc = [
   "CNTK formerly known as Computational Network Toolkit",
   "is a free easy-to-use open-source commercial-grade toolkit",
   "that enable us to train deep learning algorithms to learn like the human brain."
]
text_tokens = [[text for text in doc.split()] for doc in doc]
dict_LoS = corpora.Dictionary(text_tokens)
print(dict_LoS.token2id)

Dari File Teks Tunggal

Dalam contoh berikut kami akan membuat kamus dari satu file teks. Dengan cara yang sama, kita juga dapat membuat kamus dari lebih dari satu file teks (yaitu direktori file).

Untuk ini, kami telah menyimpan dokumen, yang digunakan dalam contoh sebelumnya, dalam file teks bernama doc.txt. Gensim akan membaca file baris demi baris dan memproses baris demi baris dengan menggunakansimple_preprocess. Dengan cara ini, tidak perlu memuat file lengkap di memori sekaligus.

Contoh Implementasi

Pertama, impor paket yang diperlukan dan diperlukan sebagai berikut -

import gensim
from gensim import corpora
from pprint import pprint
from gensim.utils import simple_preprocess
from smart_open import smart_open
import os

Baris kode berikutnya akan membuat kamus gensim dengan menggunakan file teks tunggal bernama doc.txt -

dict_STF = corpora.Dictionary(
   simple_preprocess(line, deacc =True) for line in open(‘doc.txt’, encoding=’utf-8’)
)

Sekarang mari kita dapatkan lebih banyak informasi seperti jumlah token di kamus -

print(dict_STF)

Keluaran

Dictionary(27 unique tokens: ['CNTK', 'Computational', 'Network', 'Toolkit', 'as']...)

Kita juga dapat melihat kata ke pemetaan integer unik sebagai berikut -

print(dict_STF.token2id)

Keluaran

{
   'CNTK': 0, 'Computational': 1, 'Network': 2, 'Toolkit': 3, 'as': 4, 
   'formerly': 5, 'known': 6, 'a': 7, 'commercial-grade': 8, 'easy-to-use': 9, 
   'free': 10, 'is': 11, 'open-source': 12, 'toolkit': 13, 'algorithms': 14, 
   'brain.': 15, 'deep': 16, 'enable': 17, 'human': 18, 'learn': 19, 
   'learning': 20, 'like': 21, 'that': 22, 'the': 23, 'to': 24, 'train': 25, 'us': 26
}

Contoh Implementasi Lengkap

import gensim
from gensim import corpora
from pprint import pprint
from gensim.utils import simple_preprocess
from smart_open import smart_open
import os
dict_STF = corpora.Dictionary(
   simple_preprocess(line, deacc =True) for line in open(‘doc.txt’, encoding=’utf-8’)
)
dict_STF = corpora.Dictionary(text_tokens)
print(dict_STF.token2id)

Dari Beberapa File Teks

Sekarang mari kita membuat kamus dari beberapa file, yaitu lebih dari satu file teks yang disimpan dalam direktori yang sama. Untuk contoh ini, kami telah membuat tiga file teks berbeda yaitufirst.txt, second.txt dan third.txtberisi tiga baris dari file teks (doc.txt), yang kami gunakan untuk contoh sebelumnya. Ketiga file teks ini disimpan di bawah direktori bernamaABC.

Contoh Implementasi

Untuk mengimplementasikan ini, kita perlu mendefinisikan kelas dengan metode yang dapat mengulangi ketiga file teks (Pertama, Kedua, dan Ketiga.txt) di direktori (ABC) dan menghasilkan daftar token kata yang diproses.

Mari tentukan kelas bernama Read_files memiliki metode bernama __iteration__ () sebagai berikut -

class Read_files(object):
   def __init__(self, directoryname):
      elf.directoryname = directoryname
   def __iter__(self):
      for fname in os.listdir(self.directoryname):
         for line in open(os.path.join(self.directoryname, fname), encoding='latin'):
   yield simple_preprocess(line)

Selanjutnya, kita perlu menyediakan jalur direktori sebagai berikut -

path = "ABC"

#provide the path as per your computer system where you saved the directory.

Langkah selanjutnya serupa seperti yang kita lakukan pada contoh sebelumnya. Baris kode berikutnya akan membuat direktori Gensim dengan menggunakan direktori yang memiliki tiga file teks -

dict_MUL = corpora.Dictionary(Read_files(path))

Keluaran

Dictionary(27 unique tokens: ['CNTK', 'Computational', 'Network', 'Toolkit', 'as']...)

Sekarang kita juga dapat melihat kata ke pemetaan integer unik sebagai berikut -

print(dict_MUL.token2id)

Keluaran

{
   'CNTK': 0, 'Computational': 1, 'Network': 2, 'Toolkit': 3, 'as': 4, 
   'formerly': 5, 'known': 6, 'a': 7, 'commercial-grade': 8, 'easy-to-use': 9, 
   'free': 10, 'is': 11, 'open-source': 12, 'toolkit': 13, 'algorithms': 14, 
   'brain.': 15, 'deep': 16, 'enable': 17, 'human': 18, 'learn': 19, 
   'learning': 20, 'like': 21, 'that': 22, 'the': 23, 'to': 24, 'train': 25, 'us': 26
}

Menyimpan dan Memuat Kamus Gensim

Gensim menghidupi asalnya sendiri save() metode untuk menyimpan kamus ke disk dan load() metode untuk memuat kembali kamus dari disk.

Misalnya, kita dapat menyimpan kamus dengan bantuan skrip berikut -

Gensim.corpora.dictionary.save(filename)

#provide the path where you want to save the dictionary.

Demikian pula, kita bisa memuat kamus yang disimpan dengan menggunakan metode load (). Skrip berikut dapat melakukan ini -

Gensim.corpora.dictionary.load(filename)

#provide the path where you have saved the dictionary.