AI dengan Python - Paket NLTK
Dalam bab ini, kita akan belajar bagaimana memulai dengan Paket Perangkat Bahasa Alami.
Prasyarat
Jika kita ingin membangun aplikasi dengan pemrosesan Natural Language maka perubahan konteks membuatnya menjadi yang paling sulit. Faktor konteks memengaruhi cara mesin memahami kalimat tertentu. Oleh karena itu, kita perlu mengembangkan aplikasi bahasa Natural dengan menggunakan pendekatan pembelajaran mesin sehingga mesin juga dapat memahami cara manusia memahami konteksnya.
Untuk membangun aplikasi seperti itu kita akan menggunakan paket Python yang disebut NLTK (Paket Alat Bahasa Alami).
Mengimpor NLTK
Kita perlu menginstal NLTK sebelum menggunakannya. Itu dapat diinstal dengan bantuan perintah berikut -
pip install nltk
Untuk membuat paket conda untuk NLTK, gunakan perintah berikut -
conda install -c anaconda nltk
Sekarang setelah menginstal paket NLTK, kita perlu mengimpornya melalui command prompt python. Kita dapat mengimpornya dengan menulis perintah berikut pada command prompt Python -
>>> import nltk
Mendownload Data NLTK
Sekarang setelah mengimpor NLTK, kita perlu mengunduh data yang diperlukan. Itu dapat dilakukan dengan bantuan perintah berikut pada prompt perintah Python -
>>> nltk.download()
Menginstal Paket Lain yang Diperlukan
Untuk membangun aplikasi pemrosesan bahasa alami dengan menggunakan NLTK, kita perlu menginstal paket yang diperlukan. Paketnya adalah sebagai berikut -
gensim
Ini adalah pustaka pemodelan semantik yang kuat yang berguna untuk banyak aplikasi. Kita dapat menginstalnya dengan menjalankan perintah berikut -
pip install gensim
pola
Itu digunakan untuk membuat gensimpaket bekerja dengan baik. Kita dapat menginstalnya dengan menjalankan perintah berikut
pip install pattern
Konsep Tokenisasi, Stemming, dan Lemmatization
Pada bagian ini, kita akan memahami apa itu tokenisasi, stemming, dan lemmatisasi.
Tokenisasi
Ini dapat didefinisikan sebagai proses pemecahan teks yang diberikan yaitu urutan karakter menjadi unit yang lebih kecil yang disebut token. Token tersebut bisa berupa kata, angka atau tanda baca. Ini juga disebut segmentasi kata. Berikut adalah contoh sederhana dari tokenisasi -
Input - Mangga, pisang, nanas dan apel semuanya adalah buah-buahan.
Output -
Proses pemecahan teks yang diberikan dapat dilakukan dengan bantuan menemukan batas kata. Akhir kata dan awal kata baru disebut batas kata. Sistem penulisan dan struktur tipografi kata-kata mempengaruhi batasan.
Dalam modul Python NLTK, kami memiliki paket berbeda yang terkait dengan tokenisasi yang dapat kami gunakan untuk membagi teks menjadi token sesuai kebutuhan kami. Beberapa paket tersebut adalah sebagai berikut -
paket sent_tokenize
Seperti namanya, paket ini akan membagi teks masukan menjadi beberapa kalimat. Kami dapat mengimpor paket ini dengan bantuan kode Python berikut -
from nltk.tokenize import sent_tokenize
paket word_tokenize
Paket ini membagi teks masukan menjadi kata-kata. Kami dapat mengimpor paket ini dengan bantuan kode Python berikut -
from nltk.tokenize import word_tokenize
Paket WordPunctTokenizer
Paket ini membagi teks masukan menjadi kata-kata serta tanda baca. Kami dapat mengimpor paket ini dengan bantuan kode Python berikut -
from nltk.tokenize import WordPuncttokenizer
Stemming
Saat bekerja dengan kata-kata, kami menemukan banyak variasi karena alasan tata bahasa. Konsep variasi di sini berarti bahwa kita harus berurusan dengan berbagai bentuk kata yang sama sepertidemocracy, democratic, dan democratization. Sangat penting bagi mesin untuk memahami bahwa kata-kata yang berbeda ini memiliki bentuk dasar yang sama. Dengan cara ini, akan berguna untuk mengekstrak bentuk dasar kata saat kita menganalisis teks.
Kita bisa mencapai ini dengan stemming. Dengan cara ini, kita dapat mengatakan bahwa stemming adalah proses heuristik untuk mengekstraksi bentuk dasar kata dengan memotong ujung kata.
Dalam modul Python NLTK, kami memiliki paket berbeda yang terkait dengan stemming. Paket-paket ini dapat digunakan untuk mendapatkan bentuk dasar kata. Paket-paket ini menggunakan algoritma. Beberapa paket tersebut adalah sebagai berikut -
Paket PorterStemmer
Paket Python ini menggunakan algoritma Porter untuk mengekstrak bentuk dasarnya. Kami dapat mengimpor paket ini dengan bantuan kode Python berikut -
from nltk.stem.porter import PorterStemmer
Misalnya jika kita akan memberikan kata ‘writing’ sebagai masukan untuk stemmer ini kita akan mendapatkan kata tersebut ‘write’ setelah membendung.
Paket LancasterStemmer
Paket Python ini akan menggunakan algoritma Lancaster untuk mengekstrak bentuk dasarnya. Kami dapat mengimpor paket ini dengan bantuan kode Python berikut -
from nltk.stem.lancaster import LancasterStemmer
Misalnya jika kita akan memberikan kata ‘writing’ sebagai masukan untuk stemmer ini kita akan mendapatkan kata tersebut ‘write’ setelah membendung.
Paket SnowballStemmer
Paket Python ini akan menggunakan algoritma bola salju untuk mengekstrak bentuk dasarnya. Kami dapat mengimpor paket ini dengan bantuan kode Python berikut -
from nltk.stem.snowball import SnowballStemmer
Misalnya jika kita akan memberikan kata ‘writing’ sebagai masukan untuk stemmer ini kita akan mendapatkan kata tersebut ‘write’ setelah membendung.
Semua algoritma tersebut memiliki tingkat keketatan yang berbeda. Jika kita membandingkan ketiga stemmer ini maka stemmer Porter adalah yang paling tidak ketat dan Lancaster yang paling ketat. Stemmer bola salju bagus untuk digunakan dalam hal kecepatan dan juga ketelitian.
Lemmatisasi
Kita juga dapat mengekstrak bentuk dasar kata dengan lemmatization. Ini pada dasarnya melakukan tugas ini dengan penggunaan kosa kata dan analisis morfologis kata, biasanya bertujuan untuk menghilangkan akhiran infleksional saja. Bentuk dasar dari kata apa pun disebut lemma.
Perbedaan utama antara stemming dan lemmatization adalah penggunaan kosa kata dan analisis morfologi kata. Perbedaan lainnya adalah bahwa stemming paling sering menciutkan kata-kata yang terkait secara turunan sedangkan lemmatisasi biasanya hanya menciutkan bentuk infleksi yang berbeda dari lemma. Misalnya, jika kita menyediakan kata saw sebagai kata masukan maka stemming mungkin mengembalikan kata 's' tetapi lemmatization akan mencoba mengembalikan kata lihat atau lihat tergantung pada apakah penggunaan token itu kata kerja atau kata benda.
Dalam modul Python NLTK, kami memiliki paket berikut yang terkait dengan proses lemmatisasi yang dapat kami gunakan untuk mendapatkan bentuk dasar kata -
Paket WordNetLemmatizer
Paket Python ini akan mengekstrak bentuk dasar dari kata tersebut tergantung pada apakah itu digunakan sebagai kata benda atau sebagai kata kerja. Kami dapat mengimpor paket ini dengan bantuan kode Python berikut -
from nltk.stem import WordNetLemmatizer
Chunking: Membagi Data menjadi Beberapa Bagian
Ini adalah salah satu proses penting dalam pemrosesan bahasa alami. Tugas utama chunking adalah mengidentifikasi bagian-bagian ucapan dan frasa pendek seperti frasa kata benda. Kami telah mempelajari proses tokenisasi, pembuatan token. Chunking pada dasarnya adalah pelabelan token tersebut. Dengan kata lain, chunking akan menunjukkan struktur kalimatnya.
Pada bagian berikut, kita akan belajar tentang berbagai jenis Chunking.
Jenis chunking
Ada dua jenis chunking. Jenisnya adalah sebagai berikut -
Memotong
Dalam proses pemotongan ini, objek, benda, dll. Bergerak ke arah yang lebih umum dan bahasanya menjadi lebih abstrak. Ada lebih banyak kemungkinan kesepakatan. Dalam proses ini, kami memperkecil. Misalnya, jika kita akan membagi pertanyaan bahwa "untuk tujuan apa mobil itu"? Kita mungkin mendapatkan jawaban "transportasi".
Chunking down
Dalam proses penggumpalan ini, objek, benda, dll. Bergerak ke arah yang lebih spesifik dan bahasanya semakin ditembus. Struktur yang lebih dalam akan diperiksa dengan membagi. Dalam proses ini, kami memperbesar. Misalnya, jika kami membagi pertanyaan "Ceritakan secara spesifik tentang sebuah mobil"? Kami akan mendapatkan informasi yang lebih kecil tentang mobil.
Example
Dalam contoh ini, kita akan melakukan chunking Noun-Phrase, kategori chunking yang akan menemukan potongan frase kata benda dalam kalimat, dengan menggunakan modul NLTK dengan Python -
Follow these steps in python for implementing noun phrase chunking −
Step 1- Pada langkah ini, kita perlu mendefinisikan tata bahasa untuk chunking. Itu akan terdiri dari aturan-aturan yang harus kita ikuti.
Step 2- Pada langkah ini, kita perlu membuat parser chunk. Ini akan mengurai tata bahasa dan memberikan hasilnya.
Step 3 - Pada langkah terakhir ini, keluaran akan dibuat dalam format pohon.
Mari kita impor paket NLTK yang diperlukan sebagai berikut -
import nltk
Sekarang, kita perlu mendefinisikan kalimatnya. Di sini DT berarti determinan, VBP berarti kata kerja, JJ berarti kata sifat, IN berarti preposisi dan NN berarti kata benda.
sentence=[("a","DT"),("clever","JJ"),("fox","NN"),("was","VBP"),
("jumping","VBP"),("over","IN"),("the","DT"),("wall","NN")]
Sekarang, kita perlu memberikan tata bahasanya. Di sini, kami akan memberikan tata bahasa dalam bentuk ekspresi reguler.
grammar = "NP:{<DT>?<JJ>*<NN>}"
Kita perlu mendefinisikan parser yang akan mengurai tata bahasa.
parser_chunking = nltk.RegexpParser(grammar)
Parser mengurai kalimat sebagai berikut -
parser_chunking.parse(sentence)
Selanjutnya, kita perlu mendapatkan hasilnya. Keluaran dihasilkan dalam variabel sederhana yang disebutoutput_chunk.
Output_chunk = parser_chunking.parse(sentence)
Setelah mengeksekusi kode berikut, kita dapat menggambar keluaran kita dalam bentuk pohon.
output.draw()
Model Bag of Word (BoW)
Bag of Word (BoW), sebuah model dalam pemrosesan bahasa natural, pada dasarnya digunakan untuk mengekstrak fitur dari teks sehingga teks tersebut dapat digunakan dalam pemodelan seperti itu dalam algoritma pembelajaran mesin.
Sekarang muncul pertanyaan mengapa kita perlu mengekstrak fitur dari teks. Itu karena algoritme pembelajaran mesin tidak dapat bekerja dengan data mentah dan mereka membutuhkan data numerik sehingga mereka dapat mengekstrak informasi yang berarti darinya. Konversi data teks menjadi data numerik disebut ekstraksi fitur atau pengkodean fitur.
Bagaimana itu bekerja
Ini adalah pendekatan yang sangat sederhana untuk mengekstrak fitur dari teks. Misalkan kita memiliki dokumen teks dan kita ingin mengubahnya menjadi data numerik atau mengatakan ingin mengekstrak fiturnya, maka pertama-tama model ini mengekstrak kosakata dari semua kata dalam dokumen. Kemudian dengan menggunakan matriks term dokumen akan dibangun sebuah model. Dengan cara ini, BoW merepresentasikan dokumen sebagai sekantong kata saja. Setiap informasi tentang urutan atau struktur kata-kata dalam dokumen akan dibuang.
Konsep matriks istilah dokumen
Algoritma BoW membangun model dengan menggunakan matriks term dokumen. Seperti namanya, matriks istilah dokumen adalah matriks dari berbagai jumlah kata yang terjadi dalam dokumen. Dengan bantuan matriks ini, dokumen teks dapat direpresentasikan sebagai kombinasi berbobot dari berbagai kata. Dengan mengatur threshold dan memilih kata-kata yang lebih bermakna, kita dapat membangun histogram dari semua kata dalam dokumen yang dapat digunakan sebagai vektor fitur. Berikut adalah contoh untuk memahami konsep matriks istilah dokumen -
Example
Misalkan kita memiliki dua kalimat berikut -
Sentence 1 - Kami menggunakan model Bag of Words.
Sentence 2 - Model Bag of Words digunakan untuk mengekstraksi fitur.
Sekarang, dengan mempertimbangkan dua kalimat ini, kita memiliki 13 kata berbeda berikut -
- we
- are
- using
- the
- bag
- of
- words
- model
- is
- used
- for
- extracting
- features
Sekarang, kita perlu membuat histogram untuk setiap kalimat dengan menggunakan jumlah kata di setiap kalimat -
Sentence 1 - [1,1,1,1,1,1,1,1,0,0,0,0,0]
Sentence 2 - [0,0,0,1,1,1,1,1,1,1,1,1,1]
Dengan cara ini, kami memiliki vektor fitur yang telah diekstraksi. Setiap vektor fitur adalah 13 dimensi karena kita memiliki 13 kata yang berbeda.
Konsep Statistik
Konsep statistik tersebut disebut TermFrequency-Inverse Document Frequency (tf-idf). Setiap kata penting dalam dokumen. Statistik membantu kita memahami pentingnya setiap kata.
Frekuensi Jangka (tf)
Ini adalah ukuran seberapa sering setiap kata muncul dalam dokumen. Ini dapat diperoleh dengan membagi hitungan setiap kata dengan jumlah total kata dalam dokumen tertentu.
Frekuensi Dokumen Terbalik (idf)
Ini adalah ukuran seberapa unik sebuah kata untuk dokumen ini dalam kumpulan dokumen yang diberikan. Untuk menghitung idf dan merumuskan vektor fitur khas, kita perlu mengurangi bobot kata-kata yang sering muncul seperti the dan menimbang kata-kata langka.
Membangun Model Bag of Words di NLTK
Di bagian ini, kita akan mendefinisikan kumpulan string dengan menggunakan CountVectorizer untuk membuat vektor dari kalimat ini.
Mari kita impor paket yang diperlukan -
from sklearn.feature_extraction.text import CountVectorizer
Sekarang tentukan kumpulan kalimat.
Sentences = ['We are using the Bag of Word model', 'Bag of Word model is
used for extracting the features.']
vectorizer_count = CountVectorizer()
features_text = vectorizer.fit_transform(Sentences).todense()
print(vectorizer.vocabulary_)
Program di atas menghasilkan keluaran seperti yang ditunjukkan di bawah ini. Ini menunjukkan bahwa kita memiliki 13 kata berbeda dalam dua kalimat di atas -
{'we': 11, 'are': 0, 'using': 10, 'the': 8, 'bag': 1, 'of': 7,
'word': 12, 'model': 6, 'is': 5, 'used': 9, 'for': 4, 'extracting': 2, 'features': 3}
Ini adalah vektor fitur (teks ke bentuk numerik) yang dapat digunakan untuk pembelajaran mesin.
Menyelesaikan masalah
Di bagian ini, kami akan menyelesaikan beberapa masalah terkait.
Prediksi Kategori
Dalam satu set dokumen, tidak hanya kata tetapi kategori kata juga penting; dalam kategori teks mana kata tertentu berada. Sebagai contoh, kita ingin memprediksi apakah suatu kalimat termasuk dalam kategori email, berita, olah raga, komputer, dll. Pada contoh berikut, kita akan menggunakan tf-idf untuk merumuskan vektor fitur untuk menemukan kategori dokumen. Kami akan menggunakan data dari 20 dataset newsgroup sklearn.
Kami perlu mengimpor paket yang diperlukan -
from sklearn.datasets import fetch_20newsgroups
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
Tentukan peta kategori. Kami menggunakan lima kategori berbeda yang disebut Agama, Otomotif, Olahraga, Elektronik, dan Luar Angkasa.
category_map = {'talk.religion.misc':'Religion','rec.autos''Autos',
'rec.sport.hockey':'Hockey','sci.electronics':'Electronics', 'sci.space': 'Space'}
Buat set pelatihan -
training_data = fetch_20newsgroups(subset = 'train',
categories = category_map.keys(), shuffle = True, random_state = 5)
Buat vektor penghitung dan ekstrak istilah hitungan -
vectorizer_count = CountVectorizer()
train_tc = vectorizer_count.fit_transform(training_data.data)
print("\nDimensions of training data:", train_tc.shape)
Transformator tf-idf dibuat sebagai berikut -
tfidf = TfidfTransformer()
train_tfidf = tfidf.fit_transform(train_tc)
Sekarang, tentukan data uji -
input_data = [
'Discovery was a space shuttle',
'Hindu, Christian, Sikh all are religions',
'We must have to drive safely',
'Puck is a disk made of rubber',
'Television, Microwave, Refrigrated all uses electricity'
]
Data di atas akan membantu kami melatih pengklasifikasi Multinomial Naive Bayes -
classifier = MultinomialNB().fit(train_tfidf, training_data.target)
Ubah data input menggunakan count vectorizer -
input_tc = vectorizer_count.transform(input_data)
Sekarang, kita akan mengubah data vektor menggunakan trafo tfidf -
input_tfidf = tfidf.transform(input_tc)
Kami akan memprediksi kategori keluaran -
predictions = classifier.predict(input_tfidf)
Outputnya dihasilkan sebagai berikut -
for sent, category in zip(input_data, predictions):
print('\nInput Data:', sent, '\n Category:', \
category_map[training_data.target_names[category]])
Prediktor kategori menghasilkan keluaran berikut -
Dimensions of training data: (2755, 39297)
Input Data: Discovery was a space shuttle
Category: Space
Input Data: Hindu, Christian, Sikh all are religions
Category: Religion
Input Data: We must have to drive safely
Category: Autos
Input Data: Puck is a disk made of rubber
Category: Hockey
Input Data: Television, Microwave, Refrigrated all uses electricity
Category: Electronics
Penemu Gender
Dalam rumusan masalah ini, pengklasifikasi akan dilatih untuk menemukan gender (pria atau wanita) dengan memberikan nama. Kita perlu menggunakan heuristik untuk membuat vektor fitur dan melatih pengklasifikasi. Kami akan menggunakan data berlabel dari paket scikit-learn. Berikut adalah kode Python untuk membangun pencari gender -
Mari kita impor paket yang diperlukan -
import random
from nltk import NaiveBayesClassifier
from nltk.classify import accuracy as nltk_accuracy
from nltk.corpus import names
Sekarang kita perlu mengekstrak huruf N terakhir dari kata masukan. Surat-surat ini akan bertindak sebagai fitur -
def extract_features(word, N = 2):
last_n_letters = word[-N:]
return {'feature': last_n_letters.lower()}
if __name__=='__main__':
Buat data pelatihan menggunakan nama berlabel (laki-laki dan perempuan) yang tersedia di NLTK -
male_list = [(name, 'male') for name in names.words('male.txt')]
female_list = [(name, 'female') for name in names.words('female.txt')]
data = (male_list + female_list)
random.seed(5)
random.shuffle(data)
Sekarang, data uji akan dibuat sebagai berikut -
namesInput = ['Rajesh', 'Gaurav', 'Swati', 'Shubha']
Tentukan jumlah sampel yang digunakan untuk latihan dan uji dengan kode berikut
train_sample = int(0.8 * len(data))
Sekarang, kita perlu melakukan iterasi melalui panjang yang berbeda sehingga akurasi dapat dibandingkan -
for i in range(1, 6):
print('\nNumber of end letters:', i)
features = [(extract_features(n, i), gender) for (n, gender) in data]
train_data, test_data = features[:train_sample],
features[train_sample:]
classifier = NaiveBayesClassifier.train(train_data)
Akurasi pengklasifikasi dapat dihitung sebagai berikut -
accuracy_classifier = round(100 * nltk_accuracy(classifier, test_data), 2)
print('Accuracy = ' + str(accuracy_classifier) + '%')
Sekarang, kita dapat memprediksi hasilnya -
for name in namesInput:
print(name, '==>', classifier.classify(extract_features(name, i)))
Program di atas akan menghasilkan keluaran sebagai berikut -
Number of end letters: 1
Accuracy = 74.7%
Rajesh -> female
Gaurav -> male
Swati -> female
Shubha -> female
Number of end letters: 2
Accuracy = 78.79%
Rajesh -> male
Gaurav -> male
Swati -> female
Shubha -> female
Number of end letters: 3
Accuracy = 77.22%
Rajesh -> male
Gaurav -> female
Swati -> female
Shubha -> female
Number of end letters: 4
Accuracy = 69.98%
Rajesh -> female
Gaurav -> female
Swati -> female
Shubha -> female
Number of end letters: 5
Accuracy = 64.63%
Rajesh -> female
Gaurav -> female
Swati -> female
Shubha -> female
Pada keluaran di atas, kita dapat melihat bahwa akurasi pada jumlah maksimal huruf akhir adalah dua dan semakin menurun seiring dengan bertambahnya jumlah huruf akhir.
Pemodelan Topik: Mengidentifikasi Pola dalam Data Teks
Kita tahu bahwa umumnya dokumen dikelompokkan menjadi topik. Terkadang kita perlu mengidentifikasi pola dalam teks yang sesuai dengan topik tertentu. Teknik melakukan ini disebut pemodelan topik. Dengan kata lain, kita dapat mengatakan bahwa pemodelan topik adalah teknik untuk mengungkap tema abstrak atau struktur tersembunyi dalam kumpulan dokumen tertentu.
Kita dapat menggunakan teknik pemodelan topik dalam skenario berikut -
Klasifikasi Teks
Dengan bantuan pemodelan topik, klasifikasi dapat ditingkatkan karena mengelompokkan kata-kata yang mirip bersama-sama daripada menggunakan setiap kata secara terpisah sebagai fitur.
Sistem Pemberi Rekomendasi
Dengan bantuan pemodelan topik, kita dapat membangun sistem pemberi rekomendasi dengan menggunakan ukuran kesamaan.
Algoritma untuk Pemodelan Topik
Pemodelan topik dapat diimplementasikan dengan menggunakan algoritma. Algoritmanya adalah sebagai berikut -
Alokasi Dirichlet Laten (LDA)
Algoritma ini paling populer untuk pemodelan topik. Ini menggunakan model grafis probabilistik untuk mengimplementasikan pemodelan topik. Kita perlu mengimpor paket gensim dengan Python untuk menggunakan slgoritma LDA.
Latent Semantic Analysis (LDA) atau Latent Semantic Indexing (LSI)
Algoritma ini didasarkan pada Aljabar Linear. Pada dasarnya menggunakan konsep SVD (Singular Value Decomposition) pada matriks term dokumen.
Faktorisasi Matriks Non-Negatif (NMF)
Ini juga didasarkan pada Aljabar Linear.
Semua algoritma yang disebutkan di atas untuk pemodelan topik akan memiliki ekstensi number of topics sebagai parameter, Document-Word Matrix sebagai masukan dan WTM (Word Topic Matrix) & TDM (Topic Document Matrix) sebagai keluaran.