AI dengan Python - Paket NLTK

Dalam bab ini, kita akan belajar bagaimana memulai dengan Paket Perangkat Bahasa Alami.

Prasyarat

Jika kita ingin membangun aplikasi dengan pemrosesan Natural Language maka perubahan konteks membuatnya menjadi yang paling sulit. Faktor konteks memengaruhi cara mesin memahami kalimat tertentu. Oleh karena itu, kita perlu mengembangkan aplikasi bahasa Natural dengan menggunakan pendekatan pembelajaran mesin sehingga mesin juga dapat memahami cara manusia memahami konteksnya.

Untuk membangun aplikasi seperti itu kita akan menggunakan paket Python yang disebut NLTK (Paket Alat Bahasa Alami).

Mengimpor NLTK

Kita perlu menginstal NLTK sebelum menggunakannya. Itu dapat diinstal dengan bantuan perintah berikut -

pip install nltk

Untuk membuat paket conda untuk NLTK, gunakan perintah berikut -

conda install -c anaconda nltk

Sekarang setelah menginstal paket NLTK, kita perlu mengimpornya melalui command prompt python. Kita dapat mengimpornya dengan menulis perintah berikut pada command prompt Python -

>>> import nltk

Mendownload Data NLTK

Sekarang setelah mengimpor NLTK, kita perlu mengunduh data yang diperlukan. Itu dapat dilakukan dengan bantuan perintah berikut pada prompt perintah Python -

>>> nltk.download()

Menginstal Paket Lain yang Diperlukan

Untuk membangun aplikasi pemrosesan bahasa alami dengan menggunakan NLTK, kita perlu menginstal paket yang diperlukan. Paketnya adalah sebagai berikut -

gensim

Ini adalah pustaka pemodelan semantik yang kuat yang berguna untuk banyak aplikasi. Kita dapat menginstalnya dengan menjalankan perintah berikut -

pip install gensim

pola

Itu digunakan untuk membuat gensimpaket bekerja dengan baik. Kita dapat menginstalnya dengan menjalankan perintah berikut

pip install pattern

Konsep Tokenisasi, Stemming, dan Lemmatization

Pada bagian ini, kita akan memahami apa itu tokenisasi, stemming, dan lemmatisasi.

Tokenisasi

Ini dapat didefinisikan sebagai proses pemecahan teks yang diberikan yaitu urutan karakter menjadi unit yang lebih kecil yang disebut token. Token tersebut bisa berupa kata, angka atau tanda baca. Ini juga disebut segmentasi kata. Berikut adalah contoh sederhana dari tokenisasi -

Input - Mangga, pisang, nanas dan apel semuanya adalah buah-buahan.

Output -

Proses pemecahan teks yang diberikan dapat dilakukan dengan bantuan menemukan batas kata. Akhir kata dan awal kata baru disebut batas kata. Sistem penulisan dan struktur tipografi kata-kata mempengaruhi batasan.

Dalam modul Python NLTK, kami memiliki paket berbeda yang terkait dengan tokenisasi yang dapat kami gunakan untuk membagi teks menjadi token sesuai kebutuhan kami. Beberapa paket tersebut adalah sebagai berikut -

paket sent_tokenize

Seperti namanya, paket ini akan membagi teks masukan menjadi beberapa kalimat. Kami dapat mengimpor paket ini dengan bantuan kode Python berikut -

from nltk.tokenize import sent_tokenize

paket word_tokenize

Paket ini membagi teks masukan menjadi kata-kata. Kami dapat mengimpor paket ini dengan bantuan kode Python berikut -

from nltk.tokenize import word_tokenize

Paket WordPunctTokenizer

Paket ini membagi teks masukan menjadi kata-kata serta tanda baca. Kami dapat mengimpor paket ini dengan bantuan kode Python berikut -

from nltk.tokenize import WordPuncttokenizer

Stemming

Saat bekerja dengan kata-kata, kami menemukan banyak variasi karena alasan tata bahasa. Konsep variasi di sini berarti bahwa kita harus berurusan dengan berbagai bentuk kata yang sama sepertidemocracy, democratic, dan democratization. Sangat penting bagi mesin untuk memahami bahwa kata-kata yang berbeda ini memiliki bentuk dasar yang sama. Dengan cara ini, akan berguna untuk mengekstrak bentuk dasar kata saat kita menganalisis teks.

Kita bisa mencapai ini dengan stemming. Dengan cara ini, kita dapat mengatakan bahwa stemming adalah proses heuristik untuk mengekstraksi bentuk dasar kata dengan memotong ujung kata.

Dalam modul Python NLTK, kami memiliki paket berbeda yang terkait dengan stemming. Paket-paket ini dapat digunakan untuk mendapatkan bentuk dasar kata. Paket-paket ini menggunakan algoritma. Beberapa paket tersebut adalah sebagai berikut -

Paket PorterStemmer

Paket Python ini menggunakan algoritma Porter untuk mengekstrak bentuk dasarnya. Kami dapat mengimpor paket ini dengan bantuan kode Python berikut -

from nltk.stem.porter import PorterStemmer

Misalnya jika kita akan memberikan kata ‘writing’ sebagai masukan untuk stemmer ini kita akan mendapatkan kata tersebut ‘write’ setelah membendung.

Paket LancasterStemmer

Paket Python ini akan menggunakan algoritma Lancaster untuk mengekstrak bentuk dasarnya. Kami dapat mengimpor paket ini dengan bantuan kode Python berikut -

from nltk.stem.lancaster import LancasterStemmer

Misalnya jika kita akan memberikan kata ‘writing’ sebagai masukan untuk stemmer ini kita akan mendapatkan kata tersebut ‘write’ setelah membendung.

Paket SnowballStemmer

Paket Python ini akan menggunakan algoritma bola salju untuk mengekstrak bentuk dasarnya. Kami dapat mengimpor paket ini dengan bantuan kode Python berikut -

from nltk.stem.snowball import SnowballStemmer

Misalnya jika kita akan memberikan kata ‘writing’ sebagai masukan untuk stemmer ini kita akan mendapatkan kata tersebut ‘write’ setelah membendung.

Semua algoritma tersebut memiliki tingkat keketatan yang berbeda. Jika kita membandingkan ketiga stemmer ini maka stemmer Porter adalah yang paling tidak ketat dan Lancaster yang paling ketat. Stemmer bola salju bagus untuk digunakan dalam hal kecepatan dan juga ketelitian.

Lemmatisasi

Kita juga dapat mengekstrak bentuk dasar kata dengan lemmatization. Ini pada dasarnya melakukan tugas ini dengan penggunaan kosa kata dan analisis morfologis kata, biasanya bertujuan untuk menghilangkan akhiran infleksional saja. Bentuk dasar dari kata apa pun disebut lemma.

Perbedaan utama antara stemming dan lemmatization adalah penggunaan kosa kata dan analisis morfologi kata. Perbedaan lainnya adalah bahwa stemming paling sering menciutkan kata-kata yang terkait secara turunan sedangkan lemmatisasi biasanya hanya menciutkan bentuk infleksi yang berbeda dari lemma. Misalnya, jika kita menyediakan kata saw sebagai kata masukan maka stemming mungkin mengembalikan kata 's' tetapi lemmatization akan mencoba mengembalikan kata lihat atau lihat tergantung pada apakah penggunaan token itu kata kerja atau kata benda.

Dalam modul Python NLTK, kami memiliki paket berikut yang terkait dengan proses lemmatisasi yang dapat kami gunakan untuk mendapatkan bentuk dasar kata -

Paket WordNetLemmatizer

Paket Python ini akan mengekstrak bentuk dasar dari kata tersebut tergantung pada apakah itu digunakan sebagai kata benda atau sebagai kata kerja. Kami dapat mengimpor paket ini dengan bantuan kode Python berikut -

from nltk.stem import WordNetLemmatizer

Chunking: Membagi Data menjadi Beberapa Bagian

Ini adalah salah satu proses penting dalam pemrosesan bahasa alami. Tugas utama chunking adalah mengidentifikasi bagian-bagian ucapan dan frasa pendek seperti frasa kata benda. Kami telah mempelajari proses tokenisasi, pembuatan token. Chunking pada dasarnya adalah pelabelan token tersebut. Dengan kata lain, chunking akan menunjukkan struktur kalimatnya.

Pada bagian berikut, kita akan belajar tentang berbagai jenis Chunking.

Jenis chunking

Ada dua jenis chunking. Jenisnya adalah sebagai berikut -

Memotong

Dalam proses pemotongan ini, objek, benda, dll. Bergerak ke arah yang lebih umum dan bahasanya menjadi lebih abstrak. Ada lebih banyak kemungkinan kesepakatan. Dalam proses ini, kami memperkecil. Misalnya, jika kita akan membagi pertanyaan bahwa "untuk tujuan apa mobil itu"? Kita mungkin mendapatkan jawaban "transportasi".

Chunking down

Dalam proses penggumpalan ini, objek, benda, dll. Bergerak ke arah yang lebih spesifik dan bahasanya semakin ditembus. Struktur yang lebih dalam akan diperiksa dengan membagi. Dalam proses ini, kami memperbesar. Misalnya, jika kami membagi pertanyaan "Ceritakan secara spesifik tentang sebuah mobil"? Kami akan mendapatkan informasi yang lebih kecil tentang mobil.

Example

Dalam contoh ini, kita akan melakukan chunking Noun-Phrase, kategori chunking yang akan menemukan potongan frase kata benda dalam kalimat, dengan menggunakan modul NLTK dengan Python -

Follow these steps in python for implementing noun phrase chunking −

Step 1- Pada langkah ini, kita perlu mendefinisikan tata bahasa untuk chunking. Itu akan terdiri dari aturan-aturan yang harus kita ikuti.

Step 2- Pada langkah ini, kita perlu membuat parser chunk. Ini akan mengurai tata bahasa dan memberikan hasilnya.

Step 3 - Pada langkah terakhir ini, keluaran akan dibuat dalam format pohon.

Mari kita impor paket NLTK yang diperlukan sebagai berikut -

import nltk

Sekarang, kita perlu mendefinisikan kalimatnya. Di sini DT berarti determinan, VBP berarti kata kerja, JJ berarti kata sifat, IN berarti preposisi dan NN berarti kata benda.

sentence=[("a","DT"),("clever","JJ"),("fox","NN"),("was","VBP"),
          ("jumping","VBP"),("over","IN"),("the","DT"),("wall","NN")]

Sekarang, kita perlu memberikan tata bahasanya. Di sini, kami akan memberikan tata bahasa dalam bentuk ekspresi reguler.

grammar = "NP:{<DT>?<JJ>*<NN>}"

Kita perlu mendefinisikan parser yang akan mengurai tata bahasa.

parser_chunking = nltk.RegexpParser(grammar)

Parser mengurai kalimat sebagai berikut -

parser_chunking.parse(sentence)

Selanjutnya, kita perlu mendapatkan hasilnya. Keluaran dihasilkan dalam variabel sederhana yang disebutoutput_chunk.

Output_chunk = parser_chunking.parse(sentence)

Setelah mengeksekusi kode berikut, kita dapat menggambar keluaran kita dalam bentuk pohon.

output.draw()

Model Bag of Word (BoW)

Bag of Word (BoW), sebuah model dalam pemrosesan bahasa natural, pada dasarnya digunakan untuk mengekstrak fitur dari teks sehingga teks tersebut dapat digunakan dalam pemodelan seperti itu dalam algoritma pembelajaran mesin.

Sekarang muncul pertanyaan mengapa kita perlu mengekstrak fitur dari teks. Itu karena algoritme pembelajaran mesin tidak dapat bekerja dengan data mentah dan mereka membutuhkan data numerik sehingga mereka dapat mengekstrak informasi yang berarti darinya. Konversi data teks menjadi data numerik disebut ekstraksi fitur atau pengkodean fitur.

Bagaimana itu bekerja

Ini adalah pendekatan yang sangat sederhana untuk mengekstrak fitur dari teks. Misalkan kita memiliki dokumen teks dan kita ingin mengubahnya menjadi data numerik atau mengatakan ingin mengekstrak fiturnya, maka pertama-tama model ini mengekstrak kosakata dari semua kata dalam dokumen. Kemudian dengan menggunakan matriks term dokumen akan dibangun sebuah model. Dengan cara ini, BoW merepresentasikan dokumen sebagai sekantong kata saja. Setiap informasi tentang urutan atau struktur kata-kata dalam dokumen akan dibuang.

Konsep matriks istilah dokumen

Algoritma BoW membangun model dengan menggunakan matriks term dokumen. Seperti namanya, matriks istilah dokumen adalah matriks dari berbagai jumlah kata yang terjadi dalam dokumen. Dengan bantuan matriks ini, dokumen teks dapat direpresentasikan sebagai kombinasi berbobot dari berbagai kata. Dengan mengatur threshold dan memilih kata-kata yang lebih bermakna, kita dapat membangun histogram dari semua kata dalam dokumen yang dapat digunakan sebagai vektor fitur. Berikut adalah contoh untuk memahami konsep matriks istilah dokumen -

Example

Misalkan kita memiliki dua kalimat berikut -

  • Sentence 1 - Kami menggunakan model Bag of Words.

  • Sentence 2 - Model Bag of Words digunakan untuk mengekstraksi fitur.

Sekarang, dengan mempertimbangkan dua kalimat ini, kita memiliki 13 kata berbeda berikut -

  • we
  • are
  • using
  • the
  • bag
  • of
  • words
  • model
  • is
  • used
  • for
  • extracting
  • features

Sekarang, kita perlu membuat histogram untuk setiap kalimat dengan menggunakan jumlah kata di setiap kalimat -

  • Sentence 1 - [1,1,1,1,1,1,1,1,0,0,0,0,0]

  • Sentence 2 - [0,0,0,1,1,1,1,1,1,1,1,1,1]

Dengan cara ini, kami memiliki vektor fitur yang telah diekstraksi. Setiap vektor fitur adalah 13 dimensi karena kita memiliki 13 kata yang berbeda.

Konsep Statistik

Konsep statistik tersebut disebut TermFrequency-Inverse Document Frequency (tf-idf). Setiap kata penting dalam dokumen. Statistik membantu kita memahami pentingnya setiap kata.

Frekuensi Jangka (tf)

Ini adalah ukuran seberapa sering setiap kata muncul dalam dokumen. Ini dapat diperoleh dengan membagi hitungan setiap kata dengan jumlah total kata dalam dokumen tertentu.

Frekuensi Dokumen Terbalik (idf)

Ini adalah ukuran seberapa unik sebuah kata untuk dokumen ini dalam kumpulan dokumen yang diberikan. Untuk menghitung idf dan merumuskan vektor fitur khas, kita perlu mengurangi bobot kata-kata yang sering muncul seperti the dan menimbang kata-kata langka.

Membangun Model Bag of Words di NLTK

Di bagian ini, kita akan mendefinisikan kumpulan string dengan menggunakan CountVectorizer untuk membuat vektor dari kalimat ini.

Mari kita impor paket yang diperlukan -

from sklearn.feature_extraction.text import CountVectorizer

Sekarang tentukan kumpulan kalimat.

Sentences = ['We are using the Bag of Word model', 'Bag of Word model is
           used for extracting the features.']

vectorizer_count = CountVectorizer()

features_text = vectorizer.fit_transform(Sentences).todense()

print(vectorizer.vocabulary_)

Program di atas menghasilkan keluaran seperti yang ditunjukkan di bawah ini. Ini menunjukkan bahwa kita memiliki 13 kata berbeda dalam dua kalimat di atas -

{'we': 11, 'are': 0, 'using': 10, 'the': 8, 'bag': 1, 'of': 7,
 'word': 12, 'model': 6, 'is': 5, 'used': 9, 'for': 4, 'extracting': 2, 'features': 3}

Ini adalah vektor fitur (teks ke bentuk numerik) yang dapat digunakan untuk pembelajaran mesin.

Menyelesaikan masalah

Di bagian ini, kami akan menyelesaikan beberapa masalah terkait.

Prediksi Kategori

Dalam satu set dokumen, tidak hanya kata tetapi kategori kata juga penting; dalam kategori teks mana kata tertentu berada. Sebagai contoh, kita ingin memprediksi apakah suatu kalimat termasuk dalam kategori email, berita, olah raga, komputer, dll. Pada contoh berikut, kita akan menggunakan tf-idf untuk merumuskan vektor fitur untuk menemukan kategori dokumen. Kami akan menggunakan data dari 20 dataset newsgroup sklearn.

Kami perlu mengimpor paket yang diperlukan -

from sklearn.datasets import fetch_20newsgroups
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer

Tentukan peta kategori. Kami menggunakan lima kategori berbeda yang disebut Agama, Otomotif, Olahraga, Elektronik, dan Luar Angkasa.

category_map = {'talk.religion.misc':'Religion','rec.autos''Autos',
   'rec.sport.hockey':'Hockey','sci.electronics':'Electronics', 'sci.space': 'Space'}

Buat set pelatihan -

training_data = fetch_20newsgroups(subset = 'train',
   categories = category_map.keys(), shuffle = True, random_state = 5)

Buat vektor penghitung dan ekstrak istilah hitungan -

vectorizer_count = CountVectorizer()
train_tc = vectorizer_count.fit_transform(training_data.data)
print("\nDimensions of training data:", train_tc.shape)

Transformator tf-idf dibuat sebagai berikut -

tfidf = TfidfTransformer()
train_tfidf = tfidf.fit_transform(train_tc)

Sekarang, tentukan data uji -

input_data = [
   'Discovery was a space shuttle',
   'Hindu, Christian, Sikh all are religions',
   'We must have to drive safely',
   'Puck is a disk made of rubber',
   'Television, Microwave, Refrigrated all uses electricity'
]

Data di atas akan membantu kami melatih pengklasifikasi Multinomial Naive Bayes -

classifier = MultinomialNB().fit(train_tfidf, training_data.target)

Ubah data input menggunakan count vectorizer -

input_tc = vectorizer_count.transform(input_data)

Sekarang, kita akan mengubah data vektor menggunakan trafo tfidf -

input_tfidf = tfidf.transform(input_tc)

Kami akan memprediksi kategori keluaran -

predictions = classifier.predict(input_tfidf)

Outputnya dihasilkan sebagai berikut -

for sent, category in zip(input_data, predictions):
   print('\nInput Data:', sent, '\n Category:', \
      category_map[training_data.target_names[category]])

Prediktor kategori menghasilkan keluaran berikut -

Dimensions of training data: (2755, 39297)

Input Data: Discovery was a space shuttle
Category: Space

Input Data: Hindu, Christian, Sikh all are religions
Category: Religion

Input Data: We must have to drive safely
Category: Autos

Input Data: Puck is a disk made of rubber
Category: Hockey

Input Data: Television, Microwave, Refrigrated all uses electricity
Category: Electronics

Penemu Gender

Dalam rumusan masalah ini, pengklasifikasi akan dilatih untuk menemukan gender (pria atau wanita) dengan memberikan nama. Kita perlu menggunakan heuristik untuk membuat vektor fitur dan melatih pengklasifikasi. Kami akan menggunakan data berlabel dari paket scikit-learn. Berikut adalah kode Python untuk membangun pencari gender -

Mari kita impor paket yang diperlukan -

import random

from nltk import NaiveBayesClassifier
from nltk.classify import accuracy as nltk_accuracy
from nltk.corpus import names

Sekarang kita perlu mengekstrak huruf N terakhir dari kata masukan. Surat-surat ini akan bertindak sebagai fitur -

def extract_features(word, N = 2):
   last_n_letters = word[-N:]
   return {'feature': last_n_letters.lower()}
	
if __name__=='__main__':

Buat data pelatihan menggunakan nama berlabel (laki-laki dan perempuan) yang tersedia di NLTK -

male_list = [(name, 'male') for name in names.words('male.txt')]
female_list = [(name, 'female') for name in names.words('female.txt')]
data = (male_list + female_list)

random.seed(5)
random.shuffle(data)

Sekarang, data uji akan dibuat sebagai berikut -

namesInput = ['Rajesh', 'Gaurav', 'Swati', 'Shubha']

Tentukan jumlah sampel yang digunakan untuk latihan dan uji dengan kode berikut

train_sample = int(0.8 * len(data))

Sekarang, kita perlu melakukan iterasi melalui panjang yang berbeda sehingga akurasi dapat dibandingkan -

for i in range(1, 6):
   print('\nNumber of end letters:', i)
   features = [(extract_features(n, i), gender) for (n, gender) in data]
   train_data, test_data = features[:train_sample],
features[train_sample:]
   classifier = NaiveBayesClassifier.train(train_data)

Akurasi pengklasifikasi dapat dihitung sebagai berikut -

accuracy_classifier = round(100 * nltk_accuracy(classifier, test_data), 2)
   print('Accuracy = ' + str(accuracy_classifier) + '%')

Sekarang, kita dapat memprediksi hasilnya -

for name in namesInput:
   print(name, '==>', classifier.classify(extract_features(name, i)))

Program di atas akan menghasilkan keluaran sebagai berikut -

Number of end letters: 1
Accuracy = 74.7%
Rajesh -> female
Gaurav -> male
Swati -> female
Shubha -> female

Number of end letters: 2
Accuracy = 78.79%
Rajesh -> male
Gaurav -> male
Swati -> female
Shubha -> female

Number of end letters: 3
Accuracy = 77.22%
Rajesh -> male
Gaurav -> female
Swati -> female
Shubha -> female

Number of end letters: 4
Accuracy = 69.98%
Rajesh -> female
Gaurav -> female
Swati -> female
Shubha -> female

Number of end letters: 5
Accuracy = 64.63%
Rajesh -> female
Gaurav -> female
Swati -> female
Shubha -> female

Pada keluaran di atas, kita dapat melihat bahwa akurasi pada jumlah maksimal huruf akhir adalah dua dan semakin menurun seiring dengan bertambahnya jumlah huruf akhir.

Pemodelan Topik: Mengidentifikasi Pola dalam Data Teks

Kita tahu bahwa umumnya dokumen dikelompokkan menjadi topik. Terkadang kita perlu mengidentifikasi pola dalam teks yang sesuai dengan topik tertentu. Teknik melakukan ini disebut pemodelan topik. Dengan kata lain, kita dapat mengatakan bahwa pemodelan topik adalah teknik untuk mengungkap tema abstrak atau struktur tersembunyi dalam kumpulan dokumen tertentu.

Kita dapat menggunakan teknik pemodelan topik dalam skenario berikut -

Klasifikasi Teks

Dengan bantuan pemodelan topik, klasifikasi dapat ditingkatkan karena mengelompokkan kata-kata yang mirip bersama-sama daripada menggunakan setiap kata secara terpisah sebagai fitur.

Sistem Pemberi Rekomendasi

Dengan bantuan pemodelan topik, kita dapat membangun sistem pemberi rekomendasi dengan menggunakan ukuran kesamaan.

Algoritma untuk Pemodelan Topik

Pemodelan topik dapat diimplementasikan dengan menggunakan algoritma. Algoritmanya adalah sebagai berikut -

Alokasi Dirichlet Laten (LDA)

Algoritma ini paling populer untuk pemodelan topik. Ini menggunakan model grafis probabilistik untuk mengimplementasikan pemodelan topik. Kita perlu mengimpor paket gensim dengan Python untuk menggunakan slgoritma LDA.

Latent Semantic Analysis (LDA) atau Latent Semantic Indexing (LSI)

Algoritma ini didasarkan pada Aljabar Linear. Pada dasarnya menggunakan konsep SVD (Singular Value Decomposition) pada matriks term dokumen.

Faktorisasi Matriks Non-Negatif (NMF)

Ini juga didasarkan pada Aljabar Linear.

Semua algoritma yang disebutkan di atas untuk pemodelan topik akan memiliki ekstensi number of topics sebagai parameter, Document-Word Matrix sebagai masukan dan WTM (Word Topic Matrix) & TDM (Topic Document Matrix) sebagai keluaran.