Pemrosesan Bahasa Alami - Python

Pada bab ini, kita akan belajar tentang pemrosesan bahasa menggunakan Python.

Fitur berikut membuat Python berbeda dari bahasa lain -

  • Python is interpreted - Kami tidak perlu mengkompilasi program Python kami sebelum menjalankannya karena interpreter memproses Python saat runtime.

  • Interactive - Kita bisa langsung berinteraksi dengan interpreter untuk menulis program Python kita.

  • Object-oriented - Python bersifat berorientasi objek dan membuat bahasa ini lebih mudah untuk menulis program karena dengan bantuan teknik pemrograman ini merangkum kode di dalam objek.

  • Beginner can easily learn - Python juga disebut bahasa pemula karena sangat mudah dimengerti, dan mendukung pengembangan berbagai macam aplikasi.

Prasyarat

Versi terbaru dari Python 3 yang dirilis adalah Python 3.7.1 tersedia untuk Windows, Mac OS dan sebagian besar versi Linux OS.

  • Untuk windows, kita bisa masuk ke link www.python.org/downloads/windows/ untuk mendownload dan menginstal Python.

  • Untuk MAC OS, kita bisa menggunakan link www.python.org/downloads/mac-osx/ .

  • Dalam kasus Linux, rasa Linux yang berbeda menggunakan manajer paket yang berbeda untuk instalasi paket baru.

    • Misalnya, untuk menginstal Python 3 di Ubuntu Linux, kita dapat menggunakan perintah berikut dari terminal -

$sudo apt-get install python3-minimal

Untuk mempelajari lebih lanjut tentang pemrograman Python, baca tutorial dasar Python 3 - Python 3

Memulai NLTK

Kami akan menggunakan pustaka Python NLTK (Natural Language Toolkit) untuk melakukan analisis teks dalam Bahasa Inggris. Perangkat bahasa Alami (NLTK) adalah kumpulan pustaka Python yang dirancang khusus untuk mengidentifikasi dan menandai bagian-bagian ucapan yang ditemukan dalam teks bahasa alami seperti bahasa Inggris.

Menginstal NLTK

Sebelum mulai menggunakan NLTK, kita perlu menginstalnya. Dengan bantuan perintah berikut, kita dapat menginstalnya di lingkungan Python kita -

pip install nltk

Jika kami menggunakan Anaconda, maka paket Conda untuk NLTK dapat dibuat dengan menggunakan perintah berikut -

conda install -c anaconda nltk

Mendownload Data NLTK

Setelah menginstal NLTK, tugas penting lainnya adalah mengunduh repositori teks presetnya sehingga dapat digunakan dengan mudah. Namun, sebelum itu kita perlu mengimpor NLTK seperti kita mengimpor modul Python lainnya. Perintah berikut akan membantu kami dalam mengimpor NLTK -

import nltk

Sekarang, unduh data NLTK dengan bantuan perintah berikut -

nltk.download()

Diperlukan beberapa saat untuk menginstal semua paket NLTK yang tersedia.

Paket Lain yang Diperlukan

Beberapa paket Python lainnya seperti gensim dan patternjuga sangat diperlukan untuk analisis teks serta membangun aplikasi pemrosesan bahasa alami dengan menggunakan NLTK. paket dapat diinstal seperti yang ditunjukkan di bawah ini -

gensim

gensim adalah pustaka pemodelan semantik tangguh yang dapat digunakan untuk banyak aplikasi. Kita dapat menginstalnya dengan mengikuti perintah -

pip install gensim

pola

Itu bisa digunakan untuk membuatnya gensimpaket bekerja dengan baik. Perintah berikut membantu dalam menginstal pola -

pip install pattern

Tokenisasi

Tokenisasi dapat didefinisikan sebagai Proses pemecahan teks yang diberikan, menjadi unit yang lebih kecil yang disebut token. Kata, angka, atau tanda baca bisa menjadi token. Ini juga bisa disebut segmentasi kata.

Contoh

Input - Tempat tidur dan kursi adalah jenis furnitur.

Kami memiliki paket berbeda untuk tokenisasi yang disediakan oleh NLTK. Kami dapat menggunakan paket ini berdasarkan kebutuhan kami. Paket dan detail instalasinya adalah sebagai berikut -

paket sent_tokenize

Paket ini dapat digunakan untuk membagi teks masukan menjadi kalimat. Kita dapat mengimpornya dengan menggunakan perintah berikut -

from nltk.tokenize import sent_tokenize

paket word_tokenize

Paket ini dapat digunakan untuk membagi teks masukan menjadi kata-kata. Kita dapat mengimpornya dengan menggunakan perintah berikut -

from nltk.tokenize import word_tokenize

Paket WordPunctTokenizer

Paket ini dapat digunakan untuk membagi teks masukan menjadi kata dan tanda baca. Kita dapat mengimpornya dengan menggunakan perintah berikut -

from nltk.tokenize import WordPuncttokenizer

Stemming

Karena alasan tata bahasa, bahasa memiliki banyak variasi. Variasi dalam arti bahasanya, Inggris dan juga bahasa lain, memiliki bentuk kata yang berbeda. Misalnya, kata-kata sukademocracy, democratic, dan democratization. Untuk proyek pembelajaran mesin, sangat penting bagi mesin untuk memahami bahwa kata-kata yang berbeda ini, seperti di atas, memiliki bentuk dasar yang sama. Itulah mengapa sangat berguna untuk mengekstrak bentuk dasar kata-kata saat menganalisis teks.

Stemming adalah proses heuristik yang membantu mengekstraksi bentuk dasar kata dengan memotong ujungnya.

Paket berbeda untuk stemming yang disediakan oleh modul NLTK adalah sebagai berikut -

Paket PorterStemmer

Algoritma Porter digunakan oleh paket stemming ini untuk mengekstrak bentuk dasar kata. Dengan bantuan perintah berikut, kita dapat mengimpor paket ini -

from nltk.stem.porter import PorterStemmer

Sebagai contoh, ‘write’ akan menjadi keluaran dari kata tersebut ‘writing’ diberikan sebagai masukan untuk stemmer ini.

Paket LancasterStemmer

Algoritma Lancaster digunakan oleh paket stemming ini untuk mengekstrak bentuk dasar dari kata-kata tersebut. Dengan bantuan perintah berikut, kita dapat mengimpor paket ini -

from nltk.stem.lancaster import LancasterStemmer

Sebagai contoh, ‘writ’ akan menjadi keluaran dari kata tersebut ‘writing’ diberikan sebagai masukan untuk stemmer ini.

Paket SnowballStemmer

Algoritma Snowball digunakan oleh paket stemming ini untuk mengekstrak bentuk dasar kata. Dengan bantuan perintah berikut, kita dapat mengimpor paket ini -

from nltk.stem.snowball import SnowballStemmer

Sebagai contoh, ‘write’ akan menjadi keluaran dari kata tersebut ‘writing’ diberikan sebagai masukan untuk stemmer ini.

Lemmatisasi

Ini adalah cara lain untuk mengekstrak bentuk dasar kata, biasanya bertujuan untuk menghilangkan akhiran infleksional dengan menggunakan kosa kata dan analisis morfologi. Setelah lemmatisasi, bentuk dasar kata apa pun disebut lemma.

Modul NLTK menyediakan paket berikut untuk lemmatisasi -

Paket WordNetLemmatizer

Paket ini akan mengekstrak bentuk dasar kata tergantung pada apakah itu digunakan sebagai kata benda atau sebagai kata kerja. Perintah berikut dapat digunakan untuk mengimpor paket ini -

from nltk.stem import WordNetLemmatizer

Menghitung Tag POS – Chunking

Identifikasi part of speech (POS) dan frasa pendek dapat dilakukan dengan bantuan chunking. Ini adalah salah satu proses penting dalam pemrosesan bahasa alami. Seperti yang kita ketahui tentang proses tokenisasi untuk pembuatan token, chunking sebenarnya adalah melakukan pelabelan token tersebut. Dengan kata lain, kita bisa mengatakan bahwa kita bisa mendapatkan struktur kalimat dengan bantuan proses chunking.

Contoh

Dalam contoh berikut, kami akan mengimplementasikan Noun-Phrase chunking, kategori chunking yang akan menemukan potongan frase kata benda dalam kalimat, dengan menggunakan modul NLTK Python.

Pertimbangkan langkah-langkah berikut untuk mengimplementasikan pemotongan frasa kata benda -

Step 1: Chunk grammar definition

Pada langkah ini, kita perlu mendefinisikan tata bahasa untuk chunking. Itu akan terdiri dari aturan-aturan, yang harus kita ikuti.

Step 2: Chunk parser creation

Selanjutnya, kita perlu membuat pengurai potongan. Ini akan mengurai tata bahasa dan memberikan hasilnya.

Step 3: The Output

Pada langkah ini, kita akan mendapatkan keluaran dalam format pohon.

Menjalankan NLP Script

Mulailah dengan mengimpor paket NLTK -

import nltk

Sekarang, kita perlu mendefinisikan kalimatnya.

Sini,

  • DT adalah determinannya

  • VBP adalah kata kerjanya

  • JJ adalah kata sifatnya

  • IN adalah preposisi

  • NN adalah kata benda

sentence = [("a", "DT"),("clever","JJ"),("fox","NN"),("was","VBP"),
   ("jumping","VBP"),("over","IN"),("the","DT"),("wall","NN")]

Selanjutnya tata bahasa harus diberikan dalam bentuk regular expression.

grammar = "NP:{<DT>?<JJ>*<NN>}"

Sekarang, kita perlu mendefinisikan parser untuk mengurai tata bahasa.

parser_chunking = nltk.RegexpParser(grammar)

Sekarang, parser akan mengurai kalimat sebagai berikut -

parser_chunking.parse(sentence)

Selanjutnya, output akan menjadi variabel sebagai berikut: -

Output = parser_chunking.parse(sentence)

Sekarang, kode berikut akan membantu Anda menggambar output Anda dalam bentuk pohon.

output.draw()