Python - Pengenalan Pemrosesan Teks
Pemrosesan teks memiliki aplikasi langsung ke Pemrosesan Bahasa Alami, juga dikenal sebagai NLP. NLP ditujukan untuk memproses bahasa yang diucapkan atau ditulis oleh manusia ketika mereka berkomunikasi satu sama lain. Hal ini berbeda dengan komunikasi antara komputer dan manusia dimana komunikasi tersebut dalam bentuk program komputer yang ditulis oleh manusia atau suatu isyarat oleh manusia seperti mengklik mouse pada suatu posisi. NLP mencoba memahami bahasa alami yang digunakan oleh manusia dan mengklasifikasikannya, menganalisisnya juga jika diperlukan, menanggapinya. Python memiliki kumpulan pustaka yang kaya yang memenuhi kebutuhan NLP. Natural Language Tool Kit (NLTK) adalah rangkaian pustaka yang menyediakan fungsionalitas yang diperlukan untuk NLP.
Berikut adalah beberapa aplikasi yang menggunakan NLP dan NLTK python secara tidak langsung.
Peringkasan
Sering kali, kita perlu mendapatkan ringkasan artikel berita, plot film, atau cerita besar. Semuanya ditulis dalam bahasa manusia dan tanpa NLP kita harus bergantung pada interpretasi manusia lain dan penyajian ringkasan tersebut kepada kita. Tetapi dengan bantuan NLP kita dapat menulis program untuk menggunakan NLTK dan meringkas teks panjang dengan berbagai parameter, seperti berapa persentase teks yang kita inginkan dalam hasil akhir, memilih kata-kata positif dan negatif untuk diringkas dll. Umpan berita online mengandalkan tentang teknik peringkasan untuk menyajikan wawasan berita.
Alat Berbasis Suara
Alat berbasis suara seperti apel Siri atau Amazon Alexa mengandalkan NLP untuk memahami interaksi yang gila dengan manusia. Mereka memiliki kumpulan data pelatihan yang besar berupa kata, kalimat, dan tata bahasa untuk menafsirkan pertanyaan atau perintah yang berasal dari manusia dan memprosesnya. Meskipun tentang suara, secara tidak langsung juga diterjemahkan ke teks dan teks yang dihasilkan dari suara tersebut diambil melalui sistem NLP untuk menghasilkan hasil.
Ekstraksi Informasi
Scrapping web adalah contoh umum mengekstraksi data dari halaman web menggunakan kode python. Di sini mungkin tidak sepenuhnya berbasis NLP tetapi melibatkan pemrosesan teks. Misalnya, jika kita hanya perlu mengekstrak header yang ada di halaman html, maka kita mencari tag h1 di struktur halaman dan menemukan cara untuk mengekstrak teks di antara tag tersebut saja. Ini membutuhkan program pengolah teks dari python.
Pemfilteran Spam
Spam di email dapat diidentifikasi dan dihilangkan dengan menganalisis teks di baris subjek serta di konten pesan. Karena email spam biasanya dikirim secara massal ke banyak penerima, bahkan jika subjek dan isinya memiliki sedikit variasi, yang dapat dicocokkan dan diberi tag untuk menandainya sebagai spam Sekali lagi diperlukan penggunaan perpustakaan NLTK.
Terjemahan Bahasa
Terjemahan bahasa terkomputerisasi sangat bergantung pada NLP. Karena semakin banyak bahasa yang digunakan dalam platform online, menjadi keharusan untuk mengotomatiskan terjemahan dari satu bahasa manusia ke bahasa lain. Ini akan melibatkan pemrograman untuk menangani kosa kata, tata bahasa dan penandaan konteks dari bahasa yang terlibat dalam terjemahan. Sekali lagi, NLTK digunakan untuk menangani persyaratan tersebut.
Analisis Sentimen
Untuk mengetahui reaksi keseluruhan terhadap penampilan sebuah film, kita mungkin harus membaca ribuan posting umpan balik dari penonton. Tapi itu juga bisa diotomatisasi dengan menggunakan klasifikasi umpan balik positif dan negatif melalui analisis kata dan kalimat. Kemudian mengukur frekuensi ulasan positif dan negatif untuk menemukan sentimen penonton secara keseluruhan. Ini jelas membutuhkan analisis bahasa manusia yang ditulis oleh audiens dan NLTK banyak digunakan di sini untuk memproses teks.