Pemrosesan Bahasa Alami - Pengantar

Bahasa adalah metode komunikasi yang dengannya kita dapat berbicara, membaca, dan menulis. Misalnya, kami berpikir, kami membuat keputusan, rencana dan lebih banyak lagi dalam bahasa alami; tepatnya, dengan kata-kata. Namun, pertanyaan besar yang menghadang kita di era AI ini adalah apakah kita dapat berkomunikasi dengan cara yang sama dengan komputer. Dengan kata lain, dapatkah manusia berkomunikasi dengan komputer dalam bahasa aslinya? Merupakan tantangan bagi kami untuk mengembangkan aplikasi NLP karena komputer membutuhkan data terstruktur, tetapi ucapan manusia tidak terstruktur dan seringkali bersifat ambigu.

Dalam pengertian ini, kita dapat mengatakan bahwa Natural Language Processing (NLP) adalah sub-bidang Ilmu Komputer khususnya Artificial Intelligence (AI) yang berkepentingan untuk memungkinkan komputer memahami dan memproses bahasa manusia. Secara teknis, tugas utama NLP adalah memprogram komputer untuk menganalisis dan memproses data bahasa alami dalam jumlah besar.

Sejarah NLP

Kami telah membagi sejarah NLP menjadi empat fase. Fase memiliki perhatian dan gaya yang berbeda.

Fase Pertama (Fase Terjemahan Mesin) - Akhir 1940-an hingga akhir 1960-an

Pekerjaan yang dilakukan dalam fase ini difokuskan terutama pada terjemahan mesin (MT). Fase ini merupakan periode antusiasme dan optimisme.

Sekarang mari kita lihat semua yang dimiliki fase pertama di dalamnya -

  • Penelitian tentang NLP dimulai pada awal 1950-an setelah investigasi Booth & Richens dan memorandum Weaver tentang terjemahan mesin pada tahun 1949.

  • 1954 adalah tahun ketika percobaan terbatas pada terjemahan otomatis dari bahasa Rusia ke bahasa Inggris didemonstrasikan dalam percobaan Georgetown-IBM.

  • Di tahun yang sama, penerbitan jurnal MT (Machine Translation) dimulai.

  • Konferensi internasional pertama tentang Penerjemahan Mesin (MT) diadakan pada tahun 1952 dan konferensi kedua pada tahun 1956.

  • Pada tahun 1961, karya yang dipresentasikan dalam Teddington International Conference on Machine Translation of Languages ​​and Applied Language analysis adalah titik puncak dari fase ini.

Fase Kedua (Fase yang Dipengaruhi AI) - Akhir 1960-an hingga akhir 1970-an

Dalam fase ini, pekerjaan yang dilakukan sebagian besar terkait dengan pengetahuan dunia dan perannya dalam konstruksi dan manipulasi representasi makna. Itu sebabnya, fase ini disebut juga fase rasa AI.

Fase itu ada di dalamnya, sebagai berikut -

  • Pada awal tahun 1961, pekerjaan dimulai pada masalah menangani dan membangun data atau basis pengetahuan. Pekerjaan ini dipengaruhi oleh AI.

  • Pada tahun yang sama, dikembangkan pula sistem tanya jawab BASEBALL. Masukan ke sistem ini dibatasi dan pemrosesan bahasa yang terlibat sederhana.

  • Sistem yang jauh lebih maju dijelaskan dalam Minsky (1968). Sistem ini, jika dibandingkan dengan sistem penjawab pertanyaan BASEBALL, telah dikenali dan disediakan untuk kebutuhan inferensi pada basis pengetahuan dalam menafsirkan dan menanggapi masukan bahasa.

Fase Ketiga (Fase Grammatico-logis) - Akhir 1970-an hingga akhir 1980-an

Fase ini dapat digambarkan sebagai fase tata bahasa-logis. Karena kegagalan pembangunan sistem praktis pada fase terakhir, para peneliti beralih ke penggunaan logika untuk representasi pengetahuan dan penalaran dalam AI.

Fase ketiga memiliki yang berikut di dalamnya -

  • Pendekatan gramatika-logis, menjelang akhir dekade, membantu kami dengan pemroses kalimat tujuan umum yang kuat seperti Mesin Bahasa Inti SRI dan Teori Representasi Wacana, yang menawarkan sarana untuk menangani wacana yang lebih luas.

  • Dalam fase ini kami mendapat beberapa sumber daya & alat praktis seperti parser, misalnya Alvey Natural Language Tools bersama dengan sistem yang lebih operasional dan komersial, misalnya untuk kueri database.

  • Karya tentang leksikon pada tahun 1980-an juga menunjukkan arah pendekatan gramatika-logis.

Fase Keempat (Fase Leksikal & Corpus) - Tahun 1990-an

Kami dapat menggambarkan ini sebagai fase leksikal & korpus. Fase memiliki pendekatan leksikalisasi tata bahasa yang muncul pada akhir 1980-an dan menjadi pengaruh yang meningkat. Ada revolusi dalam pemrosesan bahasa alami dalam dekade ini dengan pengenalan algoritme pembelajaran mesin untuk pemrosesan bahasa.

Studi Bahasa Manusia

Bahasa adalah komponen penting bagi kehidupan manusia dan juga aspek paling mendasar dari perilaku kita. Kita dapat mengalaminya terutama dalam dua bentuk - tertulis dan lisan. Dalam bentuk tertulis, itu adalah cara untuk meneruskan pengetahuan kita dari satu generasi ke generasi berikutnya. Dalam bentuk lisan, itu adalah media utama bagi manusia untuk berkoordinasi satu sama lain dalam perilaku sehari-hari mereka. Bahasa dipelajari dalam berbagai disiplin ilmu. Setiap disiplin ilmu memiliki masalah dan solusi untuk mengatasinya.

Pertimbangkan tabel berikut untuk memahami ini -

Disiplin Masalah Alat

Ahli bahasa

Bagaimana frase dan kalimat dapat dibentuk dengan kata-kata?

Apa yang membatasi kemungkinan arti sebuah kalimat?

Intuisi tentang kemapanan dan makna.

Model matematika struktur. Misalnya semantik teori model, teori bahasa formal.

Psikolinguis

Bagaimana manusia dapat mengidentifikasi struktur kalimat?

Bagaimana arti kata-kata dapat diidentifikasi?

Kapan pemahaman terjadi?

Teknik eksperimental terutama untuk mengukur kinerja manusia.

Analisis statistik pengamatan.

Filsuf

Bagaimana kata dan kalimat mendapatkan maknanya?

Bagaimana objek diidentifikasi oleh kata-kata?

Apa artinya

Argumentasi bahasa alami dengan menggunakan intuisi.

Model matematika seperti logika dan teori model.

Ahli Bahasa Komputasi

Bagaimana kita bisa mengidentifikasi struktur kalimat

Bagaimana pengetahuan dan penalaran dapat dimodelkan?

Bagaimana kita bisa menggunakan bahasa untuk menyelesaikan tugas tertentu?

Algoritma

Struktur data

Model formal representasi dan penalaran.

Teknik AI seperti metode pencarian & representasi.

Ambiguitas dan Ketidakpastian dalam Bahasa

Ambiguitas, umumnya digunakan dalam pemrosesan bahasa alami, dapat disebut sebagai kemampuan untuk dipahami dengan lebih dari satu cara. Secara sederhana, kita dapat mengatakan bahwa ambiguitas adalah kemampuan untuk dipahami dengan lebih dari satu cara. Bahasa alami sangat ambigu. NLP memiliki jenis ambiguitas berikut -

Ambiguitas Leksikal

Ambiguitas dari satu kata disebut ambiguitas leksikal. Misalnya memperlakukan katasilver sebagai kata benda, kata sifat, atau kata kerja.

Ambiguitas Sintaksis

Jenis ambiguitas ini terjadi ketika kalimat diurai dengan cara yang berbeda. Misalnya kalimat “Pria melihat gadis dengan teleskop”. Tidaklah jelas apakah pria itu melihat gadis itu membawa teleskop atau dia melihatnya melalui teleskopnya.

Ambiguitas Semantik

Jenis ambiguitas ini terjadi ketika arti kata-kata itu sendiri dapat disalahartikan. Dengan kata lain, ambiguitas semantik terjadi ketika sebuah kalimat mengandung kata atau frase yang ambigu. Misalnya, kalimat “Mobil menabrak tiang saat sedang melaju” memiliki makna yang ambigu karena interpretasinya dapat berupa “Mobil, saat bergerak, menabrak tiang” dan “Mobil menabrak tiang saat tiang itu bergerak”.

Ambiguitas Anaforis

Jenis ambiguitas ini muncul karena penggunaan entitas anaphora dalam wacana. Misalnya, kuda berlari ke atas bukit. Itu sangat curam. Segera lelah. Di sini, referensi anaforis dari "itu" dalam dua situasi menyebabkan ambiguitas.

Ambiguitas pragmatis

Jenis ambiguitas seperti itu mengacu pada situasi di mana konteks frasa memberinya banyak interpretasi. Dengan kata sederhana, kita dapat mengatakan bahwa ambiguitas pragmatis muncul ketika pernyataannya tidak spesifik. Misalnya, kalimat “Aku juga menyukaimu” dapat memiliki banyak interpretasi seperti aku menyukaimu (sama seperti kamu seperti aku), aku menyukaimu (seperti orang lain dosis).

Tahapan NLP

Diagram berikut menunjukkan tahapan atau langkah logis dalam pemrosesan bahasa alami -

Pengolahan Morfologi

Ini adalah fase pertama NLP. Tujuan dari fase ini adalah untuk memecah potongan input bahasa menjadi kumpulan token yang sesuai dengan paragraf, kalimat, dan kata. Misalnya, kata suka“uneasy” dapat dipecah menjadi dua token sub-kata sebagai “un-easy”.

Analisis Sintaks

Ini adalah fase kedua dari NLP. Tujuan dari fase ini ada dua: untuk memeriksa apakah sebuah kalimat terbentuk dengan baik atau tidak dan untuk memecahnya menjadi struktur yang menunjukkan hubungan sintaksis antara kata-kata yang berbeda. Misalnya kalimat like“The school goes to the boy” akan ditolak oleh penganalisis atau pengurai sintaks.

Analisis Semantik

Ini adalah fase ketiga dari NLP. Tujuan dari fase ini adalah untuk menggambar makna yang tepat, atau Anda dapat mengucapkan makna kamus dari teks. Teks diperiksa kebermaknaannya. Misalnya, penganalisis semantik akan menolak kalimat seperti "Es krim panas".

Analisis Pragmatis

Ini adalah fase keempat dari NLP. Analisis pragmatis hanya menyesuaikan objek / peristiwa aktual, yang ada dalam konteks tertentu dengan referensi objek yang diperoleh selama fase terakhir (analisis semantik). Misalnya, kalimat "Taruh pisang di keranjang di rak" dapat memiliki dua interpretasi semantik dan penganalisis pragmatis akan memilih di antara dua kemungkinan ini.