Gensim - Pendahuluan

Bab ini akan membantu Anda memahami sejarah dan fitur Gensim beserta kegunaan dan keuntungannya.

Apakah Gensim itu?

Gensim = “Generate Similar”adalah pustaka pemrosesan bahasa alami (NLP) sumber terbuka yang populer digunakan untuk pemodelan topik tanpa pengawasan. Ini menggunakan model akademis teratas dan pembelajaran mesin statistik modern untuk melakukan berbagai tugas kompleks seperti -

  • Dokumen bangunan atau vektor kata
  • Corpora
  • Melakukan identifikasi topik
  • Melakukan perbandingan dokumen (mengambil dokumen yang mirip secara semantik)
  • Menganalisis dokumen teks biasa untuk struktur semantik

Selain melakukan tugas-tugas kompleks di atas, Gensim, yang diimplementasikan dengan Python dan Cython, dirancang untuk menangani koleksi teks besar menggunakan streaming data serta algoritme online tambahan. Ini membuatnya berbeda dari paket perangkat lunak pembelajaran mesin yang hanya menargetkan pemrosesan dalam memori.

Sejarah

Pada tahun 2008, Gensim dimulai sebagai kumpulan berbagai skrip Python untuk Matematika Digital Ceko. Di sana, berfungsi untuk menghasilkan daftar pendek dari artikel yang paling mirip dengan artikel tertentu. Namun pada tahun 2009, RARE Technologies Ltd. merilis rilis pertamanya. Kemudian, nanti pada Juli 2019, kami mendapatkan rilis stabilnya (3.8.0).

Berbagai Fitur

Berikut adalah beberapa fitur dan kemampuan yang ditawarkan oleh Gensim -

Skalabilitas

Gensim dapat dengan mudah memproses perusahaan besar dan skala web dengan menggunakan algoritme pelatihan online tambahan. Ini bersifat skalabel, karena tidak perlu seluruh korpus input berada sepenuhnya di Random Access Memory (RAM) pada satu waktu. Dengan kata lain, semua algoritmanya tidak bergantung pada memori sehubungan dengan ukuran korpus.

Kuat

Gensim bersifat kuat dan telah digunakan di berbagai sistem oleh berbagai orang dan organisasi selama lebih dari 4 tahun. Kita dapat dengan mudah memasukkan korpus atau aliran data kita sendiri. Juga sangat mudah untuk diperluas dengan Algoritma Ruang Vektor lainnya.

Platform Agnostik

Seperti yang kita ketahui bahwa Python adalah bahasa yang sangat serbaguna karena Python Gensim murni berjalan di semua platform (seperti Windows, Mac OS, Linux) yang mendukung Python dan Numpy.

Penerapan Multicore yang Efisien

Untuk mempercepat pemrosesan dan pengambilan pada kluster mesin, Gensim menyediakan implementasi multicore yang efisien dari berbagai algoritme populer seperti Latent Semantic Analysis (LSA), Latent Dirichlet Allocation (LDA), Random Projections (RP), Hierarchical Dirichlet Process (HDP).

Open Source dan Kelimpahan Dukungan Komunitas

Gensim dilisensikan di bawah lisensi LGPL GNU yang disetujui OSI yang memungkinkannya digunakan untuk penggunaan pribadi maupun komersial secara gratis. Modifikasi apa pun yang dilakukan di Gensim pada gilirannya bersumber terbuka dan memiliki banyak dukungan komunitas juga.

Kegunaan Gensim

Gensim telah digunakan dan dikutip di lebih dari seribu aplikasi komersial dan akademis. Hal ini juga dikutip dari berbagai makalah penelitian dan tesis mahasiswa. Ini mencakup implementasi paralel yang dialirkan dari berikut ini -

fastText

fastText, menggunakan jaringan saraf untuk penyematan kata, adalah pustaka untuk mempelajari penyematan kata dan klasifikasi teks. Itu dibuat oleh lab AI Research (FAIR) Facebook. Model ini, pada dasarnya, memungkinkan kita membuat algoritme yang diawasi atau tidak diawasi untuk mendapatkan representasi vektor untuk kata-kata.

Word2vec.dll

Word2vec, digunakan untuk menghasilkan penyematan kata, adalah sekelompok model jaringan saraf dangkal dan dua lapisan. Model ini pada dasarnya dilatih untuk merekonstruksi konteks linguistik kata.

LSA (Analisis Semantik Laten)

Ini adalah teknik dalam NLP (Natural Language Processing) yang memungkinkan kita menganalisis hubungan antara sekumpulan dokumen dan istilah yang memuatnya. Itu dilakukan dengan menghasilkan seperangkat konsep yang berkaitan dengan dokumen dan istilah.

LDA (Alokasi Dirichlet Laten)

Ini adalah teknik dalam NLP yang memungkinkan kumpulan pengamatan dijelaskan oleh kelompok yang tidak teramati. Kelompok yang tidak teramati ini menjelaskan mengapa beberapa bagian datanya serupa. Itulah alasannya, ini adalah model statistik generatif.

tf-idf (istilah frekuensi dokumen terbalik frekuensi)

tf-idf, suatu statistik numerik dalam pencarian informasi, mencerminkan betapa pentingnya sebuah kata bagi dokumen dalam korpus. Ini sering digunakan oleh mesin pencari untuk menilai dan memberi peringkat relevansi dokumen berdasarkan permintaan pengguna. Ini juga dapat digunakan untuk pemfilteran kata-kata dalam peringkasan dan klasifikasi teks.

Semuanya akan dijelaskan secara rinci di bagian selanjutnya.

Keuntungan

Gensim adalah paket NLP yang melakukan pemodelan topik. Keunggulan penting Gensim adalah sebagai berikut -

  • Kita mungkin mendapatkan fasilitas pemodelan topik dan embedding kata di paket lain seperti ‘scikit-learn’ dan ‘R’Namun fasilitas yang diberikan Gensim untuk membangun model topik dan embedding kata tidak ada bandingannya. Ini juga menyediakan fasilitas yang lebih nyaman untuk pemrosesan teks.

  • Keuntungan lain yang paling signifikan dari Gensim adalah, ia memungkinkan kita menangani file teks besar bahkan tanpa memuat seluruh file ke dalam memori.

  • Gensim tidak memerlukan penjelasan atau penandaan tangan dokumen yang mahal karena menggunakan model yang tidak diawasi.