Dua Repositori Python untuk Visualisasi Teks

Nov 26 2020
Dari yang dibuat dengan baik hingga wow untuk visualisasi teks Sungguh luar biasa apa yang dapat Anda temukan tersedia secara gratis di Internet, terutama dalam bahasa pemrograman dengan basis pengguna yang besar seperti Python. Sungguh luar biasa menemukan topik untuk ini di GitHub yang disebut visualisasi teks.
Foto oleh @scottwebb dari Unsplash dengan teks tambahan oleh penulis

Dari yang dibuat dengan baik hingga yang wow untuk visualisasi teks

Sungguh luar biasa apa yang dapat Anda temukan tersedia secara gratis di Internet, terutama dalam bahasa pemrograman dengan basis pengguna yang besar seperti Python. Sungguh luar biasa menemukan topik untuk ini di GitHub yang disebut visualisasi teks . Saya pikir saya akan memeriksa dua repositori (repo (s)) paling berbintang dalam topik ini, yaitu: Texthero dan Scattertext.

Texthero

Langsung saja Texthero dimulai dengan pengantar yang mudah.

Ini semua tentang:

  1. Pra-pemrosesan teks.
  2. Perwakilan.
  3. Visualisasi.

“Texthero adalah toolkit python untuk bekerja dengan dataset berbasis teks dengan cepat dan mudah. Texthero sangat mudah dipelajari dan dirancang untuk digunakan di atas Panda. "

Ini mencakup alat untuk beberapa aspek:

  • Data teks praproses : ini menawarkan solusi out-of-the-box tetapi juga fleksibel untuk solusi khusus.
  • Pemrosesan Bahasa Alami : frasa unik dan ekstraksi kata kunci, dan pengenalan entitas.
  • Representasi teks : TF-IDF, frekuensi istilah, dan embeddings kata kustom (wip)
  • Analisis ruang vektor : pengelompokan (K-means, Meanshift, DBSCAN dan Hierarchical), pemodelan topik (wip) dan interpretasi.
  • Visualisasi teks : visualisasi ruang vektor, pelokalan tempat pada peta (wip). ”

Argumen mereka adalah bahwa sulit untuk menangani alat NLP yang berbeda (NLTK, SpaCy, Gensim, TextBlob, Sklearn).

Inilah mengapa mereka mengembangkan solusi mereka.

Instal texthero melalui pip:

pip install texthero

Untuk kinerja yang lebih cepat, pastikan Anda telah menginstal versi Spacy> = 2.2. Selain itu, pastikan Anda memiliki python versi terbaru… ”

Ini bisa terlihat sangat rapi.

Saya akan merekomendasikan Anda untuk memeriksanya! Saya akan mencobanya di proyek saya.

Teks sebar

Paket lainnya adalah Scattertext . Saya akan mengatakan yang satu ini saling melengkapi. Selain itu, ini cukup mengesankan dengan plot interaktif, dan dapat rapi jika Anda ingin menyajikan informasi dengan cara yang menarik secara visual mengingat kondisi data yang tepat.

“Alat untuk menemukan istilah yang membedakan dalam corpora, dan menyajikannya dalam plot pencar HTML yang interaktif. Titik yang sesuai dengan istilah diberi label secara selektif sehingga tidak tumpang tindih dengan label atau titik lain. ”

Scattertext memiliki banyak demo! Oleh karena itu, Anda akan menemukan banyak contoh untuk bereksperimen atau menarik inspirasi.

Jika Anda memiliki banyak dokumen dan ingin frekuensi ditampilkan serta semua kejadian, ini bisa sangat baik.

Visualisasinya interaktif dan dapat dicari. Lihat di sini .

Sungguh menakjubkan jenis pekerjaan apa yang telah dilakukan untuk membuat ini dan sangat membantu karena dibagikan secara online.

Semoga ini bisa membantu jika Anda sedang mengerjakan teks.

Anda mungkin saja telah menemukannya sendiri, tetapi jika Anda mengikuti perjalanan saya, saya harap Anda telah menemukan sesuatu yang sebelumnya tidak Anda ketahui.

Ini adalah # 500daysofAI dan Anda membaca artikel 440. Saya menulis satu artikel baru tentang atau terkait dengan kecerdasan buatan setiap hari selama 500 hari.