Deux référentiels Python pour la visualisation de texte

Nov 26 2020
Du bien fait au wow pour les visualisations de texte C'est vraiment incroyable ce que vous pouvez trouver gratuitement disponible sur Internet, en particulier dans les langages de programmation avec une large base d'utilisateurs comme Python. Il est incroyable de trouver un sujet pour cela sur GitHub appelé visualisation de texte.
Photo de @scottwebb d'Unsplash avec texte ajouté par l'auteur

Du bien fait au wow pour les visualisations de texte

C'est vraiment incroyable ce que vous pouvez trouver gratuitement disponible sur Internet, en particulier dans les langages de programmation avec une large base d'utilisateurs comme Python. Il est incroyable de trouver un sujet pour cela sur GitHub appelé visualisation de texte . J'ai pensé que j'examinerais les deux référentiels les plus étoilés (repo (s)) dans ce sujet, à savoir: Texthero et Scattertext.

Texthero

Tout de suite Texthero commence par une introduction facile.

Il s'agit de:

  1. Prétraitement du texte.
  2. Représentation.
  3. Visualisation.

«Texthero est une boîte à outils python permettant de travailler rapidement et sans effort avec un ensemble de données textuelles. Texthero est très simple à apprendre et conçu pour être utilisé sur Pandas. »

Il comprend des outils pour plusieurs aspects:

  • « Prétraitez les données texte : il offre à la fois des solutions prêtes à l'emploi, mais il est également flexible pour les solutions personnalisées.
  • Traitement du langage naturel : extraction de phrases clés et de mots-clés, et reconnaissance d'entités nommées.
  • Représentation de texte : TF-IDF, fréquence des termes et embeddings de mots personnalisés (wip)
  • Analyse de l'espace vectoriel : clustering (K-means, Meanshift, DBSCAN et Hierarchical), modélisation thématique (wip) et interprétation.
  • Visualisation de texte : visualisation de l' espace vectoriel, localisation sur les cartes (wip). »

Leur argument est qu'il est difficile de gérer différents outils de PNL (NLTK, SpaCy, Gensim, TextBlob, Sklearn).

C'est pourquoi ils ont développé leur solution.

Installez texthero via pip:

pip install texthero

Pour des performances plus rapides, assurez-vous d'avoir installé la version Spacy> = 2.2. Assurez-vous également que vous disposez d'une version récente de python… »

Cela peut paraître assez soigné.

Je vous recommanderais de le vérifier! Je vais l'essayer sur mon projet.

Scattertext

Un autre package est Scattertext . Je dirais que celui-ci est complémentaire. De plus, il est assez impressionnant avec un tracé interactif, et il peut être intéressant si vous souhaitez présenter les informations d'une manière visuellement attrayante étant donné les bonnes conditions pour les données.

«Un outil pour trouver des termes distinctifs dans des corpus et les présenter dans un nuage de points HTML interactif. Les points correspondant aux termes sont étiquetés de manière sélective afin qu'ils ne se chevauchent pas avec d'autres étiquettes ou points. "

Scattertext a beaucoup de démos! Par conséquent, vous trouverez de nombreux exemples pour expérimenter ou vous inspirer.

Si vous avez beaucoup de documents et que vous souhaitez afficher la fréquence ainsi que toutes les occurrences, cela peut être plutôt excellent.

La visualisation est interactive et interrogeable. Découvrez-le ici .

Le genre de travail a été stupéfiant et il est utile de le partager en ligne.

J'espère que cela vous a été utile si vous travaillez actuellement avec du texte.

Vous pourriez probablement avoir trouvé cela vous-même, mais si vous suivez mon voyage, j'espère que vous avez découvert quelque chose que vous ne saviez pas auparavant.

C'est # 500daysofAI et vous lisez l'article 440. J'écris un nouvel article sur ou lié à l'intelligence artificielle chaque jour pendant 500 jours.