Zwei Python-Repositorys für die Textvisualisierung
Von gut gemacht bis wow für Textvisualisierungen
Es ist wirklich unglaublich, was Sie im Internet frei verfügbar finden, insbesondere in Programmiersprachen mit einer großen Benutzerbasis wie Python. Es ist unglaublich , ein Thema für den auf GitHub genannt zu finden Text Visualisierung . Ich dachte, ich würde die beiden am häufigsten markierten Repositories (Repos) in diesem Thema untersuchen, nämlich Texthero und Scattertext.
Texthero
Sogleich Texthero beginnt mit einem einfachen Einstieg.
Es geht um folgendes:
- Textvorverarbeitung.
- Darstellung.
- Visualisierung.
„Texthero ist ein Python-Toolkit, mit dem Sie schnell und mühelos mit textbasierten Datensätzen arbeiten können. Texthero ist sehr einfach zu erlernen und so konzipiert, dass es zusätzlich zu Pandas verwendet werden kann. “
Es enthält Tools für verschiedene Aspekte:
- „ Textdaten vorverarbeiten : Sie bieten sowohl sofort einsatzbereite Lösungen als auch flexible Lösungen für kundenspezifische Lösungen.
- Verarbeitung natürlicher Sprache : Extraktion von Schlüsselwörtern und Schlüsselwörtern sowie Erkennung benannter Entitäten.
- Textdarstellung : TF-IDF, Termhäufigkeit und benutzerdefinierte Worteinbettungen (Wip)
- Vektorraumanalyse : Clustering (K-Mittel, Meanshift, DBSCAN und Hierarchical), Themenmodellierung (Wip) und Interpretation.
- Textvisualisierung : Vektorraumvisualisierung, Lokalisierung auf Karten (Wip). “
Ihr Argument ist, dass es schwierig ist, mit verschiedenen NLP-Tools (NLTK, SpaCy, Gensim, TextBlob, Sklearn) umzugehen.
Deshalb haben sie ihre Lösung entwickelt.
Installieren Sie texthero über pip
:
pip install texthero
Stellen Sie für eine schnellere Leistung sicher, dass Sie die Spacy-Version> = 2.2 installiert haben. Stellen Sie außerdem sicher, dass Sie eine aktuelle Version von Python haben… “
Es kann ziemlich ordentlich aussehen.
Ich würde Ihnen empfehlen, es auszuprobieren! Ich werde es bei meinem Projekt versuchen.
Scattertext
Ein weiteres Paket ist Scattertext . Ich würde sagen, dass dies komplementär ist. Darüber hinaus ist es mit einem interaktiven Plot sehr beeindruckend, und es kann hilfreich sein, wenn Sie die Informationen unter den richtigen Bedingungen für die Daten visuell ansprechend präsentieren möchten.
„Ein Tool, um unterscheidende Begriffe in Korpora zu finden und sie in einem interaktiven HTML-Streudiagramm darzustellen. Punkte, die Begriffen entsprechen, werden selektiv beschriftet, damit sie sich nicht mit anderen Beschriftungen oder Punkten überschneiden. “
Scattertext hat viele Demos! Daher finden Sie viele Beispiele, mit denen Sie experimentieren oder sich inspirieren lassen können.
Wenn Sie viele Dokumente haben und die Häufigkeit sowie alle Vorkommen anzeigen möchten, kann dies sehr gut sein.
Die Visualisierung ist interaktiv und durchsuchbar. Schau es dir hier an .
Es ist erstaunlich, welche Art von Arbeit in diese Arbeit geflossen ist, und es ist hilfreich, dass sie online geteilt wird.
Hoffe das war hilfreich wenn du gerade mit Text arbeitest.
Sie hätten das wahrscheinlich selbst finden können, aber wenn Sie meiner Reise folgen, hoffe ich, dass Sie etwas entdeckt haben, von dem Sie vorher nichts wussten.
Dies ist # 500daysofAI und Sie lesen Artikel 440. Ich schreibe 500 Tage lang jeden Tag einen neuen Artikel über oder im Zusammenhang mit künstlicher Intelligenz.