Dwa repozytoria Pythona do wizualizacji tekstu
Od dobrze wykonanych po wow dla wizualizacji tekstu
To naprawdę niesamowite, co można znaleźć bezpłatnie w Internecie, zwłaszcza w językach programowania z dużą bazą użytkowników, takich jak Python. Niesamowite jest znalezienie na GitHub tematu na ten temat zwanego wizualizacją tekstu . Pomyślałem, że zbadam dwa najbardziej oznaczone repozytoria (repozytoria) w tym temacie, a mianowicie: Texthero i Scattertext.
Texthero
Od razu Texthero zaczyna się od prostego wprowadzenia.
To jest wszystko o:
- Wstępne przetwarzanie tekstu.
- Reprezentacja.
- Wyobrażanie sobie.
„Texthero to zestaw narzędzi w języku Python, który umożliwia szybką i łatwą pracę z zestawem danych tekstowych. Texthero jest bardzo łatwy do nauczenia i zaprojektowany do używania na pandach ”.
Zawiera narzędzia do kilku aspektów:
- „ Przetwarzaj wstępnie dane tekstowe : oferuje zarówno gotowe rozwiązania, ale jest również elastyczny w przypadku rozwiązań niestandardowych.
- Przetwarzanie języka naturalnego : wyodrębnianie fraz kluczowych i słów kluczowych oraz rozpoznawanie nazwanych jednostek.
- Reprezentacja tekstu : TF-IDF, częstotliwość terminów i niestandardowe osadzanie słów (wip)
- Analiza przestrzeni wektorowej : grupowanie (K-średnie, Meanshift, DBSCAN i Hierarchiczne), modelowanie tematyczne (wip) i interpretacja.
- Wizualizacja tekstu : wizualizacja przestrzeni wektorowej, lokalizacja lokalizacji na mapach (wip). ”
Ich argumentem jest to, że trudno jest poradzić sobie z różnymi narzędziami NLP (NLTK, SpaCy, Gensim, TextBlob, Sklearn).
Dlatego opracowali swoje rozwiązanie.
Zainstaluj texthero przez pip
:
pip install texthero
Aby uzyskać większą wydajność, upewnij się, że masz zainstalowaną wersję Spacy> = 2.2. Upewnij się również, że masz najnowszą wersję Pythona… ”
Może wyglądać całkiem schludnie.
Polecam to sprawdzić! Spróbuję tego w moim projekcie.
Scattertext
Kolejnym pakietem jest Scattertext . Powiedziałbym, że ten jest komplementarny. Dodatkowo robi wrażenie dzięki interaktywnej fabule i może być zgrabny, jeśli chcesz przedstawić informacje w atrakcyjny wizualnie sposób, biorąc pod uwagę odpowiednie warunki dla danych.
„Narzędzie do znajdowania wyróżniających terminów w korpusach i prezentowania ich na interaktywnym wykresie punktowym HTML. Punkty odpowiadające terminom są selektywnie etykietowane, aby nie nakładały się na inne etykiety lub punkty ”.
Scattertext zawiera wiele wersji demonstracyjnych! Dlatego znajdziesz wiele przykładów do eksperymentowania lub czerpania inspiracji.
Jeśli masz dużo dokumentów i chcesz wyświetlać częstotliwość, a także wszystkie wystąpienia, może to być raczej doskonałe.
Wizualizacja jest interaktywna i umożliwia wyszukiwanie. Sprawdź to tutaj .
To zadziwiające, jaki rodzaj pracy włożono w stworzenie tego i warto udostępnić go online.
Mam nadzieję, że było to pomocne, jeśli obecnie pracujesz z tekstem.
Prawdopodobnie mogłeś znaleźć to sam, ale jeśli podążasz moją podróżą, mam nadzieję, że odkryłeś coś, o czym wcześniej nie wiedziałeś.
To jest # 500daysofAI, a ty czytasz artykuł 440. Codziennie przez 500 dni piszę jeden nowy artykuł o sztucznej inteligencji lub związany z nią.