Due repository Python per la visualizzazione del testo

Nov 26 2020
Da ben fatto a wow per la visualizzazione del testo È davvero incredibile quello che puoi trovare liberamente disponibile su Internet, specialmente all'interno di linguaggi di programmazione con una vasta base di utenti come Python. È incredibile trovare un argomento per questo su GitHub chiamato visualizzazione del testo.
Foto di @scottwebb da Unsplash con testo aggiunto dall'autore

Da ben fatto a wow per la visualizzazione del testo

È davvero incredibile quello che puoi trovare liberamente disponibile su Internet, specialmente all'interno di linguaggi di programmazione con una vasta base di utenti come Python. È incredibile trovare un argomento per questo su GitHub chiamato visualizzazione del testo . Ho pensato di esaminare i due repository più speciali (repo(s)) in questo argomento, vale a dire: Texthero e Scattertext.

Texthero

Texthero inizia subito con una semplice introduzione.

Si tratta di:

  1. Preelaborazione del testo.
  2. Rappresentazione.
  3. Visualizzazione.

“Texthero è un toolkit Python per lavorare con set di dati basati su testo in modo rapido e semplice. Texthero è molto semplice da imparare e progettato per essere utilizzato sopra i Panda".

Include strumenti per diversi aspetti:

  • Preelabora i dati di testo : offre entrambe le soluzioni pronte all'uso ma è anche flessibile per soluzioni personalizzate.
  • Elaborazione del linguaggio naturale : estrazione di frasi chiave e parole chiave e riconoscimento di entità nominative.
  • Rappresentazione del testo : TF-IDF, frequenza dei termini e incorporamenti di parole personalizzati (wip)
  • Analisi dello spazio vettoriale : clustering (K-mean, Meanshift, DBSCAN e Hierarchical), topic modeling (wip) e interpretazione.
  • Visualizzazione del testo : visualizzazione dello spazio vettoriale, localizzazione del luogo su mappe (wip).”

La loro argomentazione è che è difficile gestire diversi strumenti NLP (NLTK, SpaCy, Gensim, TextBlob, Sklearn).

Questo è il motivo per cui hanno sviluppato la loro soluzione.

Installa texthero tramite pip:

pip install texthero

Per prestazioni più veloci, assicurati di aver installato la versione Spacy >= 2.2. Inoltre, assicurati di avere una versione recente di Python…”

Può sembrare abbastanza pulito.

Ti consiglierei di dare un'occhiata! Lo proverò sul mio progetto.

Testo a dispersione

Un altro pacchetto è Scattertext . Direi che questo è complementare. Inoltre è piuttosto impressionante con una trama interattiva e può essere pulito se si desidera presentare le informazioni in un modo visivamente accattivante date le giuste condizioni per i dati.

“Uno strumento per trovare termini distintivi nei corpora e presentarli in un grafico a dispersione HTML interattivo. I punti corrispondenti ai termini vengono etichettati in modo selettivo in modo che non si sovrappongano ad altre etichette o punti".

Scattertext ha molte demo! Pertanto, troverai molti esempi con cui sperimentare o da cui trarre ispirazione.

Se si dispone di molti documenti e si desidera visualizzare la frequenza e tutte le occorrenze, questo può essere piuttosto eccellente.

La visualizzazione è interattiva e ricercabile. Dai un'occhiata qui .

È sbalorditivo il tipo di lavoro che è stato dedicato alla realizzazione di questo ed è utile che sia condiviso online.

Spero che questo sia stato utile se stai attualmente lavorando con il testo.

Probabilmente avresti potuto trovarlo tu stesso, ma se stai seguendo il mio viaggio spero che tu abbia scoperto qualcosa di cui non sapevi in ​​precedenza.

Questo è #500daysofAI e stai leggendo l'articolo 440. Sto scrivendo un nuovo articolo sull'intelligenza artificiale o relativo all'intelligenza artificiale ogni giorno per 500 giorni.