Dois Repositórios Python para Visualização de Texto

Nov 26 2020
De bem feito a wow para visualizações de texto É realmente incrível o que você pode encontrar disponível gratuitamente na Internet, especialmente em linguagens de programação com uma grande base de usuários como Python. É incrível encontrar um tópico para isso no GitHub chamado visualização de texto.
Foto de @scottwebb de Unsplash com texto adicionado pelo autor

De bem feito a wow para visualizações de texto

É realmente incrível o que você pode encontrar disponível gratuitamente na Internet, especialmente em linguagens de programação com uma grande base de usuários, como Python. É incrível encontrar um tópico para isso no GitHub chamado visualização de texto . Pensei em examinar os dois repositórios mais marcados (repo (s)) neste tópico, a saber: Texthero e Scattertext.

Herói de Texto

Imediatamente Texthero começa com uma introdução fácil.

É tudo sobre:

  1. Pré-processamento de texto.
  2. Representação.
  3. Visualização.

“Texthero é um kit de ferramentas Python para trabalhar com conjunto de dados baseado em texto de forma rápida e sem esforço. Texthero é muito simples de aprender e projetado para ser usado em cima de Pandas. ”

Inclui ferramentas para vários aspectos:

  • Pré-processar dados de texto : ele oferece soluções prontas para usar, mas também é flexível para soluções personalizadas.
  • Processamento de linguagem natural : extração de frases-chave e palavras-chave e reconhecimento de entidades nomeadas.
  • Representação de texto : TF-IDF, frequência de termo e embeddings de palavras personalizadas (wip)
  • Análise de espaço vetorial : agrupamento (K-means, Meanshift, DBSCAN e Hierárquico), modelagem de tópicos (wip) e interpretação.
  • Visualização de texto : visualização do espaço vetorial, localização de lugares em mapas (wip). ”

O argumento deles é que é difícil lidar com diferentes ferramentas de PNL (NLTK, SpaCy, Gensim, TextBlob, Sklearn).

É por isso que desenvolveram sua solução.

Instale texthero via pip:

pip install texthero

Para um desempenho mais rápido, certifique-se de ter instalado o Spacy versão> = 2.2. Além disso, certifique-se de ter uma versão recente do python ... ”

Pode parecer bem legal.

Eu recomendo que você dê uma olhada! Eu estarei testando no meu projeto.

Texto de dispersão

Outro pacote é o Scattertext . Eu diria que este é complementar. Além disso, é bastante impressionante com um gráfico interativo e pode ser legal se você quiser apresentar as informações de uma forma visualmente atraente, dadas as condições certas para os dados.

“Uma ferramenta para encontrar termos distintos em corpora e apresentá-los em um gráfico de dispersão HTML interativo. Os pontos correspondentes aos termos são rotulados seletivamente para que não se sobreponham a outros rótulos ou pontos. ”

O Scattertext tem muitas demonstrações! Portanto, você encontrará muitos exemplos para experimentar ou inspirar-se.

Se você tiver muitos documentos e quiser que a frequência seja exibida, bem como todas as ocorrências, isso pode ser excelente.

A visualização é interativa e pesquisável. Confira aqui .

É impressionante o tipo de trabalho feito para fazer isso e é útil que seja compartilhado online.

Espero que tenha sido útil se você estiver trabalhando com texto.

Você provavelmente poderia ter encontrado isso sozinho, mas se estiver acompanhando minha jornada, espero que tenha descoberto algo que não sabia antes.

Este é o número 500daysofAI e você está lendo o artigo 440. Estou escrevendo um novo artigo sobre ou relacionado à inteligência artificial todos os dias durante 500 dias.