Dos repositorios de Python para visualización de texto
De lo bien hecho a sorprendente para visualizaciones de texto
Es realmente increíble lo que puede encontrar disponible gratuitamente en Internet, especialmente dentro de lenguajes de programación con una gran base de usuarios como Python. Es increíble encontrar un tema para esto en GitHub llamado visualización de texto . Pensé que examinaría los dos repositorios (repositorios) más destacados en este tema, a saber: Texthero y Scattertext.
Texthero
Enseguida Texthero comienza con una introducción fácil.
Todo es sobre:
- Preprocesamiento de texto.
- Representación.
- Visualización.
“Texthero es un conjunto de herramientas de Python para trabajar con conjuntos de datos basados en texto de forma rápida y sin esfuerzo. Texthero es muy fácil de aprender y está diseñado para usarse sobre Pandas ".
Incluye herramientas para varios aspectos:
- “ Preprocesar datos de texto : ofrece ambas soluciones listas para usar, pero también es flexible para soluciones personalizadas.
- Procesamiento de lenguaje natural : extracción de frases clave y palabras clave, y reconocimiento de entidades nombradas.
- Representación de texto : TF-IDF, frecuencia de términos e incrustaciones de palabras personalizadas (wip)
- Análisis del espacio vectorial : agrupamiento (K-means, Meanshift, DBSCAN y Hierarchical), modelado de temas (wip) e interpretación.
- Visualización de texto : visualización del espacio vectorial, localización de lugares en mapas (wip) ".
Su argumento es que es difícil lidiar con diferentes herramientas de PNL (NLTK, SpaCy, Gensim, TextBlob, Sklearn).
Por eso desarrollaron su solución.
Instalar texthero a través de pip
:
pip install texthero
Para un rendimiento más rápido, asegúrese de haber instalado la versión de Spacy> = 2.2. Además, asegúrese de tener una versión reciente de Python ... "
Puede verse bastante bien.
¡Te recomiendo que lo pruebes! Lo intentaré en mi proyecto.
Scattertext
Otro paquete es Scattertext . Yo diría que este es complementario. Además, es bastante impresionante con una trama interactiva, y puede ser genial si desea presentar la información de una manera visualmente atractiva dadas las condiciones adecuadas para los datos.
“Una herramienta para encontrar términos distintivos en corpus y presentarlos en un diagrama de dispersión HTML interactivo. Los puntos correspondientes a los términos se etiquetan de forma selectiva para que no se superpongan con otras etiquetas o puntos ".
¡Scattertext tiene muchas demostraciones! Por lo tanto, encontrará muchos ejemplos para experimentar o inspirarse.
Si tiene muchos documentos y desea que se muestre la frecuencia, así como todas las ocurrencias, esto puede ser bastante excelente.
La visualización es interactiva y se puede buscar. Compruébalo aquí .
Es asombroso el tipo de trabajo que se ha realizado para hacer esto y es útil que se comparta en línea.
Espero que esto haya sido útil si actualmente está trabajando con texto.
Probablemente podría haberlo encontrado usted mismo, pero si está siguiendo mi viaje, espero que haya descubierto algo que no conocía anteriormente.
Este es # 500daysofAI y estás leyendo el artículo 440. Estoy escribiendo un nuevo artículo sobre inteligencia artificial o relacionado con ella todos los días durante 500 días.