Два репозитория Python для визуализации текста

Nov 26 2020
От хорошо сделанного до вау для визуализации текста Это действительно невероятно, что вы можете найти в свободном доступе в Интернете, особенно в языках программирования с большой пользовательской базой, таких как Python. Невероятно найти тему для этого на GitHub, которая называется визуализация текста.
Фото @scottwebb с сайта Unsplash с добавленным автором текстом

От хорошего качества до вау для визуализации текста

То, что вы можете найти в свободном доступе в Интернете, действительно невероятно, особенно на языках программирования с большой пользовательской базой, таких как Python. Невероятно найти тему для этого на GitHub, которая называется визуализация текста . Я подумал, что изучу два самых популярных репозитория (репозиториев) в этой теме, а именно: Texthero и Scattertext.

Texthero

Сразу Texthero начинает с простого вступления.

Это все о:

  1. Предварительная обработка текста.
  2. Представление.
  3. Визуализация.

«Texthero - это набор инструментов на языке Python, позволяющий быстро и без усилий работать с текстовыми наборами данных. Texthero очень прост в освоении и разработан для использования поверх Pandas ».

Он включает инструменты для нескольких аспектов:

  • « Предварительная обработка текстовых данных : он предлагает как готовые решения, так и гибкий для индивидуальных решений.
  • Обработка естественного языка : извлечение ключевых фраз и ключевых слов, а также распознавание именованных сущностей.
  • Текстовое представление : TF-IDF, частота терминов и пользовательские встраивания слов (wip)
  • Анализ векторного пространства : кластеризация (K-means, Meanshift, DBSCAN и Hierarchical), тематическое моделирование (wip) и интерпретация.
  • Визуализация текста : визуализация векторного пространства, размещение на картах (wip) ».

Их аргумент состоит в том, что трудно иметь дело с различными инструментами НЛП (NLTK, SpaCy, Gensim, TextBlob, Sklearn).

Вот почему они разработали свое решение.

Установите texthero через pip:

pip install texthero

Для повышения производительности убедитесь, что у вас установлена ​​версия Spacy> = 2.2. Кроме того, убедитесь, что у вас установлена ​​последняя версия python… »

Это может выглядеть довольно аккуратно.

Я бы порекомендовал вам это проверить! Я буду пробовать это на своем проекте.

Scattertext

Другой пакет - Scattertext . Я бы сказал, что это дополнительная. Кроме того, он впечатляет интерактивным графиком и может быть удобен, если вы хотите представить информацию визуально привлекательным способом при правильных условиях для данных.

«Инструмент для поиска отличительных терминов в корпусах и представления их на интерактивной диаграмме разброса HTML. Точки, соответствующие терминам, помечаются выборочно, чтобы они не перекрывались с другими метками или точками ».

В Scattertext есть много демонстраций! Поэтому вы найдете множество примеров, чтобы поэкспериментировать или почерпнуть вдохновение.

Если у вас много документов и вы хотите, чтобы частота отображалась, а также все вхождения, это может быть довольно хорошо.

Визуализация интерактивна и доступна для поиска. Посмотрите здесь .

Потрясающе, какая работа была вложена в создание этого, и полезно, что им поделились в Интернете.

Надеюсь, это было полезно, если вы сейчас работаете с текстом.

Вы могли бы найти это сами, но если вы следите за моим путешествием, я надеюсь, что вы обнаружили то, о чем раньше не знали.

Это # 500daysofAI, и вы читаете статью 440. Я пишу по одной новой статье об искусственном интеллекте или связанной с ним каждый день в течение 500 дней.