Два репозитория Python для визуализации текста
От хорошего качества до вау для визуализации текста
То, что вы можете найти в свободном доступе в Интернете, действительно невероятно, особенно на языках программирования с большой пользовательской базой, таких как Python. Невероятно найти тему для этого на GitHub, которая называется визуализация текста . Я подумал, что изучу два самых популярных репозитория (репозиториев) в этой теме, а именно: Texthero и Scattertext.
Texthero
Сразу Texthero начинает с простого вступления.
Это все о:
- Предварительная обработка текста.
- Представление.
- Визуализация.
«Texthero - это набор инструментов на языке Python, позволяющий быстро и без усилий работать с текстовыми наборами данных. Texthero очень прост в освоении и разработан для использования поверх Pandas ».
Он включает инструменты для нескольких аспектов:
- « Предварительная обработка текстовых данных : он предлагает как готовые решения, так и гибкий для индивидуальных решений.
- Обработка естественного языка : извлечение ключевых фраз и ключевых слов, а также распознавание именованных сущностей.
- Текстовое представление : TF-IDF, частота терминов и пользовательские встраивания слов (wip)
- Анализ векторного пространства : кластеризация (K-means, Meanshift, DBSCAN и Hierarchical), тематическое моделирование (wip) и интерпретация.
- Визуализация текста : визуализация векторного пространства, размещение на картах (wip) ».
Их аргумент состоит в том, что трудно иметь дело с различными инструментами НЛП (NLTK, SpaCy, Gensim, TextBlob, Sklearn).
Вот почему они разработали свое решение.
Установите texthero через pip
:
pip install texthero
Для повышения производительности убедитесь, что у вас установлена версия Spacy> = 2.2. Кроме того, убедитесь, что у вас установлена последняя версия python… »
Это может выглядеть довольно аккуратно.
Я бы порекомендовал вам это проверить! Я буду пробовать это на своем проекте.
Scattertext
Другой пакет - Scattertext . Я бы сказал, что это дополнительная. Кроме того, он впечатляет интерактивным графиком и может быть удобен, если вы хотите представить информацию визуально привлекательным способом при правильных условиях для данных.
«Инструмент для поиска отличительных терминов в корпусах и представления их на интерактивной диаграмме разброса HTML. Точки, соответствующие терминам, помечаются выборочно, чтобы они не перекрывались с другими метками или точками ».
В Scattertext есть много демонстраций! Поэтому вы найдете множество примеров, чтобы поэкспериментировать или почерпнуть вдохновение.
Если у вас много документов и вы хотите, чтобы частота отображалась, а также все вхождения, это может быть довольно хорошо.
Визуализация интерактивна и доступна для поиска. Посмотрите здесь .
Потрясающе, какая работа была вложена в создание этого, и полезно, что им поделились в Интернете.
Надеюсь, это было полезно, если вы сейчас работаете с текстом.
Вы могли бы найти это сами, но если вы следите за моим путешествием, я надеюсь, что вы обнаружили то, о чем раньше не знали.
Это # 500daysofAI, и вы читаете статью 440. Я пишу по одной новой статье об искусственном интеллекте или связанной с ним каждый день в течение 500 дней.