텍스트 시각화를위한 두 개의 Python 저장소

Nov 26 2020
잘 만들어진 것부터 텍스트 시각화를위한 놀라운 것까지 인터넷에서, 특히 Python과 같은 대규모 사용자 기반의 프로그래밍 언어에서 무료로 사용할 수있는 것은 정말 놀랍습니다. GitHub에서 텍스트 시각화라는 주제를 찾는 것은 놀랍습니다.
Unsplash의 @scottwebb의 사진과 작성자의 추가 텍스트

잘 만들어진 것에서 놀라운 텍스트 시각화까지

인터넷, 특히 Python과 같은 대규모 사용자 기반의 프로그래밍 언어에서 무료로 사용할 수있는 것은 정말 놀랍습니다. GitHub에서 텍스트 시각화 라는 주제를 찾는 것은 놀라운 일입니다 . 이 주제에서 가장 별표가 많은 두 저장소 (repo (s)), 즉 Texthero와 Scattertext를 살펴 보겠다고 생각했습니다.

Texthero

곧바로 Texthero 는 쉬운 소개로 시작됩니다.

그것은 모두에 관한 것입니다 :

  1. 텍스트 전처리.
  2. 대표.
  3. 심상.

“Texthero는 텍스트 기반 데이터 세트를 빠르고 쉽게 작업 할 수있는 Python 툴킷입니다. Texthero는 배우기가 매우 간단하며 Pandas 위에서 사용하도록 설계되었습니다. "

여기에는 여러 측면에 대한 도구가 포함됩니다.

  • " 텍스트 데이터 전처리 : 두 가지 기본 솔루션을 모두 제공하지만 맞춤형 솔루션에도 유연합니다.
  • 자연어 처리 : 키 프레이즈 및 키워드 추출, 명명 된 엔티티 인식.
  • 텍스트 표현 : TF-IDF, 용어 빈도 및 사용자 지정 단어 임베딩 (wip)
  • 벡터 공간 분석 : 클러스터링 (K- 평균, Meanshift, DBSCAN 및 계층 적), 주제 모델링 (wip) 및 해석.
  • 텍스트 시각화 : 벡터 공간 시각화,지도에 현지화 배치 (wip).”

그들의 주장은 다른 NLP 도구 (NLTK, SpaCy, Gensim, TextBlob, Sklearn)를 다루는 것이 어렵다는 것입니다.

이것이 그들이 솔루션을 개발 한 이유입니다.

다음을 통해 texthero 설치 pip:

pip install texthero

더 빠른 성능을 위해 Spacy 버전> = 2.2를 설치했는지 확인하십시오. 또한 최신 버전의 python이 있는지 확인하세요…”

꽤 깔끔하게 보일 수 있습니다.

나는 그것을 확인하는 것이 좋습니다! 나는 내 프로젝트에서 그것을 시도 할 것입니다.

Scattertext

또 다른 패키지는 Scattertext 입니다. 나는 이것이 보완 적이라고 말하고 싶습니다. 또한 인터랙티브 플롯으로 매우 인상적이며 데이터에 대한 올바른 조건이 주어지면 시각적으로 매력적인 방식으로 정보를 표시하려는 경우 깔끔 할 수 있습니다.

“말뭉치에서 구별되는 용어를 찾아 대화식 HTML 산점도에 표시하는 도구입니다. 용어에 해당하는 포인트는 다른 라벨이나 포인트와 겹치지 않도록 선택적으로 라벨이 지정됩니다.”

Scattertext에는 많은 데모가 있습니다! 따라서 실험하거나 영감을 얻을 수있는 많은 예제를 찾을 수 있습니다.

많은 문서가 있고 모든 발생과 함께 빈도를 표시하려는 경우 이것은 다소 우수 할 수 있습니다.

시각화는 대화 형이며 검색 가능합니다. 여기에서 확인 하십시오 .

이것을 만드는 데 어떤 종류의 작업이 들어 갔는지 놀랍고 온라인에서 공유하는 것이 도움이됩니다.

현재 텍스트로 작업하는 경우 도움이 되었기를 바랍니다.

당신은 이것을 직접 발견 할 수도 있었을 것입니다. 그러나 당신이 제 여정을 따라 가고 있다면 이전에 알지 못했던 것을 발견했으면합니다.

이것은 # 500daysofAI이고 당신은 기사 440을 읽고 있습니다. 저는 500 일 동안 인공 지능에 관한 새로운 기사를 매일 쓰고 있습니다.