テキスト視覚化のための2つのPythonリポジトリ
よくできたものからテキストの視覚化のためのすごいものまで
インターネット上で、特にPythonなどの大規模なユーザーベースを持つプログラミング言語内で自由に利用できるものを見つけることができるのは本当に素晴らしいことです。テキストの視覚化と呼ばれるGitHubでこのトピックを見つけることは信じられないほどです。このトピックで最もスターの付いた2つのリポジトリ(リポジトリ)、つまりTextheroとScattertextを調べようと思いました。
Texthero
すぐにTextheroは簡単な紹介から始まります。
それはすべてについてです:
- テキストの前処理。
- 表現。
- 視覚化。
「Textheroは、テキストベースのデータセットをすばやく簡単に操作するためのPythonツールキットです。Textheroは習得が非常に簡単で、パンダの上で使用できるように設計されています。」
これには、いくつかの側面のツールが含まれています。
- 「テキストデータの前処理:すぐに使用できるソリューションを提供しますが、カスタムソリューションにも柔軟に対応できます。
- 自然言語処理:キーフレーズとキーワードの抽出、および名前付きエンティティの認識。
- テキスト表現:TF-IDF、用語の頻度、およびカスタムの単語埋め込み(wip)
- ベクトル空間分析:クラスタリング(K-means、Meanshift、DBSCAN、およびHierarchical)、トピックモデリング(wip)、および解釈。
- テキストの視覚化:ベクトル空間の視覚化、地図上でのローカリゼーションの配置(wip)。」
彼らの主張は、さまざまなNLPツール(NLTK、SpaCy、Gensim、TextBlob、Sklearn)を扱うのは難しいというものです。
これが彼らがソリューションを開発した理由です。
次の方法でtextheroをインストールしますpip
。
pip install texthero
パフォーマンスを高速化するには、Spacyバージョン> = 2.2がインストールされていることを確認してください。また、Pythonの最新バージョンがあることを確認してください…」
それはかなりきれいに見えることができます。
ぜひチェックしてみてください!私は自分のプロジェクトでそれを試します。
スキャッターテキスト
別のパッケージはScattertextです。これは補完的だと思います。さらに、インタラクティブなプロットで非常に印象的であり、データの適切な条件が与えられたときに視覚的に魅力的な方法で情報を提示したい場合は、きちんとできます。
「コーパス内の特徴的な用語を見つけて、インタラクティブなHTML散布図で表示するためのツール。用語に対応するポイントは、他のラベルやポイントと重ならないように選択的にラベル付けされています。」
Scattertextにはたくさんのデモがあります!したがって、実験したり、インスピレーションを得たりするための例がたくさんあります。
ドキュメントがたくさんあり、頻度とすべてのオカレンスを表示したい場合、これはかなり優れている可能性があります。
視覚化はインタラクティブで検索可能です。それをチェックアウトここに。
これを作るためにどのような作業が行われたかは驚くべきことであり、オンラインで共有することは役に立ちます。
現在テキストを使用している場合は、これがお役に立てば幸いです。
あなたはおそらくこれを自分で見つけたかもしれませんが、私の旅をたどっているなら、あなたが以前は知らなかった何かを発見したことを願っています。
これは#500daysofAIで、あなたは記事440を読んでいます。私は500日間、毎日人工知能に関する、または人工知能に関連する1つの新しい記事を書いています。