Gensim-はじめに

この章は、Gensimの歴史と機能、およびその使用法と利点を理解するのに役立ちます。

Gensimとは何ですか?

Gensim = “Generate Similar”は、教師なしトピックモデリングに使用される人気のあるオープンソースの自然言語処理(NLP)ライブラリです。最高の学術モデルと最新の統計的機械学習を使用して、次のようなさまざまな複雑なタスクを実行します。

  • ドキュメントまたは単語ベクトルの構築
  • Corpora
  • トピック識別の実行
  • ドキュメント比較の実行(意味的に類似したドキュメントの取得)
  • プレーンテキストドキュメントのセマンティック構造の分析

上記の複雑なタスクの実行とは別に、PythonとCythonで実装されたGensimは、データストリーミングとインクリメンタルオンラインアルゴリズムを使用して大規模なテキストコレクションを処理するように設計されています。これにより、インメモリ処理のみを対象とする機械学習ソフトウェアパッケージとは異なります。

歴史

2008年、Gensimは、チェコのデジタル数学用のさまざまなPythonスクリプトのコレクションとしてスタートしました。そこでは、特定の特定の記事に最も類似した記事の短いリストを生成するのに役立ちました。しかし、2009年に、RARE TechnologiesLtd。は最初のリリースをリリースしました。その後、2019年7月の後半に、安定版リリース(3.8.0)を入手しました。

さまざまな機能

以下は、Gensimが提供する機能の一部です。

スケーラビリティ

Gensimは、インクリメンタルオンライントレーニングアルゴリズムを使用して、大規模でWeb規模のコーパスを簡単に処理できます。入力コーパス全体をランダムアクセスメモリ(RAM)に一度に完全に常駐させる必要がないため、本質的にスケーラブルです。言い換えると、そのすべてのアルゴリズムは、コーパスのサイズに関してメモリに依存しません。

壮健

Gensimは本質的に堅牢であり、さまざまなシステムでさまざまな人々や組織によって4年以上使用されています。独自の入力コーパスまたはデータストリームを簡単にプラグインできます。他のベクトル空間アルゴリズムで拡張することも非常に簡単です。

プラットフォームにとらわれない

Pythonは、純粋なPythonであるため、非常に用途の広い言語であることがわかっています。Gensimは、PythonとNumpyをサポートするすべてのプラットフォーム(Windows、Mac OS、Linuxなど)で実行されます。

効率的なマルチコア実装

マシンクラスターでの処理と取得を高速化するために、Gensimは次のようなさまざまな一般的なアルゴリズムの効率的なマルチコア実装を提供します。 Latent Semantic Analysis (LSA), Latent Dirichlet Allocation (LDA), Random Projections (RP), Hierarchical Dirichlet Process (HDP)

オープンソースと豊富なコミュニティサポート

Gensimは、OSI承認のGNU LGPLライセンスの下でライセンスされており、個人用と商用の両方で無料で使用できます。Gensimで行われた変更はすべてオープンソースであり、コミュニティのサポートも豊富です。

Gensimの使用

Gensimは、1,000を超える商用および学術アプリケーションで使用および引用されています。また、さまざまな研究論文や学生論文でも引用されています。これには、以下のストリーミングされた並列化された実装が含まれます。

fastText

fastTextは、単語の埋め込みにニューラルネットワークを使用し、単語の埋め込みとテキスト分類を学習するためのライブラリです。これは、FacebookのAI Research(FAIR)ラボによって作成されています。このモデルでは、基本的に、単語のベクトル表現を取得するための教師ありまたは教師なしアルゴリズムを作成できます。

Word2vec

単語の埋め込みを生成するために使用されるWord2vecは、浅い2層のニューラルネットワークモデルのグループです。モデルは基本的に、単語の言語コンテキストを再構築するようにトレーニングされています。

LSA(潜在意味解析)

これは、NLP(Natural Language Processing)の手法であり、一連のドキュメントとそれに含まれる用語との関係を分析できます。これは、ドキュメントと用語に関連する一連の概念を作成することによって行われます。

LDA(潜在的ディリクレ割り当て)

これは、観察のセットを観察されていないグループによって説明できるようにするNLPの手法です。これらの観察されていないグループは、データの一部が類似している理由を説明しています。それが理由です、それは生成的な統計モデルです。

tf-idf(用語頻度-逆ドキュメント頻度)

情報検索の数値統計であるtf-idfは、コーパス内のドキュメントにとって単語がどれほど重要であるかを反映しています。これは、ユーザークエリを指定してドキュメントの関連性をスコアリングおよびランク付けするために、検索エンジンによってよく使用されます。また、テキストの要約と分類におけるストップワードのフィルタリングにも使用できます。

これらはすべて、次のセクションで詳しく説明します。

利点

Gensimは、トピックモデリングを行うNLPパッケージです。Gensimの重要な利点は次のとおりです-

  • トピックモデリングや単語の埋め込みなどの他のパッケージの機能を利用できる場合があります。 ‘scikit-learn’ そして ‘R’、しかし、トピックモデルの構築と単語の埋め込みのためにGensimが提供する機能は比類のないものです。また、テキスト処理のためのより便利な機能を提供します。

  • Gensimのもう1つの最も重要な利点は、ファイル全体をメモリにロードしなくても、大きなテキストファイルを処理できることです。

  • Gensimは、教師なしモデルを使用するため、コストのかかる注釈やドキュメントの手動タグ付けを必要としません。