ScikitLearn-はじめに
この章では、Scikit-LearnまたはSklearnとは何か、Scikit-Learnの起源、およびScikit-Learnの開発と保守を担当するコミュニティや寄稿者など、その他の関連トピック、その前提条件、インストール、および機能について理解します。
Scikit-Learn(Sklearn)とは
Scikit-learn(Sklearn)は、Pythonでの機械学習に最も便利で堅牢なライブラリです。Pythonの整合性インターフェースを介した分類、回帰、クラスタリング、次元削減など、機械学習と統計モデリングのための効率的なツールの選択肢を提供します。このライブラリは主にPythonで記述されており、その上に構築されていますNumPy, SciPy そして Matplotlib。
Scikit-Learnの起源
もともとは scikits.learn 当初は、2007年にGoogle Summer ofCodeプロジェクトとしてDavidCournapeauによって開発されました。その後、2010年に、FIRCA(フランス国立情報学自動制御研究所)のFabian Pedregosa、Gael Varoquaux、Alexandre Gramfort、VincentMichelがこのプロジェクトは別のレベルで行われ、2010年2月1日に最初の公開リリース(v0.1ベータ版)が作成されました。
そのバージョン履歴を見てみましょう-
2019年5月:scikit-learn 0.21.0
2019年3月:scikit-learn 0.20.3
2018年12月:scikit-learn 0.20.2
2018年11月:scikit-learn 0.20.1
2018年9月:scikit-learn 0.20.0
2018年7月:scikit-learn 0.19.2
2017年7月:scikit-learn 0.19.0
2016年9月。scikit-learn0.18.0
2015年11月。scikit-learn0.17.0
2015年3月。scikit-learn0.16.0
2014年7月。scikit-learn0.15.0
2013年8月。scikit-learn0.14
コミュニティと貢献者
Scikit-learnはコミュニティの取り組みであり、誰でも貢献できます。このプロジェクトはでホストされていますhttps://github.com/scikit-learn/scikit-learn. 現在、以下の人々がSklearnの開発と保守の中心的な貢献者です-
Joris Van den Bossche(データサイエンティスト)
Thomas J Fan(ソフトウェア開発者)
Alexandre Gramfort(機械学習研究者)
Olivier Grisel(機械学習エキスパート)
ニコラス・ハグ(アソシエイトリサーチサイエンティスト)
Andreas Mueller(機械学習科学者)
ハンミン秦(ソフトウェアエンジニア)
Adrin Jalali(オープンソース開発者)
Nelle Varoquaux(データサイエンス研究者)
Roman Yurchak(データサイエンティスト)
Booking.com、JP Morgan、Evernote、Inria、AWeber、Spotifyなどのさまざまな組織がSklearnを使用しています。
前提条件
scikit-learnの最新リリースを使い始める前に、次のものが必要です。
Python(> = 3.5)
NumPy(> = 1.11.0)
Scipy(> = 0.17.0)li
Joblib(> = 0.11)
Sklearnのプロット機能には、Matplotlib(> = 1.5.1)が必要です。
データ構造と分析を使用したscikit-learnの例の一部には、パンダ(> = 0.18.0)が必要です。
インストール
すでにNumPyとScipyをインストールしている場合、scikit-learnをインストールする最も簡単な2つの方法は次のとおりです。
pipの使用
次のコマンドを使用して、pip-を介してscikit-learnをインストールできます。
pip install -U scikit-learn
condaの使用
次のコマンドを使用して、condaを介してscikit-learnをインストールできます-
conda install scikit-learn
一方、NumPyとScipyがPythonワークステーションにまだインストールされていない場合は、どちらかを使用してインストールできます。 pip または conda。
scikit-learnを使用する別のオプションは、次のようなPythonディストリビューションを使用することです。 Canopy そして Anaconda どちらも最新バージョンのscikit-learnを出荷しているためです。
特徴
Scikit-learnライブラリは、データの読み込み、操作、要約に重点を置くのではなく、データのモデリングに重点を置いています。Sklearnが提供する最も人気のあるモデルのグループのいくつかは次のとおりです-
Supervised Learning algorithms −線形回帰、サポートベクターマシン(SVM)、ディシジョンツリーなどのほとんどすべての一般的な教師あり学習アルゴリズムはscikit-learnの一部です。
Unsupervised Learning algorithms −一方、クラスタリング、因子分析、PCA(主成分分析)から教師なしニューラルネットワークまで、一般的な教師なし学習アルゴリズムもすべて備えています。
Clustering −このモデルは、ラベルのないデータをグループ化するために使用されます。
Cross Validation −これは、見えないデータの監視ありモデルの精度をチェックするために使用されます。
Dimensionality Reduction −要約、視覚化、特徴選択にさらに使用できるデータ内の属性の数を減らすために使用されます。
Ensemble methods −名前が示すように、複数の教師ありモデルの予測を組み合わせるために使用されます。
Feature extraction −画像およびテキストデータの属性を定義するために、データから特徴を抽出するために使用されます。
Feature selection −監視ありモデルを作成するための有用な属性を識別するために使用されます。
Open Source −オープンソースライブラリであり、BSDライセンスの下で商用利用も可能です。