Pythonを使用したAI–機械学習

学習とは、学習や経験を通じて知識やスキルを習得することを意味します。これに基づいて、機械学習(ML)を次のように定義できます。

これは、コンピューターサイエンスの分野、より具体的には人工知能のアプリケーションとして定義できます。これにより、コンピューターシステムは、明示的にプログラムすることなく、データを学習し、経験から改善することができます。

基本的に、機械学習の主な焦点は、人間の介入なしにコンピューターが自動的に学習できるようにすることです。ここで、そのような学習をどのように開始して実行できるのかという疑問が生じます。それはデータの観察から始めることができます。データは、いくつかの例、指示、またはいくつかの直接的な経験でもあります。次に、この入力に基づいて、マシンはデータ内のいくつかのパターンを探すことにより、より適切な決定を下します。

機械学習(ML)の種類

機械学習アルゴリズムは、明示的にプログラムされていなくても、コンピューターシステムが学習するのに役立ちます。これらのアルゴリズムは、教師ありまたは教師なしに分類されます。いくつかのアルゴリズムを見てみましょう-

教師あり機械学習アルゴリズム

これは、最も一般的に使用される機械学習アルゴリズムです。トレーニングデータセットからのアルゴリズム学習のプロセスは、学習プロセスを監督する教師と見なすことができるため、教師ありと呼ばれます。この種のMLアルゴリズムでは、考えられる結果はすでにわかっており、トレーニングデータにも正解のラベルが付けられています。それは次のように理解することができます-

入力変数があるとします x および出力変数 y そして、アルゴリズムを適用して、入力から出力へのマッピング関数を学習します。

Y = f(x)

ここでの主な目標は、新しい入力データ(x)がある場合に、そのデータの出力変数(Y)を予測できるように、マッピング関数を適切に近似することです。

主に教師あり学習の問題は、次の2種類の問題に分けることができます。

  • Classification −問題は、「黒」、「教育」、「非教育」などの分類された出力がある場合、分類問題と呼ばれます。

  • Regression −「距離」、「キログラム」などの実際の値が出力される場合、問題は回帰問題と呼ばれます。

決定木、ランダムフォレスト、knn、ロジスティック回帰は、教師あり機械学習アルゴリズムの例です。

教師なし機械学習アルゴリズム

名前が示すように、これらの種類の機械学習アルゴリズムには、あらゆる種類のガイダンスを提供するスーパーバイザーがありません。そのため、教師なし機械学習アルゴリズムは、真の人工知能と呼ばれるものと密接に連携しています。それは次のように理解することができます-

入力変数xがあるとすると、教師あり学習アルゴリズムのように対応する出力変数はありません。

簡単に言えば、教師なし学習では正解はなく、指導のための教師もいないと言えます。アルゴリズムは、データの興味深いパターンを発見するのに役立ちます。

教師なし学習の問題は、次の2種類の問題に分けることができます-

  • Clustering−クラスタリングの問題では、データに固有のグループ化を発見する必要があります。たとえば、購入行動によって顧客をグループ化します。

  • Association−このような種類の問題では、データの大部分を説明するルールを発見する必要があるため、問題は関連付け問題と呼ばれます。たとえば、両方を購入する顧客を見つけるx そして y

クラスタリングのK-means、関連付けのAprioriアルゴリズムは、教師なし機械学習アルゴリズムの例です。

強化機械学習アルゴリズム

これらの種類の機械学習アルゴリズムは、ほとんど使用されていません。これらのアルゴリズムは、特定の決定を行うようにシステムをトレーニングします。基本的に、マシンは試行錯誤の方法を使用して継続的にトレーニングを行う環境にさらされています。これらのアルゴリズムは、過去の経験から学習し、正確な決定を行うために可能な限り最良の知識を取得しようとします。マルコフ決定過程は、強化機械学習アルゴリズムの一例です。

最も一般的な機械学習アルゴリズム

このセクションでは、最も一般的な機械学習アルゴリズムについて学習します。アルゴリズムは以下のとおりです-

線形回帰

これは、統計と機械学習で最もよく知られているアルゴリズムの1つです。

基本概念-主に線形回帰は、入力変数(x)と単一の出力変数(y)の間の線形関係を想定する線形モデルです。言い換えれば、yは入力変数xの線形結合から計算できると言えます。変数間の関係は、最適な線を当てはめることによって確立できます。

線形回帰の種類

線形回帰には次の2つのタイプがあります-

  • Simple linear regression −線形回帰アルゴリズムは、独立変数が1つしかない場合、単純線形回帰と呼ばれます。

  • Multiple linear regression −線形回帰アルゴリズムは、複数の独立変数がある場合、多重線形回帰と呼ばれます。

線形回帰は、主に連続変数に基づいて実数値を推定するために使用されます。たとえば、実際の値に基づいた1日の店舗の総売上高は、線形回帰によって推定できます。

ロジスティック回帰

これは分類アルゴリズムであり、別名 logit 回帰。

主にロジスティック回帰は、特定の独立変数のセットに基づいて、0または1、真または偽、はいまたはいいえなどの離散値を推定するために使用される分類アルゴリズムです。基本的に、それは確率を予測するので、その出力は0と1の間にあります。

デシジョンツリー

決定木は、主に分類問題に使用される教師あり学習アルゴリズムです。

基本的には、独立変数に基づく再帰的パーティションとして表現される分類子です。デシジョンツリーには、ルートツリーを形成するノードがあります。ルートツリーは、「ルート」と呼ばれるノードを持つ有向ツリーです。ルートには入力エッジがなく、他のすべてのノードには1つの入力エッジがあります。これらのノードは、リーフまたは決定ノードと呼ばれます。たとえば、次の決定木を検討して、人が健康であるかどうかを確認します。

サポートベクターマシン(SVM)

分類と回帰の両方の問題に使用されます。しかし、主に分類問題に使用されます。SVMの主な概念は、各データ項目をn次元空間の点としてプロットし、各特徴の値を特定の座標の値にすることです。ここで、nは私たちが持つであろう機能です。以下は、SVMの概念を理解するための簡単なグラフィック表現です。

上の図では、2つの特徴があるため、最初にこれら2つの変数を2次元空間にプロットする必要があります。各点には、サポートベクターと呼ばれる2つの座標があります。この行は、データを2つの異なる分類されたグループに分割します。この行が分類子になります。

ナイーブベイズ

分類手法でもあります。この分類手法の背後にあるロジックは、分類器を構築するためにベイズの定理を使用することです。予測子は独立していることが前提です。簡単に言うと、クラス内の特定の機能の存在は、他の機能の存在とは無関係であると想定しています。以下はベイズの定理の方程式です-

$$ P \ left(\ frac {A} {B} \ right)= \ frac {P \ left(\ frac {B} {A} \ right)P \ left(A \ right)} {P \ left( B \ right)} $$

ナイーブベイズモデルは構築が簡単で、大規模なデータセットに特に役立ちます。

K最近傍法(KNN)

これは、問題の分類と回帰の両方に使用されます。分類問題を解決するために広く使用されています。このアルゴリズムの主な概念は、使用可能なすべてのケースを格納し、k近傍の多数決によって新しいケースを分類するために使用されることです。次に、距離関数によって測定された、K最近傍の中で最も一般的なクラスにケースが割り当てられます。距離関数は、ユークリッド、ミンコフスキー、ハミング距離にすることができます。KNNを使用するには、次のことを考慮してください。

  • 計算上、KNNは分類問題に使用される他のアルゴリズムよりも高価です。

  • 必要な変数の正規化は、そうでなければより高い範囲の変数がバイアスをかける可能性があります。

  • KNNでは、ノイズ除去などの前処理段階に取り組む必要があります。

K-Meansクラスタリング

名前が示すように、クラスタリングの問題を解決するために使用されます。これは基本的に教師なし学習の一種です。K-Meansクラスタリングアルゴリズムの主なロジックは、いくつかのクラスターを介してデータセットを分類することです。次の手順に従って、K-means-でクラスターを形成します。

  • K-meansは、重心と呼ばれる各クラスターのk個の点を選択します。

  • これで、各データポイントは、最も近い重心を持つクラスター、つまりkクラスターを形成します。

  • これで、既存のクラスターメンバーに基づいて各クラスターの重心が検出されます。

  • 収束が発生するまで、これらの手順を繰り返す必要があります。

ランダムフォレスト

これは、教師あり分類アルゴリズムです。ランダムフォレストアルゴリズムの利点は、分類と回帰の両方の種類の問題に使用できることです。基本的に、それは決定木のコレクション(つまり、フォレスト)であるか、決定木のアンサンブルと言えます。ランダムフォレストの基本的な概念は、各ツリーが分類を与え、フォレストがそれらから最良の分類を選択することです。以下は、ランダムフォレストアルゴリズムの利点です-

  • ランダムフォレスト分類子は、分類タスクと回帰タスクの両方に使用できます。

  • 不足している値を処理できます。

  • 森にたくさんの木があったとしても、モデルに適合しすぎることはありません。