分類アルゴリズム-ランダムフォレスト

前書き

ランダムフォレストは、分類と回帰の両方に使用される教師あり学習アルゴリズムです。ただし、主に分類の問題に使用されます。私たちが知っているように、森は木で構成されており、木が多いほど、より丈夫な森を意味します。同様に、ランダムフォレストアルゴリズムは、データサンプルに決定木を作成し、それぞれから予測を取得して、最終的に投票によって最適なソリューションを選択します。これは、結果を平均化することで過剰適合を減らすため、単一の決定木よりも優れたアンサンブル手法です。

ランダムフォレストアルゴリズムの動作

次の手順を使用して、ランダムフォレストアルゴリズムの動作を理解できます。

  • Step 1 −まず、特定のデータセットからランダムサンプルを選択することから始めます。

  • Step 2−次に、このアルゴリズムはすべてのサンプルの決定木を構築します。次に、すべての決定木から予測結果を取得します。

  • Step 3 −このステップでは、予測されたすべての結果に対して投票が実行されます。

  • Step 4 −最後に、最も投票された予測結果を最終予測結果として選択します。

次の図は、その動作を示しています-

Pythonでの実装

まず、必要なPythonパッケージのインポートから始めます-

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

次に、次のようにWebリンクからアイリスデータセットをダウンロードします-

path = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"

次に、次のようにデータセットに列名を割り当てる必要があります-

headernames = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'Class']

ここで、次のようにデータセットをパンダデータフレームに読み取る必要があります-

dataset = pd.read_csv(path, names=headernames)
dataset.head()
がく片の長さ がく片幅 花びらの長さ 花びらの幅 クラス
0 5.1 3.5 1.4 0.2 アイリスセトサ
1 4.9 3.0 1.4 0.2 アイリスセトサ
2 4.7 3.2 1.3 0.2 アイリスセトサ
3 4.6 3.1 1.5 0.2 アイリスセトサ
4 5.0 3.6 1.4 0.2 アイリスセトサ

データの前処理は、次のスクリプト行を使用して実行されます-

X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, 4].values

次に、データをトレイン分割とテスト分割に分割します。次のコードは、データセットを70%のトレーニングデータと30%のテストデータに分割します-

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30)

次に、sklearnのRandomForestClassifierクラスを使用して、次のようにモデルをトレーニングします。

from sklearn.ensemble import RandomForestClassifier
classifier = RandomForestClassifier(n_estimators=50)
classifier.fit(X_train, y_train)

最後に、予測を行う必要があります。次のスクリプトを使用して実行できます-

y_pred = classifier.predict(X_test)

次に、結果を次のように出力します-

from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
result = confusion_matrix(y_test, y_pred)
print("Confusion Matrix:")
print(result)
result1 = classification_report(y_test, y_pred)
print("Classification Report:",)
print (result1)
result2 = accuracy_score(y_test,y_pred)
print("Accuracy:",result2)

出力

Confusion Matrix:
[
   [14 0 0]
   [ 0 18 1]
   [ 0 0 12]
]
Classification Report:
               precision       recall     f1-score       support
Iris-setosa        1.00         1.00        1.00         14
Iris-versicolor    1.00         0.95        0.97         19
Iris-virginica     0.92         1.00        0.96         12
micro avg          0.98         0.98        0.98         45
macro avg          0.97         0.98        0.98         45
weighted avg       0.98         0.98        0.98         45

Accuracy: 0.9777777777777777

ランダムフォレストの長所と短所

長所

ランダムフォレストアルゴリズムの利点は次のとおりです-

  • さまざまな決定木の結果を平均化または組み合わせることにより、過剰適合の問題を克服します。

  • ランダムフォレストは、単一の決定木よりも広範囲のデータ項目に対して適切に機能します。

  • ランダムフォレストは、単一の決定木よりも分散が少なくなります。

  • ランダムフォレストは非常に柔軟性があり、非常に高い精度を備えています。

  • ランダムフォレストアルゴリズムでは、データのスケーリングは必要ありません。スケーリングせずにデータを提供した後でも、良好な精度を維持します。

  • ランダムフォレストアルゴリズムでは、データのスケーリングは必要ありません。スケーリングせずにデータを提供した後でも、良好な精度を維持します。

短所

ランダムフォレストアルゴリズムの欠点は次のとおりです。

  • 複雑さは、ランダムフォレストアルゴリズムの主な欠点です。

  • ランダムフォレストの構築は、決定木よりもはるかに困難で時間がかかります。

  • ランダムフォレストアルゴリズムを実装するには、より多くの計算リソースが必要です。

  • 決定木のコレクションが多い場合は、直感的ではありません。

  • ランダムフォレストを使用した予測プロセスは、他のアルゴリズムと比較して非常に時間がかかります。