分類アルゴリズム-ランダムフォレスト
前書き
ランダムフォレストは、分類と回帰の両方に使用される教師あり学習アルゴリズムです。ただし、主に分類の問題に使用されます。私たちが知っているように、森は木で構成されており、木が多いほど、より丈夫な森を意味します。同様に、ランダムフォレストアルゴリズムは、データサンプルに決定木を作成し、それぞれから予測を取得して、最終的に投票によって最適なソリューションを選択します。これは、結果を平均化することで過剰適合を減らすため、単一の決定木よりも優れたアンサンブル手法です。
ランダムフォレストアルゴリズムの動作
次の手順を使用して、ランダムフォレストアルゴリズムの動作を理解できます。
Step 1 −まず、特定のデータセットからランダムサンプルを選択することから始めます。
Step 2−次に、このアルゴリズムはすべてのサンプルの決定木を構築します。次に、すべての決定木から予測結果を取得します。
Step 3 −このステップでは、予測されたすべての結果に対して投票が実行されます。
Step 4 −最後に、最も投票された予測結果を最終予測結果として選択します。
次の図は、その動作を示しています-
Pythonでの実装
まず、必要なPythonパッケージのインポートから始めます-
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
次に、次のようにWebリンクからアイリスデータセットをダウンロードします-
path = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
次に、次のようにデータセットに列名を割り当てる必要があります-
headernames = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'Class']
ここで、次のようにデータセットをパンダデータフレームに読み取る必要があります-
dataset = pd.read_csv(path, names=headernames)
dataset.head()
がく片の長さ | がく片幅 | 花びらの長さ | 花びらの幅 | クラス | |
---|---|---|---|---|---|
0 | 5.1 | 3.5 | 1.4 | 0.2 | アイリスセトサ |
1 | 4.9 | 3.0 | 1.4 | 0.2 | アイリスセトサ |
2 | 4.7 | 3.2 | 1.3 | 0.2 | アイリスセトサ |
3 | 4.6 | 3.1 | 1.5 | 0.2 | アイリスセトサ |
4 | 5.0 | 3.6 | 1.4 | 0.2 | アイリスセトサ |
データの前処理は、次のスクリプト行を使用して実行されます-
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, 4].values
次に、データをトレイン分割とテスト分割に分割します。次のコードは、データセットを70%のトレーニングデータと30%のテストデータに分割します-
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30)
次に、sklearnのRandomForestClassifierクラスを使用して、次のようにモデルをトレーニングします。
from sklearn.ensemble import RandomForestClassifier
classifier = RandomForestClassifier(n_estimators=50)
classifier.fit(X_train, y_train)
最後に、予測を行う必要があります。次のスクリプトを使用して実行できます-
y_pred = classifier.predict(X_test)
次に、結果を次のように出力します-
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
result = confusion_matrix(y_test, y_pred)
print("Confusion Matrix:")
print(result)
result1 = classification_report(y_test, y_pred)
print("Classification Report:",)
print (result1)
result2 = accuracy_score(y_test,y_pred)
print("Accuracy:",result2)
出力
Confusion Matrix:
[
[14 0 0]
[ 0 18 1]
[ 0 0 12]
]
Classification Report:
precision recall f1-score support
Iris-setosa 1.00 1.00 1.00 14
Iris-versicolor 1.00 0.95 0.97 19
Iris-virginica 0.92 1.00 0.96 12
micro avg 0.98 0.98 0.98 45
macro avg 0.97 0.98 0.98 45
weighted avg 0.98 0.98 0.98 45
Accuracy: 0.9777777777777777
ランダムフォレストの長所と短所
長所
ランダムフォレストアルゴリズムの利点は次のとおりです-
さまざまな決定木の結果を平均化または組み合わせることにより、過剰適合の問題を克服します。
ランダムフォレストは、単一の決定木よりも広範囲のデータ項目に対して適切に機能します。
ランダムフォレストは、単一の決定木よりも分散が少なくなります。
ランダムフォレストは非常に柔軟性があり、非常に高い精度を備えています。
ランダムフォレストアルゴリズムでは、データのスケーリングは必要ありません。スケーリングせずにデータを提供した後でも、良好な精度を維持します。
ランダムフォレストアルゴリズムでは、データのスケーリングは必要ありません。スケーリングせずにデータを提供した後でも、良好な精度を維持します。
短所
ランダムフォレストアルゴリズムの欠点は次のとおりです。
複雑さは、ランダムフォレストアルゴリズムの主な欠点です。
ランダムフォレストの構築は、決定木よりもはるかに困難で時間がかかります。
ランダムフォレストアルゴリズムを実装するには、より多くの計算リソースが必要です。
決定木のコレクションが多い場合は、直感的ではありません。
ランダムフォレストを使用した予測プロセスは、他のアルゴリズムと比較して非常に時間がかかります。