ScikitLearn-ディシジョンツリー
この章では、決定木と呼ばれるSklearnの学習方法について学習します。
デシジョントレス(DT)は、最も強力なノンパラメトリック教師あり学習法です。これらは、分類および回帰タスクに使用できます。DTの主な目標は、データの特徴から推定される単純な決定ルールを学習することにより、ターゲット変数値を予測するモデルを作成することです。デシジョンツリーには2つの主要なエンティティがあります。1つはデータが分割されるルートノードであり、もう1つは最終出力を取得する決定ノードまたはリーフです。
デシジョンツリーアルゴリズム
さまざまなディシジョンツリーアルゴリズムを以下に説明します-
ID3
1986年にRossQuinlanによって開発されました。IterativeDichotomiser3とも呼ばれます。このアルゴリズムの主な目標は、すべてのノードについて、カテゴリカルターゲットに対して最大の情報ゲインをもたらすカテゴリカル特徴を見つけることです。
これにより、ツリーを最大サイズに成長させてから、見えないデータに対するツリーの能力を向上させるために、プルーニングステップが適用されます。このアルゴリズムの出力は、多方向ツリーになります。
C4.5
これはID3の後継であり、連続属性値を離散的な間隔のセットに分割する離散属性を動的に定義します。これが、カテゴリ機能の制限を削除した理由です。ID3でトレーニングされたツリーを「IF-THEN」ルールのセットに変換します。
これらのルールを適用する順序を決定するために、各ルールの精度が最初に評価されます。
C5.0
C4.5と同様に機能しますが、使用するメモリが少なく、ルールセットが小さくなります。C4.5よりも正確です。
カート
これは、分類および回帰ツリーアルゴリズムと呼ばれます。基本的に、機能としきい値を使用してバイナリ分割を生成し、各ノードで最大の情報ゲインを生成します(ジニ係数と呼ばれます)。
均一性はジニ係数に依存します。ジニ係数の値が高いほど、均一性は高くなります。これはC4.5アルゴリズムに似ていますが、ルールセットを計算せず、数値ターゲット変数(回帰)もサポートしない点が異なります。
決定木による分類
この場合、決定変数はカテゴリカルです。
Sklearn Module −Scikit-learnライブラリはモジュール名を提供します DecisionTreeClassifier データセットでマルチクラス分類を実行するため。
パラメーター
次の表は、によって使用されるパラメータで構成されています sklearn.tree.DecisionTreeClassifier モジュール-
シニア番号 | パラメータと説明 |
---|---|
1 | criterion −文字列、オプションのdefault =“ gini” 分割の品質を測定する関数を表します。サポートされている基準は「ジニ」と「エントロピー」です。デフォルトはginiで、これはGini不純物用であり、エントロピーは情報取得用です。 |
2 | splitter −文字列、オプションのdefault =“ best” モデルに、各ノードで分割を選択するための「最良」または「ランダム」のどちらの戦略を指示します。 |
3 | max_depth − intまたはNone、オプションのdefault = None このパラメータは、ツリーの最大深度を決定します。デフォルト値はNoneです。これは、すべてのリーフが純粋になるまで、またはすべてのリーフに含まれるサンプルがmin_smaples_split未満になるまで、ノードが拡張されることを意味します。 |
4 | min_samples_split − int、float、オプションのdefault = 2 このパラメーターは、内部ノードを分割するために必要なサンプルの最小数を提供します。 |
5 | min_samples_leaf − int、float、オプションのdefault = 1 このパラメーターは、リーフノードに存在するために必要なサンプルの最小数を提供します。 |
6 | min_weight_fraction_leaf − float、オプションのdefault = 0。 このパラメーターを使用すると、モデルは、リーフノードにある必要がある重みの合計の最小の重み付き部分を取得します。 |
7 | max_features − int、float、stringまたはNone、オプションのdefault = None これにより、最適な分割を探すときに考慮すべき特徴の数がモデルに与えられます。 |
8 | random_state − int、RandomStateインスタンスまたはNone、オプション、デフォルト= none このパラメーターは、データのシャッフル中に使用される、生成された疑似乱数のシードを表します。以下はオプションです-
|
9 | max_leaf_nodes − intまたはNone、オプションのdefault = None このパラメーターを使用すると、max_leaf_nodesを使用してツリーを最優先で成長させることができます。デフォルトはnoneです。これは、リーフノードの数に制限がないことを意味します。 |
10 | min_impurity_decrease − float、オプションのdefault = 0。 この値は、ノードを分割するための基準として機能します。これは、この分割によって不純物が以下以上に減少した場合にモデルがノードを分割するためです。 min_impurity_decrease value。 |
11 | min_impurity_split −フロート、デフォルト= 1e-7 これは、木の成長を早期に停止するためのしきい値を表します。 |
12 | class_weight − dict、dictのリスト、「バランス」またはなし、デフォルト=なし これは、クラスに関連付けられた重みを表します。フォームは{class_label:weight}です。デフォルトのオプションを使用する場合、それはすべてのクラスの重みが1であることになっていることを意味します。一方、あなたが選択した場合class_weight: balanced、yの値を使用して、重みを自動的に調整します。 |
13 | presort − bool、オプションのdefault = False これは、データを事前に並べ替えて、フィッティングで最適な分割を見つけるのを高速化するかどうかをモデルに指示します。デフォルトはfalseですが、trueに設定されているため、トレーニングプロセスが遅くなる可能性があります。 |
属性
次の表は、によって使用される属性で構成されています sklearn.tree.DecisionTreeClassifier モジュール-
シニア番号 | パラメータと説明 |
---|---|
1 | feature_importances_ −形状の配列= [n_features] この属性は、機能の重要度を返します。 |
2 | classes_: −形状の配列= [n_classes]またはそのような配列のリスト これは、クラスラベル、つまり単一出力の問題、またはクラスラベルの配列のリスト、つまり複数出力の問題を表します。 |
3 | max_features_ − int これは、max_featuresパラメーターの推定値を表します。 |
4 | n_classes_ −intまたはlist これは、クラスの数、つまり単一出力の問題、またはすべての出力のクラスの数のリスト、つまり複数出力の問題を表します。 |
5 | n_features_ − int それはの数を与えます features fit()メソッドが実行されたとき。 |
6 | n_outputs_ − int それはの数を与えます outputs fit()メソッドが実行されたとき。 |
メソッド
次の表は、 sklearn.tree.DecisionTreeClassifier モジュール-
シニア番号 | パラメータと説明 |
---|---|
1 | apply(自己、X [、check_input]) このメソッドは、リーフのインデックスを返します。 |
2 | decision_path(自己、X [、check_input]) 名前が示すように、このメソッドはツリー内の決定パスを返します |
3 | fit(self、X、y [、sample_weight、…]) fit()メソッドは、指定されたトレーニングセット(X、y)から決定木分類器を構築します。 |
4 | get_depth(自己) 名前が示すように、このメソッドは決定木の深さを返します |
5 | get_n_leaves(自己) 名前が示すように、このメソッドは決定木のリーフの数を返します。 |
6 | get_params(自己[、深い]) このメソッドを使用して、Estimatorのパラメーターを取得できます。 |
7 | predict(自己、X [、check_input]) Xのクラス値を予測します。 |
8 | predict_log_proba(自己、X) これは、Xによって提供された入力サンプルのクラスログ確率を予測します。 |
9 | predict_proba(自己、X [、check_input]) Xによって提供された入力サンプルのクラス確率を予測します。 |
10 | score(self、X、y [、sample_weight]) 名前が示すように、score()メソッドは、指定されたテストデータとラベルの平均精度を返します。 |
11 | set_params(自己、\ * \ * params) この方法で推定量のパラメータを設定できます。 |
実装例
以下のPythonスクリプトは sklearn.tree.DecisionTreeClassifier 25のサンプルと2つの特徴、つまり「高さ」と「髪の長さ」を持つデータセットから男性または女性を予測するための分類器を構築するモジュール-
from sklearn import tree
from sklearn.model_selection import train_test_split
X=[[165,19],[175,32],[136,35],[174,65],[141,28],[176,15]
,[131,32],[166,6],[128,32],[179,10],[136,34],[186,2],[12
6,25],[176,28],[112,38],[169,9],[171,36],[116,25],[196,2
5], [196,38], [126,40], [197,20], [150,25], [140,32],[136,35]]
Y=['Man','Woman','Woman','Man','Woman','Man','Woman','Ma
n','Woman','Man','Woman','Man','Woman','Woman','Woman','
Man','Woman','Woman','Man', 'Woman', 'Woman', 'Man', 'Man', 'Woman', 'Woman']
data_feature_names = ['height','length of hair']
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size = 0.3, random_state = 1)
DTclf = tree.DecisionTreeClassifier()
DTclf = clf.fit(X,Y)
prediction = DTclf.predict([[135,29]])
print(prediction)
出力
['Woman']
次のpythonpredict_proba()メソッドを使用して、各クラスの確率を次のように予測することもできます。
例
prediction = DTclf.predict_proba([[135,29]])
print(prediction)
出力
[[0. 1.]]
決定木による回帰
この場合、決定変数は連続的です。
Sklearn Module −Scikit-learnライブラリはモジュール名を提供します DecisionTreeRegressor 回帰問題に決定木を適用するため。
パラメーター
によって使用されるパラメータ DecisionTreeRegressor で使用されたものとほぼ同じです DecisionTreeClassifierモジュール。違いは「criterion」パラメータにあります。にとってDecisionTreeRegressor モジュール ‘criterion:文字列、オプションのdefault =“ mse” 'パラメータの値は次のとおりです-
mse−平均二乗誤差を表します。これは、特徴選択基準としての分散減少に等しい。各ターミナルノードの平均を使用して、L2損失を最小限に抑えます。
freidman_mse −平均二乗誤差も使用しますが、フリードマンの改善スコアを使用します。
mae−平均絶対誤差を表します。各ターミナルノードの中央値を使用して、L1損失を最小限に抑えます。
もう一つの違いはそれが持っていないということです ‘class_weight’ パラメータ。
属性
の属性 DecisionTreeRegressor それも同じです DecisionTreeClassifierモジュール。違いはそれが持っていないということです‘classes_’ そして ‘n_classes_'属性。
メソッド
の方法 DecisionTreeRegressor それも同じです DecisionTreeClassifierモジュール。違いはそれが持っていないということです‘predict_log_proba()’ そして ‘predict_proba()’'属性。
実装例
デシジョンツリー回帰モデルのfit()メソッドは、yの浮動小数点値を取ります。を使用して簡単な実装例を見てみましょうSklearn.tree.DecisionTreeRegressor −
from sklearn import tree
X = [[1, 1], [5, 5]]
y = [0.1, 1.5]
DTreg = tree.DecisionTreeRegressor()
DTreg = clf.fit(X, y)
適合したら、この回帰モデルを使用して、次のように予測を行うことができます。
DTreg.predict([[4, 5]])
出力
array([1.5])