Pythonでのロジスティック回帰-データの分割

約4万1000の奇妙な記録があります。データ全体をモデル構築に使用する場合、テスト用のデータは残りません。したがって、一般的に、データセット全体を2つの部分、たとえば70/30パーセントに分割します。データの70%をモデル構築に使用し、残りを作成したモデルの予測の精度をテストするために使用します。要件に応じて、異なる分割比率を使用できます。

フィーチャ配列の作成

データを分割する前に、データを2つの配列XとYに分割します。X配列には分析するすべての特徴(データ列)が含まれ、Y配列はブール値の1次元配列であり、予測。これを理解するために、いくつかのコードを実行してみましょう。

まず、次のPythonステートメントを実行してX配列を作成します-

In [17]: X = data.iloc[:,1:]

の内容を調べるには X 使用する headいくつかの初期レコードを印刷します。次の画面は、X配列の内容を示しています。

In [18]: X.head ()

配列にはいくつかの行と23列があります。

次に、「」を含む出力配列を作成します。y」の値。

出力配列の作成

予測値列の配列を作成するには、次のPythonステートメントを使用します-

In [19]: Y = data.iloc[:,0]

を呼び出してその内容を調べます head。以下の画面出力は結果を示しています-

In [20]: Y.head()
Out[20]: 0   0
1    0
2    1
3    0
4    1
Name: y, dtype: int64

ここで、次のコマンドを使用してデータを分割します-

In [21]: X_train, X_test, Y_train, Y_test = train_test_split(X, Y, random_state=0)

これにより、という4つの配列が作成されます X_train, Y_train, X_test, and Y_test。以前と同様に、headコマンドを使用してこれらの配列の内容を調べることができます。モデルのトレーニングにはX_train配列とY_train配列を使用し、テストと検証にはX_test配列とY_test配列を使用します。

これで、分類器を作成する準備が整いました。次の章でそれを調べます。