ML dengan Python - Pemilihan Fitur Data

Di bab sebelumnya, kita telah melihat secara detail cara melakukan praproses dan menyiapkan data untuk pembelajaran mesin. Pada bab ini, mari kita pahami secara detail pemilihan fitur data dan berbagai aspek yang terlibat di dalamnya.

Pentingnya Pemilihan Fitur Data

Performa model pembelajaran mesin berbanding lurus dengan fitur data yang digunakan untuk melatihnya. Performa model ML akan terpengaruh secara negatif jika fitur data yang disediakan tidak relevan. Di sisi lain, penggunaan fitur data yang relevan dapat meningkatkan akurasi model ML Anda, terutama regresi linier dan logistik.

Sekarang pertanyaan yang muncul adalah apa itu pemilihan fitur otomatis? Ini dapat didefinisikan sebagai proses dengan bantuan yang kami pilih fitur-fitur dalam data kami yang paling relevan dengan output atau variabel prediksi yang kami minati. Ini juga disebut pemilihan atribut.

Berikut ini adalah beberapa manfaat pemilihan fitur otomatis sebelum memodelkan data -

  • Melakukan pemilihan fitur sebelum pemodelan data akan mengurangi overfitting.

  • Melakukan pemilihan fitur sebelum pemodelan data akan meningkatkan akurasi model ML.

  • Melakukan pemilihan fitur sebelum pemodelan data akan mengurangi waktu pelatihan

Teknik Pemilihan Fitur

Berikut ini adalah teknik pemilihan fitur otomatis yang dapat kita gunakan untuk membuat model data ML dengan Python -

Seleksi Univariat

Teknik pemilihan fitur ini sangat berguna dalam memilih fitur tersebut, dengan bantuan pengujian statistik, yang memiliki hubungan terkuat dengan variabel prediksi. Kita dapat mengimplementasikan teknik pemilihan fitur univariat dengan bantuan SelectKBest0class dari pustaka scikit-learn Python.

Example

Dalam contoh ini, kita akan menggunakan dataset Pima Indians Diabetes untuk memilih 4 atribut yang memiliki fitur terbaik dengan bantuan uji statistik chi-square.

from pandas import read_csv
from numpy import set_printoptions
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
path = r'C:\pima-indians-diabetes.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(path, names=names)
array = dataframe.values

Selanjutnya, kita akan memisahkan array menjadi komponen input dan output -

X = array[:,0:8]
Y = array[:,8]

Baris kode berikut akan memilih fitur terbaik dari dataset -

test = SelectKBest(score_func=chi2, k=4)
fit = test.fit(X,Y)

Kami juga dapat meringkas data untuk output sesuai pilihan kami. Di sini, kami menetapkan presisi ke 2 dan menampilkan 4 atribut data dengan fitur terbaik bersama dengan skor terbaik dari setiap atribut -

set_printoptions(precision=2)
print(fit.scores_)
featured_data = fit.transform(X)
print ("\nFeatured data:\n", featured_data[0:4])

Output

[ 111.52 1411.89 17.61 53.11 2175.57 127.67 5.39 181.3 ]
Featured data:
[
   [148. 0.  33.6 50. ]
   [ 85. 0.  26.6 31. ]
   [183. 0.  23.3 32. ]
   [ 89. 94. 28.1 21. ]
]

Penghapusan Fitur Rekursif

Seperti namanya, teknik pemilihan fitur RFE (Recursive feature elimination) menghilangkan atribut secara rekursif dan membangun model dengan atribut yang tersisa. Kita dapat mengimplementasikan teknik pemilihan fitur RFE dengan bantuan kelas RFE pustaka scikit-learn Python.

Contoh

Dalam contoh ini, kami akan menggunakan RFE dengan algoritma regresi logistik untuk memilih 3 atribut terbaik yang memiliki fitur terbaik dari dataset Pima Indians Diabetes hingga.

from pandas import read_csv
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression
path = r'C:\pima-indians-diabetes.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(path, names=names)
array = dataframe.values

Selanjutnya, kita akan memisahkan array menjadi komponen input dan outputnya -

X = array[:,0:8]
Y = array[:,8]

Baris kode berikut akan memilih fitur terbaik dari kumpulan data -

model = LogisticRegression()
rfe = RFE(model, 3)
fit = rfe.fit(X, Y)
print("Number of Features: %d")
print("Selected Features: %s")
print("Feature Ranking: %s")

Keluaran

Number of Features: 3
Selected Features: [ True False False False False True True False]
Feature Ranking: [1 2 3 5 6 1 1 4]

Kita dapat melihat pada output di atas, RFE memilih preg, mass dan pedi sebagai 3 fitur terbaik pertama. Mereka ditandai sebagai 1 pada keluaran.

Analisis Komponen Utama (PCA)

PCA, umumnya disebut teknik reduksi data, adalah teknik pemilihan fitur yang sangat berguna karena menggunakan aljabar linier untuk mengubah dataset menjadi bentuk terkompresi. Kita dapat mengimplementasikan teknik pemilihan fitur PCA dengan bantuan kelas PCA pustaka scikit-learn Python. Kita dapat memilih jumlah komponen utama dalam output.

Contoh

Dalam contoh ini, kami akan menggunakan PCA untuk memilih 3 komponen utama terbaik dari kumpulan data Pima Indians Diabetes.

from pandas import read_csv
from sklearn.decomposition import PCA
path = r'C:\pima-indians-diabetes.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(path, names=names)
array = dataframe.values

Selanjutnya, kita akan memisahkan array menjadi komponen input dan output -

X = array[:,0:8]
Y = array[:,8]

Baris kode berikut akan mengekstrak fitur dari dataset -

pca = PCA(n_components=3)
fit = pca.fit(X)
print("Explained Variance: %s") % fit.explained_variance_ratio_
print(fit.components_)

Keluaran

Explained Variance: [ 0.88854663 0.06159078 0.02579012]
[
   [ 
      -2.02176587e-03 9.78115765e-02 1.60930503e-02 6.07566861e-02 
      9.93110844e-01 1.40108085e-02 5.37167919e-04 -3.56474430e-03
   ]
   [ 
      2.26488861e-02 9.72210040e-01 1.41909330e-01 -5.78614699e-02 
      -9.46266913e-02 4.69729766e-02 8.16804621e-04 1.40168181e-01
   ]
   [ 
      -2.24649003e-02 1.43428710e-01 -9.22467192e-01 -3.07013055e-01 
      2.09773019e-02 -1.32444542e-01 -6.39983017e-04 -1.25454310e-01
   ]
]

Kita dapat mengamati dari keluaran di atas bahwa 3 Komponen Utama memiliki sedikit kemiripan dengan data sumber.

Pentingnya Fitur

Seperti namanya, teknik kepentingan fitur digunakan untuk memilih fitur kepentingan. Ini pada dasarnya menggunakan pengklasifikasi yang diawasi terlatih untuk memilih fitur. Kita bisa mengimplementasikan teknik pemilihan fitur ini dengan bantuan kelas ExtraTreeClassifier dari pustaka scikit-learn Python.

Contoh

Dalam contoh ini, kami akan menggunakan ExtraTreeClassifier untuk memilih fitur dari kumpulan data Pima Indians Diabetes.

from pandas import read_csv
from sklearn.ensemble import ExtraTreesClassifier
path = r'C:\Desktop\pima-indians-diabetes.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(data, names=names)
array = dataframe.values

Selanjutnya, kita akan memisahkan array menjadi komponen input dan output -

X = array[:,0:8]
Y = array[:,8]

Baris kode berikut akan mengekstrak fitur dari dataset -

model = ExtraTreesClassifier()
model.fit(X, Y)
print(model.feature_importances_)

Keluaran

[ 0.11070069 0.2213717 0.08824115 0.08068703 0.07281761 0.14548537 0.12654214 0.15415431]

Dari keluaran tersebut dapat dilihat bahwa terdapat skor untuk setiap atribut. Semakin tinggi skornya, semakin tinggi pentingnya atribut itu.