Pembelajaran Mesin - Alur Kerja Otomatis
pengantar
Untuk mengeksekusi dan menghasilkan hasil dengan sukses, model pembelajaran mesin harus mengotomatiskan beberapa alur kerja standar. Proses mengotomatiskan alur kerja standar ini dapat dilakukan dengan bantuan Scikit-learn Pipelines. Dari perspektif data scientist, pipeline adalah konsep yang digeneralisasikan, tetapi sangat penting. Ini pada dasarnya memungkinkan aliran data dari format mentahnya ke beberapa informasi yang berguna. Cara kerja pipa dapat dipahami dengan bantuan diagram berikut -
Blok saluran pipa ML adalah sebagai berikut -
Data ingestion- Seperti namanya, ini adalah proses mengimpor data untuk digunakan dalam proyek ML. Data dapat diekstraksi secara real time atau batch dari satu atau beberapa sistem. Ini adalah salah satu langkah yang paling menantang karena kualitas data dapat memengaruhi keseluruhan model ML.
Data Preparation- Setelah mengimpor data, kita perlu menyiapkan data yang akan digunakan untuk model ML kita. Preprocessing data adalah salah satu teknik terpenting dalam persiapan data.
ML Model Training- Langkah selanjutnya adalah melatih model ML kita. Kami memiliki berbagai algoritme ML seperti diawasi, tidak diawasi, penguatan untuk mengekstrak fitur dari data, dan membuat prediksi.
Model Evaluation- Selanjutnya, kita perlu mengevaluasi model ML. Dalam kasus pipeline AutoML, model ML dapat dievaluasi dengan bantuan berbagai metode statistik dan aturan bisnis.
ML Model retraining- Dalam kasus pipeline AutoML, model pertama tidak perlu yang terbaik. Model pertama dianggap sebagai model dasar dan kami dapat melatihnya berulang kali untuk meningkatkan akurasi model.
Deployment- Akhirnya, kita perlu menerapkan model tersebut. Langkah ini melibatkan penerapan dan migrasi model ke operasi bisnis untuk digunakan.
Tantangan yang Menyertai Jaringan Pipa ML
Untuk membuat pipeline ML, data scientist menghadapi banyak tantangan. Tantangan ini termasuk dalam tiga kategori berikut -
Kualitas Data
Keberhasilan model ML apa pun sangat bergantung pada kualitas data. Jika data yang kami berikan ke model ML tidak akurat, andal, dan kuat, maka kami akan berakhir dengan keluaran yang salah atau menyesatkan.
Keandalan Data
Tantangan lain yang terkait dengan pipeline ML adalah keandalan data yang kami berikan untuk model ML. Seperti yang kita ketahui, ada berbagai sumber dari mana data scientist dapat memperoleh data, tetapi untuk mendapatkan hasil terbaik harus dipastikan bahwa sumber data tersebut dapat diandalkan dan dipercaya.
Aksesibilitas Data
Untuk mendapatkan hasil terbaik dari pipeline ML, datanya sendiri harus dapat diakses yang memerlukan konsolidasi, pembersihan, dan kurasi data. Sebagai hasil dari properti aksesibilitas data, metadata akan diperbarui dengan tag baru.
Memodelkan Pipeline ML dan Persiapan Data
Kebocoran data, yang terjadi dari set data pelatihan hingga set data pengujian, merupakan masalah penting yang harus dihadapi oleh data scientist saat menyiapkan data untuk model ML. Umumnya, pada saat persiapan data, data scientist menggunakan teknik seperti standarisasi atau normalisasi pada seluruh dataset sebelum melakukan pembelajaran. Tetapi teknik ini tidak dapat membantu kita dari kebocoran data karena dataset pelatihan akan dipengaruhi oleh skala data dalam dataset pengujian.
Dengan menggunakan pipeline ML, kami dapat mencegah kebocoran data ini karena pipeline memastikan bahwa persiapan data seperti standardisasi dibatasi pada setiap lipatan prosedur validasi silang kami.
Contoh
Berikut ini adalah contoh di Python yang menunjukkan persiapan data dan alur kerja evaluasi model. Untuk tujuan ini, kami menggunakan dataset Pima Indian Diabetes dari Sklearn. Pertama, kami akan membuat pipeline yang menstandarkan data. Kemudian akan dibuat model analisis Diskriminatif Linear dan terakhir pipeline akan dievaluasi menggunakan validasi silang 10 kali lipat.
Pertama, impor paket yang diperlukan sebagai berikut -
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
Sekarang, kita perlu memuat dataset diabetes Pima seperti yang dilakukan pada contoh sebelumnya -
path = r"C:\pima-indians-diabetes.csv"
headernames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names=headernames)
array = data.values
Selanjutnya, kita akan membuat pipeline dengan bantuan kode berikut -
estimators = []
estimators.append(('standardize', StandardScaler()))
estimators.append(('lda', LinearDiscriminantAnalysis()))
model = Pipeline(estimators)
Terakhir, kita akan mengevaluasi pipeline ini dan mengeluarkan akurasinya sebagai berikut -
kfold = KFold(n_splits=20, random_state=7)
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())
Keluaran
0.7790148448043184
Keluaran di atas merupakan rangkuman akurasi setup pada dataset.
Memodelkan Pipeline ML dan Ekstraksi Fitur
Kebocoran data juga dapat terjadi pada tahap ekstraksi fitur model ML. Itulah mengapa prosedur ekstraksi fitur juga harus dibatasi untuk menghentikan kebocoran data dalam set data pelatihan kami. Seperti dalam kasus persiapan data, dengan menggunakan pipeline ML, kami juga dapat mencegah kebocoran data ini. FeatureUnion, alat yang disediakan oleh pipeline ML dapat digunakan untuk tujuan ini.
Contoh
Berikut ini adalah contoh di Python yang mendemonstrasikan ekstraksi fitur dan alur kerja evaluasi model. Untuk tujuan ini, kami menggunakan dataset Pima Indian Diabetes dari Sklearn.
Pertama, 3 fitur akan diekstraksi dengan PCA (Principal Component Analysis). Kemudian, 6 fitur akan diekstraksi dengan Analisis Statistik. Setelah ekstraksi fitur, hasil dari beberapa seleksi fitur dan prosedur ekstraksi akan digabungkan dengan menggunakan
Fitur FeatureUnion. Akhirnya, model Regresi Logistik akan dibuat, dan pipeline akan dievaluasi menggunakan validasi silang 10 kali lipat.
Pertama, impor paket yang diperlukan sebagai berikut -
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.pipeline import Pipeline
from sklearn.pipeline import FeatureUnion
from sklearn.linear_model import LogisticRegression
from sklearn.decomposition import PCA
from sklearn.feature_selection import SelectKBest
Sekarang, kita perlu memuat dataset diabetes Pima seperti yang dilakukan pada contoh sebelumnya -
path = r"C:\pima-indians-diabetes.csv"
headernames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names=headernames)
array = data.values
Selanjutnya, penyatuan fitur akan dibuat sebagai berikut -
features = []
features.append(('pca', PCA(n_components=3)))
features.append(('select_best', SelectKBest(k=6)))
feature_union = FeatureUnion(features)
Selanjutnya, pipeline akan dibuat dengan bantuan baris skrip berikut -
estimators = []
estimators.append(('feature_union', feature_union))
estimators.append(('logistic', LogisticRegression()))
model = Pipeline(estimators)
Terakhir, kita akan mengevaluasi pipeline ini dan mengeluarkan akurasinya sebagai berikut -
kfold = KFold(n_splits=20, random_state=7)
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())
Keluaran
0.7789811066126855
Keluaran di atas merupakan rangkuman akurasi setup pada dataset.