Big Data Analytics - Pembelajaran Online
Pembelajaran online adalah subbidang pembelajaran mesin yang memungkinkan untuk menskalakan model pembelajaran yang diawasi ke kumpulan data yang sangat besar. Ide dasarnya adalah kita tidak perlu membaca semua data dalam memori agar sesuai dengan model, kita hanya perlu membaca setiap contoh pada satu waktu.
Dalam hal ini, kami akan menunjukkan bagaimana mengimplementasikan algoritma pembelajaran online menggunakan regresi logistik. Seperti di sebagian besar algoritma pembelajaran yang diawasi, ada fungsi biaya yang diminimalkan. Dalam regresi logistik, fungsi biaya didefinisikan sebagai -
$$ J (\ theta) \: = \: \ frac {-1} {m} \ kiri [\ sum_ {i = 1} ^ {m} y ^ {(i)} log (h _ {\ theta} ( x ^ {(i)})) + (1 - y ^ {(i)}) log (1 - h _ {\ theta} (x ^ {(i)})) \ kanan] $$
dimana J (θ) mewakili fungsi biaya dan h θ (x) mewakili hipotesis. Dalam kasus regresi logistik, ini didefinisikan dengan rumus berikut -
$$ h_ \ theta (x) = \ frac {1} {1 + e ^ {\ theta ^ T x}} $$
Sekarang kita telah mendefinisikan fungsi biaya, kita perlu menemukan algoritma untuk meminimalkannya. Algoritme paling sederhana untuk mencapai ini disebut penurunan gradien stokastik. Aturan pembaruan algoritme untuk bobot model regresi logistik didefinisikan sebagai -
$$ \ theta_j: = \ theta_j - \ alpha (h_ \ theta (x) - y) x $$
Ada beberapa implementasi dari algoritme berikut, tetapi yang diterapkan di pustaka wabbit vowpal sejauh ini adalah yang paling berkembang. Pustaka memungkinkan pelatihan model regresi skala besar dan menggunakan RAM dalam jumlah kecil. Dalam kata-kata pembuatnya sendiri dijelaskan sebagai: "Proyek Vowpal Wabbit (VW) adalah sistem pembelajaran out-of-core cepat yang disponsori oleh Microsoft Research dan (sebelumnya) Yahoo! Research".
Kami akan bekerja dengan kumpulan data titanic dari a kagglekompetisi. Data asli dapat ditemukan dibda/part3/vwmap. Di sini, kami memiliki dua file -
- Kami memiliki data pelatihan (train_titanic.csv), dan
- data tidak berlabel untuk membuat prediksi baru (test_titanic.csv).
Untuk mengonversi format csv ke vowpal wabbit format input menggunakan csv_to_vowpal_wabbit.pyskrip python. Anda jelas perlu menginstal python untuk ini. Arahkan kebda/part3/vw folder, buka terminal dan jalankan perintah berikut -
python csv_to_vowpal_wabbit.py
Perhatikan bahwa untuk bagian ini, jika Anda menggunakan windows Anda perlu menginstal baris perintah Unix, masuk ke situs web cygwin untuk itu.
Buka terminal dan juga di folder bda/part3/vw dan jalankan perintah berikut -
vw train_titanic.vw -f model.vw --binary --passes 20 -c -q ff --sgd --l1
0.00000001 --l2 0.0000001 --learning_rate 0.5 --loss_function logistic
Mari kita uraikan apa masing-masing argumen vw call cara.
-f model.vw - artinya kita menyimpan model dalam file model.vw untuk membuat prediksi nanti
--binary - Laporan kerugian sebagai klasifikasi biner dengan -1,1 label
--passes 20 - Data tersebut digunakan 20 kali untuk mempelajari bobot
-c - buat file cache
-q ff - Gunakan fitur kuadrat di namespace f
--sgd - menggunakan pembaruan penurunan gradien stokastik reguler / klasik / sederhana, yaitu nonadaptif, non-normalisasi, dan non-invarian.
--l1 --l2 - Regularisasi norma L1 dan L2
--learning_rate 0.5 - Kecepatan pembelajaran αseperti yang ditentukan dalam rumus aturan pembaruan
Kode berikut menunjukkan hasil menjalankan model regresi di baris perintah. Hasilnya, kami mendapatkan log-loss rata-rata dan laporan kecil dari performa algoritme.
-loss_function logistic
creating quadratic features for pairs: ff
using l1 regularization = 1e-08
using l2 regularization = 1e-07
final_regressor = model.vw
Num weight bits = 18
learning rate = 0.5
initial_t = 1
power_t = 0.5
decay_learning_rate = 1
using cache_file = train_titanic.vw.cache
ignoring text input in favor of cache input
num sources = 1
average since example example current current current
loss last counter weight label predict features
0.000000 0.000000 1 1.0 -1.0000 -1.0000 57
0.500000 1.000000 2 2.0 1.0000 -1.0000 57
0.250000 0.000000 4 4.0 1.0000 1.0000 57
0.375000 0.500000 8 8.0 -1.0000 -1.0000 73
0.625000 0.875000 16 16.0 -1.0000 1.0000 73
0.468750 0.312500 32 32.0 -1.0000 -1.0000 57
0.468750 0.468750 64 64.0 -1.0000 1.0000 43
0.375000 0.281250 128 128.0 1.0000 -1.0000 43
0.351562 0.328125 256 256.0 1.0000 -1.0000 43
0.359375 0.367188 512 512.0 -1.0000 1.0000 57
0.274336 0.274336 1024 1024.0 -1.0000 -1.0000 57 h
0.281938 0.289474 2048 2048.0 -1.0000 -1.0000 43 h
0.246696 0.211454 4096 4096.0 -1.0000 -1.0000 43 h
0.218922 0.191209 8192 8192.0 1.0000 1.0000 43 h
finished run
number of examples per pass = 802
passes used = 11
weighted example sum = 8822
weighted label sum = -2288
average loss = 0.179775 h
best constant = -0.530826
best constant’s loss = 0.659128
total feature number = 427878
Sekarang kita bisa menggunakan model.vw kami melatih untuk menghasilkan prediksi dengan data baru.
vw -d test_titanic.vw -t -i model.vw -p predictions.txt
Prediksi yang dihasilkan pada perintah sebelumnya tidak dinormalisasi agar pas di antara rentang [0, 1]. Untuk melakukan ini, kami menggunakan transformasi sigmoid.
# Read the predictions
preds = fread('vw/predictions.txt')
# Define the sigmoid function
sigmoid = function(x) {
1 / (1 + exp(-x))
}
probs = sigmoid(preds[[1]])
# Generate class labels
preds = ifelse(probs > 0.5, 1, 0)
head(preds)
# [1] 0 1 0 0 1 0