Big Data Analytics - Pembelajaran Online

Pembelajaran online adalah subbidang pembelajaran mesin yang memungkinkan untuk menskalakan model pembelajaran yang diawasi ke kumpulan data yang sangat besar. Ide dasarnya adalah kita tidak perlu membaca semua data dalam memori agar sesuai dengan model, kita hanya perlu membaca setiap contoh pada satu waktu.

Dalam hal ini, kami akan menunjukkan bagaimana mengimplementasikan algoritma pembelajaran online menggunakan regresi logistik. Seperti di sebagian besar algoritma pembelajaran yang diawasi, ada fungsi biaya yang diminimalkan. Dalam regresi logistik, fungsi biaya didefinisikan sebagai -

$$ J (\ theta) \: = \: \ frac {-1} {m} \ kiri [\ sum_ {i = 1} ^ {m} y ^ {(i)} log (h _ {\ theta} ( x ^ {(i)})) + (1 - y ^ {(i)}) log (1 - h _ {\ theta} (x ^ {(i)})) \ kanan] $$

dimana J (θ) mewakili fungsi biaya dan h θ (x) mewakili hipotesis. Dalam kasus regresi logistik, ini didefinisikan dengan rumus berikut -

$$ h_ \ theta (x) = \ frac {1} {1 + e ^ {\ theta ^ T x}} $$

Sekarang kita telah mendefinisikan fungsi biaya, kita perlu menemukan algoritma untuk meminimalkannya. Algoritme paling sederhana untuk mencapai ini disebut penurunan gradien stokastik. Aturan pembaruan algoritme untuk bobot model regresi logistik didefinisikan sebagai -

$$ \ theta_j: = \ theta_j - \ alpha (h_ \ theta (x) - y) x $$

Ada beberapa implementasi dari algoritme berikut, tetapi yang diterapkan di pustaka wabbit vowpal sejauh ini adalah yang paling berkembang. Pustaka memungkinkan pelatihan model regresi skala besar dan menggunakan RAM dalam jumlah kecil. Dalam kata-kata pembuatnya sendiri dijelaskan sebagai: "Proyek Vowpal Wabbit (VW) adalah sistem pembelajaran out-of-core cepat yang disponsori oleh Microsoft Research dan (sebelumnya) Yahoo! Research".

Kami akan bekerja dengan kumpulan data titanic dari a kagglekompetisi. Data asli dapat ditemukan dibda/part3/vwmap. Di sini, kami memiliki dua file -

  • Kami memiliki data pelatihan (train_titanic.csv), dan
  • data tidak berlabel untuk membuat prediksi baru (test_titanic.csv).

Untuk mengonversi format csv ke vowpal wabbit format input menggunakan csv_to_vowpal_wabbit.pyskrip python. Anda jelas perlu menginstal python untuk ini. Arahkan kebda/part3/vw folder, buka terminal dan jalankan perintah berikut -

python csv_to_vowpal_wabbit.py

Perhatikan bahwa untuk bagian ini, jika Anda menggunakan windows Anda perlu menginstal baris perintah Unix, masuk ke situs web cygwin untuk itu.

Buka terminal dan juga di folder bda/part3/vw dan jalankan perintah berikut -

vw train_titanic.vw -f model.vw --binary --passes 20 -c -q ff --sgd --l1 
0.00000001 --l2 0.0000001 --learning_rate 0.5 --loss_function logistic

Mari kita uraikan apa masing-masing argumen vw call cara.

  • -f model.vw - artinya kita menyimpan model dalam file model.vw untuk membuat prediksi nanti

  • --binary - Laporan kerugian sebagai klasifikasi biner dengan -1,1 label

  • --passes 20 - Data tersebut digunakan 20 kali untuk mempelajari bobot

  • -c - buat file cache

  • -q ff - Gunakan fitur kuadrat di namespace f

  • --sgd - menggunakan pembaruan penurunan gradien stokastik reguler / klasik / sederhana, yaitu nonadaptif, non-normalisasi, dan non-invarian.

  • --l1 --l2 - Regularisasi norma L1 dan L2

  • --learning_rate 0.5 - Kecepatan pembelajaran αseperti yang ditentukan dalam rumus aturan pembaruan

Kode berikut menunjukkan hasil menjalankan model regresi di baris perintah. Hasilnya, kami mendapatkan log-loss rata-rata dan laporan kecil dari performa algoritme.

-loss_function logistic
creating quadratic features for pairs: ff  
using l1 regularization = 1e-08 
using l2 regularization = 1e-07 

final_regressor = model.vw 
Num weight bits = 18 
learning rate = 0.5 
initial_t = 1 
power_t = 0.5 
decay_learning_rate = 1 
using cache_file = train_titanic.vw.cache 
ignoring text input in favor of cache input 
num sources = 1 

average    since         example   example  current  current  current 
loss       last          counter   weight    label   predict  features 
0.000000   0.000000          1      1.0    -1.0000   -1.0000       57 
0.500000   1.000000          2      2.0     1.0000   -1.0000       57 
0.250000   0.000000          4      4.0     1.0000    1.0000       57 
0.375000   0.500000          8      8.0    -1.0000   -1.0000       73 
0.625000   0.875000         16     16.0    -1.0000    1.0000       73 
0.468750   0.312500         32     32.0    -1.0000   -1.0000       57 
0.468750   0.468750         64     64.0    -1.0000    1.0000       43 
0.375000   0.281250        128    128.0     1.0000   -1.0000       43 
0.351562   0.328125        256    256.0     1.0000   -1.0000       43 
0.359375   0.367188        512    512.0    -1.0000    1.0000       57 
0.274336   0.274336       1024   1024.0    -1.0000   -1.0000       57 h 
0.281938   0.289474       2048   2048.0    -1.0000   -1.0000       43 h 
0.246696   0.211454       4096   4096.0    -1.0000   -1.0000       43 h 
0.218922   0.191209       8192   8192.0     1.0000    1.0000       43 h 

finished run 
number of examples per pass = 802 
passes used = 11 
weighted example sum = 8822 
weighted label sum = -2288 
average loss = 0.179775 h 
best constant = -0.530826 
best constant’s loss = 0.659128 
total feature number = 427878

Sekarang kita bisa menggunakan model.vw kami melatih untuk menghasilkan prediksi dengan data baru.

vw -d test_titanic.vw -t -i model.vw -p predictions.txt

Prediksi yang dihasilkan pada perintah sebelumnya tidak dinormalisasi agar pas di antara rentang [0, 1]. Untuk melakukan ini, kami menggunakan transformasi sigmoid.

# Read the predictions
preds = fread('vw/predictions.txt')  

# Define the sigmoid function 
sigmoid = function(x) { 
   1 / (1 + exp(-x)) 
} 
probs = sigmoid(preds[[1]])  

# Generate class labels 
preds = ifelse(probs > 0.5, 1, 0) 
head(preds) 
# [1] 0 1 0 0 1 0