बिग डेटा एनालिटिक्स - ऑनलाइन लर्निंग

ऑनलाइन लर्निंग मशीन लर्निंग का एक उपक्षेत्र है जो बड़े पैमाने पर डेटासेट के पर्यवेक्षण मॉडल को स्केल करने की अनुमति देता है। मूल विचार यह है कि किसी मॉडल को फिट करने के लिए हमें मेमोरी के सभी डेटा को पढ़ने की आवश्यकता नहीं है, हमें केवल एक बार में प्रत्येक उदाहरण को पढ़ने की आवश्यकता है।

इस मामले में, हम दिखाएंगे कि लॉजिस्टिक रिग्रेशन का उपयोग करके ऑनलाइन लर्निंग एल्गोरिथम को कैसे लागू किया जाए। जैसा कि अधिकांश पर्यवेक्षित शिक्षण एल्गोरिदम में, एक लागत कार्य है जिसे कम से कम किया जाता है। लॉजिस्टिक रिग्रेशन में, लागत फ़ंक्शन को इस प्रकार परिभाषित किया गया है -

$ $ J (\ theta) \: = \: \ frac {-1} {m} \ left [\ sum_ {i = 1} ^ {m} y ^ {(i)} लॉग (h _ {\ theta} () x ^ {(i)})) + (1 - y ^ {(i)}) लॉग (1 - h _ {\ थीटा} (x ^ {(i)}) \ right] $$

जहां जम्मू (θ) लागत समारोह और का प्रतिनिधित्व करता है θ (x) का प्रतिनिधित्व करता है परिकल्पना। लॉजिस्टिक रिग्रेशन के मामले में इसे निम्न सूत्र से परिभाषित किया गया है -

$ $ h_ \ the थीटा (x) = \ frac {1} {1 + e ^ {\ theta ^ T x}}

अब जब हमने लागत फ़ंक्शन को परिभाषित किया है तो हमें इसे कम से कम करने के लिए एक एल्गोरिथ्म खोजने की आवश्यकता है। इसे प्राप्त करने के लिए सबसे सरल एल्गोरिथ्म को स्टोचस्टिक ग्रेडिएंट वंश कहा जाता है। लॉजिस्टिक रिग्रेशन मॉडल के भार के लिए एल्गोरिथ्म का अद्यतन नियम निम्नानुसार परिभाषित किया गया है -

$$ \ theta_j: = \ theta_j - \ Alpha (h_ \ theta (x) - y) x $ $

निम्नलिखित एल्गोरिथ्म के कई कार्यान्वयन हैं, लेकिन वोवपाल वैबिट लाइब्रेरी में लागू किया गया अब तक का सबसे अधिक विकसित है। पुस्तकालय बड़े पैमाने पर प्रतिगमन मॉडल के प्रशिक्षण की अनुमति देता है और कम मात्रा में रैम का उपयोग करता है। रचनाकारों के स्वयं के शब्दों में इसे इस प्रकार वर्णित किया गया है: "Vowpal Wabbit (VW) परियोजना, माइक्रोसॉफ्ट रिसर्च द्वारा प्रायोजित और (पहले) याहू-रिसर्च के लिए एक तेज़ आउट-ऑफ-कोर लर्निंग सिस्टम है।"

हम एक से टाइटैनिक डेटासेट के साथ काम करेंगे kaggleमुकाबला। मूल डेटा में पाया जा सकता हैbda/part3/vwफ़ोल्डर। यहाँ, हमारे पास दो फाइलें हैं -

  • हमारे पास प्रशिक्षण डेटा (train_titanic.csv), और है
  • नए पूर्वानुमान (test_titanic.csv) बनाने के लिए अनलिस्टेड डेटा।

सीएसवी प्रारूप को परिवर्तित करने के लिए vowpal wabbit इनपुट प्रारूप का उपयोग करें csv_to_vowpal_wabbit.pyअजगर की पटकथा। आपको स्पष्ट रूप से इसके लिए अजगर स्थापित करने की आवश्यकता होगी। पर नेविगेट करेंbda/part3/vw फ़ोल्डर, टर्मिनल खोलें और निम्नलिखित कमांड निष्पादित करें -

python csv_to_vowpal_wabbit.py

ध्यान दें कि इस खंड के लिए, यदि आप विंडोज़ का उपयोग कर रहे हैं, तो आपको यूनिक्स कमांड लाइन को स्थापित करने की आवश्यकता होगी, उसके लिए cygwin वेबसाइट दर्ज करें।

टर्मिनल खोलें और फ़ोल्डर में भी bda/part3/vw और निम्नलिखित कमांड निष्पादित करें -

vw train_titanic.vw -f model.vw --binary --passes 20 -c -q ff --sgd --l1 
0.00000001 --l2 0.0000001 --learning_rate 0.5 --loss_function logistic

आइए हम इस बात का खंडन करें कि प्रत्येक के तर्क क्या हैं vw call माध्यम।

  • -f model.vw - इसका मतलब है कि हम बाद में भविष्यवाणियां करने के लिए model.vw फ़ाइल में मॉडल को सहेज रहे हैं

  • --binary - -1,1 लेबल के साथ बाइनरी वर्गीकरण के रूप में रिपोर्ट की हानि

  • --passes 20 - वेट सीखने के लिए डेटा का इस्तेमाल 20 बार किया जाता है

  • -c - कैशे फाइल बनाएं

  • -q ff - f नाम स्थान में द्विघात सुविधाओं का उपयोग करें

  • --sgd - नियमित / क्लासिक / सरल स्टोकेस्टिक ढाल वंश अद्यतन का उपयोग करें, यानी, गैर-सामान्य, गैर-सामान्यीकृत, और गैर-अपरिवर्तनीय।

  • --l1 --l2 - एल 1 और एल 2 मानक नियमितीकरण

  • --learning_rate 0.5 - अद्यतन दर αas अद्यतन नियम सूत्र में परिभाषित किया गया है

निम्न कोड कमांड लाइन में प्रतिगमन मॉडल को चलाने के परिणाम दिखाता है। परिणामों में, हमें औसत लॉग-लॉस और एल्गोरिथ्म प्रदर्शन की एक छोटी रिपोर्ट मिलती है।

-loss_function logistic
creating quadratic features for pairs: ff  
using l1 regularization = 1e-08 
using l2 regularization = 1e-07 

final_regressor = model.vw 
Num weight bits = 18 
learning rate = 0.5 
initial_t = 1 
power_t = 0.5 
decay_learning_rate = 1 
using cache_file = train_titanic.vw.cache 
ignoring text input in favor of cache input 
num sources = 1 

average    since         example   example  current  current  current 
loss       last          counter   weight    label   predict  features 
0.000000   0.000000          1      1.0    -1.0000   -1.0000       57 
0.500000   1.000000          2      2.0     1.0000   -1.0000       57 
0.250000   0.000000          4      4.0     1.0000    1.0000       57 
0.375000   0.500000          8      8.0    -1.0000   -1.0000       73 
0.625000   0.875000         16     16.0    -1.0000    1.0000       73 
0.468750   0.312500         32     32.0    -1.0000   -1.0000       57 
0.468750   0.468750         64     64.0    -1.0000    1.0000       43 
0.375000   0.281250        128    128.0     1.0000   -1.0000       43 
0.351562   0.328125        256    256.0     1.0000   -1.0000       43 
0.359375   0.367188        512    512.0    -1.0000    1.0000       57 
0.274336   0.274336       1024   1024.0    -1.0000   -1.0000       57 h 
0.281938   0.289474       2048   2048.0    -1.0000   -1.0000       43 h 
0.246696   0.211454       4096   4096.0    -1.0000   -1.0000       43 h 
0.218922   0.191209       8192   8192.0     1.0000    1.0000       43 h 

finished run 
number of examples per pass = 802 
passes used = 11 
weighted example sum = 8822 
weighted label sum = -2288 
average loss = 0.179775 h 
best constant = -0.530826 
best constant’s loss = 0.659128 
total feature number = 427878

अब हम इसका उपयोग कर सकते हैं model.vw हमने नए डेटा के साथ भविष्यवाणियों को बनाने के लिए प्रशिक्षित किया।

vw -d test_titanic.vw -t -i model.vw -p predictions.txt

पिछली कमांड में उत्पन्न भविष्यवाणियां [0, 1] श्रेणी के बीच फिट होने के लिए सामान्यीकृत नहीं हैं। ऐसा करने के लिए, हम सिग्मॉइड ट्रांसफॉर्मेशन का उपयोग करते हैं।

# Read the predictions
preds = fread('vw/predictions.txt')  

# Define the sigmoid function 
sigmoid = function(x) { 
   1 / (1 + exp(-x)) 
} 
probs = sigmoid(preds[[1]])  

# Generate class labels 
preds = ifelse(probs > 0.5, 1, 0) 
head(preds) 
# [1] 0 1 0 0 1 0