बिग डेटा एनालिटिक्स - ऑनलाइन लर्निंग
ऑनलाइन लर्निंग मशीन लर्निंग का एक उपक्षेत्र है जो बड़े पैमाने पर डेटासेट के पर्यवेक्षण मॉडल को स्केल करने की अनुमति देता है। मूल विचार यह है कि किसी मॉडल को फिट करने के लिए हमें मेमोरी के सभी डेटा को पढ़ने की आवश्यकता नहीं है, हमें केवल एक बार में प्रत्येक उदाहरण को पढ़ने की आवश्यकता है।
इस मामले में, हम दिखाएंगे कि लॉजिस्टिक रिग्रेशन का उपयोग करके ऑनलाइन लर्निंग एल्गोरिथम को कैसे लागू किया जाए। जैसा कि अधिकांश पर्यवेक्षित शिक्षण एल्गोरिदम में, एक लागत कार्य है जिसे कम से कम किया जाता है। लॉजिस्टिक रिग्रेशन में, लागत फ़ंक्शन को इस प्रकार परिभाषित किया गया है -
$ $ J (\ theta) \: = \: \ frac {-1} {m} \ left [\ sum_ {i = 1} ^ {m} y ^ {(i)} लॉग (h _ {\ theta} () x ^ {(i)})) + (1 - y ^ {(i)}) लॉग (1 - h _ {\ थीटा} (x ^ {(i)}) \ right] $$
जहां जम्मू (θ) लागत समारोह और का प्रतिनिधित्व करता है ज θ (x) का प्रतिनिधित्व करता है परिकल्पना। लॉजिस्टिक रिग्रेशन के मामले में इसे निम्न सूत्र से परिभाषित किया गया है -
$ $ h_ \ the थीटा (x) = \ frac {1} {1 + e ^ {\ theta ^ T x}}
अब जब हमने लागत फ़ंक्शन को परिभाषित किया है तो हमें इसे कम से कम करने के लिए एक एल्गोरिथ्म खोजने की आवश्यकता है। इसे प्राप्त करने के लिए सबसे सरल एल्गोरिथ्म को स्टोचस्टिक ग्रेडिएंट वंश कहा जाता है। लॉजिस्टिक रिग्रेशन मॉडल के भार के लिए एल्गोरिथ्म का अद्यतन नियम निम्नानुसार परिभाषित किया गया है -
$$ \ theta_j: = \ theta_j - \ Alpha (h_ \ theta (x) - y) x $ $
निम्नलिखित एल्गोरिथ्म के कई कार्यान्वयन हैं, लेकिन वोवपाल वैबिट लाइब्रेरी में लागू किया गया अब तक का सबसे अधिक विकसित है। पुस्तकालय बड़े पैमाने पर प्रतिगमन मॉडल के प्रशिक्षण की अनुमति देता है और कम मात्रा में रैम का उपयोग करता है। रचनाकारों के स्वयं के शब्दों में इसे इस प्रकार वर्णित किया गया है: "Vowpal Wabbit (VW) परियोजना, माइक्रोसॉफ्ट रिसर्च द्वारा प्रायोजित और (पहले) याहू-रिसर्च के लिए एक तेज़ आउट-ऑफ-कोर लर्निंग सिस्टम है।"
हम एक से टाइटैनिक डेटासेट के साथ काम करेंगे kaggleमुकाबला। मूल डेटा में पाया जा सकता हैbda/part3/vwफ़ोल्डर। यहाँ, हमारे पास दो फाइलें हैं -
- हमारे पास प्रशिक्षण डेटा (train_titanic.csv), और है
- नए पूर्वानुमान (test_titanic.csv) बनाने के लिए अनलिस्टेड डेटा।
सीएसवी प्रारूप को परिवर्तित करने के लिए vowpal wabbit इनपुट प्रारूप का उपयोग करें csv_to_vowpal_wabbit.pyअजगर की पटकथा। आपको स्पष्ट रूप से इसके लिए अजगर स्थापित करने की आवश्यकता होगी। पर नेविगेट करेंbda/part3/vw फ़ोल्डर, टर्मिनल खोलें और निम्नलिखित कमांड निष्पादित करें -
python csv_to_vowpal_wabbit.py
ध्यान दें कि इस खंड के लिए, यदि आप विंडोज़ का उपयोग कर रहे हैं, तो आपको यूनिक्स कमांड लाइन को स्थापित करने की आवश्यकता होगी, उसके लिए cygwin वेबसाइट दर्ज करें।
टर्मिनल खोलें और फ़ोल्डर में भी bda/part3/vw और निम्नलिखित कमांड निष्पादित करें -
vw train_titanic.vw -f model.vw --binary --passes 20 -c -q ff --sgd --l1
0.00000001 --l2 0.0000001 --learning_rate 0.5 --loss_function logistic
आइए हम इस बात का खंडन करें कि प्रत्येक के तर्क क्या हैं vw call माध्यम।
-f model.vw - इसका मतलब है कि हम बाद में भविष्यवाणियां करने के लिए model.vw फ़ाइल में मॉडल को सहेज रहे हैं
--binary - -1,1 लेबल के साथ बाइनरी वर्गीकरण के रूप में रिपोर्ट की हानि
--passes 20 - वेट सीखने के लिए डेटा का इस्तेमाल 20 बार किया जाता है
-c - कैशे फाइल बनाएं
-q ff - f नाम स्थान में द्विघात सुविधाओं का उपयोग करें
--sgd - नियमित / क्लासिक / सरल स्टोकेस्टिक ढाल वंश अद्यतन का उपयोग करें, यानी, गैर-सामान्य, गैर-सामान्यीकृत, और गैर-अपरिवर्तनीय।
--l1 --l2 - एल 1 और एल 2 मानक नियमितीकरण
--learning_rate 0.5 - अद्यतन दर αas अद्यतन नियम सूत्र में परिभाषित किया गया है
निम्न कोड कमांड लाइन में प्रतिगमन मॉडल को चलाने के परिणाम दिखाता है। परिणामों में, हमें औसत लॉग-लॉस और एल्गोरिथ्म प्रदर्शन की एक छोटी रिपोर्ट मिलती है।
-loss_function logistic
creating quadratic features for pairs: ff
using l1 regularization = 1e-08
using l2 regularization = 1e-07
final_regressor = model.vw
Num weight bits = 18
learning rate = 0.5
initial_t = 1
power_t = 0.5
decay_learning_rate = 1
using cache_file = train_titanic.vw.cache
ignoring text input in favor of cache input
num sources = 1
average since example example current current current
loss last counter weight label predict features
0.000000 0.000000 1 1.0 -1.0000 -1.0000 57
0.500000 1.000000 2 2.0 1.0000 -1.0000 57
0.250000 0.000000 4 4.0 1.0000 1.0000 57
0.375000 0.500000 8 8.0 -1.0000 -1.0000 73
0.625000 0.875000 16 16.0 -1.0000 1.0000 73
0.468750 0.312500 32 32.0 -1.0000 -1.0000 57
0.468750 0.468750 64 64.0 -1.0000 1.0000 43
0.375000 0.281250 128 128.0 1.0000 -1.0000 43
0.351562 0.328125 256 256.0 1.0000 -1.0000 43
0.359375 0.367188 512 512.0 -1.0000 1.0000 57
0.274336 0.274336 1024 1024.0 -1.0000 -1.0000 57 h
0.281938 0.289474 2048 2048.0 -1.0000 -1.0000 43 h
0.246696 0.211454 4096 4096.0 -1.0000 -1.0000 43 h
0.218922 0.191209 8192 8192.0 1.0000 1.0000 43 h
finished run
number of examples per pass = 802
passes used = 11
weighted example sum = 8822
weighted label sum = -2288
average loss = 0.179775 h
best constant = -0.530826
best constant’s loss = 0.659128
total feature number = 427878
अब हम इसका उपयोग कर सकते हैं model.vw हमने नए डेटा के साथ भविष्यवाणियों को बनाने के लिए प्रशिक्षित किया।
vw -d test_titanic.vw -t -i model.vw -p predictions.txt
पिछली कमांड में उत्पन्न भविष्यवाणियां [0, 1] श्रेणी के बीच फिट होने के लिए सामान्यीकृत नहीं हैं। ऐसा करने के लिए, हम सिग्मॉइड ट्रांसफॉर्मेशन का उपयोग करते हैं।
# Read the predictions
preds = fread('vw/predictions.txt')
# Define the sigmoid function
sigmoid = function(x) {
1 / (1 + exp(-x))
}
probs = sigmoid(preds[[1]])
# Generate class labels
preds = ifelse(probs > 0.5, 1, 0)
head(preds)
# [1] 0 1 0 0 1 0