빅 데이터 분석-온라인 학습

온라인 학습은지도 학습 모델을 대규모 데이터 세트로 확장 할 수있는 기계 학습의 하위 분야입니다. 기본 아이디어는 모델에 맞추기 위해 메모리의 모든 데이터를 읽을 필요가 없으며 한 번에 각 인스턴스 만 읽으면된다는 것입니다.

이 경우 로지스틱 회귀를 사용하여 온라인 학습 알고리즘을 구현하는 방법을 보여줍니다. 대부분의지도 학습 알고리즘에서와 같이 최소화되는 비용 함수가 있습니다. 로지스틱 회귀에서 비용 함수는 다음과 같이 정의됩니다.

$$ J (\ theta) \ : = \ : \ frac {-1} {m} \ left [\ sum_ {i = 1} ^ {m} y ^ {(i)} log (h _ {\ theta} ( x ^ {(i)})) + (1-y ^ {(i)}) log (1-h _ {\ theta} (x ^ {(i)})) \ right] $$

여기서 J (θ) 는 비용 함수를 나타내고 h θ (x) 는 가설을 나타냅니다. 로지스틱 회귀의 경우 다음 공식으로 정의됩니다.

$$ h_ \ theta (x) = \ frac {1} {1 + e ^ {\ theta ^ T x}} $$

비용 함수를 정의 했으므로이를 최소화 할 알고리즘을 찾아야합니다. 이를 달성하기위한 가장 간단한 알고리즘은 확률 적 경사 하강 법이라고합니다. 로지스틱 회귀 모델의 가중치에 대한 알고리즘의 업데이트 규칙은 다음과 같이 정의됩니다.

$$ \ theta_j : = \ theta_j-\ alpha (h_ \ theta (x)-y) x $$

다음 알고리즘의 여러 구현이 있지만 vowpal wabbit 라이브러리 에서 구현 된 것이 가장 많이 개발 된 알고리즘 입니다. 이 라이브러리는 대규모 회귀 모델의 훈련을 허용하고 소량의 RAM을 사용합니다. 제작자의 말로는 "Vowpal Wabbit (VW) 프로젝트는 Microsoft Research와 (이전) Yahoo! Research에서 후원하는 빠른 핵심 학습 시스템입니다"라고 설명되어 있습니다.)

우리는 a의 타이타닉 데이터 셋으로 작업 할 것입니다. kaggle경쟁. 원본 데이터는bda/part3/vw폴더. 여기에 두 개의 파일이 있습니다.

  • 훈련 데이터 (train_titanic.csv)가 있고
  • 새로운 예측을하기위한 라벨이없는 데이터 (test_titanic.csv).

csv 형식을 vowpal wabbit 입력 형식은 csv_to_vowpal_wabbit.py파이썬 스크립트. 이를 위해서는 분명히 파이썬이 설치되어 있어야합니다. 다음으로 이동bda/part3/vw 폴더에서 터미널을 열고 다음 명령을 실행하십시오-

python csv_to_vowpal_wabbit.py

이 섹션의 경우 Windows를 사용하는 경우 Unix 명령 줄을 설치해야하며이를 위한 cygwin 웹 사이트를 입력하십시오 .

터미널과 폴더를 엽니 다. bda/part3/vw 다음 명령을 실행하십시오-

vw train_titanic.vw -f model.vw --binary --passes 20 -c -q ff --sgd --l1 
0.00000001 --l2 0.0000001 --learning_rate 0.5 --loss_function logistic

의 각 주장을 분석하자 vw call 방법.

  • -f model.vw − 나중에 예측하기 위해 model.vw 파일에 모델을 저장하고 있음을 의미합니다.

  • --binary − -1,1 레이블이있는 이진 분류로 손실을보고합니다.

  • --passes 20 − 데이터는 가중치를 학습하기 위해 20 회 사용됩니다.

  • -c − 캐시 파일 생성

  • -q ff − f 네임 스페이스에서 2 차 기능 사용

  • --sgd − 정규 / 고전 / 단순 확률 적 경사 하강 법 업데이트 (예 : 비 적응, 비정규 화 및 비 불변)를 사용합니다.

  • --l1 --l2 − L1 및 L2 노름 정규화

  • --learning_rate 0.5 − 업데이트 규칙 공식에 정의 된 학습률 α

다음 코드는 명령 줄에서 회귀 모델을 실행 한 결과를 보여줍니다. 결과에서 우리는 평균 로그 손실과 알고리즘 성능에 대한 작은 보고서를 얻습니다.

-loss_function logistic
creating quadratic features for pairs: ff  
using l1 regularization = 1e-08 
using l2 regularization = 1e-07 

final_regressor = model.vw 
Num weight bits = 18 
learning rate = 0.5 
initial_t = 1 
power_t = 0.5 
decay_learning_rate = 1 
using cache_file = train_titanic.vw.cache 
ignoring text input in favor of cache input 
num sources = 1 

average    since         example   example  current  current  current 
loss       last          counter   weight    label   predict  features 
0.000000   0.000000          1      1.0    -1.0000   -1.0000       57 
0.500000   1.000000          2      2.0     1.0000   -1.0000       57 
0.250000   0.000000          4      4.0     1.0000    1.0000       57 
0.375000   0.500000          8      8.0    -1.0000   -1.0000       73 
0.625000   0.875000         16     16.0    -1.0000    1.0000       73 
0.468750   0.312500         32     32.0    -1.0000   -1.0000       57 
0.468750   0.468750         64     64.0    -1.0000    1.0000       43 
0.375000   0.281250        128    128.0     1.0000   -1.0000       43 
0.351562   0.328125        256    256.0     1.0000   -1.0000       43 
0.359375   0.367188        512    512.0    -1.0000    1.0000       57 
0.274336   0.274336       1024   1024.0    -1.0000   -1.0000       57 h 
0.281938   0.289474       2048   2048.0    -1.0000   -1.0000       43 h 
0.246696   0.211454       4096   4096.0    -1.0000   -1.0000       43 h 
0.218922   0.191209       8192   8192.0     1.0000    1.0000       43 h 

finished run 
number of examples per pass = 802 
passes used = 11 
weighted example sum = 8822 
weighted label sum = -2288 
average loss = 0.179775 h 
best constant = -0.530826 
best constant’s loss = 0.659128 
total feature number = 427878

이제 우리는 model.vw 우리는 새로운 데이터로 예측을 생성하도록 훈련했습니다.

vw -d test_titanic.vw -t -i model.vw -p predictions.txt

이전 명령에서 생성 된 예측은 [0, 1] 범위에 맞도록 정규화되지 않았습니다. 이를 위해 시그 모이 드 변환을 사용합니다.

# Read the predictions
preds = fread('vw/predictions.txt')  

# Define the sigmoid function 
sigmoid = function(x) { 
   1 / (1 + exp(-x)) 
} 
probs = sigmoid(preds[[1]])  

# Generate class labels 
preds = ifelse(probs > 0.5, 1, 0) 
head(preds) 
# [1] 0 1 0 0 1 0