बिग डेटा एनालिटिक्स - टेक्स्ट एनालिटिक्स

इस अध्याय में, हम पुस्तक के भाग 1 में बिखरे हुए डेटा का उपयोग करेंगे। डेटा में टेक्स्ट होता है जो फ्रीलांसरों के प्रोफाइल का वर्णन करता है, और प्रति घंटा की दर से वे USD में चार्ज कर रहे हैं। निम्नलिखित अनुभाग का विचार एक मॉडल को फिट करना है जो एक फ्रीलांसर के कौशल को देखते हुए, हम इसके प्रति घंटे के वेतन की भविष्यवाणी करने में सक्षम हैं।

निम्न कोड दिखाता है कि कच्चे पाठ को कैसे परिवर्तित किया जाए कि इस मामले में उपयोगकर्ता के पास शब्दों के मैट्रिक्स के एक बैग में कौशल हो। इसके लिए हम t r नामक एक लाइब्रेरी का उपयोग करते हैं। इसका मतलब है कि कॉर्पस में प्रत्येक शब्द के लिए हम प्रत्येक चर की घटनाओं की मात्रा के साथ चर बनाते हैं।

library(tm)
library(data.table)  

source('text_analytics/text_analytics_functions.R') 
data = fread('text_analytics/data/profiles.txt') 
rate = as.numeric(data$rate) 
keep = !is.na(rate) 
rate = rate[keep]  

### Make bag of words of title and body 
X_all = bag_words(data$user_skills[keep]) 
X_all = removeSparseTerms(X_all, 0.999) 
X_all 

# <<DocumentTermMatrix (documents: 389, terms: 1422)>> 
#   Non-/sparse entries: 4057/549101 
# Sparsity           : 99% 
# Maximal term length: 80 
# Weighting          : term frequency - inverse document frequency (normalized) (tf-idf) 

### Make a sparse matrix with all the data 
X_all <- as_sparseMatrix(X_all)

अब जबकि हमारे पास पाठ एक स्पार्स मैट्रिक्स के रूप में दर्शाया गया है, हम एक मॉडल फिट कर सकते हैं जो एक विरल समाधान देगा। इस मामले के लिए एक अच्छा विकल्प LASSO (कम से कम पूर्ण संकोचन और चयन ऑपरेटर) का उपयोग कर रहा है। यह एक प्रतिगमन मॉडल है जो लक्ष्य का अनुमान लगाने के लिए सबसे अधिक प्रासंगिक सुविधाओं का चयन करने में सक्षम है।

train_inx = 1:200
X_train = X_all[train_inx, ] 
y_train = rate[train_inx]  
X_test = X_all[-train_inx, ] 
y_test = rate[-train_inx]  

# Train a regression model 
library(glmnet) 
fit <- cv.glmnet(x = X_train, y = y_train,  
   family = 'gaussian', alpha = 1,  
   nfolds = 3, type.measure = 'mae') 
plot(fit)  

# Make predictions 
predictions = predict(fit, newx = X_test) 
predictions = as.vector(predictions[,1]) 
head(predictions)  

# 36.23598 36.43046 51.69786 26.06811 35.13185 37.66367 
# We can compute the mean absolute error for the test data 
mean(abs(y_test - predictions)) 
# 15.02175

अब हमारे पास एक मॉडल है जो कौशल का एक सेट दिया गया है जो एक फ्रीलांसर के प्रति घंटा वेतन का अनुमान लगाने में सक्षम है। यदि अधिक डेटा एकत्र किया जाता है, तो मॉडल का प्रदर्शन बेहतर होगा, लेकिन इस पाइपलाइन को लागू करने का कोड समान होगा।