बिग डेटा एनालिटिक्स - टेक्स्ट एनालिटिक्स
इस अध्याय में, हम पुस्तक के भाग 1 में बिखरे हुए डेटा का उपयोग करेंगे। डेटा में टेक्स्ट होता है जो फ्रीलांसरों के प्रोफाइल का वर्णन करता है, और प्रति घंटा की दर से वे USD में चार्ज कर रहे हैं। निम्नलिखित अनुभाग का विचार एक मॉडल को फिट करना है जो एक फ्रीलांसर के कौशल को देखते हुए, हम इसके प्रति घंटे के वेतन की भविष्यवाणी करने में सक्षम हैं।
निम्न कोड दिखाता है कि कच्चे पाठ को कैसे परिवर्तित किया जाए कि इस मामले में उपयोगकर्ता के पास शब्दों के मैट्रिक्स के एक बैग में कौशल हो। इसके लिए हम t r नामक एक लाइब्रेरी का उपयोग करते हैं। इसका मतलब है कि कॉर्पस में प्रत्येक शब्द के लिए हम प्रत्येक चर की घटनाओं की मात्रा के साथ चर बनाते हैं।
library(tm)
library(data.table)
source('text_analytics/text_analytics_functions.R')
data = fread('text_analytics/data/profiles.txt')
rate = as.numeric(data$rate)
keep = !is.na(rate)
rate = rate[keep]
### Make bag of words of title and body
X_all = bag_words(data$user_skills[keep])
X_all = removeSparseTerms(X_all, 0.999)
X_all
# <<DocumentTermMatrix (documents: 389, terms: 1422)>>
# Non-/sparse entries: 4057/549101
# Sparsity : 99%
# Maximal term length: 80
# Weighting : term frequency - inverse document frequency (normalized) (tf-idf)
### Make a sparse matrix with all the data
X_all <- as_sparseMatrix(X_all)
अब जबकि हमारे पास पाठ एक स्पार्स मैट्रिक्स के रूप में दर्शाया गया है, हम एक मॉडल फिट कर सकते हैं जो एक विरल समाधान देगा। इस मामले के लिए एक अच्छा विकल्प LASSO (कम से कम पूर्ण संकोचन और चयन ऑपरेटर) का उपयोग कर रहा है। यह एक प्रतिगमन मॉडल है जो लक्ष्य का अनुमान लगाने के लिए सबसे अधिक प्रासंगिक सुविधाओं का चयन करने में सक्षम है।
train_inx = 1:200
X_train = X_all[train_inx, ]
y_train = rate[train_inx]
X_test = X_all[-train_inx, ]
y_test = rate[-train_inx]
# Train a regression model
library(glmnet)
fit <- cv.glmnet(x = X_train, y = y_train,
family = 'gaussian', alpha = 1,
nfolds = 3, type.measure = 'mae')
plot(fit)
# Make predictions
predictions = predict(fit, newx = X_test)
predictions = as.vector(predictions[,1])
head(predictions)
# 36.23598 36.43046 51.69786 26.06811 35.13185 37.66367
# We can compute the mean absolute error for the test data
mean(abs(y_test - predictions))
# 15.02175
अब हमारे पास एक मॉडल है जो कौशल का एक सेट दिया गया है जो एक फ्रीलांसर के प्रति घंटा वेतन का अनुमान लगाने में सक्षम है। यदि अधिक डेटा एकत्र किया जाता है, तो मॉडल का प्रदर्शन बेहतर होगा, लेकिन इस पाइपलाइन को लागू करने का कोड समान होगा।