बिग डेटा एनालिटिक्स - डेटा की सफाई

डेटा एकत्र होने के बाद, हमारे पास सामान्य रूप से विभिन्न विशेषताओं के साथ विविध डेटा स्रोत होते हैं। इन डेटा स्रोतों को सजातीय बनाने के लिए सबसे तात्कालिक कदम होगा और हमारे डेटा उत्पाद का विकास जारी रखना। हालाँकि, यह डेटा के प्रकार पर निर्भर करता है। हमें खुद से पूछना चाहिए कि क्या डेटा को होमोजेनाइज करना व्यावहारिक है।

हो सकता है कि डेटा स्रोत पूरी तरह से अलग हों, और जानकारी का नुकसान बड़ा होगा यदि स्रोतों को होमोजिनाइज़ किया जाएगा। इस मामले में, हम विकल्पों के बारे में सोच सकते हैं। क्या एक डेटा स्रोत मुझे एक प्रतिगमन मॉडल और दूसरा एक वर्गीकरण मॉडल बनाने में मदद कर सकता है? क्या केवल जानकारी खो देने के बजाय हमारे लाभ पर कार्य करना संभव है? इन निर्णयों को लेना विश्लेषणात्मक और दिलचस्प बना देता है।

समीक्षाओं के मामले में, प्रत्येक डेटा स्रोत के लिए एक भाषा होना संभव है। फिर, हमारे पास दो विकल्प हैं -

  • Homogenization- इसमें विभिन्न भाषाओं को उस भाषा में अनुवाद करना शामिल है जहां हमारे पास अधिक डेटा है। अनुवाद सेवाओं की गुणवत्ता स्वीकार्य है, लेकिन अगर हम एक एपीआई के साथ भारी मात्रा में डेटा का अनुवाद करना चाहते हैं, तो लागत महत्वपूर्ण होगी। इस कार्य के लिए सॉफ्टवेयर उपकरण उपलब्ध हैं, लेकिन वह भी महंगा होगा।

  • Heterogenization- क्या प्रत्येक भाषा के लिए एक समाधान विकसित करना संभव होगा? जैसा कि एक कॉर्पस की भाषा का पता लगाना सरल है, हम प्रत्येक भाषा के लिए एक सलाहकार विकसित कर सकते हैं। इसमें प्रत्येक अनुशंसाकर्ता को उपलब्ध भाषाओं की मात्रा के अनुसार ट्यूनिंग के संदर्भ में अधिक कार्य शामिल होगा, लेकिन यदि हमारे पास कुछ भाषाएँ उपलब्ध हैं तो निश्चित रूप से एक व्यवहार्य विकल्प है।

ट्विटर मिनी प्रोजेक्ट

वर्तमान मामले में हमें पहले असंरचित डेटा को साफ करने की आवश्यकता है और फिर उस पर मॉडलिंग विषयों को लागू करने के लिए इसे डेटा मैट्रिक्स में परिवर्तित करना होगा। सामान्य तौर पर, जब ट्विटर से डेटा प्राप्त होता है, तो कई ऐसे पात्र होते हैं जिन्हें हम उपयोग करने में रुचि नहीं रखते हैं, कम से कम डेटा सफाई प्रक्रिया के पहले चरण में।

उदाहरण के लिए, ट्वीट्स प्राप्त करने के बाद हमें ये अजीब अक्षर मिलते हैं: "<ed> <U + 00A0> <U + 00BD> <ed> <U + 00B8> <U + 008B>"। ये संभवतः इमोटिकॉन्स हैं, इसलिए डेटा को साफ करने के लिए, हम निम्नलिखित स्क्रिप्ट का उपयोग करके उन्हें हटा देंगे। यह कोड bda / part1 / collect_data / क्लीनिंग_data.R फ़ाइल में भी उपलब्ध है।

rm(list = ls(all = TRUE)); gc() # Clears the global environment
source('collect_data_twitter.R')
# Some tweets
head(df$text)

[1] "I’m not a big fan of turkey but baked Mac &
cheese <ed><U+00A0><U+00BD><ed><U+00B8><U+008B>"
[2] "@Jayoh30 Like no special sauce on a big mac. HOW"
### We are interested in the text - Let’s clean it!

# We first convert the encoding of the text from latin1 to ASCII
df$text <- sapply(df$text,function(row) iconv(row, "latin1", "ASCII", sub = ""))

# Create a function to clean tweets
clean.text <- function(tx) {
  tx <- gsub("htt.{1,20}", " ", tx, ignore.case = TRUE)
  tx = gsub("[^#[:^punct:]]|@|RT", " ", tx, perl = TRUE, ignore.case = TRUE)
  tx = gsub("[[:digit:]]", " ", tx, ignore.case = TRUE)
  tx = gsub(" {1,}", " ", tx, ignore.case = TRUE)
  tx = gsub("^\\s+|\\s+$", " ", tx, ignore.case = TRUE)
  return(tx)
}  

clean_tweets <- lapply(df$text, clean.text)

# Cleaned tweets
head(clean_tweets)
[1] " WeNeedFeminlsm MAC s new make up line features men woc and big girls "
[1] " TravelsPhoto What Happens To Your Body One Hour After A Big Mac "

डेटा साफ़ करने वाली मिनी परियोजना का अंतिम चरण है साफ किया हुआ पाठ जिसे हम एक मैट्रिक्स में परिवर्तित कर सकते हैं और एक एल्गोरिथ्म को लागू कर सकते हैं। में संग्रहीत पाठ सेclean_tweets सदिश हम आसानी से इसे शब्दों के थैले में बदल सकते हैं मैट्रिक्स और एक अप्रकाशित लर्निंग एल्गोरिदम लागू कर सकते हैं।