बिग डेटा एनालिटिक्स - चार्ट और ग्राफ़

डेटा का विश्लेषण करने के लिए पहला दृष्टिकोण नेत्रहीन विश्लेषण करना है। ऐसा करने के उद्देश्य सामान्य रूप से चरों के परिवर्तन और अविभाज्य विवरणों के बीच संबंधों का पता लगा रहे हैं। हम इन रणनीतियों को इस प्रकार विभाजित कर सकते हैं -

  • वस्तु के एक प्रकार विश्लेषण
  • बहुभिन्नरूपी विश्लेषण

Univariate Graphical Methods

Univariateएक सांख्यिकीय शब्द है। व्यवहार में, इसका मतलब है कि हम बाकी डेटा से स्वतंत्र रूप से एक चर का विश्लेषण करना चाहते हैं। प्लॉट जो इसे कुशलता से करने की अनुमति देते हैं -

छोटे भूखंड

डिस्ट्रीब्यूशन की तुलना करने के लिए आमतौर पर बॉक्स-प्लॉट्स का इस्तेमाल किया जाता है। यदि वितरण के बीच अंतर हैं, तो यह नेत्रहीन निरीक्षण करने का एक शानदार तरीका है। हम देख सकते हैं कि क्या अलग-अलग कट के लिए हीरे की कीमत में अंतर है।

# We will be using the ggplot2 library for plotting
library(ggplot2)  
data("diamonds")  

# We will be using the diamonds dataset to analyze distributions of numeric variables 
head(diamonds) 

#    carat   cut       color  clarity  depth  table   price    x     y     z 
# 1  0.23    Ideal       E      SI2    61.5    55     326     3.95  3.98  2.43 
# 2  0.21    Premium     E      SI1    59.8    61     326     3.89  3.84  2.31 
# 3  0.23    Good        E      VS1    56.9    65     327     4.05  4.07  2.31 
# 4  0.29    Premium     I      VS2    62.4    58     334     4.20  4.23  2.63 
# 5  0.31    Good        J      SI2    63.3    58     335     4.34  4.35  2.75 
# 6  0.24    Very Good   J      VVS2   62.8    57     336     3.94  3.96  2.48 

### Box-Plots
p = ggplot(diamonds, aes(x = cut, y = price, fill = cut)) + 
   geom_box-plot() + 
   theme_bw() 
print(p)

हम साजिश में देख सकते हैं कि विभिन्न प्रकार के कट में हीरे की कीमत के वितरण में अंतर हैं।

हिस्टोग्राम

source('01_box_plots.R')

# We can plot histograms for each level of the cut factor variable using 
facet_grid 
p = ggplot(diamonds, aes(x = price, fill = cut)) + 
   geom_histogram() + 
   facet_grid(cut ~ .) + 
   theme_bw() 

p  
# the previous plot doesn’t allow to visuallize correctly the data because of 
the differences in scale 
# we can turn this off using the scales argument of facet_grid  

p = ggplot(diamonds, aes(x = price, fill = cut)) + 
   geom_histogram() + 
   facet_grid(cut ~ ., scales = 'free') + 
   theme_bw() 
p  

png('02_histogram_diamonds_cut.png') 
print(p) 
dev.off()

उपरोक्त कोड का आउटपुट निम्नानुसार होगा -

बहुभिन्नरूपी चित्रमय विधियाँ

खोजपूर्ण डेटा विश्लेषण में बहुभिन्नरूपी आलेखीय विधियाँ विभिन्न चरों के बीच संबंधों को खोजने का उद्देश्य रखती हैं। इसे पूरा करने के दो तरीके हैं जो आमतौर पर उपयोग किए जाते हैं: संख्यात्मक चर के सहसंबंध मैट्रिक्स की साजिश रचने या बस तितर बितर भूखंडों के मैट्रिक्स के रूप में कच्चे डेटा की साजिश रचने के लिए।

इसे प्रदर्शित करने के लिए, हम हीरे के डेटासेट का उपयोग करेंगे। कोड का पालन करने के लिए, स्क्रिप्ट खोलेंbda/part2/charts/03_multivariate_analysis.R

library(ggplot2)
data(diamonds) 

# Correlation matrix plots  
keep_vars = c('carat', 'depth', 'price', 'table') 
df = diamonds[, keep_vars]  
# compute the correlation matrix 
M_cor = cor(df) 

#          carat       depth      price      table 
# carat 1.00000000  0.02822431  0.9215913  0.1816175 
# depth 0.02822431  1.00000000 -0.0106474 -0.2957785 
# price 0.92159130 -0.01064740  1.0000000  0.1271339 
# table 0.18161755 -0.29577852  0.1271339  1.0000000  

# plots 
heat-map(M_cor)

कोड निम्न आउटपुट का उत्पादन करेगा -

यह एक सारांश है, यह हमें बताता है कि मूल्य और देखभाल के बीच एक मजबूत संबंध है, और अन्य चर के बीच ज्यादा नहीं है।

एक सहसंबंध मैट्रिक्स उपयोगी हो सकता है जब हमारे पास बड़ी संख्या में चर होते हैं, जिसमें कच्चे डेटा की साजिश रचने का मामला व्यावहारिक नहीं होगा। जैसा कि उल्लेख किया गया है, कच्चे डेटा को भी दिखाना संभव है -

library(GGally)
ggpairs(df)

हम प्लॉट में देख सकते हैं कि हीट-मैप में प्रदर्शित परिणाम की पुष्टि हो गई है, कीमत और कैरेट चर के बीच 0.922 सहसंबंध है।

बिखरे हुए मैट्रिक्स के (3, 1) सूचकांक में स्थित मूल्य-कैरेट स्कैप्लॉट में इस रिश्ते की कल्पना करना संभव है।