बिग डेटा एनालिटिक्स - चार्ट और ग्राफ़
डेटा का विश्लेषण करने के लिए पहला दृष्टिकोण नेत्रहीन विश्लेषण करना है। ऐसा करने के उद्देश्य सामान्य रूप से चरों के परिवर्तन और अविभाज्य विवरणों के बीच संबंधों का पता लगा रहे हैं। हम इन रणनीतियों को इस प्रकार विभाजित कर सकते हैं -
- वस्तु के एक प्रकार विश्लेषण
- बहुभिन्नरूपी विश्लेषण
Univariate Graphical Methods
Univariateएक सांख्यिकीय शब्द है। व्यवहार में, इसका मतलब है कि हम बाकी डेटा से स्वतंत्र रूप से एक चर का विश्लेषण करना चाहते हैं। प्लॉट जो इसे कुशलता से करने की अनुमति देते हैं -
छोटे भूखंड
डिस्ट्रीब्यूशन की तुलना करने के लिए आमतौर पर बॉक्स-प्लॉट्स का इस्तेमाल किया जाता है। यदि वितरण के बीच अंतर हैं, तो यह नेत्रहीन निरीक्षण करने का एक शानदार तरीका है। हम देख सकते हैं कि क्या अलग-अलग कट के लिए हीरे की कीमत में अंतर है।
# We will be using the ggplot2 library for plotting
library(ggplot2)
data("diamonds")
# We will be using the diamonds dataset to analyze distributions of numeric variables
head(diamonds)
# carat cut color clarity depth table price x y z
# 1 0.23 Ideal E SI2 61.5 55 326 3.95 3.98 2.43
# 2 0.21 Premium E SI1 59.8 61 326 3.89 3.84 2.31
# 3 0.23 Good E VS1 56.9 65 327 4.05 4.07 2.31
# 4 0.29 Premium I VS2 62.4 58 334 4.20 4.23 2.63
# 5 0.31 Good J SI2 63.3 58 335 4.34 4.35 2.75
# 6 0.24 Very Good J VVS2 62.8 57 336 3.94 3.96 2.48
### Box-Plots
p = ggplot(diamonds, aes(x = cut, y = price, fill = cut)) +
geom_box-plot() +
theme_bw()
print(p)
हम साजिश में देख सकते हैं कि विभिन्न प्रकार के कट में हीरे की कीमत के वितरण में अंतर हैं।
हिस्टोग्राम
source('01_box_plots.R')
# We can plot histograms for each level of the cut factor variable using
facet_grid
p = ggplot(diamonds, aes(x = price, fill = cut)) +
geom_histogram() +
facet_grid(cut ~ .) +
theme_bw()
p
# the previous plot doesn’t allow to visuallize correctly the data because of
the differences in scale
# we can turn this off using the scales argument of facet_grid
p = ggplot(diamonds, aes(x = price, fill = cut)) +
geom_histogram() +
facet_grid(cut ~ ., scales = 'free') +
theme_bw()
p
png('02_histogram_diamonds_cut.png')
print(p)
dev.off()
उपरोक्त कोड का आउटपुट निम्नानुसार होगा -
बहुभिन्नरूपी चित्रमय विधियाँ
खोजपूर्ण डेटा विश्लेषण में बहुभिन्नरूपी आलेखीय विधियाँ विभिन्न चरों के बीच संबंधों को खोजने का उद्देश्य रखती हैं। इसे पूरा करने के दो तरीके हैं जो आमतौर पर उपयोग किए जाते हैं: संख्यात्मक चर के सहसंबंध मैट्रिक्स की साजिश रचने या बस तितर बितर भूखंडों के मैट्रिक्स के रूप में कच्चे डेटा की साजिश रचने के लिए।
इसे प्रदर्शित करने के लिए, हम हीरे के डेटासेट का उपयोग करेंगे। कोड का पालन करने के लिए, स्क्रिप्ट खोलेंbda/part2/charts/03_multivariate_analysis.R।
library(ggplot2)
data(diamonds)
# Correlation matrix plots
keep_vars = c('carat', 'depth', 'price', 'table')
df = diamonds[, keep_vars]
# compute the correlation matrix
M_cor = cor(df)
# carat depth price table
# carat 1.00000000 0.02822431 0.9215913 0.1816175
# depth 0.02822431 1.00000000 -0.0106474 -0.2957785
# price 0.92159130 -0.01064740 1.0000000 0.1271339
# table 0.18161755 -0.29577852 0.1271339 1.0000000
# plots
heat-map(M_cor)
कोड निम्न आउटपुट का उत्पादन करेगा -
यह एक सारांश है, यह हमें बताता है कि मूल्य और देखभाल के बीच एक मजबूत संबंध है, और अन्य चर के बीच ज्यादा नहीं है।
एक सहसंबंध मैट्रिक्स उपयोगी हो सकता है जब हमारे पास बड़ी संख्या में चर होते हैं, जिसमें कच्चे डेटा की साजिश रचने का मामला व्यावहारिक नहीं होगा। जैसा कि उल्लेख किया गया है, कच्चे डेटा को भी दिखाना संभव है -
library(GGally)
ggpairs(df)
हम प्लॉट में देख सकते हैं कि हीट-मैप में प्रदर्शित परिणाम की पुष्टि हो गई है, कीमत और कैरेट चर के बीच 0.922 सहसंबंध है।
बिखरे हुए मैट्रिक्स के (3, 1) सूचकांक में स्थित मूल्य-कैरेट स्कैप्लॉट में इस रिश्ते की कल्पना करना संभव है।