बिग डेटा एनालिटिक्स - सांख्यिकीय तरीके

डेटा का विश्लेषण करते समय, सांख्यिकीय दृष्टिकोण होना संभव है। बुनियादी विश्लेषण करने के लिए आवश्यक बुनियादी उपकरण हैं -

  • सहसंबंध विश्लेषण
  • भिन्नता का विश्लेषण
  • परिकल्पना परीक्षण

बड़े डेटासेट के साथ काम करते समय, इसमें कोई समस्या शामिल नहीं होती है क्योंकि ये तरीके कॉरेलेशन एनालिसिस के अपवाद के साथ कम्प्यूटेशनल रूप से गहन नहीं होते हैं। इस मामले में, नमूना लेना हमेशा संभव होता है और परिणाम मजबूत होना चाहिए।

सहसंबंध विश्लेषण

सहसंबंध विश्लेषण संख्यात्मक चर के बीच रैखिक संबंधों को खोजने का प्रयास करता है। यह विभिन्न परिस्थितियों में उपयोग किया जा सकता है। एक सामान्य उपयोग खोजपूर्ण डेटा विश्लेषण है, पुस्तक के खंड 16.0.2 में इस दृष्टिकोण का एक मूल उदाहरण है। सबसे पहले, उल्लेखित उदाहरण में प्रयुक्त सहसंबंध मीट्रिक पर आधारित हैPearson coefficient। हालाँकि, सहसंबंध का एक और दिलचस्प मीट्रिक है जो आउटलेर्स से प्रभावित नहीं है। इस मीट्रिक को स्पीयरमैन सहसंबंध कहा जाता है।

spearman correlation मीट्रिक पियरसन विधि की तुलना में आउटलेर्स की उपस्थिति के लिए अधिक मजबूत है और डेटा के सामान्य रूप से वितरित नहीं होने पर संख्यात्मक चर के बीच रैखिक संबंधों का बेहतर अनुमान देता है।

library(ggplot2)

# Select variables that are interesting to compare pearson and spearman 
correlation methods. 
x = diamonds[, c('x', 'y', 'z', 'price')]  

# From the histograms we can expect differences in the correlations of both 
metrics.  
# In this case as the variables are clearly not normally distributed, the 
spearman correlation 

# is a better estimate of the linear relation among numeric variables. 
par(mfrow = c(2,2)) 
colnm = names(x) 
for(i in 1:4) { 
   hist(x[[i]], col = 'deepskyblue3', main = sprintf('Histogram of %s', colnm[i])) 
} 
par(mfrow = c(1,1))

निम्नलिखित आकृति में हिस्टोग्राम से हम दोनों मैट्रिक्स के सहसंबंधों में अंतर की उम्मीद कर सकते हैं। इस मामले में, चूँकि चर स्पष्ट रूप से वितरित नहीं होते हैं, इसलिए स्पीयरमैन सहसंबंध एक दूसरे के बीच के संबंध का एक बेहतर अनुमान है।

आर में सहसंबंध की गणना करने के लिए, फ़ाइल खोलें bda/part2/statistical_methods/correlation/correlation.R यह कोड अनुभाग है।

## Correlation Matrix - Pearson and spearman
cor_pearson <- cor(x, method = 'pearson') 
cor_spearman <- cor(x, method = 'spearman')  

### Pearson Correlation 
print(cor_pearson) 
#            x          y          z        price 
# x      1.0000000  0.9747015  0.9707718  0.8844352 
# y      0.9747015  1.0000000  0.9520057  0.8654209 
# z      0.9707718  0.9520057  1.0000000  0.8612494 
# price  0.8844352  0.8654209  0.8612494  1.0000000  

### Spearman Correlation 
print(cor_spearman) 
#              x          y          z      price 
# x      1.0000000  0.9978949  0.9873553  0.9631961 
# y      0.9978949  1.0000000  0.9870675  0.9627188 
# z      0.9873553  0.9870675  1.0000000  0.9572323 
# price  0.9631961  0.9627188  0.9572323  1.0000000

ची-स्क्वाड टेस्ट

ची-स्क्वैयर परीक्षण हमें यह जांचने की अनुमति देता है कि क्या दो यादृच्छिक चर स्वतंत्र हैं। इसका अर्थ है कि प्रत्येक चर का प्रायिकता वितरण दूसरे को प्रभावित नहीं करता है। आर में परीक्षण का मूल्यांकन करने के लिए हमें एक आकस्मिक तालिका बनाने की आवश्यकता है, और फिर तालिका को पास करेंchisq.test R समारोह।

उदाहरण के लिए, आइए देखें कि क्या चर के बीच एक संबंध है: हीरे के डाटासेट से कट और रंग। परीक्षण को औपचारिक रूप से परिभाषित किया गया है -

  • H0: वेरिएबल कट और डायमंड स्वतंत्र हैं
  • H1: वेरिएबल कट और डायमंड स्वतंत्र नहीं हैं

हम मान लेंगे कि उनके नाम से इन दो चर के बीच एक संबंध है, लेकिन परीक्षण एक उद्देश्य "नियम" कह सकता है कि यह परिणाम कितना महत्वपूर्ण है या नहीं।

निम्नलिखित कोड स्निपेट में, हमने पाया कि परीक्षण का पी-मूल्य 2.2e-16 है, यह व्यावहारिक रूप से लगभग शून्य है। फिर टेस्ट करने के बाद एMonte Carlo simulation, हमने पाया कि पी-वैल्यू 0.0004998 है जो अभी भी थ्रेशोल्ड 0.05 से काफी कम है। इस परिणाम का अर्थ है कि हम अशक्त परिकल्पना (H0) को अस्वीकार करते हैं, इसलिए हम चर मानते हैंcut तथा color स्वतंत्र नहीं हैं।

library(ggplot2)

# Use the table function to compute the contingency table 
tbl = table(diamonds$cut, diamonds$color) 
tbl  

#              D    E    F    G    H    I    J 
# Fair       163  224  312  314  303  175  119 
# Good       662  933  909  871  702  522  307 
# Very Good 1513 2400 2164 2299 1824 1204  678 
# Premium   1603 2337 2331 2924 2360 1428  808 
# Ideal     2834 3903 3826 4884 3115 2093  896  

# In order to run the test we just use the chisq.test function. 
chisq.test(tbl)  

# Pearson’s Chi-squared test 
# data:  tbl 
# X-squared = 310.32, df = 24, p-value < 2.2e-16
# It is also possible to compute the p-values using a monte-carlo simulation 
# It's needed to add the simulate.p.value = TRUE flag and the amount of 
simulations 
chisq.test(tbl, simulate.p.value = TRUE, B = 2000)  

# Pearson’s Chi-squared test with simulated p-value (based on 2000 replicates) 
# data:  tbl 
# X-squared = 310.32, df = NA, p-value = 0.0004998

टी परीक्षण

के विचार t-testमूल्यांकन करना है कि क्या नाममात्र चर के विभिन्न समूहों के बीच एक संख्यात्मक चर # वितरण में अंतर हैं। इसे प्रदर्शित करने के लिए, मैं फैक्टर वेरिएबल कट के फेयर और आइडियल लेवल का चयन करूंगा, फिर हम उन दो समूहों के बीच एक न्यूमेरिकल वैरिएबल के मानों की तुलना करेंगे।

data = diamonds[diamonds$cut %in% c('Fair', 'Ideal'), ]

data$cut = droplevels.factor(data$cut) # Drop levels that aren’t used from the 
cut variable 
df1 = data[, c('cut', 'price')]  

# We can see the price means are different for each group 
tapply(df1$price, df1$cut, mean) 
# Fair    Ideal  
# 4358.758 3457.542

टी-परीक्षणों को आर के साथ लागू किया जाता है t.testसमारोह। T.test का सूत्र इंटरफ़ेस इसका उपयोग करने का सबसे सरल तरीका है, विचार यह है कि एक संख्यात्मक चर को समूह चर द्वारा समझाया गया है।

उदाहरण के लिए: t.test(numeric_variable ~ group_variable, data = data)। पिछले उदाहरण में, एnumeric_variable है price और यह group_variable है cut

सांख्यिकीय परिप्रेक्ष्य से, हम परीक्षण कर रहे हैं कि दो समूहों के बीच संख्यात्मक चर के वितरण में अंतर है या नहीं। औपचारिक रूप से परिकल्पना परीक्षण एक अशक्त (H0) परिकल्पना और एक वैकल्पिक परिकल्पना (H1) के साथ वर्णित है।

  • H0: फेयर और आइडियल ग्रुप के बीच प्राइस वैरिएबल के डिस्ट्रीब्यूशन में कोई अंतर नहीं हैं

  • H1 फेयर और आइडियल ग्रुप के बीच प्राइस वैरिएबल के डिस्ट्रीब्यूशन में अंतर हैं

निम्नलिखित कोड के साथ आर में निम्नलिखित लागू किया जा सकता है -

t.test(price ~ cut, data = data)

# Welch Two Sample t-test 
#  
# data:  price by cut 
# t = 9.7484, df = 1894.8, p-value < 2.2e-16 
# alternative hypothesis: true difference in means is not equal to 0 
# 95 percent confidence interval: 
#   719.9065 1082.5251 
# sample estimates: 
#   mean in group Fair mean in group Ideal  
#   4358.758            3457.542   

# Another way to validate the previous results is to just plot the 
distributions using a box-plot 
plot(price ~ cut, data = data, ylim = c(0,12000),  
   col = 'deepskyblue3')

हम जाँच कर सकते हैं कि पी-मान 0.05 से कम है या नहीं। यदि यह मामला है, तो हम वैकल्पिक परिकल्पना रखते हैं। इसका मतलब है कि हमने कटौती कारक के दो स्तरों के बीच कीमत के अंतर को पाया है। स्तरों के नाम से हम इस परिणाम की उम्मीद करेंगे, लेकिन हमें उम्मीद नहीं थी कि विफल समूह में औसत मूल्य आदर्श समूह की तुलना में अधिक होगा। हम इसे प्रत्येक कारक के साधनों की तुलना करके देख सकते हैं।

plotकमांड एक ग्राफ का उत्पादन करता है जो मूल्य और कटौती चर के बीच संबंध दिखाता है। यह एक बॉक्स-प्लॉट है; हमने इस प्लॉट को खंड 16.0.1 में शामिल किया है, लेकिन यह मूल रूप से कट विश्लेषण के दो स्तरों के लिए मूल्य चर का वितरण दिखाता है।

भिन्नता का विश्लेषण

Variance (ANOVA) का विश्लेषण एक सांख्यिकीय मॉडल है जिसका उपयोग समूह वितरण के बीच अंतर का विश्लेषण करने के लिए किया जाता है, प्रत्येक समूह के माध्य और विचरण की तुलना करके, मॉडल का विकास रोनाल्ड फिशर द्वारा किया गया था। एनोवा कई समूहों के साधन बराबर हैं या नहीं, का एक सांख्यिकीय परीक्षण प्रदान करता है, और इसलिए दो से अधिक समूहों के लिए टी-परीक्षण को सामान्य करता है।

ANOVAs सांख्यिकीय महत्व के लिए तीन या अधिक समूहों की तुलना करने के लिए उपयोगी हैं क्योंकि कई दो-नमूना टी-परीक्षण करने से सांख्यिकीय प्रकार I त्रुटि होने की संभावना बढ़ जाएगी।

गणितीय स्पष्टीकरण प्रदान करने के संदर्भ में, परीक्षण को समझने के लिए निम्नलिखित की आवश्यकता है।

x ij = x + (x i - x) + (x ij - x)

यह निम्नलिखित मॉडल की ओर जाता है -

x ij = μ + α i + j ij

जहाँ μ भव्य माध्य है और α i ith समूह माध्य है। त्रुटि अवधि ij माना जाता है एक सामान्य वितरण से आईआईडी किया जाना है। परीक्षण की शून्य परिकल्पना यह है कि -

α 1 = α 2 = ... = α k

टेस्ट स्टेटिस्टिक कंप्यूटिंग के संदर्भ में, हमें दो मूल्यों की गणना करने की आवश्यकता है -

  • समूह अंतर के बीच वर्गों के योग -

$$ SSD_B = \ sum_ {i} ^ {k} \ sum_ {j} ^ {n} (\ bar {x _ {\ bar {i}}} - \ bar {x}) ^ 2 $ $

  • समूहों के भीतर वर्गों की रकम

$$ SSD_W = \ sum_ {i} ^ {k} \ sum_ {j} ^ {n} (\ bar {x_ {बार {ij}}} - \ bar {x_ {बार {i}}}) ^ 2 $$

जहां SSD B के पास k SS 1 की स्वतंत्रता है और SSD W के पास N। k की स्वतंत्रता की डिग्री है। तब हम प्रत्येक मीट्रिक के लिए माध्य चुकता अंतर को परिभाषित कर सकते हैं।

एमएस बी = एसएसडी बी / (के - 1)

एमएस डब्ल्यू = एसएसडी डब्ल्यू / (एन - के)

अंत में, एनोवा में परीक्षण सांख्यिकीय को उपरोक्त दो मात्राओं के अनुपात के रूप में परिभाषित किया गया है

एफ = एमएस बी / एमएस डब्ल्यू

जो k and 1 और N of k स्वतंत्रता की डिग्री के साथ एक एफ-वितरण का अनुसरण करता है । यदि शून्य परिकल्पना सच है, तो F की संभावना लगभग 1 होगी। अन्यथा, समूह के बीच का मतलब वर्ग MSB बड़े होने की संभावना है, जिसके परिणामस्वरूप एक बड़ा F मान होता है।

मूलतः, ANOVA कुल विचरण के दो स्रोतों की जाँच करता है और देखता है कि कौन सा भाग अधिक योगदान देता है। यही कारण है कि इसे विचरण का विश्लेषण कहा जाता है, हालांकि इरादा समूह साधनों की तुलना करना है।

आंकड़े की गणना के संदर्भ में, यह वास्तव में आर में करने के लिए सरल है। निम्नलिखित उदाहरण प्रदर्शित करेगा कि यह कैसे किया जाता है और परिणामों की साजिश करता है।

library(ggplot2)
# We will be using the mtcars dataset 

head(mtcars) 
#                    mpg  cyl disp  hp drat  wt  qsec   vs am  gear carb 
# Mazda RX4         21.0   6  160 110 3.90 2.620 16.46  0  1    4    4 
# Mazda RX4 Wag     21.0   6  160 110 3.90 2.875 17.02  0  1    4    4 
# Datsun 710        22.8   4  108  93 3.85 2.320 18.61  1  1    4    1 
# Hornet 4 Drive    21.4   6  258 110 3.08 3.215 19.44  1  0    3    1 
# Hornet Sportabout 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2 
# Valiant           18.1   6  225 105 2.76 3.460 20.22  1  0    3    1  

# Let's see if there are differences between the groups of cyl in the mpg variable. 
data = mtcars[, c('mpg', 'cyl')]  
fit = lm(mpg ~ cyl, data = mtcars) 
anova(fit)  

# Analysis of Variance Table 
# Response: mpg 
#           Df Sum Sq Mean Sq F value    Pr(>F)     
# cyl        1 817.71  817.71  79.561 6.113e-10 *** 
# Residuals 30 308.33   10.28 
# Signif. codes:  0 *** 0.001 ** 0.01 * 0.05 . 
# Plot the distribution 
plot(mpg ~ as.factor(cyl), data = mtcars, col = 'deepskyblue3')

कोड निम्न आउटपुट का उत्पादन करेगा -

उदाहरण में हमें जो पी-वैल्यू मिलती है, वह 0.05 की तुलना में काफी छोटा है, इसलिए आर इसको दर्शाने के लिए '***' का प्रतीक देता है। इसका अर्थ है कि हम अशक्त परिकल्पना को अस्वीकार करते हैं और हम mpg के बीच के विभिन्न समूहों के बीच अंतर पाते हैंcyl चर।