SciPy - आँकड़े
सभी आँकड़े फ़ंक्शन उप-पैकेज में स्थित हैं scipy.stats और इन कार्यों की एक पूरी पूरी सूची का उपयोग करके प्राप्त किया जा सकता है info(stats)समारोह। उपलब्ध यादृच्छिक चर की एक सूची भी से प्राप्त की जा सकती हैdocstringआँकड़े उप-पैकेज के लिए। इस मॉड्यूल में बड़ी संख्या में संभाव्यता वितरण के साथ-साथ सांख्यिकीय कार्यों की बढ़ती लाइब्रेरी शामिल है।
निम्न तालिका में वर्णित के अनुसार प्रत्येक अनिवारीट वितरण का अपना उपवर्ग है -
अनु क्रमांक। | कक्षा और विवरण |
---|---|
1 | rv_continuous एक सामान्य सतत यादृच्छिक चर वर्ग उपवर्ग के लिए था |
2 | rv_discrete एक सामान्य असतत यादृच्छिक चर वर्ग उपवर्ग के लिए होता है |
3 | rv_histogram हिस्टोग्राम द्वारा दिया गया वितरण उत्पन्न करता है |
सामान्य निरंतर यादृच्छिक चर
एक संभाव्यता वितरण जिसमें रैंडम वेरिएबल X किसी भी मूल्य को ले सकता है वह है निरंतर रैंडम वैरिएबल। स्थान (लोकेशन) कीवर्ड माध्य निर्दिष्ट करता है। स्केल (स्केल) कीवर्ड मानक विचलन को निर्दिष्ट करता है।
के उदाहरण के रूप में rv_continuous कक्षा, norm ऑब्जेक्ट इसे जेनेरिक विधियों का एक संग्रह है और इस विशेष वितरण के लिए विशिष्ट विवरण के साथ उन्हें पूरा करता है।
कई बिंदुओं पर सीडीएफ की गणना करने के लिए, हम एक सूची या एक न्यूपे सरणी पास कर सकते हैं। आइए हम निम्नलिखित उदाहरण पर विचार करें।
from scipy.stats import norm
import numpy as np
print norm.cdf(np.array([1,-1., 0, 1, 3, 4, -2, 6]))
उपरोक्त कार्यक्रम निम्न आउटपुट उत्पन्न करेगा।
array([ 0.84134475, 0.15865525, 0.5 , 0.84134475, 0.9986501 ,
0.99996833, 0.02275013, 1. ])
किसी वितरण के मध्य का पता लगाने के लिए, हम प्रतिशत बिंदु फ़ंक्शन (PPF) का उपयोग कर सकते हैं, जो CDF का विलोम है। हमें निम्नलिखित उदाहरण का उपयोग करके समझते हैं।
from scipy.stats import norm
print norm.ppf(0.5)
उपरोक्त कार्यक्रम निम्न आउटपुट उत्पन्न करेगा।
0.0
यादृच्छिक चर के अनुक्रम को उत्पन्न करने के लिए, हमें आकार खोजशब्द तर्क का उपयोग करना चाहिए, जिसे निम्नलिखित उदाहरण में दिखाया गया है।
from scipy.stats import norm
print norm.rvs(size = 5)
उपरोक्त कार्यक्रम निम्न आउटपुट उत्पन्न करेगा।
array([ 0.20929928, -1.91049255, 0.41264672, -0.7135557 , -0.03833048])
उपरोक्त आउटपुट प्रजनन योग्य नहीं है। समान यादृच्छिक संख्याओं को उत्पन्न करने के लिए, बीज फ़ंक्शन का उपयोग करें।
वर्दी वितरण
समान फ़ंक्शन का उपयोग करके एक समान वितरण उत्पन्न किया जा सकता है। आइए हम निम्नलिखित उदाहरण पर विचार करें।
from scipy.stats import uniform
print uniform.cdf([0, 1, 2, 3, 4, 5], loc = 1, scale = 4)
उपरोक्त कार्यक्रम निम्न आउटपुट उत्पन्न करेगा।
array([ 0. , 0. , 0.25, 0.5 , 0.75, 1. ])
असतत वितरण का निर्माण
आइए हम एक यादृच्छिक नमूना उत्पन्न करें और संभावनाओं के साथ देखे गए आवृत्तियों की तुलना करें।
द्विपद वितरण
के उदाहरण के रूप में rv_discrete class, को binom objectइसमें से जेनेरिक विधियों का एक संग्रह है और इस विशेष वितरण के लिए विशिष्ट विवरण के साथ उन्हें पूरा करता है। आइए हम निम्नलिखित उदाहरण पर विचार करें।
from scipy.stats import uniform
print uniform.cdf([0, 1, 2, 3, 4, 5], loc = 1, scale = 4)
उपरोक्त कार्यक्रम निम्न आउटपुट उत्पन्न करेगा।
array([ 0. , 0. , 0.25, 0.5 , 0.75, 1. ])
वर्णनात्मक आँकड़े
न्यूनतम आँकड़े जैसे कि मिन, मैक्स, मीन और वैरिएन इनपुट के रूप में NumPy सरणी लेते हैं और संबंधित परिणाम लौटाते हैं। में उपलब्ध कुछ बुनियादी सांख्यिकीय कार्यscipy.stats package निम्नलिखित तालिका में वर्णित हैं।
अनु क्रमांक। | समारोह विवरण |
---|---|
1 | describe() पारित सरणी के कई वर्णनात्मक आंकड़ों की गणना करता है |
2 | gmean() निर्दिष्ट अक्ष के साथ ज्यामितीय माध्य की गणना करता है |
3 | hmean() निर्दिष्ट अक्ष के साथ हार्मोनिक माध्य की गणना करता है |
4 | kurtosis() कर्टोसिस की गणना करता है |
5 | mode() मोडल मान लौटाता है |
6 | skew() डेटा के तिरछेपन का परीक्षण करता है |
7 | f_oneway() एक तरह से एनोवा प्रदर्शन करता है |
8 | iqr() निर्दिष्ट अक्ष के साथ डेटा के इंटरकार्टाइल रेंज की गणना करता है |
9 | zscore() नमूना मूल्य और मानक विचलन के सापेक्ष नमूने में प्रत्येक मूल्य के z स्कोर की गणना करता है |
10 | sem() इनपुट सरणी में मानों के माध्य (या माप की मानक त्रुटि) की मानक त्रुटि की गणना करता है |
इन कार्यों में से कई में एक समान संस्करण है scipy.stats.mstats, जो नकाबपोश सरणियों के लिए काम करते हैं। इसे हम नीचे दिए गए उदाहरण से समझते हैं।
from scipy import stats
import numpy as np
x = np.array([1,2,3,4,5,6,7,8,9])
print x.max(),x.min(),x.mean(),x.var()
उपरोक्त कार्यक्रम निम्न आउटपुट उत्पन्न करेगा।
(9, 1, 5.0, 6.666666666666667)
टी परीक्षण
आइए समझते हैं कि विज्ञान में टी-टेस्ट कैसे उपयोगी है।
ttest_1samp
अंकों के एक समूह के माध्य के लिए टी-टेस्ट की गणना करता है। यह शून्य परिकल्पना के लिए दो-पक्षीय परीक्षण है कि स्वतंत्र टिप्पणियों 'ए' के नमूने का अपेक्षित मूल्य (मतलब) दी गई जनसंख्या के बराबर है,popmean। आइए हम निम्नलिखित उदाहरण पर विचार करें।
from scipy import stats
rvs = stats.norm.rvs(loc = 5, scale = 10, size = (50,2))
print stats.ttest_1samp(rvs,5.0)
उपरोक्त कार्यक्रम निम्न आउटपुट उत्पन्न करेगा।
Ttest_1sampResult(statistic = array([-1.40184894, 2.70158009]),
pvalue = array([ 0.16726344, 0.00945234]))
दो नमूनों की तुलना
निम्नलिखित उदाहरणों में, दो नमूने हैं, जो या तो एक ही या अलग-अलग वितरण से आ सकते हैं, और हम यह परीक्षण करना चाहते हैं कि क्या इन नमूनों में एक ही सांख्यिकीय गुण हैं।
ttest_ind- स्कोर के दो स्वतंत्र नमूनों के साधनों के लिए टी-टेस्ट की गणना करता है। यह अशक्त परिकल्पना के लिए दो-पक्षीय परीक्षण है कि दो स्वतंत्र नमूनों में समान औसत (अपेक्षित) मान हैं। यह परीक्षण मानता है कि आबादी में डिफ़ॉल्ट रूप से समान संस्करण हैं।
हम इस परीक्षण का उपयोग कर सकते हैं, यदि हम एक ही या अलग आबादी से दो स्वतंत्र नमूनों का निरीक्षण करते हैं। आइए हम निम्नलिखित उदाहरण पर विचार करें।
from scipy import stats
rvs1 = stats.norm.rvs(loc = 5,scale = 10,size = 500)
rvs2 = stats.norm.rvs(loc = 5,scale = 10,size = 500)
print stats.ttest_ind(rvs1,rvs2)
उपरोक्त कार्यक्रम निम्न आउटपुट उत्पन्न करेगा।
Ttest_indResult(statistic = -0.67406312233650278, pvalue = 0.50042727502272966)
आप एक ही लंबाई के एक नए सरणी के साथ एक ही परीक्षण कर सकते हैं, लेकिन एक विविध साधन के साथ। में एक अलग मूल्य का उपयोग करेंloc और उसी का परीक्षण करें।