पायथन पंडों - सांख्यिकीय कार्य
सांख्यिकीय तरीके डेटा के व्यवहार को समझने और उसका विश्लेषण करने में मदद करते हैं। अब हम कुछ सांख्यिकीय कार्य सीखेंगे, जिसे हम पंडों की वस्तुओं पर लागू कर सकते हैं।
प्रतिशत परिवर्तन
सीरीज़, डेटाफ़्रेम और पैनल, सभी का कार्य है pct_change()। यह फ़ंक्शन प्रत्येक तत्व की अपने पूर्व तत्व से तुलना करता है और परिवर्तन प्रतिशत की गणना करता है।
import pandas as pd
import numpy as np
s = pd.Series([1,2,3,4,5,4])
print s.pct_change()
df = pd.DataFrame(np.random.randn(5, 2))
print df.pct_change()
आईटी इस output इस प्रकार है -
0 NaN
1 1.000000
2 0.500000
3 0.333333
4 0.250000
5 -0.200000
dtype: float64
0 1
0 NaN NaN
1 -15.151902 0.174730
2 -0.746374 -1.449088
3 -3.582229 -3.165836
4 15.601150 -1.860434
डिफ़ॉल्ट रूप से, pct_change()स्तंभों पर काम करता है; यदि आप एक ही पंक्ति वार लागू करना चाहते हैं, तो उपयोग करेंaxis=1() बहस।
सहप्रसरण
Covariance श्रृंखला डेटा पर लागू किया जाता है। श्रृंखला वस्तु में श्रृंखला वस्तुओं के बीच सहसंयोजक की गणना करने के लिए एक विधि कोव है। एनए को स्वचालित रूप से बाहर रखा जाएगा।
कोव श्रृंखला
import pandas as pd
import numpy as np
s1 = pd.Series(np.random.randn(10))
s2 = pd.Series(np.random.randn(10))
print s1.cov(s2)
आईटी इस output इस प्रकार है -
-0.12978405324
डेटाफ़्रेम पर लागू होने पर सहसंयोजक विधि, गणना करती है cov सभी स्तंभों के बीच।
import pandas as pd
import numpy as np
frame = pd.DataFrame(np.random.randn(10, 5), columns=['a', 'b', 'c', 'd', 'e'])
print frame['a'].cov(frame['b'])
print frame.cov()
आईटी इस output इस प्रकार है -
-0.58312921152741437
a b c d e
a 1.780628 -0.583129 -0.185575 0.003679 -0.136558
b -0.583129 1.297011 0.136530 -0.523719 0.251064
c -0.185575 0.136530 0.915227 -0.053881 -0.058926
d 0.003679 -0.523719 -0.053881 1.521426 -0.487694
e -0.136558 0.251064 -0.058926 -0.487694 0.960761
Note - निरीक्षण करें cov के बीच a तथा b पहले कथन में कॉलम और डेटाफ़्रेम पर कोव द्वारा लौटाया गया मान है।
सह - संबंध
सहसंबंध किसी भी दो सरणी मूल्यों (श्रृंखला) के बीच रैखिक संबंध दिखाता है। पीयरसन (डिफ़ॉल्ट), स्पीयरमैन और केंडल जैसे सहसंबंध की गणना करने के लिए कई तरीके हैं।
import pandas as pd
import numpy as np
frame = pd.DataFrame(np.random.randn(10, 5), columns=['a', 'b', 'c', 'd', 'e'])
print frame['a'].corr(frame['b'])
print frame.corr()
आईटी इस output इस प्रकार है -
-0.383712785514
a b c d e
a 1.000000 -0.383713 -0.145368 0.002235 -0.104405
b -0.383713 1.000000 0.125311 -0.372821 0.224908
c -0.145368 0.125311 1.000000 -0.045661 -0.062840
d 0.002235 -0.372821 -0.045661 1.000000 -0.403380
e -0.104405 0.224908 -0.062840 -0.403380 1.000000
यदि कोई गैर-संख्यात्मक स्तंभ DataFrame में मौजूद है, तो यह स्वचालित रूप से बाहर रखा गया है।
डेटा रैंकिंग
डेटा रैंकिंग तत्वों के सरणी में प्रत्येक तत्व के लिए रैंकिंग का उत्पादन करती है। संबंधों के मामले में, औसत रैंक प्रदान करता है।
import pandas as pd
import numpy as np
s = pd.Series(np.random.np.random.randn(5), index=list('abcde'))
s['d'] = s['b'] # so there's a tie
print s.rank()
आईटी इस output इस प्रकार है -
a 1.0
b 3.5
c 2.0
d 3.5
e 5.0
dtype: float64
रैंक वैकल्पिक रूप से एक पैरामीटर को आरोही लेता है जो डिफ़ॉल्ट रूप से सत्य है; जब गलत होता है, तो डेटा रिवर्स-रैंक किया जाता है, जिसमें बड़े मानों को एक छोटा रैंक सौंपा जाता है।
विधि पैरामीटर के साथ निर्दिष्ट रैंक अलग-अलग टाई-ब्रेकिंग विधियों का समर्थन करता है -
average - बंधे समूह की औसत रैंक
min - समूह में सबसे कम रैंक
max - समूह में उच्चतम रैंक
first - रैंक वे क्रम में सौंपा सरणी में दिखाई देते हैं