पायथन पंडों - सांख्यिकीय कार्य

सांख्यिकीय तरीके डेटा के व्यवहार को समझने और उसका विश्लेषण करने में मदद करते हैं। अब हम कुछ सांख्यिकीय कार्य सीखेंगे, जिसे हम पंडों की वस्तुओं पर लागू कर सकते हैं।

प्रतिशत परिवर्तन

सीरीज़, डेटाफ़्रेम और पैनल, सभी का कार्य है pct_change()। यह फ़ंक्शन प्रत्येक तत्व की अपने पूर्व तत्व से तुलना करता है और परिवर्तन प्रतिशत की गणना करता है।

import pandas as pd
import numpy as np
s = pd.Series([1,2,3,4,5,4])
print s.pct_change()

df = pd.DataFrame(np.random.randn(5, 2))
print df.pct_change()

आईटी इस output इस प्रकार है -

0        NaN
1   1.000000
2   0.500000
3   0.333333
4   0.250000
5  -0.200000
dtype: float64

            0          1
0         NaN        NaN
1  -15.151902   0.174730
2  -0.746374   -1.449088
3  -3.582229   -3.165836
4   15.601150  -1.860434

डिफ़ॉल्ट रूप से, pct_change()स्तंभों पर काम करता है; यदि आप एक ही पंक्ति वार लागू करना चाहते हैं, तो उपयोग करेंaxis=1() बहस।

सहप्रसरण

Covariance श्रृंखला डेटा पर लागू किया जाता है। श्रृंखला वस्तु में श्रृंखला वस्तुओं के बीच सहसंयोजक की गणना करने के लिए एक विधि कोव है। एनए को स्वचालित रूप से बाहर रखा जाएगा।

कोव श्रृंखला

import pandas as pd
import numpy as np
s1 = pd.Series(np.random.randn(10))
s2 = pd.Series(np.random.randn(10))
print s1.cov(s2)

आईटी इस output इस प्रकार है -

-0.12978405324

डेटाफ़्रेम पर लागू होने पर सहसंयोजक विधि, गणना करती है cov सभी स्तंभों के बीच।

import pandas as pd
import numpy as np
frame = pd.DataFrame(np.random.randn(10, 5), columns=['a', 'b', 'c', 'd', 'e'])
print frame['a'].cov(frame['b'])
print frame.cov()

आईटी इस output इस प्रकार है -

-0.58312921152741437

           a           b           c           d            e
a   1.780628   -0.583129   -0.185575    0.003679    -0.136558
b  -0.583129    1.297011    0.136530   -0.523719     0.251064
c  -0.185575    0.136530    0.915227   -0.053881    -0.058926
d   0.003679   -0.523719   -0.053881    1.521426    -0.487694
e  -0.136558    0.251064   -0.058926   -0.487694     0.960761

Note - निरीक्षण करें cov के बीच a तथा b पहले कथन में कॉलम और डेटाफ़्रेम पर कोव द्वारा लौटाया गया मान है।

सह - संबंध

सहसंबंध किसी भी दो सरणी मूल्यों (श्रृंखला) के बीच रैखिक संबंध दिखाता है। पीयरसन (डिफ़ॉल्ट), स्पीयरमैन और केंडल जैसे सहसंबंध की गणना करने के लिए कई तरीके हैं।

import pandas as pd
import numpy as np
frame = pd.DataFrame(np.random.randn(10, 5), columns=['a', 'b', 'c', 'd', 'e'])

print frame['a'].corr(frame['b'])
print frame.corr()

आईटी इस output इस प्रकार है -

-0.383712785514

           a          b          c          d           e
a   1.000000  -0.383713  -0.145368   0.002235   -0.104405
b  -0.383713   1.000000   0.125311  -0.372821    0.224908
c  -0.145368   0.125311   1.000000  -0.045661   -0.062840
d   0.002235  -0.372821  -0.045661   1.000000   -0.403380
e  -0.104405   0.224908  -0.062840  -0.403380    1.000000

यदि कोई गैर-संख्यात्मक स्तंभ DataFrame में मौजूद है, तो यह स्वचालित रूप से बाहर रखा गया है।

डेटा रैंकिंग

डेटा रैंकिंग तत्वों के सरणी में प्रत्येक तत्व के लिए रैंकिंग का उत्पादन करती है। संबंधों के मामले में, औसत रैंक प्रदान करता है।

import pandas as pd
import numpy as np

s = pd.Series(np.random.np.random.randn(5), index=list('abcde'))
s['d'] = s['b'] # so there's a tie
print s.rank()

आईटी इस output इस प्रकार है -

a  1.0
b  3.5
c  2.0
d  3.5
e  5.0
dtype: float64

रैंक वैकल्पिक रूप से एक पैरामीटर को आरोही लेता है जो डिफ़ॉल्ट रूप से सत्य है; जब गलत होता है, तो डेटा रिवर्स-रैंक किया जाता है, जिसमें बड़े मानों को एक छोटा रैंक सौंपा जाता है।

विधि पैरामीटर के साथ निर्दिष्ट रैंक अलग-अलग टाई-ब्रेकिंग विधियों का समर्थन करता है -

  • average - बंधे समूह की औसत रैंक

  • min - समूह में सबसे कम रैंक

  • max - समूह में उच्चतम रैंक

  • first - रैंक वे क्रम में सौंपा सरणी में दिखाई देते हैं