पायथन पंडों - वर्णनात्मक सांख्यिकी

बड़ी संख्या में विधियां सामूहिक रूप से वर्णनात्मक आंकड़ों और डेटाफ़्रेम पर अन्य संबंधित कार्यों की गणना करती हैं। इनमें से अधिकांश एकत्रीकरण हैंsum(), mean(), लेकिन उनमें से कुछ, जैसे sumsum()एक ही आकार की एक वस्तु का उत्पादन। आम तौर पर, इन विधियों में से एक हैaxisतर्क, ndarray की तरह । {sum, std, ...}, लेकिन अक्ष को नाम या पूर्णांक द्वारा निर्दिष्ट किया जा सकता है

  • DataFrame - "सूचकांक" (अक्ष = 0, डिफ़ॉल्ट), "कॉलम" (अक्ष = 1)

आइए हम एक DataFrame बनाते हैं और सभी ऑपरेशन के लिए इस अध्याय में इस ऑब्जेक्ट का उपयोग करते हैं।

उदाहरण

import pandas as pd
import numpy as np

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
   'Lee','David','Gasper','Betina','Andres']),
   'Age':pd.Series([25,26,25,23,30,29,23,34,40,30,51,46]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])
}

#Create a DataFrame
df = pd.DataFrame(d)
print df

आईटी इस output इस प्रकार है -

Age  Name   Rating
0   25   Tom     4.23
1   26   James   3.24
2   25   Ricky   3.98
3   23   Vin     2.56
4   30   Steve   3.20
5   29   Smith   4.60
6   23   Jack    3.80
7   34   Lee     3.78
8   40   David   2.98
9   30   Gasper  4.80
10  51   Betina  4.10
11  46   Andres  3.65

योग ()

अनुरोधित अक्ष के लिए मानों का योग लौटाता है। डिफ़ॉल्ट रूप से, अक्ष सूचकांक है (अक्ष = 0)।

import pandas as pd
import numpy as np
 
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
   'Lee','David','Gasper','Betina','Andres']),
   'Age':pd.Series([25,26,25,23,30,29,23,34,40,30,51,46]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])
}

#Create a DataFrame
df = pd.DataFrame(d)
print df.sum()

आईटी इस output इस प्रकार है -

Age                                                    382
Name     TomJamesRickyVinSteveSmithJackLeeDavidGasperBe...
Rating                                               44.92
dtype: object

प्रत्येक व्यक्तिगत कॉलम को व्यक्तिगत रूप से जोड़ा जाता है (स्ट्रिंग्स को जोड़ा जाता है)।

अक्ष = 1

यह सिंटेक्स आउटपुट देगा जैसा कि नीचे दिखाया गया है।

import pandas as pd
import numpy as np
 
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
   'Lee','David','Gasper','Betina','Andres']),
   'Age':pd.Series([25,26,25,23,30,29,23,34,40,30,51,46]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])
}
 
#Create a DataFrame
df = pd.DataFrame(d)
print df.sum(1)

आईटी इस output इस प्रकार है -

0    29.23
1    29.24
2    28.98
3    25.56
4    33.20
5    33.60
6    26.80
7    37.78
8    42.98
9    34.80
10   55.10
11   49.65
dtype: float64

मतलब ()

औसत मान लौटाता है

import pandas as pd
import numpy as np

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
   'Lee','David','Gasper','Betina','Andres']),
   'Age':pd.Series([25,26,25,23,30,29,23,34,40,30,51,46]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])
}

#Create a DataFrame
df = pd.DataFrame(d)
print df.mean()

आईटी इस output इस प्रकार है -

Age       31.833333
Rating     3.743333
dtype: float64

एसटीडी ()

संख्यात्मक स्तंभों के Bressel मानक विचलन लौटाता है।

import pandas as pd
import numpy as np

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
   'Lee','David','Gasper','Betina','Andres']),
   'Age':pd.Series([25,26,25,23,30,29,23,34,40,30,51,46]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])
}

#Create a DataFrame
df = pd.DataFrame(d)
print df.std()

आईटी इस output इस प्रकार है -

Age       9.232682
Rating    0.661628
dtype: float64

कार्य और विवरण

आइए अब हम पायथन पंडों में वर्णनात्मक सांख्यिकी के तहत कार्यों को समझते हैं। निम्न तालिका महत्वपूर्ण कार्यों को सूचीबद्ध करती है -

अनु क्रमांक। समारोह विवरण
1 गिनती () गैर-अशक्त टिप्पणियों की संख्या
2 योग () मूल्यों का योग
3 मतलब () मूल्यों का मतलब
4 मंझला () मूल्यों का माध्य
5 मोड () मूल्यों का तरीका
6 एसटीडी () मानों का मानक विचलन
7 मिनट () न्यूनतम मूल्य
8 अधिकतम () अधिकतम मूल्य
9 पेट () निरपेक्ष मूल्य
10 prod () मानों का उत्पाद
1 1 cumsum () संचयी योग
12 cumprod () संचयी उत्पाद

Note- चूंकि DataFrame एक विषम डेटा संरचना है। सामान्य संचालन सभी कार्यों के साथ काम नहीं करते हैं।

  • जैसे कार्य sum(), cumsum()किसी भी त्रुटि के बिना संख्यात्मक और चरित्र (या) स्ट्रिंग डेटा तत्वों के साथ काम करते हैं। हालांकिn अभ्यास, चरित्र एकत्रीकरण का उपयोग आम तौर पर नहीं किया जाता है, ये कार्य किसी अपवाद को नहीं फेंकते हैं।

  • जैसे कार्य abs(), cumprod() जब DataFrame में वर्ण या स्ट्रिंग डेटा होता है तो अपवाद को फेंक दें क्योंकि ऐसे ऑपरेशन नहीं किए जा सकते हैं।

डेटा को सारांशित करना

describe() फ़ंक्शन DataFrame कॉलम से संबंधित आँकड़ों के सारांश की गणना करता है।

import pandas as pd
import numpy as np

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
   'Lee','David','Gasper','Betina','Andres']),
   'Age':pd.Series([25,26,25,23,30,29,23,34,40,30,51,46]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])
}

#Create a DataFrame
df = pd.DataFrame(d)
print df.describe()

आईटी इस output इस प्रकार है -

Age         Rating
count    12.000000      12.000000
mean     31.833333       3.743333
std       9.232682       0.661628
min      23.000000       2.560000
25%      25.000000       3.230000
50%      29.500000       3.790000
75%      35.500000       4.132500
max      51.000000       4.800000

यह फंक्शन देता है mean, std तथा IQRमान। और, फ़ंक्शन वर्ण स्तंभों को छोड़ देता है और संख्यात्मक स्तंभों के बारे में सारांश देता है।'include'वह तर्क है जो संक्षेप में प्रस्तुत करने के लिए किन स्तंभों पर विचार करने के लिए आवश्यक जानकारी पास करने के लिए उपयोग किया जाता है। मूल्यों की सूची लेता है; डिफ़ॉल्ट रूप से, 'संख्या'।

  • object - स्ट्रिंग कॉलम को सारांशित करता है
  • number - न्यूमेरिक कॉलम को सारांशित करता है
  • all - सभी कॉलमों को एक साथ सारांशित करें (इसे सूची मूल्य के रूप में पारित नहीं किया जाना चाहिए)

अब, प्रोग्राम में निम्नलिखित स्टेटमेंट का उपयोग करें और आउटपुट की जांच करें -

import pandas as pd
import numpy as np

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
   'Lee','David','Gasper','Betina','Andres']),
   'Age':pd.Series([25,26,25,23,30,29,23,34,40,30,51,46]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])
}

#Create a DataFrame
df = pd.DataFrame(d)
print df.describe(include=['object'])

आईटी इस output इस प्रकार है -

Name
count       12
unique      12
top      Ricky
freq         1

अब, निम्नलिखित कथन का उपयोग करें और आउटपुट की जांच करें -

import pandas as pd
import numpy as np

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
   'Lee','David','Gasper','Betina','Andres']),
   'Age':pd.Series([25,26,25,23,30,29,23,34,40,30,51,46]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])
}

#Create a DataFrame
df = pd.DataFrame(d)
print df. describe(include='all')

आईटी इस output इस प्रकार है -

Age          Name       Rating
count   12.000000        12    12.000000
unique        NaN        12          NaN
top           NaN     Ricky          NaN
freq          NaN         1          NaN
mean    31.833333       NaN     3.743333
std      9.232682       NaN     0.661628
min     23.000000       NaN     2.560000
25%     25.000000       NaN     3.230000
50%     29.500000       NaN     3.790000
75%     35.500000       NaN     4.132500
max     51.000000       NaN     4.800000