पायथन पंडों - वर्णनात्मक सांख्यिकी
बड़ी संख्या में विधियां सामूहिक रूप से वर्णनात्मक आंकड़ों और डेटाफ़्रेम पर अन्य संबंधित कार्यों की गणना करती हैं। इनमें से अधिकांश एकत्रीकरण हैंsum(), mean(), लेकिन उनमें से कुछ, जैसे sumsum()एक ही आकार की एक वस्तु का उत्पादन। आम तौर पर, इन विधियों में से एक हैaxisतर्क, ndarray की तरह । {sum, std, ...}, लेकिन अक्ष को नाम या पूर्णांक द्वारा निर्दिष्ट किया जा सकता है
DataFrame - "सूचकांक" (अक्ष = 0, डिफ़ॉल्ट), "कॉलम" (अक्ष = 1)
आइए हम एक DataFrame बनाते हैं और सभी ऑपरेशन के लिए इस अध्याय में इस ऑब्जेक्ट का उपयोग करते हैं।
उदाहरण
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
'Lee','David','Gasper','Betina','Andres']),
'Age':pd.Series([25,26,25,23,30,29,23,34,40,30,51,46]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])
}
#Create a DataFrame
df = pd.DataFrame(d)
print df
आईटी इस output इस प्रकार है -
Age Name Rating
0 25 Tom 4.23
1 26 James 3.24
2 25 Ricky 3.98
3 23 Vin 2.56
4 30 Steve 3.20
5 29 Smith 4.60
6 23 Jack 3.80
7 34 Lee 3.78
8 40 David 2.98
9 30 Gasper 4.80
10 51 Betina 4.10
11 46 Andres 3.65
योग ()
अनुरोधित अक्ष के लिए मानों का योग लौटाता है। डिफ़ॉल्ट रूप से, अक्ष सूचकांक है (अक्ष = 0)।
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
'Lee','David','Gasper','Betina','Andres']),
'Age':pd.Series([25,26,25,23,30,29,23,34,40,30,51,46]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])
}
#Create a DataFrame
df = pd.DataFrame(d)
print df.sum()
आईटी इस output इस प्रकार है -
Age 382
Name TomJamesRickyVinSteveSmithJackLeeDavidGasperBe...
Rating 44.92
dtype: object
प्रत्येक व्यक्तिगत कॉलम को व्यक्तिगत रूप से जोड़ा जाता है (स्ट्रिंग्स को जोड़ा जाता है)।
अक्ष = 1
यह सिंटेक्स आउटपुट देगा जैसा कि नीचे दिखाया गया है।
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
'Lee','David','Gasper','Betina','Andres']),
'Age':pd.Series([25,26,25,23,30,29,23,34,40,30,51,46]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])
}
#Create a DataFrame
df = pd.DataFrame(d)
print df.sum(1)
आईटी इस output इस प्रकार है -
0 29.23
1 29.24
2 28.98
3 25.56
4 33.20
5 33.60
6 26.80
7 37.78
8 42.98
9 34.80
10 55.10
11 49.65
dtype: float64
मतलब ()
औसत मान लौटाता है
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
'Lee','David','Gasper','Betina','Andres']),
'Age':pd.Series([25,26,25,23,30,29,23,34,40,30,51,46]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])
}
#Create a DataFrame
df = pd.DataFrame(d)
print df.mean()
आईटी इस output इस प्रकार है -
Age 31.833333
Rating 3.743333
dtype: float64
एसटीडी ()
संख्यात्मक स्तंभों के Bressel मानक विचलन लौटाता है।
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
'Lee','David','Gasper','Betina','Andres']),
'Age':pd.Series([25,26,25,23,30,29,23,34,40,30,51,46]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])
}
#Create a DataFrame
df = pd.DataFrame(d)
print df.std()
आईटी इस output इस प्रकार है -
Age 9.232682
Rating 0.661628
dtype: float64
कार्य और विवरण
आइए अब हम पायथन पंडों में वर्णनात्मक सांख्यिकी के तहत कार्यों को समझते हैं। निम्न तालिका महत्वपूर्ण कार्यों को सूचीबद्ध करती है -
अनु क्रमांक। | समारोह | विवरण |
---|---|---|
1 | गिनती () | गैर-अशक्त टिप्पणियों की संख्या |
2 | योग () | मूल्यों का योग |
3 | मतलब () | मूल्यों का मतलब |
4 | मंझला () | मूल्यों का माध्य |
5 | मोड () | मूल्यों का तरीका |
6 | एसटीडी () | मानों का मानक विचलन |
7 | मिनट () | न्यूनतम मूल्य |
8 | अधिकतम () | अधिकतम मूल्य |
9 | पेट () | निरपेक्ष मूल्य |
10 | prod () | मानों का उत्पाद |
1 1 | cumsum () | संचयी योग |
12 | cumprod () | संचयी उत्पाद |
Note- चूंकि DataFrame एक विषम डेटा संरचना है। सामान्य संचालन सभी कार्यों के साथ काम नहीं करते हैं।
जैसे कार्य sum(), cumsum()किसी भी त्रुटि के बिना संख्यात्मक और चरित्र (या) स्ट्रिंग डेटा तत्वों के साथ काम करते हैं। हालांकिn अभ्यास, चरित्र एकत्रीकरण का उपयोग आम तौर पर नहीं किया जाता है, ये कार्य किसी अपवाद को नहीं फेंकते हैं।
जैसे कार्य abs(), cumprod() जब DataFrame में वर्ण या स्ट्रिंग डेटा होता है तो अपवाद को फेंक दें क्योंकि ऐसे ऑपरेशन नहीं किए जा सकते हैं।
डेटा को सारांशित करना
describe() फ़ंक्शन DataFrame कॉलम से संबंधित आँकड़ों के सारांश की गणना करता है।
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
'Lee','David','Gasper','Betina','Andres']),
'Age':pd.Series([25,26,25,23,30,29,23,34,40,30,51,46]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])
}
#Create a DataFrame
df = pd.DataFrame(d)
print df.describe()
आईटी इस output इस प्रकार है -
Age Rating
count 12.000000 12.000000
mean 31.833333 3.743333
std 9.232682 0.661628
min 23.000000 2.560000
25% 25.000000 3.230000
50% 29.500000 3.790000
75% 35.500000 4.132500
max 51.000000 4.800000
यह फंक्शन देता है mean, std तथा IQRमान। और, फ़ंक्शन वर्ण स्तंभों को छोड़ देता है और संख्यात्मक स्तंभों के बारे में सारांश देता है।'include'वह तर्क है जो संक्षेप में प्रस्तुत करने के लिए किन स्तंभों पर विचार करने के लिए आवश्यक जानकारी पास करने के लिए उपयोग किया जाता है। मूल्यों की सूची लेता है; डिफ़ॉल्ट रूप से, 'संख्या'।
- object - स्ट्रिंग कॉलम को सारांशित करता है
- number - न्यूमेरिक कॉलम को सारांशित करता है
- all - सभी कॉलमों को एक साथ सारांशित करें (इसे सूची मूल्य के रूप में पारित नहीं किया जाना चाहिए)
अब, प्रोग्राम में निम्नलिखित स्टेटमेंट का उपयोग करें और आउटपुट की जांच करें -
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
'Lee','David','Gasper','Betina','Andres']),
'Age':pd.Series([25,26,25,23,30,29,23,34,40,30,51,46]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])
}
#Create a DataFrame
df = pd.DataFrame(d)
print df.describe(include=['object'])
आईटी इस output इस प्रकार है -
Name
count 12
unique 12
top Ricky
freq 1
अब, निम्नलिखित कथन का उपयोग करें और आउटपुट की जांच करें -
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
'Lee','David','Gasper','Betina','Andres']),
'Age':pd.Series([25,26,25,23,30,29,23,34,40,30,51,46]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])
}
#Create a DataFrame
df = pd.DataFrame(d)
print df. describe(include='all')
आईटी इस output इस प्रकार है -
Age Name Rating
count 12.000000 12 12.000000
unique NaN 12 NaN
top NaN Ricky NaN
freq NaN 1 NaN
mean 31.833333 NaN 3.743333
std 9.232682 NaN 0.661628
min 23.000000 NaN 2.560000
25% 25.000000 NaN 3.230000
50% 29.500000 NaN 3.790000
75% 35.500000 NaN 4.132500
max 51.000000 NaN 4.800000