पायथन पंडों - मूल कार्यक्षमता
अब तक, हमने तीन पंडों डेटास्ट्रक्चर और उन्हें बनाने के तरीके के बारे में सीखा। हम वास्तविक समय डेटा प्रसंस्करण में इसके महत्व के कारण DataFrame वस्तुओं पर प्रमुख रूप से ध्यान केंद्रित करेंगे और कुछ अन्य DataStructures पर भी चर्चा करेंगे।
सीरीज बेसिक फंक्शनलिटी
अनु क्रमांक। | विशेषता या विधि और विवरण |
---|---|
1 | axes पंक्ति अक्ष लेबल की सूची लौटाता है |
2 | dtype वस्तु का dtype लौटाता है। |
3 | empty अगर श्रृंखला खाली है तो सही है। |
4 | ndim परिभाषा 1 द्वारा अंतर्निहित डेटा के आयामों की संख्या लौटाता है। |
5 | size अंतर्निहित डेटा में तत्वों की संख्या लौटाता है। |
6 | values श्रृंखला को ndarray के रूप में लौटाता है। |
7 | head() पहले n पंक्तियों को लौटाता है। |
8 | tail() अंतिम n पंक्तियों को लौटाता है। |
आइए अब एक श्रृंखला बनाते हैं और उपरोक्त सभी सारणीबद्ध विशेषताओं का संचालन देखते हैं।
उदाहरण
import pandas as pd
import numpy as np
#Create a series with 100 random numbers
s = pd.Series(np.random.randn(4))
print s
आईटी इस output इस प्रकार है -
0 0.967853
1 -0.148368
2 -1.395906
3 -1.758394
dtype: float64
कुल्हाड़ियों
श्रृंखला के लेबल की सूची लौटाता है।
import pandas as pd
import numpy as np
#Create a series with 100 random numbers
s = pd.Series(np.random.randn(4))
print ("The axes are:")
print s.axes
आईटी इस output इस प्रकार है -
The axes are:
[RangeIndex(start=0, stop=4, step=1)]
उपरोक्त परिणाम 0 से 5 के मानों की सूची का एक कॉम्पैक्ट प्रारूप है, अर्थात, [0,1,2,3,4]।
खाली
बूलियन मान यह कहते हुए लौटाता है कि ऑब्जेक्ट खाली है या नहीं। सत्य इंगित करता है कि वस्तु खाली है।
import pandas as pd
import numpy as np
#Create a series with 100 random numbers
s = pd.Series(np.random.randn(4))
print ("Is the Object empty?")
print s.empty
आईटी इस output इस प्रकार है -
Is the Object empty?
False
ndim
वस्तु के आयामों की संख्या लौटाता है। परिभाषा के अनुसार, एक श्रृंखला 1D डेटा संरचना है, इसलिए यह वापस आ जाती है
import pandas as pd
import numpy as np
#Create a series with 4 random numbers
s = pd.Series(np.random.randn(4))
print s
print ("The dimensions of the object:")
print s.ndim
आईटी इस output इस प्रकार है -
0 0.175898
1 0.166197
2 -0.609712
3 -1.377000
dtype: float64
The dimensions of the object:
1
आकार
श्रृंखला का आकार (लंबाई) लौटाता है।
import pandas as pd
import numpy as np
#Create a series with 4 random numbers
s = pd.Series(np.random.randn(2))
print s
print ("The size of the object:")
print s.size
आईटी इस output इस प्रकार है -
0 3.078058
1 -1.207803
dtype: float64
The size of the object:
2
मूल्यों
श्रृंखला में वास्तविक डेटा को एक सरणी के रूप में देता है।
import pandas as pd
import numpy as np
#Create a series with 4 random numbers
s = pd.Series(np.random.randn(4))
print s
print ("The actual data series is:")
print s.values
आईटी इस output इस प्रकार है -
0 1.787373
1 -0.605159
2 0.180477
3 -0.140922
dtype: float64
The actual data series is:
[ 1.78737302 -0.60515881 0.18047664 -0.1409218 ]
सिर और पूंछ
किसी श्रृंखला या डेटाफ़्रेम ऑब्जेक्ट का एक छोटा सा नमूना देखने के लिए, सिर () और पूंछ () विधियों का उपयोग करें।
head() पहले लौटाता है nपंक्तियाँ (सूचकांक मानों का निरीक्षण करें)। प्रदर्शित करने के लिए तत्वों की डिफ़ॉल्ट संख्या पांच है, लेकिन आप एक कस्टम संख्या पारित कर सकते हैं।
import pandas as pd
import numpy as np
#Create a series with 4 random numbers
s = pd.Series(np.random.randn(4))
print ("The original series is:")
print s
print ("The first two rows of the data series:")
print s.head(2)
आईटी इस output इस प्रकार है -
The original series is:
0 0.720876
1 -0.765898
2 0.479221
3 -0.139547
dtype: float64
The first two rows of the data series:
0 0.720876
1 -0.765898
dtype: float64
tail() अंतिम देता है nपंक्तियाँ (सूचकांक मानों का निरीक्षण करें)। प्रदर्शित करने के लिए तत्वों की डिफ़ॉल्ट संख्या पांच है, लेकिन आप एक कस्टम संख्या पारित कर सकते हैं।
import pandas as pd
import numpy as np
#Create a series with 4 random numbers
s = pd.Series(np.random.randn(4))
print ("The original series is:")
print s
print ("The last two rows of the data series:")
print s.tail(2)
आईटी इस output इस प्रकार है -
The original series is:
0 -0.655091
1 -0.881407
2 -0.608592
3 -2.341413
dtype: float64
The last two rows of the data series:
2 -0.608592
3 -2.341413
dtype: float64
DataFrame बेसिक फंक्शनलिटी
आइए अब समझते हैं कि DataFrame बेसिक फंक्शनलिटी क्या है। निम्न तालिकाएँ उन महत्वपूर्ण विशेषताओं या विधियों को सूचीबद्ध करती हैं जो डेटाफ़्रेम बेसिक फ़ंक्शनलिटी में मदद करती हैं।
अनु क्रमांक। | विशेषता या विधि और विवरण |
---|---|
1 | T पंक्तियों और स्तंभों को स्थानांतरित करता है। |
2 | axes केवल सदस्यों के रूप में पंक्ति अक्ष लेबल और स्तंभ अक्ष लेबल के साथ एक सूची देता है। |
3 | dtypes इस ऑब्जेक्ट में dtypes लौटाता है। |
4 | empty सच है अगर NDFrame पूरी तरह से खाली है [कोई आइटम नहीं]; यदि कुल्हाड़ियों की कोई लंबाई 0 हो। |
5 | ndim कुल्हाड़ियों / सरणी आयामों की संख्या। |
6 | shape DataFrame की गतिशीलता का प्रतिनिधित्व करने वाला एक टपल लौटाता है। |
7 | size NDFrame में तत्वों की संख्या। |
8 | values NDFrame का गंदा प्रतिनिधित्व। |
9 | head() पहले n पंक्तियों को लौटाता है। |
10 | tail() अंतिम n पंक्तियों को लौटाता है। |
आइए अब एक DataFrame बनाएं और देखें कि उपर्युक्त विशेषताएँ कैसे काम करती हैं।
उदाहरण
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our data series is:")
print df
आईटी इस output इस प्रकार है -
Our data series is:
Age Name Rating
0 25 Tom 4.23
1 26 James 3.24
2 25 Ricky 3.98
3 23 Vin 2.56
4 30 Steve 3.20
5 29 Smith 4.60
6 23 Jack 3.80
टी (संक्रमण)
DataFrame का स्थानान्तरण लौटाता है। पंक्तियों और स्तंभों का आदान-प्रदान होगा।
import pandas as pd
import numpy as np
# Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
# Create a DataFrame
df = pd.DataFrame(d)
print ("The transpose of the data series is:")
print df.T
आईटी इस output इस प्रकार है -
The transpose of the data series is:
0 1 2 3 4 5 6
Age 25 26 25 23 30 29 23
Name Tom James Ricky Vin Steve Smith Jack
Rating 4.23 3.24 3.98 2.56 3.2 4.6 3.8
कुल्हाड़ियों
पंक्ति अक्ष लेबल और स्तंभ अक्ष लेबल की सूची देता है।
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("Row axis labels and column axis labels are:")
print df.axes
आईटी इस output इस प्रकार है -
Row axis labels and column axis labels are:
[RangeIndex(start=0, stop=7, step=1), Index([u'Age', u'Name', u'Rating'],
dtype='object')]
dtypes
प्रत्येक स्तंभ का डेटा प्रकार लौटाता है।
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("The data types of each column are:")
print df.dtypes
आईटी इस output इस प्रकार है -
The data types of each column are:
Age int64
Name object
Rating float64
dtype: object
खाली
बूलियन मान यह कहते हुए लौटाता है कि वस्तु खाली है या नहीं; सत्य इंगित करता है कि वस्तु खाली है।
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("Is the object empty?")
print df.empty
आईटी इस output इस प्रकार है -
Is the object empty?
False
ndim
वस्तु के आयामों की संख्या लौटाता है। परिभाषा के अनुसार, DataFrame एक 2D ऑब्जेक्ट है।
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our object is:")
print df
print ("The dimension of the object is:")
print df.ndim
आईटी इस output इस प्रकार है -
Our object is:
Age Name Rating
0 25 Tom 4.23
1 26 James 3.24
2 25 Ricky 3.98
3 23 Vin 2.56
4 30 Steve 3.20
5 29 Smith 4.60
6 23 Jack 3.80
The dimension of the object is:
2
आकार
DataFrame की गतिशीलता का प्रतिनिधित्व करने वाला एक टपल लौटाता है। ट्यूपल (ए, बी), जहां पंक्तियों की संख्या का प्रतिनिधित्व करता है औरb स्तंभों की संख्या का प्रतिनिधित्व करता है।
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our object is:")
print df
print ("The shape of the object is:")
print df.shape
आईटी इस output इस प्रकार है -
Our object is:
Age Name Rating
0 25 Tom 4.23
1 26 James 3.24
2 25 Ricky 3.98
3 23 Vin 2.56
4 30 Steve 3.20
5 29 Smith 4.60
6 23 Jack 3.80
The shape of the object is:
(7, 3)
आकार
DataFrame में तत्वों की संख्या लौटाता है।
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our object is:")
print df
print ("The total number of elements in our object is:")
print df.size
आईटी इस output इस प्रकार है -
Our object is:
Age Name Rating
0 25 Tom 4.23
1 26 James 3.24
2 25 Ricky 3.98
3 23 Vin 2.56
4 30 Steve 3.20
5 29 Smith 4.60
6 23 Jack 3.80
The total number of elements in our object is:
21
मूल्यों
DataFrame में वास्तविक डेटा को एक के रूप में देता है NDarray.
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our object is:")
print df
print ("The actual data in our data frame is:")
print df.values
आईटी इस output इस प्रकार है -
Our object is:
Age Name Rating
0 25 Tom 4.23
1 26 James 3.24
2 25 Ricky 3.98
3 23 Vin 2.56
4 30 Steve 3.20
5 29 Smith 4.60
6 23 Jack 3.80
The actual data in our data frame is:
[[25 'Tom' 4.23]
[26 'James' 3.24]
[25 'Ricky' 3.98]
[23 'Vin' 2.56]
[30 'Steve' 3.2]
[29 'Smith' 4.6]
[23 'Jack' 3.8]]
सिर और पूंछ
किसी DataFrame ऑब्जेक्ट का एक छोटा सा नमूना देखने के लिए, का उपयोग करें head() और पूंछ () विधियाँ। head() पहले लौटाता है nपंक्तियाँ (सूचकांक मानों का निरीक्षण करें)। प्रदर्शित करने के लिए तत्वों की डिफ़ॉल्ट संख्या पांच है, लेकिन आप एक कस्टम संख्या पारित कर सकते हैं।
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our data frame is:")
print df
print ("The first two rows of the data frame is:")
print df.head(2)
आईटी इस output इस प्रकार है -
Our data frame is:
Age Name Rating
0 25 Tom 4.23
1 26 James 3.24
2 25 Ricky 3.98
3 23 Vin 2.56
4 30 Steve 3.20
5 29 Smith 4.60
6 23 Jack 3.80
The first two rows of the data frame is:
Age Name Rating
0 25 Tom 4.23
1 26 James 3.24
tail() अंतिम देता है nपंक्तियाँ (सूचकांक मानों का निरीक्षण करें)। प्रदर्शित करने के लिए तत्वों की डिफ़ॉल्ट संख्या पांच है, लेकिन आप एक कस्टम संख्या पारित कर सकते हैं।
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our data frame is:")
print df
print ("The last two rows of the data frame is:")
print df.tail(2)
आईटी इस output इस प्रकार है -
Our data frame is:
Age Name Rating
0 25 Tom 4.23
1 26 James 3.24
2 25 Ricky 3.98
3 23 Vin 2.56
4 30 Steve 3.20
5 29 Smith 4.60
6 23 Jack 3.80
The last two rows of the data frame is:
Age Name Rating
5 29 Smith 4.6
6 23 Jack 3.8