पायथन पंडों - मूल कार्यक्षमता

अब तक, हमने तीन पंडों डेटास्ट्रक्चर और उन्हें बनाने के तरीके के बारे में सीखा। हम वास्तविक समय डेटा प्रसंस्करण में इसके महत्व के कारण DataFrame वस्तुओं पर प्रमुख रूप से ध्यान केंद्रित करेंगे और कुछ अन्य DataStructures पर भी चर्चा करेंगे।

सीरीज बेसिक फंक्शनलिटी

अनु क्रमांक। विशेषता या विधि और विवरण
1

axes

पंक्ति अक्ष लेबल की सूची लौटाता है

2

dtype

वस्तु का dtype लौटाता है।

3

empty

अगर श्रृंखला खाली है तो सही है।

4

ndim

परिभाषा 1 द्वारा अंतर्निहित डेटा के आयामों की संख्या लौटाता है।

5

size

अंतर्निहित डेटा में तत्वों की संख्या लौटाता है।

6

values

श्रृंखला को ndarray के रूप में लौटाता है।

7

head()

पहले n पंक्तियों को लौटाता है।

8

tail()

अंतिम n पंक्तियों को लौटाता है।

आइए अब एक श्रृंखला बनाते हैं और उपरोक्त सभी सारणीबद्ध विशेषताओं का संचालन देखते हैं।

उदाहरण

import pandas as pd
import numpy as np

#Create a series with 100 random numbers
s = pd.Series(np.random.randn(4))
print s

आईटी इस output इस प्रकार है -

0   0.967853
1  -0.148368
2  -1.395906
3  -1.758394
dtype: float64

कुल्हाड़ियों

श्रृंखला के लेबल की सूची लौटाता है।

import pandas as pd
import numpy as np

#Create a series with 100 random numbers
s = pd.Series(np.random.randn(4))
print ("The axes are:")
print s.axes

आईटी इस output इस प्रकार है -

The axes are:
[RangeIndex(start=0, stop=4, step=1)]

उपरोक्त परिणाम 0 से 5 के मानों की सूची का एक कॉम्पैक्ट प्रारूप है, अर्थात, [0,1,2,3,4]।

खाली

बूलियन मान यह कहते हुए लौटाता है कि ऑब्जेक्ट खाली है या नहीं। सत्य इंगित करता है कि वस्तु खाली है।

import pandas as pd
import numpy as np

#Create a series with 100 random numbers
s = pd.Series(np.random.randn(4))
print ("Is the Object empty?")
print s.empty

आईटी इस output इस प्रकार है -

Is the Object empty?
False

ndim

वस्तु के आयामों की संख्या लौटाता है। परिभाषा के अनुसार, एक श्रृंखला 1D डेटा संरचना है, इसलिए यह वापस आ जाती है

import pandas as pd
import numpy as np

#Create a series with 4 random numbers
s = pd.Series(np.random.randn(4))
print s

print ("The dimensions of the object:")
print s.ndim

आईटी इस output इस प्रकार है -

0   0.175898
1   0.166197
2  -0.609712
3  -1.377000
dtype: float64

The dimensions of the object:
1

आकार

श्रृंखला का आकार (लंबाई) लौटाता है।

import pandas as pd
import numpy as np

#Create a series with 4 random numbers
s = pd.Series(np.random.randn(2))
print s
print ("The size of the object:")
print s.size

आईटी इस output इस प्रकार है -

0   3.078058
1  -1.207803
dtype: float64

The size of the object:
2

मूल्यों

श्रृंखला में वास्तविक डेटा को एक सरणी के रूप में देता है।

import pandas as pd
import numpy as np

#Create a series with 4 random numbers
s = pd.Series(np.random.randn(4))
print s

print ("The actual data series is:")
print s.values

आईटी इस output इस प्रकार है -

0   1.787373
1  -0.605159
2   0.180477
3  -0.140922
dtype: float64

The actual data series is:
[ 1.78737302 -0.60515881 0.18047664 -0.1409218 ]

सिर और पूंछ

किसी श्रृंखला या डेटाफ़्रेम ऑब्जेक्ट का एक छोटा सा नमूना देखने के लिए, सिर () और पूंछ () विधियों का उपयोग करें।

head() पहले लौटाता है nपंक्तियाँ (सूचकांक मानों का निरीक्षण करें)। प्रदर्शित करने के लिए तत्वों की डिफ़ॉल्ट संख्या पांच है, लेकिन आप एक कस्टम संख्या पारित कर सकते हैं।

import pandas as pd
import numpy as np

#Create a series with 4 random numbers
s = pd.Series(np.random.randn(4))
print ("The original series is:")
print s

print ("The first two rows of the data series:")
print s.head(2)

आईटी इस output इस प्रकार है -

The original series is:
0   0.720876
1  -0.765898
2   0.479221
3  -0.139547
dtype: float64

The first two rows of the data series:
0   0.720876
1  -0.765898
dtype: float64

tail() अंतिम देता है nपंक्तियाँ (सूचकांक मानों का निरीक्षण करें)। प्रदर्शित करने के लिए तत्वों की डिफ़ॉल्ट संख्या पांच है, लेकिन आप एक कस्टम संख्या पारित कर सकते हैं।

import pandas as pd
import numpy as np

#Create a series with 4 random numbers
s = pd.Series(np.random.randn(4))
print ("The original series is:")
print s

print ("The last two rows of the data series:")
print s.tail(2)

आईटी इस output इस प्रकार है -

The original series is:
0 -0.655091
1 -0.881407
2 -0.608592
3 -2.341413
dtype: float64

The last two rows of the data series:
2 -0.608592
3 -2.341413
dtype: float64

DataFrame बेसिक फंक्शनलिटी

आइए अब समझते हैं कि DataFrame बेसिक फंक्शनलिटी क्या है। निम्न तालिकाएँ उन महत्वपूर्ण विशेषताओं या विधियों को सूचीबद्ध करती हैं जो डेटाफ़्रेम बेसिक फ़ंक्शनलिटी में मदद करती हैं।

अनु क्रमांक। विशेषता या विधि और विवरण
1

T

पंक्तियों और स्तंभों को स्थानांतरित करता है।

2

axes

केवल सदस्यों के रूप में पंक्ति अक्ष लेबल और स्तंभ अक्ष लेबल के साथ एक सूची देता है।

3

dtypes

इस ऑब्जेक्ट में dtypes लौटाता है।

4

empty

सच है अगर NDFrame पूरी तरह से खाली है [कोई आइटम नहीं]; यदि कुल्हाड़ियों की कोई लंबाई 0 हो।

5

ndim

कुल्हाड़ियों / सरणी आयामों की संख्या।

6

shape

DataFrame की गतिशीलता का प्रतिनिधित्व करने वाला एक टपल लौटाता है।

7

size

NDFrame में तत्वों की संख्या।

8

values

NDFrame का गंदा प्रतिनिधित्व।

9

head()

पहले n पंक्तियों को लौटाता है।

10

tail()

अंतिम n पंक्तियों को लौटाता है।

आइए अब एक DataFrame बनाएं और देखें कि उपर्युक्त विशेषताएँ कैसे काम करती हैं।

उदाहरण

import pandas as pd
import numpy as np

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}

#Create a DataFrame
df = pd.DataFrame(d)
print ("Our data series is:")
print df

आईटी इस output इस प्रकार है -

Our data series is:
    Age   Name    Rating
0   25    Tom     4.23
1   26    James   3.24
2   25    Ricky   3.98
3   23    Vin     2.56
4   30    Steve   3.20
5   29    Smith   4.60
6   23    Jack    3.80

टी (संक्रमण)

DataFrame का स्थानान्तरण लौटाता है। पंक्तियों और स्तंभों का आदान-प्रदान होगा।

import pandas as pd
import numpy as np
 
# Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}

# Create a DataFrame
df = pd.DataFrame(d)
print ("The transpose of the data series is:")
print df.T

आईटी इस output इस प्रकार है -

The transpose of the data series is:
         0     1       2      3      4      5       6
Age      25    26      25     23     30     29      23
Name     Tom   James   Ricky  Vin    Steve  Smith   Jack
Rating   4.23  3.24    3.98   2.56   3.2    4.6     3.8

कुल्हाड़ियों

पंक्ति अक्ष लेबल और स्तंभ अक्ष लेबल की सूची देता है।

import pandas as pd
import numpy as np

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}

#Create a DataFrame
df = pd.DataFrame(d)
print ("Row axis labels and column axis labels are:")
print df.axes

आईटी इस output इस प्रकार है -

Row axis labels and column axis labels are:

[RangeIndex(start=0, stop=7, step=1), Index([u'Age', u'Name', u'Rating'],
dtype='object')]

dtypes

प्रत्येक स्तंभ का डेटा प्रकार लौटाता है।

import pandas as pd
import numpy as np

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}

#Create a DataFrame
df = pd.DataFrame(d)
print ("The data types of each column are:")
print df.dtypes

आईटी इस output इस प्रकार है -

The data types of each column are:
Age     int64
Name    object
Rating  float64
dtype: object

खाली

बूलियन मान यह कहते हुए लौटाता है कि वस्तु खाली है या नहीं; सत्य इंगित करता है कि वस्तु खाली है।

import pandas as pd
import numpy as np
 
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 
#Create a DataFrame
df = pd.DataFrame(d)
print ("Is the object empty?")
print df.empty

आईटी इस output इस प्रकार है -

Is the object empty?
False

ndim

वस्तु के आयामों की संख्या लौटाता है। परिभाषा के अनुसार, DataFrame एक 2D ऑब्जेक्ट है।

import pandas as pd
import numpy as np

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}

#Create a DataFrame
df = pd.DataFrame(d)
print ("Our object is:")
print df
print ("The dimension of the object is:")
print df.ndim

आईटी इस output इस प्रकार है -

Our object is:
      Age    Name     Rating
0     25     Tom      4.23
1     26     James    3.24
2     25     Ricky    3.98
3     23     Vin      2.56
4     30     Steve    3.20
5     29     Smith    4.60
6     23     Jack     3.80

The dimension of the object is:
2

आकार

DataFrame की गतिशीलता का प्रतिनिधित्व करने वाला एक टपल लौटाता है। ट्यूपल (ए, बी), जहां पंक्तियों की संख्या का प्रतिनिधित्व करता है औरb स्तंभों की संख्या का प्रतिनिधित्व करता है।

import pandas as pd
import numpy as np
 
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our object is:")
print df
print ("The shape of the object is:")
print df.shape

आईटी इस output इस प्रकार है -

Our object is:
   Age   Name    Rating
0  25    Tom     4.23
1  26    James   3.24
2  25    Ricky   3.98
3  23    Vin     2.56
4  30    Steve   3.20
5  29    Smith   4.60
6  23    Jack    3.80

The shape of the object is:
(7, 3)

आकार

DataFrame में तत्वों की संख्या लौटाता है।

import pandas as pd
import numpy as np
 
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our object is:")
print df
print ("The total number of elements in our object is:")
print df.size

आईटी इस output इस प्रकार है -

Our object is:
    Age   Name    Rating
0   25    Tom     4.23
1   26    James   3.24
2   25    Ricky   3.98
3   23    Vin     2.56
4   30    Steve   3.20
5   29    Smith   4.60
6   23    Jack    3.80

The total number of elements in our object is:
21

मूल्यों

DataFrame में वास्तविक डेटा को एक के रूप में देता है NDarray.

import pandas as pd
import numpy as np
 
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our object is:")
print df
print ("The actual data in our data frame is:")
print df.values

आईटी इस output इस प्रकार है -

Our object is:
    Age   Name    Rating
0   25    Tom     4.23
1   26    James   3.24
2   25    Ricky   3.98
3   23    Vin     2.56
4   30    Steve   3.20
5   29    Smith   4.60
6   23    Jack    3.80
The actual data in our data frame is:
[[25 'Tom' 4.23]
[26 'James' 3.24]
[25 'Ricky' 3.98]
[23 'Vin' 2.56]
[30 'Steve' 3.2]
[29 'Smith' 4.6]
[23 'Jack' 3.8]]

सिर और पूंछ

किसी DataFrame ऑब्जेक्ट का एक छोटा सा नमूना देखने के लिए, का उपयोग करें head() और पूंछ () विधियाँ। head() पहले लौटाता है nपंक्तियाँ (सूचकांक मानों का निरीक्षण करें)। प्रदर्शित करने के लिए तत्वों की डिफ़ॉल्ट संख्या पांच है, लेकिन आप एक कस्टम संख्या पारित कर सकते हैं।

import pandas as pd
import numpy as np
 
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}

#Create a DataFrame
df = pd.DataFrame(d)
print ("Our data frame is:")
print df
print ("The first two rows of the data frame is:")
print df.head(2)

आईटी इस output इस प्रकार है -

Our data frame is:
    Age   Name    Rating
0   25    Tom     4.23
1   26    James   3.24
2   25    Ricky   3.98
3   23    Vin     2.56
4   30    Steve   3.20
5   29    Smith   4.60
6   23    Jack    3.80

The first two rows of the data frame is:
   Age   Name   Rating
0  25    Tom    4.23
1  26    James  3.24

tail() अंतिम देता है nपंक्तियाँ (सूचकांक मानों का निरीक्षण करें)। प्रदर्शित करने के लिए तत्वों की डिफ़ॉल्ट संख्या पांच है, लेकिन आप एक कस्टम संख्या पारित कर सकते हैं।

import pandas as pd
import numpy as np

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]), 
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our data frame is:")
print df
print ("The last two rows of the data frame is:")
print df.tail(2)

आईटी इस output इस प्रकार है -

Our data frame is:
    Age   Name    Rating
0   25    Tom     4.23
1   26    James   3.24
2   25    Ricky   3.98
3   23    Vin     2.56
4   30    Steve   3.20
5   29    Smith   4.60
6   23    Jack    3.80

The last two rows of the data frame is:
    Age   Name    Rating
5   29    Smith    4.6
6   23    Jack     3.8