Python Pandas - Fonctionnalités de base
À présent, nous avons découvert les trois structures de données Pandas et comment les créer. Nous nous concentrerons principalement sur les objets DataFrame en raison de son importance dans le traitement des données en temps réel et discuterons également de quelques autres DataStructures.
Fonctionnalité de base de la série
N ° Sr. | Attribut ou méthode et description |
---|---|
1 | axes Renvoie une liste des étiquettes des axes de ligne |
2 | dtype Renvoie le dtype de l'objet. |
3 | empty Renvoie True si la série est vide. |
4 | ndim Renvoie le nombre de dimensions des données sous-jacentes, par définition 1. |
5 | size Renvoie le nombre d'éléments dans les données sous-jacentes. |
6 | values Renvoie la série sous la forme ndarray. |
sept | head() Renvoie les n premières lignes. |
8 | tail() Renvoie les n dernières lignes. |
Créons maintenant une série et voyons toutes les opérations d'attributs tabulés ci-dessus.
Exemple
import pandas as pd
import numpy as np
#Create a series with 100 random numbers
s = pd.Series(np.random.randn(4))
print s
Ses output est comme suit -
0 0.967853
1 -0.148368
2 -1.395906
3 -1.758394
dtype: float64
axes
Renvoie la liste des étiquettes de la série.
import pandas as pd
import numpy as np
#Create a series with 100 random numbers
s = pd.Series(np.random.randn(4))
print ("The axes are:")
print s.axes
Ses output est comme suit -
The axes are:
[RangeIndex(start=0, stop=4, step=1)]
Le résultat ci-dessus est un format compact d'une liste de valeurs de 0 à 5, c'est-à-dire [0,1,2,3,4].
vide
Renvoie la valeur booléenne indiquant si l'objet est vide ou non. True indique que l'objet est vide.
import pandas as pd
import numpy as np
#Create a series with 100 random numbers
s = pd.Series(np.random.randn(4))
print ("Is the Object empty?")
print s.empty
Ses output est comme suit -
Is the Object empty?
False
ndim
Renvoie le nombre de dimensions de l'objet. Par définition, une série est une structure de données 1D, elle renvoie donc
import pandas as pd
import numpy as np
#Create a series with 4 random numbers
s = pd.Series(np.random.randn(4))
print s
print ("The dimensions of the object:")
print s.ndim
Ses output est comme suit -
0 0.175898
1 0.166197
2 -0.609712
3 -1.377000
dtype: float64
The dimensions of the object:
1
Taille
Renvoie la taille (longueur) de la série.
import pandas as pd
import numpy as np
#Create a series with 4 random numbers
s = pd.Series(np.random.randn(2))
print s
print ("The size of the object:")
print s.size
Ses output est comme suit -
0 3.078058
1 -1.207803
dtype: float64
The size of the object:
2
valeurs
Renvoie les données réelles de la série sous forme de tableau.
import pandas as pd
import numpy as np
#Create a series with 4 random numbers
s = pd.Series(np.random.randn(4))
print s
print ("The actual data series is:")
print s.values
Ses output est comme suit -
0 1.787373
1 -0.605159
2 0.180477
3 -0.140922
dtype: float64
The actual data series is:
[ 1.78737302 -0.60515881 0.18047664 -0.1409218 ]
Tête et queue
Pour afficher un petit échantillon d'une série ou de l'objet DataFrame, utilisez les méthodes head () et tail ().
head() renvoie le premier nlignes (observez les valeurs d'index). Le nombre d'éléments à afficher par défaut est de cinq, mais vous pouvez passer un nombre personnalisé.
import pandas as pd
import numpy as np
#Create a series with 4 random numbers
s = pd.Series(np.random.randn(4))
print ("The original series is:")
print s
print ("The first two rows of the data series:")
print s.head(2)
Ses output est comme suit -
The original series is:
0 0.720876
1 -0.765898
2 0.479221
3 -0.139547
dtype: float64
The first two rows of the data series:
0 0.720876
1 -0.765898
dtype: float64
tail() renvoie le dernier nlignes (observez les valeurs d'index). Le nombre d'éléments à afficher par défaut est de cinq, mais vous pouvez passer un nombre personnalisé.
import pandas as pd
import numpy as np
#Create a series with 4 random numbers
s = pd.Series(np.random.randn(4))
print ("The original series is:")
print s
print ("The last two rows of the data series:")
print s.tail(2)
Ses output est comme suit -
The original series is:
0 -0.655091
1 -0.881407
2 -0.608592
3 -2.341413
dtype: float64
The last two rows of the data series:
2 -0.608592
3 -2.341413
dtype: float64
Fonctionnalité de base DataFrame
Voyons maintenant ce qu'est la fonctionnalité de base de DataFrame. Les tableaux suivants répertorient les attributs ou méthodes importants qui aident dans la fonctionnalité de base de DataFrame.
N ° Sr. | Attribut ou méthode et description |
---|---|
1 | T Transpose les lignes et les colonnes. |
2 | axes Renvoie une liste avec les étiquettes d'axe de ligne et d'axe de colonne comme seuls membres. |
3 | dtypes Renvoie les dtypes de cet objet. |
4 | empty Vrai si NDFrame est entièrement vide [aucun élément]; si l'un des axes est de longueur 0. |
5 | ndim Nombre d'axes / dimensions du tableau. |
6 | shape Renvoie un tuple représentant la dimensionnalité du DataFrame. |
sept | size Nombre d'éléments dans le NDFrame. |
8 | values Représentation numpy de NDFrame. |
9 | head() Renvoie les n premières lignes. |
dix | tail() Renvoie les n dernières lignes. |
Créons maintenant un DataFrame et voyons comment fonctionnent les attributs mentionnés ci-dessus.
Exemple
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our data series is:")
print df
Ses output est comme suit -
Our data series is:
Age Name Rating
0 25 Tom 4.23
1 26 James 3.24
2 25 Ricky 3.98
3 23 Vin 2.56
4 30 Steve 3.20
5 29 Smith 4.60
6 23 Jack 3.80
T (Transposer)
Renvoie la transposition du DataFrame. Les lignes et les colonnes seront échangées.
import pandas as pd
import numpy as np
# Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
# Create a DataFrame
df = pd.DataFrame(d)
print ("The transpose of the data series is:")
print df.T
Ses output est comme suit -
The transpose of the data series is:
0 1 2 3 4 5 6
Age 25 26 25 23 30 29 23
Name Tom James Ricky Vin Steve Smith Jack
Rating 4.23 3.24 3.98 2.56 3.2 4.6 3.8
axes
Renvoie la liste des étiquettes d'axe de ligne et d'axe de colonne.
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("Row axis labels and column axis labels are:")
print df.axes
Ses output est comme suit -
Row axis labels and column axis labels are:
[RangeIndex(start=0, stop=7, step=1), Index([u'Age', u'Name', u'Rating'],
dtype='object')]
dtypes
Renvoie le type de données de chaque colonne.
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("The data types of each column are:")
print df.dtypes
Ses output est comme suit -
The data types of each column are:
Age int64
Name object
Rating float64
dtype: object
vide
Renvoie la valeur booléenne indiquant si l'objet est vide ou non; True indique que l'objet est vide.
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("Is the object empty?")
print df.empty
Ses output est comme suit -
Is the object empty?
False
ndim
Renvoie le nombre de dimensions de l'objet. Par définition, DataFrame est un objet 2D.
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our object is:")
print df
print ("The dimension of the object is:")
print df.ndim
Ses output est comme suit -
Our object is:
Age Name Rating
0 25 Tom 4.23
1 26 James 3.24
2 25 Ricky 3.98
3 23 Vin 2.56
4 30 Steve 3.20
5 29 Smith 4.60
6 23 Jack 3.80
The dimension of the object is:
2
forme
Renvoie un tuple représentant la dimensionnalité du DataFrame. Tuple (a, b), où a représente le nombre de lignes etb représente le nombre de colonnes.
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our object is:")
print df
print ("The shape of the object is:")
print df.shape
Ses output est comme suit -
Our object is:
Age Name Rating
0 25 Tom 4.23
1 26 James 3.24
2 25 Ricky 3.98
3 23 Vin 2.56
4 30 Steve 3.20
5 29 Smith 4.60
6 23 Jack 3.80
The shape of the object is:
(7, 3)
Taille
Renvoie le nombre d'éléments dans le DataFrame.
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our object is:")
print df
print ("The total number of elements in our object is:")
print df.size
Ses output est comme suit -
Our object is:
Age Name Rating
0 25 Tom 4.23
1 26 James 3.24
2 25 Ricky 3.98
3 23 Vin 2.56
4 30 Steve 3.20
5 29 Smith 4.60
6 23 Jack 3.80
The total number of elements in our object is:
21
valeurs
Renvoie les données réelles du DataFrame sous la forme d'un NDarray.
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our object is:")
print df
print ("The actual data in our data frame is:")
print df.values
Ses output est comme suit -
Our object is:
Age Name Rating
0 25 Tom 4.23
1 26 James 3.24
2 25 Ricky 3.98
3 23 Vin 2.56
4 30 Steve 3.20
5 29 Smith 4.60
6 23 Jack 3.80
The actual data in our data frame is:
[[25 'Tom' 4.23]
[26 'James' 3.24]
[25 'Ricky' 3.98]
[23 'Vin' 2.56]
[30 'Steve' 3.2]
[29 'Smith' 4.6]
[23 'Jack' 3.8]]
Tête et queue
Pour afficher un petit échantillon d'un objet DataFrame, utilisez le head() et les méthodes tail (). head() renvoie le premier nlignes (observez les valeurs d'index). Le nombre d'éléments à afficher par défaut est de cinq, mais vous pouvez transmettre un nombre personnalisé.
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our data frame is:")
print df
print ("The first two rows of the data frame is:")
print df.head(2)
Ses output est comme suit -
Our data frame is:
Age Name Rating
0 25 Tom 4.23
1 26 James 3.24
2 25 Ricky 3.98
3 23 Vin 2.56
4 30 Steve 3.20
5 29 Smith 4.60
6 23 Jack 3.80
The first two rows of the data frame is:
Age Name Rating
0 25 Tom 4.23
1 26 James 3.24
tail() renvoie le dernier nlignes (observez les valeurs d'index). Le nombre d'éléments à afficher par défaut est de cinq, mais vous pouvez transmettre un nombre personnalisé.
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
#Create a DataFrame
df = pd.DataFrame(d)
print ("Our data frame is:")
print df
print ("The last two rows of the data frame is:")
print df.tail(2)
Ses output est comme suit -
Our data frame is:
Age Name Rating
0 25 Tom 4.23
1 26 James 3.24
2 25 Ricky 3.98
3 23 Vin 2.56
4 30 Steve 3.20
5 29 Smith 4.60
6 23 Jack 3.80
The last two rows of the data frame is:
Age Name Rating
5 29 Smith 4.6
6 23 Jack 3.8