Python - Opérations sur les données
Python gère des données de différents formats principalement via les deux bibliothèques, Pandas et Numpy. Nous avons déjà vu les caractéristiques importantes de ces deux bibliothèques dans les chapitres précédents. Dans ce chapitre, nous verrons quelques exemples de base de chacune des bibliothèques sur la manière d'opérer sur les données.
Opérations de données dans Numpy
L'objet le plus important défini dans NumPy est un type de tableau à N dimensions appelé ndarray. Il décrit la collection d'objets du même type. Les éléments de la collection sont accessibles à l'aide d'un index de base zéro. Une instance de la classe ndarray peut être construite par différentes routines de création de tableau décrites plus loin dans le didacticiel. Le ndarray de base est créé à l'aide d'une fonction de tableau dans NumPy comme suit -
numpy.array
Voici quelques exemples de gestion des données Numpy.
Exemple 1
# more than one dimensions
import numpy as np
a = np.array([[1, 2], [3, 4]])
print a
La sortie est la suivante -
[[1, 2]
[3, 4]]
Exemple 2
# minimum dimensions
import numpy as np
a = np.array([1, 2, 3,4,5], ndmin = 2)
print a
La sortie est la suivante -
[[1, 2, 3, 4, 5]]
Exemple 3
# dtype parameter
import numpy as np
a = np.array([1, 2, 3], dtype = complex)
print a
La sortie est la suivante -
[ 1.+0.j, 2.+0.j, 3.+0.j]
Opérations de données dans les pandas
Pandas gère les données via Series,Data Frame, et Panel. Nous verrons quelques exemples de chacun d'eux.
Série Pandas
Series est un tableau étiqueté unidimensionnel capable de contenir des données de tout type (entier, chaîne, flottant, objets python, etc.). Les étiquettes des axes sont appelées collectivement index. Une série pandas peut être créée en utilisant le constructeur suivant -
pandas.Series( data, index, dtype, copy)
Exemple
Ici, nous créons une série à partir d'un tableau Numpy.
#import the pandas library and aliasing as pd
import pandas as pd
import numpy as np
data = np.array(['a','b','c','d'])
s = pd.Series(data)
print s
Ses output est comme suit -
0 a
1 b
2 c
3 d
dtype: object
Pandas DataFrame
Une trame de données est une structure de données bidimensionnelle, c'est-à-dire que les données sont alignées de manière tabulaire en lignes et en colonnes. Un DataFrame pandas peut être créé en utilisant le constructeur suivant -
pandas.DataFrame( data, index, columns, dtype, copy)
Créons maintenant un DataFrame indexé à l'aide de tableaux.
import pandas as pd
data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df = pd.DataFrame(data, index=['rank1','rank2','rank3','rank4'])
print df
Ses output est comme suit -
Age Name
rank1 28 Tom
rank2 34 Jack
rank3 29 Steve
rank4 42 Ricky
Panneau Pandas
UNE panelest un conteneur 3D de données. Le termePanel data est dérivé de l'économétrie et est en partie responsable du nom de pandas - pan(el)-da(ta)-s.
Un Panel peut être créé en utilisant le constructeur suivant -
pandas.Panel(data, items, major_axis, minor_axis, dtype, copy)
Dans l'exemple ci-dessous, nous créons un panneau à partir de dict d'objets DataFrame
#creating an empty panel
import pandas as pd
import numpy as np
data = {'Item1' : pd.DataFrame(np.random.randn(4, 3)),
'Item2' : pd.DataFrame(np.random.randn(4, 2))}
p = pd.Panel(data)
print p
Ses output est comme suit -
<class 'pandas.core.panel.Panel'>
Dimensions: 2 (items) x 4 (major_axis) x 5 (minor_axis)
Items axis: 0 to 1
Major_axis axis: 0 to 3
Minor_axis axis: 0 to 4