Python - Opérations sur les données

Python gère des données de différents formats principalement via les deux bibliothèques, Pandas et Numpy. Nous avons déjà vu les caractéristiques importantes de ces deux bibliothèques dans les chapitres précédents. Dans ce chapitre, nous verrons quelques exemples de base de chacune des bibliothèques sur la manière d'opérer sur les données.

Opérations de données dans Numpy

L'objet le plus important défini dans NumPy est un type de tableau à N dimensions appelé ndarray. Il décrit la collection d'objets du même type. Les éléments de la collection sont accessibles à l'aide d'un index de base zéro. Une instance de la classe ndarray peut être construite par différentes routines de création de tableau décrites plus loin dans le didacticiel. Le ndarray de base est créé à l'aide d'une fonction de tableau dans NumPy comme suit -

numpy.array

Voici quelques exemples de gestion des données Numpy.

Exemple 1

# more than one dimensions 
import numpy as np 
a = np.array([[1, 2], [3, 4]]) 
print a

La sortie est la suivante -

[[1, 2] 
 [3, 4]]

Exemple 2

# minimum dimensions 
import numpy as np 
a = np.array([1, 2, 3,4,5], ndmin = 2) 
print a

La sortie est la suivante -

[[1, 2, 3, 4, 5]]

Exemple 3

# dtype parameter 
import numpy as np 
a = np.array([1, 2, 3], dtype = complex) 
print a

La sortie est la suivante -

[ 1.+0.j,  2.+0.j,  3.+0.j]

Opérations de données dans les pandas

Pandas gère les données via Series,Data Frame, et Panel. Nous verrons quelques exemples de chacun d'eux.

Série Pandas

Series est un tableau étiqueté unidimensionnel capable de contenir des données de tout type (entier, chaîne, flottant, objets python, etc.). Les étiquettes des axes sont appelées collectivement index. Une série pandas peut être créée en utilisant le constructeur suivant -

pandas.Series( data, index, dtype, copy)

Exemple

Ici, nous créons une série à partir d'un tableau Numpy.

#import the pandas library and aliasing as pd
import pandas as pd
import numpy as np
data = np.array(['a','b','c','d'])
s = pd.Series(data)
print s

Ses output est comme suit -

0   a
1   b
2   c
3   d
dtype: object

Pandas DataFrame

Une trame de données est une structure de données bidimensionnelle, c'est-à-dire que les données sont alignées de manière tabulaire en lignes et en colonnes. Un DataFrame pandas peut être créé en utilisant le constructeur suivant -

pandas.DataFrame( data, index, columns, dtype, copy)

Créons maintenant un DataFrame indexé à l'aide de tableaux.

import pandas as pd
data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df = pd.DataFrame(data, index=['rank1','rank2','rank3','rank4'])
print df

Ses output est comme suit -

Age    Name
rank1    28      Tom
rank2    34     Jack
rank3    29    Steve
rank4    42    Ricky

Panneau Pandas

UNE panelest un conteneur 3D de données. Le termePanel data est dérivé de l'économétrie et est en partie responsable du nom de pandas - pan(el)-da(ta)-s.

Un Panel peut être créé en utilisant le constructeur suivant -

pandas.Panel(data, items, major_axis, minor_axis, dtype, copy)

Dans l'exemple ci-dessous, nous créons un panneau à partir de dict d'objets DataFrame

#creating an empty panel
import pandas as pd
import numpy as np

data = {'Item1' : pd.DataFrame(np.random.randn(4, 3)), 
        'Item2' : pd.DataFrame(np.random.randn(4, 2))}
p = pd.Panel(data)
print p

Ses output est comme suit -

<class 'pandas.core.panel.Panel'>
Dimensions: 2 (items) x 4 (major_axis) x 5 (minor_axis)
Items axis: 0 to 1
Major_axis axis: 0 to 3
Minor_axis axis: 0 to 4