Pandas Python - Réindexation
Reindexingmodifie les étiquettes de ligne et les étiquettes de colonne d'un DataFrame. Pour réindexer des moyens pour se conformer les données pour correspondre à un ensemble donné d'étiquettes le long d' un axe particulier.
Plusieurs opérations peuvent être accomplies grâce à l'indexation comme -
Réorganisez les données existantes pour qu'elles correspondent à un nouvel ensemble d'étiquettes.
Insérez des marqueurs de valeur manquante (NA) dans les emplacements d'étiquette où aucune donnée pour l'étiquette n'existait.
Exemple
import pandas as pd
import numpy as np
N=20
df = pd.DataFrame({
'A': pd.date_range(start='2016-01-01',periods=N,freq='D'),
'x': np.linspace(0,stop=N-1,num=N),
'y': np.random.rand(N),
'C': np.random.choice(['Low','Medium','High'],N).tolist(),
'D': np.random.normal(100, 10, size=(N)).tolist()
})
#reindex the DataFrame
df_reindexed = df.reindex(index=[0,2,5], columns=['A', 'C', 'B'])
print df_reindexed
Ses output est comme suit -
A C B
0 2016-01-01 Low NaN
2 2016-01-03 High NaN
5 2016-01-06 Low NaN
Réindexer pour s'aligner avec d'autres objets
Vous souhaiterez peut-être prendre un objet et réindexer ses axes pour qu'il soit étiqueté comme un autre objet. Prenons l'exemple suivant pour comprendre la même chose.
Exemple
import pandas as pd
import numpy as np
df1 = pd.DataFrame(np.random.randn(10,3),columns=['col1','col2','col3'])
df2 = pd.DataFrame(np.random.randn(7,3),columns=['col1','col2','col3'])
df1 = df1.reindex_like(df2)
print df1
Ses output est comme suit -
col1 col2 col3
0 -2.467652 -1.211687 -0.391761
1 -0.287396 0.522350 0.562512
2 -0.255409 -0.483250 1.866258
3 -1.150467 -0.646493 -0.222462
4 0.152768 -2.056643 1.877233
5 -1.155997 1.528719 -1.343719
6 -1.015606 -1.245936 -0.295275
Note - Ici, le df1 DataFrame est modifié et réindexé comme df2. Les noms de colonne doivent correspondre, sinon NAN sera ajouté pour l'intégralité de l'étiquette de colonne.
Remplissage pendant la réindexation
reindex() prend une méthode de paramètre facultative qui est une méthode de remplissage avec des valeurs comme suit -
pad/ffill - Remplir les valeurs vers l'avant
bfill/backfill - Remplir les valeurs à l'envers
nearest - Remplir à partir des valeurs d'index les plus proches
Exemple
import pandas as pd
import numpy as np
df1 = pd.DataFrame(np.random.randn(6,3),columns=['col1','col2','col3'])
df2 = pd.DataFrame(np.random.randn(2,3),columns=['col1','col2','col3'])
# Padding NAN's
print df2.reindex_like(df1)
# Now Fill the NAN's with preceding Values
print ("Data Frame with Forward Fill:")
print df2.reindex_like(df1,method='ffill')
Ses output est comme suit -
col1 col2 col3
0 1.311620 -0.707176 0.599863
1 -0.423455 -0.700265 1.133371
2 NaN NaN NaN
3 NaN NaN NaN
4 NaN NaN NaN
5 NaN NaN NaN
Data Frame with Forward Fill:
col1 col2 col3
0 1.311620 -0.707176 0.599863
1 -0.423455 -0.700265 1.133371
2 -0.423455 -0.700265 1.133371
3 -0.423455 -0.700265 1.133371
4 -0.423455 -0.700265 1.133371
5 -0.423455 -0.700265 1.133371
Note - Les quatre dernières lignes sont rembourrées.
Limites de remplissage lors de la réindexation
L'argument limit fournit un contrôle supplémentaire sur le remplissage lors de la réindexation. Limite spécifie le nombre maximum de correspondances consécutives. Prenons l'exemple suivant pour comprendre la même chose -
Exemple
import pandas as pd
import numpy as np
df1 = pd.DataFrame(np.random.randn(6,3),columns=['col1','col2','col3'])
df2 = pd.DataFrame(np.random.randn(2,3),columns=['col1','col2','col3'])
# Padding NAN's
print df2.reindex_like(df1)
# Now Fill the NAN's with preceding Values
print ("Data Frame with Forward Fill limiting to 1:")
print df2.reindex_like(df1,method='ffill',limit=1)
Ses output est comme suit -
col1 col2 col3
0 0.247784 2.128727 0.702576
1 -0.055713 -0.021732 -0.174577
2 NaN NaN NaN
3 NaN NaN NaN
4 NaN NaN NaN
5 NaN NaN NaN
Data Frame with Forward Fill limiting to 1:
col1 col2 col3
0 0.247784 2.128727 0.702576
1 -0.055713 -0.021732 -0.174577
2 -0.055713 -0.021732 -0.174577
3 NaN NaN NaN
4 NaN NaN NaN
5 NaN NaN NaN
Note- Attention, seule la 7ème ligne est remplie par la 6ème ligne précédente. Ensuite, les lignes sont laissées telles quelles.
Renommer
La méthode rename () vous permet de renommer un axe en fonction d'un mappage (un dict ou une série) ou une fonction arbitraire.
Prenons l'exemple suivant pour comprendre cela -
import pandas as pd
import numpy as np
df1 = pd.DataFrame(np.random.randn(6,3),columns=['col1','col2','col3'])
print df1
print ("After renaming the rows and columns:")
print df1.rename(columns={'col1' : 'c1', 'col2' : 'c2'},
index = {0 : 'apple', 1 : 'banana', 2 : 'durian'})
Ses output est comme suit -
col1 col2 col3
0 0.486791 0.105759 1.540122
1 -0.990237 1.007885 -0.217896
2 -0.483855 -1.645027 -1.194113
3 -0.122316 0.566277 -0.366028
4 -0.231524 -0.721172 -0.112007
5 0.438810 0.000225 0.435479
After renaming the rows and columns:
c1 c2 col3
apple 0.486791 0.105759 1.540122
banana -0.990237 1.007885 -0.217896
durian -0.483855 -1.645027 -1.194113
3 -0.122316 0.566277 -0.366028
4 -0.231524 -0.721172 -0.112007
5 0.438810 0.000225 0.435479
La méthode rename () fournit un inplaceparamètre nommé, qui par défaut est False et copie les données sous-jacentes. Passerinplace=True pour renommer les données en place.