Pandas Python - Réindexation

Reindexingmodifie les étiquettes de ligne et les étiquettes de colonne d'un DataFrame. Pour réindexer des moyens pour se conformer les données pour correspondre à un ensemble donné d'étiquettes le long d' un axe particulier.

Plusieurs opérations peuvent être accomplies grâce à l'indexation comme -

  • Réorganisez les données existantes pour qu'elles correspondent à un nouvel ensemble d'étiquettes.

  • Insérez des marqueurs de valeur manquante (NA) dans les emplacements d'étiquette où aucune donnée pour l'étiquette n'existait.

Exemple

import pandas as pd
import numpy as np

N=20

df = pd.DataFrame({
   'A': pd.date_range(start='2016-01-01',periods=N,freq='D'),
   'x': np.linspace(0,stop=N-1,num=N),
   'y': np.random.rand(N),
   'C': np.random.choice(['Low','Medium','High'],N).tolist(),
   'D': np.random.normal(100, 10, size=(N)).tolist()
})

#reindex the DataFrame
df_reindexed = df.reindex(index=[0,2,5], columns=['A', 'C', 'B'])

print df_reindexed

Ses output est comme suit -

A    C     B
0  2016-01-01  Low   NaN
2  2016-01-03  High  NaN
5  2016-01-06  Low   NaN

Réindexer pour s'aligner avec d'autres objets

Vous souhaiterez peut-être prendre un objet et réindexer ses axes pour qu'il soit étiqueté comme un autre objet. Prenons l'exemple suivant pour comprendre la même chose.

Exemple

import pandas as pd
import numpy as np

df1 = pd.DataFrame(np.random.randn(10,3),columns=['col1','col2','col3'])
df2 = pd.DataFrame(np.random.randn(7,3),columns=['col1','col2','col3'])

df1 = df1.reindex_like(df2)
print df1

Ses output est comme suit -

col1         col2         col3
0    -2.467652    -1.211687    -0.391761
1    -0.287396     0.522350     0.562512
2    -0.255409    -0.483250     1.866258
3    -1.150467    -0.646493    -0.222462
4     0.152768    -2.056643     1.877233
5    -1.155997     1.528719    -1.343719
6    -1.015606    -1.245936    -0.295275

Note - Ici, le df1 DataFrame est modifié et réindexé comme df2. Les noms de colonne doivent correspondre, sinon NAN sera ajouté pour l'intégralité de l'étiquette de colonne.

Remplissage pendant la réindexation

reindex() prend une méthode de paramètre facultative qui est une méthode de remplissage avec des valeurs comme suit -

  • pad/ffill - Remplir les valeurs vers l'avant

  • bfill/backfill - Remplir les valeurs à l'envers

  • nearest - Remplir à partir des valeurs d'index les plus proches

Exemple

import pandas as pd
import numpy as np

df1 = pd.DataFrame(np.random.randn(6,3),columns=['col1','col2','col3'])
df2 = pd.DataFrame(np.random.randn(2,3),columns=['col1','col2','col3'])

# Padding NAN's
print df2.reindex_like(df1)

# Now Fill the NAN's with preceding Values
print ("Data Frame with Forward Fill:")
print df2.reindex_like(df1,method='ffill')

Ses output est comme suit -

col1        col2       col3
0    1.311620   -0.707176   0.599863
1   -0.423455   -0.700265   1.133371
2         NaN         NaN        NaN
3         NaN         NaN        NaN
4         NaN         NaN        NaN
5         NaN         NaN        NaN

Data Frame with Forward Fill:
         col1        col2        col3
0    1.311620   -0.707176    0.599863
1   -0.423455   -0.700265    1.133371
2   -0.423455   -0.700265    1.133371
3   -0.423455   -0.700265    1.133371
4   -0.423455   -0.700265    1.133371
5   -0.423455   -0.700265    1.133371

Note - Les quatre dernières lignes sont rembourrées.

Limites de remplissage lors de la réindexation

L'argument limit fournit un contrôle supplémentaire sur le remplissage lors de la réindexation. Limite spécifie le nombre maximum de correspondances consécutives. Prenons l'exemple suivant pour comprendre la même chose -

Exemple

import pandas as pd
import numpy as np
 
df1 = pd.DataFrame(np.random.randn(6,3),columns=['col1','col2','col3'])
df2 = pd.DataFrame(np.random.randn(2,3),columns=['col1','col2','col3'])

# Padding NAN's
print df2.reindex_like(df1)

# Now Fill the NAN's with preceding Values
print ("Data Frame with Forward Fill limiting to 1:")
print df2.reindex_like(df1,method='ffill',limit=1)

Ses output est comme suit -

col1        col2        col3
0    0.247784    2.128727    0.702576
1   -0.055713   -0.021732   -0.174577
2         NaN         NaN         NaN
3         NaN         NaN         NaN
4         NaN         NaN         NaN
5         NaN         NaN         NaN

Data Frame with Forward Fill limiting to 1:
         col1        col2        col3
0    0.247784    2.128727    0.702576
1   -0.055713   -0.021732   -0.174577
2   -0.055713   -0.021732   -0.174577
3         NaN         NaN         NaN
4         NaN         NaN         NaN
5         NaN         NaN         NaN

Note- Attention, seule la 7ème ligne est remplie par la 6ème ligne précédente. Ensuite, les lignes sont laissées telles quelles.

Renommer

La méthode rename () vous permet de renommer un axe en fonction d'un mappage (un dict ou une série) ou une fonction arbitraire.

Prenons l'exemple suivant pour comprendre cela -

import pandas as pd
import numpy as np

df1 = pd.DataFrame(np.random.randn(6,3),columns=['col1','col2','col3'])
print df1

print ("After renaming the rows and columns:")
print df1.rename(columns={'col1' : 'c1', 'col2' : 'c2'},
index = {0 : 'apple', 1 : 'banana', 2 : 'durian'})

Ses output est comme suit -

col1        col2        col3
0    0.486791    0.105759    1.540122
1   -0.990237    1.007885   -0.217896
2   -0.483855   -1.645027   -1.194113
3   -0.122316    0.566277   -0.366028
4   -0.231524   -0.721172   -0.112007
5    0.438810    0.000225    0.435479

After renaming the rows and columns:
                c1          c2        col3
apple     0.486791    0.105759    1.540122
banana   -0.990237    1.007885   -0.217896
durian   -0.483855   -1.645027   -1.194113
3        -0.122316    0.566277   -0.366028
4        -0.231524   -0.721172   -0.112007
5         0.438810    0.000225    0.435479

La méthode rename () fournit un inplaceparamètre nommé, qui par défaut est False et copie les données sous-jacentes. Passerinplace=True pour renommer les données en place.