Comment faire pivoter un dataframe?
- Qu'est-ce que le pivot?
 - Comment puis-je pivoter?
 - Est-ce un pivot?
 - Format long au format large?
 
J'ai vu beaucoup de questions sur les tableaux croisés dynamiques. Même s'ils ne savent pas qu'ils posent des questions sur les tableaux croisés dynamiques, ils le sont généralement. Il est pratiquement impossible d'écrire une question et une réponse canoniques qui englobe tous les aspects du pivotement ...
... Mais je vais essayer.
Le problème avec les questions et réponses existantes est que souvent la question est centrée sur une nuance que le PO a du mal à généraliser afin d'utiliser un certain nombre des bonnes réponses existantes. Cependant, aucune des réponses ne tente de donner une explication complète (car c'est une tâche ardue)
Regardez quelques exemples de ma recherche Google
- Bonne question et réponse. Mais la réponse ne répond qu'à la question spécifique avec peu d'explications.
 
- Dans cette question, l'OP est concerné par la sortie du pivot. À savoir à quoi ressemblent les colonnes. OP voulait que cela ressemble à R. Ce n'est pas très utile pour les utilisateurs de pandas.
 
- Une autre question décente mais la réponse se concentre sur une méthode, à savoir 
pd.DataFrame.pivot 
Ainsi, chaque fois que quelqu'un cherche, pivotil obtient des résultats sporadiques qui ne répondront probablement pas à sa question spécifique.
Installer
Vous remarquerez peut-être que j'ai clairement nommé mes colonnes et les valeurs de colonne pertinentes pour correspondre à la façon dont je vais pivoter dans les réponses ci-dessous.
import numpy as np
import pandas as pd
from numpy.core.defchararray import add
np.random.seed([3,1415])
n = 20
cols = np.array(['key', 'row', 'item', 'col'])
arr1 = (np.random.randint(5, size=(n, 4)) // [2, 1, 2, 1]).astype(str)
df = pd.DataFrame(
    add(cols, arr1), columns=cols
).join(
    pd.DataFrame(np.random.rand(n, 2).round(2)).add_prefix('val')
)
print(df)
     key   row   item   col  val0  val1
0   key0  row3  item1  col3  0.81  0.04
1   key1  row2  item1  col2  0.44  0.07
2   key1  row0  item1  col0  0.77  0.01
3   key0  row4  item0  col2  0.15  0.59
4   key1  row0  item2  col1  0.81  0.64
5   key1  row2  item2  col4  0.13  0.88
6   key2  row4  item1  col3  0.88  0.39
7   key1  row4  item1  col1  0.10  0.07
8   key1  row0  item2  col4  0.65  0.02
9   key1  row2  item0  col2  0.35  0.61
10  key2  row0  item2  col1  0.40  0.85
11  key2  row4  item1  col2  0.64  0.25
12  key0  row2  item2  col3  0.50  0.44
13  key0  row4  item1  col4  0.24  0.46
14  key1  row3  item2  col3  0.28  0.11
15  key0  row3  item1  col1  0.31  0.23
16  key0  row0  item2  col3  0.86  0.01
17  key0  row4  item0  col3  0.64  0.21
18  key2  row2  item2  col0  0.13  0.45
19  key0  row2  item0  col4  0.37  0.70
Des questions)
Pourquoi ai-je
ValueError: Index contains duplicate entries, cannot reshapeComment puis-je faire pivoter de
dfsorte que lescolvaleurs soient des colonnes, lesrowvaleurs sont l'index et la moyenne desval0valeurs?col col0 col1 col2 col3 col4 row row0 0.77 0.605 NaN 0.860 0.65 row2 0.13 NaN 0.395 0.500 0.25 row3 NaN 0.310 NaN 0.545 NaN row4 NaN 0.100 0.395 0.760 0.24Comment puis-je pivoter de
dfsorte que lescolvaleurs soient des colonnes, lesrowvaleurs sont l'index, la moyenne desval0valeurs et les valeurs manquantes0?col col0 col1 col2 col3 col4 row row0 0.77 0.605 0.000 0.860 0.65 row2 0.13 0.000 0.395 0.500 0.25 row3 0.00 0.310 0.000 0.545 0.00 row4 0.00 0.100 0.395 0.760 0.24Puis-je obtenir autre chose que
mean, comme peutsum- être ?col col0 col1 col2 col3 col4 row row0 0.77 1.21 0.00 0.86 0.65 row2 0.13 0.00 0.79 0.50 0.50 row3 0.00 0.31 0.00 1.09 0.00 row4 0.00 0.10 0.79 1.52 0.24Puis-je faire plus d'une agrégation à la fois?
sum mean col col0 col1 col2 col3 col4 col0 col1 col2 col3 col4 row row0 0.77 1.21 0.00 0.86 0.65 0.77 0.605 0.000 0.860 0.65 row2 0.13 0.00 0.79 0.50 0.50 0.13 0.000 0.395 0.500 0.25 row3 0.00 0.31 0.00 1.09 0.00 0.00 0.310 0.000 0.545 0.00 row4 0.00 0.10 0.79 1.52 0.24 0.00 0.100 0.395 0.760 0.24Puis-je agréger plusieurs colonnes de valeurs?
val0 val1 col col0 col1 col2 col3 col4 col0 col1 col2 col3 col4 row row0 0.77 0.605 0.000 0.860 0.65 0.01 0.745 0.00 0.010 0.02 row2 0.13 0.000 0.395 0.500 0.25 0.45 0.000 0.34 0.440 0.79 row3 0.00 0.310 0.000 0.545 0.00 0.00 0.230 0.00 0.075 0.00 row4 0.00 0.100 0.395 0.760 0.24 0.00 0.070 0.42 0.300 0.46Peut subdiviser par plusieurs colonnes?
item item0 item1 item2 col col2 col3 col4 col0 col1 col2 col3 col4 col0 col1 col3 col4 row row0 0.00 0.00 0.00 0.77 0.00 0.00 0.00 0.00 0.00 0.605 0.86 0.65 row2 0.35 0.00 0.37 0.00 0.00 0.44 0.00 0.00 0.13 0.000 0.50 0.13 row3 0.00 0.00 0.00 0.00 0.31 0.00 0.81 0.00 0.00 0.000 0.28 0.00 row4 0.15 0.64 0.00 0.00 0.10 0.64 0.88 0.24 0.00 0.000 0.00 0.00Ou
item item0 item1 item2 col col2 col3 col4 col0 col1 col2 col3 col4 col0 col1 col3 col4 key row key0 row0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.86 0.00 row2 0.00 0.00 0.37 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.50 0.00 row3 0.00 0.00 0.00 0.00 0.31 0.00 0.81 0.00 0.00 0.00 0.00 0.00 row4 0.15 0.64 0.00 0.00 0.00 0.00 0.00 0.24 0.00 0.00 0.00 0.00 key1 row0 0.00 0.00 0.00 0.77 0.00 0.00 0.00 0.00 0.00 0.81 0.00 0.65 row2 0.35 0.00 0.00 0.00 0.00 0.44 0.00 0.00 0.00 0.00 0.00 0.13 row3 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.28 0.00 row4 0.00 0.00 0.00 0.00 0.10 0.00 0.00 0.00 0.00 0.00 0.00 0.00 key2 row0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.40 0.00 0.00 row2 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.13 0.00 0.00 0.00 row4 0.00 0.00 0.00 0.00 0.00 0.64 0.88 0.00 0.00 0.00 0.00 0.00Puis-je agréger la fréquence à laquelle la colonne et les lignes apparaissent ensemble, c'est-à-dire «tabulation croisée»?
col col0 col1 col2 col3 col4 row row0 1 2 0 1 1 row2 1 0 2 1 2 row3 0 1 0 2 0 row4 0 1 2 2 1Comment convertir un DataFrame de long en large en pivotant sur SEULEMENT deux colonnes? Donné,
np.random.seed([3, 1415]) df2 = pd.DataFrame({'A': list('aaaabbbc'), 'B': np.random.choice(15, 8)}) df2 A B 0 a 0 1 a 11 2 a 2 3 a 11 4 b 10 5 b 10 6 b 14 7 c 7L'attendu devrait ressembler à quelque chose comme
a b c 0 0.0 10.0 7.0 1 11.0 10.0 NaN 2 2.0 14.0 NaN 3 11.0 NaN NaNComment aplatir l'index multiple en index unique après
pivotDe
1 2 1 1 2 a 2 1 1 b 2 1 0 c 1 0 0À
1|1 2|1 2|2 a 2 1 1 b 2 1 0 c 1 0 0
Réponses
Nous commençons par répondre à la première question:
question 1
Pourquoi ai-je
ValueError: Index contains duplicate entries, cannot reshape
Cela se produit car pandas tente de réindexer un objet columnsou indexavec des entrées en double. Il existe différentes méthodes à utiliser pour effectuer un pivot. Certains d'entre eux ne sont pas bien adaptés lorsqu'il y a des doublons des clés sur lesquelles il est demandé de pivoter. Par exemple. Considérez pd.DataFrame.pivot. Je sais qu'il existe des entrées en double qui partagent les valeurs rowet col:
df.duplicated(['row', 'col']).any()
True
Alors , quand je l' pivotaide
df.pivot(index='row', columns='col', values='val0')
J'obtiens l'erreur mentionnée ci-dessus. En fait, j'obtiens la même erreur lorsque j'essaye d'effectuer la même tâche avec:
df.set_index(['row', 'col'])['val0'].unstack()
Voici une liste d'idiomes que nous pouvons utiliser pour pivoter
pd.DataFrame.groupby+pd.DataFrame.unstack- Bonne approche générale pour faire à peu près n'importe quel type de pivot
 - Vous spécifiez toutes les colonnes qui constitueront les niveaux de ligne pivotés et les niveaux de colonne dans un groupe par. Vous suivez cela en sélectionnant les colonnes restantes que vous souhaitez agréger et la ou les fonctions que vous souhaitez effectuer l'agrégation. Enfin, vous 
unstackdéfinissez les niveaux que vous souhaitez placer dans l'index de la colonne. 
pd.DataFrame.pivot_table- Une version glorifiée de 
groupbyavec une API plus intuitive. Pour de nombreuses personnes, c'est l'approche préférée. Et c'est l'approche prévue par les développeurs. - Spécifiez le niveau de ligne, les niveaux de colonne, les valeurs à agréger et la ou les fonctions pour effectuer des agrégations.
 
- Une version glorifiée de 
 pd.DataFrame.set_index+pd.DataFrame.unstack- Pratique et intuitif pour certains (moi y compris). Impossible de gérer les clés groupées en double.
 - Similaire au 
groupbyparadigme, nous spécifions toutes les colonnes qui seront éventuellement des niveaux de ligne ou de colonne et définissons celles-ci comme index. Nous avons ensuiteunstackles niveaux que nous voulons dans les colonnes. Si les niveaux d'index restants ou les niveaux de colonne ne sont pas uniques, cette méthode échouera. 
pd.DataFrame.pivot- Très similaire à 
set_indexen ce qu'il partage la limitation de la clé en double. L'API est également très limitée. Il ne prend que des valeurs scalaires pourindex,columns,values. - Similaire à la 
pivot_tableméthode en ce sens que nous sélectionnons des lignes, des colonnes et des valeurs sur lesquelles pivoter. Cependant, nous ne pouvons pas agréger et si les lignes ou les colonnes ne sont pas uniques, cette méthode échouera. 
- Très similaire à 
 pd.crosstab- Cette version spécialisée 
pivot_tableet dans sa forme la plus pure est le moyen le plus intuitif d'effectuer plusieurs tâches. 
- Cette version spécialisée 
 pd.factorize+np.bincount- C'est une technique très avancée qui est très obscure mais qui est très rapide. Il ne peut pas être utilisé dans toutes les circonstances, mais lorsqu'il peut être utilisé et que vous êtes à l'aise de l'utiliser, vous en récolterez les fruits.
 
pd.get_dummies+pd.DataFrame.dot- J'utilise ceci pour effectuer intelligemment des tableaux croisés.
 
Exemples
Ce que je vais faire pour chaque réponse et question suivantes est d'y répondre en utilisant pd.DataFrame.pivot_table. Ensuite, je fournirai des alternatives pour effectuer la même tâche.  
question 3
Comment puis-je pivoter de
dfsorte que lescolvaleurs soient des colonnes, lesrowvaleurs sont l'index, la moyenne desval0valeurs et les valeurs manquantes0?
pd.DataFrame.pivot_tablefill_valuen'est pas défini par défaut. J'ai tendance à le définir de manière appropriée. Dans ce cas, je l'ai réglé sur0. Remarquez que j'ai sauté la question 2 car c'est la même chose que cette réponse sans lefill_valueaggfunc='mean'est la valeur par défaut et je n'ai pas eu à le définir. Je l'ai inclus pour être explicite.df.pivot_table( values='val0', index='row', columns='col', fill_value=0, aggfunc='mean') col col0 col1 col2 col3 col4 row row0 0.77 0.605 0.000 0.860 0.65 row2 0.13 0.000 0.395 0.500 0.25 row3 0.00 0.310 0.000 0.545 0.00 row4 0.00 0.100 0.395 0.760 0.24
pd.DataFrame.groupbydf.groupby(['row', 'col'])['val0'].mean().unstack(fill_value=0)pd.crosstabpd.crosstab( index=df['row'], columns=df['col'], values=df['val0'], aggfunc='mean').fillna(0)
Question 4
Puis-je obtenir autre chose que
mean, comme peutsum- être ?
pd.DataFrame.pivot_tabledf.pivot_table( values='val0', index='row', columns='col', fill_value=0, aggfunc='sum') col col0 col1 col2 col3 col4 row row0 0.77 1.21 0.00 0.86 0.65 row2 0.13 0.00 0.79 0.50 0.50 row3 0.00 0.31 0.00 1.09 0.00 row4 0.00 0.10 0.79 1.52 0.24pd.DataFrame.groupbydf.groupby(['row', 'col'])['val0'].sum().unstack(fill_value=0)pd.crosstabpd.crosstab( index=df['row'], columns=df['col'], values=df['val0'], aggfunc='sum').fillna(0)
Question 5
Puis-je faire plus d'une agrégation à la fois?
Notez que pour pivot_tableet crosstabj'avais besoin de passer la liste des appelables. D'autre part, groupby.aggest capable de prendre des chaînes pour un nombre limité de fonctions spéciales.  groupby.aggaurait également pris les mêmes callables que nous avons passés aux autres, mais il est souvent plus efficace d'exploiter les noms de fonction de chaîne car il y a des gains d'efficacité à gagner.
pd.DataFrame.pivot_tabledf.pivot_table( values='val0', index='row', columns='col', fill_value=0, aggfunc=[np.size, np.mean]) size mean col col0 col1 col2 col3 col4 col0 col1 col2 col3 col4 row row0 1 2 0 1 1 0.77 0.605 0.000 0.860 0.65 row2 1 0 2 1 2 0.13 0.000 0.395 0.500 0.25 row3 0 1 0 2 0 0.00 0.310 0.000 0.545 0.00 row4 0 1 2 2 1 0.00 0.100 0.395 0.760 0.24pd.DataFrame.groupbydf.groupby(['row', 'col'])['val0'].agg(['size', 'mean']).unstack(fill_value=0)pd.crosstabpd.crosstab( index=df['row'], columns=df['col'], values=df['val0'], aggfunc=[np.size, np.mean]).fillna(0, downcast='infer')
Question 6
Puis-je agréger plusieurs colonnes de valeurs?
pd.DataFrame.pivot_tableon passevalues=['val0', 'val1']mais on aurait pu laisser ça complètementdf.pivot_table( values=['val0', 'val1'], index='row', columns='col', fill_value=0, aggfunc='mean') val0 val1 col col0 col1 col2 col3 col4 col0 col1 col2 col3 col4 row row0 0.77 0.605 0.000 0.860 0.65 0.01 0.745 0.00 0.010 0.02 row2 0.13 0.000 0.395 0.500 0.25 0.45 0.000 0.34 0.440 0.79 row3 0.00 0.310 0.000 0.545 0.00 0.00 0.230 0.00 0.075 0.00 row4 0.00 0.100 0.395 0.760 0.24 0.00 0.070 0.42 0.300 0.46pd.DataFrame.groupbydf.groupby(['row', 'col'])['val0', 'val1'].mean().unstack(fill_value=0)
Question 7
Peut subdiviser par plusieurs colonnes?
pd.DataFrame.pivot_tabledf.pivot_table( values='val0', index='row', columns=['item', 'col'], fill_value=0, aggfunc='mean') item item0 item1 item2 col col2 col3 col4 col0 col1 col2 col3 col4 col0 col1 col3 col4 row row0 0.00 0.00 0.00 0.77 0.00 0.00 0.00 0.00 0.00 0.605 0.86 0.65 row2 0.35 0.00 0.37 0.00 0.00 0.44 0.00 0.00 0.13 0.000 0.50 0.13 row3 0.00 0.00 0.00 0.00 0.31 0.00 0.81 0.00 0.00 0.000 0.28 0.00 row4 0.15 0.64 0.00 0.00 0.10 0.64 0.88 0.24 0.00 0.000 0.00 0.00pd.DataFrame.groupbydf.groupby( ['row', 'item', 'col'] )['val0'].mean().unstack(['item', 'col']).fillna(0).sort_index(1)
Question 8
Peut subdiviser par plusieurs colonnes?
pd.DataFrame.pivot_tabledf.pivot_table( values='val0', index=['key', 'row'], columns=['item', 'col'], fill_value=0, aggfunc='mean') item item0 item1 item2 col col2 col3 col4 col0 col1 col2 col3 col4 col0 col1 col3 col4 key row key0 row0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.86 0.00 row2 0.00 0.00 0.37 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.50 0.00 row3 0.00 0.00 0.00 0.00 0.31 0.00 0.81 0.00 0.00 0.00 0.00 0.00 row4 0.15 0.64 0.00 0.00 0.00 0.00 0.00 0.24 0.00 0.00 0.00 0.00 key1 row0 0.00 0.00 0.00 0.77 0.00 0.00 0.00 0.00 0.00 0.81 0.00 0.65 row2 0.35 0.00 0.00 0.00 0.00 0.44 0.00 0.00 0.00 0.00 0.00 0.13 row3 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.28 0.00 row4 0.00 0.00 0.00 0.00 0.10 0.00 0.00 0.00 0.00 0.00 0.00 0.00 key2 row0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.40 0.00 0.00 row2 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.13 0.00 0.00 0.00 row4 0.00 0.00 0.00 0.00 0.00 0.64 0.88 0.00 0.00 0.00 0.00 0.00pd.DataFrame.groupbydf.groupby( ['key', 'row', 'item', 'col'] )['val0'].mean().unstack(['item', 'col']).fillna(0).sort_index(1)pd.DataFrame.set_indexcar l'ensemble de clés est unique pour les lignes et les colonnesdf.set_index( ['key', 'row', 'item', 'col'] )['val0'].unstack(['item', 'col']).fillna(0).sort_index(1)
Question 9
Puis-je agréger la fréquence à laquelle la colonne et les lignes apparaissent ensemble, c'est-à-dire «tabulation croisée»?
pd.DataFrame.pivot_tabledf.pivot_table(index='row', columns='col', fill_value=0, aggfunc='size') col col0 col1 col2 col3 col4 row row0 1 2 0 1 1 row2 1 0 2 1 2 row3 0 1 0 2 0 row4 0 1 2 2 1pd.DataFrame.groupbydf.groupby(['row', 'col'])['val0'].size().unstack(fill_value=0)pd.crosstabpd.crosstab(df['row'], df['col'])pd.factorize+np.bincount# get integer factorization `i` and unique values `r` # for column `'row'` i, r = pd.factorize(df['row'].values) # get integer factorization `j` and unique values `c` # for column `'col'` j, c = pd.factorize(df['col'].values) # `n` will be the number of rows # `m` will be the number of columns n, m = r.size, c.size # `i * m + j` is a clever way of counting the # factorization bins assuming a flat array of length # `n * m`. Which is why we subsequently reshape as `(n, m)` b = np.bincount(i * m + j, minlength=n * m).reshape(n, m) # BTW, whenever I read this, I think 'Bean, Rice, and Cheese' pd.DataFrame(b, r, c) col3 col2 col0 col1 col4 row3 2 0 0 1 0 row2 1 2 1 0 2 row0 1 0 1 2 1 row4 2 2 0 1 1pd.get_dummiespd.get_dummies(df['row']).T.dot(pd.get_dummies(df['col'])) col0 col1 col2 col3 col4 row0 1 2 0 1 1 row2 1 0 2 1 2 row3 0 1 0 2 0 row4 0 1 2 2 1
Question 10
Comment convertir un DataFrame de long en large en pivotant sur SEULEMENT deux colonnes?
La première étape consiste à attribuer un numéro à chaque ligne - ce numéro sera l'index de ligne de cette valeur dans le résultat pivoté. Ceci est fait en utilisant GroupBy.cumcount:
df2.insert(0, 'count', df.groupby('A').cumcount())
df2
   count  A   B
0      0  a   0
1      1  a  11
2      2  a   2
3      3  a  11
4      0  b  10
5      1  b  10
6      2  b  14
7      0  c   7
La deuxième étape consiste à utiliser la colonne nouvellement créée comme index à appeler DataFrame.pivot.
df2.pivot(*df)
# df.pivot(index='count', columns='A', values='B')
A         a     b    c
count                 
0       0.0  10.0  7.0
1      11.0  10.0  NaN
2       2.0  14.0  NaN
3      11.0   NaN  NaN
Question 11
Comment aplatir l'index multiple en index unique après
pivot
Si columnstapez objectavec une chaînejoin 
df.columns = df.columns.map('|'.join)
autre format
df.columns = df.columns.map('{0[0]}|{0[1]}'.format) 
Pour étendre la réponse de @ piRSquared à une autre version de la question 10
Question 10.1
Trame de données:
d = data = {'A': {0: 1, 1: 1, 2: 1, 3: 2, 4: 2, 5: 3, 6: 5},
 'B': {0: 'a', 1: 'b', 2: 'c', 3: 'a', 4: 'b', 5: 'a', 6: 'c'}}
df = pd.DataFrame(d)
   A  B
0  1  a
1  1  b
2  1  c
3  2  a
4  2  b
5  3  a
6  5  c
Production:
   0     1     2
A
1  a     b     c
2  a     b  None
3  a  None  None
5  c  None  None
Utilisation df.groupbyetpd.Series.tolist
t = df.groupby('A')['B'].apply(list)
out = pd.DataFrame(t.tolist(),index=t.index)
out
   0     1     2
A
1  a     b     c
2  a     b  None
3  a  None  None
5  c  None  None
Ou une bien meilleure alternative en utilisant pd.pivot_tableavecdf.squeeze.
t = df.pivot_table(index='A',values='B',aggfunc=list).squeeze()
out = pd.DataFrame(t.tolist(),index=t.index)