Cómo crear un gráfico de barras apiladas con una serie de tiempo y valores agregados

Nov 25 2020

Tengo dificultades para crear una serie de tiempo de gráfico de barras apiladas a partir de mi marco de datos Pandas (imagen a continuación). Me gustaría tener la 'Fecha' en el eje x, las 'Horas' en el eje y, y cada barra para mostrar el tiempo dedicado a cada grupo en 'Categoría'.

¿Necesito utilizar la función Pandas - Groupby? El marco de datos es una muestra. Tengo cientos de filas de datos de 2018 a 2020.

Respuestas

3 TrentonMcKinney Nov 25 2020 at 07:35
  • Hay una solución para los pandas: gráfico de barras apiladas con datos de series temporales
    • El problema con esa pregunta es que OP no está agregando ningún dato, por lo que la solución no funciona para esta pregunta.
  • Úselo pandas.DataFrame.groupbyen 'date'y 'group', mientras agrega .sumen'time'
    • El .dtextractor se utiliza para extraer solo el .datecomponente de la 'date'columna.
    • Asegúrese de que la 'Date'columna de su marco de datos tenga el formato adecuado como datetime dtype, condf.Date = pd.to_datetime(df.Date)
  • El marco de datos agrupado`` dfgdebe tener la forma correcta, lo que se puede lograr con pandas.DataFrame.pivot.
  • La forma más sencilla de apilar un gráfico de barras es con pandas.DataFrame.plot.barel stackedparámetro y utilizarlo .
    • Consulte pandas.DataFrame.plottodos los parámetros.
import pandas as pd
import matplotlib.pyplot as plt
import random  # for test data
import numpy as np  # for test data

# setup dataframe with test data
np.random.seed(365)
random.seed(365)
rows = 1100
data = {'hours': np.random.randint(10, size=(rows)),
        'group': [random.choice(['A', 'B', 'C']) for _ in range(rows)],
        'date': pd.bdate_range('2020-11-24', freq='h', periods=rows).tolist()}
df = pd.DataFrame(data)

# display(df.head())
   hours group                date
0      2     C 2020-11-24 00:00:00
1      4     B 2020-11-24 01:00:00
2      1     C 2020-11-24 02:00:00
3      5     A 2020-11-24 03:00:00
4      2     B 2020-11-24 04:00:00

# use groupby on df
dfg = df.groupby([df.date.dt.date, 'group'])['hours'].sum().reset_index()

# pivot the dataframe into the correct format
dfp = dfg.pivot(index='date', columns='group', values='hours')

# display(dfp.head())
group        A   B   C
date                  
2020-11-24  49  25  29
2020-11-25  62  18  57
2020-11-26  42  77   4
2020-11-27  34  43  17
2020-11-28  28  53  23

# plot the pivoted dataframe
dfp.plot.bar(stacked=True, figsize=(10, 6), ylabel='Hours', xlabel='Date', title='Sum of Daily Category Hours')
plt.legend(title='Category', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.show()

  • Habrá una barra para cada día, así es como funcionan los tics del gráfico de barras, por lo que el gráfico podría ser muy amplio, si hay muchas fechas.
  • Considere usar pandas.DataFrame.barh
dfp.plot.barh(stacked=True, figsize=(6, 10), title='Sum of Daily Category Hours')
plt.legend(title='Category', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.xlabel('Hours')
plt.ylabel('Date')
plt.show()

  • El OP establece que hay datos de 2018 a 2020, lo que significa que podría haber más de 700 días de datos, lo que se traduce en más de 700 barras en el gráfico de barras.
  • Un diagrama de líneas estándar podría ser la mejor opción para visualizar correctamente los datos.
dfp.plot(figsize=(10, 6))
plt.show()