Python Pandas: suportando 25 horas no índice de data e hora

Aug 16 2020

Eu quero usar uma data/hora como um índice para um dataframe em Pandas.

No entanto, o horário de verão não é tratado corretamente no banco de dados, portanto, os valores de data/hora para o dia em que o horário de verão termina têm 25 horas e são representados como tal:

2019102700
2019102701
...
2019102724

Estou usando o seguinte código para converter esses valores em um DateTimeobjeto que uso como índice para um dataframe do Pandas:

df.index = pd.to_datetime(df["date_time"], format="%Y%m%d%H")

No entanto, isso dá um erro:

ValueError: unconverted data remains: 4

Presumivelmente porque a to_datetimefunção não espera que a hora seja 24. Da mesma forma, o dia em que começa o horário de verão tem apenas 23 horas.

Uma solução que pensei foi armazenar as datas como strings, mas isso não parece nem elegante nem eficiente. Existe alguma maneira de resolver o problema de lidar com o horário de verão ao usar to_datetime?

Respostas

1 MrFuppes Aug 16 2020 at 18:40

Se você conhece o fuso horário, aqui está uma maneira de calcular os timestamps UTC. Analise apenas a parte da data, localize o fuso horário real ao qual os dados "pertencem" e converta-os em UTC. Agora você pode analisar a parte da hora e adicioná-la como um delta de tempo - por exemplo

import pandas as pd 

df = pd.DataFrame({'date_time_str': ['2019102722','2019102723','2019102724',
                                     '2019102800','2019102801','2019102802']})

df['date_time'] = (pd.to_datetime(df['date_time_str'].str[:-2], format='%Y%m%d')
                   .dt.tz_localize('Europe/Berlin')
                   .dt.tz_convert('UTC'))

df['date_time'] += df['date_time_str'].str[-2:].astype('timedelta64[h]')

# df['date_time']
# 0   2019-10-27 20:00:00+00:00
# 1   2019-10-27 21:00:00+00:00
# 2   2019-10-27 22:00:00+00:00
# 3   2019-10-27 23:00:00+00:00
# 4   2019-10-28 00:00:00+00:00
# 5   2019-10-28 01:00:00+00:00
# Name: date_time, dtype: datetime64[ns, UTC]
1 hoomant Aug 16 2020 at 17:43

Não tenho certeza se é a solução mais elegante ou eficiente, mas eu:

df.loc[df.date_time.str[-2:]=='25', 'date_time'] = (pd.to_numeric(df.date_time[df.date_time.str[-2:]=='25'])+100-24).apply(str)
df.index = pd.to_datetime(df["date_time"], format="%Y%m%d%H")