Python Pandas: supporto di 25 ore nell'indice datetime

Aug 16 2020

Voglio usare una data / ora come indice per un dataframe in Pandas.

Tuttavia, l'ora legale non viene affrontata correttamente nel database, quindi i valori di data / ora per il giorno in cui termina l'ora legale hanno 25 ore e sono rappresentati come tali:

2019102700
2019102701
...
2019102724

Sto usando il seguente codice per convertire quei valori in un DateTimeoggetto che uso come indice in un dataframe Pandas:

df.index = pd.to_datetime(df["date_time"], format="%Y%m%d%H")

Tuttavia, questo dà un errore:

ValueError: unconverted data remains: 4

Presumibilmente perché la to_datetimefunzione non prevede che l'ora sia 24. Allo stesso modo, il giorno in cui inizia l'ora legale ha solo 23 ore.

Una soluzione a cui ho pensato è stata memorizzare le date come stringhe, ma non sembra né elegante né efficiente. C'è un modo per risolvere il problema della gestione dell'ora legale durante l'utilizzo to_datetime?

Risposte

1 MrFuppes Aug 16 2020 at 18:40

Se conosci il fuso orario, ecco un modo per calcolare i timestamp UTC. Analizza solo la parte relativa alla data, localizza il fuso orario effettivo a cui "appartengono" i dati e convertilo in UTC. Ora puoi analizzare la parte dell'ora e aggiungerla come differenza temporale, ad es

import pandas as pd 

df = pd.DataFrame({'date_time_str': ['2019102722','2019102723','2019102724',
                                     '2019102800','2019102801','2019102802']})

df['date_time'] = (pd.to_datetime(df['date_time_str'].str[:-2], format='%Y%m%d')
                   .dt.tz_localize('Europe/Berlin')
                   .dt.tz_convert('UTC'))

df['date_time'] += df['date_time_str'].str[-2:].astype('timedelta64[h]')

# df['date_time']
# 0   2019-10-27 20:00:00+00:00
# 1   2019-10-27 21:00:00+00:00
# 2   2019-10-27 22:00:00+00:00
# 3   2019-10-27 23:00:00+00:00
# 4   2019-10-28 00:00:00+00:00
# 5   2019-10-28 01:00:00+00:00
# Name: date_time, dtype: datetime64[ns, UTC]
1 hoomant Aug 16 2020 at 17:43

Non sono sicuro che sia la soluzione più elegante o efficiente, ma vorrei:

df.loc[df.date_time.str[-2:]=='25', 'date_time'] = (pd.to_numeric(df.date_time[df.date_time.str[-2:]=='25'])+100-24).apply(str)
df.index = pd.to_datetime(df["date_time"], format="%Y%m%d%H")