Pandas Python: prise en charge de 25 heures dans l'index datetime

Aug 16 2020

Je souhaite utiliser une date / heure comme index pour une trame de données dans Pandas.

Cependant, l'heure d'été n'est pas correctement traitée dans la base de données, de sorte que les valeurs de date / heure pour le jour où l'heure d'été se termine ont 25 heures et sont représentées comme telles:

2019102700
2019102701
...
2019102724

J'utilise le code suivant pour convertir ces valeurs en un DateTimeobjet que j'utilise comme index d'un dataframe Pandas:

df.index = pd.to_datetime(df["date_time"], format="%Y%m%d%H")

Cependant, cela donne une erreur:

ValueError: unconverted data remains: 4

Probablement parce que la to_datetimefonction ne s'attend pas à ce que l'heure soit 24. De même, le jour où commence l'heure d'été ne compte que 23 heures.

Une solution à laquelle j'ai pensé était de stocker les dates sous forme de chaînes, mais cela ne semble ni élégant ni efficace. Existe-t-il un moyen de résoudre le problème de la gestion de l'heure d'été lors de l'utilisation to_datetime?

Réponses

1 MrFuppes Aug 16 2020 at 18:40

Si vous connaissez le fuseau horaire, voici un moyen de calculer les horodatages UTC. Analysez uniquement la partie date, localisez le fuseau horaire auquel les données «appartiennent» et convertissez-le en UTC. Vous pouvez maintenant analyser la partie heure et l'ajouter en tant que delta de temps - par exemple

import pandas as pd 

df = pd.DataFrame({'date_time_str': ['2019102722','2019102723','2019102724',
                                     '2019102800','2019102801','2019102802']})

df['date_time'] = (pd.to_datetime(df['date_time_str'].str[:-2], format='%Y%m%d')
                   .dt.tz_localize('Europe/Berlin')
                   .dt.tz_convert('UTC'))

df['date_time'] += df['date_time_str'].str[-2:].astype('timedelta64[h]')

# df['date_time']
# 0   2019-10-27 20:00:00+00:00
# 1   2019-10-27 21:00:00+00:00
# 2   2019-10-27 22:00:00+00:00
# 3   2019-10-27 23:00:00+00:00
# 4   2019-10-28 00:00:00+00:00
# 5   2019-10-28 01:00:00+00:00
# Name: date_time, dtype: datetime64[ns, UTC]
1 hoomant Aug 16 2020 at 17:43

Je ne sais pas si c'est la solution la plus élégante ou la plus efficace, mais je le ferais:

df.loc[df.date_time.str[-2:]=='25', 'date_time'] = (pd.to_numeric(df.date_time[df.date_time.str[-2:]=='25'])+100-24).apply(str)
df.index = pd.to_datetime(df["date_time"], format="%Y%m%d%H")