Python Pandas: поддержка 25 часов в индексе datetime
Я хочу использовать дату / время в качестве индекса для фрейма данных в Pandas.
Однако летнее время не учитывается должным образом в базе данных, поэтому значения даты / времени для дня, в который заканчивается летнее время, имеют 25 часов и представлены как таковые:
2019102700
2019102701
...
2019102724
Я использую следующий код для преобразования этих значений в DateTime
объект, который я использую в качестве индекса для фрейма данных Pandas:
df.index = pd.to_datetime(df["date_time"], format="%Y%m%d%H")
Однако это дает ошибку:
ValueError: unconverted data remains: 4
Предположительно потому, что to_datetime
функция не ожидает часа 24
. Точно так же день, когда начинается летнее время, имеет всего 23 часа.
Одно из решений, которое я придумал, заключалось в хранении дат в виде строк, но оно не кажется ни элегантным, ни эффективным. Есть ли способ решить проблему перехода на летнее время при использовании to_datetime
?
Ответы
Если вы знаете часовой пояс, вот способ вычислить отметки времени в формате UTC. Разбирайте только часть даты, локализуйте в реальном часовом поясе, которому «принадлежат» данные, и преобразуйте его в UTC. Теперь вы можете проанализировать часовую часть и добавить ее как временную дельту - например,
import pandas as pd
df = pd.DataFrame({'date_time_str': ['2019102722','2019102723','2019102724',
'2019102800','2019102801','2019102802']})
df['date_time'] = (pd.to_datetime(df['date_time_str'].str[:-2], format='%Y%m%d')
.dt.tz_localize('Europe/Berlin')
.dt.tz_convert('UTC'))
df['date_time'] += df['date_time_str'].str[-2:].astype('timedelta64[h]')
# df['date_time']
# 0 2019-10-27 20:00:00+00:00
# 1 2019-10-27 21:00:00+00:00
# 2 2019-10-27 22:00:00+00:00
# 3 2019-10-27 23:00:00+00:00
# 4 2019-10-28 00:00:00+00:00
# 5 2019-10-28 01:00:00+00:00
# Name: date_time, dtype: datetime64[ns, UTC]
Не уверен, что это самое элегантное или эффективное решение, но я бы:
df.loc[df.date_time.str[-2:]=='25', 'date_time'] = (pd.to_numeric(df.date_time[df.date_time.str[-2:]=='25'])+100-24).apply(str)
df.index = pd.to_datetime(df["date_time"], format="%Y%m%d%H")