Pandy Python: obsługa 25 godzin w indeksie datetime
Chcę użyć daty / godziny jako indeksu dla ramki danych w Pandach.
Jednak czas letni nie jest odpowiednio adresowany w bazie danych, więc wartości daty / godziny dla dnia, w którym kończy się czas letni, mają 25 godzin i są przedstawiane jako takie:
2019102700
2019102701
...
2019102724
Używam następującego kodu, aby przekonwertować te wartości na DateTime
obiekt, którego używam jako indeksu do ramki danych Pandas:
df.index = pd.to_datetime(df["date_time"], format="%Y%m%d%H")
Jednak powoduje to błąd:
ValueError: unconverted data remains: 4
Prawdopodobnie dlatego, że to_datetime
funkcja nie spodziewa się godziny 24
. Podobnie dzień, w którym zaczyna się czas letni, ma tylko 23 godziny.
Jednym z rozwiązań, o którym pomyślałem, było przechowywanie dat jako ciągów, ale nie wydaje się to ani eleganckie, ani wydajne. Czy jest jakiś sposób na rozwiązanie problemu obsługi czasu letniego podczas używania to_datetime
?
Odpowiedzi
Jeśli znasz strefę czasową, oto sposób obliczania znaczników czasu UTC. Przeanalizuj tylko część daty, zlokalizuj strefę czasową, do której „należą” dane, i przekonwertuj ją na czas UTC. Teraz możesz przeanalizować część godzinową i dodać ją jako różnicę czasu - np
import pandas as pd
df = pd.DataFrame({'date_time_str': ['2019102722','2019102723','2019102724',
'2019102800','2019102801','2019102802']})
df['date_time'] = (pd.to_datetime(df['date_time_str'].str[:-2], format='%Y%m%d')
.dt.tz_localize('Europe/Berlin')
.dt.tz_convert('UTC'))
df['date_time'] += df['date_time_str'].str[-2:].astype('timedelta64[h]')
# df['date_time']
# 0 2019-10-27 20:00:00+00:00
# 1 2019-10-27 21:00:00+00:00
# 2 2019-10-27 22:00:00+00:00
# 3 2019-10-27 23:00:00+00:00
# 4 2019-10-28 00:00:00+00:00
# 5 2019-10-28 01:00:00+00:00
# Name: date_time, dtype: datetime64[ns, UTC]
Nie jestem pewien, czy jest to najbardziej eleganckie czy wydajne rozwiązanie, ale chciałbym:
df.loc[df.date_time.str[-2:]=='25', 'date_time'] = (pd.to_numeric(df.date_time[df.date_time.str[-2:]=='25'])+100-24).apply(str)
df.index = pd.to_datetime(df["date_time"], format="%Y%m%d%H")