Python Pandas : datetime 인덱스에서 25 시간 지원

Aug 16 2020

Pandas의 데이터 프레임에 대한 인덱스로 날짜 / 시간을 사용하고 싶습니다.

그러나 일광 절약 시간이 데이터베이스에서 제대로 지정되지 않았으므로 일광 절약 시간이 끝나는 날 의 날짜 / 시간 값 은 25 시간이며 다음과 같이 표시됩니다.

2019102700
2019102701
...
2019102724

다음 코드를 사용하여 해당 값을 DateTimePandas 데이터 프레임의 인덱스로 사용 하는 개체 로 변환하고 있습니다 .

df.index = pd.to_datetime(df["date_time"], format="%Y%m%d%H")

그러나 오류가 발생합니다.

ValueError: unconverted data remains: 4

아마도 to_datetime함수가 시간을 예상하지 않기 때문일 것 24입니다. 마찬가지로 일광 절약 시간 제가 시작되는 날은 23 시간 밖에 없습니다.

내가 생각한 한 가지 해결책은 날짜를 문자열로 저장하는 것이었지만 우아하거나 효율적이지 않은 것 같습니다. 사용할 때 일광 절약 시간제 처리 문제를 해결할 방법이 to_datetime있습니까?

답변

1 MrFuppes Aug 16 2020 at 18:40

시간대를 알고 있다면 UTC 타임 스탬프를 계산하는 방법이 있습니다. 날짜 부분 만 구문 분석하고 데이터가 "속하는"실제 시간대로 현지화 한 다음이를 UTC로 변환합니다. 이제 시간 부분을 구문 분석하고 시간 델타로 추가 할 수 있습니다.

import pandas as pd 

df = pd.DataFrame({'date_time_str': ['2019102722','2019102723','2019102724',
                                     '2019102800','2019102801','2019102802']})

df['date_time'] = (pd.to_datetime(df['date_time_str'].str[:-2], format='%Y%m%d')
                   .dt.tz_localize('Europe/Berlin')
                   .dt.tz_convert('UTC'))

df['date_time'] += df['date_time_str'].str[-2:].astype('timedelta64[h]')

# df['date_time']
# 0   2019-10-27 20:00:00+00:00
# 1   2019-10-27 21:00:00+00:00
# 2   2019-10-27 22:00:00+00:00
# 3   2019-10-27 23:00:00+00:00
# 4   2019-10-28 00:00:00+00:00
# 5   2019-10-28 01:00:00+00:00
# Name: date_time, dtype: datetime64[ns, UTC]
1 hoomant Aug 16 2020 at 17:43

가장 우아하거나 효율적인 솔루션인지 확실하지 않지만 다음을 수행합니다.

df.loc[df.date_time.str[-2:]=='25', 'date_time'] = (pd.to_numeric(df.date_time[df.date_time.str[-2:]=='25'])+100-24).apply(str)
df.index = pd.to_datetime(df["date_time"], format="%Y%m%d%H")