Python Pandas: รองรับ 25 ชั่วโมงในดัชนีวันที่และเวลา

Aug 16 2020

ฉันต้องการใช้วันที่ / เวลาเป็นดัชนีสำหรับดาต้าเฟรมใน Pandas

อย่างไรก็ตามเวลาออมแสงไม่ได้ระบุไว้อย่างถูกต้องในฐานข้อมูลดังนั้นค่าวันที่ / เวลาสำหรับวันที่สิ้นสุดเวลาออมแสงคือ 25 ชั่วโมงและแสดงในลักษณะนี้:

2019102700
2019102701
...
2019102724

ฉันใช้รหัสต่อไปนี้เพื่อแปลงค่าเหล่านั้นเป็นDateTimeวัตถุที่ฉันใช้เป็นดัชนีเป็นดาต้าเฟรมของ Pandas:

df.index = pd.to_datetime(df["date_time"], format="%Y%m%d%H")

อย่างไรก็ตามนั่นทำให้เกิดข้อผิดพลาด:

ValueError: unconverted data remains: 4

สันนิษฐานว่าเพราะฟังก์ชั่นไม่ได้คาดหวังว่าชั่วโมงที่จะto_datetime 24ในทำนองเดียวกันวันที่เริ่มเวลาออมแสงมีเพียง 23 ชั่วโมง

วิธีแก้ปัญหาหนึ่งที่ฉันคิดคือการจัดเก็บวันที่เป็นสตริง แต่ดูเหมือนจะไม่หรูหราและมีประสิทธิภาพ มีวิธีใดในการแก้ไขปัญหาการจัดการเวลาออมแสงขณะใช้งานto_datetimeหรือไม่?

คำตอบ

1 MrFuppes Aug 16 2020 at 18:40

หากคุณทราบเขตเวลานี่คือวิธีคำนวณการประทับเวลา UTC แยกวิเคราะห์เฉพาะส่วนวันที่แปลเป็นเขตเวลาจริงที่ข้อมูล "เป็นของ" และแปลงเป็น UTC ตอนนี้คุณสามารถแยกวิเคราะห์ส่วนของชั่วโมงและเพิ่มเป็นเดลต้าเวลาได้เช่น

import pandas as pd 

df = pd.DataFrame({'date_time_str': ['2019102722','2019102723','2019102724',
                                     '2019102800','2019102801','2019102802']})

df['date_time'] = (pd.to_datetime(df['date_time_str'].str[:-2], format='%Y%m%d')
                   .dt.tz_localize('Europe/Berlin')
                   .dt.tz_convert('UTC'))

df['date_time'] += df['date_time_str'].str[-2:].astype('timedelta64[h]')

# df['date_time']
# 0   2019-10-27 20:00:00+00:00
# 1   2019-10-27 21:00:00+00:00
# 2   2019-10-27 22:00:00+00:00
# 3   2019-10-27 23:00:00+00:00
# 4   2019-10-28 00:00:00+00:00
# 5   2019-10-28 01:00:00+00:00
# Name: date_time, dtype: datetime64[ns, UTC]
1 hoomant Aug 16 2020 at 17:43

ฉันไม่แน่ใจว่าเป็นโซลูชันที่หรูหราหรือมีประสิทธิภาพที่สุด แต่ฉันต้องการ:

df.loc[df.date_time.str[-2:]=='25', 'date_time'] = (pd.to_numeric(df.date_time[df.date_time.str[-2:]=='25'])+100-24).apply(str)
df.index = pd.to_datetime(df["date_time"], format="%Y%m%d%H")