Python Pandas:日時インデックスで25時間をサポート

Aug 16 2020

Pandasのデータフレームのインデックスとして日付/時刻を使用したいと思います。

ただし、データベースでは夏時間が適切に処理されていないため、夏時間が終了する日の日付/時刻の値は25時間であり、次のように表されます。

2019102700
2019102701
...
2019102724

次のコードを使用して、これらの値をDateTimePandasデータフレームのインデックスとして使用するオブジェクトに変換しています。

df.index = pd.to_datetime(df["date_time"], format="%Y%m%d%H")

ただし、エラーが発生します。

ValueError: unconverted data remains: 4

おそらく、to_datetime関数が時間を期待していないため24です。同様に、夏時間が始まる日は23時間しかありません。

私が考えた解決策の1つは、日付を文字列として保存することでしたが、それはエレガントでも効率的でもないようです。使用時に夏時間の処理の問題を解決する方法はありますto_datetimeか?

回答

1 MrFuppes Aug 16 2020 at 18:40

タイムゾーンがわかっている場合は、UTCタイムスタンプを計算する方法を次に示します。日付部分のみを解析し、データが「属する」実際のタイムゾーンにローカライズし、それをUTCに変換します。これで、時間の部分を解析して、それを時間デルタとして追加できます-例:

import pandas as pd 

df = pd.DataFrame({'date_time_str': ['2019102722','2019102723','2019102724',
                                     '2019102800','2019102801','2019102802']})

df['date_time'] = (pd.to_datetime(df['date_time_str'].str[:-2], format='%Y%m%d')
                   .dt.tz_localize('Europe/Berlin')
                   .dt.tz_convert('UTC'))

df['date_time'] += df['date_time_str'].str[-2:].astype('timedelta64[h]')

# df['date_time']
# 0   2019-10-27 20:00:00+00:00
# 1   2019-10-27 21:00:00+00:00
# 2   2019-10-27 22:00:00+00:00
# 3   2019-10-27 23:00:00+00:00
# 4   2019-10-28 00:00:00+00:00
# 5   2019-10-28 01:00:00+00:00
# Name: date_time, dtype: datetime64[ns, UTC]
1 hoomant Aug 16 2020 at 17:43

それが最もエレガントなソリューションなのか効率的なソリューションなのかはわかりませんが、次のようにします。

df.loc[df.date_time.str[-2:]=='25', 'date_time'] = (pd.to_numeric(df.date_time[df.date_time.str[-2:]=='25'])+100-24).apply(str)
df.index = pd.to_datetime(df["date_time"], format="%Y%m%d%H")