時系列データフレームの行を追加するにはどうすればよいですか？

Dec 31 2020

時系列のExcelファイルをデータフレームにロードするプログラムを作成してから、いくつかの基本的な計算を使用していくつかの新しい列を作成します。私のプログラムは、いくつかのレコードで月が欠落しているExcelファイルを読み取ることがあります。したがって、以下の例では、2つの異なる店舗の月間売上データがあります。開店時期が異なるため、最初の月末日が異なります。ただし、どちらも2020年9月30日までの月末データが必要です。私のファイルでは、Store BBBには、2020年8月31日と2020年9月30日のレコードがありません。これは、これらの月に売上がなかったためです。

お店	開業月	状態	市	月末日	売上高
AAA	2020年5月31日	ニューヨーク	ニューヨーク	2020年5月31日	1000
AAA	2020年5月31日	ニューヨーク	ニューヨーク	2020年6月30日	5000
AAA	2020年5月31日	ニューヨーク	ニューヨーク	2020年7月30日	3000
AAA	2020年5月31日	ニューヨーク	ニューヨーク	2020年8月31日	4000
AAA	2020年5月31日	ニューヨーク	ニューヨーク	2020年9月30日	2000
BBB	2020年6月30日	CT	ハートフォード	2020年6月30日	100
BBB	2020年6月30日	CT	ハートフォード	2020年7月30日	200

したがって、このようなインスタンスの場合、8/31と9/30のStoreBBBに2つの行を追加できるようにしたいと思います。新しい行は、直近の月末日から同じ開業月、州、市を使用する必要があります。両方の新しい行の売上を0に設定する必要があります。今のところ、私は次の手順を実行します。

各ストアのストア名と最大月末日、および時系列データフレーム全体の最大月末日を使用してデータフレーム「MaxDateData」を作成します。このフィールドに「最新の日付」という名前を付けます。

お店	最大月末日	最新の日付
AAA	2020年9月30日	2020年9月30日
BBB	2020年7月30日	2020年9月30日

メインの時系列データフレームからの最新の行を使用してデータフレーム「MostRecent」を作成します。これを行うには、時系列データフレームとストア名および最大月の終了日のMaxDateDataの間で内部結合を行います。

お店	開業月	状態	市	月末日	売上高	最大月末日	最新の日付
AAA	2020年5月31日	ニューヨーク	ニューヨーク	2020年9月30日	2000	2020年9月30日	2020年9月30日
BBB	2020年6月30日	CT	ハートフォード	2020年7月30日	200	2020年7月30日	2020年9月30日

where句を使用してデータフレーム「RequireBackfill_MostRecent」を作成し、最大月の終了日<最新の日付であるストアをフィルタリングします。以下のコードを参照してください。したがって、この例では、RequireBackfill_MostRecentテーブルにはストアBBBの行のみが含まれます。

RequireBackfill_Stores_MostRecent = MaxDateData.where(MaxDateData['Max Month End Date'] <MaxDateData['Most Recent Date'])
RequireBackfill_MostRecent = MostRecent.merge(RequireBackfill_Stores_MostRecent,how='inner')

次に、2つのネストされたforループを使用して、入力する必要のある日付を循環します。これは、StoreBBBのみを含むRequireBackfill_MostRecentデータフレームを利用します。

X=[]
end = MaxDateData['Most Recent Date'][0]
for i in MonthlyData['Month End Date'].unique():
    per1 = pd.date_range(start = i,  end = end, freq ='M') 
    for val in per1: 
        Data=[]
        Data = RequireBackfill_MostRecent[["Store"
                                           ,"Month Opened"
                                           ,"City"
                                           ,"State"
                                           ]].where(RequireBackfill_MostRecent['Max Month End date']==i).dropna()   

        Data["Month End Date"]= val                
        Data["Sales"]= 0
        X.append(Data)
NewData = pd.concat(X)

次に、concatを使用してNewDataを時系列データフレームに追加します

FullData_List = [MonthlyData,NewData]
FullData=pd.concat(FullData_List)

このプロセス全体は機能しますが、これを行うためのはるかに効率的な方法はありますか？より大きなデータで作業を開始すると、これはコストがかかる可能性があります。

回答

Ferris Dec 31 2020 at 14:08

upsampleDateTimeインデックスを試してみてください。参照：pandas-resample-upsample-last-date-edge-of-data

# group by `Store`
# with `Month End Date` column show be converted to DateTime

group.set_index(['Month End Date']).resample('M').asfreq()

注意してください：7/30/2020は7月の終了日ではありません。7/31/2020です。したがって、この方法7/30/2020を使用すると問題が発生します（月末日を実際の終了日に変換します）。

JoeFerndz Dec 31 2020 at 16:14

これを行うためのステップバイステップのアプローチは次のとおりです。ご不明な点がございましたら、お気軽にお問い合わせください。