Wie füge ich Zeilen für einen Zeitreihen-Datenrahmen hinzu?

Dec 31 2020

Ich schreibe ein Programm, das in eine Excel-Datei einer Zeitreihe in einen Datenrahmen geladen wird, und erstelle dann mithilfe einiger grundlegender Berechnungen mehrere neue Spalten. Mein Programm liest manchmal Excel-Dateien ein, denen für einige Datensätze Monate fehlen. Im folgenden Beispiel habe ich monatliche Verkaufsdaten für zwei verschiedene Geschäfte. Die Geschäfte haben in verschiedenen Monaten geöffnet, daher unterscheidet sich das erste Monatsende. Beide sollten jedoch Daten zum Monatsende bis zum 30.09.2020 haben. In meiner Datei hat Store BBB keine Aufzeichnungen für den 31.08.2020 und den 30.09.2020, da in diesen Monaten keine Verkäufe getätigt wurden.

Geschäft	Monat geöffnet	Zustand	Stadt	Monatsende	Der Umsatz
AAA	31.05.2020	NY	New York	31.05.2020	1000
AAA	31.05.2020	NY	New York	30.06.2020	5000
AAA	31.05.2020	NY	New York	30.07.2020	3000
AAA	31.05.2020	NY	New York	31.08.2020	4000
AAA	31.05.2020	NY	New York	30.09.2020	2000
BBB	30.06.2020	CT	Hartford	30.06.2020	100
BBB	30.06.2020	CT	Hartford	30.07.2020	200

In solchen Fällen möchte ich zwei Zeilen für Store BBB für 8/31 und 9/30 hinzufügen können. Die neuen Zeilen sollten den gleichen geöffneten Monat, den gleichen Bundesstaat und die gleiche Stadt ab dem letzten Monatsende verwenden. Der Umsatz sollte für beide neuen Zeilen auf 0 gesetzt werden. Ab sofort mache ich folgende Schritte:

Erstellen Sie den Datenrahmen "MaxDateData" mit dem Geschäftsnamen und dem maximalen Monatsenddatum für jeden Laden sowie dem maximalen Monatsenddatum für den gesamten Zeitreihendatenrahmen. Ich nenne dieses Feld "Letztes Datum".

Geschäft	Maximales Monatsende	Letztes Datum
AAA	30.09.2020	30.09.2020
BBB	30.07.2020	30.09.2020

Erstellen Sie den Datenrahmen "MostRecent" mit der neuesten Zeile aus dem Hauptzeitreihendatenrahmen. Dazu führe ich eine innere Verknüpfung zwischen dem Zeitreihendatenrahmen und den MaxDateData für den Geschäftsnamen und das maximale Monatsenddatum durch.

Geschäft	Monat geöffnet	Zustand	Stadt	Monatsende	Der Umsatz	Maximales Monatsende	Letztes Datum
AAA	31.05.2020	NY	New York	30.09.2020	2000	30.09.2020	30.09.2020
BBB	30.06.2020	CT	Hartford	30.07.2020	200	30.07.2020	30.09.2020

Erstellen Sie einen Datenrahmen "RequireBackfill_MostRecent" mit einer where-Klausel, um nach Geschäften zu filtern, in denen das maximale Monatsenddatum <das letzte Datum ist. Siehe Code unten. In diesem Beispiel enthält die Tabelle RequireBackfill_MostRecent nur eine Zeile für den Speicher BBB.

RequireBackfill_Stores_MostRecent = MaxDateData.where(MaxDateData['Max Month End Date'] <MaxDateData['Most Recent Date'])
RequireBackfill_MostRecent = MostRecent.merge(RequireBackfill_Stores_MostRecent,how='inner')

Ich verwende dann zwei verschachtelte for-Schleifen, um die Daten zu durchlaufen, die ich ausfüllen muss. Es nutzt den RequireBackfill_MostRecent-Datenrahmen, der nur Store BBB enthalten würde.

X=[]
end = MaxDateData['Most Recent Date'][0]
for i in MonthlyData['Month End Date'].unique():
    per1 = pd.date_range(start = i,  end = end, freq ='M') 
    for val in per1: 
        Data=[]
        Data = RequireBackfill_MostRecent[["Store"
                                           ,"Month Opened"
                                           ,"City"
                                           ,"State"
                                           ]].where(RequireBackfill_MostRecent['Max Month End date']==i).dropna()   

        Data["Month End Date"]= val                
        Data["Sales"]= 0
        X.append(Data)
NewData = pd.concat(X)

Anschließend füge ich die NewData mit concat zu meinem Zeitreihen-Datenrahmen hinzu

FullData_List = [MonthlyData,NewData]
FullData=pd.concat(FullData_List)

Dieser ganze Prozess funktioniert, aber gibt es einen viel effizienteren Weg, dies zu tun? Dies kann teuer werden, wenn ich anfange, mit größeren Daten zu arbeiten.

Wie füge ich Zeilen für einen Zeitreihen-Datenrahmen hinzu?

Antworten