Comment ajouter des lignes pour une trame de données de séries temporelles?

Dec 31 2020

J'écris un programme qui se chargera dans un fichier Excel de séries temporelles dans une trame de données, puis je crée plusieurs nouvelles colonnes en utilisant des calculs de base. Mon programme va parfois lire des fichiers Excel qui manquent des mois pour certains enregistrements. Donc, dans l'exemple ci-dessous, j'ai des données de ventes mensuelles pour deux magasins différents. Les magasins ouvrent pendant des mois différents, donc leur première date de fin de mois sera différente. Mais les deux devraient avoir des données de fin de mois jusqu'au 30/09/2020. Dans mon dossier, Store BBB n'a aucun enregistrement pour le 31/08/2020 et le 30/09/2020 car il n'y a pas eu de ventes pendant ces mois.

Magasin	Mois ouvert	État	Ville	Date de fin du mois	Ventes
AAA	31/05/2020	New York	New York	31/05/2020	1000
AAA	31/05/2020	New York	New York	30/06/2020	5000
AAA	31/05/2020	New York	New York	30/07/2020	3000
AAA	31/05/2020	New York	New York	31/08/2020	4000
AAA	31/05/2020	New York	New York	30/09/2020	2000
BBB	30/06/2020	CT	Hartford	30/06/2020	100
BBB	30/06/2020	CT	Hartford	30/07/2020	200

Donc, pour toutes les instances comme celle-ci, je veux pouvoir ajouter deux lignes pour Store BBB pour 8/31 et 9/30. Les nouvelles lignes doivent utiliser les mêmes mois d'ouverture, état et ville à partir de la date de fin de mois la plus récente. Les ventes doivent être définies sur 0 pour les deux nouvelles lignes. À partir de maintenant, je fais les étapes suivantes:

Créez le Dataframe "MaxDateData" avec le nom du magasin et la date de fin de mois maximum pour chaque magasin ainsi que la date de fin de mois maximum pour l'ensemble de la trame de données de série chronologique, je nomme ce champ "Date la plus récente".

Magasin	Date de fin maximale du mois	Date la plus récente
AAA	30/09/2020	30/09/2020
BBB	30/07/2020	30/09/2020

Créez la trame de données "MostRecent" avec la ligne la plus récente de la trame de données de la série chronologique principale. Pour ce faire, je fais une jointure interne entre la trame de données de la série chronologique et le MaxDateData sur le nom du magasin et la date de fin de mois maximum.

Magasin	Mois ouvert	État	Ville	Date de fin du mois	Ventes	Date de fin maximale du mois	Date la plus récente
AAA	31/05/2020	New York	New York	30/09/2020	2000	30/09/2020	30/09/2020
BBB	30/06/2020	CT	Hartford	30/07/2020	200	30/07/2020	30/09/2020

Créez un dataframe "RequireBackfill_MostRecent" en utilisant une clause where pour filtrer les magasins où la date de fin de mois max <date la plus récente. Voir le code ci-dessous. Ainsi, dans cet exemple, la table RequireBackfill_MostRecent n'aura qu'une ligne pour le magasin BBB.

RequireBackfill_Stores_MostRecent = MaxDateData.where(MaxDateData['Max Month End Date'] <MaxDateData['Most Recent Date'])
RequireBackfill_MostRecent = MostRecent.merge(RequireBackfill_Stores_MostRecent,how='inner')

J'utilise ensuite deux boucles for imbriquées pour parcourir les dates que je dois remplir. Il exploite le dataframe RequireBackfill_MostRecent qui ne contiendrait que Store BBB.

X=[]
end = MaxDateData['Most Recent Date'][0]
for i in MonthlyData['Month End Date'].unique():
    per1 = pd.date_range(start = i,  end = end, freq ='M') 
    for val in per1: 
        Data=[]
        Data = RequireBackfill_MostRecent[["Store"
                                           ,"Month Opened"
                                           ,"City"
                                           ,"State"
                                           ]].where(RequireBackfill_MostRecent['Max Month End date']==i).dropna()   

        Data["Month End Date"]= val                
        Data["Sales"]= 0
        X.append(Data)
NewData = pd.concat(X)

J'ajoute ensuite le NewData à ma trame de données de séries temporelles en utilisant concat

FullData_List = [MonthlyData,NewData]
FullData=pd.concat(FullData_List)

Tout ce processus fonctionne, mais y a-t-il un moyen beaucoup plus efficace de le faire? Cela peut devenir coûteux lorsque je commence à travailler avec des données plus volumineuses.

Comment ajouter des lignes pour une trame de données de séries temporelles?

Réponses