Como adicionar linhas para um dataframe de série temporal?

Dec 31 2020

Estou escrevendo um programa que carregará em um arquivo de excel de série de tempo em um dataframe, então crio várias novas colunas usando alguns cálculos básicos. Meu programa às vezes lê em arquivos do Excel que estão faltando meses para alguns registros. Portanto, no exemplo abaixo, tenho dados de vendas mensais para duas lojas diferentes. As lojas abrem durante meses diferentes, portanto, a data de término do primeiro mês será diferente. Mas ambos devem ter dados de final de mês até 30/09/2020. No meu arquivo, Loja BBB não tem registros para 31/08/2020 e 30/09/2020 porque não houve vendas durante esses meses.

Loja	Mês de Abertura	Estado	Cidade	Data Final do Mês	Vendas
AAA	31/05/2020	Nova Iorque	Nova york	31/05/2020	1000
AAA	31/05/2020	Nova Iorque	Nova york	30/06/2020	5000
AAA	31/05/2020	Nova Iorque	Nova york	30/07/2020	3000
AAA	31/05/2020	Nova Iorque	Nova york	31/08/2020	4000
AAA	31/05/2020	Nova Iorque	Nova york	30/09/2020	2000
BBB	30/06/2020	CT	Hartford	30/06/2020	100
BBB	30/06/2020	CT	Hartford	30/07/2020	200

Portanto, para qualquer instância como essa, quero poder adicionar duas linhas para a Loja BBB para 31/8 e 30/9. As novas linhas devem usar o mesmo mês de abertura, estado e cidade da data de encerramento do mês mais recente. As vendas devem ser definidas como 0 para ambas as novas linhas. A partir de agora, eu realizo as seguintes etapas:

Crie Dataframe "MaxDateData" com o nome da loja e a data de término máxima do mês para cada loja e também a data de término máxima do mês para todo o quadro de dados da série temporal. Chamo esse campo de "Data mais recente".

Loja	Data Máxima de Fim do Mês	Data Mais Recente
AAA	30/09/2020	30/09/2020
BBB	30/07/2020	30/09/2020

Crie o Dataframe "MostRecent" com a linha mais recente do dataframe da série temporal principal. Para fazer isso, faço uma junção interna entre o dataframe da série temporal e MaxDateData no nome da loja e na data máxima de término do mês.

Loja	Mês de Abertura	Estado	Cidade	Data Final do Mês	Vendas	Data Máxima de Fim do Mês	Data Mais Recente
AAA	31/05/2020	Nova Iorque	Nova york	30/09/2020	2000	30/09/2020	30/09/2020
BBB	30/06/2020	CT	Hartford	30/07/2020	200	30/07/2020	30/09/2020

Crie um dataframe "RequireBackfill_MostRecent" usando uma cláusula where para filtrar as lojas em que Max Month End Date <Most Recent Date. Veja o código abaixo. Portanto, neste exemplo, a tabela RequireBackfill_MostRecent terá apenas uma linha para a loja BBB.

RequireBackfill_Stores_MostRecent = MaxDateData.where(MaxDateData['Max Month End Date'] <MaxDateData['Most Recent Date'])
RequireBackfill_MostRecent = MostRecent.merge(RequireBackfill_Stores_MostRecent,how='inner')

Em seguida, uso dois loops for aninhados para percorrer as datas que preciso preencher. Ele aproveita o dataframe RequireBackfill_MostRecent, que conteria apenas o Store BBB.

X=[]
end = MaxDateData['Most Recent Date'][0]
for i in MonthlyData['Month End Date'].unique():
    per1 = pd.date_range(start = i,  end = end, freq ='M') 
    for val in per1: 
        Data=[]
        Data = RequireBackfill_MostRecent[["Store"
                                           ,"Month Opened"
                                           ,"City"
                                           ,"State"
                                           ]].where(RequireBackfill_MostRecent['Max Month End date']==i).dropna()   

        Data["Month End Date"]= val                
        Data["Sales"]= 0
        X.append(Data)
NewData = pd.concat(X)

Eu, então, adiciono NewData ao meu dataframe da série temporal usando concat

FullData_List = [MonthlyData,NewData]
FullData=pd.concat(FullData_List)

Todo esse processo funciona, mas existe uma maneira muito mais eficiente de fazer isso? Isso pode se tornar caro quando eu começar a trabalhar com dados maiores.

Como adicionar linhas para um dataframe de série temporal?

Respostas