Rangkaian Waktu - Regresi Otomatis

Untuk deret waktu stasioner, model regresi otomatis melihat nilai variabel pada waktu 't' sebagai fungsi linier dari nilai langkah waktu 'p' yang mendahuluinya. Secara matematis dapat ditulis sebagai -

$$ y_ {t} = \: C + \: \ phi_ {1} y_ {t-1} \: + \: \ phi_ {2} Y_ {t-2} + ... + \ phi_ {p} y_ {tp} + \ epsilon_ {t} $$

 

Di mana, 'p' adalah parameter tren regresi otomatis

$ \ epsilon_ {t} $ adalah derau putih, dan

$ y_ {t-1}, y_ {t-2} \: \: ... y_ {tp} $ menunjukkan nilai variabel pada periode waktu sebelumnya.

Nilai p dapat dikalibrasi menggunakan berbagai metode. Salah satu cara untuk menemukan nilai yang tepat dari 'p' adalah memplot plot korelasi otomatis.

Note- Kita harus memisahkan data menjadi train dan test pada rasio 8: 2 dari total data yang tersedia sebelum melakukan analisis apapun pada data tersebut karena data pengujian hanya untuk mengetahui keakuratan model kita dan asumsinya, itu tidak tersedia untuk kita sampai setelah prediksi dibuat. Dalam kasus deret waktu, urutan titik data sangat penting sehingga perlu diingat agar tidak kehilangan urutan selama pemisahan data.

Plot korelasi otomatis atau korelogram menunjukkan hubungan variabel dengan dirinya sendiri pada langkah waktu sebelumnya. Itu menggunakan korelasi Pearson dan menunjukkan korelasi dalam interval kepercayaan 95%. Mari kita lihat bagaimana variabel 'temperatur' dari data kita.

Menampilkan ACP

Di [141]:

split = len(df) - int(0.2*len(df))
train, test = df['T'][0:split], df['T'][split:]

Dalam [142]:

from statsmodels.graphics.tsaplots import plot_acf

plot_acf(train, lags = 100)
plt.show()

Semua nilai lag yang terletak di luar wilayah biru yang diarsir diasumsikan memiliki korelasi.