Perbedaan musim dan auto.arima

Aug 16 2020

Saya mulai mempelajari algoritme perkiraan yang berbeda, menggunakan R. Sebagai contoh, mungkin bukan yang terbaik (karena kurangnya musim), saya menggunakan saham Facebook.

Perlengkapan latihan:

SYMBOL <- getSymbols("FB", from = "2015-01-01", to = "2019-12-31")
Stocks_FB_day <- get(SYMBOL[1])
Stocks_FB_day_Cl <- Cl(Stocks_FB_day)

Set pengujian:

SYMBOL <- getSymbols("FB", from = "2020-01-01", to = "2020-01-21")
Stocks_FB_day <- get(SYMBOL[1])

Saya telah membangun model yang berbeda, termasuk ARIMA. Saya tahu yang ini bukan yang paling cocok untuk data stok harian, namun, saya telah memutuskan untuk mencobanya. Memperhatikan bahwa ada sekitar 252 pengamatan per tahun, saya telah membuat plot dekomposisi, menggunakan stl()fungsi dan frekuensi pengaturan sama dengan 126 (setengah tahun) dan 252 (satu tahun penuh). Kedua plot menunjukkan bahwa sinyal musiman tidak terlalu penting. Ini salah satunya:

Bisa juga disimpulkan dari grafik ACF dan PACF (mungkin saya salah?):

Ini adalah eksperimen saya dengan auto.arimafungsi:

Setiap kali saya menulis "D = 1" (apakah frekuensinya 252 atau 126), memaksa pembedaan musiman, saya mendapatkan nilai AIC yang lebih tinggi, namun, prediksi yang lebih akurat. Saya tidak mengatakan bahwa mendapatkan garis datar / hampir datar tidak tepat, namun demikian, terkadang Anda ingin mengetahui lebih dari sekedar arah keseluruhan dari ramalan masa depan Anda jika memungkinkan.

Saya berasumsi bahwa saya telah melakukan banyak kesalahan dan sangat mungkin seluruh pendekatan tidak sesuai sama sekali.

Pertanyaan utamanya adalah:

"Apakah masuk akal untuk memaksakan pembedaan musiman (D = 1) jika hal itu memberikan nilai prakiraan yang lebih baik (saya membandingkannya dengan set penahan, menghitung MAPE, misalnya) bahkan jika tampaknya tidak perlu, karena fakta bahwa musim lemah? "

Jawaban

3 ChrisHaug Aug 16 2020 at 21:41

Sebagai saran umum, Anda dapat menolak apa yang dikatakan data yang Anda miliki di depan Anda jika Anda memiliki pengetahuan domain sebelumnya yang andal . Dalam hal ini, itu adalah pengetahuan tentang pasar saham secara umum, atau pengetahuan tentang bisnis Facebook secara khusus, yang sebelumnya Anda peroleh secara independen dari rangkaian harga saham yang Anda lihat.

Tetapi jika pengetahuan domain tidak mengatakan bahwa itu harus musiman, dan datanya tidak benar-benar terlihat musiman, dan Anda secara acak berkata "hei, bagaimana jika saya mencoba memaksakan kemusiman?" dan Anda mendapatkan hasil sampel yang lebih baik, Anda pasti harus skeptis tentang apakah Anda benar-benar telah meningkatkan model Anda dengan cara yang akan berguna di masa mendatang. Tentu saja mungkin saja pengetahuan domainnya cacat, atau bahwa menambahkan pembedaan musiman telah memperbaiki masalah yang nyata namun tidak terkait dengan model Anda sehingga Anda dapat membenarkan perbaikan secara langsung dengan lebih baik.

Saya melihat banyak orang di sini yang belajar tentang ramalan yang tampaknya tertarik pada harga saham sebagai proyek pertama. Sayangnya, sifat domainnya adalah, dalam kelas model ARIMA, harga saham hampir selalu paling baik dimodelkan sebagai jalan acak, jadi tidak terlalu menarik dari sudut pandang pembelajaran. Ini adalah properti fundamental dari domain dan ini disebabkan oleh cara ekspektasi agregat harga di masa mendatang memengaruhi investor untuk mengubah jalur harga di masa mendatang dengan membeli atau menjual aset. Mekanisme umpan balik ini cenderung menipiskan gerakan yang mudah diantisipasi, sehingga yang dapat Anda amati dengan mudah hanyalah kebisingan.

Harga saham biasanya tidak memiliki pola musiman yang kuat karena alasan ini. Jika memungkinkan untuk mendapatkan keuntungan yang dapat diandalkan dengan membeli di musim sepi dan menjual di musim ramai, semua orang akan melakukannya. Hal ini akan menyebabkan harga di musim sepi meningkat, dan harga di musim ramai turun, yang akhirnya membuat keunggulan ini hilang. Pengetahuan domain sebelumnya dalam hal ini mengatakan bahwa harga saham mungkin tidak bersifat musiman dengan cara ini.

Jadi, dalam hal ini saya akan skeptis untuk menambahkan perbedaan musiman dan saya akan menyelidiki lebih lanjut mengapa tingkat perkiraan non-musiman Anda tampaknya jauh lebih jauh (saya tidak tahu dari informasi yang Anda posting sejauh ini ).