Rangkaian Waktu - Metode Naif
pengantar
Metode Naif seperti mengasumsikan nilai prediksi pada waktu 't' menjadi nilai aktual variabel pada waktu 't-1' atau rata-rata penggiliran rangkaian, digunakan untuk menimbang seberapa baik kinerja model statistik dan model pembelajaran mesin dan menekankan kebutuhan mereka.
Dalam bab ini, mari kita coba model ini di salah satu fitur data deret waktu kita.
Pertama kita akan melihat rata-rata fitur 'suhu' dari data kita dan deviasi di sekitarnya. Ini juga berguna untuk melihat nilai suhu maksimum dan minimum. Kita dapat menggunakan fungsionalitas perpustakaan numpy di sini.
Menampilkan statistik
Dalam [135]:
import numpy
print (
'Mean: ',numpy.mean(df['T']), ';
Standard Deviation: ',numpy.std(df['T']),';
\nMaximum Temperature: ',max(df['T']),';
Minimum Temperature: ',min(df['T'])
)
Kami memiliki statistik untuk semua 9357 pengamatan di seluruh garis waktu yang sama yang berguna bagi kami untuk memahami data.
Sekarang kita akan mencoba metode naif pertama, mengatur nilai prediksi saat ini sama dengan nilai aktual pada waktu sebelumnya dan menghitung root mean squared error (RMSE) untuk mengukur kinerja metode ini.
Menampilkan 1 st metode naif
Dalam [136]:
df['T']
df['T_t-1'] = df['T'].shift(1)
Dalam [137]:
df_naive = df[['T','T_t-1']][1:]
Dalam [138]:
from sklearn import metrics
from math import sqrt
true = df_naive['T']
prediction = df_naive['T_t-1']
error = sqrt(metrics.mean_squared_error(true,prediction))
print ('RMSE for Naive Method 1: ', error)
RMSE untuk Metode Naif 1: 12.901140576492974
Mari kita lihat metode naif berikutnya, di mana nilai prediksi saat ini disamakan dengan rata-rata periode waktu sebelumnya. Kami akan menghitung RMSE untuk metode ini juga.
Menampilkan 2 nd metode naif
Dalam [139]:
df['T_rm'] = df['T'].rolling(3).mean().shift(1)
df_naive = df[['T','T_rm']].dropna()
Dalam [140]:
true = df_naive['T']
prediction = df_naive['T_rm']
error = sqrt(metrics.mean_squared_error(true,prediction))
print ('RMSE for Naive Method 2: ', error)
RMSE for Naive Method 2: 14.957633272839242
Di sini, Anda dapat bereksperimen dengan berbagai jumlah periode waktu sebelumnya yang juga disebut 'kelambatan' yang ingin Anda pertimbangkan, yang disimpan sebagai 3 di sini. Dalam data ini dapat dilihat bahwa saat Anda meningkatkan jumlah kelambatan dan kesalahan meningkat. Jika lag dipertahankan 1, itu menjadi sama dengan metode naif yang digunakan sebelumnya.
Points to Note
Anda dapat menulis fungsi yang sangat sederhana untuk menghitung kesalahan root mean squared. Di sini, kami telah menggunakan fungsi mean squared error dari paket 'sklearn' dan kemudian mengambil akar kuadratnya.
Dalam pandas df ['column_name'] juga bisa ditulis sebagai df.column_name, namun untuk dataset ini df.T tidak akan bekerja sama dengan df ['T'] karena df.T adalah fungsi untuk mentransposisi dataframe. Jadi gunakan hanya df ['T'] atau pertimbangkan untuk mengganti nama kolom ini sebelum menggunakan sintaks lainnya.