Time Series - Panduan Cepat

Deret waktu adalah urutan pengamatan selama periode tertentu. Deret waktu univariat terdiri dari nilai-nilai yang diambil oleh variabel tunggal pada kejadian waktu periodik selama suatu periode, dan deret waktu multivariat terdiri dari nilai-nilai yang diambil oleh beberapa variabel pada contoh waktu periodik yang sama selama suatu periode. Contoh paling sederhana dari deret waktu yang kita semua temui setiap hari adalah perubahan suhu sepanjang hari atau minggu atau bulan atau tahun.

Analisis data temporal mampu memberi kita wawasan yang berguna tentang bagaimana suatu variabel berubah dari waktu ke waktu, atau bagaimana hal itu bergantung pada perubahan nilai variabel lain. Hubungan variabel pada nilai sebelumnya dan / atau variabel lain ini dapat dianalisis untuk peramalan deret waktu dan memiliki banyak aplikasi dalam kecerdasan buatan.

Pemahaman dasar tentang bahasa pemrograman apa pun sangat penting bagi pengguna untuk menangani atau mengembangkan masalah pembelajaran mesin. Daftar bahasa pemrograman yang disukai untuk siapa saja yang ingin mengerjakan pembelajaran mesin diberikan di bawah ini -

Python

Ini adalah bahasa pemrograman dengan interpretasi tingkat tinggi, cepat dan mudah untuk dikodekan. Python dapat mengikuti paradigma pemrograman prosedural atau berorientasi objek. Kehadiran berbagai perpustakaan membuat implementasi prosedur yang rumit menjadi lebih sederhana. Dalam tutorial ini, kita akan membuat kode dengan Python dan pustaka terkait yang berguna untuk pemodelan deret waktu akan dibahas di bab-bab selanjutnya.

R

Mirip dengan Python, R adalah bahasa multi-paradigma yang ditafsirkan, yang mendukung komputasi statistik dan grafik. Variasi paket memudahkan penerapan pemodelan machine learning di R.

Jawa

Ini adalah bahasa pemrograman berorientasi objek yang ditafsirkan, yang secara luas terkenal dengan ketersediaan paket yang luas dan teknik visualisasi data yang canggih.

C / C ++

Ini adalah bahasa yang dikompilasi, dan dua dari bahasa pemrograman tertua. Bahasa ini sering kali lebih disukai untuk menggabungkan kemampuan ML dalam aplikasi yang sudah ada karena memungkinkan Anda menyesuaikan penerapan algoritme ML dengan mudah.

MATLAB

MATrix LABoratory adalah bahasa multi-paradigma yang berfungsi untuk bekerja dengan matriks. Ini memungkinkan operasi matematika untuk masalah yang kompleks. Ini terutama digunakan untuk operasi numerik tetapi beberapa paket juga memungkinkan simulasi multi-domain grafis dan desain berbasis model.

Bahasa pemrograman pilihan lainnya untuk masalah pembelajaran mesin termasuk JavaScript, LISP, Prolog, SQL, Scala, Julia, SAS dll.

Python memiliki popularitas yang mapan di antara individu yang melakukan pembelajaran mesin karena struktur kodenya yang mudah ditulis dan dipahami serta berbagai pustaka sumber terbuka. Beberapa pustaka sumber terbuka yang akan kita gunakan di bab-bab selanjutnya telah diperkenalkan di bawah ini.

NumPy

Python numerik adalah pustaka yang digunakan untuk komputasi ilmiah. Ia bekerja pada objek array berdimensi-N dan menyediakan fungsionalitas matematika dasar seperti ukuran, bentuk, mean, deviasi standar, minimum, maksimum serta beberapa fungsi yang lebih kompleks seperti fungsi aljabar linier dan transformasi Fourier. Anda akan mempelajari lebih lanjut tentang ini saat kita melanjutkan tutorial ini.

Panda

Library ini menyediakan struktur data yang sangat efisien dan mudah digunakan seperti seri, kerangka data, dan panel. Ini telah meningkatkan fungsionalitas Python dari sekadar pengumpulan dan persiapan data hingga analisis data. Kedua pustaka, Pandas dan NumPy, membuat operasi apa pun pada kumpulan data kecil hingga sangat besar menjadi sangat sederhana. Untuk mengetahui lebih banyak tentang fungsi-fungsi ini, ikuti tutorial ini.

SciPy

Science Python adalah perpustakaan yang digunakan untuk komputasi ilmiah dan teknis. Ini menyediakan fungsionalitas untuk pengoptimalan, pemrosesan sinyal dan gambar, integrasi, interpolasi, dan aljabar linier. Pustaka ini berguna saat melakukan pembelajaran mesin. Kami akan membahas fungsi-fungsi ini saat kami melanjutkan tutorial ini.

Scikit Learn

Library ini adalah SciPy Toolkit yang banyak digunakan untuk pemodelan statistik, pembelajaran mesin, dan pembelajaran mendalam, karena berisi berbagai model regresi, klasifikasi, dan pengelompokan yang dapat disesuaikan. Ia bekerja dengan baik dengan Numpy, Pandas dan perpustakaan lain yang membuatnya lebih mudah digunakan.

Statsmodels

Seperti Scikit Learn, pustaka ini digunakan untuk eksplorasi data statistik dan pemodelan statistik. Ini juga beroperasi dengan baik dengan pustaka Python lainnya.

Matplotlib

Perpustakaan ini digunakan untuk visualisasi data dalam berbagai format seperti plot garis, grafik batang, peta panas, plot pencar, histogram, dll. Ini berisi semua fungsi terkait grafik yang diperlukan dari plotting hingga pelabelan. Kami akan membahas fungsi-fungsi ini saat kami melanjutkan tutorial ini.

Pustaka ini sangat penting untuk memulai pembelajaran mesin dengan segala jenis data.

Selain yang dibahas di atas, pustaka lain yang sangat penting untuk menangani deret waktu adalah -

Tanggal Waktu

Pustaka ini, dengan dua modulnya - datetime dan kalender, menyediakan semua fungsionalitas datetime yang diperlukan untuk membaca, memformat, dan memanipulasi waktu.

Kami akan menggunakan perpustakaan ini di bab-bab selanjutnya.

Rangkaian Waktu adalah urutan pengamatan yang diindeks dalam interval waktu yang sama. Oleh karena itu, keteraturan dan kontinuitas harus dipertahankan dalam deret waktu mana pun.

Dataset yang akan kami gunakan adalah rangkaian waktu multi-variat yang memiliki data per jam selama kurang lebih satu tahun, untuk kualitas udara di kota Italia yang sangat tercemar. Dataset dapat diunduh dari tautan yang diberikan di bawah ini -https://archive.ics.uci.edu/ml/datasets/air+quality.

Penting untuk memastikan bahwa -

  • Deret waktu berjarak sama, dan

  • Tidak ada nilai atau celah yang berlebihan di dalamnya.

Jika deret waktu tidak kontinu, kita dapat menaikkan atau menurunkan sampel.

Menampilkan df.head ()

Dalam [122]:

import pandas

Dalam [123]:

df = pandas.read_csv("AirQualityUCI.csv", sep = ";", decimal = ",")
df = df.iloc[ : , 0:14]

Dalam [124]:

len(df)

Keluar [124]:

9471

Dalam [125]:

df.head()

Keluar [125]:

Untuk preprocessing time series, kami memastikan tidak ada nilai NaN (NULL) dalam dataset; jika ada, kita dapat menggantinya dengan 0 atau rata-rata atau nilai sebelumnya atau setelahnya. Mengganti adalah pilihan yang lebih disukai daripada menjatuhkan sehingga kontinuitas deret waktu tetap terjaga. Namun, dalam dataset kami, beberapa nilai terakhir tampaknya NULL dan karenanya menjatuhkan tidak akan memengaruhi kontinuitas.

Menjatuhkan NaN (Not-a-Number)

Dalam [126]:

df.isna().sum()
Out[126]:
Date             114
Time             114
CO(GT)           114
PT08.S1(CO)      114
NMHC(GT)         114
C6H6(GT)         114
PT08.S2(NMHC)    114
NOx(GT)          114
PT08.S3(NOx)     114
NO2(GT)          114
PT08.S4(NO2)     114
PT08.S5(O3)      114
T                114
RH               114
dtype: int64

Dalam [127]:

df = df[df['Date'].notnull()]

Dalam [128]:

df.isna().sum()

Keluar [128]:

Date             0
Time             0
CO(GT)           0
PT08.S1(CO)      0
NMHC(GT)         0
C6H6(GT)         0
PT08.S2(NMHC)    0
NOx(GT)          0
PT08.S3(NOx)     0
NO2(GT)          0
PT08.S4(NO2)     0
PT08.S5(O3)      0
T                0
RH               0
dtype: int64

Rangkaian Waktu biasanya diplot sebagai grafik garis terhadap waktu. Untuk itu sekarang kita akan menggabungkan kolom tanggal dan waktu dan mengubahnya menjadi objek datetime dari string. Ini dapat dilakukan dengan menggunakan pustaka datetime.

Mengonversi ke objek datetime

Dalam [129]:

df['DateTime'] = (df.Date) + ' ' + (df.Time)
print (type(df.DateTime[0]))

<class 'str'>

Dalam [130]:

import datetime

df.DateTime = df.DateTime.apply(lambda x: datetime.datetime.strptime(x, '%d/%m/%Y %H.%M.%S'))
print (type(df.DateTime[0]))

<class 'pandas._libs.tslibs.timestamps.Timestamp'>

Mari kita lihat bagaimana beberapa variabel seperti suhu berubah dengan perubahan waktu.

Menampilkan plot

Dalam [131]:

df.index = df.DateTime

Dalam [132]:

import matplotlib.pyplot as plt
plt.plot(df['T'])

Keluar [132]:

[<matplotlib.lines.Line2D at 0x1eaad67f780>]

Dalam [208]:

plt.plot(df['C6H6(GT)'])

Keluar [208]:

[<matplotlib.lines.Line2D at 0x1eaaeedff28>]

Plot kotak adalah jenis grafik berguna lainnya yang memungkinkan Anda menyingkat banyak informasi tentang kumpulan data menjadi satu grafik. Ini menunjukkan mean, 25% dan 75% kuartil dan outlier dari satu atau beberapa variabel. Dalam kasus ketika jumlah pencilan sedikit dan sangat jauh dari rata-rata, kita dapat menghilangkan pencilan dengan mengaturnya menjadi nilai rata-rata atau nilai kuartil 75%.

Menampilkan Plot Kotak

Dalam [134]:

plt.boxplot(df[['T','C6H6(GT)']].values)

Keluar [134]:

{'whiskers': [<matplotlib.lines.Line2D at 0x1eaac16de80>,
   <matplotlib.lines.Line2D at 0x1eaac16d908>,
   <matplotlib.lines.Line2D at 0x1eaac177a58>,
   <matplotlib.lines.Line2D at 0x1eaac177cf8>],
   'caps': [<matplotlib.lines.Line2D at 0x1eaac16d2b0>,
   <matplotlib.lines.Line2D at 0x1eaac16d588>,
   <matplotlib.lines.Line2D at 0x1eaac1a69e8>,
   <matplotlib.lines.Line2D at 0x1eaac1a64a8>],
   'boxes': [<matplotlib.lines.Line2D at 0x1eaac16dc50>,
   <matplotlib.lines.Line2D at 0x1eaac1779b0>],
   'medians': [<matplotlib.lines.Line2D at 0x1eaac16d4a8>,
   <matplotlib.lines.Line2D at 0x1eaac1a6c50>],
   'fliers': [<matplotlib.lines.Line2D at 0x1eaac177dd8>,
   <matplotlib.lines.Line2D at 0x1eaac1a6c18>],'means': []
}

pengantar

Deret waktu memiliki 4 komponen seperti yang diberikan di bawah ini -

  • Level - Ini adalah nilai rata-rata di mana rangkaian tersebut bervariasi.

  • Trend - Ini adalah peningkatan atau penurunan perilaku variabel dengan waktu.

  • Seasonality - Ini adalah perilaku siklus deret waktu.

  • Noise - Itu adalah kesalahan dalam pengamatan yang ditambahkan karena faktor lingkungan.

Teknik Pemodelan Rangkaian Waktu

Untuk menangkap komponen ini, ada beberapa teknik pemodelan deret waktu yang populer. Bagian ini memberikan pengenalan singkat tentang setiap teknik, namun kita akan membahasnya secara rinci di bab selanjutnya -

Metode Naif

Ini adalah teknik estimasi sederhana, seperti nilai prediksi diberikan nilai yang sama dengan mean dari nilai sebelumnya dari variabel dependen waktu, atau nilai aktual sebelumnya. Ini digunakan untuk perbandingan dengan teknik pemodelan yang canggih.

Regresi Otomatis

Regresi otomatis memprediksi nilai periode waktu mendatang sebagai fungsi nilai pada periode waktu sebelumnya. Prediksi regresi otomatis mungkin lebih cocok dengan data daripada metode naif, tetapi mungkin tidak dapat memperhitungkan kemusiman.

Model ARIMA

Rata-rata bergerak yang terintegrasi dengan regresi otomatis memodelkan nilai variabel sebagai fungsi linier dari nilai sebelumnya dan kesalahan sisa pada langkah waktu sebelumnya dari rangkaian waktu stasioner. Namun, data dunia nyata mungkin tidak stasioner dan bersifat musiman, sehingga dikembangkan Musiman-ARIMA dan Fraksional-ARIMA. ARIMA bekerja pada time series univariat, untuk menangani beberapa variabel VARIMA diperkenalkan.

Pemulusan Eksponensial

Ini memodelkan nilai variabel sebagai fungsi linier berbobot eksponensial dari nilai sebelumnya. Model statistik ini juga dapat menangani tren dan kemusiman.

LSTM

Model Long Short-Term Memory (LSTM) adalah jaringan saraf berulang yang digunakan untuk deret waktu untuk memperhitungkan dependensi jangka panjang. Itu dapat dilatih dengan sejumlah besar data untuk menangkap tren dalam deret waktu multi-variate.

Teknik pemodelan tersebut digunakan untuk regresi deret waktu. Dalam bab-bab selanjutnya, mari kita jelajahi semua ini satu per satu.

pengantar

Model statistik atau pembelajaran mesin apa pun memiliki beberapa parameter yang sangat memengaruhi cara data dimodelkan. Misalnya, ARIMA memiliki nilai p, d, q. Parameter ini akan ditentukan sedemikian rupa sehingga kesalahan antara nilai aktual dan nilai yang dimodelkan adalah minimum. Kalibrasi parameter dikatakan sebagai tugas penyesuaian model yang paling penting dan memakan waktu. Oleh karena itu, sangat penting bagi kami untuk memilih parameter yang optimal.

Metode untuk Kalibrasi Parameter

Ada berbagai cara untuk mengkalibrasi parameter. Bagian ini membahas beberapa di antaranya secara mendetail.

Tabrak dan coba

Salah satu cara umum untuk mengkalibrasi model adalah kalibrasi tangan, di mana Anda memulai dengan memvisualisasikan deret waktu dan secara intuitif mencoba beberapa nilai parameter dan mengubahnya berulang kali hingga Anda mencapai kecocokan yang cukup baik. Ini membutuhkan pemahaman yang baik tentang model yang kita coba. Untuk model ARIMA, kalibrasi tangan dilakukan dengan bantuan plot korelasi otomatis untuk parameter 'p', plot korelasi otomatis parsial untuk parameter 'q' dan uji ADF untuk memastikan stasioneritas deret waktu dan pengaturan parameter 'd' . Kami akan membahas semua ini secara rinci di bab-bab selanjutnya.

Pencarian Grid

Cara lain untuk mengkalibrasi model adalah dengan pencarian grid, yang pada dasarnya berarti Anda mencoba membangun model untuk semua kemungkinan kombinasi parameter dan memilih salah satu dengan kesalahan minimum. Ini memakan waktu dan karenanya berguna ketika jumlah parameter yang akan dikalibrasi dan rentang nilai yang diambil lebih sedikit karena ini melibatkan beberapa loop bersarang.

Algoritma genetika

Algoritme genetik bekerja berdasarkan prinsip biologis bahwa solusi yang baik pada akhirnya akan berkembang menjadi solusi yang paling 'optimal'. Ia menggunakan operasi biologis mutasi, persilangan dan seleksi untuk akhirnya mencapai solusi yang optimal.

Untuk pengetahuan lebih lanjut, Anda dapat membaca tentang teknik pengoptimalan parameter lain seperti pengoptimalan Bayesian dan pengoptimalan Swarm.

pengantar

Metode Naïve seperti mengasumsikan nilai prediksi pada waktu 't' menjadi nilai aktual variabel pada waktu 't-1' atau rata-rata pengguliran rangkaian, digunakan untuk menimbang seberapa baik kinerja model statistik dan model pembelajaran mesin dan menekankan kebutuhan mereka.

Dalam bab ini, mari kita coba model ini di salah satu fitur data deret waktu kita.

Pertama kita akan melihat rata-rata fitur 'suhu' dari data kita dan deviasi di sekitarnya. Ini juga berguna untuk melihat nilai suhu maksimum dan minimum. Kita dapat menggunakan fungsionalitas perpustakaan numpy di sini.

Menampilkan statistik

Dalam [135]:

import numpy
print (
   'Mean: ',numpy.mean(df['T']), '; 
   Standard Deviation: ',numpy.std(df['T']),'; 
   \nMaximum Temperature: ',max(df['T']),'; 
   Minimum Temperature: ',min(df['T'])
)

Kami memiliki statistik untuk semua 9357 pengamatan di seluruh garis waktu yang sama yang berguna bagi kami untuk memahami data.

Sekarang kita akan mencoba metode naif pertama, mengatur nilai prediksi saat ini sama dengan nilai aktual pada waktu sebelumnya dan menghitung root mean squared error (RMSE) untuk mengukur kinerja metode ini.

Menampilkan 1 st metode naif

Dalam [136]:

df['T']
df['T_t-1'] = df['T'].shift(1)

Dalam [137]:

df_naive = df[['T','T_t-1']][1:]

Dalam [138]:

from sklearn import metrics
from math import sqrt

true = df_naive['T']
prediction = df_naive['T_t-1']
error = sqrt(metrics.mean_squared_error(true,prediction))
print ('RMSE for Naive Method 1: ', error)

RMSE untuk Metode Naif 1: 12.901140576492974

Mari kita lihat metode naif berikutnya, di mana nilai prediksi saat ini disamakan dengan mean periode waktu sebelumnya. Kami akan menghitung RMSE untuk metode ini juga.

Menampilkan 2 nd metode naif

Dalam [139]:

df['T_rm'] = df['T'].rolling(3).mean().shift(1)
df_naive = df[['T','T_rm']].dropna()

Dalam [140]:

true = df_naive['T']
prediction = df_naive['T_rm']
error = sqrt(metrics.mean_squared_error(true,prediction))
print ('RMSE for Naive Method 2: ', error)

RMSE for Naive Method 2: 14.957633272839242

Di sini, Anda dapat bereksperimen dengan berbagai jumlah periode waktu sebelumnya juga disebut 'kelambatan' yang ingin Anda pertimbangkan, yang disimpan sebagai 3 di sini. Dalam data ini dapat dilihat bahwa saat Anda meningkatkan jumlah kelambatan dan kesalahan meningkat. Jika lag disimpan 1, itu menjadi sama dengan metode naif yang digunakan sebelumnya.

Points to Note

  • Anda dapat menulis fungsi yang sangat sederhana untuk menghitung root mean squared error. Di sini, kami telah menggunakan fungsi mean squared error dari paket 'sklearn' dan kemudian mengambil akar kuadratnya.

  • Di pandas df ['column_name'] juga bisa ditulis df.column_name, namun untuk dataset ini df.T tidak akan berfungsi sama dengan df ['T'] karena df.T adalah fungsi untuk mentransposisi dataframe. Jadi gunakan hanya df ['T'] atau pertimbangkan untuk mengganti nama kolom ini sebelum menggunakan sintaks lainnya.

Untuk deret waktu stasioner, model regresi otomatis melihat nilai variabel pada waktu 't' sebagai fungsi linier dari nilai langkah waktu 'p' yang mendahuluinya. Secara matematis dapat ditulis sebagai -

$$y_{t} = \:C+\:\phi_{1}y_{t-1}\:+\:\phi_{2}Y_{t-2}+...+\phi_{p}y_{t-p}+\epsilon_{t}$$

 

Di mana, 'p' adalah parameter tren regresi otomatis

$\epsilon_{t}$ adalah derau putih, dan

$y_{t-1}, y_{t-2}\:\: ...y_{t-p}$ menunjukkan nilai variabel pada periode waktu sebelumnya.

Nilai p dapat dikalibrasi menggunakan berbagai metode. Salah satu cara untuk menemukan nilai yang tepat dari 'p' adalah dengan memplot plot korelasi otomatis.

Note- Kita harus memisahkan data menjadi train dan test pada rasio 8: 2 dari total data yang tersedia sebelum melakukan analisis apapun pada data tersebut karena data pengujian hanya untuk mengetahui keakuratan model kita dan asumsinya, itu tidak tersedia untuk kita sampai setelah prediksi dibuat. Dalam kasus deret waktu, urutan titik data sangat penting sehingga perlu diingat agar tidak kehilangan urutan selama pemisahan data.

Plot korelasi otomatis atau korelogram menunjukkan hubungan variabel dengan dirinya sendiri pada langkah waktu sebelumnya. Itu menggunakan korelasi Pearson dan menunjukkan korelasi dalam interval kepercayaan 95%. Mari kita lihat bagaimana variabel 'temperatur' dari data kita.

Menampilkan ACP

Di [141]:

split = len(df) - int(0.2*len(df))
train, test = df['T'][0:split], df['T'][split:]

Dalam [142]:

from statsmodels.graphics.tsaplots import plot_acf

plot_acf(train, lags = 100)
plt.show()

Semua nilai lag yang terletak di luar wilayah biru yang diarsir diasumsikan memiliki korelasi.

Untuk deret waktu stasioner, model rata-rata bergerak melihat nilai variabel pada waktu 't' sebagai fungsi linier kesalahan sisa dari langkah waktu 'q' yang mendahuluinya. Kesalahan residual dihitung dengan membandingkan nilai pada saat 't' dengan rata-rata bergerak dari nilai sebelumnya.

Secara matematis dapat ditulis sebagai -

$$y_{t} = c\:+\:\epsilon_{t}\:+\:\theta_{1}\:\epsilon_{t-1}\:+\:\theta_{2}\:\epsilon_{t-2}\:+\:...+:\theta_{q}\:\epsilon_{t-q}\:$$

Di mana 'q' adalah parameter tren rata-rata bergerak

$\epsilon_{t}$ adalah derau putih, dan

$\epsilon_{t-1}, \epsilon_{t-2}...\epsilon_{t-q}$ adalah istilah kesalahan pada periode waktu sebelumnya.

Nilai 'q' dapat dikalibrasi menggunakan berbagai metode. Salah satu cara untuk menemukan nilai tepat dari 'q' adalah dengan memplot plot korelasi otomatis parsial.

Plot korelasi otomatis parsial menunjukkan hubungan variabel dengan dirinya sendiri pada langkah waktu sebelumnya dengan korelasi tidak langsung dihilangkan, tidak seperti plot korelasi otomatis yang menunjukkan korelasi langsung dan tidak langsung, mari kita lihat bagaimana tampilannya untuk variabel 'suhu' kita. data.

Menampilkan PACP

Dalam [143]:

from statsmodels.graphics.tsaplots import plot_pacf

plot_pacf(train, lags = 100)
plt.show()

Korelasi otomatis parsial dibaca dengan cara yang sama seperti korelogram.

Kita telah memahami bahwa untuk deret waktu stasioner, variabel pada waktu 't' adalah fungsi linier dari pengamatan sebelumnya atau kesalahan residual. Oleh karena itu sudah saatnya kita menggabungkan keduanya dan memiliki model Auto-regressive moving average (ARMA).

Namun, pada saat deret waktu tidak stasioner, yaitu sifat statistik deret seperti mean, varians berubah seiring waktu. Dan model statistik yang telah kita pelajari sejauh ini mengasumsikan deret waktu tidak bergerak, oleh karena itu, kita dapat menyertakan langkah pra-pemrosesan untuk membedakan deret waktu agar tidak bergerak. Sekarang, penting bagi kita untuk mengetahui apakah deret waktu yang kita hadapi tidak bergerak atau tidak.

Berbagai metode untuk menemukan stasioneritas suatu deret waktu adalah dengan mencari kemusiman atau tren dalam plot deret waktu, memeriksa selisih mean dan varians untuk berbagai periode waktu, uji Augmented Dickey-Fuller (ADF), uji KPSS, eksponen Hurst, dll. .

Mari kita lihat apakah variabel 'suhu' dari dataset kita adalah deret waktu stasioner atau tidak menggunakan uji ADF.

Dalam [74]:

from statsmodels.tsa.stattools import adfuller

result = adfuller(train)
print('ADF Statistic: %f' % result[0])
print('p-value: %f' % result[1])
print('Critical Values:')
for key, value In result[4].items()
   print('\t%s: %.3f' % (key, value))

Statistik ADF: -10.406056

nilai-p: 0,000000

Nilai Kritis:

1%: -3,431

5%: -2,862

10%: -2,567

Sekarang kita telah menjalankan tes ADF, mari kita tafsirkan hasilnya. Pertama kita akan membandingkan Statistik ADF dengan nilai kritis, nilai kritis yang lebih rendah memberi tahu kita bahwa rangkaian tersebut kemungkinan besar tidak stasioner. Selanjutnya, kita melihat nilai-p. Nilai p yang lebih besar dari 0,05 juga menunjukkan bahwa deret waktu tidak stasioner.

Atau, nilai p kurang dari atau sama dengan 0,05, atau Statistik ADF kurang dari nilai kritis menunjukkan deret waktu tidak bergerak.

Karenanya, deret waktu yang kita hadapi sudah tidak bergerak. Dalam kasus deret waktu stasioner, kami menetapkan parameter 'd' sebagai 0.

Kami juga dapat mengkonfirmasi stasioneritas deret waktu menggunakan eksponen Hurst.

Dalam [75]:

import hurst

H, c,data = hurst.compute_Hc(train)
print("H = {:.4f}, c = {:.4f}".format(H,c))

T = 0,1660, c = 5,0740

Nilai H <0,5 menunjukkan perilaku anti persisten, dan H> 0,5 menunjukkan perilaku persisten atau rangkaian tren. H = 0,5 menunjukkan jalan acak / gerak Brown. Nilai H <0,5, mengkonfirmasikan bahwa deret kita stasioner.

Untuk deret waktu non-stasioner, kami menetapkan parameter 'd' sebagai 1. Selain itu, nilai parameter tren regresi otomatis 'p' dan parameter tren rata-rata bergerak 'q', dihitung pada deret waktu stasioner yaitu dengan memplot ACP dan PACP setelah membedakan deret waktu.

Model ARIMA, yang dicirikan oleh 3 parameter, (p, d, q) sekarang sudah jelas bagi kita, jadi mari kita modelkan deret waktu kita dan memprediksi nilai suhu di masa depan.

Dalam [156]:

from statsmodels.tsa.arima_model import ARIMA

model = ARIMA(train.values, order=(5, 0, 2))
model_fit = model.fit(disp=False)

Dalam [157]:

predictions = model_fit.predict(len(test))
test_ = pandas.DataFrame(test)
test_['predictions'] = predictions[0:1871]

Dalam [158]:

plt.plot(df['T'])
plt.plot(test_.predictions)
plt.show()

Dalam [167]:

error = sqrt(metrics.mean_squared_error(test.values,predictions[0:1871]))
print ('Test RMSE for ARIMA: ', error)

Uji RMSE untuk ARIMA: 43.21252940234892

Pada bab sebelumnya, kita sekarang telah melihat bagaimana model ARIMA bekerja, dan keterbatasannya yang tidak dapat menangani data musiman atau deret waktu multivariasi dan karenanya, model baru diperkenalkan untuk menyertakan fitur-fitur ini.

Sekilas model-model baru ini diberikan di sini -

Vector Auto-Regression (VAR)

Ini adalah versi umum dari model regresi otomatis untuk deret waktu stasioner multivariat. Ini ditandai dengan parameter 'p'.

Vector Moving Average (VMA)

Ini adalah versi umum dari model rata-rata bergerak untuk deret waktu stasioner multivariat. Ini ditandai dengan parameter 'q'.

Vector Auto Regression Moving Average (VARMA)

Ini adalah kombinasi dari VAR dan VMA dan versi umum model ARMA untuk deret waktu stasioner multivariat. Ini ditandai dengan parameter 'p' dan 'q'. Sama seperti, ARMA mampu bertindak seperti model AR dengan mengatur parameter 'q' sebagai 0 dan sebagai model MA dengan mengatur parameter 'p' sebagai 0, VARMA juga mampu bertindak seperti model VAR dengan mengatur parameter 'q' sebagai 0 dan sebagai model VMA dengan mengatur parameter 'p' sebagai 0.

Dalam [209]:

df_multi = df[['T', 'C6H6(GT)']]
split = len(df) - int(0.2*len(df))
train_multi, test_multi = df_multi[0:split], df_multi[split:]

Dalam [211]:

from statsmodels.tsa.statespace.varmax import VARMAX

model = VARMAX(train_multi, order = (2,1))
model_fit = model.fit()
c:\users\naveksha\appdata\local\programs\python\python37\lib\site-packages\statsmodels\tsa\statespace\varmax.py:152: 
   EstimationWarning: Estimation of VARMA(p,q) models is not generically robust, 
   due especially to identification issues. 
   EstimationWarning)
c:\users\naveksha\appdata\local\programs\python\python37\lib\site-packages\statsmodels\tsa\base\tsa_model.py:171: 
   ValueWarning: No frequency information was provided, so inferred frequency H will be used. 
  % freq, ValueWarning)
c:\users\naveksha\appdata\local\programs\python\python37\lib\site-packages\statsmodels\base\model.py:508: 
   ConvergenceWarning: Maximum Likelihood optimization failed to converge. Check mle_retvals 
  "Check mle_retvals", ConvergenceWarning)

Dalam [213]:

predictions_multi = model_fit.forecast( steps=len(test_multi))
c:\users\naveksha\appdata\local\programs\python\python37\lib\site-packages\statsmodels\tsa\base\tsa_model.py:320: 
   FutureWarning: Creating a DatetimeIndex by passing range endpoints is deprecated.  Use `pandas.date_range` instead.
   freq = base_index.freq)
c:\users\naveksha\appdata\local\programs\python\python37\lib\site-packages\statsmodels\tsa\statespace\varmax.py:152: 
   EstimationWarning: Estimation of VARMA(p,q) models is not generically robust, due especially to identification issues.
   EstimationWarning)

Dalam [231]:

plt.plot(train_multi['T'])
plt.plot(test_multi['T'])
plt.plot(predictions_multi.iloc[:,0:1], '--')
plt.show()

plt.plot(train_multi['C6H6(GT)'])
plt.plot(test_multi['C6H6(GT)'])
plt.plot(predictions_multi.iloc[:,1:2], '--')
plt.show()

Kode di atas menunjukkan bagaimana model VARMA dapat digunakan untuk membuat model deret waktu multivariasi, meskipun model ini mungkin tidak paling cocok pada data kami.

VARMA dengan Variabel Eksogen (VARMAX)

Ini adalah perpanjangan dari model VARMA di mana variabel tambahan yang disebut kovariat digunakan untuk memodelkan variabel utama yang kami minati.

Rata-rata Pergerakan Terintegrasi Regresif Otomatis Musiman (SARIMA)

Ini merupakan perpanjangan dari model ARIMA untuk menangani data musiman. Ini membagi data menjadi komponen musiman dan non-musiman dan memodelkannya dengan cara yang sama. Ini dicirikan oleh 7 parameter, untuk parameter bagian non-musiman (p, d, q) sama seperti untuk model ARIMA dan untuk parameter bagian musiman (P, D, Q, m) di mana 'm' adalah jumlah periode musiman dan P, D, Q mirip dengan parameter model ARIMA. Parameter ini dapat dikalibrasi menggunakan pencarian grid atau algoritma genetika.

SARIMA dengan Variabel Eksogen (SARIMAX)

Ini adalah perluasan dari model SARIMA untuk memasukkan variabel eksogen yang membantu kita memodelkan variabel yang kita minati.

Mungkin berguna untuk melakukan analisis relasi pada variabel sebelum menempatkannya sebagai variabel eksogen.

Dalam [251]:

from scipy.stats.stats import pearsonr
x = train_multi['T'].values
y = train_multi['C6H6(GT)'].values

corr , p = pearsonr(x,y)
print ('Corelation Coefficient =', corr,'\nP-Value =',p)
Corelation Coefficient = 0.9701173437269858
P-Value = 0.0

Korelasi Pearson menunjukkan adanya hubungan linier antara 2 variabel, untuk menginterpretasikan hasil pertama kita lihat p-value, jika kurang dari 0,05 maka nilai koefisien signifikan, selain itu nilai koefisien tidak signifikan. Untuk nilai p signifikan, nilai koefisien korelasi positif menunjukkan korelasi positif, dan nilai negatif menunjukkan korelasi negatif.

Oleh karena itu, untuk data kami, 'temperatur' dan 'C6H6' tampaknya memiliki korelasi yang sangat positif. Oleh karena itu, kami akan melakukannya

Dalam [297]:

from statsmodels.tsa.statespace.sarimax import SARIMAX

model = SARIMAX(x, exog = y, order = (2, 0, 2), seasonal_order = (2, 0, 1, 1), enforce_stationarity=False, enforce_invertibility = False)
model_fit = model.fit(disp = False)
c:\users\naveksha\appdata\local\programs\python\python37\lib\site-packages\statsmodels\base\model.py:508: 
   ConvergenceWarning: Maximum Likelihood optimization failed to converge. Check mle_retvals
   "Check mle_retvals", ConvergenceWarning)

Dalam [298]:

y_ = test_multi['C6H6(GT)'].values
predicted = model_fit.predict(exog=y_)
test_multi_ = pandas.DataFrame(test)
test_multi_['predictions'] = predicted[0:1871]

Dalam [299]:

plt.plot(train_multi['T'])
plt.plot(test_multi_['T'])
plt.plot(test_multi_.predictions, '--')

Keluar [299]:

[<matplotlib.lines.Line2D at 0x1eab0191c18>]

Prediksi di sini tampaknya mengambil variasi yang lebih besar sekarang dibandingkan dengan pemodelan ARIMA univariat.

Tak perlu dikatakan, SARIMAX dapat digunakan sebagai model ARX, MAX, ARMAX atau ARIMAX dengan hanya mengatur parameter yang sesuai ke nilai bukan nol.

Fractional Auto Regressive Integrated Moving Average (FARIMA)

Kadang-kadang, mungkin terjadi bahwa rangkaian kami tidak stasioner, namun membedakan dengan parameter 'd' yang mengambil nilai 1 dapat membuat perbedaan yang berlebihan. Jadi, kita perlu membedakan deret waktu menggunakan nilai pecahan.

Dalam dunia ilmu data tidak ada satu model yang unggul, model yang bekerja pada data Anda sangat bergantung pada kumpulan data Anda. Pengetahuan tentang berbagai model memungkinkan kami untuk memilih salah satu yang bekerja pada data kami dan bereksperimen dengan model tersebut untuk mencapai hasil terbaik. Dan hasil harus dilihat sebagai plot serta metrik kesalahan, kadang-kadang kesalahan kecil juga buruk, oleh karena itu, merencanakan dan memvisualisasikan hasil sangat penting.

Pada bab berikutnya, kita akan melihat model statistik lain, pemulusan eksponensial.

Dalam bab ini, kita akan membahas tentang teknik yang terlibat dalam pemulusan eksponensial deret waktu.

Pemulusan Eksponensial Sederhana

Pemulusan Eksponensial adalah teknik untuk menghaluskan deret waktu univariat dengan menetapkan bobot yang menurun secara eksponensial pada data selama periode waktu tertentu.

Secara matematis, nilai variabel pada waktu 't + 1' nilai yang diberikan pada waktu t, y_ (t + 1 | t) didefinisikan sebagai -

$$y_{t+1|t}\:=\:\alpha y_{t}\:+\:\alpha\lgroup1 -\alpha\rgroup y_{t-1}\:+\alpha\lgroup1-\alpha\rgroup^{2}\:y_{t-2}\:+\:...+y_{1}$$

dimana,$0\leq\alpha \leq1$ adalah parameter penghalusan, dan

$y_{1},....,y_{t}$ adalah nilai lalu lintas jaringan sebelumnya pada waktu 1, 2, 3,…, t.

Ini adalah metode sederhana untuk membuat model deret waktu tanpa tren atau kemusiman yang jelas. Tetapi pemulusan eksponensial juga dapat digunakan untuk deret waktu dengan tren dan kemusiman.

Pemulusan Eksponensial Tiga Kali Lipat

Triple Exponential Smoothing (TES) atau metode Holt's Winter, menerapkan pemulusan eksponensial tiga kali - pemulusan level $l_{t}$, perataan tren $b_{t}$, dan perataan musiman $S_{t}$, dengan $\alpha$, $\beta^{*}$ dan $\gamma$ sebagai parameter penghalusan dengan 'm' sebagai frekuensi kemusiman, yaitu jumlah musim dalam setahun.

Menurut sifat komponen musiman, TES memiliki dua kategori -

  • Holt-Winter's Additive Method - Ketika musim bersifat aditif.

  • Holt-Winter’s Multiplicative Method - Ketika musim bersifat multiplikatif.

Untuk deret waktu non-musiman, kami hanya memiliki penghalusan tren dan penghalusan level, yang disebut Metode Tren Linear Holt.

Mari kita coba menerapkan pemulusan eksponensial tiga kali lipat pada data kita.

Dalam [316]:

from statsmodels.tsa.holtwinters import ExponentialSmoothing

model = ExponentialSmoothing(train.values, trend= )
model_fit = model.fit()

Dalam [322]:

predictions_ = model_fit.predict(len(test))

Dalam [325]:

plt.plot(test.values)
plt.plot(predictions_[1:1871])

Keluar [325]:

[<matplotlib.lines.Line2D at 0x1eab00f1cf8>]

Di sini, kami telah melatih model satu kali dengan set pelatihan dan kemudian kami terus membuat prediksi. Pendekatan yang lebih realistis adalah melatih kembali model setelah satu atau beberapa langkah waktu. Karena kita mendapatkan prediksi waktu 't + 1' dari data latih 'til time' t ', maka prediksi waktu' t + 2 'selanjutnya dapat dilakukan dengan menggunakan data latih' til time 't + 1' sebagai nilai pada 't + 1' akan diketahui kemudian. Metodologi dalam membuat prediksi untuk satu atau beberapa langkah di masa mendatang dan kemudian melatih kembali model ini disebut perkiraan bergulir atau validasi berjalan ke depan.

Dalam pemodelan deret waktu, prediksi dari waktu ke waktu menjadi semakin kurang akurat dan karenanya merupakan pendekatan yang lebih realistis untuk melatih kembali model dengan data aktual saat tersedia untuk prediksi lebih lanjut. Karena pelatihan model statistik tidak memakan waktu, validasi walk-forward adalah solusi yang paling disukai untuk mendapatkan hasil yang paling akurat.

Mari kita menerapkan validasi satu langkah ke depan pada data kita dan membandingkannya dengan hasil yang kita dapatkan sebelumnya.

Dalam [333]:

prediction = []
data = train.values
for t In test.values:
   model = (ExponentialSmoothing(data).fit())
   y = model.predict()
   prediction.append(y[0])
   data = numpy.append(data, t)

Dalam [335]:

test_ = pandas.DataFrame(test)
test_['predictionswf'] = prediction

Dalam [341]:

plt.plot(test_['T'])
plt.plot(test_.predictionswf, '--')
plt.show()

Dalam [340]:

error = sqrt(metrics.mean_squared_error(test.values,prediction))
print ('Test RMSE for Triple Exponential Smoothing with Walk-Forward Validation: ', error)
Test RMSE for Triple Exponential Smoothing with Walk-Forward Validation:  11.787532205759442

Kami dapat melihat bahwa model kami berkinerja jauh lebih baik sekarang. Faktanya, tren diikuti begitu dekat sehingga prediksi di plot tumpang tindih dengan nilai sebenarnya. Anda juga dapat mencoba menerapkan validasi walk-forward pada model ARIMA.

Pada tahun 2017, Facebook open source model nabi yang mampu memodelkan deret waktu dengan banyak musim yang kuat di tingkat hari, tingkat minggu, tingkat tahun dll dan tren. Ini memiliki parameter intuitif yang dapat disetel oleh data scientist yang tidak terlalu ahli untuk perkiraan yang lebih baik. Pada intinya, ini adalah model regresi aditif yang dapat mendeteksi titik perubahan untuk memodelkan deret waktu.

Nabi menguraikan deret waktu menjadi komponen tren $g_{t}$, musim $S_{t}$ dan hari libur $h_{t}$.

$$y_{t}=g_{t}+s_{t}+h_{t}+\epsilon_{t}$$

Dimana, $\epsilon_{t}$ adalah istilah kesalahan.

Paket serupa untuk peramalan deret waktu seperti dampak sebab akibat dan deteksi anomali diperkenalkan di R oleh google dan twitter.

Sekarang, kita sudah familiar dengan pemodelan statistik pada deret waktu, tetapi pembelajaran mesin sedang populer saat ini, jadi penting untuk juga memahami beberapa model pembelajaran mesin. Kita akan mulai dengan model yang paling populer dalam domain deret waktu - Model Memori Jangka Pendek.

LSTM adalah kelas jaringan saraf berulang. Jadi sebelum kita dapat beralih ke LSTM, penting untuk memahami jaringan saraf dan jaringan saraf berulang.

Jaringan Neural

Jaringan saraf tiruan adalah struktur berlapis dari neuron yang terhubung, yang terinspirasi oleh jaringan saraf biologis. Ini bukan hanya satu algoritma tetapi kombinasi dari berbagai algoritma yang memungkinkan kita untuk melakukan operasi kompleks pada data.

Jaringan Neural Berulang

Ini adalah kelas jaringan saraf yang disesuaikan untuk menangani data temporal. Neuron RNN memiliki keadaan sel / memori, dan input diproses sesuai dengan keadaan internal ini, yang dicapai dengan bantuan loop di jaringan saraf. Ada modul berulang dari lapisan 'tanh' di RNN yang memungkinkan mereka untuk menyimpan informasi. Namun, tidak untuk waktu yang lama, itulah sebabnya kami membutuhkan model LSTM.

LSTM

Ini adalah jenis jaringan saraf berulang khusus yang mampu mempelajari ketergantungan jangka panjang dalam data. Hal ini dicapai karena modul model berulang memiliki kombinasi empat lapisan yang saling berinteraksi.

Gambar di atas menggambarkan empat lapisan jaringan saraf dalam kotak kuning, operator titik bijaksana dalam lingkaran hijau, masukan dalam lingkaran kuning dan status sel dalam lingkaran biru. Modul LSTM memiliki status sel dan tiga gerbang yang memberi mereka kekuatan untuk secara selektif mempelajari, melepaskan atau menyimpan informasi dari masing-masing unit. Status sel di LSTM membantu informasi mengalir melalui unit tanpa diubah dengan hanya mengizinkan beberapa interaksi linier. Setiap unit memiliki input, output, dan gerbang lupa yang dapat menambah atau menghapus informasi ke status sel. Gerbang lupa memutuskan informasi mana dari keadaan sel sebelumnya yang harus dilupakan yang menggunakan fungsi sigmoid. Gerbang masukan mengontrol aliran informasi ke keadaan sel saat ini menggunakan operasi perkalian titik bijak masing-masing 'sigmoid' dan 'tanh'. Akhirnya, gerbang keluaran memutuskan informasi mana yang harus diteruskan ke keadaan tersembunyi berikutnya

Sekarang kita telah memahami cara kerja internal model LSTM, mari kita terapkan. Untuk memahami penerapan LSTM, kita akan mulai dengan contoh sederhana - garis lurus. Mari kita lihat, apakah LSTM dapat mempelajari hubungan garis lurus dan memprediksinya.

Pertama mari kita buat dataset yang menggambarkan garis lurus.

Dalam [402]:

x = numpy.arange (1,500,1)
y = 0.4 * x + 30
plt.plot(x,y)

Keluar [402]:

[<matplotlib.lines.Line2D at 0x1eab9d3ee10>]

Dalam [403]:

trainx, testx = x[0:int(0.8*(len(x)))], x[int(0.8*(len(x))):]
trainy, testy = y[0:int(0.8*(len(y)))], y[int(0.8*(len(y))):]
train = numpy.array(list(zip(trainx,trainy)))
test = numpy.array(list(zip(trainx,trainy)))

Sekarang data telah dibuat dan dipecah menjadi train and test. Mari kita ubah data deret waktu ke dalam bentuk data pembelajaran terbimbing sesuai dengan nilai periode lihat-balik, yang pada dasarnya adalah jumlah kelambatan yang terlihat untuk memprediksi nilai pada waktu 't'.

Jadi deret waktu seperti ini -

time variable_x
t1  x1
t2  x2
 :   :
 :   :
T   xT

Jika periode lihat-balik adalah 1, diubah menjadi -

x1   x2
x2   x3
 :    :
 :    :
xT-1 xT

Dalam [404]:

def create_dataset(n_X, look_back):
   dataX, dataY = [], []
   for i in range(len(n_X)-look_back):
      a = n_X[i:(i+look_back), ]
      dataX.append(a)
      dataY.append(n_X[i + look_back, ])
   return numpy.array(dataX), numpy.array(dataY)

Dalam [405]:

look_back = 1
trainx,trainy = create_dataset(train, look_back)
testx,testy = create_dataset(test, look_back)

trainx = numpy.reshape(trainx, (trainx.shape[0], 1, 2))
testx = numpy.reshape(testx, (testx.shape[0], 1, 2))

Sekarang kita akan melatih model kita.

Sekumpulan kecil data pelatihan ditampilkan ke jaringan, satu proses ketika seluruh data pelatihan ditampilkan ke model dalam batch dan kesalahan dihitung disebut epoch. Epochs harus dijalankan sampai saat error berkurang.

Di [ ]:

from keras.models import Sequential
from keras.layers import LSTM, Dense

model = Sequential()
model.add(LSTM(256, return_sequences = True, input_shape = (trainx.shape[1], 2)))
model.add(LSTM(128,input_shape = (trainx.shape[1], 2)))
model.add(Dense(2))
model.compile(loss = 'mean_squared_error', optimizer = 'adam')
model.fit(trainx, trainy, epochs = 2000, batch_size = 10, verbose = 2, shuffle = False)
model.save_weights('LSTMBasic1.h5')

Dalam [407]:

model.load_weights('LSTMBasic1.h5')
predict = model.predict(testx)

Sekarang mari kita lihat seperti apa prediksi kita.

Dalam [408]:

plt.plot(testx.reshape(398,2)[:,0:1], testx.reshape(398,2)[:,1:2])
plt.plot(predict[:,0:1], predict[:,1:2])

Keluar [408]:

[<matplotlib.lines.Line2D at 0x1eac792f048>]

Sekarang, kita harus mencoba dan membuat model gelombang sinus atau cosinus dengan cara yang sama. Anda dapat menjalankan kode yang diberikan di bawah ini dan bermain dengan parameter model untuk melihat bagaimana hasil berubah.

Dalam [409]:

x = numpy.arange (1,500,1)
y = numpy.sin(x)
plt.plot(x,y)

Keluar [409]:

[<matplotlib.lines.Line2D at 0x1eac7a0b3c8>]

Dalam [410]:

trainx, testx = x[0:int(0.8*(len(x)))], x[int(0.8*(len(x))):]
trainy, testy = y[0:int(0.8*(len(y)))], y[int(0.8*(len(y))):]
train = numpy.array(list(zip(trainx,trainy)))
test = numpy.array(list(zip(trainx,trainy)))

Dalam [411]:

look_back = 1
trainx,trainy = create_dataset(train, look_back)
testx,testy = create_dataset(test, look_back)
trainx = numpy.reshape(trainx, (trainx.shape[0], 1, 2))
testx = numpy.reshape(testx, (testx.shape[0], 1, 2))

Di [ ]:

model = Sequential()
model.add(LSTM(512, return_sequences = True, input_shape = (trainx.shape[1], 2)))
model.add(LSTM(256,input_shape = (trainx.shape[1], 2)))
model.add(Dense(2))
model.compile(loss = 'mean_squared_error', optimizer = 'adam')
model.fit(trainx, trainy, epochs = 2000, batch_size = 10, verbose = 2, shuffle = False)
model.save_weights('LSTMBasic2.h5')

Dalam [413]:

model.load_weights('LSTMBasic2.h5')
predict = model.predict(testx)

Dalam [415]:

plt.plot(trainx.reshape(398,2)[:,0:1], trainx.reshape(398,2)[:,1:2])
plt.plot(predict[:,0:1], predict[:,1:2])

Keluar [415]:

[<matplotlib.lines.Line2D at 0x1eac7a1f550>]

Sekarang Anda siap untuk beralih ke kumpulan data apa pun.

Penting bagi kami untuk mengukur kinerja model untuk digunakan sebagai umpan balik dan perbandingan. Dalam tutorial ini kami telah menggunakan salah satu metrik error yang paling populer berarti root mean squared error. Ada berbagai metrik kesalahan lain yang tersedia. Bab ini membahasnya secara singkat.

Mean Square Error

Ini adalah rata-rata selisih kuadrat antara nilai prediksi dan nilai sebenarnya. Sklearn menyediakannya sebagai fungsi. Ini memiliki unit yang sama dengan nilai benar dan prediksi kuadrat dan selalu positif.

$$MSE = \frac{1}{n} \displaystyle\sum\limits_{t=1}^n \lgroup y'_{t}\:-y_{t}\rgroup^{2}$$

Dimana $y'_{t}$ adalah nilai prediksi,

$y_{t}$ adalah nilai sebenarnya, dan

n adalah jumlah total nilai dalam set pengujian.

Jelas dari persamaan bahwa MSE lebih menghukum untuk kesalahan yang lebih besar, atau pencilan.

Root Mean Square Error

Ini adalah akar kuadrat dari kesalahan kuadrat rata-rata. Itu juga selalu positif dan berada dalam kisaran data.

$$RMSE = \sqrt{\frac{1}{n} \displaystyle\sum\limits_{t=1}^n \lgroup y'_{t}-y_{t}\rgroup ^2}$$

Dimana, $y'_{t}$ adalah nilai prediksi

$y_{t}$ adalah nilai sebenarnya, dan

n adalah jumlah total nilai dalam set pengujian.

Ini adalah kekuatan persatuan dan karenanya lebih dapat ditafsirkan dibandingkan dengan MSE. RMSE juga lebih memberi sanksi untuk kesalahan yang lebih besar. Kami telah menggunakan metrik RMSE dalam tutorial kami.

Kesalahan Mutlak Berarti

Ini adalah rata-rata perbedaan absolut antara nilai prediksi dan nilai sebenarnya. Ini memiliki unit yang sama dengan nilai prediksi dan nilai sebenarnya dan selalu positif.

$$MAE = \frac{1}{n}\displaystyle\sum\limits_{t=1}^{t=n} | y'{t}-y_{t}\lvert$$

Dimana, $y'_{t}$ adalah nilai prediksi,

$y_{t}$ adalah nilai sebenarnya, dan

n adalah jumlah total nilai dalam set pengujian.

Persentase Kesalahan Rata-rata

Ini adalah persentase rata-rata perbedaan absolut antara nilai prediksi dan nilai sebenarnya, dibagi dengan nilai sebenarnya.

$$MAPE = \frac{1}{n}\displaystyle\sum\limits_{t=1}^n\frac{y'_{t}-y_{t}}{y_{t}}*100\: \%$$

Dimana, $y'_{t}$ adalah nilai prediksi,

$y_{t}$ adalah nilai aktual dan n adalah jumlah total nilai dalam set pengujian.

Namun, kerugian menggunakan kesalahan ini adalah kesalahan positif dan kesalahan negatif dapat saling mengimbangi. Oleh karena itu, kesalahan persentase absolut rata-rata digunakan.

Rata-rata Kesalahan Persentase Mutlak

Ini adalah persentase rata-rata perbedaan absolut antara nilai prediksi dan nilai sebenarnya, dibagi dengan nilai sebenarnya.

$$MAPE = \frac{1}{n}\displaystyle\sum\limits_{t=1}^n\frac{|y'_{t}-y_{t}\lvert}{y_{t}}*100\: \%$$

Dimana $y'_{t}$ adalah nilai prediksi

$y_{t}$ adalah nilai sebenarnya, dan

n adalah jumlah total nilai dalam set pengujian.

Kita membahas analisis deret waktu dalam tutorial ini, yang telah memberi kita pemahaman bahwa model deret waktu pertama-tama mengenali tren dan kemusiman dari pengamatan yang ada dan kemudian memperkirakan nilai berdasarkan tren dan kemusiman ini. Analisis semacam itu berguna di berbagai bidang seperti -

  • Financial Analysis - Ini termasuk peramalan penjualan, analisis inventaris, analisis pasar saham, estimasi harga.

  • Weather Analysis - Ini termasuk perkiraan suhu, perubahan iklim, pengenalan pergeseran musiman, prakiraan cuaca.

  • Network Data Analysis - Ini termasuk prediksi penggunaan jaringan, anomali atau deteksi intrusi, pemeliharaan prediktif.

  • Healthcare Analysis - Ini termasuk prediksi sensus, prediksi manfaat asuransi, pemantauan pasien.

Pembelajaran mesin menangani berbagai jenis masalah. Faktanya, hampir semua bidang memiliki ruang lingkup untuk diotomatiskan atau ditingkatkan dengan bantuan pembelajaran mesin. Beberapa masalah di mana banyak pekerjaan sedang dilakukan diberikan di bawah ini.

Data Rangkaian Waktu

Ini adalah data yang berubah menurut waktu, dan karenanya waktu memainkan peran penting di dalamnya, yang sebagian besar telah kita bahas dalam tutorial ini.

Data Deret Non-Waktu

Ini adalah data yang tidak bergantung pada waktu, dan sebagian besar masalah ML ada pada data seri non-waktu. Untuk kesederhanaan, kami akan mengkategorikannya lebih lanjut sebagai -

  • Numerical Data - Komputer, tidak seperti manusia, hanya memahami angka, jadi semua jenis data pada akhirnya diubah menjadi data numerik untuk pembelajaran mesin, misalnya, data gambar diubah menjadi nilai (r, b, g), karakter diubah menjadi kode ASCII atau kata-kata diindeks ke angka, data ucapan diubah ke file mfcc yang berisi data numerik.

  • Image Data - Visi komputer telah merevolusi dunia komputer, memiliki berbagai aplikasi di bidang kedokteran, pencitraan satelit, dll.

  • Text Data- Natural Language Processing (NLP) digunakan untuk klasifikasi teks, deteksi parafrase, dan peringkasan bahasa. Inilah yang membuat Google dan Facebook pintar.

  • Speech Data- Pemrosesan Ucapan melibatkan pengenalan ucapan dan pemahaman sentimen. Ini memainkan peran penting dalam memberikan komputer kualitas seperti manusia.