समय श्रृंखला - ARIMA

हम पहले ही समझ चुके हैं कि स्थिर समय श्रृंखला के लिए समय पर एक चर 't' पूर्व टिप्पणियों या अवशिष्ट त्रुटियों का एक रैखिक कार्य है। इसलिए यह हमारे लिए दोनों को मिलाने का समय है और ऑटो-रिग्रेसिव मूविंग एवरेज (ARMA) मॉडल है।

हालाँकि, कई बार समय श्रृंखला स्थिर नहीं होती है, अर्थात समय की तरह श्रृंखला के सांख्यिकीय गुण, समय के साथ विचरण बदलते हैं। और अभी तक हमने जिन सांख्यिकीय मॉडलों का अध्ययन किया है, वे समय श्रृंखला को स्थिर मानते हैं, इसलिए, हम इसे स्थिर बनाने के लिए समय श्रृंखला में अंतर करने के पूर्व-प्रसंस्करण कदम को शामिल कर सकते हैं। अब, हमारे लिए यह पता लगाना महत्वपूर्ण है कि हम जिस समय श्रृंखला के साथ काम कर रहे हैं वह स्थिर है या नहीं।

टाइम सीरीज़ की स्थिरता का पता लगाने के लिए कई तरीके सीज़न की साजिश या टाइम सीरीज़ के चलन की तलाश कर रहे हैं, विभिन्न समय अवधि के लिए माध्य और भिन्नता की जाँच कर रहे हैं, ऑगमेंटेड डिकी-फुलर (एडीएफ) टेस्ट, केपीएसएस टेस्ट, हर्स्ट्स एक्सपोनेंट आदि। ।

आइए हम देखें कि हमारे डेटासेट का 'तापमान' वेरिएबल एक स्थिर समय श्रृंखला है या ADF परीक्षण का उपयोग नहीं कर रहा है।

[74४] में:

from statsmodels.tsa.stattools import adfuller

result = adfuller(train)
print('ADF Statistic: %f' % result[0])
print('p-value: %f' % result[1])
print('Critical Values:')
for key, value In result[4].items()
   print('\t%s: %.3f' % (key, value))

ADF सांख्यिकी: -10.406056

पी-मूल्य: 0.000000

महत्वपूर्ण मान:

1%: -3.431

5%: -2.862

10%: -2.567

अब जब हमने ADF परीक्षण चलाया है, तो परिणाम की व्याख्या करते हैं। पहले हम ADF स्टेटिस्टिक की तुलना महत्वपूर्ण मूल्यों के साथ करेंगे, एक कम महत्वपूर्ण मान बताता है कि श्रृंखला सबसे अधिक गैर-स्थिर है। अगला, हम पी-मूल्य देखते हैं। 0.05 से अधिक का पी-मान यह भी बताता है कि समय श्रृंखला गैर-स्थिर है।

वैकल्पिक रूप से, पी-मान 0.05 से कम या उसके बराबर है, या महत्वपूर्ण मानों से कम एडीएफ सांख्यिकीय सुझाव देते हैं कि समय श्रृंखला स्थिर है।

इसलिए, जिस समय श्रृंखला के साथ हम काम कर रहे हैं वह पहले से ही स्थिर है। स्थिर समय श्रृंखला के मामले में, हम 'डी' पैरामीटर को 0 के रूप में सेट करते हैं।

हम हर्स्ट एक्सपोनेंट का उपयोग करके समय श्रृंखला की स्थिरता की भी पुष्टि कर सकते हैं।

[75५] में:

import hurst

H, c,data = hurst.compute_Hc(train)
print("H = {:.4f}, c = {:.4f}".format(H,c))

एच = 0.1660, सी = 5.0740

एच <0.5 का मूल्य विरोधी-स्थायी व्यवहार दिखाता है, और एच> 0.5 लगातार व्यवहार या एक ट्रेंडिंग श्रृंखला को दर्शाता है। H = 0.5 यादृच्छिक चलना / ब्राउनियन गति दिखाता है। एच <0.5 का मूल्य, यह पुष्टि करता है कि हमारी श्रृंखला स्थिर है।

गैर-स्थिर समय श्रृंखला के लिए, हम 'd' पैरामीटर को 1 के रूप में सेट करते हैं। इसके अलावा, ऑटो-रिग्रेसिव ट्रेंड पैरामीटर 'p' और 'मूविंग एवरेज ट्रेंड' पैरामीटर 'q' का मान, स्थिर समय श्रृंखला पर यानी प्लॉटिंग द्वारा परिकलित किया जाता है। समय श्रृंखला में अंतर करने के बाद एसीपी और पीएसीपी।

ARIMA मॉडल, जो 3 पैरामीटर द्वारा विशेषता है, (p, d, q) अब हमारे लिए स्पष्ट हैं, इसलिए हम अपनी समय श्रृंखला को मॉडल करें और तापमान के भविष्य के मूल्यों की भविष्यवाणी करें।

[१५६] में:

from statsmodels.tsa.arima_model import ARIMA

model = ARIMA(train.values, order=(5, 0, 2))
model_fit = model.fit(disp=False)

[१५ In] में:

predictions = model_fit.predict(len(test))
test_ = pandas.DataFrame(test)
test_['predictions'] = predictions[0:1871]

[158] में:

plt.plot(df['T'])
plt.plot(test_.predictions)
plt.show()

[१६]] में:

error = sqrt(metrics.mean_squared_error(test.values,predictions[0:1871]))
print ('Test RMSE for ARIMA: ', error)

ARIMA के लिए टेस्ट RMSE: 43.21252940234892