समय श्रृंखला - ARIMA
हम पहले ही समझ चुके हैं कि स्थिर समय श्रृंखला के लिए समय पर एक चर 't' पूर्व टिप्पणियों या अवशिष्ट त्रुटियों का एक रैखिक कार्य है। इसलिए यह हमारे लिए दोनों को मिलाने का समय है और ऑटो-रिग्रेसिव मूविंग एवरेज (ARMA) मॉडल है।
हालाँकि, कई बार समय श्रृंखला स्थिर नहीं होती है, अर्थात समय की तरह श्रृंखला के सांख्यिकीय गुण, समय के साथ विचरण बदलते हैं। और अभी तक हमने जिन सांख्यिकीय मॉडलों का अध्ययन किया है, वे समय श्रृंखला को स्थिर मानते हैं, इसलिए, हम इसे स्थिर बनाने के लिए समय श्रृंखला में अंतर करने के पूर्व-प्रसंस्करण कदम को शामिल कर सकते हैं। अब, हमारे लिए यह पता लगाना महत्वपूर्ण है कि हम जिस समय श्रृंखला के साथ काम कर रहे हैं वह स्थिर है या नहीं।
टाइम सीरीज़ की स्थिरता का पता लगाने के लिए कई तरीके सीज़न की साजिश या टाइम सीरीज़ के चलन की तलाश कर रहे हैं, विभिन्न समय अवधि के लिए माध्य और भिन्नता की जाँच कर रहे हैं, ऑगमेंटेड डिकी-फुलर (एडीएफ) टेस्ट, केपीएसएस टेस्ट, हर्स्ट्स एक्सपोनेंट आदि। ।
आइए हम देखें कि हमारे डेटासेट का 'तापमान' वेरिएबल एक स्थिर समय श्रृंखला है या ADF परीक्षण का उपयोग नहीं कर रहा है।
[74४] में:
from statsmodels.tsa.stattools import adfuller
result = adfuller(train)
print('ADF Statistic: %f' % result[0])
print('p-value: %f' % result[1])
print('Critical Values:')
for key, value In result[4].items()
print('\t%s: %.3f' % (key, value))
ADF सांख्यिकी: -10.406056
पी-मूल्य: 0.000000
महत्वपूर्ण मान:
1%: -3.431
5%: -2.862
10%: -2.567
अब जब हमने ADF परीक्षण चलाया है, तो परिणाम की व्याख्या करते हैं। पहले हम ADF स्टेटिस्टिक की तुलना महत्वपूर्ण मूल्यों के साथ करेंगे, एक कम महत्वपूर्ण मान बताता है कि श्रृंखला सबसे अधिक गैर-स्थिर है। अगला, हम पी-मूल्य देखते हैं। 0.05 से अधिक का पी-मान यह भी बताता है कि समय श्रृंखला गैर-स्थिर है।
वैकल्पिक रूप से, पी-मान 0.05 से कम या उसके बराबर है, या महत्वपूर्ण मानों से कम एडीएफ सांख्यिकीय सुझाव देते हैं कि समय श्रृंखला स्थिर है।
इसलिए, जिस समय श्रृंखला के साथ हम काम कर रहे हैं वह पहले से ही स्थिर है। स्थिर समय श्रृंखला के मामले में, हम 'डी' पैरामीटर को 0 के रूप में सेट करते हैं।
हम हर्स्ट एक्सपोनेंट का उपयोग करके समय श्रृंखला की स्थिरता की भी पुष्टि कर सकते हैं।
[75५] में:
import hurst
H, c,data = hurst.compute_Hc(train)
print("H = {:.4f}, c = {:.4f}".format(H,c))
एच = 0.1660, सी = 5.0740
एच <0.5 का मूल्य विरोधी-स्थायी व्यवहार दिखाता है, और एच> 0.5 लगातार व्यवहार या एक ट्रेंडिंग श्रृंखला को दर्शाता है। H = 0.5 यादृच्छिक चलना / ब्राउनियन गति दिखाता है। एच <0.5 का मूल्य, यह पुष्टि करता है कि हमारी श्रृंखला स्थिर है।
गैर-स्थिर समय श्रृंखला के लिए, हम 'd' पैरामीटर को 1 के रूप में सेट करते हैं। इसके अलावा, ऑटो-रिग्रेसिव ट्रेंड पैरामीटर 'p' और 'मूविंग एवरेज ट्रेंड' पैरामीटर 'q' का मान, स्थिर समय श्रृंखला पर यानी प्लॉटिंग द्वारा परिकलित किया जाता है। समय श्रृंखला में अंतर करने के बाद एसीपी और पीएसीपी।
ARIMA मॉडल, जो 3 पैरामीटर द्वारा विशेषता है, (p, d, q) अब हमारे लिए स्पष्ट हैं, इसलिए हम अपनी समय श्रृंखला को मॉडल करें और तापमान के भविष्य के मूल्यों की भविष्यवाणी करें।
[१५६] में:
from statsmodels.tsa.arima_model import ARIMA
model = ARIMA(train.values, order=(5, 0, 2))
model_fit = model.fit(disp=False)
[१५ In] में:
predictions = model_fit.predict(len(test))
test_ = pandas.DataFrame(test)
test_['predictions'] = predictions[0:1871]
[158] में:
plt.plot(df['T'])
plt.plot(test_.predictions)
plt.show()
[१६]] में:
error = sqrt(metrics.mean_squared_error(test.values,predictions[0:1871]))
print ('Test RMSE for ARIMA: ', error)
ARIMA के लिए टेस्ट RMSE: 43.21252940234892