समय श्रृंखला - ARIMA के परिवर्तन
पिछले अध्याय में, अब हमने देखा है कि ARIMA मॉडल कैसे काम करता है, और इसकी सीमाएँ जो इसे मौसमी डेटा या बहुभिन्नरूपी श्रृंखला को नहीं संभाल सकती हैं और इसलिए, इन विशेषताओं को शामिल करने के लिए नए मॉडल पेश किए गए थे।
इन नए मॉडलों की एक झलक यहां दी गई है -
वेक्टर ऑटो-प्रतिगमन (VAR)
यह बहुभिन्नरूपी स्थिर समय श्रृंखला के लिए ऑटो प्रतिगमन मॉडल का एक सामान्यीकृत संस्करण है। यह 'पी' पैरामीटर की विशेषता है।
वेक्टर मूविंग एवरेज (VMA)
यह बहुभिन्नरूपी स्थिर समय श्रृंखला के लिए चलती औसत मॉडल का एक सामान्यीकृत संस्करण है। यह 'क्ष' पैरामीटर की विशेषता है।
वेक्टर ऑटो प्रतिगमन मूविंग औसत (VARMA)
यह VAR और VMA का संयोजन और बहुभिन्नरूपी स्थिर श्रृंखला के लिए ARMA मॉडल का एक सामान्यीकृत संस्करण है। यह 'पी' और 'क्यू' मापदंडों की विशेषता है। बहुत कुछ, ARMA 0 के रूप में 'q' पैरामीटर सेट करके AR मॉडल की तरह कार्य करने में सक्षम है और 'p' पैरामीटर 0 के रूप में सेट करके MA मॉडल के रूप में, VARMA भी 'q' पैरामीटर सेट करके VAR मॉडल की तरह कार्य करने में सक्षम है। 0 के रूप में और 0 के रूप में 'पी' पैरामीटर सेट करके एक VMA मॉडल के रूप में।
[२० ९] में:
df_multi = df[['T', 'C6H6(GT)']]
split = len(df) - int(0.2*len(df))
train_multi, test_multi = df_multi[0:split], df_multi[split:]
[211] में:
from statsmodels.tsa.statespace.varmax import VARMAX
model = VARMAX(train_multi, order = (2,1))
model_fit = model.fit()
c:\users\naveksha\appdata\local\programs\python\python37\lib\site-packages\statsmodels\tsa\statespace\varmax.py:152:
EstimationWarning: Estimation of VARMA(p,q) models is not generically robust,
due especially to identification issues.
EstimationWarning)
c:\users\naveksha\appdata\local\programs\python\python37\lib\site-packages\statsmodels\tsa\base\tsa_model.py:171:
ValueWarning: No frequency information was provided, so inferred frequency H will be used.
% freq, ValueWarning)
c:\users\naveksha\appdata\local\programs\python\python37\lib\site-packages\statsmodels\base\model.py:508:
ConvergenceWarning: Maximum Likelihood optimization failed to converge. Check mle_retvals
"Check mle_retvals", ConvergenceWarning)
[213] में:
predictions_multi = model_fit.forecast( steps=len(test_multi))
c:\users\naveksha\appdata\local\programs\python\python37\lib\site-packages\statsmodels\tsa\base\tsa_model.py:320:
FutureWarning: Creating a DatetimeIndex by passing range endpoints is deprecated. Use `pandas.date_range` instead.
freq = base_index.freq)
c:\users\naveksha\appdata\local\programs\python\python37\lib\site-packages\statsmodels\tsa\statespace\varmax.py:152:
EstimationWarning: Estimation of VARMA(p,q) models is not generically robust, due especially to identification issues.
EstimationWarning)
[२३१] में:
plt.plot(train_multi['T'])
plt.plot(test_multi['T'])
plt.plot(predictions_multi.iloc[:,0:1], '--')
plt.show()
plt.plot(train_multi['C6H6(GT)'])
plt.plot(test_multi['C6H6(GT)'])
plt.plot(predictions_multi.iloc[:,1:2], '--')
plt.show()
उपरोक्त कोड दिखाता है कि कैसे VARMA मॉडल का उपयोग मल्टीवीरेट टाइम श्रृंखला के मॉडल के लिए किया जा सकता है, हालांकि यह मॉडल हमारे डेटा पर सबसे उपयुक्त नहीं हो सकता है।
VARMA के साथ बहिर्जात चर (VARMAX)
यह VARMA मॉडल का एक विस्तार है जहाँ अतिरिक्त चर जिसे covariates कहा जाता है का उपयोग उस प्राथमिक चर को मॉडल करने के लिए किया जाता है जिसे हम रुचि रखते हैं।
मौसमी ऑटो प्रतिगामी एकीकृत चलती औसत (SARIMA)
यह मौसमी डेटा से निपटने के लिए ARIMA मॉडल का विस्तार है। यह मौसमी और गैर-मौसमी घटकों में डेटा को विभाजित करता है और उन्हें एक समान फैशन में मॉडल करता है। यह गैर-मौसमी भाग (पी, डी, क्यू) पैरामीटर के लिए ARIMA मॉडल के समान है और मौसमी भाग (P, D, Q, m) के मापदंडों के लिए समान है, जहां 'm' मौसमी अवधियों की संख्या है और P, D, Q ARIMA मॉडल के मापदंडों के समान हैं। ग्रिड खोज या आनुवंशिक एल्गोरिथ्म का उपयोग करके इन मापदंडों को कैलिब्रेट किया जा सकता है।
बहिर्जात चर के साथ SARIMA (SARIMAX)
यह बहिर्जात चर को शामिल करने के लिए SARIMA मॉडल का विस्तार है जो हमें उस चर को मॉडल करने में मदद करता है जिसमें हम रुचि रखते हैं।
यह बहिर्जात चर के रूप में डालने से पहले चर पर एक सह-संबंध विश्लेषण करने के लिए उपयोगी हो सकता है।
[२५१] में:
from scipy.stats.stats import pearsonr
x = train_multi['T'].values
y = train_multi['C6H6(GT)'].values
corr , p = pearsonr(x,y)
print ('Corelation Coefficient =', corr,'\nP-Value =',p)
Corelation Coefficient = 0.9701173437269858
P-Value = 0.0
पियर्सन के सहसंबंध 2 चर के बीच एक रैखिक संबंध दिखाता है, परिणामों की व्याख्या करने के लिए, हम पहले पी-मूल्य को देखते हैं, अगर यह कम है कि 0.05 तो गुणांक का मूल्य महत्वपूर्ण है, अन्यथा गुणांक का मूल्य महत्वपूर्ण नहीं है। महत्वपूर्ण पी-मूल्य के लिए, सहसंबंध गुणांक का एक सकारात्मक मूल्य सकारात्मक सहसंबंध को इंगित करता है, और एक नकारात्मक मूल्य एक नकारात्मक सहसंबंध को इंगित करता है।
इसलिए, हमारे डेटा के लिए, 'तापमान' और 'C6H6' एक अत्यधिक सकारात्मक सहसंबंध है। इसलिए, हम करेंगे
[२ ९]] में:
from statsmodels.tsa.statespace.sarimax import SARIMAX
model = SARIMAX(x, exog = y, order = (2, 0, 2), seasonal_order = (2, 0, 1, 1), enforce_stationarity=False, enforce_invertibility = False)
model_fit = model.fit(disp = False)
c:\users\naveksha\appdata\local\programs\python\python37\lib\site-packages\statsmodels\base\model.py:508:
ConvergenceWarning: Maximum Likelihood optimization failed to converge. Check mle_retvals
"Check mle_retvals", ConvergenceWarning)
[298] में:
y_ = test_multi['C6H6(GT)'].values
predicted = model_fit.predict(exog=y_)
test_multi_ = pandas.DataFrame(test)
test_multi_['predictions'] = predicted[0:1871]
[२ ९९] में:
plt.plot(train_multi['T'])
plt.plot(test_multi_['T'])
plt.plot(test_multi_.predictions, '--')
आउट [299]:
[<matplotlib.lines.Line2D at 0x1eab0191c18>]
ARIMA मॉडलिंग का विरोध करने के रूप में यहां की भविष्यवाणियां अब बड़े बदलाव लेती दिख रही हैं।
कहने की जरूरत नहीं है, SARIMAX का उपयोग ARX, MAX, ARMAX या ARIMAX मॉडल के रूप में किया जा सकता है, जो गैर-शून्य मानों के लिए केवल संबंधित पैरामीटर सेट करके है।
आंशिक ऑटो प्रतिगामी एकीकृत चलती औसत (FARIMA)
कई बार ऐसा हो सकता है कि हमारी श्रृंखला स्थिर न हो, फिर भी मान 1 के 'd' पैरामीटर के साथ अंतर करने से इसमें अंतर आ सकता है। इसलिए, हमें एक भिन्नात्मक मूल्य का उपयोग करके समय श्रृंखला में अंतर करने की आवश्यकता है।
डेटा विज्ञान की दुनिया में कोई भी बेहतर मॉडल नहीं है, आपके डेटा पर काम करने वाला मॉडल आपके डेटासेट पर बहुत निर्भर करता है। विभिन्न मॉडलों का ज्ञान हमें एक ऐसा विकल्प चुनने की अनुमति देता है जो हमारे डेटा पर काम करता है और सर्वोत्तम परिणाम प्राप्त करने के लिए उस मॉडल के साथ प्रयोग करता है। और परिणामों को साजिश के साथ-साथ त्रुटि मैट्रिक्स के रूप में भी देखा जाना चाहिए, कई बार एक छोटी सी त्रुटि भी खराब हो सकती है, इसलिए, परिणामों की साजिश करना और कल्पना करना आवश्यक है।
अगले अध्याय में, हम एक और सांख्यिकीय मॉडल, घातीय चौरसाई को देख रहे हैं।