समय श्रृंखला - त्वरित गाइड
एक समय श्रृंखला एक निश्चित अवधि में टिप्पणियों का एक क्रम है। एक एकल समय श्रृंखला एक अवधि में आवधिक समय उदाहरणों पर एक एकल चर द्वारा लिए गए मानों से युक्त होती है, और एक बहुभिन्नरूपी श्रृंखला श्रृंखला में एक अवधि में एक ही आवधिक समय उदाहरणों पर कई चर द्वारा लिए गए मान शामिल होते हैं। एक समय श्रृंखला का सबसे सरल उदाहरण जो हम सभी को एक दिन में दिन के आधार पर मिलता है वह है दिन या सप्ताह या महीने या साल भर के तापमान में बदलाव।
टेम्पोरल डेटा का विश्लेषण हमें उपयोगी अंतर्दृष्टि देने में सक्षम है कि समय के साथ एक चर कैसे बदलता है, या यह कैसे दूसरे चर (ओं) के मूल्यों में परिवर्तन पर निर्भर करता है। अपने पिछले मूल्यों और / या अन्य चर पर एक चर के इस संबंध का विश्लेषण समय श्रृंखला पूर्वानुमान के लिए किया जा सकता है और इसमें कृत्रिम बुद्धिमत्ता के कई अनुप्रयोग हैं।
मशीन सीखने की समस्याओं के साथ काम करने या विकसित करने के लिए उपयोगकर्ता के लिए किसी भी प्रोग्रामिंग भाषा की बुनियादी समझ आवश्यक है। जो भी मशीन लर्निंग पर काम करना चाहते हैं, उनके लिए पसंदीदा प्रोग्रामिंग भाषाओं की एक सूची नीचे दी गई है -
अजगर
यह एक उच्च-स्तरीय व्याख्या की गई प्रोग्रामिंग भाषा है, जो कोड के लिए तेज़ और आसान है। पायथन या तो प्रक्रियात्मक या वस्तु-उन्मुख प्रोग्रामिंग प्रतिमानों का पालन कर सकता है। विभिन्न पुस्तकालयों की उपस्थिति जटिल प्रक्रियाओं के कार्यान्वयन को सरल बनाती है। इस ट्यूटोरियल में, हम पायथन में कोडिंग करेंगे और आगामी श्रृंखलाओं के लिए समय श्रृंखला मॉडलिंग के लिए उपयोगी इसी पुस्तकालयों की चर्चा आगामी अध्यायों में की जाएगी।
आर
पायथन के समान, आर एक व्याख्यात्मक बहु-प्रतिमान भाषा है, जो सांख्यिकीय कंप्यूटिंग और ग्राफिक्स का समर्थन करता है। पैकेज की विविधता से आर में मशीन लर्निंग मॉडलिंग को लागू करना आसान हो जाता है।
जावा
यह एक व्याख्या की गई वस्तु-उन्मुख प्रोग्रामिंग भाषा है, जो व्यापक रूप से पैकेज उपलब्धता और परिष्कृत डेटा विज़ुअलाइज़ेशन तकनीकों की एक बड़ी श्रृंखला के लिए प्रसिद्ध है।
C / C ++
ये संकलित भाषाएं हैं, और दो सबसे पुरानी प्रोग्रामिंग भाषाएं हैं। इन भाषाओं को अक्सर पहले से मौजूद अनुप्रयोगों में एमएल क्षमताओं को शामिल करने के लिए पसंद किया जाता है क्योंकि वे आपको एमएल एल्गोरिदम के कार्यान्वयन को आसानी से अनुकूलित करने की अनुमति देते हैं।
Matlab
मेट्रिक्स लैबोरेटरी एक बहु-प्रतिमान भाषा है जो मैट्रिसेस के साथ काम करने के लिए कार्य करती है। यह जटिल समस्याओं के लिए गणितीय संचालन की अनुमति देता है। यह मुख्य रूप से संख्यात्मक कार्यों के लिए उपयोग किया जाता है, लेकिन कुछ पैकेज ग्राफिकल मल्टी-डोमेन सिमुलेशन और मॉडल-आधारित डिज़ाइन की भी अनुमति देते हैं।
मशीन सीखने की समस्याओं के लिए अन्य पसंदीदा प्रोग्रामिंग भाषाओं में जावास्क्रिप्ट, एलआईएसपी, प्रोलॉग, एसक्यूएल, स्काला, जूलिया, एसएएस आदि शामिल हैं।
पायथन में उन व्यक्तियों के बीच एक स्थापित लोकप्रियता है जो अपने आसान से लिखने और आसानी से समझने वाली कोड संरचना के साथ-साथ खुले स्रोत पुस्तकालयों की एक विस्तृत विविधता के कारण मशीन लर्निंग का प्रदर्शन करते हैं। इस तरह के कुछ खुले स्रोत पुस्तकालयों का उपयोग हम आने वाले अध्यायों में करेंगे।
Numpy
न्यूमेरिकल पायथन एक पुस्तकालय है जिसका उपयोग वैज्ञानिक कंप्यूटिंग के लिए किया जाता है। यह एक एन-डायमेंशनल एरे ऑब्जेक्ट पर काम करता है और बेसिक गणितीय कार्यक्षमता प्रदान करता है जैसे कि आकार, आकार, माध्य, मानक विचलन, न्यूनतम, अधिकतम और साथ ही कुछ और जटिल कार्य जैसे लीनियर बीजगणितीय कार्य और फूरियर ट्रांसफॉर्म। जैसे ही हम इस ट्यूटोरियल में आगे बढ़ेंगे, आप इनके बारे में और जानेंगे।
पांडा
यह लाइब्रेरी श्रृंखला, डेटाफ़्रेम और पैनल जैसे अत्यधिक कुशल और आसानी से उपयोग में आने वाली डेटा संरचना प्रदान करती है। इसने पायथन की कार्यक्षमता को केवल डेटा संग्रह और डेटा विश्लेषण की तैयारी से बढ़ाया है। दो पुस्तकालयों, पंडों और NumPy, छोटे से बहुत बड़े डाटासेट के लिए बहुत सरल पर कोई भी ऑपरेशन करते हैं। इन कार्यों के बारे में अधिक जानने के लिए, इस ट्यूटोरियल का अनुसरण करें।
SciPy
विज्ञान पायथन एक पुस्तकालय है जिसका उपयोग वैज्ञानिक और तकनीकी कंप्यूटिंग के लिए किया जाता है। यह अनुकूलन, सिग्नल और छवि प्रसंस्करण, एकीकरण, प्रक्षेप और रैखिक बीजगणित के लिए कार्यशीलता प्रदान करता है। यह लर्निंग मशीन सीखने के दौरान काम आता है। जैसे ही हम इस ट्यूटोरियल में आगे बढ़ते हैं, हम इन कार्यात्मकताओं पर चर्चा करेंगे।
स्किट सीखो
यह लाइब्रेरी एक SciPy टूलकिट है जो व्यापक रूप से सांख्यिकीय मॉडलिंग, मशीन सीखने और गहन सीखने के लिए उपयोग की जाती है, क्योंकि इसमें विभिन्न अनुकूलन योग्य प्रतिगमन, वर्गीकरण और क्लस्टरिंग मॉडल शामिल हैं। यह Numpy, Pandas और अन्य पुस्तकालयों के साथ अच्छी तरह से काम करता है जो इसे उपयोग करना आसान बनाता है।
Statsmodels
स्किकिट लर्न की तरह, इस लाइब्रेरी का उपयोग सांख्यिकीय डेटा अन्वेषण और सांख्यिकीय मॉडलिंग के लिए किया जाता है। यह अन्य पायथन पुस्तकालयों के साथ भी अच्छा काम करता है।
matplotlib
इस लाइब्रेरी का उपयोग विभिन्न प्रारूपों जैसे लाइन प्लॉट, बार ग्राफ, हीट मैप्स, स्कैटर प्लॉट्स, हिस्टोग्राम इत्यादि में डेटा विज़ुअलाइज़ेशन के लिए किया जाता है। इसमें प्लॉटिंग से लेकर लेबलिंग तक सभी आवश्यक ग्राफ़ संबंधी फ़ंक्शंस शामिल हैं। जैसे ही हम इस ट्यूटोरियल में आगे बढ़ते हैं, हम इन कार्यात्मकताओं पर चर्चा करेंगे।
ये लाइब्रेरी किसी भी प्रकार के डेटा के साथ मशीन सीखने के साथ शुरू करने के लिए बहुत आवश्यक हैं।
ऊपर चर्चा किए गए लोगों के अलावा, समय श्रृंखला से निपटने के लिए एक और पुस्तकालय विशेष रूप से महत्वपूर्ण है -
दिनांक और समय
यह लाइब्रेरी, अपने दो मॉड्यूल - डेटाइम और कैलेंडर के साथ, पढ़ने, स्वरूपण और हेरफेर करने के लिए सभी आवश्यक डेटाटाइम कार्यक्षमता प्रदान करती है।
हम आने वाले अध्यायों में इन पुस्तकालयों का उपयोग करेंगे।
टाइम सीरीज़ समान-अंतराल समय अंतराल में अनुक्रमित टिप्पणियों का एक क्रम है। इसलिए, किसी भी समय श्रृंखला में क्रम और निरंतरता को बनाए रखा जाना चाहिए।
जिस डेटासेट का हम उपयोग कर रहे हैं, वह एक बहु-चर समय श्रृंखला है जिसमें लगभग एक वर्ष तक प्रति घंटा डेटा होता है, जो काफी प्रदूषित इतालवी शहर में हवा की गुणवत्ता के लिए है। डाटासेट नीचे दिए गए लिंक से डाउनलोड किया जा सकता है -https://archive.ics.uci.edu/ml/datasets/air+quality।
यह सुनिश्चित करना आवश्यक है कि -
समय श्रृंखला समान रूप से दूरी पर है, और
इसमें कोई निरर्थक मूल्य या अंतराल नहीं हैं।
यदि समय श्रृंखला निरंतर नहीं है, तो हम इसे बढ़ा या घटा सकते हैं।
दिखा रहा है df.head ()
[122] में:
import pandas
[123] में:
df = pandas.read_csv("AirQualityUCI.csv", sep = ";", decimal = ",")
df = df.iloc[ : , 0:14]
[१२४] में:
len(df)
आउट [124]:
9471
[125] में:
df.head()
आउट [125]:
समय श्रृंखला के प्रीप्रोसेसिंग के लिए, हम सुनिश्चित करते हैं कि डेटासेट में कोई NaN (NULL) मान नहीं हैं; यदि हैं, तो हम उन्हें 0 या औसत या पूर्ववर्ती या सफल मान के साथ बदल सकते हैं। रिप्लेसिंग ड्रॉपिंग पर एक पसंदीदा विकल्प है ताकि समय श्रृंखला की निरंतरता बनी रहे। हालाँकि, हमारे डेटासेट में पिछले कुछ मान NULL लगते हैं और इसलिए छोड़ने से निरंतरता प्रभावित नहीं होगी।
ड्रॉपिंग एनएन (संख्या नहीं)
[१२६] में:
df.isna().sum()
Out[126]:
Date 114
Time 114
CO(GT) 114
PT08.S1(CO) 114
NMHC(GT) 114
C6H6(GT) 114
PT08.S2(NMHC) 114
NOx(GT) 114
PT08.S3(NOx) 114
NO2(GT) 114
PT08.S4(NO2) 114
PT08.S5(O3) 114
T 114
RH 114
dtype: int64
[127] में:
df = df[df['Date'].notnull()]
[१२ In] में:
df.isna().sum()
आउट [128]:
Date 0
Time 0
CO(GT) 0
PT08.S1(CO) 0
NMHC(GT) 0
C6H6(GT) 0
PT08.S2(NMHC) 0
NOx(GT) 0
PT08.S3(NOx) 0
NO2(GT) 0
PT08.S4(NO2) 0
PT08.S5(O3) 0
T 0
RH 0
dtype: int64
टाइम सीरीज़ को आमतौर पर समय के विरुद्ध लाइन ग्राफ़ के रूप में प्लॉट किया जाता है। उसके लिए अब हम तारीख और समय कॉलम को जोड़ेंगे और इसे स्ट्रिंग से डेटाइम ऑब्जेक्ट में बदल देंगे। यह डेटाइम लाइब्रेरी का उपयोग करके पूरा किया जा सकता है।
डेटाटाइम ऑब्जेक्ट में परिवर्तित हो रहा है
[१२ ९] में:
df['DateTime'] = (df.Date) + ' ' + (df.Time)
print (type(df.DateTime[0]))
<class 'str'>
[१३०] में:
import datetime
df.DateTime = df.DateTime.apply(lambda x: datetime.datetime.strptime(x, '%d/%m/%Y %H.%M.%S'))
print (type(df.DateTime[0]))
<वर्ग 'pandas._libs.tslibs.timestamps.Timestamp'>
आइए देखते हैं कि समय में परिवर्तन के साथ तापमान में परिवर्तन कैसे होता है।
प्लॉट दिखा रहे हैं
[131] में:
df.index = df.DateTime
[१३२] में:
import matplotlib.pyplot as plt
plt.plot(df['T'])
आउट [132]:
[<matplotlib.lines.Line2D at 0x1eaad67f780>]
[208] में:
plt.plot(df['C6H6(GT)'])
आउट [208]:
[<matplotlib.lines.Line2D at 0x1eaaeedff28>]
बॉक्स-प्लॉट एक अन्य उपयोगी प्रकार के ग्राफ़ हैं जो आपको किसी एकल ग्राफ़ में डेटासेट के बारे में बहुत सारी जानकारी देने की अनुमति देते हैं। यह 25% और 75% चतुर्थक और एक या कई चरों के आउटलेयर का मतलब दिखाता है। उस स्थिति में जब आउटलेयर की संख्या कम है और माध्य से बहुत दूर है, हम आउटलेर्स को औसत मान या 75% चतुर्थक मान पर सेट करके समाप्त कर सकते हैं।
Boxplots दिखा रहा है
[१३४] में:
plt.boxplot(df[['T','C6H6(GT)']].values)
आउट [134]:
{'whiskers': [<matplotlib.lines.Line2D at 0x1eaac16de80>,
<matplotlib.lines.Line2D at 0x1eaac16d908>,
<matplotlib.lines.Line2D at 0x1eaac177a58>,
<matplotlib.lines.Line2D at 0x1eaac177cf8>],
'caps': [<matplotlib.lines.Line2D at 0x1eaac16d2b0>,
<matplotlib.lines.Line2D at 0x1eaac16d588>,
<matplotlib.lines.Line2D at 0x1eaac1a69e8>,
<matplotlib.lines.Line2D at 0x1eaac1a64a8>],
'boxes': [<matplotlib.lines.Line2D at 0x1eaac16dc50>,
<matplotlib.lines.Line2D at 0x1eaac1779b0>],
'medians': [<matplotlib.lines.Line2D at 0x1eaac16d4a8>,
<matplotlib.lines.Line2D at 0x1eaac1a6c50>],
'fliers': [<matplotlib.lines.Line2D at 0x1eaac177dd8>,
<matplotlib.lines.Line2D at 0x1eaac1a6c18>],'means': []
}
परिचय
एक समय श्रृंखला में नीचे दिए गए 4 घटक हैं -
Level - यह माध्य मान है जिसके चारों ओर श्रृंखला बदलती है।
Trend - यह समय के साथ एक चर के बढ़ते या घटते व्यवहार है।
Seasonality - यह समय श्रृंखला का चक्रीय व्यवहार है।
Noise - यह पर्यावरणीय कारकों के कारण जोड़े गए अवलोकनों में त्रुटि है।
समय श्रृंखला मॉडलिंग तकनीक
इन घटकों को पकड़ने के लिए, कई लोकप्रिय समय श्रृंखला मॉडलिंग तकनीकें हैं। यह खंड प्रत्येक तकनीक का एक संक्षिप्त परिचय देता है, हालाँकि हम उनके बारे में आगामी अध्यायों में विस्तार से चर्चा करेंगे -
Naïve तरीके
ये सरल आकलन तकनीक हैं, जैसे कि अनुमानित मूल्य को समय पर निर्भर चर के पूर्ववर्ती मूल्यों या पिछले वास्तविक मूल्य के बराबर मूल्य दिया जाता है। इनका उपयोग परिष्कृत मॉडलिंग तकनीकों के साथ तुलना के लिए किया जाता है।
ऑटो रिग्रेशन
ऑटो प्रतिगमन भविष्य के समय अवधि के मूल्यों को पिछले समय की अवधि के मानों के कार्य के रूप में भविष्यवाणी करता है। ऑटो प्रतिगमन की भविष्यवाणियां डेटा को भोले-भाले तरीकों से बेहतर तरीके से फिट कर सकती हैं, लेकिन यह मौसमीता का हिसाब नहीं दे सकती है।
ARIMA मॉडल
एक ऑटो-रिग्रेसिव इंटीग्रेटेड मूविंग-एवरेज मॉडल एक वैरिएबल के मान के रूप में पिछले मानों के रैखिक फ़ंक्शन और स्थिर समयों के पिछले समय के चरणों में अवशिष्ट त्रुटियां हैं। हालांकि, वास्तविक विश्व डेटा गैर-स्थिर हो सकता है और इसमें मौसम की स्थिति हो सकती है, इस प्रकार सीजनल-एआरआईएमए और फ्रैक्शनल-एआरआईएमए विकसित किया गया था। ARIMA कई वेरिएबल्स VARIMA को पेश करने के लिए, यूनीवरिएट टाइम सीरीज़ पर काम करता है।
एक्स्पोनेंशियल स्मूदिंग
यह पिछले मानों के घातीय भारित रैखिक कार्य के रूप में एक चर के मूल्य को दर्शाता है। यह सांख्यिकीय मॉडल ट्रेंड और सीज़नसिटी को भी संभाल सकता है।
LSTM
लॉन्ग शॉर्ट-टर्म मेमोरी मॉडल (LSTM) एक आवर्तक तंत्रिका नेटवर्क है जिसका उपयोग दीर्घकालिक श्रृंखला में दीर्घकालिक निर्भरता के लिए किया जाता है। मल्टी-वेरिएंट टाइम सीरीज़ के रुझानों को पकड़ने के लिए बड़ी मात्रा में डेटा के साथ इसे प्रशिक्षित किया जा सकता है।
उक्त मॉडलिंग तकनीकों का उपयोग समय श्रृंखला प्रतिगमन के लिए किया जाता है। आने वाले अध्यायों में, आइए अब हम एक-एक करके इन सभी का अन्वेषण करें।
परिचय
किसी भी सांख्यिकीय या मशीन लर्निंग मॉडल में कुछ पैरामीटर होते हैं जो डेटा को मॉडल करने के तरीके को बहुत प्रभावित करते हैं। उदाहरण के लिए, ARIMA में p, d, q मान हैं। इन मापदंडों को इस तरह तय किया जाना चाहिए कि वास्तविक मूल्यों और मॉडल किए गए मूल्यों के बीच त्रुटि न्यूनतम हो। पैरामीटर अंशांकन को मॉडल फिटिंग का सबसे महत्वपूर्ण और समय लेने वाला कार्य कहा जाता है। इसलिए, हमारे लिए इष्टतम मापदंडों का चयन करना बहुत आवश्यक है।
पैरामीटर के अंशांकन के लिए तरीके
मापदंडों को जांचने के विभिन्न तरीके हैं। यह खंड उनमें से कुछ के बारे में विस्तार से बात करता है।
हिट-एंड-कोशिश
मॉडल को कैलिब्रेट करने का एक सामान्य तरीका है हैंड कैलिब्रेशन, जहां आप समय-श्रृंखला की कल्पना करके शुरू करते हैं और कुछ पैरामीटर मानों को सहजता से आज़माते हैं और जब तक आप एक अच्छा पर्याप्त फिट हासिल नहीं कर लेते तब तक उन्हें बदलते रहते हैं। हमें जिस मॉडल की कोशिश कर रहे हैं, उसकी अच्छी समझ की आवश्यकता है। ARIMA मॉडल के लिए, 'p' पैरामीटर के लिए ऑटो-सहसंबंध प्लॉट की सहायता से हाथ अंशांकन किया जाता है, 'q' पैरामीटर और ADF- टेस्ट के लिए आंशिक ऑटो-सहसंबंध प्लॉट, समय-श्रृंखला की स्थिरता और 'd' पैरामीटर की पुष्टि करने के लिए किया जाता है। । हम आने वाले अध्यायों में इन सभी पर विस्तार से चर्चा करेंगे।
ग्रिड खोज
मॉडल को कैलिब्रेट करने का एक और तरीका ग्रिड खोज है, जिसका अनिवार्य रूप से मतलब है कि आप सभी संभावित संयोजनों के लिए एक मॉडल बनाने की कोशिश करते हैं और न्यूनतम त्रुटि के साथ एक का चयन करते हैं। यह समय लेने वाली है और इसलिए उपयोगी है जब मापदंडों की संख्या को कैलिब्रेट किया जाता है और उनके द्वारा लिए जाने वाले मानों की सीमा कम होती है क्योंकि इसमें लूप के लिए कई नेस्टेड शामिल होते हैं।
जन्म प्रमेय
जेनेटिक एल्गोरिदम जैविक सिद्धांत पर काम करता है कि एक अच्छा समाधान अंततः सबसे 'इष्टतम' समाधान के लिए विकसित होगा। यह म्यूटेशन, क्रॉस-ओवर और चयन के जैविक संचालन का उपयोग करता है और अंत में एक इष्टतम समाधान तक पहुंचता है।
आगे के ज्ञान के लिए आप अन्य पैरामीटर अनुकूलन तकनीकों जैसे बायेसियन ऑप्टिमाइज़ेशन और झुंड ऑप्टिमाइज़ेशन के बारे में पढ़ सकते हैं।
परिचय
Nave विधियाँ जैसे कि समय पर 't' की अनुमानित मान मान लेना 't-1' या श्रृंखला के रोलिंग माध्य के समय चर का वास्तविक मान होना है, का उपयोग यह करने के लिए किया जाता है कि सांख्यिकीय मॉडल और मशीन लर्निंग मॉडल कितना अच्छा प्रदर्शन कर सकते हैं और उनकी जरूरत पर जोर दें।
इस अध्याय में, हम अपने समय-श्रृंखला डेटा की सुविधाओं में से एक पर इन मॉडलों की कोशिश करते हैं।
पहले हम अपने डेटा की 'तापमान' विशेषता और इसके आस-पास के विचलन को देखेंगे। अधिकतम और न्यूनतम तापमान मान देखने के लिए भी उपयोगी है। हम यहां खसखस लाइब्रेरी की कार्यप्रणाली का उपयोग कर सकते हैं।
आंकड़े दिखा रहा है
[१३५] में:
import numpy
print (
'Mean: ',numpy.mean(df['T']), ';
Standard Deviation: ',numpy.std(df['T']),';
\nMaximum Temperature: ',max(df['T']),';
Minimum Temperature: ',min(df['T'])
)
हमारे पास इक्वी-स्प्रेड टाइमलाइन के सभी 9357 अवलोकनों के आंकड़े हैं जो डेटा को समझने के लिए हमारे लिए उपयोगी हैं।
अब हम पहले भोले विधि की कोशिश करेंगे, पूर्व समय में वास्तविक मूल्य के बराबर वर्तमान समय में अनुमानित मूल्य की स्थापना और इस विधि के प्रदर्शन को निर्धारित करने के लिए इसके लिए रूट माध्य चुकता त्रुटि (आरएमएसई) की गणना करें।
1 सेंट भोली विधि दिखा रहा है
[136] में:
df['T']
df['T_t-1'] = df['T'].shift(1)
[१३ In] में:
df_naive = df[['T','T_t-1']][1:]
[१३ In] में:
from sklearn import metrics
from math import sqrt
true = df_naive['T']
prediction = df_naive['T_t-1']
error = sqrt(metrics.mean_squared_error(true,prediction))
print ('RMSE for Naive Method 1: ', error)
आरएएमएसई फॉर नाइव मेथड 1: 12.901140576492974
आइए हम अगली भोली विधि देखें, जहाँ वर्तमान समय में अनुमानित मूल्य, समयावधि से पहले के समय के बराबर है। हम इस विधि के लिए RMSE की गणना भी करेंगे।
दिखा रहा है 2 एन डी भोली विधि
[१३ ९] में:
df['T_rm'] = df['T'].rolling(3).mean().shift(1)
df_naive = df[['T','T_rm']].dropna()
[१४०] में:
true = df_naive['T']
prediction = df_naive['T_rm']
error = sqrt(metrics.mean_squared_error(true,prediction))
print ('RMSE for Naive Method 2: ', error)
RMSE for Naive Method 2: 14.957633272839242
यहां, आप पिछली बार की कई समयावधियों के साथ प्रयोग कर सकते हैं जिन्हें 'लैग्स' भी कहा जाता है, जिस पर आप विचार करना चाहते हैं, जिसे यहां 3 रखा गया है। इस डेटा में यह देखा जा सकता है कि जैसे-जैसे आप लैग्स की संख्या बढ़ाते हैं और त्रुटि बढ़ती जाती है। यदि लैग को 1 रखा जाता है, तो यह पहले की भोली विधि के समान है।
Points to Note
आप रूट माध्य चुकता त्रुटि की गणना के लिए एक बहुत ही सरल कार्य लिख सकते हैं। यहां, हमने पैकेज 'स्केलेर' से माध्य चुकता त्रुटि फ़ंक्शन का उपयोग किया है और फिर इसकी वर्गमूल ली है।
पांडा df में ['column_name'] को df.column_name के रूप में भी लिखा जा सकता है, हालाँकि इस डेटासेट के लिए df.T df ['T'] के समान काम नहीं करेगा क्योंकि df.T एक डेटाफ़्रेम ट्रांसफ़ॉर्म करने का कार्य है। इसलिए केवल df ['T'] का उपयोग करें या दूसरे सिंटैक्स का उपयोग करने से पहले इस कॉलम का नाम बदलने पर विचार करें।
एक स्थिर समय श्रृंखला के लिए, एक ऑटो प्रतिगमन मॉडल समय के एक चर के मान को 'पी' मानों के रैखिक फ़ंक्शन के रूप में देखता है, जो समय से पहले होता है। गणितीय रूप से इसे लिखा जा सकता है -
$$y_{t} = \:C+\:\phi_{1}y_{t-1}\:+\:\phi_{2}Y_{t-2}+...+\phi_{p}y_{t-p}+\epsilon_{t}$$
जहां, 'पी' ऑटो रिग्रेसिव ट्रेंड पैरामीटर है
$\epsilon_{t}$ सफेद शोर है, और
$y_{t-1}, y_{t-2}\:\: ...y_{t-p}$ पिछली समयावधि में चर का मान निरूपित करें।
पी के मूल्य को विभिन्न तरीकों का उपयोग करके कैलिब्रेट किया जा सकता है। 'पी' के उपयुक्त मान को खोजने का एक तरीका ऑटो-सहसंबंध की साजिश है।
Note- हमें डेटा को ट्रेन और परीक्षण में 8: 2 के कुल डेटा पर अलग से उपलब्ध करना चाहिए, ताकि डेटा पर कोई विश्लेषण न किया जा सके क्योंकि परीक्षण डेटा केवल हमारे मॉडल और धारणा की सटीकता का पता लगाने के लिए है, यह हमारे लिए उपलब्ध नहीं है। जब तक भविष्यवाणियां नहीं की गई हैं। समय श्रृंखला के मामले में, डेटा बिंदुओं का अनुक्रम बहुत आवश्यक है, इसलिए किसी को यह ध्यान रखना चाहिए कि डेटा के विभाजन के दौरान आदेश को न खोएं।
एक ऑटो-सहसंबंध भूखंड या एक correlogram एक चर का संबंध पूर्व समय चरणों में स्वयं के साथ दिखाता है। यह पियर्सन के सहसंबंध का उपयोग करता है और 95% विश्वास अंतराल के भीतर सहसंबंध दिखाता है। आइए देखें कि यह हमारे डेटा के 'तापमान' चर के लिए कैसा दिखता है।
दिखा रहा है ए.सी.पी.
[१४१] में:
split = len(df) - int(0.2*len(df))
train, test = df['T'][0:split], df['T'][split:]
[142] में:
from statsmodels.graphics.tsaplots import plot_acf
plot_acf(train, lags = 100)
plt.show()
छायांकित नीले क्षेत्र के बाहर पड़े सभी लैग मानों को एक मानदंड माना जाता है।
एक स्थिर समय श्रृंखला के लिए, एक मूविंग एवरेज मॉडल 't' के समय के चर के मान को 'q' समय के अवशिष्ट त्रुटियों के एक रैखिक कार्य के रूप में देखता है, जो इसे पूर्ववर्ती चरणों में शामिल करता है। अवशिष्ट त्रुटि की गणना 't' के समय के मान की तुलना करके पूर्ववर्ती मूल्यों की चलती औसत से की जाती है।
गणितीय रूप से इसे लिखा जा सकता है -
$$y_{t} = c\:+\:\epsilon_{t}\:+\:\theta_{1}\:\epsilon_{t-1}\:+\:\theta_{2}\:\epsilon_{t-2}\:+\:...+:\theta_{q}\:\epsilon_{t-q}\:$$
जहाँ 'q' मूविंग-एवरेज ट्रेंड पैरामीटर है
$\epsilon_{t}$ सफेद शोर है, और
$\epsilon_{t-1}, \epsilon_{t-2}...\epsilon_{t-q}$ पिछली समयावधि में त्रुटि शब्द हैं।
विभिन्न तरीकों का उपयोग करके 'q' के मूल्य को कैलिब्रेट किया जा सकता है। 'क्ष' के उपयुक्त मान को खोजने का एक तरीका आंशिक ऑटो-सहसंबंध साजिश है।
एक आंशिक ऑटो-सहसंबंध प्लॉट एक समय से पहले अप्रत्यक्ष सहसंबंध के साथ हटाए गए चर के संबंध को दिखाता है, ऑटो-सहसंबंध भूखंड के विपरीत जो प्रत्यक्ष और साथ ही अप्रत्यक्ष सहसंबंध दिखाता है, आइए देखें कि यह कैसा दिखता है 'तापमान' हमारे चर के रूप में डेटा।
PACP दिखा रहा है
[143] में:
from statsmodels.graphics.tsaplots import plot_pacf
plot_pacf(train, lags = 100)
plt.show()
एक आंशिक ऑटो-सहसंबंध को उसी तरह से पढ़ा जाता है जैसे कि कोरलोग्राम।
हम पहले ही समझ चुके हैं कि एक स्थिर समय श्रृंखला के लिए समय पर एक चर 't' पूर्व टिप्पणियों या अवशिष्ट त्रुटियों का एक रैखिक कार्य है। इसलिए यह हमारे लिए दोनों को मिलाने का समय है और ऑटो-रिग्रेसिव मूविंग एवरेज (ARMA) मॉडल है।
हालाँकि, कई बार समय श्रृंखला स्थिर नहीं होती है, अर्थात समय के साथ श्रृंखला के सांख्यिकीय गुण, समय के साथ विचरण बदलते हैं। और अब तक हमने जिन सांख्यिकीय मॉडलों का अध्ययन किया है, वे समय श्रृंखला को स्थिर मानते हैं, इसलिए, हम इसे स्थिर बनाने के लिए समय श्रृंखला को अलग करने के पूर्व-प्रसंस्करण कदम को शामिल कर सकते हैं। अब, हमारे लिए यह पता लगाना महत्वपूर्ण है कि हम जिस समय श्रृंखला के साथ काम कर रहे हैं वह स्थिर है या नहीं।
टाइम सीरीज़ की स्थिरता का पता लगाने के लिए कई तरीके हैं, सीज़न की साजिश या टाइम सीरीज़ के ट्रेंड की तलाश में, विभिन्न समय अवधि के लिए माध्य और विचरण में अंतर की जाँच, ऑगमेंटेड डिकी-फुलर (ADF) टेस्ट, KPSS टेस्ट, हर्स्ट का एक्सपेन्सर आदि। ।
आइए देखें कि हमारे डेटासेट का 'तापमान' वेरिएबल एक स्थिर समय श्रृंखला है या ADF परीक्षण का उपयोग नहीं कर रहा है।
[74४] में:
from statsmodels.tsa.stattools import adfuller
result = adfuller(train)
print('ADF Statistic: %f' % result[0])
print('p-value: %f' % result[1])
print('Critical Values:')
for key, value In result[4].items()
print('\t%s: %.3f' % (key, value))
ADF सांख्यिकी: -10.406056
पी-मूल्य: 0.000000
महत्वपूर्ण मान:
1%: -3.431
5%: -2.862
10%: -2.567
अब जब हमने ADF परीक्षण चलाया है, तो परिणाम की व्याख्या करते हैं। पहले हम ADF स्टेटिस्टिक की तुलना महत्वपूर्ण मूल्यों के साथ करेंगे, एक कम महत्वपूर्ण मूल्य हमें बताता है कि श्रृंखला सबसे अधिक गैर-स्थिर है। अगला, हम पी-मूल्य देखते हैं। 0.05 से अधिक का पी-मान यह भी बताता है कि समय श्रृंखला गैर-स्थिर है।
वैकल्पिक रूप से, पी-मान 0.05 से कम या उसके बराबर है, या ADF सांख्यिकीय महत्वपूर्ण मानों से कम समय श्रृंखला के स्थिर होने का सुझाव देता है।
इसलिए, जिस समय श्रृंखला के साथ हम काम कर रहे हैं वह पहले से ही स्थिर है। स्थिर समय श्रृंखला के मामले में, हम 'डी' पैरामीटर को 0 के रूप में सेट करते हैं।
हम हर्स्ट एक्सपोनेंट का उपयोग करके समय श्रृंखला की स्थिरता की भी पुष्टि कर सकते हैं।
[75५] में:
import hurst
H, c,data = hurst.compute_Hc(train)
print("H = {:.4f}, c = {:.4f}".format(H,c))
एच = 0.1660, सी = 5.0740
H <0.5 का मान एंटी-परसेंट व्यवहार दिखाता है, और H> 0.5 लगातार व्यवहार या एक ट्रेंडिंग सीरीज़ दिखाता है। H = 0.5 यादृच्छिक चलना / ब्राउनियन गति दिखाता है। एच <0.5 का मूल्य, यह पुष्टि करता है कि हमारी श्रृंखला स्थिर है।
गैर-स्थिर समय श्रृंखला के लिए, हम 'd' पैरामीटर को 1 के रूप में सेट करते हैं। इसके अलावा, ऑटो-रिग्रेसिव ट्रेंड पैरामीटर 'p' और 'मूविंग एवरेज ट्रेंड' पैरामीटर 'q' का मान, स्थिर समय श्रृंखला पर यानी प्लॉटिंग द्वारा परिकलित किया जाता है। समय श्रृंखला में अंतर करने के बाद एसीपी और पीएसीपी।
ARIMA मॉडल, जो 3 पैरामीटर द्वारा विशेषता है, (p, d, q) अब हमारे लिए स्पष्ट हैं, इसलिए हमें अपनी समय श्रृंखला को मॉडल करें और तापमान के भविष्य के मूल्यों की भविष्यवाणी करें।
[१५६] में:
from statsmodels.tsa.arima_model import ARIMA
model = ARIMA(train.values, order=(5, 0, 2))
model_fit = model.fit(disp=False)
[१५ In] में:
predictions = model_fit.predict(len(test))
test_ = pandas.DataFrame(test)
test_['predictions'] = predictions[0:1871]
[158] में:
plt.plot(df['T'])
plt.plot(test_.predictions)
plt.show()
[१६]] में:
error = sqrt(metrics.mean_squared_error(test.values,predictions[0:1871]))
print ('Test RMSE for ARIMA: ', error)
ARIMA के लिए टेस्ट RMSE: 43.21252940234892
पिछले अध्याय में, अब हमने देखा है कि ARIMA मॉडल कैसे काम करता है, और इसकी सीमाएँ जो इसे मौसमी डेटा या बहुभिन्नरूपी श्रृंखला को नहीं संभाल सकती हैं और इसलिए, इन विशेषताओं को शामिल करने के लिए नए मॉडल पेश किए गए थे।
इन नए मॉडलों की एक झलक यहां दी गई है -
वेक्टर ऑटो-प्रतिगमन (VAR)
यह बहुभिन्नरूपी स्थिर समय श्रृंखला के लिए ऑटो प्रतिगमन मॉडल का एक सामान्यीकृत संस्करण है। यह 'पी' पैरामीटर की विशेषता है।
वेक्टर मूविंग एवरेज (VMA)
यह बहुभिन्नरूपी स्थिर समय श्रृंखला के लिए चलती औसत मॉडल का एक सामान्यीकृत संस्करण है। यह 'क्ष' पैरामीटर की विशेषता है।
वेक्टर ऑटो प्रतिगमन मूविंग औसत (VARMA)
यह VAR और VMA का संयोजन और बहुभिन्नरूपी स्थिर समय श्रृंखला के लिए ARMA मॉडल का एक सामान्यीकृत संस्करण है। यह 'पी' और 'क्यू' मापदंडों की विशेषता है। बहुत कुछ, ARMA 0 के रूप में 'q' पैरामीटर सेट करके AR मॉडल की तरह कार्य करने में सक्षम है और 'p' पैरामीटर 0 के रूप में सेट करके MA मॉडल के रूप में, VARMA भी 'q' पैरामीटर सेट करके VAR मॉडल की तरह कार्य करने में सक्षम है। 0 के रूप में और 0 के रूप में 'पी' पैरामीटर सेट करके एक VMA मॉडल के रूप में।
[209] में:
df_multi = df[['T', 'C6H6(GT)']]
split = len(df) - int(0.2*len(df))
train_multi, test_multi = df_multi[0:split], df_multi[split:]
[211] में:
from statsmodels.tsa.statespace.varmax import VARMAX
model = VARMAX(train_multi, order = (2,1))
model_fit = model.fit()
c:\users\naveksha\appdata\local\programs\python\python37\lib\site-packages\statsmodels\tsa\statespace\varmax.py:152:
EstimationWarning: Estimation of VARMA(p,q) models is not generically robust,
due especially to identification issues.
EstimationWarning)
c:\users\naveksha\appdata\local\programs\python\python37\lib\site-packages\statsmodels\tsa\base\tsa_model.py:171:
ValueWarning: No frequency information was provided, so inferred frequency H will be used.
% freq, ValueWarning)
c:\users\naveksha\appdata\local\programs\python\python37\lib\site-packages\statsmodels\base\model.py:508:
ConvergenceWarning: Maximum Likelihood optimization failed to converge. Check mle_retvals
"Check mle_retvals", ConvergenceWarning)
[213] में:
predictions_multi = model_fit.forecast( steps=len(test_multi))
c:\users\naveksha\appdata\local\programs\python\python37\lib\site-packages\statsmodels\tsa\base\tsa_model.py:320:
FutureWarning: Creating a DatetimeIndex by passing range endpoints is deprecated. Use `pandas.date_range` instead.
freq = base_index.freq)
c:\users\naveksha\appdata\local\programs\python\python37\lib\site-packages\statsmodels\tsa\statespace\varmax.py:152:
EstimationWarning: Estimation of VARMA(p,q) models is not generically robust, due especially to identification issues.
EstimationWarning)
[२३१] में:
plt.plot(train_multi['T'])
plt.plot(test_multi['T'])
plt.plot(predictions_multi.iloc[:,0:1], '--')
plt.show()
plt.plot(train_multi['C6H6(GT)'])
plt.plot(test_multi['C6H6(GT)'])
plt.plot(predictions_multi.iloc[:,1:2], '--')
plt.show()
उपरोक्त कोड दिखाता है कि कैसे VARMA मॉडल का उपयोग मल्टीवीरेट टाइम श्रृंखला को मॉडल करने के लिए किया जा सकता है, हालांकि यह मॉडल हमारे डेटा पर सबसे उपयुक्त नहीं हो सकता है।
बाहरी वैरिएबल्स के साथ VARMA (VARMAX)
यह VARMA मॉडल का एक विस्तार है जहां अतिरिक्त चर जिसे covariates कहा जाता है का उपयोग उस प्राथमिक चर को मॉडल करने के लिए किया जाता है जिसे हम रुचि रखते हैं।
मौसमी ऑटो रिजेक्टिव इंटीग्रेटेड मूविंग एवरेज (SARIMA)
यह मौसमी डेटा से निपटने के लिए ARIMA मॉडल का विस्तार है। यह डेटा को मौसमी और गैर-मौसमी घटकों में विभाजित करता है और उन्हें इसी तरह से मॉडल करता है। यह 7 मापदंडों द्वारा विशेषता है, गैर-मौसमी भाग (पी, डी, क्यू) के मापदंडों के समान ही एआरएमआईए मॉडल के लिए और मौसमी भाग (पी, डी, क्यू, एम) के मापदंडों के लिए जहां 'मी' मौसमी अवधि की संख्या है और P, D, Q ARIMA मॉडल के मापदंडों के समान हैं। ग्रिड खोज या आनुवंशिक एल्गोरिथ्म का उपयोग करके इन मापदंडों को कैलिब्रेट किया जा सकता है।
बहिर्जात चर (SARIMAX) के साथ SARIMA
यह बहिर्जात चर को शामिल करने के लिए SARIMA मॉडल का विस्तार है जो हमें उस चर को मॉडल करने में मदद करता है जिसमें हम रुचि रखते हैं।
यह बहिर्जात चर के रूप में डालने से पहले चर पर एक सह-संबंध विश्लेषण करने के लिए उपयोगी हो सकता है।
[२५१] में:
from scipy.stats.stats import pearsonr
x = train_multi['T'].values
y = train_multi['C6H6(GT)'].values
corr , p = pearsonr(x,y)
print ('Corelation Coefficient =', corr,'\nP-Value =',p)
Corelation Coefficient = 0.9701173437269858
P-Value = 0.0
पियर्सन के सहसंबंध 2 चर के बीच एक रैखिक संबंध दिखाता है, परिणामों की व्याख्या करने के लिए, हम पहले पी-मूल्य को देखते हैं, अगर यह कम है कि 0.05 तो गुणांक का मूल्य महत्वपूर्ण है, अन्यथा गुणांक का मूल्य महत्वपूर्ण नहीं है। महत्वपूर्ण पी-मूल्य के लिए, सहसंबंध गुणांक का एक सकारात्मक मूल्य सकारात्मक सहसंबंध को इंगित करता है, और एक नकारात्मक मूल्य एक नकारात्मक सहसंबंध को इंगित करता है।
इसलिए, हमारे डेटा के लिए, 'तापमान' और 'C6H6' एक अत्यधिक सकारात्मक सहसंबंध है। इसलिए, हम करेंगे
[२ ९]] में:
from statsmodels.tsa.statespace.sarimax import SARIMAX
model = SARIMAX(x, exog = y, order = (2, 0, 2), seasonal_order = (2, 0, 1, 1), enforce_stationarity=False, enforce_invertibility = False)
model_fit = model.fit(disp = False)
c:\users\naveksha\appdata\local\programs\python\python37\lib\site-packages\statsmodels\base\model.py:508:
ConvergenceWarning: Maximum Likelihood optimization failed to converge. Check mle_retvals
"Check mle_retvals", ConvergenceWarning)
[298] में:
y_ = test_multi['C6H6(GT)'].values
predicted = model_fit.predict(exog=y_)
test_multi_ = pandas.DataFrame(test)
test_multi_['predictions'] = predicted[0:1871]
[२ ९९] में:
plt.plot(train_multi['T'])
plt.plot(test_multi_['T'])
plt.plot(test_multi_.predictions, '--')
आउट [299]:
[<matplotlib.lines.Line2D at 0x1eab0191c18>]
ARIMA मॉडलिंग के विरोध के रूप में यहाँ की भविष्यवाणियां अब बड़े बदलाव लेती हैं।
कहने की जरूरत नहीं है, SARIMAX का उपयोग ARX, MAX, ARMAX या ARIMAX मॉडल के रूप में किया जा सकता है, जो केवल गैर-शून्य मानों के अनुरूप पैरामीटर सेट करके है।
आंशिक ऑटो प्रतिगामी एकीकृत चलती औसत (FARIMA)
कभी-कभी, ऐसा हो सकता है कि हमारी श्रृंखला स्थिर न हो, फिर भी मान 1 के 'd' पैरामीटर के साथ अंतर करने से इसमें अंतर आ सकता है। इसलिए, हमें एक भिन्नात्मक मूल्य का उपयोग करके समय श्रृंखला में अंतर करने की आवश्यकता है।
डेटा विज्ञान की दुनिया में कोई भी बेहतर मॉडल नहीं है, जो मॉडल आपके डेटा पर काम करता है वह आपके डेटासेट पर बहुत निर्भर करता है। विभिन्न मॉडलों का ज्ञान हमें सबसे अच्छा परिणाम प्राप्त करने के लिए अपने डेटा पर काम करने और उस मॉडल के साथ प्रयोग करने का चयन करने की अनुमति देता है। और परिणाम को भूखंड के साथ-साथ त्रुटि मैट्रिक्स के रूप में भी देखा जाना चाहिए, कई बार एक छोटी सी त्रुटि भी खराब हो सकती है, इसलिए, परिणामों की साजिश करना और कल्पना करना आवश्यक है।
अगले अध्याय में, हम एक और सांख्यिकीय मॉडल, घातीय चौरसाई को देख रहे हैं।
इस अध्याय में, हम समय श्रृंखला के घातीय चौरसाई में शामिल तकनीकों के बारे में बात करेंगे।
सरल घातीय चिकनाई
एक्सपोनेंशियल स्मूथिंग एक समयावधि में डेटा को तेजी से घटते समय को कम करके एकतरफा समय-श्रृंखला को चौरसाई करने की एक तकनीक है।
गणितीय रूप से, समय t, y_ (t + 1 / t) पर दिए गए मान 't + 1' के चर का मान निम्नानुसार है -
$$y_{t+1|t}\:=\:\alpha y_{t}\:+\:\alpha\lgroup1 -\alpha\rgroup y_{t-1}\:+\alpha\lgroup1-\alpha\rgroup^{2}\:y_{t-2}\:+\:...+y_{1}$$
कहाँ पे,$0\leq\alpha \leq1$ चौरसाई पैरामीटर है, और
$y_{1},....,y_{t}$ नेटवर्क ट्रैफ़िक के पिछले मान 1, 2, 3,…, t हैं।
यह बिना किसी स्पष्ट प्रवृत्ति या मौसमी के साथ टाइम सीरीज़ बनाने की एक सरल विधि है। लेकिन एक्सपोनेंशियल स्मूदी का इस्तेमाल ट्रेंड और सीज़न के साथ टाइम सीरीज़ के लिए भी किया जा सकता है।
ट्रिपल एक्सपोनेंशियल स्मूथिंग
ट्रिपल एक्सपोनेंशियल स्मूथिंग (TES) या होल्ट्स विंटर विधि, घातीय चौरसाई तीन बार लागू होती है $l_{t}$, प्रवृत्ति चौरसाई $b_{t}$, और मौसमी चौरसाई $S_{t}$, साथ में $\alpha$, $\beta^{*}$ तथा $\gamma$ मौसमी की आवृत्ति के रूप में 'एम' के साथ स्मूथिंग मापदंडों के रूप में, यानी एक वर्ष में मौसमों की संख्या।
मौसमी घटक की प्रकृति के अनुसार, टीईएस की दो श्रेणियां हैं -
Holt-Winter's Additive Method - जब मौसम प्रकृति में additive है।
Holt-Winter’s Multiplicative Method - जब मौसमी प्रकृति में गुणा हो।
नॉन-सीज़नल टाइम सीरीज़ के लिए, हमारे पास केवल ट्रेंड स्मूथिंग और लेवल स्मूथिंग है, जिसे होल्ट्स लीनियर ट्रेंड मेथड कहा जाता है।
आइए हमारे डेटा पर ट्रिपल घातीय चौरसाई लगाने का प्रयास करें।
[316] में:
from statsmodels.tsa.holtwinters import ExponentialSmoothing
model = ExponentialSmoothing(train.values, trend= )
model_fit = model.fit()
[322] में:
predictions_ = model_fit.predict(len(test))
[325] में:
plt.plot(test.values)
plt.plot(predictions_[1:1871])
आउट [325]:
[<matplotlib.lines.Line2D at 0x1eab00f1cf8>]
यहां, हमने एक बार प्रशिक्षण सेट के साथ मॉडल को प्रशिक्षित किया है और फिर हम भविष्यवाणियां करते रहते हैं। एक अधिक यथार्थवादी दृष्टिकोण एक या एक से अधिक समय के बाद मॉडल को फिर से प्रशिक्षित करना है। जैसा कि हम प्रशिक्षण डेटा 'til time' t 'से समय' t + 1 'के लिए भविष्यवाणी प्राप्त करते हैं, समय' t + 2 'के लिए अगला पूर्वानुमान वास्तविक रूप में प्रशिक्षण डेटा' t + time 't + 1' का उपयोग करके बनाया जा सकता है 't + 1' का मान तब ज्ञात होगा। एक या एक से अधिक भविष्य के कदमों के लिए भविष्यवाणियां करने की इस पद्धति और फिर मॉडल को फिर से प्रशिक्षण देने को रोलिंग पूर्वानुमान या वॉक फॉर वेलिडेशन कहा जाता है।
समय श्रृंखला मॉडलिंग में, समय के साथ भविष्यवाणियां कम और सटीक होती जाती हैं और इसलिए यह वास्तविक आंकड़ों के साथ मॉडल को फिर से प्रशिक्षित करने के लिए अधिक यथार्थवादी दृष्टिकोण है क्योंकि यह आगे की भविष्यवाणियों के लिए उपलब्ध है। चूंकि सांख्यिकीय मॉडल के प्रशिक्षण में समय नहीं लगता है, इसलिए सबसे सटीक परिणाम प्राप्त करने के लिए वॉक-फॉरवर्ड सत्यापन सबसे पसंदीदा समाधान है।
आइए हम अपने डेटा पर वन स्टेप वॉक फॉरवर्ड वैलिडेशन लागू करें और इसकी तुलना हमने पहले प्राप्त परिणामों से की।
[333] में:
prediction = []
data = train.values
for t In test.values:
model = (ExponentialSmoothing(data).fit())
y = model.predict()
prediction.append(y[0])
data = numpy.append(data, t)
[335] में:
test_ = pandas.DataFrame(test)
test_['predictionswf'] = prediction
[341] में:
plt.plot(test_['T'])
plt.plot(test_.predictionswf, '--')
plt.show()
[340] में:
error = sqrt(metrics.mean_squared_error(test.values,prediction))
print ('Test RMSE for Triple Exponential Smoothing with Walk-Forward Validation: ', error)
Test RMSE for Triple Exponential Smoothing with Walk-Forward Validation: 11.787532205759442
हम देख सकते हैं कि हमारा मॉडल अब बेहतर प्रदर्शन करता है। वास्तव में, प्रवृत्ति का इतनी बारीकी से पालन किया जाता है कि वास्तविक मूल्यों के साथ भूखंड की भविष्यवाणियां अतिव्यापी हो जाती हैं। आप ARIMA मॉडल पर भी वॉक-फ़ॉर वैरिफिकेशन लगाने का प्रयास कर सकते हैं।
2017 में, फेसबुक ने पैगंबर मॉडल को खोल दिया, जो समय श्रृंखला को दिन के स्तर, सप्ताह के स्तर, वर्ष स्तर आदि पर मजबूत कई मौसमी के साथ मॉडलिंग करने में सक्षम था और प्रवृत्ति। यह सहज ज्ञान युक्त पैरामीटर है कि एक नहीं-तो-विशेषज्ञ डेटा वैज्ञानिक बेहतर पूर्वानुमान के लिए ट्यून कर सकते हैं। इसके मूल में, यह एक additive प्रतिगामी मॉडल है जो समय श्रृंखला को मॉडल करने के लिए परिवर्तन बिंदुओं का पता लगा सकता है।
पैगंबर समय श्रृंखला को प्रवृत्ति के घटकों में विघटित करता है $g_{t}$, मौसम $S_{t}$ और छुट्टियां $h_{t}$।
$$y_{t}=g_{t}+s_{t}+h_{t}+\epsilon_{t}$$
कहाँ पे, $\epsilon_{t}$ त्रुटि शब्द है।
टाइम सीरीज़ फोरकास्टिंग जैसे समान प्रभाव और विसंगति का पता लगाने के लिए इसी तरह के पैकेज क्रमशः आर में Google और ट्विटर द्वारा पेश किए गए थे।
अब, हम समय श्रृंखला पर सांख्यिकीय मॉडलिंग से परिचित हैं, लेकिन मशीन लर्निंग अभी सभी क्रोध है, इसलिए कुछ मशीन लर्निंग मॉडल के साथ भी परिचित होना आवश्यक है। हम समय श्रृंखला डोमेन में सबसे लोकप्रिय मॉडल के साथ शुरू करेंगे - लंबी अवधि के मेमोरी मॉडल।
LSTM आवर्तक तंत्रिका नेटवर्क का एक वर्ग है। तो इससे पहले कि हम LSTM पर जा सकें, तंत्रिका नेटवर्क और आवर्तक तंत्रिका नेटवर्क को समझना आवश्यक है।
तंत्रिका जाल
एक कृत्रिम तंत्रिका नेटवर्क जुड़ा न्यूरॉन्स की एक स्तरित संरचना है, जो जैविक तंत्रिका नेटवर्क से प्रेरित है। यह एक एल्गोरिथ्म नहीं है, लेकिन विभिन्न एल्गोरिदम का संयोजन है जो हमें डेटा पर जटिल संचालन करने की अनुमति देता है।
आवर्तक तंत्रिका नेटवर्क
यह तंत्रिका नेटवर्क का एक वर्ग है जो अस्थायी डेटा से निपटने के लिए अनुरूप है। आरएनएन के न्यूरॉन्स में एक सेल राज्य / मेमोरी होती है, और इनपुट को इस आंतरिक स्थिति के अनुसार संसाधित किया जाता है, जो तंत्रिका नेटवर्क में छोरों की मदद से प्राप्त किया जाता है। RNN में 'tanh' परतों के आवर्ती मॉड्यूल (ओं) हैं जो उन्हें जानकारी बनाए रखने की अनुमति देते हैं। हालांकि, लंबे समय तक नहीं, यही वजह है कि हमें LSTM मॉडल की आवश्यकता है।
LSTM
यह विशेष प्रकार का आवर्तक तंत्रिका नेटवर्क है जो डेटा में दीर्घकालिक निर्भरता सीखने में सक्षम है। यह प्राप्त किया जाता है क्योंकि मॉडल के आवर्ती मॉड्यूल में एक दूसरे के साथ बातचीत करने वाली चार परतों का संयोजन होता है।
ऊपर की तस्वीर पीले बक्से में चार तंत्रिका नेटवर्क परतों को दर्शाती है, हरे रंग के हलकों में बिंदु वार ऑपरेटरों, पीले हलकों में इनपुट और नीले घेरे में सेल राज्य। एक LSTM मॉड्यूल में एक सेल राज्य और तीन गेट होते हैं जो उन्हें चुनिंदा इकाइयों में से प्रत्येक से जानकारी को जानने, अनजान या बनाए रखने की शक्ति प्रदान करते हैं। LSTM में कोशिका स्थिति केवल कुछ रैखिक अंतःक्रियाओं की अनुमति के बिना सूचनाओं को इकाइयों के माध्यम से प्रवाहित होने में मदद करती है। प्रत्येक इकाई में एक इनपुट, आउटपुट और एक भूल गेट है जो सेल राज्य में जानकारी जोड़ या हटा सकता है। भूल गेट यह तय करता है कि पिछली सेल स्थिति से कौन सी जानकारी को भूल जाना चाहिए जिसके लिए वह सिग्माइड फ़ंक्शन का उपयोग करता है। इनपुट गेट क्रमशः state सिग्मॉइड ’और the टैन्ह’ के एक बिंदु-वार गुणन ऑपरेशन का उपयोग करके वर्तमान सेल स्थिति में सूचना प्रवाह को नियंत्रित करता है। अंत में, आउटपुट गेट तय करता है कि कौन सी जानकारी अगले छिपे हुए राज्य में पारित की जानी चाहिए
अब जब हमने LSTM मॉडल के आंतरिक कामकाज को समझ लिया है, तो हम इसे लागू करते हैं। एलएसटीएम के कार्यान्वयन को समझने के लिए, हम एक सरल उदाहरण के साथ शुरू करेंगे - एक सीधी रेखा। आइए देखते हैं, अगर LSTM एक सीधी रेखा के संबंध को सीख सकता है और इसकी भविष्यवाणी कर सकता है।
पहले हम एक सीधी रेखा को दर्शाते हुए डेटासेट बनाएँ।
[402] में:
x = numpy.arange (1,500,1)
y = 0.4 * x + 30
plt.plot(x,y)
आउट [402]:
[<matplotlib.lines.Line2D at 0x1eab9d3ee10>]
[403] में:
trainx, testx = x[0:int(0.8*(len(x)))], x[int(0.8*(len(x))):]
trainy, testy = y[0:int(0.8*(len(y)))], y[int(0.8*(len(y))):]
train = numpy.array(list(zip(trainx,trainy)))
test = numpy.array(list(zip(trainx,trainy)))
अब जब डेटा बनाया गया है और ट्रेन और परीक्षण में विभाजित हो गया है। आइए समय श्रृंखला डेटा को लुक-बैक अवधि के मान के अनुसार पर्यवेक्षित शिक्षण डेटा के रूप में परिवर्तित करें, जो अनिवार्य रूप से लैग्स की संख्या है जो समय 'टी' के मूल्य का अनुमान लगाने के लिए देखा जाता है।
तो एक समय श्रृंखला इस प्रकार है -
time variable_x
t1 x1
t2 x2
: :
: :
T xT
जब लुक-बैक पीरियड 1 होता है, तो इसे में बदल दिया जाता है -
x1 x2
x2 x3
: :
: :
xT-1 xT
[४०४] में:
def create_dataset(n_X, look_back):
dataX, dataY = [], []
for i in range(len(n_X)-look_back):
a = n_X[i:(i+look_back), ]
dataX.append(a)
dataY.append(n_X[i + look_back, ])
return numpy.array(dataX), numpy.array(dataY)
[405] में:
look_back = 1
trainx,trainy = create_dataset(train, look_back)
testx,testy = create_dataset(test, look_back)
trainx = numpy.reshape(trainx, (trainx.shape[0], 1, 2))
testx = numpy.reshape(testx, (testx.shape[0], 1, 2))
अब हम अपने मॉडल को प्रशिक्षित करेंगे।
प्रशिक्षण डेटा के छोटे बैचों को नेटवर्क में दिखाया जाता है, जब एक संपूर्ण प्रशिक्षण डेटा को बैचों में मॉडल को दिखाया जाता है और त्रुटि की गणना की जाती है, तो इसे युग कहा जाता है। जिस समय त्रुटि कम हो रही है, उस युग को चलाया जाना चाहिए।
[] में:
from keras.models import Sequential
from keras.layers import LSTM, Dense
model = Sequential()
model.add(LSTM(256, return_sequences = True, input_shape = (trainx.shape[1], 2)))
model.add(LSTM(128,input_shape = (trainx.shape[1], 2)))
model.add(Dense(2))
model.compile(loss = 'mean_squared_error', optimizer = 'adam')
model.fit(trainx, trainy, epochs = 2000, batch_size = 10, verbose = 2, shuffle = False)
model.save_weights('LSTMBasic1.h5')
[407] में:
model.load_weights('LSTMBasic1.h5')
predict = model.predict(testx)
अब देखते हैं कि हमारी भविष्यवाणियां कैसी दिखती हैं।
[408] में:
plt.plot(testx.reshape(398,2)[:,0:1], testx.reshape(398,2)[:,1:2])
plt.plot(predict[:,0:1], predict[:,1:2])
आउट [408]:
[<matplotlib.lines.Line2D at 0x1eac792f048>]
अब, हमें कोशिश करनी चाहिए कि एक समान तरीके से साइन या कोसाइन तरंग का मॉडल बनाएं। आप नीचे दिए गए कोड को चला सकते हैं और परिणाम देखने के लिए मॉडल मापदंडों के साथ खेल सकते हैं।
[409] में:
x = numpy.arange (1,500,1)
y = numpy.sin(x)
plt.plot(x,y)
आउट [409]:
[<matplotlib.lines.Line2D at 0x1eac7a0b3c8>]
[410] में:
trainx, testx = x[0:int(0.8*(len(x)))], x[int(0.8*(len(x))):]
trainy, testy = y[0:int(0.8*(len(y)))], y[int(0.8*(len(y))):]
train = numpy.array(list(zip(trainx,trainy)))
test = numpy.array(list(zip(trainx,trainy)))
[411] में:
look_back = 1
trainx,trainy = create_dataset(train, look_back)
testx,testy = create_dataset(test, look_back)
trainx = numpy.reshape(trainx, (trainx.shape[0], 1, 2))
testx = numpy.reshape(testx, (testx.shape[0], 1, 2))
[] में:
model = Sequential()
model.add(LSTM(512, return_sequences = True, input_shape = (trainx.shape[1], 2)))
model.add(LSTM(256,input_shape = (trainx.shape[1], 2)))
model.add(Dense(2))
model.compile(loss = 'mean_squared_error', optimizer = 'adam')
model.fit(trainx, trainy, epochs = 2000, batch_size = 10, verbose = 2, shuffle = False)
model.save_weights('LSTMBasic2.h5')
[413] में:
model.load_weights('LSTMBasic2.h5')
predict = model.predict(testx)
[४१५] में:
plt.plot(trainx.reshape(398,2)[:,0:1], trainx.reshape(398,2)[:,1:2])
plt.plot(predict[:,0:1], predict[:,1:2])
बाहर [415]:
[<matplotlib.lines.Line2D at 0x1eac7a1f550>]
अब आप किसी भी डेटासेट पर जाने के लिए तैयार हैं।
हमारे लिए एक प्रतिक्रिया और तुलना के रूप में इसका उपयोग करने के लिए एक मॉडल के प्रदर्शन को निर्धारित करना महत्वपूर्ण है। इस ट्यूटोरियल में हमने सबसे लोकप्रिय त्रुटि मीट्रिक रूट माध्य चुकता त्रुटि का उपयोग किया है। विभिन्न अन्य त्रुटि मीट्रिक उपलब्ध हैं। इस अध्याय में संक्षेप में उनकी चर्चा की गई है।
औसत वर्ग त्रुटि
यह अनुमानित मूल्यों और सच्चे मूल्यों के बीच अंतर के वर्ग का औसत है। Sklearn इसे एक फ़ंक्शन के रूप में प्रदान करता है। इसमें वही इकाइयाँ होती हैं जो सही और अनुमानित मूल्यों के अनुसार होती हैं और हमेशा सकारात्मक होती हैं।
$$MSE = \frac{1}{n} \displaystyle\sum\limits_{t=1}^n \lgroup y'_{t}\:-y_{t}\rgroup^{2}$$
कहाँ पे $y'_{t}$ अनुमानित मूल्य है,
$y_{t}$ वास्तविक मूल्य है, और
n परीक्षण सेट में मानों की कुल संख्या है।
यह इस समीकरण से स्पष्ट है कि MSE बड़ी त्रुटियों, या आउटलेर्स के लिए अधिक दंडनीय है।
मीन वर्ग त्रुटि को रूट करें
यह माध्य वर्ग त्रुटि का वर्गमूल है। यह हमेशा सकारात्मक भी होता है और डेटा की सीमा में होता है।
$$RMSE = \sqrt{\frac{1}{n} \displaystyle\sum\limits_{t=1}^n \lgroup y'_{t}-y_{t}\rgroup ^2}$$
कहाँ पे, $y'_{t}$ अनुमानित मूल्य है
$y_{t}$ वास्तविक मूल्य है, और
n परीक्षण सेट में मानों की कुल संख्या है।
यह एकता की शक्ति में है और इसलिए एमएसई की तुलना में अधिक व्याख्यात्मक है। RMSE बड़ी त्रुटियों के लिए अधिक दंडनीय भी है। हमने अपने ट्यूटोरियल में RMSE मीट्रिक का उपयोग किया है।
मीन एब्सोल्यूट एरर
यह अनुमानित मूल्यों और सच्चे मूल्यों के बीच पूर्ण अंतर का औसत है। इसमें पूर्वानुमानित और सही मान वाली इकाइयाँ समान हैं और यह हमेशा सकारात्मक होती है।
$$MAE = \frac{1}{n}\displaystyle\sum\limits_{t=1}^{t=n} | y'{t}-y_{t}\lvert$$
कहाँ पे, $y'_{t}$ अनुमानित मूल्य है,
$y_{t}$ वास्तविक मूल्य है, और
n परीक्षण सेट में मानों की कुल संख्या है।
मीन परसेंटेज एरर
यह अनुमानित मूल्यों और सच्चे मूल्यों के बीच पूर्ण अंतर के औसत का प्रतिशत है, जो वास्तविक मूल्य से विभाजित है।
$$MAPE = \frac{1}{n}\displaystyle\sum\limits_{t=1}^n\frac{y'_{t}-y_{t}}{y_{t}}*100\: \%$$
कहाँ पे, $y'_{t}$ अनुमानित मूल्य है,
$y_{t}$ वास्तविक मान है और n परीक्षण सेट में मानों की कुल संख्या है।
हालांकि, इस त्रुटि का उपयोग करने का नुकसान यह है कि सकारात्मक त्रुटि और नकारात्मक त्रुटियां एक दूसरे को ऑफसेट कर सकती हैं। इसलिए औसत प्रतिशत त्रुटि का उपयोग किया जाता है।
मीन परफेक्ट परसेंटेज एरर
यह अनुमानित मूल्यों और सच्चे मूल्यों के बीच पूर्ण अंतर के औसत का प्रतिशत है, जो वास्तविक मूल्य से विभाजित है।
$$MAPE = \frac{1}{n}\displaystyle\sum\limits_{t=1}^n\frac{|y'_{t}-y_{t}\lvert}{y_{t}}*100\: \%$$
कहाँ पे $y'_{t}$ अनुमानित मूल्य है
$y_{t}$ वास्तविक मूल्य है, और
n परीक्षण सेट में मानों की कुल संख्या है।
हमने इस ट्यूटोरियल में समय श्रृंखला विश्लेषण पर चर्चा की, जिसने हमें यह समझ दी है कि समय श्रृंखला मॉडल पहले मौजूदा टिप्पणियों से प्रवृत्ति और मौसमी को पहचानते हैं और फिर इस प्रवृत्ति और मौसमी के आधार पर एक मूल्य का अनुमान लगाते हैं। ऐसा विश्लेषण विभिन्न क्षेत्रों में उपयोगी है जैसे कि -
Financial Analysis - इसमें बिक्री का पूर्वानुमान, इन्वेंट्री विश्लेषण, स्टॉक मार्केट विश्लेषण, मूल्य आकलन शामिल है।
Weather Analysis - इसमें तापमान का अनुमान, जलवायु परिवर्तन, मौसमी बदलाव की पहचान, मौसम की भविष्यवाणी शामिल है।
Network Data Analysis - इसमें नेटवर्क उपयोग भविष्यवाणी, विसंगति या घुसपैठ का पता लगाना, भविष्य कहनेवाला रखरखाव शामिल है।
Healthcare Analysis - इसमें जनगणना की भविष्यवाणी, बीमा लाभ की भविष्यवाणी, रोगी की निगरानी शामिल है।
मशीन लर्निंग विभिन्न प्रकार की समस्याओं से संबंधित है। वास्तव में, लगभग सभी क्षेत्रों में मशीन सीखने की मदद से स्वचालित या बेहतर बनाने की गुंजाइश है। कुछ ऐसी समस्याएं जिन पर बहुत काम किया जा रहा है, नीचे दी गई हैं।
समय श्रृंखला डेटा
यह वह डेटा है जो समय के अनुसार बदलता रहता है, और इसलिए समय इसमें एक महत्वपूर्ण भूमिका निभाता है, जिसकी हमने बड़े पैमाने पर इस ट्यूटोरियल में चर्चा की।
गैर-समय श्रृंखला डेटा
यह समय से स्वतंत्र डेटा है, और एमएल समस्याओं का एक बड़ा प्रतिशत nontime श्रृंखला डेटा पर हैं। सादगी के लिए, हम इसे आगे वर्गीकृत करेंगे -
Numerical Data - कंप्यूटर, मनुष्यों के विपरीत, केवल संख्याओं को समझते हैं, इसलिए सभी प्रकार के डेटा को अंततः मशीन लर्निंग के लिए संख्यात्मक डेटा में बदल दिया जाता है, उदाहरण के लिए, छवि डेटा को (r, b, g) मानों में बदल दिया जाता है, अक्षर ASCII कोड या शब्दों में बदल दिए जाते हैं संख्याओं को अनुक्रमित किया जाता है, वाक् डेटा को संख्यात्मक डेटा वाली mfcc फ़ाइलों में परिवर्तित किया जाता है।
Image Data - कंप्यूटर की दृष्टि ने कंप्यूटर की दुनिया में क्रांति ला दी है, इसमें चिकित्सा, उपग्रह इमेजिंग आदि के क्षेत्र में विभिन्न अनुप्रयोग हैं।
Text Data- नेचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) का उपयोग टेक्स्ट वर्गीकरण, पैराफेरेस डिटेक्शन और लैंग्वेज सारांश के लिए किया जाता है। यह वही है जो Google और Facebook को स्मार्ट बनाता है।
Speech Data- स्पीच प्रोसेसिंग में स्पीच रिकग्निशन और सेंटीमेंट की समझ होती है। यह कंप्यूटर को मानव जैसे गुण प्रदान करने में महत्वपूर्ण भूमिका निभाता है।