समय श्रृंखला - Naive Methods

परिचय

Naive Methods जैसे कि समय पर 't' की अनुमानित वैल्यू मान लेना 't-1' या श्रृंखला के रोलिंग माध्य के समय वैरिएबल का वास्तविक मान होना है, का उपयोग यह करने के लिए किया जाता है कि सांख्यिकीय मॉडल और मशीन लर्निंग मॉडल कितना अच्छा प्रदर्शन कर सकते हैं और उनकी जरूरत पर जोर दें।

इस अध्याय में, हम अपने समय-श्रृंखला डेटा की सुविधाओं में से एक पर इन मॉडलों की कोशिश करते हैं।

पहले हम अपने डेटा की 'तापमान' विशेषता और इसके आस-पास के विचलन को देखेंगे। अधिकतम और न्यूनतम तापमान मान देखने के लिए भी उपयोगी है। हम यहां खसखस ​​लाइब्रेरी की कार्यप्रणाली का उपयोग कर सकते हैं।

आंकड़े दिखा रहा है

[१३५] में:

import numpy
print (
   'Mean: ',numpy.mean(df['T']), '; 
   Standard Deviation: ',numpy.std(df['T']),'; 
   \nMaximum Temperature: ',max(df['T']),'; 
   Minimum Temperature: ',min(df['T'])
)

हमारे पास इक्वी-स्प्रेड टाइमलाइन के सभी 9357 अवलोकनों के आंकड़े हैं जो डेटा को समझने के लिए हमारे लिए उपयोगी हैं।

अब हम पहली भोली विधि का प्रयास करेंगे, पूर्व समय में वास्तविक मूल्य के बराबर वर्तमान समय में अनुमानित मूल्य निर्धारित करते हुए और इस विधि के प्रदर्शन को निर्धारित करने के लिए इसके लिए मूल माध्य चुकता त्रुटि (RMSE) की गणना करें।

1 सेंट भोली विधि दिखा रहा है

[136] में:

df['T']
df['T_t-1'] = df['T'].shift(1)

[१३ In] में:

df_naive = df[['T','T_t-1']][1:]

[१३ In] में:

from sklearn import metrics
from math import sqrt

true = df_naive['T']
prediction = df_naive['T_t-1']
error = sqrt(metrics.mean_squared_error(true,prediction))
print ('RMSE for Naive Method 1: ', error)

आरएएमएसई फॉर नाइव मेथड 1: 12.901140576492974

आइए हम अगली भोली विधि देखें, जहाँ वर्तमान समय में अनुमानित मूल्य, समयावधि से पहले के समय के बराबर है। हम इस विधि के लिए RMSE की गणना भी करेंगे।

2 एन डी भोली विधि दिखा रहा है

[१३ ९] में:

df['T_rm'] = df['T'].rolling(3).mean().shift(1)
df_naive = df[['T','T_rm']].dropna()

[१४०] में:

true = df_naive['T']
prediction = df_naive['T_rm']
error = sqrt(metrics.mean_squared_error(true,prediction))
print ('RMSE for Naive Method 2: ', error)

RMSE for Naive Method 2: 14.957633272839242

यहां, आप पिछली बार की कई समयावधियों के साथ प्रयोग कर सकते हैं जिन्हें 'लैग्स' भी कहा जाता है, जिस पर आप विचार करना चाहते हैं, जिसे यहां 3 रखा गया है। इस डेटा में यह देखा जा सकता है कि जैसे-जैसे आप लैग्स की संख्या बढ़ाते हैं और त्रुटि बढ़ती जाती है। यदि लैग को 1 रखा जाता है, तो यह पहले की भोली विधि के समान है।

Points to Note

  • आप रूट माध्य चुकता त्रुटि की गणना के लिए एक बहुत ही सरल कार्य लिख सकते हैं। यहां, हमने पैकेज 'स्केलेर' से माध्य चुकता त्रुटि फ़ंक्शन का उपयोग किया है और फिर इसकी वर्गमूल ली है।

  • पांडा df में ['column_name'] को df.column_name के रूप में भी लिखा जा सकता है, हालाँकि इस डेटासेट के लिए df.T df ['T'] के समान काम नहीं करेगा क्योंकि df.T एक डेटाफ़्रेम ट्रांसफ़ॉर्म करने का कार्य है। इसलिए केवल df ['T'] का उपयोग करें या दूसरे सिंटैक्स का उपयोग करने से पहले इस कॉलम का नाम बदलने पर विचार करें।