पायथन के साथ एआई - टाइम सीरीज डेटा का विश्लेषण

किसी दिए गए इनपुट अनुक्रम में अगले की भविष्यवाणी करना मशीन सीखने में एक और महत्वपूर्ण अवधारणा है। यह अध्याय आपको समय श्रृंखला डेटा के विश्लेषण के बारे में विस्तृत विवरण देता है।

परिचय

टाइम सीरीज़ डेटा का मतलब उस डेटा से है जो किसी विशेष समय अंतराल की श्रृंखला में है। यदि हम मशीन लर्निंग में अनुक्रम भविष्यवाणी का निर्माण करना चाहते हैं, तो हमें अनुक्रमिक डेटा और समय से निपटना होगा। श्रृंखला डेटा अनुक्रमिक डेटा का एक सार है। डेटा का ऑर्डर करना अनुक्रमिक डेटा की एक महत्वपूर्ण विशेषता है।

अनुक्रम विश्लेषण या समय श्रृंखला विश्लेषण की बुनियादी अवधारणा

अनुक्रम विश्लेषण या समय श्रृंखला विश्लेषण पहले दिए गए अवलोकन के आधार पर किसी दिए गए इनपुट अनुक्रम में अगले की भविष्यवाणी करना है। भविष्यवाणी कुछ भी हो सकती है जो आगे आ सकती है: एक प्रतीक, एक संख्या, अगले दिन का मौसम, भाषण में अगला कार्यकाल आदि। स्टॉक मार्केट विश्लेषण, मौसम पूर्वानुमान और उत्पाद सिफारिशों जैसे अनुप्रयोगों में अनुक्रम विश्लेषण बहुत उपयोगी हो सकता है।

Example

अनुक्रम भविष्यवाणी को समझने के लिए निम्नलिखित उदाहरण पर विचार करें। यहाँA,B,C,D दिए गए मूल्य हैं और आपको मूल्य का अनुमान लगाना होगा E अनुक्रम भविष्यवाणी मॉडल का उपयोग करना।

उपयोगी पैकेज स्थापित करना

पायथन का उपयोग करते हुए समय श्रृंखला डेटा विश्लेषण के लिए, हमें निम्नलिखित पैकेज स्थापित करने की आवश्यकता है -

पांडा

पंडों एक खुला स्रोत बीएसडी-लाइसेंस प्राप्त पुस्तकालय है जो उच्च-प्रदर्शन, डेटा संरचना के उपयोग में आसानी और पायथन के लिए डेटा विश्लेषण उपकरण प्रदान करता है। आप निम्न कमांड की सहायता से पंडों को स्थापित कर सकते हैं -

pip install pandas

यदि आप एनाकोंडा का उपयोग कर रहे हैं और का उपयोग करके स्थापित करना चाहते हैं conda पैकेज मैनेजर, तो आप निम्न कमांड का उपयोग कर सकते हैं -

conda install -c anaconda pandas

hmmlearn

यह एक खुला स्रोत बीएसडी-लाइसेंस प्राप्त पुस्तकालय है जिसमें पायथन में हिडन मार्कोव मॉडल (एचएमएम) सीखने के लिए सरल एल्गोरिदम और मॉडल शामिल हैं। आप इसे निम्न कमांड की सहायता से स्थापित कर सकते हैं -

pip install hmmlearn

यदि आप एनाकोंडा का उपयोग कर रहे हैं और का उपयोग करके स्थापित करना चाहते हैं conda पैकेज मैनेजर, तो आप निम्न कमांड का उपयोग कर सकते हैं -

conda install -c omnia hmmlearn

PyStruct

यह एक संरचित शिक्षा और भविष्यवाणी पुस्तकालय है। PyStruct में कार्यान्वित लर्निंग एल्गोरिदम में सशर्त यादृच्छिक फ़ील्ड (CRF), अधिकतम-मार्जिन मार्कोव यादृच्छिक नेटवर्क (M3N) या संरचनात्मक समर्थन वेक्टर मशीनें जैसे नाम हैं। आप इसे निम्न कमांड की सहायता से स्थापित कर सकते हैं -

pip install pystruct

CVXOPT

इसका उपयोग पायथन प्रोग्रामिंग भाषा के आधार पर उत्तल अनुकूलन के लिए किया जाता है। यह एक मुफ्त सॉफ्टवेयर पैकेज भी है। आप इसे निम्न आदेश की सहायता से स्थापित कर सकते हैं -

pip install cvxopt

यदि आप एनाकोंडा का उपयोग कर रहे हैं और का उपयोग करके स्थापित करना चाहते हैं conda पैकेज मैनेजर, तो आप निम्न कमांड का उपयोग कर सकते हैं -

conda install -c anaconda cvdoxt

पंडों: टाइम सीरीज़ डेटा से हैंडलिंग, स्लाइसिंग और एक्सट्रेक्टिंग स्टेटिस्टिक

यदि आप समय श्रृंखला डेटा के साथ काम करना चाहते हैं तो पंडास एक बहुत ही उपयोगी उपकरण है। पंडों की मदद से, आप निम्नलिखित कार्य कर सकते हैं -

  • का उपयोग करके दिनांक की एक श्रृंखला बनाएँ pd.date_range पैकेज

  • सूचकांक पांडा का उपयोग करके तारीखों के साथ pd.Series पैकेज

  • का उपयोग करके पुन: नमूने का प्रदर्शन करें ts.resample पैकेज

  • आवृत्ति बदलें

उदाहरण

निम्नलिखित उदाहरण आपको पंडों का उपयोग करके समय श्रृंखला डेटा को संभालने और स्लाइस करने से पता चलता है। ध्यान दें कि यहां हम मासिक आर्कटिक डेटा का उपयोग कर रहे हैं, जिसे मासिक . ao.index.b50.current.ascii से डाउनलोड किया जा सकता है और इसे हमारे उपयोग के लिए पाठ प्रारूप में परिवर्तित किया जा सकता है।

समय श्रृंखला डेटा को संभालना

समय श्रृंखला डेटा को संभालने के लिए, आपको निम्नलिखित चरण करने होंगे -

पहले चरण में निम्नलिखित पैकेज आयात करना शामिल है -

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

अगला, एक फ़ंक्शन को परिभाषित करें जो इनपुट फ़ाइल से डेटा पढ़ेगा, जैसा कि नीचे दिए गए कोड में दिखाया गया है -

def read_data(input_file):
   input_data = np.loadtxt(input_file, delimiter = None)

अब, इस डेटा को टाइम सीरीज़ में बदलें। इसके लिए, हमारे समय श्रृंखला की तारीखों की सीमा बनाएं। इस उदाहरण में, हम एक महीने को डेटा की आवृत्ति के रूप में रखते हैं। हमारी फाइल में डेटा है जो जनवरी 1950 से शुरू होता है।

dates = pd.date_range('1950-01', periods = input_data.shape[0], freq = 'M')

इस चरण में, हम पंडों श्रृंखला की मदद से समय श्रृंखला डेटा बनाते हैं, जैसा कि नीचे दिखाया गया है -

output = pd.Series(input_data[:, index], index = dates)	
return output
	
if __name__=='__main__':

यहाँ दिखाए अनुसार इनपुट फ़ाइल का पथ दर्ज करें -

input_file = "/Users/admin/AO.txt"

अब, कॉलम को प्रारूपिक प्रारूप में बदलें, जैसा कि यहां दिखाया गया है -

timeseries = read_data(input_file)

अंत में, दिखाए गए आदेशों का उपयोग करके डेटा को प्लॉट और विज़ुअलाइज़ करें -

plt.figure()
timeseries.plot()
plt.show()

आप निम्न चित्र में दिखाए गए भूखंडों का अवलोकन करेंगे -

Slicing समय श्रृंखला डेटा

स्लाइसिंग में समय श्रृंखला डेटा के केवल कुछ भाग को पुनर्प्राप्त करना शामिल है। उदाहरण के एक भाग के रूप में, हम केवल 1980 से 1990 तक के डेटा को स्लाइस कर रहे हैं। इस कार्य को करने वाले निम्नलिखित कोड को देखें -

timeseries['1980':'1990'].plot()
   <matplotlib.axes._subplots.AxesSubplot at 0xa0e4b00>

plt.show()

जब आप टाइम सीरीज़ के डेटा को स्लाइस करने के लिए कोड चलाते हैं, तो आप नीचे दिए गए ग्राफ का अवलोकन कर सकते हैं जैसा कि यहाँ चित्र में दिखाया गया है -

टाइम सीरीज़ डेटा से स्टेटिस्टिक निकालना

आपको दिए गए डेटा में से कुछ आँकड़े निकालने होंगे, उन मामलों में जहाँ आपको कुछ महत्वपूर्ण निष्कर्ष निकालना होगा। माध्य, विचरण, सहसंबंध, अधिकतम मूल्य और न्यूनतम मूल्य ऐसे कुछ आँकड़े हैं। यदि आप एक निश्चित समय श्रृंखला डेटा से ऐसे आँकड़े निकालना चाहते हैं तो आप निम्न कोड का उपयोग कर सकते हैं -

मीन

आप उपयोग कर सकते हैं mean() मतलब खोजने के लिए फ़ंक्शन, जैसा कि यहां दिखाया गया है -

timeseries.mean()

तब जिस आउटपुट पर आप चर्चा करेंगे उसके उदाहरण पर चर्चा की जाएगी -

-0.11143128165238671

ज्यादा से ज्यादा

आप उपयोग कर सकते हैं max() फ़ंक्शन, अधिकतम खोजने के लिए, जैसा कि यहां दिखाया गया है -

timeseries.max()

तब जिस आउटपुट पर आप चर्चा करेंगे उसके उदाहरण पर चर्चा की जाएगी -

3.4952999999999999

न्यूनतम

आप न्यूनतम (खोजने के लिए) फ़ंक्शन का उपयोग कर सकते हैं, जैसा कि यहां दिखाया गया है -

timeseries.min()

तब जिस आउटपुट पर आप चर्चा करेंगे उसके उदाहरण पर चर्चा की जाएगी -

-4.2656999999999998

एक ही बार में सब कुछ पा लेना

यदि आप एक बार में सभी आँकड़ों की गणना करना चाहते हैं, तो आप इसका उपयोग कर सकते हैं describe() कार्य यहाँ दिखाया गया है -

timeseries.describe()

तब जिस आउटपुट पर आप चर्चा करेंगे उसके उदाहरण पर चर्चा की जाएगी -

count   817.000000
mean     -0.111431
std       1.003151
min      -4.265700
25%      -0.649430
50%      -0.042744
75%       0.475720
max       3.495300
dtype: float64

फिर से नमूने

आप डेटा को एक अलग समय आवृत्ति के लिए फिर से शुरू कर सकते हैं। पुन: सैंपलिंग करने के दो मापदंड हैं -

  • समय सीमा
  • Method

माध्य () के साथ पुनः नमूना

आप माध्य () विधि के साथ डेटा को फिर से भरने के लिए निम्न कोड का उपयोग कर सकते हैं, जो कि डिफ़ॉल्ट विधि है -

timeseries_mm = timeseries.resample("A").mean()
timeseries_mm.plot(style = 'g--')
plt.show()

तब, आप निम्न ग्राफ को माध्य () का उपयोग करके रेज़मैपलिंग के आउटपुट के रूप में देख सकते हैं -

माध्यिका के साथ पुनः नमूनाकरण ()

आप निम्न कोड का उपयोग करके डेटा का उपयोग कर सकते हैं median()विधि -

timeseries_mm = timeseries.resample("A").median()
timeseries_mm.plot()
plt.show()

फिर, आप निम्न ग्राफ को माध्यिका () के साथ पुन: नमूने के उत्पादन के रूप में देख सकते हैं -

रॉलिंग मीन

रोलिंग (चलती) माध्य की गणना के लिए आप निम्नलिखित कोड का उपयोग कर सकते हैं -

timeseries.rolling(window = 12, center = False).mean().plot(style = '-g')
plt.show()

फिर, आप निम्नलिखित ग्राफ को रोलिंग के आउटपुट के रूप में देख सकते हैं (चलती) माध्य -

छिपे हुए मार्कोव मॉडल (HMM) द्वारा अनुक्रमिक डेटा का विश्लेषण

HMM एक आँकड़ा मॉडल है जो व्यापक रूप से निरंतरता और विस्तारशीलता जैसे समय श्रृंखला स्टॉक मार्केट विश्लेषण, स्वास्थ्य जांच और भाषण पहचान के लिए उपयोग किया जाता है। यह अनुभाग हिडन मार्कोव मॉडल (एचएमएम) का उपयोग करके अनुक्रमिक डेटा का विश्लेषण करने के साथ विस्तार से संबंधित है।

छिपे हुए मार्कोव मॉडल (HMM)

एचएमएम एक स्टोकेस्टिक मॉडल है जो मार्कोव श्रृंखला की अवधारणा पर आधारित है, इस धारणा के आधार पर बनाया गया है कि भविष्य के आंकड़ों की संभावना केवल वर्तमान प्रक्रिया स्थिति पर निर्भर करती है, बल्कि किसी भी राज्य में जो पहले थी। उदाहरण के लिए, जब एक सिक्का उछाला जाता है, तो हम यह नहीं कह सकते कि पांचवें टॉस का परिणाम एक सिर होगा। ऐसा इसलिए है क्योंकि एक सिक्के में कोई मेमोरी नहीं होती है और अगला परिणाम पिछले परिणाम पर निर्भर नहीं करता है।

गणितीय रूप से, HMM में निम्नलिखित चर शामिल हैं -

स्टेट्स (S)

यह एचएमएम में मौजूद छिपे या अव्यक्त राज्यों का एक समूह है। यह एस द्वारा चिह्नित है।

आउटपुट प्रतीक (O)

यह एचएमएम में मौजूद संभावित आउटपुट प्रतीकों का एक समूह है। इसे O द्वारा निरूपित किया जाता है।

राज्य संक्रमण संभावना मैट्रिक्स (ए)

यह एक राज्य से दूसरे राज्यों में संक्रमण करने की संभावना है। यह ए द्वारा चिह्नित है।

अवलोकन उत्सर्जन संभाव्यता मैट्रिक्स (B)

किसी विशेष राज्य में प्रतीक का उत्सर्जन / अवलोकन करने की संभावना है। इसे B द्वारा दर्शाया गया है।

पूर्व संभाव्यता मैट्रिक्स (()

यह सिस्टम के विभिन्न राज्यों से किसी विशेष राज्य में शुरू होने की संभावना है। इसे Π द्वारा निरूपित किया जाता है।

इसलिए, एक HMM के रूप में परिभाषित किया जा सकता है = (S,O,A,B,),

कहाँ पे,

  • S = {s1,s2,…,sN} एन संभव राज्यों का एक सेट है,
  • O = {o1,o2,…,oM} एम संभव अवलोकन प्रतीकों का एक सेट है,
  • A एक है NN राज्य संक्रमण संभाव्यता मैट्रिक्स (टीपीएम),
  • B एक है NM अवलोकन या उत्सर्जन संभावना मैट्रिक्स (EPM),
  • π एक आयामी प्रारंभिक राज्य संभाव्यता वितरण वेक्टर है।

उदाहरण: स्टॉक मार्केट डेटा का विश्लेषण

इस उदाहरण में, हम स्टॉक मार्केट के डेटा का विश्लेषण करने जा रहे हैं, चरण दर चरण यह जानने के लिए कि एचएमएम क्रमिक या समय श्रृंखला डेटा के साथ कैसे काम करता है। कृपया ध्यान दें कि हम पायथन में इस उदाहरण को लागू कर रहे हैं।

नीचे दिखाए अनुसार आवश्यक पैकेज आयात करें -

import datetime
import warnings

अब, स्टॉक मार्केट डेटा का उपयोग करें matpotlib.finance पैकेज, जैसा कि यहाँ दिखाया गया है -

import numpy as np
from matplotlib import cm, pyplot as plt
from matplotlib.dates import YearLocator, MonthLocator
try:
   from matplotlib.finance import quotes_historical_yahoo_och1
except ImportError:
   from matplotlib.finance import (
      quotes_historical_yahoo as quotes_historical_yahoo_och1)

from hmmlearn.hmm import GaussianHMM

एक आरंभ तिथि और अंतिम तिथि से डेटा लोड करें, अर्थात दो विशिष्ट तिथियों के बीच जैसा कि यहाँ दिखाया गया है -

start_date = datetime.date(1995, 10, 10)
end_date = datetime.date(2015, 4, 25)
quotes = quotes_historical_yahoo_och1('INTC', start_date, end_date)

इस चरण में, हम हर दिन समापन उद्धरण निकालेंगे। इसके लिए, निम्नलिखित कमांड का उपयोग करें -

closing_quotes = np.array([quote[2] for quote in quotes])

अब, हम हर दिन ट्रेड किए गए शेयरों की मात्रा निकालेंगे। इसके लिए, निम्नलिखित कमांड का उपयोग करें -

volumes = np.array([quote[5] for quote in quotes])[1:]

नीचे दिखाए गए कोड का उपयोग करते हुए, स्टॉक की कीमतों को बंद करने का प्रतिशत अंतर लें -

diff_percentages = 100.0 * np.diff(closing_quotes) / closing_quotes[:-]
dates = np.array([quote[0] for quote in quotes], dtype = np.int)[1:]
training_data = np.column_stack([diff_percentages, volumes])

इस चरण में, गाऊसी एचएमएम बनाएं और प्रशिक्षित करें। इसके लिए, निम्न कोड का उपयोग करें -

hmm = GaussianHMM(n_components = 7, covariance_type = 'diag', n_iter = 1000)
with warnings.catch_warnings():
   warnings.simplefilter('ignore')
   hmm.fit(training_data)

अब, दिखाए गए आदेशों का उपयोग करके, एचएमएम मॉडल का उपयोग करके डेटा उत्पन्न करें -

num_samples = 300
samples, _ = hmm.sample(num_samples)

अंत में, इस चरण में, हम ग्राफ के रूप में आउटपुट के रूप में ट्रेड किए गए शेयरों के अंतर प्रतिशत और वॉल्यूम की साजिश करते हैं और कल्पना करते हैं।

अंतर कोड की साजिश रचने और कल्पना करने के लिए निम्न कोड का उपयोग करें -

plt.figure()
plt.title('Difference percentages')
plt.plot(np.arange(num_samples), samples[:, 0], c = 'black')

ट्रेड किए गए शेयरों की मात्रा की कल्पना और कल्पना करने के लिए निम्न कोड का उपयोग करें -

plt.figure()
plt.title('Volume of shares')
plt.plot(np.arange(num_samples), samples[:, 1], c = 'black')
plt.ylim(ymin = 0)
plt.show()