時系列-クイックガイド
時系列は、特定の期間にわたる一連の観測です。単変量時系列は、ある期間の周期的な時間インスタンスで単一の変数によって取得された値で構成され、多変量の時系列は、ある期間の同じ周期的な時間インスタンスで複数の変数によって取得された値で構成されます。私たち全員が日常的に遭遇する時系列の最も単純な例は、日、週、月、または年を通しての気温の変化です。
時間データの分析は、変数が時間の経過とともにどのように変化するか、または他の変数の値の変化にどのように依存するかについての有用な洞察を与えることができます。以前の値および/または他の変数に対する変数のこの関係は、時系列予測のために分析することができ、人工知能に多くの用途があります。
ユーザーが機械学習の問題を処理または開発するには、プログラミング言語の基本的な理解が不可欠です。機械学習に取り組みたい人に適したプログラミング言語のリストを以下に示します-
Python
これは高レベルのインタープリター型プログラミング言語であり、高速でコーディングが簡単です。Pythonは、手続き型プログラミングパラダイムまたはオブジェクト指向プログラミングパラダイムのいずれかに従うことができます。さまざまなライブラリが存在するため、複雑な手順の実装が簡単になります。このチュートリアルでは、Pythonでコーディングし、時系列モデリングに役立つ対応するライブラリについては、次の章で説明します。
R
Pythonと同様に、Rはインタープリター型マルチパラダイム言語であり、統計計算とグラフィックスをサポートします。さまざまなパッケージにより、Rで機械学習モデリングを簡単に実装できます。
Java
これは、解釈されたオブジェクト指向プログラミング言語であり、幅広いパッケージの可用性と高度なデータ視覚化技術で広く知られています。
C / C ++
これらはコンパイルされた言語であり、最も古いプログラミング言語の2つです。これらの言語は、MLアルゴリズムの実装を簡単にカスタマイズできるため、既存のアプリケーションにML機能を組み込むために好まれることがよくあります。
MATLAB
MATrix LABoratoryは、行列を操作するための機能を提供するマルチパラダイム言語です。複雑な問題の数学演算が可能です。これは主に数値演算に使用されますが、一部のパッケージでは、グラフィカルなマルチドメインシミュレーションとモデルベースの設計も可能です。
機械学習の問題に適した他のプログラミング言語には、JavaScript、LISP、Prolog、SQL、Scala、Julia、SASなどがあります。
Pythonは、その記述しやすく理解しやすいコード構造とさまざまなオープンソースライブラリにより、機械学習を実行する個人の間で定評があります。次の章で使用するこのようなオープンソースライブラリのいくつかを以下に紹介します。
NumPy
数値Pythonは、科学計算に使用されるライブラリです。これは、N次元配列オブジェクトで機能し、サイズ、形状、平均、標準偏差、最小、最大などの基本的な数学関数に加えて、線形代数関数やフーリエ変換などのより複雑な関数を提供します。このチュートリアルを進めるにつれ、これらについて詳しく学習します。
パンダ
このライブラリは、シリーズ、データフレーム、パネルなどの非常に効率的で使いやすいデータ構造を提供します。単なるデータの収集と準備からデータ分析まで、Pythonの機能を強化しました。PandasとNumPyの2つのライブラリを使用すると、小さいデータセットから非常に大きいデータセットまでの操作が非常に簡単になります。これらの関数の詳細については、このチュートリアルに従ってください。
SciPy
Science Pythonは、科学技術コンピューティングに使用されるライブラリです。最適化、信号および画像処理、積分、補間、線形代数の機能を提供します。このライブラリは、機械学習を実行するときに便利です。このチュートリアルを進める際に、これらの機能について説明します。
Scikit Learn
このライブラリは、さまざまなカスタマイズ可能な回帰、分類、およびクラスタリングモデルが含まれているため、統計モデリング、機械学習、ディープラーニングに広く使用されているSciPyツールキットです。Numpy、Pandas、その他のライブラリとうまく連携し、使いやすくなっています。
Statsmodels
Scikit Learnと同様に、このライブラリは統計データの探索と統計モデリングに使用されます。また、他のPythonライブラリでもうまく動作します。
Matplotlib
このライブラリは、折れ線グラフ、棒グラフ、ヒートマップ、散布図、ヒストグラムなどのさまざまな形式でのデータの視覚化に使用されます。プロットからラベル付けまで、グラフに関連するすべての機能が含まれています。このチュートリアルを進める際に、これらの機能について説明します。
これらのライブラリは、あらゆる種類のデータを使用した機械学習から始めるために非常に重要です。
上記のライブラリに加えて、時系列を処理するために特に重要な別のライブラリは次のとおりです。
日付時刻
このライブラリは、datetimeとcalendarの2つのモジュールを備えており、時刻の読み取り、書式設定、および操作に必要なすべての日時機能を提供します。
これらのライブラリは、次の章で使用します。
時系列は、等間隔の時間間隔でインデックス付けされた一連の観測値です。したがって、順序と連続性はどの時系列でも維持する必要があります。
使用するデータセットは、ひどく汚染されたイタリアの都市の大気質について、約1年間の1時間ごとのデータを持つ多変量時系列です。データセットは以下のリンクからダウンロードできます-https://archive.ics.uci.edu/ml/datasets/air+quality。
次のことを確認する必要があります-
時系列は等間隔であり、
冗長な値やギャップはありません。
時系列が連続していない場合は、アップサンプリングまたはダウンサンプリングできます。
df.head()を表示しています
[122]で:
import pandas
[123]で:
df = pandas.read_csv("AirQualityUCI.csv", sep = ";", decimal = ",")
df = df.iloc[ : , 0:14]
[124]で:
len(df)
アウト[124]:
9471
[125]で:
df.head()
アウト[125]:
時系列を前処理するために、データセットにNaN(NULL)値がないことを確認します。存在する場合は、0または平均、あるいは先行または後続の値に置き換えることができます。時系列の連続性が維持されるように、ドロップするよりも交換することをお勧めします。ただし、データセットでは、最後のいくつかの値はNULLのように見えるため、削除しても連続性には影響しません。
NaN(Not-a-Number)の削除
[126]で:
df.isna().sum()
Out[126]:
Date 114
Time 114
CO(GT) 114
PT08.S1(CO) 114
NMHC(GT) 114
C6H6(GT) 114
PT08.S2(NMHC) 114
NOx(GT) 114
PT08.S3(NOx) 114
NO2(GT) 114
PT08.S4(NO2) 114
PT08.S5(O3) 114
T 114
RH 114
dtype: int64
[127]で:
df = df[df['Date'].notnull()]
[128]で:
df.isna().sum()
アウト[128]:
Date 0
Time 0
CO(GT) 0
PT08.S1(CO) 0
NMHC(GT) 0
C6H6(GT) 0
PT08.S2(NMHC) 0
NOx(GT) 0
PT08.S3(NOx) 0
NO2(GT) 0
PT08.S4(NO2) 0
PT08.S5(O3) 0
T 0
RH 0
dtype: int64
時系列は通常、時間に対する折れ線グラフとしてプロットされます。そのために、日付と時刻の列を組み合わせて、文字列から日時オブジェクトに変換します。これは、日時ライブラリを使用して実行できます。
日時オブジェクトへの変換
[129]で:
df['DateTime'] = (df.Date) + ' ' + (df.Time)
print (type(df.DateTime[0]))
<class 'str'>
[130]で:
import datetime
df.DateTime = df.DateTime.apply(lambda x: datetime.datetime.strptime(x, '%d/%m/%Y %H.%M.%S'))
print (type(df.DateTime[0]))
<クラス 'pandas._libs.tslibs.timestamps.Timestamp'>
温度のようないくつかの変数が時間の変化とともにどのように変化するかを見てみましょう。
プロットを表示
[131]で:
df.index = df.DateTime
[132]で:
import matplotlib.pyplot as plt
plt.plot(df['T'])
アウト[132]:
[<matplotlib.lines.Line2D at 0x1eaad67f780>]
[208]で:
plt.plot(df['C6H6(GT)'])
アウト[208]:
[<matplotlib.lines.Line2D at 0x1eaaeedff28>]
箱ひげ図は、データセットに関する多くの情報を1つのグラフにまとめることができるもう1つの便利な種類のグラフです。これは、1つまたは複数の変数の平均、25%および75%の四分位数、および外れ値を示しています。外れ値の数が少なく、平均から非常に離れている場合は、平均値または75%の四分位値に設定することで外れ値を排除できます。
箱ひげ図の表示
[134]で:
plt.boxplot(df[['T','C6H6(GT)']].values)
アウト[134]:
{'whiskers': [<matplotlib.lines.Line2D at 0x1eaac16de80>,
<matplotlib.lines.Line2D at 0x1eaac16d908>,
<matplotlib.lines.Line2D at 0x1eaac177a58>,
<matplotlib.lines.Line2D at 0x1eaac177cf8>],
'caps': [<matplotlib.lines.Line2D at 0x1eaac16d2b0>,
<matplotlib.lines.Line2D at 0x1eaac16d588>,
<matplotlib.lines.Line2D at 0x1eaac1a69e8>,
<matplotlib.lines.Line2D at 0x1eaac1a64a8>],
'boxes': [<matplotlib.lines.Line2D at 0x1eaac16dc50>,
<matplotlib.lines.Line2D at 0x1eaac1779b0>],
'medians': [<matplotlib.lines.Line2D at 0x1eaac16d4a8>,
<matplotlib.lines.Line2D at 0x1eaac1a6c50>],
'fliers': [<matplotlib.lines.Line2D at 0x1eaac177dd8>,
<matplotlib.lines.Line2D at 0x1eaac1a6c18>],'means': []
}
前書き
時系列には、以下の4つの要素があります。
Level −これは系列が変化する平均値です。
Trend −これは、時間の経過に伴う変数の増加または減少の動作です。
Seasonality −時系列の周期的な振る舞いです。
Noise −環境要因により追加された観測値の誤差です。
時系列モデリング手法
これらのコンポーネントをキャプチャするために、一般的な時系列モデリング手法がいくつかあります。このセクションでは、各手法について簡単に紹介しますが、次の章で詳しく説明します。
ナイーブな方法
これらは単純な推定手法です。たとえば、予測値には、時間依存変数の前の値の平均に等しい値、または前の実際の値が与えられます。これらは、高度なモデリング手法との比較に使用されます。
自己回帰
自己回帰は、前の期間の値の関数として将来の期間の値を予測します。自己回帰の予測は、ナイーブな方法の予測よりもデータに適合している可能性がありますが、季節性を説明できない可能性があります。
ARIMAモデル
自己回帰和分移動平均は、変数の値を、定常時系列の前の時間ステップでの前の値と残余誤差の線形関数としてモデル化します。ただし、実世界のデータは非定常で季節性がある可能性があるため、Seasonal-ARIMAおよびFractional-ARIMAが開発されました。ARIMAは単変量時系列で動作し、VARIMAが導入された複数の変数を処理します。
指数平滑法
これは、変数の値を前の値の指数加重線形関数としてモデル化します。この統計モデルは、傾向と季節性も処理できます。
LSTM
長短期記憶モデル(LSTM)は、長期依存性を説明するために時系列に使用されるリカレントニューラルネットワークです。多変量時系列の傾向をキャプチャするために、大量のデータを使用してトレーニングできます。
上記のモデリング手法は、時系列回帰に使用されます。次の章では、これらすべてを1つずつ調べてみましょう。
前書き
統計モデルまたは機械学習モデルには、データのモデル化方法に大きく影響するいくつかのパラメーターがあります。たとえば、ARIMAにはp、d、qの値があります。これらのパラメータは、実際の値とモデル化された値の間の誤差が最小になるように決定されます。パラメータキャリブレーションは、モデルフィッティングの最も重要で時間のかかるタスクであると言われています。したがって、最適なパラメータを選択することが非常に重要です。
パラメータの校正方法
パラメータを調整するには、さまざまな方法があります。このセクションでは、それらのいくつかについて詳しく説明します。
ヒットアンドトライ
モデルをキャリブレーションする一般的な方法の1つは、時系列を視覚化することから始めて、いくつかのパラメーター値を直感的に試し、十分にフィットするまで何度も変更する手動キャリブレーションです。私たちが試しているモデルをよく理解する必要があります。ARIMAモデルの場合、手動キャリブレーションは、「p」パラメーターの自己相関プロット、「q」パラメーターの偏自己相関プロット、および時系列の定常性を確認するためのADFテストと「d」パラメーターの設定を使用して行われます。 。これらすべてについては、次の章で詳しく説明します。
グリッド検索
モデルを調整するもう1つの方法は、グリッド検索です。これは、基本的に、パラメーターの可能なすべての組み合わせに対してモデルを作成し、エラーが最小のモデルを選択することを意味します。これは時間がかかるため、キャリブレーションするパラメーターの数とそれらが取る値の範囲が少ない場合に役立ちます。これには、ネストされた複数のforループが含まれるためです。
遺伝的アルゴリズム
遺伝的アルゴリズムは、優れたソリューションが最終的に最も「最適な」ソリューションに進化するという生物学的原理に基づいて機能します。突然変異、交差、選択の生物学的操作を使用して、最終的に最適なソリューションに到達します。
詳細については、ベイズ最適化やスウォーム最適化などの他のパラメーター最適化手法について読むことができます。
前書き
時間「t」での予測値を時間「t-1」での変数の実際の値または級数の移動平均であると仮定するなどのナイーブな方法を使用して、統計モデルと機械学習モデルのパフォーマンスを評価します。そして彼らの必要性を強調します。
この章では、時系列データの機能の1つでこれらのモデルを試してみましょう。
まず、データの「温度」機能の平均とその周囲の偏差を確認します。最高温度値と最低温度値を確認することも役立ちます。ここでは、numpyライブラリの機能を使用できます。
統計の表示
[135]で:
import numpy
print (
'Mean: ',numpy.mean(df['T']), ';
Standard Deviation: ',numpy.std(df['T']),';
\nMaximum Temperature: ',max(df['T']),';
Minimum Temperature: ',min(df['T'])
)
等間隔のタイムラインにわたるすべての9357の観測値の統計があり、データを理解するのに役立ちます。
ここで、最初のナイーブな方法を試して、現在の予測値を前回の実際の値と等しく設定し、その二乗平均平方根誤差(RMSE)を計算して、この方法のパフォーマンスを定量化します。
1件目ナイーブ方法を
[136]で:
df['T']
df['T_t-1'] = df['T'].shift(1)
[137]で:
df_naive = df[['T','T_t-1']][1:]
[138]で:
from sklearn import metrics
from math import sqrt
true = df_naive['T']
prediction = df_naive['T_t-1']
error = sqrt(metrics.mean_squared_error(true,prediction))
print ('RMSE for Naive Method 1: ', error)
ナイーブメソッド1のRMSE:12.901140576492974
次のナイーブな方法を見てみましょう。ここでは、現時点での予測値は、その前の期間の平均と等しくなります。この方法のRMSEも計算します。
2番目のナイーブな方法を示す
[139]で:
df['T_rm'] = df['T'].rolling(3).mean().shift(1)
df_naive = df[['T','T_rm']].dropna()
[140]で:
true = df_naive['T']
prediction = df_naive['T_rm']
error = sqrt(metrics.mean_squared_error(true,prediction))
print ('RMSE for Naive Method 2: ', error)
RMSE for Naive Method 2: 14.957633272839242
ここでは、考慮したい「ラグ」とも呼ばれる以前のさまざまな期間を試すことができます。これは、ここでは3として保持されます。このデータでは、ラグの数を増やすとエラーが増えることがわかります。ラグを1に保つと、以前に使用したナイーブな方法と同じになります。
Points to Note
二乗平均平方根誤差を計算するための非常に単純な関数を書くことができます。ここでは、パッケージ「sklearn」の平均二乗誤差関数を使用して、その平方根を取りました。
パンダでは、df ['column_name']をdf.column_nameと書くこともできますが、このデータセットでは、df.Tはデータフレームを転置する関数であるため、df.Tはdf ['T']と同じようには機能しません。したがって、df ['T']のみを使用するか、他の構文を使用する前にこの列の名前を変更することを検討してください。
定常時系列の場合、自己回帰モデルは、時間「t」での変数の値を、その前の値「p」タイムステップの線形関数として認識します。数学的には次のように書くことができます-
$$y_{t} = \:C+\:\phi_{1}y_{t-1}\:+\:\phi_{2}Y_{t-2}+...+\phi_{p}y_{t-p}+\epsilon_{t}$$
ここで、「p」は自己回帰トレンドパラメータです。
$\epsilon_{t}$ ホワイトノイズであり、
$y_{t-1}, y_{t-2}\:\: ...y_{t-p}$ 前の期間の変数の値を示します。
pの値は、さまざまな方法を使用して調整できます。'p'の適切な値を見つける1つの方法は、自己相関プロットをプロットすることです。
Note−テストデータはモデルの正確さを確認するためだけのものであり、仮定は利用できないため、データを分析する前に、利用可能な合計データの8:2の比率でデータをトレーニングとテストに分割する必要があります。予測が行われるまで。時系列の場合、データポイントのシーケンスは非常に重要であるため、データの分割中に順序を失わないように注意する必要があります。
自己相関プロットまたはコレログラムは、前のタイムステップでの変数とそれ自体の関係を示します。ピアソンの相関を利用し、95%の信頼区間内の相関を示します。データの「温度」変数がどのように見えるかを見てみましょう。
ACPを表示しています
[141]で:
split = len(df) - int(0.2*len(df))
train, test = df['T'][0:split], df['T'][split:]
[142]で:
from statsmodels.graphics.tsaplots import plot_acf
plot_acf(train, lags = 100)
plt.show()
影付きの青い領域の外側にあるすべてのラグ値には、相関関係があると見なされます。
定常時系列の場合、移動平均モデルは、時間「t」での変数の値を、その前の「q」タイムステップからの残差誤差の線形関数と見なします。残差は、時間「t」の値を前の値の移動平均と比較することによって計算されます。
数学的には次のように書くことができます-
$$y_{t} = c\:+\:\epsilon_{t}\:+\:\theta_{1}\:\epsilon_{t-1}\:+\:\theta_{2}\:\epsilon_{t-2}\:+\:...+:\theta_{q}\:\epsilon_{t-q}\:$$
ここで、「q」は移動平均トレンドパラメータです。
$\epsilon_{t}$ ホワイトノイズであり、
$\epsilon_{t-1}, \epsilon_{t-2}...\epsilon_{t-q}$ は前の期間の誤差項です。
'q'の値は、さまざまな方法を使用して調整できます。'q'の適切な値を見つける1つの方法は、偏自己相関プロットをプロットすることです。
偏自己相関プロットは、間接相関が削除された前のタイムステップでの変数とそれ自体の関係を示します。直接相関と間接相関を示す自己相関プロットとは異なり、の「温度」変数の場合の様子を見てみましょう。データ。
PACPを表示しています
[143]で:
from statsmodels.graphics.tsaplots import plot_pacf
plot_pacf(train, lags = 100)
plt.show()
偏自己相関は、コレログラムと同じ方法で読み取られます。
定常時系列の場合、時間 't'の変数は、以前の観測値または残余誤差の線形関数であることはすでに理解しています。したがって、2つを組み合わせて、自己回帰移動平均(ARMA)モデルを作成するときが来ました。
ただし、時系列が定常ではない場合、つまり平均のような系列の統計的特性では、分散は時間とともに変化します。また、これまでに調査した統計モデルでは、時系列が静止していると想定しているため、時系列を差分して静止させる前処理ステップを含めることができます。ここで、処理している時系列が定常であるかどうかを確認することが重要です。
時系列の定常性を見つけるさまざまな方法は、時系列のプロットで季節性または傾向を探し、さまざまな期間の平均と分散の差をチェックし、拡張ディッキー-フラー(ADF)検定、KPSS検定、ハーストの指数などです。 。
ADFテストを使用して、データセットの「温度」変数が定常時系列であるかどうかを確認しましょう。
[74]で:
from statsmodels.tsa.stattools import adfuller
result = adfuller(train)
print('ADF Statistic: %f' % result[0])
print('p-value: %f' % result[1])
print('Critical Values:')
for key, value In result[4].items()
print('\t%s: %.3f' % (key, value))
ADF統計:-10.406056
p値:0.000000
重要な値:
1%:-3.431
5%:-2.862
10%:-2.567
ADFテストを実行したので、結果を解釈してみましょう。最初に、ADF統計を臨界値と比較します。臨界値が低いほど、系列が非定常である可能性が高いことを示します。次に、p値を確認します。0.05より大きいp値は、時系列が非定常であることも示しています。
あるいは、0.05以下のp値、または臨界値未満のADF統計は、時系列が定常であることを示します。
したがって、私たちが扱っている時系列はすでに静止しています。定常時系列の場合、「d」パラメーターを0に設定します。
ハースト指数を使用して時系列の定常性を確認することもできます。
[75]で:
import hurst
H, c,data = hurst.compute_Hc(train)
print("H = {:.4f}, c = {:.4f}".format(H,c))
H = 0.1660、c = 5.0740
H <0.5の値は反永続的な動作を示し、H> 0.5は永続的な動作またはトレンド系列を示します。H = 0.5は、ランダムウォーク/ブラウン運動を示します。H <0.5の値。これは、シリーズが定常であることを確認します。
非定常時系列の場合、「d」パラメーターを1に設定します。また、自己回帰トレンドパラメーター「p」と移動平均トレンドパラメーター「q」の値は、定常時系列で、つまりプロットによって計算されます。時系列を区別した後のACPとPACP。
3つのパラメーター(p、d、q)で特徴付けられるARIMAモデルが明確になったので、時系列をモデル化して、温度の将来の値を予測しましょう。
[156]で:
from statsmodels.tsa.arima_model import ARIMA
model = ARIMA(train.values, order=(5, 0, 2))
model_fit = model.fit(disp=False)
[157]で:
predictions = model_fit.predict(len(test))
test_ = pandas.DataFrame(test)
test_['predictions'] = predictions[0:1871]
[158]で:
plt.plot(df['T'])
plt.plot(test_.predictions)
plt.show()
[167]で:
error = sqrt(metrics.mean_squared_error(test.values,predictions[0:1871]))
print ('Test RMSE for ARIMA: ', error)
ARIMAのRMSEのテスト:43.21252940234892
前の章では、ARIMAモデルがどのように機能するか、および季節データや多変量時系列を処理できないという制限について説明しました。そのため、これらの機能を含む新しいモデルが導入されました。
これらの新しいモデルを垣間見ることができます-
ベクトル自己回帰(VAR)
これは、多変量定常時系列の自己回帰モデルの一般化されたバージョンです。'p'パラメータが特徴です。
ベクトル移動平均(VMA)
これは、多変量定常時系列の移動平均モデルの一般化されたバージョンです。'q'パラメータが特徴です。
ベクトル自己回帰移動平均(VARMA)
これは、VARとVMAの組み合わせであり、多変量定常時系列のARMAモデルの一般化バージョンです。これは、「p」および「q」パラメーターによって特徴付けられます。同様に、ARMAは「q」パラメータを0に設定することでARモデルのように動作し、「p」パラメータを0に設定することでMAモデルのように動作できます。VARMAも「q」パラメータを設定することでVARモデルのように動作できます。 'p'パラメータを0に設定することにより、0およびVMAモデルとして。
[209]で:
df_multi = df[['T', 'C6H6(GT)']]
split = len(df) - int(0.2*len(df))
train_multi, test_multi = df_multi[0:split], df_multi[split:]
[211]:
from statsmodels.tsa.statespace.varmax import VARMAX
model = VARMAX(train_multi, order = (2,1))
model_fit = model.fit()
c:\users\naveksha\appdata\local\programs\python\python37\lib\site-packages\statsmodels\tsa\statespace\varmax.py:152:
EstimationWarning: Estimation of VARMA(p,q) models is not generically robust,
due especially to identification issues.
EstimationWarning)
c:\users\naveksha\appdata\local\programs\python\python37\lib\site-packages\statsmodels\tsa\base\tsa_model.py:171:
ValueWarning: No frequency information was provided, so inferred frequency H will be used.
% freq, ValueWarning)
c:\users\naveksha\appdata\local\programs\python\python37\lib\site-packages\statsmodels\base\model.py:508:
ConvergenceWarning: Maximum Likelihood optimization failed to converge. Check mle_retvals
"Check mle_retvals", ConvergenceWarning)
[213]で:
predictions_multi = model_fit.forecast( steps=len(test_multi))
c:\users\naveksha\appdata\local\programs\python\python37\lib\site-packages\statsmodels\tsa\base\tsa_model.py:320:
FutureWarning: Creating a DatetimeIndex by passing range endpoints is deprecated. Use `pandas.date_range` instead.
freq = base_index.freq)
c:\users\naveksha\appdata\local\programs\python\python37\lib\site-packages\statsmodels\tsa\statespace\varmax.py:152:
EstimationWarning: Estimation of VARMA(p,q) models is not generically robust, due especially to identification issues.
EstimationWarning)
[231]で:
plt.plot(train_multi['T'])
plt.plot(test_multi['T'])
plt.plot(predictions_multi.iloc[:,0:1], '--')
plt.show()
plt.plot(train_multi['C6H6(GT)'])
plt.plot(test_multi['C6H6(GT)'])
plt.plot(predictions_multi.iloc[:,1:2], '--')
plt.show()
上記のコードは、VARMAモデルを使用して多変量時系列をモデル化する方法を示していますが、このモデルはデータに最適ではない可能性があります。
外因性変数を使用したVARMA(VARMAX)
これはVARMAモデルの拡張であり、共変量と呼ばれる追加の変数を使用して、関心のある一次変数をモデル化します。
季節的自己回帰和分移動平均(SARIMA)
これは、季節データを処理するためのARIMAモデルの拡張です。データを季節成分と非季節成分に分割し、同様の方法でモデル化します。これは、ARIMAモデルと同じ非季節部分(p、d、q)パラメーターと季節部分(P、D、Q、m)パラメーターの7つのパラメーターによって特徴付けられます。ここで、「m」は季節期間の数であり、 P、D、QはARIMAモデルのパラメーターに似ています。これらのパラメータは、グリッド検索または遺伝的アルゴリズムを使用して調整できます。
外因性変数を使用したSARIMA(SARIMAX)
これは、SARIMAモデルを拡張して、関心のある変数をモデル化するのに役立つ外因性変数を含めることです。
変数を外生変数として配置する前に、変数の相互関係分析を行うと便利な場合があります。
[251]で:
from scipy.stats.stats import pearsonr
x = train_multi['T'].values
y = train_multi['C6H6(GT)'].values
corr , p = pearsonr(x,y)
print ('Corelation Coefficient =', corr,'\nP-Value =',p)
Corelation Coefficient = 0.9701173437269858
P-Value = 0.0
ピアソンの相関は、2つの変数間の線形関係を示しています。結果を解釈するには、最初にp値を調べます。0.05未満の場合は係数の値が有意であり、そうでない場合は係数の値は有意ではありません。有意なp値の場合、相関係数の正の値は正の相関を示し、負の値は負の相関を示します。
したがって、私たちのデータでは、「温度」と「C6H6」は非常に正の相関関係があるようです。したがって、
[297]で:
from statsmodels.tsa.statespace.sarimax import SARIMAX
model = SARIMAX(x, exog = y, order = (2, 0, 2), seasonal_order = (2, 0, 1, 1), enforce_stationarity=False, enforce_invertibility = False)
model_fit = model.fit(disp = False)
c:\users\naveksha\appdata\local\programs\python\python37\lib\site-packages\statsmodels\base\model.py:508:
ConvergenceWarning: Maximum Likelihood optimization failed to converge. Check mle_retvals
"Check mle_retvals", ConvergenceWarning)
[298]で:
y_ = test_multi['C6H6(GT)'].values
predicted = model_fit.predict(exog=y_)
test_multi_ = pandas.DataFrame(test)
test_multi_['predictions'] = predicted[0:1871]
[299]で:
plt.plot(train_multi['T'])
plt.plot(test_multi_['T'])
plt.plot(test_multi_.predictions, '--')
アウト[299]:
[<matplotlib.lines.Line2D at 0x1eab0191c18>]
ここでの予測は、単変量ARIMAモデリングとは対照的に、より大きな変動をとるように見えます。
言うまでもなく、SARIMAXは、対応するパラメーターのみをゼロ以外の値に設定することにより、ARX、MAX、ARMAX、またはARIMAXモデルとして使用できます。
フラクショナル自己回帰和分移動平均(FARIMA)
時々、私たちのシリーズが定常ではないことが起こるかもしれません、それでも値1をとる 'd'パラメータとの違いはそれを過大に違います。したがって、小数値を使用して時系列を区別する必要があります。
データサイエンスの世界では、優れたモデルは1つもありません。データを処理するモデルは、データセットに大きく依存します。さまざまなモデルの知識により、データを処理するモデルを選択し、そのモデルを試して最良の結果を得ることができます。また、結果はエラーメトリックと同様にプロットとして表示する必要があります。小さなエラーも悪い場合があるため、結果をプロットして視覚化することが不可欠です。
次の章では、別の統計モデルである指数平滑法について見ていきます。
この章では、時系列の指数平滑化に関連する手法について説明します。
単純な指数平滑法
指数平滑法は、ある期間にわたって指数関数的に減少する重みをデータに割り当てることにより、単変量時系列を平滑化する手法です。
数学的には、時刻tでの値が与えられた時刻 't + 1'での変数の値、y_(t + 1 | t)は次のように定義されます。
$$y_{t+1|t}\:=\:\alpha y_{t}\:+\:\alpha\lgroup1 -\alpha\rgroup y_{t-1}\:+\alpha\lgroup1-\alpha\rgroup^{2}\:y_{t-2}\:+\:...+y_{1}$$
どこ、$0\leq\alpha \leq1$ は平滑化パラメータであり、
$y_{1},....,y_{t}$ 時間1、2、3、…、tでのネットワークトラフィックの以前の値です。
これは、明確な傾向や季節性のない時系列をモデル化する簡単な方法です。ただし、指数平滑法は、傾向と季節性のある時系列にも使用できます。
トリプル指数スムージング
Triple Exponential Smoothing(TES)またはHolt's Winterメソッドは、指数平滑法を3回適用します-レベル平滑化 $l_{t}$、トレンド平滑化 $b_{t}$、および季節の平滑化 $S_{t}$、と $\alpha$、 $\beta^{*}$ そして $\gamma$ 季節性の頻度、つまり1年の季節数として「m」を使用した平滑化パラメーターとして。
季節成分の性質によると、TESには2つのカテゴリーがあります-
Holt-Winter's Additive Method −季節性が本質的に相加的である場合。
Holt-Winter’s Multiplicative Method −季節性が本質的に乗法的である場合。
非季節時系列の場合、ホルトの線形トレンド法と呼ばれるトレンド平滑化とレベル平滑化のみがあります。
データに三重指数平滑法を適用してみましょう。
[316]で:
from statsmodels.tsa.holtwinters import ExponentialSmoothing
model = ExponentialSmoothing(train.values, trend= )
model_fit = model.fit()
[322]で:
predictions_ = model_fit.predict(len(test))
[325]で:
plt.plot(test.values)
plt.plot(predictions_[1:1871])
アウト[325]:
[<matplotlib.lines.Line2D at 0x1eab00f1cf8>]
ここでは、トレーニングセットを使用してモデルを一度トレーニングし、その後、予測を続けます。より現実的なアプローチは、1つ以上のタイムステップの後にモデルを再トレーニングすることです。時間「t」までのトレーニングデータから時間「t + 1」の予測を取得すると、実際の時間「t + 1」までのトレーニングデータを使用して、時間「t +2」の次の予測を行うことができます。その場合、「t +1」での値がわかります。1つ以上の将来のステップの予測を行い、モデルを再トレーニングするこの方法論は、ローリング予測またはウォークフォワード検証と呼ばれます。
時系列モデリングでは、時間の経過に伴う予測の精度が低下するため、モデルがさらに予測できるようになったときに、実際のデータを使用してモデルを再トレーニングする方が現実的です。統計モデルのトレーニングには時間がかからないため、最も正確な結果を得るには、ウォークフォワード検証が最も好ましいソリューションです。
データにワンステップウォークフォワード検証を適用し、以前に取得した結果と比較してみましょう。
[333]:
prediction = []
data = train.values
for t In test.values:
model = (ExponentialSmoothing(data).fit())
y = model.predict()
prediction.append(y[0])
data = numpy.append(data, t)
[335]で:
test_ = pandas.DataFrame(test)
test_['predictionswf'] = prediction
[341]で:
plt.plot(test_['T'])
plt.plot(test_.predictionswf, '--')
plt.show()
[340]で:
error = sqrt(metrics.mean_squared_error(test.values,prediction))
print ('Test RMSE for Triple Exponential Smoothing with Walk-Forward Validation: ', error)
Test RMSE for Triple Exponential Smoothing with Walk-Forward Validation: 11.787532205759442
これで、モデルのパフォーマンスが大幅に向上したことがわかります。実際、傾向は非常に厳密に追跡されているため、プロットでは予測が実際の値と重複しています。ARIMAモデルにもウォークフォワード検証を適用してみることができます。
2017年、Facebookは、日レベル、週レベル、年レベルなどの強い複数の季節性と傾向を持つ時系列をモデル化できる預言者モデルをオープンソース化しました。あまり専門家ではないデータサイエンティストがより良い予測のために調整できる直感的なパラメータがあります。中核となるのは、時系列をモデル化するための変化点を検出できる加法回帰モデルです。
預言者は時系列をトレンドの構成要素に分解します $g_{t}$、季節性 $S_{t}$ と休日 $h_{t}$。
$$y_{t}=g_{t}+s_{t}+h_{t}+\epsilon_{t}$$
どこ、 $\epsilon_{t}$ 誤差項です。
因果的影響や異常検出などの時系列予測用の同様のパッケージが、それぞれgoogleとtwitterによってRに導入されました。
現在、時系列の統計モデリングに精通していますが、現在、機械学習が大流行しているため、一部の機械学習モデルにも精通していることが不可欠です。時系列領域で最も人気のあるモデルである長短期記憶モデルから始めましょう。
LSTMは、リカレントニューラルネットワークのクラスです。したがって、LSTMにジャンプする前に、ニューラルネットワークとリカレントニューラルネットワークを理解することが不可欠です。
ニューラルネットワーク
人工ニューラルネットワークは、生物学的ニューラルネットワークに触発された、接続されたニューロンの層状構造です。これは1つのアルゴリズムではなく、さまざまなアルゴリズムの組み合わせであり、データに対して複雑な操作を行うことができます。
リカレントニューラルネットワーク
これは、時間データを処理するように調整されたニューラルネットワークのクラスです。RNNのニューロンにはセル状態/メモリがあり、入力はこの内部状態に従って処理されます。これは、ニューラルネットワーク内のループの助けを借りて実現されます。RNNには、情報を保持できるようにする「tanh」レイヤーのリカレントモジュールがあります。ただし、長い間ではないため、LSTMモデルが必要です。
LSTM
これは、データの長期的な依存関係を学習できる特殊な種類のリカレントニューラルネットワークです。これは、モデルの繰り返しモジュールが相互作用する4つのレイヤーの組み合わせを持っているために実現されます。
上の図は、黄色のボックスに4つのニューラルネットワークレイヤー、緑色の円に点ごとの演算子、黄色の円に入力、青色の円にセルの状態を示しています。LSTMモジュールには、セル状態と3つのゲートがあり、各ユニットから情報を選択的に学習、非学習、または保持する機能を提供します。LSTMのセル状態は、わずかな線形相互作用のみを許可することにより、情報が変更されることなくユニットを通過するのに役立ちます。各ユニットには、セルの状態に情報を追加または削除できる入力、出力、および忘却ゲートがあります。忘却ゲートは、シグモイド関数を使用する前のセル状態からのどの情報を忘れるべきかを決定します。入力ゲートは、それぞれ「シグモイド」と「タン」の点ごとの乗算演算を使用して、現在のセル状態への情報フローを制御します。最後に、出力ゲートは、どの情報を次の非表示状態に渡すかを決定します
LSTMモデルの内部動作を理解したので、それを実装しましょう。LSTMの実装を理解するために、簡単な例、つまり直線から始めます。LSTMが直線の関係を学習して予測できるかどうかを見てみましょう。
まず、直線を描いたデータセットを作成しましょう。
[402]で:
x = numpy.arange (1,500,1)
y = 0.4 * x + 30
plt.plot(x,y)
アウト[402]:
[<matplotlib.lines.Line2D at 0x1eab9d3ee10>]
[403]で:
trainx, testx = x[0:int(0.8*(len(x)))], x[int(0.8*(len(x))):]
trainy, testy = y[0:int(0.8*(len(y)))], y[int(0.8*(len(y))):]
train = numpy.array(list(zip(trainx,trainy)))
test = numpy.array(list(zip(trainx,trainy)))
これでデータが作成され、トレーニングとテストに分割されました。時系列データを、時間「t」での値を予測するために見られる本質的に見られるラグの数であるルックバック期間の値に従って、教師あり学習データの形式に変換してみましょう。
したがって、このような時系列-
time variable_x
t1 x1
t2 x2
: :
: :
T xT
ルックバック期間が1の場合、-に変換されます。
x1 x2
x2 x3
: :
: :
xT-1 xT
[404]:
def create_dataset(n_X, look_back):
dataX, dataY = [], []
for i in range(len(n_X)-look_back):
a = n_X[i:(i+look_back), ]
dataX.append(a)
dataY.append(n_X[i + look_back, ])
return numpy.array(dataX), numpy.array(dataY)
[405]で:
look_back = 1
trainx,trainy = create_dataset(train, look_back)
testx,testy = create_dataset(test, look_back)
trainx = numpy.reshape(trainx, (trainx.shape[0], 1, 2))
testx = numpy.reshape(testx, (testx.shape[0], 1, 2))
次に、モデルをトレーニングします。
トレーニングデータの小さなバッチがネットワークに表示されます。トレーニングデータ全体がバッチでモデルに表示され、エラーが計算される1回の実行は、エポックと呼ばれます。エポックは、エラーが減少するまで実行されます。
[]で:
from keras.models import Sequential
from keras.layers import LSTM, Dense
model = Sequential()
model.add(LSTM(256, return_sequences = True, input_shape = (trainx.shape[1], 2)))
model.add(LSTM(128,input_shape = (trainx.shape[1], 2)))
model.add(Dense(2))
model.compile(loss = 'mean_squared_error', optimizer = 'adam')
model.fit(trainx, trainy, epochs = 2000, batch_size = 10, verbose = 2, shuffle = False)
model.save_weights('LSTMBasic1.h5')
[407]で:
model.load_weights('LSTMBasic1.h5')
predict = model.predict(testx)
それでは、予測がどのようになるか見てみましょう。
[408]で:
plt.plot(testx.reshape(398,2)[:,0:1], testx.reshape(398,2)[:,1:2])
plt.plot(predict[:,0:1], predict[:,1:2])
アウト[408]:
[<matplotlib.lines.Line2D at 0x1eac792f048>]
ここで、同様の方法で正弦波または余弦波をモデル化する必要があります。以下のコードを実行し、モデルパラメータを試して、結果がどのように変化するかを確認できます。
[409]で:
x = numpy.arange (1,500,1)
y = numpy.sin(x)
plt.plot(x,y)
アウト[409]:
[<matplotlib.lines.Line2D at 0x1eac7a0b3c8>]
[410]で:
trainx, testx = x[0:int(0.8*(len(x)))], x[int(0.8*(len(x))):]
trainy, testy = y[0:int(0.8*(len(y)))], y[int(0.8*(len(y))):]
train = numpy.array(list(zip(trainx,trainy)))
test = numpy.array(list(zip(trainx,trainy)))
[411]で:
look_back = 1
trainx,trainy = create_dataset(train, look_back)
testx,testy = create_dataset(test, look_back)
trainx = numpy.reshape(trainx, (trainx.shape[0], 1, 2))
testx = numpy.reshape(testx, (testx.shape[0], 1, 2))
[]で:
model = Sequential()
model.add(LSTM(512, return_sequences = True, input_shape = (trainx.shape[1], 2)))
model.add(LSTM(256,input_shape = (trainx.shape[1], 2)))
model.add(Dense(2))
model.compile(loss = 'mean_squared_error', optimizer = 'adam')
model.fit(trainx, trainy, epochs = 2000, batch_size = 10, verbose = 2, shuffle = False)
model.save_weights('LSTMBasic2.h5')
[413]で:
model.load_weights('LSTMBasic2.h5')
predict = model.predict(testx)
[415]で:
plt.plot(trainx.reshape(398,2)[:,0:1], trainx.reshape(398,2)[:,1:2])
plt.plot(predict[:,0:1], predict[:,1:2])
アウト[415]:
[<matplotlib.lines.Line2D at 0x1eac7a1f550>]
これで、任意のデータセットに移動する準備が整いました。
モデルのパフォーマンスを定量化して、フィードバックや比較として使用することが重要です。このチュートリアルでは、最も一般的なエラーメトリックの二乗平均平方根誤差の1つを使用しました。利用可能な他のさまざまなエラーメトリックがあります。この章では、それらについて簡単に説明します。
平均二乗誤差
これは、予測値と真の値の差の2乗の平均です。Sklearnはそれを関数として提供します。これは、真の値と予測値の2乗と同じ単位を持ち、常に正です。
$$MSE = \frac{1}{n} \displaystyle\sum\limits_{t=1}^n \lgroup y'_{t}\:-y_{t}\rgroup^{2}$$
どこ $y'_{t}$ は予測値であり、
$y_{t}$ は実際の値であり、
nは、テストセット内の値の総数です。
方程式から、MSEがより大きなエラーまたは外れ値に対してよりペナルティを課していることが明らかです。
二乗平均平方根誤差
これは、平均二乗誤差の平方根です。また、常に正であり、データの範囲内にあります。
$$RMSE = \sqrt{\frac{1}{n} \displaystyle\sum\limits_{t=1}^n \lgroup y'_{t}-y_{t}\rgroup ^2}$$
どこ、 $y'_{t}$ 予測値です
$y_{t}$ は実際の値であり、
nは、テストセット内の値の総数です。
それは統一の力であり、したがってMSEと比較してより解釈可能です。RMSEは、エラーが大きい場合にもペナルティが高くなります。チュートリアルではRMSEメトリックを使用しました。
平均絶対誤差
これは、予測値と真の値の絶対差の平均です。予測値と真の値と同じ単位を持ち、常に正です。
$$MAE = \frac{1}{n}\displaystyle\sum\limits_{t=1}^{t=n} | y'{t}-y_{t}\lvert$$
どこ、 $y'_{t}$ 予測値です、
$y_{t}$ は実際の値であり、
nは、テストセット内の値の総数です。
平均パーセント誤差
これは、予測値と真の値の絶対差の平均を真の値で割ったパーセンテージです。
$$MAPE = \frac{1}{n}\displaystyle\sum\limits_{t=1}^n\frac{y'_{t}-y_{t}}{y_{t}}*100\: \%$$
どこ、 $y'_{t}$ 予測値です、
$y_{t}$ は実際の値であり、nはテストセット内の値の総数です。
ただし、このエラーを使用することの欠点は、正のエラーと負のエラーが互いに相殺される可能性があることです。したがって、平均絶対パーセント誤差が使用されます。
平均絶対パーセント率エラー
これは、予測値と真の値の絶対差の平均を真の値で割ったパーセンテージです。
$$MAPE = \frac{1}{n}\displaystyle\sum\limits_{t=1}^n\frac{|y'_{t}-y_{t}\lvert}{y_{t}}*100\: \%$$
どこ $y'_{t}$ 予測値です
$y_{t}$ は実際の値であり、
nは、テストセット内の値の総数です。
このチュートリアルでは時系列分析について説明しました。これにより、時系列モデルは最初に既存の観測から傾向と季節性を認識し、次にこの傾向と季節性に基づいて値を予測することがわかりました。このような分析は、次のようなさまざまな分野で役立ちます。
Financial Analysis −売上予測、在庫分析、株式市場分析、価格見積もりが含まれます。
Weather Analysis −気温の推定、気候変動、季節変動の認識、天気予報が含まれます。
Network Data Analysis −ネットワーク使用量の予測、異常または侵入検知、予知保全が含まれます。
Healthcare Analysis −国勢調査の予測、保険給付の予測、患者の監視が含まれます。
機械学習はさまざまな問題を扱います。実際、ほとんどすべての分野には、機械学習の助けを借りて自動化または改善する余地があります。多くの作業が行われているそのような問題のいくつかを以下に示します。
時系列データ
これは時間とともに変化するデータであるため、このチュートリアルで主に説明したように、時間はその中で重要な役割を果たします。
非時系列データ
これは時間に依存しないデータであり、ML問題の大部分は非時系列データにあります。簡単にするために、さらに次のように分類します。
Numerical Data −コンピュータは人間とは異なり、数字しか理解できないため、画像データは(r、b、g)値に変換され、文字はASCIIコードまたは単語に変換されるなど、あらゆる種類のデータが最終的に機械学習用の数値データに変換されます数字にインデックスが付けられ、音声データは数値データを含むmfccファイルに変換されます。
Image Data −コンピュータビジョンはコンピュータの世界に革命をもたらし、医療、衛星画像などの分野でさまざまな用途があります。
Text Data−自然言語処理(NLP)は、テキストの分類、言い換えの検出、および言語の要約に使用されます。これがGoogleとFacebookを賢くする理由です。
Speech Data−音声処理には、音声認識と感情の理解が含まれます。これは、コンピューターに人間のような性質を与える上で重要な役割を果たします。