Série chronologique - Guide rapide
Une série chronologique est une séquence d'observations sur une certaine période. Une série chronologique univariée se compose des valeurs prises par une seule variable à des instances de temps périodiques sur une période, et une série chronologique à plusieurs variables se compose des valeurs prises par plusieurs variables aux mêmes instances de temps périodiques sur une période. L'exemple le plus simple d'une série chronologique que nous rencontrons tous au jour le jour est le changement de température tout au long de la journée, de la semaine, du mois ou de l'année.
L'analyse des données temporelles est capable de nous donner des informations utiles sur la manière dont une variable évolue au fil du temps, ou sur la manière dont elle dépend du changement des valeurs d'autres variables. Cette relation d'une variable sur ses valeurs précédentes et / ou d'autres variables peut être analysée pour la prévision de séries chronologiques et a de nombreuses applications en intelligence artificielle.
Une compréhension de base de tout langage de programmation est essentielle pour qu'un utilisateur puisse travailler avec ou développer des problèmes d'apprentissage automatique. Une liste des langages de programmation préférés pour tous ceux qui souhaitent travailler sur l'apprentissage automatique est donnée ci-dessous -
Python
C'est un langage de programmation interprété de haut niveau, rapide et facile à coder. Python peut suivre des paradigmes de programmation procéduraux ou orientés objet. La présence d'une variété de bibliothèques simplifie la mise en œuvre de procédures compliquées. Dans ce tutoriel, nous coderons en Python et les bibliothèques correspondantes utiles pour la modélisation de séries temporelles seront abordées dans les chapitres à venir.
R
Semblable à Python, R est un langage multi-paradigme interprété, qui prend en charge le calcul statistique et les graphiques. La variété des packages facilite la mise en œuvre de la modélisation d'apprentissage automatique dans R.
Java
Il s'agit d'un langage de programmation orienté objet interprété, largement connu pour sa large gamme de packages disponibles et ses techniques sophistiquées de visualisation de données.
C / C ++
Ce sont des langages compilés et deux des langages de programmation les plus anciens. Ces langages sont souvent préférés pour incorporer des capacités de ML dans les applications déjà existantes car ils vous permettent de personnaliser facilement l'implémentation des algorithmes de ML.
MATLAB
MATrix LABoratory est un langage multi-paradigme qui permet de travailler avec des matrices. Il permet des opérations mathématiques pour des problèmes complexes. Il est principalement utilisé pour les opérations numériques, mais certains packages permettent également la simulation graphique multi-domaine et la conception basée sur un modèle.
Les autres langages de programmation préférés pour les problèmes d'apprentissage automatique incluent JavaScript, LISP, Prolog, SQL, Scala, Julia, SAS, etc.
Python a une popularité établie parmi les personnes qui effectuent un apprentissage automatique en raison de sa structure de code facile à écrire et facile à comprendre, ainsi qu'à une grande variété de bibliothèques open source. Quelques-unes de ces bibliothèques open source que nous utiliserons dans les prochains chapitres ont été présentées ci-dessous.
NumPy
Numerical Python est une bibliothèque utilisée pour le calcul scientifique. Il fonctionne sur un objet de tableau à N dimensions et fournit des fonctionnalités mathématiques de base telles que la taille, la forme, la moyenne, l'écart type, le minimum, le maximum ainsi que certaines fonctions plus complexes telles que les fonctions algébriques linéaires et la transformée de Fourier. Vous en apprendrez plus à ce sujet au fur et à mesure que nous avancerons dans ce didacticiel.
Pandas
Cette bibliothèque fournit des structures de données très efficaces et faciles à utiliser telles que des séries, des dataframes et des panneaux. Il a amélioré les fonctionnalités de Python, de la simple collecte et préparation de données à l'analyse des données. Les deux bibliothèques, Pandas et NumPy, simplifient toute opération sur un ensemble de données petit à très grand. Pour en savoir plus sur ces fonctions, suivez ce tutoriel.
SciPy
Science Python est une bibliothèque utilisée pour le calcul scientifique et technique. Il fournit des fonctionnalités pour l'optimisation, le traitement du signal et de l'image, l'intégration, l'interpolation et l'algèbre linéaire. Cette bibliothèque est pratique lors de l'exécution de l'apprentissage automatique. Nous discuterons de ces fonctionnalités au fur et à mesure que nous avancerons dans ce tutoriel.
Scikit Learn
Cette bibliothèque est une boîte à outils SciPy largement utilisée pour la modélisation statistique, l'apprentissage automatique et l'apprentissage profond, car elle contient divers modèles de régression, de classification et de clustering personnalisables. Il fonctionne bien avec Numpy, Pandas et d'autres bibliothèques, ce qui le rend plus facile à utiliser.
Modèles de statistiques
Comme Scikit Learn, cette bibliothèque est utilisée pour l'exploration de données statistiques et la modélisation statistique. Il fonctionne également bien avec d'autres bibliothèques Python.
Matplotlib
Cette bibliothèque est utilisée pour la visualisation des données dans divers formats tels que le graphique linéaire, le graphique à barres, les cartes thermiques, les nuages de points, l'histogramme, etc. Nous discuterons de ces fonctionnalités au fur et à mesure que nous avancerons dans ce tutoriel.
Ces bibliothèques sont très essentielles pour commencer avec l'apprentissage automatique avec tout type de données.
Outre celles discutées ci-dessus, une autre bibliothèque particulièrement importante pour traiter les séries chronologiques est -
Datetime
Cette bibliothèque, avec ses deux modules - datetime et calendar, fournit toutes les fonctionnalités datetime nécessaires pour lire, formater et manipuler l'heure.
Nous utiliserons ces bibliothèques dans les prochains chapitres.
La série temporelle est une séquence d'observations indexées dans des intervalles de temps équidistants. Par conséquent, l'ordre et la continuité doivent être maintenus dans toute série chronologique.
L'ensemble de données que nous utiliserons est une série chronologique à variables multiples contenant des données horaires pendant environ un an, sur la qualité de l'air dans une ville italienne fortement polluée. L'ensemble de données peut être téléchargé à partir du lien ci-dessous -https://archive.ics.uci.edu/ml/datasets/air+quality.
Il est nécessaire de s'assurer que -
La série chronologique est également espacée et
Il n'y a pas de valeurs redondantes ou de lacunes.
Si la série chronologique n'est pas continue, nous pouvons la suréchantillonner ou la sous-échantillonner.
Affichage de df.head ()
Dans [122]:
import pandas
Dans [123]:
df = pandas.read_csv("AirQualityUCI.csv", sep = ";", decimal = ",")
df = df.iloc[ : , 0:14]
Dans [124]:
len(df)
Sortie [124]:
9471
Dans [125]:
df.head()
Sortie [125]:
Pour le prétraitement de la série chronologique, nous nous assurons qu'il n'y a pas de valeurs NaN (NULL) dans l'ensemble de données; s'il y en a, nous pouvons les remplacer par 0 ou moyenne ou des valeurs précédentes ou suivantes. Le remplacement est un choix préférable à l'abandon afin que la continuité de la série chronologique soit maintenue. Cependant, dans notre ensemble de données, les dernières valeurs semblent être NULL et, par conséquent, la suppression n'affectera pas la continuité.
Suppression de NaN (Not-a-Number)
Dans [126]:
df.isna().sum()
Out[126]:
Date 114
Time 114
CO(GT) 114
PT08.S1(CO) 114
NMHC(GT) 114
C6H6(GT) 114
PT08.S2(NMHC) 114
NOx(GT) 114
PT08.S3(NOx) 114
NO2(GT) 114
PT08.S4(NO2) 114
PT08.S5(O3) 114
T 114
RH 114
dtype: int64
Dans [127]:
df = df[df['Date'].notnull()]
Dans [128]:
df.isna().sum()
Sortie [128]:
Date 0
Time 0
CO(GT) 0
PT08.S1(CO) 0
NMHC(GT) 0
C6H6(GT) 0
PT08.S2(NMHC) 0
NOx(GT) 0
PT08.S3(NOx) 0
NO2(GT) 0
PT08.S4(NO2) 0
PT08.S5(O3) 0
T 0
RH 0
dtype: int64
Les séries chronologiques sont généralement représentées sous forme de graphiques linéaires en fonction du temps. Pour cela, nous allons maintenant combiner la colonne date et heure et la convertir en un objet datetime à partir de chaînes. Cela peut être accompli à l'aide de la bibliothèque datetime.
Conversion en objet datetime
Dans [129]:
df['DateTime'] = (df.Date) + ' ' + (df.Time)
print (type(df.DateTime[0]))
<class 'str'>
Dans [130]:
import datetime
df.DateTime = df.DateTime.apply(lambda x: datetime.datetime.strptime(x, '%d/%m/%Y %H.%M.%S'))
print (type(df.DateTime[0]))
<classe 'pandas._libs.tslibs.timestamps.Timestamp'>
Voyons comment certaines variables comme la température changent avec le temps.
Affichage des tracés
Dans [131]:
df.index = df.DateTime
Dans [132]:
import matplotlib.pyplot as plt
plt.plot(df['T'])
Sortie [132]:
[<matplotlib.lines.Line2D at 0x1eaad67f780>]
Dans [208]:
plt.plot(df['C6H6(GT)'])
Sortie [208]:
[<matplotlib.lines.Line2D at 0x1eaaeedff28>]
Les boîtes à moustaches sont un autre type de graphique utile qui vous permet de condenser de nombreuses informations sur un ensemble de données en un seul graphique. Il montre la moyenne, le quartile de 25% et 75% et les valeurs aberrantes d'une ou de plusieurs variables. Dans le cas où le nombre de valeurs aberrantes est peu élevé et très éloigné de la moyenne, nous pouvons éliminer les valeurs aberrantes en les fixant à la valeur moyenne ou à la valeur quartile de 75%.
Affichage des boîtes à moustaches
Dans [134]:
plt.boxplot(df[['T','C6H6(GT)']].values)
Sortie [134]:
{'whiskers': [<matplotlib.lines.Line2D at 0x1eaac16de80>,
<matplotlib.lines.Line2D at 0x1eaac16d908>,
<matplotlib.lines.Line2D at 0x1eaac177a58>,
<matplotlib.lines.Line2D at 0x1eaac177cf8>],
'caps': [<matplotlib.lines.Line2D at 0x1eaac16d2b0>,
<matplotlib.lines.Line2D at 0x1eaac16d588>,
<matplotlib.lines.Line2D at 0x1eaac1a69e8>,
<matplotlib.lines.Line2D at 0x1eaac1a64a8>],
'boxes': [<matplotlib.lines.Line2D at 0x1eaac16dc50>,
<matplotlib.lines.Line2D at 0x1eaac1779b0>],
'medians': [<matplotlib.lines.Line2D at 0x1eaac16d4a8>,
<matplotlib.lines.Line2D at 0x1eaac1a6c50>],
'fliers': [<matplotlib.lines.Line2D at 0x1eaac177dd8>,
<matplotlib.lines.Line2D at 0x1eaac1a6c18>],'means': []
}
introduction
Une série chronologique comporte 4 composantes comme indiqué ci-dessous -
Level - C'est la valeur moyenne autour de laquelle varie la série.
Trend - C'est le comportement croissant ou décroissant d'une variable avec le temps.
Seasonality - C'est le comportement cyclique des séries temporelles.
Noise - C'est l'erreur dans les observations ajoutées en raison de facteurs environnementaux.
Techniques de modélisation de séries temporelles
Pour capturer ces composants, il existe un certain nombre de techniques de modélisation de séries chronologiques populaires. Cette section donne une brève introduction de chaque technique, mais nous en discuterons en détail dans les prochains chapitres -
Méthodes naïves
Ce sont des techniques d'estimation simples, telles que la valeur prédite reçoit la valeur égale à la moyenne des valeurs précédentes de la variable dépendante du temps ou de la valeur réelle précédente. Ceux-ci sont utilisés à des fins de comparaison avec des techniques de modélisation sophistiquées.
Régression automatique
La régression automatique prédit les valeurs des périodes futures en fonction des valeurs des périodes précédentes. Les prédictions d'auto-régression peuvent mieux correspondre aux données que celles des méthodes naïves, mais elles peuvent ne pas être en mesure de tenir compte de la saisonnalité.
Modèle ARIMA
Une moyenne mobile intégrée auto-régressive modélise la valeur d'une variable comme une fonction linéaire des valeurs précédentes et des erreurs résiduelles aux pas de temps précédents d'une série temporelle stationnaire. Cependant, les données du monde réel peuvent être non stationnaires et avoir une saisonnalité, c'est pourquoi Seasonal-ARIMA et Fractional-ARIMA ont été développés. ARIMA fonctionne sur des séries temporelles univariées, pour gérer plusieurs variables VARIMA a été introduit.
Lissage exponentiel
Il modélise la valeur d'une variable comme une fonction linéaire pondérée exponentielle des valeurs précédentes. Ce modèle statistique peut également gérer la tendance et la saisonnalité.
LSTM
Le modèle de mémoire à long terme (LSTM) est un réseau neuronal récurrent qui est utilisé pour les séries chronologiques afin de tenir compte des dépendances à long terme. Il peut être formé avec une grande quantité de données pour capturer les tendances dans des séries chronologiques à variables multiples.
Lesdites techniques de modélisation sont utilisées pour la régression de séries chronologiques. Dans les prochains chapitres, explorons maintenant tout cela un par un.
introduction
Tout modèle statistique ou d'apprentissage automatique a des paramètres qui influencent grandement la façon dont les données sont modélisées. Par exemple, ARIMA a des valeurs p, d, q. Ces paramètres doivent être décidés de telle sorte que l'erreur entre les valeurs réelles et les valeurs modélisées soit minimale. L'étalonnage des paramètres est considéré comme la tâche la plus cruciale et la plus longue de l'ajustement du modèle. Par conséquent, il est très essentiel pour nous de choisir des paramètres optimaux.
Méthodes d'étalonnage des paramètres
Il existe différentes manières de calibrer les paramètres. Cette section traite de certains d'entre eux en détail.
Hit-and-try
Un moyen courant d'étalonner les modèles est l'étalonnage manuel, où vous commencez par visualiser la série chronologique et essayez intuitivement certaines valeurs de paramètres et changez-les encore et encore jusqu'à ce que vous obteniez un ajustement suffisant. Cela nécessite une bonne compréhension du modèle que nous essayons. Pour le modèle ARIMA, l'étalonnage manuel est effectué à l'aide d'un tracé d'auto-corrélation pour le paramètre `` p '', d'un tracé d'auto-corrélation partielle pour le paramètre `` q '' et d'un test ADF pour confirmer la stationnarité de la série chronologique et le réglage du paramètre `` d '' . Nous discuterons de tout cela en détail dans les prochains chapitres.
Recherche de grille
Une autre façon de calibrer les modèles est la recherche de grille, ce qui signifie essentiellement que vous essayez de créer un modèle pour toutes les combinaisons possibles de paramètres et de sélectionner celle avec le moins d'erreur. Cela prend du temps et est donc utile lorsque le nombre de paramètres à calibrer et la plage de valeurs qu'ils prennent sont moins nombreux car cela implique plusieurs boucles for imbriquées.
Algorithme génétique
L'algorithme génétique fonctionne sur le principe biologique qu'une bonne solution évoluera éventuellement vers la solution la plus «optimale». Il utilise des opérations biologiques de mutation, de croisement et de sélection pour finalement parvenir à une solution optimale.
Pour en savoir plus, vous pouvez consulter d'autres techniques d'optimisation des paramètres comme l'optimisation bayésienne et l'optimisation Swarm.
introduction
Des méthodes naïves, telles que l'hypothèse que la valeur prédite au temps `` t '' est la valeur réelle de la variable au temps `` t-1 '' ou la moyenne mobile des séries, sont utilisées pour évaluer les performances des modèles statistiques et des modèles d'apprentissage automatique. et souligner leur besoin.
Dans ce chapitre, essayons ces modèles sur l'une des caractéristiques de nos données chronologiques.
Nous allons d'abord voir la moyenne de la caractéristique «température» de nos données et l'écart autour de celle-ci. Il est également utile de voir les valeurs de température maximale et minimale. Nous pouvons utiliser les fonctionnalités de la bibliothèque numpy ici.
Affichage des statistiques
Dans [135]:
import numpy
print (
'Mean: ',numpy.mean(df['T']), ';
Standard Deviation: ',numpy.std(df['T']),';
\nMaximum Temperature: ',max(df['T']),';
Minimum Temperature: ',min(df['T'])
)
Nous avons les statistiques pour les 9357 observations sur une chronologie équidistante qui nous sont utiles pour comprendre les données.
Nous allons maintenant essayer la première méthode naïve, en définissant la valeur prédite à l'heure actuelle égale à la valeur réelle à l'instant précédent et calculer l'erreur quadratique moyenne quadratique (RMSE) pour qu'elle quantifie les performances de cette méthode.
Montrant la 1ère méthode naïve
Dans [136]:
df['T']
df['T_t-1'] = df['T'].shift(1)
Dans [137]:
df_naive = df[['T','T_t-1']][1:]
Dans [138]:
from sklearn import metrics
from math import sqrt
true = df_naive['T']
prediction = df_naive['T_t-1']
error = sqrt(metrics.mean_squared_error(true,prediction))
print ('RMSE for Naive Method 1: ', error)
RMSE pour la méthode naïve 1: 12.901140576492974
Voyons la méthode naïve suivante, où la valeur prédite à l'heure actuelle est assimilée à la moyenne des périodes de temps qui la précèdent. Nous calculerons également le RMSE pour cette méthode.
Affichage de la 2 e méthode naïve
Dans [139]:
df['T_rm'] = df['T'].rolling(3).mean().shift(1)
df_naive = df[['T','T_rm']].dropna()
Dans [140]:
true = df_naive['T']
prediction = df_naive['T_rm']
error = sqrt(metrics.mean_squared_error(true,prediction))
print ('RMSE for Naive Method 2: ', error)
RMSE for Naive Method 2: 14.957633272839242
Ici, vous pouvez expérimenter avec différents nombres de périodes antérieures également appelées `` décalages '' que vous souhaitez prendre en compte, qui sont conservées ici à 3. Dans ces données, on peut voir que lorsque vous augmentez le nombre de retards et que l'erreur augmente. Si le décalage est maintenu à 1, il devient identique à la méthode naïve utilisée précédemment.
Points to Note
Vous pouvez écrire une fonction très simple pour calculer l'erreur quadratique moyenne. Ici, nous avons utilisé la fonction d'erreur quadratique moyenne du paquet 'sklearn' et avons ensuite pris sa racine carrée.
Dans pandas, df ['nom_colonne'] peut aussi être écrit comme df.colonne_nom, cependant pour cet ensemble de données, df.T ne fonctionnera pas de la même manière que df ['T'] car df.T est la fonction de transposition d'une trame de données. Utilisez donc uniquement df ['T'] ou envisagez de renommer cette colonne avant d'utiliser l'autre syntaxe.
Pour une série temporelle stationnaire, un modèle d'auto-régression voit la valeur d'une variable au temps «t» comme une fonction linéaire des valeurs «p» pas de temps qui la précèdent. Mathématiquement, il peut s'écrire -
$$y_{t} = \:C+\:\phi_{1}y_{t-1}\:+\:\phi_{2}Y_{t-2}+...+\phi_{p}y_{t-p}+\epsilon_{t}$$
Où, «p» est le paramètre de tendance auto-régressive
$\epsilon_{t}$ est un bruit blanc, et
$y_{t-1}, y_{t-2}\:\: ...y_{t-p}$ dénotent la valeur de la variable aux périodes précédentes.
La valeur de p peut être étalonnée à l'aide de diverses méthodes. Une façon de trouver la valeur appropriée de «p» consiste à tracer le graphique d'autocorrélation.
Note- Nous devons séparer les données en train et tester à un ratio de 8: 2 du total des données disponibles avant de faire une analyse sur les données car les données de test ne servent qu'à découvrir l'exactitude de notre modèle et l'hypothèse est qu'elle ne nous est pas disponible jusqu'à ce que les prédictions aient été faites. Dans le cas de séries temporelles, la séquence des points de données est très essentielle, il faut donc garder à l'esprit de ne pas perdre l'ordre lors du fractionnement des données.
Un graphique d'auto-corrélation ou un corrélogramme montre la relation d'une variable avec elle-même à des pas de temps antérieurs. Il utilise la corrélation de Pearson et montre les corrélations dans un intervalle de confiance de 95%. Voyons à quoi cela ressemble pour la variable «température» de nos données.
Affichage ACP
Dans [141]:
split = len(df) - int(0.2*len(df))
train, test = df['T'][0:split], df['T'][split:]
Dans [142]:
from statsmodels.graphics.tsaplots import plot_acf
plot_acf(train, lags = 100)
plt.show()
Toutes les valeurs de décalage situées en dehors de la région bleue ombrée sont supposées avoir une corrélation.
Pour une série temporelle stationnaire, un modèle de moyenne mobile voit la valeur d'une variable au temps «t» comme une fonction linéaire des erreurs résiduelles des pas de temps «q» qui la précèdent. L'erreur résiduelle est calculée en comparant la valeur au temps «t» à la moyenne mobile des valeurs précédentes.
Mathématiquement, il peut s'écrire -
$$y_{t} = c\:+\:\epsilon_{t}\:+\:\theta_{1}\:\epsilon_{t-1}\:+\:\theta_{2}\:\epsilon_{t-2}\:+\:...+:\theta_{q}\:\epsilon_{t-q}\:$$
Où «q» est le paramètre de tendance de moyenne mobile
$\epsilon_{t}$ est un bruit blanc, et
$\epsilon_{t-1}, \epsilon_{t-2}...\epsilon_{t-q}$ sont les termes d'erreur des périodes précédentes.
La valeur de «q» peut être étalonnée en utilisant diverses méthodes. Une façon de trouver la valeur appropriée de 'q' consiste à tracer le graphique d'autocorrélation partielle.
Un graphique d'auto-corrélation partielle montre la relation d'une variable avec elle-même à des pas de temps précédents avec les corrélations indirectes supprimées, contrairement au graphique d'auto-corrélation qui montre des corrélations directes et indirectes, voyons à quoi cela ressemble pour la variable `` température '' de notre Les données.
Affichage du PACP
Dans [143]:
from statsmodels.graphics.tsaplots import plot_pacf
plot_pacf(train, lags = 100)
plt.show()
Une auto-corrélation partielle se lit de la même manière qu'un corrélogramme.
Nous avons déjà compris que pour une série temporelle stationnaire, une variable au temps «t» est une fonction linéaire d'observations antérieures ou d'erreurs résiduelles. Il est donc temps pour nous de combiner les deux et d'avoir un modèle de moyenne mobile auto-régressive (ARMA).
Cependant, parfois, la série chronologique n'est pas stationnaire, c'est-à-dire que les propriétés statistiques d'une série comme la moyenne, la variance change avec le temps. Et les modèles statistiques que nous avons étudiés jusqu'à présent supposent que la série chronologique est stationnaire, par conséquent, nous pouvons inclure une étape de pré-traitement de différenciation de la série chronologique pour la rendre stationnaire. Maintenant, il est important pour nous de savoir si la série chronologique à laquelle nous avons affaire est stationnaire ou non.
Diverses méthodes pour trouver la stationnarité d'une série chronologique recherchent la saisonnalité ou la tendance dans le tracé de la série chronologique, vérifiant la différence de moyenne et de variance pour différentes périodes de temps, test de Dickey-Fuller augmenté (ADF), test KPSS, exposant de Hurst, etc. .
Voyons si la variable «température» de notre jeu de données est une série chronologique stationnaire ou non en utilisant le test ADF.
Dans [74]:
from statsmodels.tsa.stattools import adfuller
result = adfuller(train)
print('ADF Statistic: %f' % result[0])
print('p-value: %f' % result[1])
print('Critical Values:')
for key, value In result[4].items()
print('\t%s: %.3f' % (key, value))
Statistique ADF: -10.406056
valeur p: 0,000000
Valeurs critiques:
1%: -3,431
5%: -2,862
10%: -2,567
Maintenant que nous avons exécuté le test ADF, interprétons le résultat. Nous allons d'abord comparer la statistique ADF avec les valeurs critiques, une valeur critique inférieure nous indique que la série est très probablement non stationnaire. Ensuite, nous voyons la valeur p. Une valeur p supérieure à 0,05 suggère également que la série chronologique n'est pas stationnaire.
Alternativement, une valeur p inférieure ou égale à 0,05, ou une statistique ADF inférieure aux valeurs critiques suggèrent que la série chronologique est stationnaire.
Par conséquent, la série chronologique à laquelle nous avons affaire est déjà stationnaire. Dans le cas de séries temporelles stationnaires, nous définissons le paramètre «d» sur 0.
Nous pouvons également confirmer la stationnarité des séries temporelles en utilisant l'exposant de Hurst.
Dans [75]:
import hurst
H, c,data = hurst.compute_Hc(train)
print("H = {:.4f}, c = {:.4f}".format(H,c))
H = 0,1660, c = 5,0740
La valeur de H <0,5 indique un comportement anti-persistant et H> 0,5 indique un comportement persistant ou une série de tendances. H = 0,5 montre une marche aléatoire / un mouvement brownien. La valeur de H <0,5, confirmant que notre série est stationnaire.
Pour les séries temporelles non stationnaires, nous définissons le paramètre «d» sur 1. De plus, la valeur du paramètre de tendance auto-régressive «p» et le paramètre de tendance de moyenne mobile «q» sont calculées sur la série temporelle stationnaire, c'est-à-dire en traçant ACP et PACP après différenciation des séries chronologiques.
Le modèle ARIMA, qui est caractérisé par 3 paramètres, (p, d, q) est maintenant clair pour nous, alors modélisons notre série chronologique et prédisons les futures valeurs de température.
Dans [156]:
from statsmodels.tsa.arima_model import ARIMA
model = ARIMA(train.values, order=(5, 0, 2))
model_fit = model.fit(disp=False)
Dans [157]:
predictions = model_fit.predict(len(test))
test_ = pandas.DataFrame(test)
test_['predictions'] = predictions[0:1871]
Dans [158]:
plt.plot(df['T'])
plt.plot(test_.predictions)
plt.show()
Dans [167]:
error = sqrt(metrics.mean_squared_error(test.values,predictions[0:1871]))
print ('Test RMSE for ARIMA: ', error)
Test RMSE pour ARIMA: 43.21252940234892
Dans le chapitre précédent, nous avons maintenant vu comment le modèle ARIMA fonctionne et ses limites, car il ne peut pas gérer les données saisonnières ou les séries chronologiques multivariées et, par conséquent, de nouveaux modèles ont été introduits pour inclure ces fonctionnalités.
Un aperçu de ces nouveaux modèles est donné ici -
Auto-régression vectorielle (VAR)
Il s'agit d'une version généralisée du modèle d'auto-régression pour les séries chronologiques stationnaires multivariées. Il est caractérisé par le paramètre «p».
Moyenne mobile vectorielle (VMA)
Il s'agit d'une version généralisée du modèle de moyenne mobile pour les séries chronologiques stationnaires multivariées. Il est caractérisé par le paramètre «q».
Moyenne mobile de régression automatique vectorielle (VARMA)
Il s'agit de la combinaison de VAR et VMA et d'une version généralisée du modèle ARMA pour les séries chronologiques stationnaires multivariées. Il est caractérisé par les paramètres «p» et «q». Tout comme, ARMA est capable d'agir comme un modèle AR en définissant le paramètre `` q '' sur 0 et en tant que modèle MA en définissant le paramètre `` p '' sur 0, VARMA est également capable d'agir comme un modèle VAR en définissant le paramètre `` q '' comme 0 et comme modèle VMA en définissant le paramètre «p» sur 0.
Dans [209]:
df_multi = df[['T', 'C6H6(GT)']]
split = len(df) - int(0.2*len(df))
train_multi, test_multi = df_multi[0:split], df_multi[split:]
Dans [211]:
from statsmodels.tsa.statespace.varmax import VARMAX
model = VARMAX(train_multi, order = (2,1))
model_fit = model.fit()
c:\users\naveksha\appdata\local\programs\python\python37\lib\site-packages\statsmodels\tsa\statespace\varmax.py:152:
EstimationWarning: Estimation of VARMA(p,q) models is not generically robust,
due especially to identification issues.
EstimationWarning)
c:\users\naveksha\appdata\local\programs\python\python37\lib\site-packages\statsmodels\tsa\base\tsa_model.py:171:
ValueWarning: No frequency information was provided, so inferred frequency H will be used.
% freq, ValueWarning)
c:\users\naveksha\appdata\local\programs\python\python37\lib\site-packages\statsmodels\base\model.py:508:
ConvergenceWarning: Maximum Likelihood optimization failed to converge. Check mle_retvals
"Check mle_retvals", ConvergenceWarning)
Dans [213]:
predictions_multi = model_fit.forecast( steps=len(test_multi))
c:\users\naveksha\appdata\local\programs\python\python37\lib\site-packages\statsmodels\tsa\base\tsa_model.py:320:
FutureWarning: Creating a DatetimeIndex by passing range endpoints is deprecated. Use `pandas.date_range` instead.
freq = base_index.freq)
c:\users\naveksha\appdata\local\programs\python\python37\lib\site-packages\statsmodels\tsa\statespace\varmax.py:152:
EstimationWarning: Estimation of VARMA(p,q) models is not generically robust, due especially to identification issues.
EstimationWarning)
Dans [231]:
plt.plot(train_multi['T'])
plt.plot(test_multi['T'])
plt.plot(predictions_multi.iloc[:,0:1], '--')
plt.show()
plt.plot(train_multi['C6H6(GT)'])
plt.plot(test_multi['C6H6(GT)'])
plt.plot(predictions_multi.iloc[:,1:2], '--')
plt.show()
Le code ci-dessus montre comment le modèle VARMA peut être utilisé pour modéliser des séries chronologiques multivariées, bien que ce modèle puisse ne pas être le mieux adapté à nos données.
VARMA avec variables exogènes (VARMAX)
C'est une extension du modèle VARMA où des variables supplémentaires appelées covariables sont utilisées pour modéliser la variable principale qui nous intéresse.
Moyenne mobile saisonnière intégrée auto-régressive (SARIMA)
Il s'agit de l'extension du modèle ARIMA pour traiter les données saisonnières. Il divise les données en composantes saisonnières et non saisonnières et les modélise de la même manière. Il est caractérisé par 7 paramètres, pour les paramètres de la partie non saisonnière (p, d, q) comme pour le modèle ARIMA et pour les paramètres de la partie saisonnière (P, D, Q, m) où 'm' est le nombre de périodes saisonnières et P, D, Q sont similaires aux paramètres du modèle ARIMA. Ces paramètres peuvent être calibrés à l'aide d'une recherche de grille ou d'un algorithme génétique.
SARIMA avec variables exogènes (SARIMAX)
Il s'agit de l'extension du modèle SARIMA pour inclure des variables exogènes qui nous aident à modéliser la variable qui nous intéresse.
Il peut être utile de faire une analyse de co-relation sur des variables avant de les mettre en tant que variables exogènes.
Dans [251]:
from scipy.stats.stats import pearsonr
x = train_multi['T'].values
y = train_multi['C6H6(GT)'].values
corr , p = pearsonr(x,y)
print ('Corelation Coefficient =', corr,'\nP-Value =',p)
Corelation Coefficient = 0.9701173437269858
P-Value = 0.0
La corrélation de Pearson montre une relation linéaire entre 2 variables, pour interpréter les résultats, nous regardons d'abord la valeur p, si elle est inférieure à 0,05 alors la valeur du coefficient est significative, sinon la valeur du coefficient n'est pas significative. Pour une valeur p significative, une valeur positive du coefficient de corrélation indique une corrélation positive et une valeur négative indique une corrélation négative.
Par conséquent, pour nos données, «température» et «C6H6» semblent avoir une corrélation très positive. Par conséquent, nous allons
Dans [297]:
from statsmodels.tsa.statespace.sarimax import SARIMAX
model = SARIMAX(x, exog = y, order = (2, 0, 2), seasonal_order = (2, 0, 1, 1), enforce_stationarity=False, enforce_invertibility = False)
model_fit = model.fit(disp = False)
c:\users\naveksha\appdata\local\programs\python\python37\lib\site-packages\statsmodels\base\model.py:508:
ConvergenceWarning: Maximum Likelihood optimization failed to converge. Check mle_retvals
"Check mle_retvals", ConvergenceWarning)
Dans [298]:
y_ = test_multi['C6H6(GT)'].values
predicted = model_fit.predict(exog=y_)
test_multi_ = pandas.DataFrame(test)
test_multi_['predictions'] = predicted[0:1871]
Dans [299]:
plt.plot(train_multi['T'])
plt.plot(test_multi_['T'])
plt.plot(test_multi_.predictions, '--')
Sortie [299]:
[<matplotlib.lines.Line2D at 0x1eab0191c18>]
Les prédictions ici semblent prendre de plus grandes variations maintenant par opposition à la modélisation ARIMA univariée.
Il va sans dire que SARIMAX peut être utilisé comme modèle ARX, MAX, ARMAX ou ARIMAX en définissant uniquement les paramètres correspondants sur des valeurs non nulles.
Moyenne mobile intégrée auto-régressive fractionnaire (FARIMA)
Parfois, il peut arriver que notre série ne soit pas stationnaire, mais la différenciation avec le paramètre «d» prenant la valeur 1 peut la surdifférer. Nous devons donc différencier la série chronologique en utilisant une valeur fractionnaire.
Dans le monde de la science des données, il n'y a pas de modèle supérieur, le modèle qui fonctionne sur vos données dépend grandement de votre ensemble de données. La connaissance de divers modèles nous permet de choisir celui qui fonctionne sur nos données et d'expérimenter avec ce modèle pour obtenir les meilleurs résultats. Et les résultats doivent être considérés comme des tracés ainsi que des métriques d'erreur, parfois une petite erreur peut également être mauvaise, par conséquent, le traçage et la visualisation des résultats sont essentiels.
Dans le prochain chapitre, nous examinerons un autre modèle statistique, le lissage exponentiel.
Dans ce chapitre, nous parlerons des techniques impliquées dans le lissage exponentiel des séries temporelles.
Lissage exponentiel simple
Le lissage exponentiel est une technique de lissage de séries chronologiques univariées en attribuant des poids décroissants de façon exponentielle aux données sur une période de temps.
Mathématiquement, la valeur de la variable au temps 't + 1' donnée valeur au temps t, y_ (t + 1 | t) est définie comme -
$$y_{t+1|t}\:=\:\alpha y_{t}\:+\:\alpha\lgroup1 -\alpha\rgroup y_{t-1}\:+\alpha\lgroup1-\alpha\rgroup^{2}\:y_{t-2}\:+\:...+y_{1}$$
où,$0\leq\alpha \leq1$ est le paramètre de lissage, et
$y_{1},....,y_{t}$ sont les valeurs précédentes du trafic réseau aux instants 1, 2, 3,…, t.
Il s'agit d'une méthode simple pour modéliser une série chronologique sans tendance ni saisonnalité claire. Mais le lissage exponentiel peut également être utilisé pour les séries chronologiques avec tendance et saisonnalité.
Triple lissage exponentiel
Le triple lissage exponentiel (TES) ou la méthode Holt's Winter, applique un lissage exponentiel trois fois - lissage de niveau $l_{t}$, lissage des tendances $b_{t}$et lissage saisonnier $S_{t}$, avec $\alpha$, $\beta^{*}$ et $\gamma$ comme paramètres de lissage avec «m» comme fréquence de la saisonnalité, c'est-à-dire le nombre de saisons dans une année.
Selon la nature de la composante saisonnière, TES a deux catégories -
Holt-Winter's Additive Method - Lorsque la saisonnalité est de nature additive.
Holt-Winter’s Multiplicative Method - Lorsque la saisonnalité est de nature multiplicative.
Pour les séries chronologiques non saisonnières, nous n'avons que le lissage de tendance et le lissage de niveau, appelé méthode de tendance linéaire de Holt.
Essayons d'appliquer un triple lissage exponentiel sur nos données.
Dans [316]:
from statsmodels.tsa.holtwinters import ExponentialSmoothing
model = ExponentialSmoothing(train.values, trend= )
model_fit = model.fit()
Dans [322]:
predictions_ = model_fit.predict(len(test))
Dans [325]:
plt.plot(test.values)
plt.plot(predictions_[1:1871])
Sortie [325]:
[<matplotlib.lines.Line2D at 0x1eab00f1cf8>]
Ici, nous avons entraîné le modèle une fois avec un ensemble d'entraînement, puis nous continuons à faire des prédictions. Une approche plus réaliste consiste à reformer le modèle après un ou plusieurs pas de temps. Comme nous obtenons la prédiction pour le temps 't + 1' à partir des données d'entraînement 'jusqu'à l'heure' t ', la prochaine prédiction pour le temps' t + 2 'peut être faite en utilisant les données d'apprentissage' jusqu'à l'heure 't + 1' comme valeur réelle la valeur à 't + 1' sera alors connue. Cette méthodologie consistant à faire des prédictions pour une ou plusieurs étapes futures, puis à réentraîner le modèle est appelée prévision glissante ou validation d'avance.
Dans la modélisation de séries chronologiques, les prédictions au fil du temps deviennent de moins en moins précises et c'est donc une approche plus réaliste pour réentraîner le modèle avec des données réelles au fur et à mesure qu'il devient disponible pour d'autres prédictions. Étant donné que la formation des modèles statistiques ne prend pas beaucoup de temps, la validation progressive est la solution la plus préférée pour obtenir des résultats plus précis.
Appliquons une étape de validation progressive sur nos données et comparons-les aux résultats obtenus précédemment.
Dans [333]:
prediction = []
data = train.values
for t In test.values:
model = (ExponentialSmoothing(data).fit())
y = model.predict()
prediction.append(y[0])
data = numpy.append(data, t)
Dans [335]:
test_ = pandas.DataFrame(test)
test_['predictionswf'] = prediction
Dans [341]:
plt.plot(test_['T'])
plt.plot(test_.predictionswf, '--')
plt.show()
Dans [340]:
error = sqrt(metrics.mean_squared_error(test.values,prediction))
print ('Test RMSE for Triple Exponential Smoothing with Walk-Forward Validation: ', error)
Test RMSE for Triple Exponential Smoothing with Walk-Forward Validation: 11.787532205759442
Nous pouvons voir que notre modèle fonctionne nettement mieux maintenant. En fait, la tendance est si étroitement suivie que sur le graphique, les prévisions se chevauchent avec les valeurs réelles. Vous pouvez également essayer d'appliquer la validation directe sur les modèles ARIMA.
En 2017, Facebook a ouvert le modèle prophète qui était capable de modéliser la série chronologique avec de fortes saisonnalités multiples au niveau du jour, de la semaine, de l'année, etc. et de la tendance. Il a des paramètres intuitifs qu'un data scientist pas si expert peut régler pour de meilleures prévisions. À la base, il s'agit d'un modèle régressif additif qui peut détecter des points de changement pour modéliser la série chronologique.
Prophet décompose la série chronologique en composants de tendance $g_{t}$, saisonnalité $S_{t}$ et vacances $h_{t}$.
$$y_{t}=g_{t}+s_{t}+h_{t}+\epsilon_{t}$$
Où, $\epsilon_{t}$ est le terme d'erreur.
Des progiciels similaires pour la prévision des séries chronologiques, tels que l'impact causal et la détection des anomalies, ont été introduits dans R par google et twitter respectivement.
Maintenant, nous sommes familiers avec la modélisation statistique sur les séries chronologiques, mais l'apprentissage automatique est à la mode en ce moment, il est donc essentiel de se familiariser avec certains modèles d'apprentissage automatique. Nous commencerons par le modèle le plus populaire dans le domaine des séries temporelles - le modèle de mémoire à long court terme.
LSTM est une classe de réseau neuronal récurrent. Donc, avant de pouvoir passer au LSTM, il est essentiel de comprendre les réseaux de neurones et les réseaux de neurones récurrents.
Les réseaux de neurones
Un réseau de neurones artificiels est une structure en couches de neurones connectés, inspirée des réseaux de neurones biologiques. Ce n'est pas un algorithme mais des combinaisons de divers algorithmes qui nous permettent d'effectuer des opérations complexes sur des données.
Réseaux de neurones récurrents
C'est une classe de réseaux neuronaux conçus pour traiter les données temporelles. Les neurones de RNN ont un état / mémoire cellulaire, et l'entrée est traitée en fonction de cet état interne, qui est obtenu à l'aide de boucles dans le réseau neuronal. Il existe des modules récurrents de couches «tanh» dans les RNN qui leur permettent de conserver des informations. Cependant, pas avant longtemps, c'est pourquoi nous avons besoin de modèles LSTM.
LSTM
Il s'agit d'un type spécial de réseau neuronal récurrent capable d'apprendre les dépendances à long terme dans les données. Ceci est réalisé parce que le module récurrent du modèle a une combinaison de quatre couches interagissant les unes avec les autres.
L'image ci-dessus représente quatre couches de réseau neuronal dans des cases jaunes, des opérateurs point par point dans des cercles verts, une entrée dans des cercles jaunes et un état de cellule dans des cercles bleus. Un module LSTM a un état de cellule et trois portes qui leur fournissent le pouvoir d'apprendre, de désapprendre ou de conserver de manière sélective des informations de chacune des unités. L'état des cellules dans LSTM aide les informations à circuler à travers les unités sans être modifiées en n'autorisant que quelques interactions linéaires. Chaque unité a une entrée, une sortie et une porte d'oubli qui peut ajouter ou supprimer les informations à l'état de la cellule. La porte Oublier décide quelles informations de l'état de cellule précédent doivent être oubliées pour lesquelles elle utilise une fonction sigmoïde. La porte d'entrée contrôle le flux d'informations vers l'état actuel de la cellule en utilisant une opération de multiplication ponctuelle de «sigmoïde» et «tanh» respectivement. Enfin, la porte de sortie décide quelles informations doivent être transmises à l'état masqué suivant
Maintenant que nous avons compris le fonctionnement interne du modèle LSTM, implémentons-le. Pour comprendre l'implémentation de LSTM, nous allons commencer par un exemple simple - une ligne droite. Voyons si LSTM peut apprendre la relation d'une ligne droite et la prédire.
Commençons par créer le jeu de données représentant une ligne droite.
Dans [402]:
x = numpy.arange (1,500,1)
y = 0.4 * x + 30
plt.plot(x,y)
Sortie [402]:
[<matplotlib.lines.Line2D at 0x1eab9d3ee10>]
Dans [403]:
trainx, testx = x[0:int(0.8*(len(x)))], x[int(0.8*(len(x))):]
trainy, testy = y[0:int(0.8*(len(y)))], y[int(0.8*(len(y))):]
train = numpy.array(list(zip(trainx,trainy)))
test = numpy.array(list(zip(trainx,trainy)))
Maintenant que les données ont été créées et divisées en train et test. Convertissons les données de la série chronologique sous la forme de données d'apprentissage supervisé en fonction de la valeur de la période de rétrospective, qui est essentiellement le nombre de retards qui semblent prédire la valeur au temps «t».
Donc une série chronologique comme celle-ci -
time variable_x
t1 x1
t2 x2
: :
: :
T xT
Lorsque la période d'analyse est 1, est convertie en -
x1 x2
x2 x3
: :
: :
xT-1 xT
Dans [404]:
def create_dataset(n_X, look_back):
dataX, dataY = [], []
for i in range(len(n_X)-look_back):
a = n_X[i:(i+look_back), ]
dataX.append(a)
dataY.append(n_X[i + look_back, ])
return numpy.array(dataX), numpy.array(dataY)
Dans [405]:
look_back = 1
trainx,trainy = create_dataset(train, look_back)
testx,testy = create_dataset(test, look_back)
trainx = numpy.reshape(trainx, (trainx.shape[0], 1, 2))
testx = numpy.reshape(testx, (testx.shape[0], 1, 2))
Maintenant, nous allons former notre modèle.
De petits lots de données d'entraînement sont montrés au réseau, une exécution de lorsque les données d'entraînement entières sont affichées au modèle par lots et l'erreur est calculée est appelée une époque. Les époques doivent être exécutées jusqu'à ce que l'erreur diminue.
Dans [ ]:
from keras.models import Sequential
from keras.layers import LSTM, Dense
model = Sequential()
model.add(LSTM(256, return_sequences = True, input_shape = (trainx.shape[1], 2)))
model.add(LSTM(128,input_shape = (trainx.shape[1], 2)))
model.add(Dense(2))
model.compile(loss = 'mean_squared_error', optimizer = 'adam')
model.fit(trainx, trainy, epochs = 2000, batch_size = 10, verbose = 2, shuffle = False)
model.save_weights('LSTMBasic1.h5')
Dans [407]:
model.load_weights('LSTMBasic1.h5')
predict = model.predict(testx)
Voyons maintenant à quoi ressemblent nos prédictions.
Dans [408]:
plt.plot(testx.reshape(398,2)[:,0:1], testx.reshape(398,2)[:,1:2])
plt.plot(predict[:,0:1], predict[:,1:2])
Sortie [408]:
[<matplotlib.lines.Line2D at 0x1eac792f048>]
Maintenant, nous devrions essayer de modéliser une onde sinusoïdale ou cosinusoïdale de la même manière. Vous pouvez exécuter le code ci-dessous et jouer avec les paramètres du modèle pour voir comment les résultats changent.
Dans [409]:
x = numpy.arange (1,500,1)
y = numpy.sin(x)
plt.plot(x,y)
Sortie [409]:
[<matplotlib.lines.Line2D at 0x1eac7a0b3c8>]
Dans [410]:
trainx, testx = x[0:int(0.8*(len(x)))], x[int(0.8*(len(x))):]
trainy, testy = y[0:int(0.8*(len(y)))], y[int(0.8*(len(y))):]
train = numpy.array(list(zip(trainx,trainy)))
test = numpy.array(list(zip(trainx,trainy)))
Dans [411]:
look_back = 1
trainx,trainy = create_dataset(train, look_back)
testx,testy = create_dataset(test, look_back)
trainx = numpy.reshape(trainx, (trainx.shape[0], 1, 2))
testx = numpy.reshape(testx, (testx.shape[0], 1, 2))
Dans [ ]:
model = Sequential()
model.add(LSTM(512, return_sequences = True, input_shape = (trainx.shape[1], 2)))
model.add(LSTM(256,input_shape = (trainx.shape[1], 2)))
model.add(Dense(2))
model.compile(loss = 'mean_squared_error', optimizer = 'adam')
model.fit(trainx, trainy, epochs = 2000, batch_size = 10, verbose = 2, shuffle = False)
model.save_weights('LSTMBasic2.h5')
Dans [413]:
model.load_weights('LSTMBasic2.h5')
predict = model.predict(testx)
Dans [415]:
plt.plot(trainx.reshape(398,2)[:,0:1], trainx.reshape(398,2)[:,1:2])
plt.plot(predict[:,0:1], predict[:,1:2])
Sortie [415]:
[<matplotlib.lines.Line2D at 0x1eac7a1f550>]
Vous êtes maintenant prêt à passer à n'importe quel ensemble de données.
Il est important pour nous de quantifier les performances d'un modèle pour l'utiliser comme retour et comparaison. Dans ce didacticiel, nous avons utilisé l'une des erreurs quadratiques moyennes les plus courantes. Il existe diverses autres mesures d'erreur disponibles. Ce chapitre les aborde brièvement.
Erreur quadratique moyenne
C'est la moyenne du carré de la différence entre les valeurs prédites et les valeurs vraies. Sklearn le fournit en tant que fonction. Il a les mêmes unités que les valeurs vraie et prédite au carré et est toujours positif.
$$MSE = \frac{1}{n} \displaystyle\sum\limits_{t=1}^n \lgroup y'_{t}\:-y_{t}\rgroup^{2}$$
Où $y'_{t}$ est la valeur prédite,
$y_{t}$ est la valeur réelle, et
n est le nombre total de valeurs dans l'ensemble de test.
Il ressort clairement de l'équation que MSE est plus pénalisante pour les erreurs plus importantes, ou les valeurs aberrantes.
Erreur quadratique moyenne
C'est la racine carrée de l'erreur quadratique moyenne. Il est également toujours positif et se situe dans la plage des données.
$$RMSE = \sqrt{\frac{1}{n} \displaystyle\sum\limits_{t=1}^n \lgroup y'_{t}-y_{t}\rgroup ^2}$$
Où, $y'_{t}$ est la valeur prévue
$y_{t}$ est la valeur réelle, et
n est le nombre total de valeurs dans l'ensemble de test.
Il est au pouvoir de l'unité et est donc plus interprétable par rapport à MSE. RMSE est également plus pénalisant pour les erreurs plus importantes. Nous avons utilisé la métrique RMSE dans notre tutoriel.
Erreur absolue moyenne
C'est la moyenne de la différence absolue entre les valeurs prédites et les valeurs vraies. Il a les mêmes unités que la valeur prévue et vraie et est toujours positif.
$$MAE = \frac{1}{n}\displaystyle\sum\limits_{t=1}^{t=n} | y'{t}-y_{t}\lvert$$
Où, $y'_{t}$ est la valeur prédite,
$y_{t}$ est la valeur réelle, et
n est le nombre total de valeurs dans l'ensemble de test.
Erreur moyenne en pourcentage
Il s'agit du pourcentage de la moyenne de la différence absolue entre les valeurs prédites et les valeurs réelles, divisé par la valeur réelle.
$$MAPE = \frac{1}{n}\displaystyle\sum\limits_{t=1}^n\frac{y'_{t}-y_{t}}{y_{t}}*100\: \%$$
Où, $y'_{t}$ est la valeur prédite,
$y_{t}$ est la valeur réelle et n est le nombre total de valeurs dans l'ensemble de test.
Cependant, l’inconvénient de l’utilisation de cette erreur est que l’erreur positive et les erreurs négatives peuvent se compenser. Par conséquent, l'erreur en pourcentage absolue moyenne est utilisée.
Erreur de pourcentage absolu moyen
Il s'agit du pourcentage de la moyenne de la différence absolue entre les valeurs prédites et les valeurs réelles, divisé par la valeur réelle.
$$MAPE = \frac{1}{n}\displaystyle\sum\limits_{t=1}^n\frac{|y'_{t}-y_{t}\lvert}{y_{t}}*100\: \%$$
Où $y'_{t}$ est la valeur prévue
$y_{t}$ est la valeur réelle, et
n est le nombre total de valeurs dans l'ensemble de test.
Nous avons discuté de l'analyse des séries chronologiques dans ce didacticiel, ce qui nous a permis de comprendre que les modèles de séries chronologiques reconnaissent d'abord la tendance et la saisonnalité à partir des observations existantes, puis prévoient une valeur basée sur cette tendance et cette saisonnalité. Une telle analyse est utile dans divers domaines tels que -
Financial Analysis - Il comprend la prévision des ventes, l'analyse des stocks, l'analyse du marché boursier, l'estimation des prix.
Weather Analysis - Il comprend l'estimation de la température, le changement climatique, la reconnaissance des changements saisonniers, les prévisions météorologiques.
Network Data Analysis - Il inclut la prédiction d'utilisation du réseau, la détection d'anomalies ou d'intrusions, la maintenance prédictive.
Healthcare Analysis - Il comprend la prévision du recensement, la prévision des prestations d'assurance, le suivi des patients.
L'apprentissage automatique traite de divers types de problèmes. En fait, presque tous les domaines ont une portée à automatiser ou à améliorer à l'aide de l'apprentissage automatique. Quelques problèmes de ce type sur lesquels beaucoup de travail est en cours sont donnés ci-dessous.
Données de séries chronologiques
Ce sont les données qui changent en fonction du temps, et donc le temps y joue un rôle crucial, ce dont nous avons largement discuté dans ce tutoriel.
Données non chronologiques
Ce sont les données indépendantes du temps, et un pourcentage majeur des problèmes de ML sont sur des données de séries non chronologiques. Pour simplifier, nous le catégoriserons plus loin comme -
Numerical Data - Les ordinateurs, contrairement aux humains, ne comprennent que les nombres, de sorte que toutes sortes de données sont finalement converties en données numériques pour l'apprentissage automatique, par exemple, les données d'image sont converties en valeurs (r, b, g), les caractères sont convertis en codes ou mots ASCII sont indexées sur des nombres, les données vocales sont converties en fichiers mfcc contenant des données numériques.
Image Data - La vision par ordinateur a révolutionné le monde de l'informatique, elle a diverses applications dans le domaine de la médecine, de l'imagerie par satellite etc.
Text Data- Le traitement du langage naturel (NLP) est utilisé pour la classification de texte, la détection de paraphrases et la synthèse du langage. C'est ce qui rend Google et Facebook intelligents.
Speech Data- Le traitement de la parole implique la reconnaissance vocale et la compréhension des sentiments. Il joue un rôle crucial dans la transmission aux ordinateurs des qualités humaines.