Qu'est-ce qu'une bonne valeur d'auto-corrélation?

Nov 27 2020

J'ai un ensemble de données de 400 séries chronologiques. Je veux évaluer s'il existe une relation entre des points de données consécutifs. Ainsi, j'ai calculé l'autocorrélation (AC) de la série chronologique avec différents décalages. Pour la meilleure valeur de décalage, j'obtiens une auto-corrélation d'environ 0,59 en moyenne.

Maintenant, mon problème est de savoir comment puis-je savoir si c'est une bonne valeur AC? Existe-t-il un moyen d'évaluer si une valeur d'auto-corrélation telle que 0,59 est bonne?

J'ai essayé les approches suivantes pour évaluer si c'est une bonne valeur.

  1. J'ai calculé l'AC des séquences aléatoires pour le comparer avec l'AC de ma série chronologique. J'ai trouvé que l'AC des séquences aléatoires est toujours proche de 0. Ceci est intéressant car 0,59 est loin de 0 mais ne me dit toujours pas clairement si 0,59 est une bonne valeur.

  2. J'ai donc décidé de faire une autre expérience pour comparer l'AC de ma série temporelle avec l'autocorrélation d'une série temporelle ascendante (une fonction qui augmente linéairement) et d'une série temporelle aléatoire. Dans cette expérience, je falsifie chaque séquence de manière aléatoire selon un taux de falsification variant de 0 à 100%. Le résultat est comme ceci:

On peut observer que le CA de ma série chronologique est proche de celui de la série chronologique ascendante et diminue rapidement lorsque le taux de sabotage est augmenté. Cela semble indiquer qu'il y a un bon climatiseur dans ma série chronologique. Cependant, cela ne me dit pas vraiment quel est un bon rapport qualité / prix pour la climatisation.

Existe-t-il donc d'autres moyens de déterminer ce qu'est une bonne valeur CA? Ou avez-vous d'autres suggestions sur la façon de déterminer ce qu'est une bonne valeur AC?

Réponses

1 BruceET Nov 27 2020 at 10:34

Commentaire: Selon les données recueillies à la fin des années 1970 sur les éruptions du geyser Old Faithful dans le parc national de Yellowstone, la durée des éruptions variait entre de courtes$0$ (moins de 2 min.) et long $1$ (plus de 2 min.) environ selon une chaîne de Markov à 2 états dans laquelle il n'y a jamais deux courtes éruptions consécutives, et les éruptions courtes suivent les longues avec probabilité $0.44.$ Par conséquent, on peut montrer que sur le long terme environ 70% des éruptions sont longues.

Cependant, les éruptions courtes et longues ne sont pas des essais de Bernoulli indépendants, comme pour une pièce avec une probabilité Heads de 0,7, mais forment une série autocorrélée selon une chaîne de Markov à 2 états.

Deux mille étapes successives d'une telle chaîne peuvent être simulées dans R comme illustré ci-dessous.

set.seed(2020)
n = 2000; x = numeric(n); x[1]=0
for (i in 2:n) {
 if (x[i-1]==0) x[i] = 1
 else x[i] = rbinom(1, 1, .56) }
mean(x)
[1] 0.7005

En R, on peut faire un tracé d'autocorrélation pour plusieurs décalages. Bien sûr, l'autocorrélation pour le décalage$0$ est $1.000.$ Les autocorrélations qui se situent en dehors des lignes horizontales en pointillé bleu sont considérées comme significativement différentes de $0.$ Ainsi, il semble pour 2000 observations du processus Old Faithful, que les autocorrélations sont plus grandes en valeur absolue qu'environ $0.035$ ou $0.04$ sont considérés comme significativement différents de $0.$

acf(x)

Des retards spécifiques peuvent être obtenus en utilisant acfavec le paramètre plot=F.

acf(x, plot=F)

Autocorrelations of series ‘x’, by lag

     0      1      2      3      4      5      6      7 
 1.000 -0.426  0.203 -0.085  0.018 -0.009  0.016 -0.025 
     8      9     10     11     12     13     14     15 
 0.002 -0.030 -0.004  0.004 -0.025  0.033 -0.043  0.032 
    16     17     18     19     20     21     22     23 
-0.006  0.006  0.009 -0.001  0.005  0.014 -0.028  0.002 
    24     25     26     27     28     29     30     31 
-0.002  0.008 -0.018 -0.020  0.039 -0.009  0.013  0.010 
    32     33 
 0.005 -0.037 

Dans une chaîne de Markov ergodique (convergente), la dépendance de Markov «s'estompe» après quelques décalages de sorte que les observations éloignées le long de la séquence sont presque indépendantes.

Dans votre application, afin de dire si une autocorrélation est «bonne», vous devez spécifier le décalage pertinent et avoir un critère de test spécifique pour une autocorrélation «significative». D'après votre question, je ne connais pas suffisamment votre processus ou votre application pour donner une réponse précise.