Covarianza per variabili casuali rispetto a dati campione

Aug 21 2020

Nel mio libro di testo, si dice che la formula per trovare la covarianza tra due variabili casuali è:

$Cov(X,Y)=E((X-EX)(Y-EY))$

Con $EY$ e $EX$ essendo l'aspettativa matematica per la variabile casuale Y e X rispettivamente.

Come si traduce questa formula in:

$Cov(X,Y) = \frac{\sum (x-\bar x)(y-\bar y)}{n-1}$

Per quando calcoliamo con dati reali (dati campionati)?

Diciamo che voglio calcolare la covarianza tra due prezzi delle azioni in un dato mese. Ovviamente ricorrerò alla seconda formula per trovare la covarianza. Tuttavia, la domanda fondamentale che voglio porre è che, per la prima formula di cui stiamo parlando nel contesto di variabili casuali, assumiamo di conoscere le distribuzioni sottostanti di X e Y (come negli esempi nel mio libro di testo). Tuttavia, in applicazioni pratiche come sopra, quando voglio calcolare la covarianza tra due prezzi delle azioni, non conosco la distribuzione sottostante dei due dati sui prezzi delle azioni che ho campionato .

Capisco come applicare la prima formula, ma solo se conosco la distribuzione della variabile casuale (sia essa $N(0,1)$o qualsiasi altra distribuzione comune mostrata nella maggior parte dei libri di testo). Ma qual è l'approccio intuitivo quando si ha a che fare con dati reali, campionati, di cui non si conosce la distribuzione?

Risposte

3 gunes Aug 21 2020 at 19:46

La seconda è una stima della covarianza, cioè$\widehat{\operatorname{cov}(X,Y)}$. Una stima tipica di un momento congiunto è$$\widehat{E[f(X,Y)]}=\frac{1}{n}\sum_{i=1}^n f(x_i,y_i)$$su cui si basa la formula della stima della covarianza. Il valore che dividiamo per l'operazione di calcolo della media viene scelto come$n-1$ invece di $n$per renderlo uno stimatore imparziale ( correzione di Bessel ). Quindi, questo non è un calcolo teorico come il primo.

1 ChrisHaug Aug 21 2020 at 21:17

L'approccio più semplice quando si ha un campione ma non si sa da quale distribuzione, o non si è disposti ad assumere una particolare distribuzione come modello, è usare la distribuzione empirica . Cioè, la probabilità di osservare il valore$x$ è impostato per essere la proporzione osservata nel campione, quindi se ci sono $k$ osservazioni pari a $x$ e il campione ha taglia N:

$$P[X=x] = k/N$$

Tutti i valori che non osservi nel tuo campione hanno probabilità zero. Puoi controllare che queste probabilità sommino a 1 e che questa sia una distribuzione valida.

Ora, come sai, la media del campione è definita in questo modo:

$$\bar{x} = \frac{1}{N}\sum_{i=1}^N x_i$$

Se raggruppate insieme le osservazioni che hanno lo stesso valore, denotando ogni possibile valore distinto come $x^{(1)}, ... , x^{(M)}$ (dove $M \leq N$ poiché puoi far apparire i valori più di una volta nel tuo campione), allora questo è lo stesso di:

$$\bar{x} = \frac{1}{N}\sum_{j=1}^M (k_j \cdot x^{(j)}) = \sum_{j=1}^M \frac{k_j}{N}x^{(j)} = \sum_{j=1}^M P[X=x^{(j)}] x^{(j)} = E(X)$$

Cioè, puoi considerare la media campionaria come la solita aspettativa matematica di una variabile casuale che è calcolata sotto la distribuzione empirica. Questa è un'interpretazione utile per il collegamento tra questi due concetti.

La seconda formula che mostri (la covarianza campionaria) può essere interpretata in modo simile: può essere derivata dalla prima assumendo la distribuzione empirica, tranne per il piccolo dettaglio che viene poi moltiplicato per$\frac{N}{N-1}$. Per un campione di grandi dimensioni, questo è vicino a 1, quindi non fa una grande differenza. Questo stimatore utilizza una correzione per il bias, come sottolineato in un'altra risposta. Questo è un dettaglio tecnico che non cambia l'intuizione alla base della formula.