Kovarian untuk Variabel Acak vs. Data Sampel

Aug 21 2020

Dalam buku teks saya, dikatakan bahwa rumus untuk menemukan kovarian antara dua variabel acak adalah:

$Cov(X,Y)=E((X-EX)(Y-EY))$

Dengan $EY$ dan $EX$ menjadi ekspektasi matematika untuk variabel acak Y dan X masing-masing.

Bagaimana rumus ini diterjemahkan menjadi:

$Cov(X,Y) = \frac{\sum (x-\bar x)(y-\bar y)}{n-1}$

Untuk kapan kita menghitung dengan data nyata (data sampel)?

Katakanlah saya ingin menghitung kovariansi antara dua harga saham pada bulan tertentu. Tentu saja, saya akan menggunakan rumus ke-2 untuk menemukan kovarians. Namun, pertanyaan mendasar yang ingin saya tanyakan adalah, untuk rumus pertama yang kita bicarakan dalam konteks variabel acak, kita berasumsi bahwa kita mengetahui distribusi yang mendasari X dan Y (seperti contoh di buku teks saya). Namun, dalam aplikasi praktis seperti di atas, ketika saya ingin menghitung kovarian antara dua harga saham, saya tidak tahu distribusi yang mendasari kedua data harga saham yang telah saya sampel .

Saya mengerti bagaimana menerapkan rumus pertama, tetapi hanya jika saya tahu distribusi variabel acak (jadilah $N(0,1)$atau distribusi umum lainnya yang ditampilkan di sebagian besar buku teks). Tetapi apa pendekatan intuitif ketika berhadapan dengan data nyata bersampel yang tidak kita ketahui distribusinya?

Jawaban

3 gunes Aug 21 2020 at 19:46

Yang kedua adalah perkiraan kovarian, yaitu$\widehat{\operatorname{cov}(X,Y)}$. Perkiraan khas momen gabungan adalah$$\widehat{E[f(X,Y)]}=\frac{1}{n}\sum_{i=1}^n f(x_i,y_i)$$di mana rumus perkiraan kovarian didasarkan. Nilai yang kita bagi untuk operasi rata-rata dipilih$n-1$ dari pada $n$untuk menjadikannya penduga yang tidak bias ( koreksi Bessel ). Jadi, ini bukan kalkulasi teoretis seperti yang pertama.

1 ChrisHaug Aug 21 2020 at 21:17

Pendekatan paling sederhana ketika Anda memiliki sampel tetapi tidak tahu dari distribusinya apa, atau tidak bersedia menganggap distribusi tertentu sebagai model, adalah dengan menggunakan distribusi empiris . Artinya, probabilitas mengamati nilai$x$ diatur menjadi proporsi yang diamati dalam sampel, jadi jika ada $k$ pengamatan sama dengan $x$ dan sampel memiliki ukuran N:

$$P[X=x] = k/N$$

Setiap nilai yang tidak Anda amati dalam sampel Anda diberi probabilitas nol. Anda dapat memeriksa bahwa probabilitas ini berjumlah 1 dan ini adalah distribusi yang valid.

Sekarang, seperti yang Anda ketahui, mean sampel didefinisikan seperti ini:

$$\bar{x} = \frac{1}{N}\sum_{i=1}^N x_i$$

Jika Anda mengelompokkan observasi yang memiliki nilai yang sama, yang menunjukkan setiap nilai yang mungkin berbeda sebagai $x^{(1)}, ... , x^{(M)}$ (dimana $M \leq N$ karena Anda dapat memiliki nilai yang muncul lebih dari sekali dalam sampel Anda), maka ini sama dengan:

$$\bar{x} = \frac{1}{N}\sum_{j=1}^M (k_j \cdot x^{(j)}) = \sum_{j=1}^M \frac{k_j}{N}x^{(j)} = \sum_{j=1}^M P[X=x^{(j)}] x^{(j)} = E(X)$$

Artinya, Anda dapat menganggap mean sampel sebagai ekspektasi matematis biasa dari variabel acak yang dihitung di bawah distribusi empiris. Itu adalah salah satu interpretasi yang berguna untuk hubungan antara kedua konsep tersebut.

Rumus kedua yang Anda tunjukkan (kovarians sampel) dapat diartikan sama: rumus ini dapat diturunkan dari rumus pertama dengan mengasumsikan distribusi empiris, kecuali untuk detail kecil yang kemudian dikalikan dengan$\frac{N}{N-1}$. Untuk sampel besar, ini mendekati 1, jadi tidak membuat perbedaan besar. Estimator ini menggunakan koreksi bias, seperti yang ditunjukkan dalam jawaban lain. Ini adalah detail teknis yang tidak mengubah intuisi di balik rumus.