確率変数とサンプルデータの共分散

Aug 21 2020

私の教科書では、2つの確率変数間の共分散を見つけるための式は次のようになっています。

$Cov(X,Y)=E((X-EX)(Y-EY))$

$EY$ そして $EX$ それぞれ確率変数YとXの数学的期待値です。

この式はどのように変換されますか:

$Cov(X,Y) = \frac{\sum (x-\bar x)(y-\bar y)}{n-1}$

実データ(サンプリングデータ)で計算する場合は?

特定の月の2つの株価間の共分散を計算したいとします。もちろん、共分散を見つけるために2番目の式に頼ります。しかし、私が聞きたい基本的な質問は、確率変数のコンテキストで話している最初の式について、XとYの基礎となる分布を知っていると仮定することです(私の教科書の例のように)。ただし、上記のような実際のアプリケーションでは、2つの株価間の共分散を計算する場合、サンプリングした2つの株価データの基礎となる分布がわかりません

最初の式を適用する方法を理解していますが、確率変数の分布を知っている場合に限ります(それが $N(0,1)$またはほとんどの教科書に示されている他の一般的な分布)。しかし、分布がわからない実際のサンプリングされたデータを処理するときの直感的なアプローチは何ですか?

回答

3 gunes Aug 21 2020 at 19:46

2つ目は、共分散の推定です。$\widehat{\operatorname{cov}(X,Y)}$。関節モーメントの一般的な推定値は次のとおりです。$$\widehat{E[f(X,Y)]}=\frac{1}{n}\sum_{i=1}^n f(x_i,y_i)$$ここで、共分散推定式はに基づいています。平均化演算のために除算する値は、次のように選択されます。$n-1$ の代わりに $n$不偏推定量にするため(ベッセルの補正)。したがって、これは最初の計算としての理論計算ではありません。

1 ChrisHaug Aug 21 2020 at 21:17

サンプルがあるが、どの分布からわからない場合、または特定の分布をモデルとして想定したくない場合の最も簡単なアプローチは、経験分布を使用することです。つまり、値を観測する確率$x$ サンプルで観測された比率になるように設定されているので、 $k$ 等しい観測値 $x$ サンプルのサイズはNです。

$$P[X=x] = k/N$$

サンプルで観察されない値には、確率ゼロが与えられます。これらの確率の合計が1であり、これが有効な分布であることを確認できます。

ご存知のように、サンプル平均は次のように定義されています。

$$\bar{x} = \frac{1}{N}\sum_{i=1}^N x_i$$

同じ値を持つ観測値をグループ化する場合、それぞれの異なる可能な値を次のように示します。 $x^{(1)}, ... , x^{(M)}$ (どこ $M \leq N$ サンプルに値を複数回表示させることができるため)、これは次のようになります。

$$\bar{x} = \frac{1}{N}\sum_{j=1}^M (k_j \cdot x^{(j)}) = \sum_{j=1}^M \frac{k_j}{N}x^{(j)} = \sum_{j=1}^M P[X=x^{(j)}] x^{(j)} = E(X)$$

つまり、サンプル平均は、経験分布の下で計算される確率変数の通常の数学的期待値と見なすことができます。これは、これら2つの概念間のリンクについての1つの有用な解釈です。

表示する2番目の式(サンプル共分散)も同様に解釈できます。経験的分布を仮定することにより、最初の式から導出できます。ただし、詳細に乗算する点が異なります。$\frac{N}{N-1}$。大きなサンプルの場合、これは1に近いため、大きな違いはありません。この推定量は、別の回答で指摘されているように、バイアスの補正を使用します。これは、公式の背後にある直感を変えない技術的な詳細です。