랜덤 변수와 표본 데이터의 공분산
내 교과서에서 두 무작위 변수 간의 공분산을 찾는 공식은 다음과 같습니다.
$Cov(X,Y)=E((X-EX)(Y-EY))$
와 $EY$ 과 $EX$ 랜덤 변수 Y와 X에 대한 수학적 기대치입니다.
이 공식은 어떻게 번역됩니까?
$Cov(X,Y) = \frac{\sum (x-\bar x)(y-\bar y)}{n-1}$
실제 데이터 (샘플링 된 데이터)로 계산할 때?
주어진 달에 두 주가 사이의 공분산을 계산한다고 가정 해 보겠습니다. 물론 공분산을 찾기 위해 두 번째 공식에 의지 할 것입니다. 그러나 내가 묻고 싶은 근본적인 질문은 우리가 랜덤 변수의 맥락에서 이야기하고있는 첫 번째 공식에 대해 우리가 X와 Y의 기본 분포를 알고 있다고 가정하는 것입니다 (제 교과서의 예에서와 같이). 그러나 위와 같은 실제 응용 프로그램에서 두 주가 간의 공분산을 계산하려는 경우 샘플링 한 두 주가 데이터의 기본 분포를 알지 못합니다 .
나는 첫 번째 공식을 적용하는 방법을 이해하지만, 확률 변수의 분포를 알고있는 경우에만 $N(0,1)$또는 대부분의 교과서에 표시된 기타 일반적인 배포판). 그러나 분포를 알지 못하는 실제 표본 데이터를 처리 할 때 직관적 인 접근 방식은 무엇입니까?
답변
두 번째 는 공분산 추정치 입니다.$\widehat{\operatorname{cov}(X,Y)}$. 관절 모멘트의 일반적인 추정치는 다음과 같습니다.$$\widehat{E[f(X,Y)]}=\frac{1}{n}\sum_{i=1}^n f(x_i,y_i)$$공분산 추정 공식의 기반입니다. 평균화 연산을 위해 나눈 값은 다음과 같이 선택됩니다.$n-1$ 대신에 $n$편향되지 않은 추정량 으로 만들기 위해 ( Bessel의 수정 ). 따라서 이것은 이론적 인 계산이 아닙니다.
표본이 있지만 어떤 분포를 통해 알 수 없거나 특정 분포를 모델로 가정하지 않을 때 가장 간단한 방법은 경험적 분포 를 사용하는 것 입니다. 즉, 값을 관찰 할 확률$x$ 샘플에서 관찰 된 비율로 설정되므로 $k$ 다음과 같은 관찰 $x$ 샘플의 크기는 N입니다.
$$P[X=x] = k/N$$
표본에서 관찰되지 않는 모든 값에는 확률 0이 지정됩니다. 이러한 확률의 합이 1이고 이것이 유효한 분포인지 확인할 수 있습니다.
이제 아시다시피 샘플 평균은 다음과 같이 정의됩니다.
$$\bar{x} = \frac{1}{N}\sum_{i=1}^N x_i$$
같은 값을 가진 관측치를 그룹화하면 가능한 각 값을 다음과 같이 표시합니다. $x^{(1)}, ... , x^{(M)}$ (어디 $M \leq N$ 샘플에 값이 두 번 이상 나타날 수 있으므로 다음과 같습니다.
$$\bar{x} = \frac{1}{N}\sum_{j=1}^M (k_j \cdot x^{(j)}) = \sum_{j=1}^M \frac{k_j}{N}x^{(j)} = \sum_{j=1}^M P[X=x^{(j)}] x^{(j)} = E(X)$$
즉, 표본 평균을 경험적 분포 하에서 계산되는 랜덤 변수의 일반적인 수학적 기대 값으로 간주 할 수 있습니다. 이것은 두 개념 사이의 연결에 대한 유용한 해석 중 하나입니다.
두번째는 화학식 (샘플 공분산)을 표시 마찬가지로 해석 될 수있다 : 그것은 첫 번째에서 유도 될 수 있고, 경험적 분포를 가정하여 제외 가 다음 곱한 것을 작은 디테일$\frac{N}{N-1}$. 큰 표본의 경우 1에 가까우므로 큰 차이가 없습니다. 이 추정기는 다른 답변에서 지적한 바와 같이 편향에 대한 수정을 사용합니다. 이것은 공식의 직관을 바꾸지 않는 기술적 세부 사항입니다.