평균이 포함 된 경우 자산 변동성이 자산 평균보다 추정하기 쉬운 이유는 무엇입니까?
자산 수익률의 차이는 $\sigma^2$ (제곱근이 변동성), 자산 평균보다 추정하기 쉽습니다. $\mu$ (기대 수익이라고도 함) 자산 수익률의 평균을 추정하기가 매우 어렵 기 때문입니다.
변동성에 대한 표본 추정기 자체가 공식에 자산 평균의 표본 추정기를 포함하고 있는데 왜 이런 경우입니까?
$$\hat{\sigma} = \sqrt{\sum_{i=1}^n \frac{(x_i-\hat{\mu})^2}{n-1}}$$
추정 오류는 $\hat{\mu}$ 추정 오류에 스며 $\hat{\sigma}$? 그렇지 않다면 왜 그렇지 않습니까?
답변
Quantoisseur의 답변에 두 가지 점을 추가하겠습니다.
표준 오류
추정 분산과 평균의 차이점은 분산 추정기의 표준 오차 는 표본 의 크기 (관측 수)에 따라 달라지는 반면 평균의 표준 오차 는 표본 의 길이 (또는 기간 )에 따라 달라진다는 것 입니다. 여기를 참조 하세요. . 따라서 더 미세하고 미세한 데이터 포인트 (고 빈도 데이터까지)를 사용하는 경우 일반적으로 평균 추정기의 정확도가 아닌 분산 추정기 (예 : 실현 된 분산 참조 ) 의 정확도는 향상됩니다. 후자의 경우 추정 샘플 (시간 지평)을 전체적으로 확장해야합니다.
자기 상관
조건부 평균과 분산 에 대해 이야기 해 봅시다 . 아래에서 IBM 수익률의 자기 상관 도표를 참조하십시오. 보시다시피 수익률 자체는 중요한 자기 상관을 거의 묘사하지 않습니다. 따라서 실제로 과거 데이터를 사용하여 미래의 예상 수익을 예측할 수 없습니다. 그러나 제곱 수익률 (관측 할 수없는 분산을 프록시)은 중요한 자기 상관을 나타냅니다. 따라서 과거 제곱 수익률은 미래의 조건부 분산에 대한 정보를 전달합니다. 이것이 GARCH 모델이 작동하는 이유입니다. 제곱 수익률은 자기 상관입니다. 기억하세요$\mathrm{Var}[R]=\mathrm{E}[R^2]-\mathrm{E}[R]^2\approx \mathrm{E}[R^2]$.

평균이 분산 추정에 미치는 영향
표준 오류의 첫 번째 요점은 시계열 수익률의 평균을 정확하게 추정 할 수 없다는 것입니다. 1 % 또는 3 % 또는 -2 % 일 수 있습니다 (종종 우리는 표시에 대해 확신 할 수도 없습니다!). 모두 가능합니다. 그러나 분산에 중요합니까? 정의에 따르면$\mathrm{Var}[R]=\mathrm{E}[(R-\mathrm{E}[R])^2]=\mathrm{E}[R^2]-\mathrm{E}[R]^2$. 이제 0.01, 0.03 또는 -0.02를 제곱하면 무시할 수있는 숫자가됩니다. 따라서 평균 추정에서 잠재적으로 큰 표준 오류가 있음에도 불구하고 (3 %는 1 %의 3 배에 해당) 분산이 제곱 된 수량을 처리하고 수익이 충분히 가깝기 때문에 분산 추정에 실제로 영향을주지 않습니다. 0으로.
대답은 통계적이지 않습니다. 거의 모든 통계 영역에서 평균을 추정하는 것이 더 쉽고 ( 즉 , 더 높은 정밀도로 추정 할 수 있음) 분산 (따라서 변동성), 왜도, 첨도 등과 같은 더 높은 모멘트를 추정하는 것이 더 어렵고 때로는 훨씬 더 어렵습니다.
금융 통계 (또는 선호하는 경우 금융 계량 경제학)를 다르게 만드는 핵심 요소는 시장 효율성과 경쟁입니다.
시장 효율성
효율적인 시장은 당신이 위험에 비추어 분명 잘못된 가격을 찾을 수 없습니다 : 모든 가격은 공정한 하나입니다.
시장은 어떻게 효율적이됩니까? 주식이 상승하고 있다는 것을 알고 있다고 가정합니다 . 더 이상 돈을 벌지 못할 때까지 주식을 매수했습니다. 하락할 것으로 알고 있는 주식을 매도하는 경우에도 마찬가지입니다 . 정보가 보장되지 않은 경우 구매 또는 판매로 인해 약간의 위험을 감수 할 수 있습니다. 따라서 귀하의 거래는 불확실성으로 인해 완화됩니다.
경쟁
돈을 벌려고하는 사람은 당신 만이 아닙니다. 다른 사람들도 항상 돈을 버는 데 도움이되는 정보를 찾고 있습니다. 두 명 이상의 사람들이 어떤 정보에 대해 알게되면, 처음으로 거래하고 가격을 옮기는 사람은 돈을 벌고 늦은 사람은 돈을 벌지 못합니다. 그것은 사람들이 정보를 거래하는 첫 번째 사람이되기 위해 경쟁하게합니다. 시장의 모든 사람들에게 이는 가격이 새로운 정보를 빠르게 통합한다는 것을 의미합니다.
사람들이 새로운 정보를 얻는 시간을 제외하고 가격은 공정합니다 . 그들은 모든 정보를 통합했습니다. 새로운 정보가 도착하면 사람들은 가격이 다시 공평해질 때까지 가격을 바꾸는 돈을 벌기 위해 거래합니다. 경쟁은 시장 가격을 공정하게 만들고 공정한 가격은 시장을 효율적으로 만듭니다.
평균 예측
그 결과 주식의 움직임을 예측하기가 어렵습니다. 특히 정보가 부족한 경우에는 더욱 그렇습니다. 또한 가격이 새로운 정보에 빠르게 적응하기 때문에 대부분의 경우 가격이 다음에 어디로 갈지 알 수 없습니다.
물론, 최소한 무위험 이자율만큼 좋은 수익을 기대하지만 얼마나 더 많은 수익을 얻을 수 있을까요? 결정하기 어렵습니다. 결정하는 것이 어렵지 않다면 가격이 공정해질 때까지 거래로 돌아갈 것입니다.
이러한 경제적 현실에는 두 가지 의미가 있습니다. 첫째, 주식의 평균 수익률을 예측하기가 어렵습니다. 그렇지 않다면 거래하고 돈을 버는 것이 쉬울 것입니다. 둘째, 주식이 언제 많이 움직 일지 추측하는 것은 훨씬 더 어렵습니다. 따라서 대부분의 투자자들은 주식을 장기간 보유하는 것이 더 쉬우 며 시간을 맞추는 대신 그러한 변화로부터 이익을 얻습니다.
휘발성
이제 평균 수익률을 예측하는 것이 왜 어려운지 이해할 수 있습니다. 변동성을 예측하는 것이 쉽지는 않지만 자산 수익률의 평균을 예측하는 것보다 변동성을 예측하는 것이 더 쉽습니다.
이 시점에서 "하지만 VIX에서 쉽게 돈을 벌 수없는 이유는 무엇입니까?"라고 말할 수 있습니다. (또는 기타 변동성 관련 상품). 경쟁과 시장 효율성은 다시 그것을 어렵게 만듭니다. 이러한 힘은 VIX 및 기타 변동성 관련 상품을 공정한 가격으로 유지합니다. 이를 통해 시간, 일, 월 등의 긴 시간 동안 변동성을 더 잘 추정 할 수 있습니다.
그러나 몇 분에 걸쳐 VIX를 예측하고 거래를 시도했다면 주식 수익률을 예측하는 것만 큼 어려울 것입니다.
표본 분산 및 표준 편차 (변동성) 공식은 다음과 같습니다.

귀하의 질문이 왜 변동성이 수익률보다 예측하기 쉬운 지라면, 직관적 인 대답은 분자가 제곱이므로 양의 값만 갖기 때문입니다. 이것은 이제 수익의 신호를 예측하는 것에 대해 걱정할 필요가없고 크기 만 예상하기 때문에 문제를 단순화합니다.
따라서 더 간단한 대답이 있습니다. 평균에 대한 지난 1 년 동안 알려진 역사적 값이 있습니다. 단순히 연말 값을 시작 값으로 나눈 값입니다.
그러나 평균 (수익률)을 더 잘 추정하기 위해 일일 수익률을보고 최대 250 일의 거래까지 집계하여 평균 추정치를 개선 할 수 없습니다. 나눈 값.
그러나 분산 (또는 표준 편차)을 사용하면 매주 값을보고 평균을내어 월별 데이터 등을 보는 것보다 값을 더 잘 읽을 수 있습니다.
실제로 변동성을 추정하는 표준 방법은 평균을 전혀 사용하지 않습니다 (공식에서 평균은 0으로 설정 됨). @Kevin의 답변에서 지적했듯이 실제로 차이가 없기 때문에 질문이 조금 있습니다. 시장 평균 수익률은 매우 긴 기간 (예 : 수십 년)에 걸쳐 매우 견고하고 (하루에 약 4 베이시스 포인트에서 일정에 매우 가깝습니다 ), 따라서 질문에 대한 답은 시간대에 따라 다릅니다. 당신은보고 있습니다.
이것은 주로 주식 수익률의 분산이 평균에 비해 높기 때문입니다.
재고 수익률을 추정하기가 더 어렵다는 생각은 오래되었으며 고주파 데이터 또는 GARCH 모델이 널리 사용되기 전에 이미 알려져있었습니다. 요점은 예를 들어 Jorion의 85 논문 에서 다음과 같이 작성합니다.
반면에 분산과 공분산의 불확실성은 더 정확하게 추정되기 때문에 그다지 중요하지 않습니다.
하지만 요점은 더 오래되었다고 생각합니다.
간단한 예를 들어 보겠습니다. 재고 수익률이 동일하고 정규 분포를 따른다고 가정합니다.$r \sim N(\mu, \sigma^2)$, 평균과 분산을 모두 알 수 없습니다. 평균에 대한 표준 신뢰 구간은 다음과 같습니다.
$$[\hat{\mu} - t_{n-1,\alpha/2}\frac{s}{\sqrt{n}},\hat{\mu} + t_{n-1,\alpha/2}\frac{s}{\sqrt{n}}],$$
어디 $t_{n-1,\alpha/2}$ 이다 $\alpha/2$-백분위 수 t-stat $n-1$자유도. 표준 편차에 대한 신뢰 구간은 카이-제곱 분포를 사용하며 다음과 같이 지정됩니다 ( 여기 참조 )`
$$\left[\sqrt{\frac{(n-1)s^2}{\chi^2_{n-1,\alpha/2}}},\sqrt{\frac{(n-1)s^2}{\chi^2_{n-1,1-\alpha/2}}}\right].$$
S & P 500의 월별 수익률을 고려하십시오 (장기 평균 $0.8\%$ 및 표준 편차 $4.5\%$). 20 년의 수익을 샘플링한다고 가정합니다.$n=240$. 추정자가 평균과 표준 편차가 정확하다고 가정합니다. 이제$95\%$-평균에 대한 신뢰 구간은
$$[0.23,1.37].$$
표준 편차에 대한 신뢰 구간은 다음과 같습니다.
$$[4.13,4.94].$$
표준 편차에 대한 신뢰 구간이 상대적으로 더 타이트하다는 것을 알 수 있습니다. 그러나 이것은 평균 및 표준 편차의 임의 값의 경우가 아닙니다. 오히려 주식 수익률 평균과 표준 편차는 평균이 표준 편차에 비해 낮기 때문에 후자의 경계가 상대적으로 더 타이트하도록 발생합니다.
주식 수익률을 높이면 $10\%$월간 표준 편차 상수를 유지하면 평균에 대한 신뢰 구간이 표준 편차보다 상대적으로 타이트 해집니다. 다른 정규 분포를 보면 표준 편차보다 더 정확하게 평균을 추정한다는 것을 쉽게 알 수 있습니다. 첨도의 대답에서 알 수 있듯이 다른 상황에서는 평균이 분산보다 추정하기가 더 쉽습니다.
질문을받은 지 2.5 개월 후에이 글을 읽고 있지만 여전히 답변에 약간의 혼란이 있습니다 (또는 적어도 나는 그들에 의해 혼란 스럽습니다).
- OP는 자산 수익률의 변동이 평균보다 추정하기 더 쉽다고 주장하지만 그 진술은 수학적으로 공식화되지 않았습니다. 현재 사용 가능한 답변은 수학적으로도 공식화하지 않습니다. 이것은 엄격한 토론을 어렵게 만듭니다.
- 보다 구체적으로, 중심 개념은 자산 수익률의 평균과 분산입니다. 이론적 평균 (수학적 기대치)과 분산은 데이터 생성 프로세스 (DGP)의 통계 / 확률 적 모델의 매개 변수로만 의미가 있습니다. 모델은 OP 또는 현재 사용 가능한 답변에 의해 제공되지 않습니다. 추정치에 대한 엄격한 정의가 없으면 추정 용이성에 대한 논의가 문제가됩니다.
- 또한 OP 나 현재 사용 가능한 답변은 추정 정밀도를 수학적으로 정의하지 않으며 평균 및 분산에 대한 추정 정밀도 공식을 제공하지 않습니다.
- 이론적 평균과 분산이 수학적으로 잘 정의되어 있어도 관찰되지 않습니다. 따라서 추정 정밀도를 평가하는 것은 중요하지 않습니다. 후자가 잠재되어 있기 때문에 추정치를 실제 값과 비교할 수는 없습니다. 최소한 일부 답변은 자산 수익의 관찰 된 실현을 기본 분포의 이론적 평균과 결합하는 것 같습니다. (단, 관측 데이터 측면에서 분산을 정의하는 모델이 있을 수 있으며 해당 데이터가 주어지면 분산이 관측 될 수 있습니다.)
- 비슷한 맥락에서 평균 추정은 포인트 예측과 동일하지 않습니다. 이론적 평균을 알고 있더라도 분산이 크면 점 예측이 어려울 수 있습니다. 따라서 큰 예측 오류는 평균이 잘못 추정되었음을 의미합니다.
이것이 OP 질문에 직접 답하지는 않지만, 토론이 엄격한 답변으로 안내되기를 바랍니다.
좀 더 직접적인 대답을하고 싶습니다. 그것은 수학적 환상입니다.
분포가 알려져 있기 때문에 공식 이론을 통해 해결할 수 있지만 그렇게하면 긴 게시물이 작성됩니다. 대신 시뮬레이션을 통해 빠르게 설명 할 수 있습니다.
데이터가 정규 분포를 따른다고 가정 해 보겠습니다. 결과는 그것에 달려 있습니다. 다른 분포에서 추출 된 경우 표준 편차의 수정 계수가 변경됩니다. 내가 사용하는 가정은 귀하의 공식이 그것을 암시하기 때문에 관찰이 독립적이라는 것입니다. 이 수정은 자기 상관 데이터에 대해 작동하지 않습니다. 그럼에도 불구하고 그림은 결국 똑같이 작동 할 것이고 독립은 저에게 덜 일한다는 것을 의미합니다.
평균의 편향되지 않은 추정치는 다음과 같습니다. $$\bar{x}=\frac{\sum_1^Nx_i}{N}.$$
편향되지 않은 분산 추정값은 다음과 같습니다. $$s^2=\frac{\sum_1^N(x_i-\bar{x})^2}{N-1}$$
표준 편차의 편향되지 않은 추정치는 다음과 같습니다. $$s=\frac{\sqrt{ \frac{\sum_1^N(x_i-\bar{x})^2}{N-1}}}{\sqrt{\frac{2}{N-1}}\frac{\Gamma(\frac{N}{2})}{\Gamma(\frac{N-1}{2})}}$$
편향되지 않은 분산 추정값의 샘플링 분포가 Snedecor의 F 분포이기 때문에 수정 계수가 필요합니다. 대조적으로 표준 편차의 편향되지 않은 추정치의 샘플링 분포는 Chi 분포입니다. 표본 분산의 편향되지 않은 추정량의 제곱근은 표준 편차의 편향된 추정량입니다.
제가 한 것은 표준 정규 분포에서 각각 1,000 개의 관측치가있는 100,000 개의 샘플을 생성하는 것입니다. 코드는 답변 하단에 있습니다.
그런 다음 평균, 분산 및 표준 편차의 편향되지 않은 추정치를 계산했습니다. 각각의 분포는 평균, 분산 및 표준 편차의 표본 분포입니다. 따라서 이제 각 범주에 대해 100,000 개의 관측 된 모수 추정치가있는 각각의 샘플이 있습니다.
평균과 분산의 표본 분포를 그래픽으로 본다고 가정합니다. 이 경우 모집단 평균에 대한 추정량의 분포가 모집단 분산보다 밀도가 더 높다는 것을 알 수 있습니다. 물론 각 추정기에 대한 기술 통계를 작성하면 더 정확할 수 있습니다.

평균의 표본 분포는 학생 분포이지만 표본이 너무 커서 실제적인 목적을 위해 정규 분포로 수렴되었습니다. 분산의 샘플링 분포는 Snedecor의 F 분포이므로 상당히 비슷해 보이지만 실제로는 다릅니다.
그럼에도 불구하고 평균 추정치가 분산 추정치보다 더 정확한 것으로 보입니다. 평균 추정치가 분산 추정치 내부에 묻혀 있기 때문에 이는 놀라운 일이 아닙니다. 오류에는 두 가지 원인이 있습니다.
이 예에서 평균의 관측 제곱 오차는 약 100 단위이고 분산은 200 단위입니다. 그렇다면 분산의 제곱 오차와 표준 편차를 비교하면 어떻게 될까요? 표준 편차의 제곱 오차는 약 50입니다. 시각적으로 아래 그래프에서 확인할 수 있습니다.

그러나 이것은 착각이며 당신을 의심하게 만드는 것은 문제를 보는 이러한 방식에 내재 된 단위의 누락 된 변화입니다. 정정 계수로 나눈 제곱근을 제외하고 데이터 또는 통계로 모든 종류의 변환을 수행 할 수 있습니다. 각각은 분산 또는 평균을 기준으로 추정치를 늘리거나 줄입니다. 추정의 정확성이 향상된다는 것을 의미하지는 않습니다.
위의 내용은 정밀도를 향상 시키거나 일부 상황에서 추정기가 더 잘 작동하도록하는 변환 또는 다른 함수가 존재하지 않는다는 것을 의미하지 않습니다. 그러나 여기에서는 환상입니다.
편집 의견에 대한 응답으로이 질문이 문제가되는 이유를 지적 할 것이라고 생각했습니다. 벡터 고려$$\theta=\begin{bmatrix}a \\ b\\ c\end{bmatrix}$$ 두 번째 벡터 $$\theta'=\begin{bmatrix}d\\ e\\ f\end{bmatrix}$$ 실제 매개 변수에 대한 추정치가 될 수 있습니다. $\Theta$.
또한 가정합시다 $\theta\succ\theta'$최적의 기준에 따라. 여기서 그 표준은 추정의 분산을 최소화하고 편향되지 않는다는 것입니다. 그것은 사용할 수있는 유일한 표준과는 거리가 멀다.
추정의 정확성에 대해 이야기하는 것은 의미가 없습니다. $a$ 대 $b$ 벡터에서 $\theta$, 하나가 알고리즘에 따라 다른 하나의 변환 인 경우에도 마찬가지입니다. 나는 지적 할 것이다$s^2$ 의 변형입니다 $\bar{x}$. 각각은 기준에 따라 가능한 최선의 방법으로 추정됩니다.
정밀도와 정확도 차이를 논의하는 것이 의미가있을 수 있습니다. $a$ 과 $d$ 그러나 사이는 아니다 $a$ 과 $b$.
이 경우의 유일한 예외는 다른 목적 함수가 선택된 경우입니다. 예를 들어, 2 차 손실 대신 all-or-nothing 손실 함수를 사용하면 정확도는 떨어지지 만 분산 및 표준 편차의 추정량은 정확도가 향상됩니다.
최대 위험을 최소화하는 대신 평균 손실을 사용했다면 (대부분의 Frequentist 추정자가 선택되는 방식 인) 상당히 다른 결과를 얻을 수도 있습니다. 사실, 그것들은 비록 동점 일 수는 있지만, 빈도주의 추정자들에 의해 확률 적으로 1 차 지배를받을 수는 없습니다.
하나를 다른 것보다 쉽게 찾고 있다면 어딘가에서 강력하게 위반되는 몇 가지 가정이 있습니다. 놓치고있는 다른 일이 진행되고 있으며 매우 중요 할 수 있습니다.
나는 물론 그것이 무엇인지에 대해 강한 의견을 가지고 있지만 그것은 제시된 질문이 아닙니다.
rm(list = ls())
library(ggplot2)
set.seed(500)
observations<-1000
experiments<-100000
x<-matrix(rnorm(observations*experiments),nrow = observations)
sample_mean<-apply(x,2,mean)
sample_variance<-apply(x,2,var)
correction_factor<-exp(log(sqrt(2/(observations-1)))+lgamma(observations/2)- lgamma((observations-1)/2))
sample_standard_deviation<-sqrt(sample_variance)/correction_factor
Frequentist_estimators<-data.frame(sample_mean=sample_mean,sample_variance=sample_variance,
sample_standard_deviation=sample_standard_deviation)
rm(sample_mean)
rm(sample_variance)
rm(sample_standard_deviation)
Frequentist_errors<-data.frame(mean_error=(Frequentist_estimators$sample_mean)**2,variance_error=(Frequentist_estimators$sample_variance-1)**2,sd_error=(Frequentist_estimators$sample_standard_deviation-1)**2)
a<-ggplot(Frequentist_estimators)+theme_bw()
b<-a+geom_density(aes(sample_mean,colour="Sample Mean"))+geom_density(aes(sample_variance,colour="Sample Variance"))
print(b)
a<-ggplot(Frequentist_estimators)+theme_bw()
b<-a+geom_density(aes(sample_variance,colour="Sample Variance"))+geom_density(aes(sample_standard_deviation,colour="Sample Standard Deviation"))
print(b)
print(paste0("Observed Squared Error of the Mean is ",sum(Frequentist_errors$mean_error)))
print(paste0("Observed Squared Errors of the Variance is ",sum(Frequentist_errors$variance_error)))
print(paste0("Observed Squared Error of the Standard Deviation is ",sum(Frequentist_errors$sd_error)))