p- 값 계산에서 1을 더하거나 빼야하는 이유는 무엇입니까?

Aug 16 2020

몬테카를로 테스트 후 p- 값을 계산하기 위해이 방정식을 보았습니다.

\ begin {equation} P_ {upper} = \ frac {NGE + 1} {N_ {runs} + 1} \ quad \ quad P_ {lower} = \ frac {NLE + 1} {N_ {runs} + 1} \ 끝 {등식}

출처: https://www.biomedware.com/files/documentation/clusterseer/MCR/Monte_Carlo.htm

여기서 Nruns는 Monte Carlo 시뮬레이션의 총 수이고 NGE는 통계가 관찰 된 통계보다 크거나 같은 시뮬레이션의 수이며 NLE는 통계가 관찰 된 것보다 작거나 같은 시뮬레이션의 수입니다. 통계량.

이 방정식에서는 "관측 된 통계가 참조 분포에 포함"되기 때문에 분자와 분모에 1이 더해집니다.

질문 :

  1. 이것은 정확히 무엇을 의미하며 1을 더하거나 빼야하는 이유는 무엇입니까?

  2. 1을 더하거나 빼지 않더라도 여전히 중요한 p- 값을 얻습니다. 그렇다면 어느 것이 통계적으로 옳습니까?

이것에 대한 어떤 생각? 도움을 주시면 감사하겠습니다!

답변

1 CMSnoob Aug 18 2020 at 02:54

일반적으로 p- 값 계산의 경우 먼저 테스트 통계의 분포를 생성하고 "관찰 된"테스트 통계의 분포를 무한대까지 통합합니다 (p- 값 상한에 대해 가정 해 보겠습니다). 아래 이미지를 고려하십시오. 어떤 값에 대해 테스트되는 두 가지 가설이 있습니다.$\mu=1$$\mu=0$. 먼저 관찰 된 값에서 무한대까지의 적분은 파란색과 빨간색 히스토그램 모두에 대해 계산됩니다. 그러면 p- 값은 빨간색 히스토그램의 적분을 파란색으로 나눈 값이됩니다.

귀하의 경우에는 적분 대신 MC의 총 이벤트 수를 직접 가져오고 +1은 해당 총 수에 관찰 된 테스트 통계를 통합하는 것에 해당합니다.