p値の計算で1を加算/減算する必要があるのはなぜですか?
モンテカルロテスト後にp値を計算するためのこの方程式を見てきました。
\ begin {equation} P_ {upper} = \ frac {NGE + 1} {N_ {runs} + 1} \ quad \ quad P_ {lower} = \ frac {NLE + 1} {N_ {runs} + 1} \ end {方程式}
ソース: https://www.biomedware.com/files/documentation/clusterseer/MCR/Monte_Carlo.htm
ここで、Nrunsはモンテカルロシミュレーションの総数、NGEは統計が観測された統計以上であったシミュレーションの数、NLEは統計が観測された統計以下であったシミュレーションの数です。統計。
この式では、「観測された統計量が参照分布に含まれている」ため、分子と分母に1が追加されます。
質問:
これは正確にはどういう意味で、なぜ1を加算/減算する必要があるのですか?
1を加算/減算しなくても、有意なp値が得られます。したがって、統計的に正しいのはどれですか?
これについて何か考えはありますか?助けていただければ幸いです!
回答
一般に、p値の計算では、最初に検定統計量の分布を生成し、「観測された」検定統計量から無限大までの分布を統合します(たとえば、p値の上限)。下の画像を考えてみましょう。いくつかの値についてテストされている2つの仮説があります$\mu=1$ そして $\mu=0$。まず、青と赤の両方のヒストグラムについて、観測値から無限大までの積分が計算されます。その場合、p値は赤のヒストグラムを青で割った積分になります。
あなたの場合、積分の代わりに(MCの)イベントの総数が直接取得され、+ 1はその総数に観測された検定統計量を組み込むことに対応します。