Neden p-değeri hesaplamasına 1 ekleyip / çıkarmalıyız?
Monte-Carlo testinden sonra p değerini hesaplamak için bu denklemi gördüm.
\ begin {denklem} P_ {üst} = \ frac {NGE + 1} {N_ {çalıştırma} + 1} \ quad \ quad P_ {alt} = \ frac {NLE + 1} {N_ {çalıştırma} + 1} \ {equation} son
Kaynak: https://www.biomedware.com/files/documentation/clusterseer/MCR/Monte_Carlo.htm
Nruns, Monte Carlo simülasyonlarının toplam sayısı olduğunda, NGE, istatistiğin gözlemlenen istatistikten büyük veya ona eşit olduğu simülasyonların sayısıdır ve NLE, istatistiğin gözlemlenenden daha düşük veya ona eşit olduğu simülasyonların sayısıdır. istatistik.
Bu denklemde, pay ve paydaya 1 eklenir çünkü "gözlemlenen istatistik referans dağılımına dahildir".
Sorular:
Bu tam olarak ne anlama geliyor ve neden 1'i toplamalı / çıkarmalıyız?
Bir ekleme / çıkarma yapmasam bile, yine de önemli bir p değeri elde ederim. Bu nedenle hangisi istatistiksel olarak doğrudur?
Bununla ilgili herhangi bir fikrin var mı? Herhangi bir yardım için minnettar olacağım!
Yanıtlar
Genel olarak, p-değeri hesaplaması için, ilk olarak test istatistiğinin bir dağılımını üretiriz ve "gözlemlenen" test istatistiğinden sonsuza kadar olan dağılımı entegre ederiz (üst p değeri için diyelim). Aşağıdaki resmi düşünün. Bir değer için test edilen iki hipotez var$\mu=1$ ve $\mu=0$. İlk olarak, hem mavi hem de kırmızı histogramlar için gözlemlenen değerden sonsuza olan integral hesaplanır. Ardından p-değeri, kırmızı histogramın maviye bölünmesiyle elde edilen integral olacaktır.
Sizin durumunuzda, integral yerine toplam olay sayısı (MC'nin) doğrudan alınır ve +1, gözlemlenen test istatistiğinin bu toplam sayıya dahil edilmesine karşılık gelir.