Por que devemos adicionar / subtrair 1 no cálculo do valor p?
Eu vi essa equação para calcular o valor p após um teste de Monte-Carlo.
\ begin {equação} P_ {superior} = \ frac {NGE + 1} {N_ {corridas} + 1} \ quad \ quad P_ {inferior} = \ frac {NLE + 1} {N_ {corridas} + 1} \ fim {equação}
Fonte: https://www.biomedware.com/files/documentation/clusterseer/MCR/Monte_Carlo.htm
onde Nruns é o número total de simulações de Monte Carlo, NGE é o número de simulações para as quais a estatística foi maior ou igual à estatística observada e NLE é o número de simulações para as quais a estatística foi menor ou igual ao observado estatística.
Nesta equação, 1 é adicionado ao numerador e ao denominador porque "a estatística observada está incluída na distribuição de referência".
Questões:
O que exatamente isso significa e por que devemos adicionar / subtrair 1?
Mesmo se eu não adicionar / subtrair um, ainda obtenho um valor p significativo. Portanto, qual é estatisticamente correto?
Alguma opinião sobre isso? Agradeço qualquer ajuda!
Respostas
Em geral, para o cálculo do valor p, primeiro produzimos uma distribuição da estatística de teste e integramos a distribuição da estatística de teste "observada" até o infinito (digamos para o valor p superior). Considere a imagem abaixo. Existem duas hipóteses sendo testadas para algum valor$\mu=1$ e $\mu=0$. Primeiro, a integral do valor observado até o infinito é calculada para os histogramas azul e vermelho. Então o valor de p será o integral do histograma vermelho dividido pelo azul.
No seu caso, em vez da integral, o número total de eventos (de MC) é obtido diretamente e o +1 corresponde à incorporação da estatística de teste observada naquele número total.