Pourquoi devrions-nous ajouter / soustraire 1 dans le calcul de la valeur p?
J'ai vu cette équation pour calculer la valeur p après un test de Monte-Carlo.
\ begin {equation} P_ {upper} = \ frac {NGE + 1} {N_ {runs} + 1} \ quad \ quad P_ {lower} = \ frac {NLE + 1} {N_ {runs} + 1} \ end {équation}
La source: https://www.biomedware.com/files/documentation/clusterseer/MCR/Monte_Carlo.htm
où Nruns est le nombre total de simulations de Monte Carlo, NGE est le nombre de simulations pour lesquelles la statistique était supérieure ou égale à la statistique observée, et NLE est le nombre de simulations pour lesquelles la statistique était inférieure ou égale à la statistique observée statistique.
Dans cette équation, 1 est ajouté au numérateur et au dénominateur parce que «la statistique observée est incluse dans la distribution de référence».
Des questions:
Qu'est-ce que cela signifie exactement et pourquoi devrions-nous ajouter / soustraire 1?
Même si je n'ajoute / ne soustrait pas un, j'obtiens toujours une valeur p significative. Par conséquent, lequel est statistiquement correct?
Des pensées à ce sujet? J'apprécierai toute aide!
Réponses
En général, pour le calcul de la valeur p, nous produisons d'abord une distribution de la statistique de test et intégrons la distribution de la statistique de test "observée" jusqu'à l'infini (disons pour la valeur p supérieure). Considérez l'image ci-dessous. Deux hypothèses sont testées pour une certaine valeur$\mu=1$ et $\mu=0$. Tout d'abord, l'intégrale de la valeur observée à l'infini est calculée pour les histogrammes bleu et rouge. La valeur p sera alors l'intégrale de l'histogramme rouge divisée par le bleu.
Dans votre cas, au lieu de l'intégrale, le nombre total d'événements (de MC) est pris directement et le +1 correspond à l'incorporation de la statistique de test observée dans ce nombre total.