Perché dovremmo aggiungere / sottrarre 1 nel calcolo del valore p?
Ho visto questa equazione per calcolare il valore p dopo un test Monte-Carlo.
\ begin {equation} P_ {upper} = \ frac {NGE + 1} {N_ {runs} + 1} \ quad \ quad P_ {lower} = \ frac {NLE + 1} {N_ {runs} + 1} \ end {equation}
Fonte: https://www.biomedware.com/files/documentation/clusterseer/MCR/Monte_Carlo.htm
dove Nruns è il numero totale di simulazioni Monte Carlo, NGE è il numero di simulazioni per le quali la statistica era maggiore o uguale alla statistica osservata e NLE è il numero di simulazioni per le quali la statistica era inferiore o uguale a quella osservata statistica.
In questa equazione, 1 viene aggiunto al numeratore e al denominatore perché "la statistica osservata è inclusa nella distribuzione di riferimento".
Domande:
Cosa significa esattamente e perché dovremmo aggiungere / sottrarre 1?
Anche se non aggiungo / sottraggo uno, ottengo comunque un valore p significativo. Quale è quindi statisticamente corretto?
Qualche idea su questo? Apprezzerò qualsiasi aiuto!
Risposte
In generale, per il calcolo del valore p, produciamo prima una distribuzione della statistica del test e integriamo la distribuzione dalla statistica del test "osservato" fino all'infinito (diciamo per il valore p superiore). Considera l'immagine qui sotto. Ci sono due ipotesi in fase di verifica per un certo valore$\mu=1$ e $\mu=0$. Innanzitutto, viene calcolato l'integrale dal valore osservato all'infinito per entrambi gli istogrammi blu e rosso. Quindi il valore p sarà l'integrale dell'istogramma rosso diviso per il blu.

Nel tuo caso, invece dell'integrale, il numero totale di eventi (di MC) viene preso direttamente e il +1 corrisponde all'incorporazione della statistica del test osservato in quel numero totale.