Warum sollten wir 1 in der p-Wert-Berechnung addieren / subtrahieren?
Ich habe diese Gleichung zur Berechnung des p-Wertes nach einem Monte-Carlo-Test gesehen.
\ begin {Gleichung} P_ {obere} = \ frac {NGE + 1} {N_ {Läufe} + 1} \ quad \ quad P_ {untere} = \ frac {NLE + 1} {N_ {Läufe} + 1} \ Ende {Gleichung}
Quelle: https://www.biomedware.com/files/documentation/clusterseer/MCR/Monte_Carlo.htm
Dabei ist Nruns die Gesamtzahl der Monte-Carlo-Simulationen, NGE die Anzahl der Simulationen, bei denen die Statistik größer oder gleich der beobachteten Statistik war, und NLE die Anzahl der Simulationen, bei denen die Statistik kleiner oder gleich der beobachteten war Statistik.
In dieser Gleichung wird 1 zum Zähler und zum Nenner addiert, weil "die beobachtete Statistik in der Referenzverteilung enthalten ist".
Fragen:
Was genau bedeutet das und warum sollten wir 1 addieren / subtrahieren?
Selbst wenn ich keine Eins addiere / subtrahiere, erhalte ich immer noch einen signifikanten p-Wert. Welches ist also statistisch korrekt?
Irgendwelche Gedanken dazu? Ich freue mich über jede Hilfe!
Antworten
Im Allgemeinen erstellen wir für die p-Wert-Berechnung zunächst eine Verteilung der Teststatistik und integrieren die Verteilung von der "beobachteten" Teststatistik bis ins Unendliche (sagen wir für den oberen p-Wert). Betrachten Sie das Bild unten. Es gibt zwei Hypothesen, die auf einen bestimmten Wert geprüft werden$\mu=1$ und $\mu=0$. Zunächst wird das Integral vom beobachteten Wert bis zur Unendlichkeit sowohl für das blaue als auch für das rote Histogramm berechnet. Dann ist der p-Wert das Integral des roten Histogramms geteilt durch das blaue.

In Ihrem Fall wird anstelle des Integrals die Gesamtzahl der Ereignisse (von MC) direkt genommen und +1 entspricht der Einbeziehung der beobachteten Teststatistik in diese Gesamtzahl.