Почему мы должны прибавлять / вычитать 1 при вычислении p-значения?
Я видел это уравнение для вычисления p-значения после теста Монте-Карло.
\ begin {уравнение} P_ {upper} = \ frac {NGE + 1} {N_ {run} + 1} \ quad \ quad P_ {lower} = \ frac {NLE + 1} {N_ {run} + 1} \ конец {уравнение}
Источник: https://www.biomedware.com/files/documentation/clusterseer/MCR/Monte_Carlo.htm
где Nruns - общее количество симуляций Монте-Карло, NGE - количество симуляций, для которых статистика была больше или равна наблюдаемой статистике, а NLE - количество симуляций, для которых статистика была меньше или равна наблюдаемой. статистика.
В этом уравнении к числителю и знаменателю добавляется 1, потому что «наблюдаемая статистика включена в эталонное распределение».
Вопросов:
Что именно это означает и почему мы должны добавлять / вычитать 1?
Даже если я не добавляю / не вычитаю единицу, я все равно получаю значительное p-значение. Итак, какой из них статистически правильный?
Есть мысли по этому поводу? Буду признателен за любую помощь!
Ответы
В общем, для вычисления p-значения мы сначала производим распределение тестовой статистики и интегрируем распределение от «наблюдаемой» тестовой статистики до бесконечности (скажем, для p-value upper). Рассмотрим изображение ниже. Две гипотезы проверяются на предмет ценности$\mu=1$ и $\mu=0$. Сначала вычисляется интеграл от наблюдаемого значения до бесконечности как для синей, так и для красной гистограммы. Тогда p-значение будет интегралом красной гистограммы, деленной на синюю.
В вашем случае вместо интеграла напрямую берется общее количество событий (MC), а +1 соответствует включению наблюдаемой статистики теста в это общее количество.