Почему мы должны прибавлять / вычитать 1 при вычислении p-значения?

Aug 16 2020

Я видел это уравнение для вычисления p-значения после теста Монте-Карло.

\ begin {уравнение} P_ {upper} = \ frac {NGE + 1} {N_ {run} + 1} \ quad \ quad P_ {lower} = \ frac {NLE + 1} {N_ {run} + 1} \ конец {уравнение}

Источник: https://www.biomedware.com/files/documentation/clusterseer/MCR/Monte_Carlo.htm

где Nruns - общее количество симуляций Монте-Карло, NGE - количество симуляций, для которых статистика была больше или равна наблюдаемой статистике, а NLE - количество симуляций, для которых статистика была меньше или равна наблюдаемой. статистика.

В этом уравнении к числителю и знаменателю добавляется 1, потому что «наблюдаемая статистика включена в эталонное распределение».

Вопросов:

  1. Что именно это означает и почему мы должны добавлять / вычитать 1?

  2. Даже если я не добавляю / не вычитаю единицу, я все равно получаю значительное p-значение. Итак, какой из них статистически правильный?

Есть мысли по этому поводу? Буду признателен за любую помощь!

Ответы

1 CMSnoob Aug 18 2020 at 02:54

В общем, для вычисления p-значения мы сначала производим распределение тестовой статистики и интегрируем распределение от «наблюдаемой» тестовой статистики до бесконечности (скажем, для p-value upper). Рассмотрим изображение ниже. Две гипотезы проверяются на предмет ценности$\mu=1$ и $\mu=0$. Сначала вычисляется интеграл от наблюдаемого значения до бесконечности как для синей, так и для красной гистограммы. Тогда p-значение будет интегралом красной гистограммы, деленной на синюю.

В вашем случае вместо интеграла напрямую берется общее количество событий (MC), а +1 соответствует включению наблюдаемой статистики теста в это общее количество.