Определение экстремальности тестовой статистики и определение $p$-значение для двустороннего теста
Наше определение тега $p$-значение говорит
При частотной проверке гипотез $p$-значение - это вероятность того, что результат будет экстремальным (или большим), чем наблюдаемый результат, при условии, что нулевая гипотеза верна.
Но как определить, что более экстремально ? В «Диалоге между учителем и вдумчивым учеником» @whuber показывает, что крайность может быть определена по отношению правдоподобия под$H_0$ vs. $H_1$ (или $H_A$ в исходных обозначениях), $LR=\frac{P(data|H_1)}{P(data|H_0)}$. Чем больше LR, тем экстремальнее результат. Все идет нормально.
В примере @whuber $H_0$является односторонним , и поэтому$H_1$. Тогда не так сложно найти, какие области значений тестовой статистики дают наибольшие LR. Таким образом, у нас мало концептуальных проблем с поиском$p$-значение; мы просто интегрируем область под нулевым распределением для всех возможных значений тестовой статистики, которые равны или более экстремальны (имеют равный или больший LR), чем наблюдаемое значение.
Однако не так ясно, когда$H_1$это двусторонний , например, в двусторонний$t$-контрольная работа. В то время как левый хвост нулевого распределения будет давать наибольшие LR для альтернативы слева от предполагаемого значения в$H_0$, Левый хвост не будет вообще быть экстремума для альтернативы справа от$H_0$; на самом деле, крайним был бы противоположный хвост. Проблема в том, что обе альтернативы принадлежат$H_1$.
В: Как нам справиться с такой ситуацией? Каков принципиальный способ определения экстремальности, когда противоречивые уровни LR могут возникать в разных случаях в пределах$H_1$?
PS Я ранее задавал связанный с этим вопрос :$p$-значение всегда зависит от альтернативы. Я узнал, что, используя современное (пост Фишера) определение$p$-значение, да.
Ответы
В дополнение к сценариям в двусторонних тестах, этот вопрос трудно избежать в групповых последовательных клинических испытаниях.
В групповом последовательном испытании есть набор времени анализа и граница остановки, определяющая пороговые значения для каждого анализа для остановки испытания. При расчете$p$-значения или доверительные интервалы необходимо указать порядок возможных результатов. Например, если вы остановитесь во время 2 из 4 с$Z$- оценка 3, как это сравнить с остановкой в момент 3 с $Z$-оценка 2,5?
Среди фактически предлагаемых заказов:
- упорядочение по величине разницы
- упорядочение по времени, так что любая остановка в более раннее время более экстремальна, чем любая остановка в более позднее время
Это настоящий выбор; разные люди могли законно выбирать разные порядки. Упорядочивание по величине разницы, как правило, приводит к более узким доверительным интервалам, более точным значениям p и меньшей систематической ошибке, но увеличивает чувствительность анализа к (ненаблюдаемым) временам, в которые мог бы проводиться будущий анализ остановленного испытания.
( Ссылка : краткий курс Киттлсона и Гиллена)
Определение экстремальности тестовой статистики и определение p-значения для двустороннего теста ...
Я бы предположил, что подходящей точкой зрения здесь является то, что, когда у кого-то есть «правильная» статистика, статистика сама говорит вам, что означает «крайность» для рассматриваемой тестовой задачи - одностороннюю или двустороннюю. Таким образом, более простой вопрос заключается в том, какова «правильная» статистика. Задачи тестирования - это частные случаи проблем оптимизации - вы хотите максимизировать мощность с учетом ограничений по размеру. Это означает определение «правильной» концепции решения.
Например, поиск наиболее мощного теста для тестовой задачи с простой альтернативой нулевого или простого является частным случаем линейной программы: $$ \sup_{0 \leq \phi \leq 1, \, \\ \\ \int \phi(\omega) f_0(\omega) d\mu \leq \alpha} \int \phi(\omega) f_1(\omega) d\mu. $$ То, что решение $\phi^*$для любой такой программы принимает форму $$ \phi^* = \begin{cases} 1 & \text{if } f_1 \geq k f_0 \\ 0 & \text{if } f_1 \geq k f_0, \end{cases} $$ для некоторых $k$. В контексте тестовой задачи естественная интерпретация состоит в том, что кто-то отвергает, когда статистика отношения правдоподобия$\frac{f_1}{f_0}$ больше чем $k$.
(В комментариях предполагается, что порог $k$интерпретируется как «теневая цена» ограничения размера. Видимо, эта терминология заимствована из экономики.$k$- множитель Куна-Такера-Лагранжа задачи. Для интерьерных решений обычно говорят, что если$\alpha$--- бюджет, в экономических проблемах --- расслабляется $\epsilon$, мощность теста увеличивается на $k \epsilon$. Эта интерпретация, однако, не верна для линейных программ в целом.)
Точно так же поиск наиболее мощного теста составного нуля и простой альтернативы сводится к решению линейной программы. Решение соответствующей двойной программы говорит нам, что наиболее сильная статистика - это статистика отношения правдоподобия по отношению к наименее благоприятному байесовскому априорному положению для нуля. (Простой нулевой случай - это особый случай с тривиальным априором.)
Другой пример - это, конечно же, тесты с односторонними альтернативами для моделей со свойством монотонного отношения правдоподобия (MLR). MLR означает, что модель допускает ранжирование отношений правдоподобия, инвариантных по отношению к данным.$\omega$. Таким образом, тест отношения правдоподобия - это самый мощный тест, почти по предположениям.
Для двусторонних альтернатив, например $\Gamma_0 = \{\gamma_0\}$ а также $\Gamma_1 = (-\infty,\gamma_0)\cup (\gamma_0, \infty)$ для нормальных плотностей, параметризованных средним $\gamma \in \mathbb{R}$, самого мощного теста вообще не существует. Следовательно, правильная статистика должна определяться каким-либо другим критерием - например, вместо этого можно искать локально наиболее эффективный тест .
Тест $\phi^*$ is a locally most powerful test if for any other test $\phi$, there exists an open neighborhood $N_{\gamma_0, \phi}$ of the null hypothesis such that $\phi^*$ has uniformly higher power than $\phi$ on $N_{\gamma_0, \phi}$. The corresponding first-order optimality condition gives the criterion $$ \phi^* = \begin{cases} 1 & \text{if } \frac{\partial^2}{\partial \gamma^2}f_{\gamma_0} \geq k_1 \frac{\partial}{\partial \gamma} f_{\gamma_0} + k_2 f_{\gamma_0} \\ 0 & \text{if } \frac{\partial^2}{\partial \gamma^2}f_{\gamma_0} < k_1 \frac{\partial}{\partial \gamma} f_{\gamma_0} + k_2 f_{\gamma_0} \end{cases} $$ for some $k_1$ and $k_2$. Substituting the normal density into above expressions, we have that $\phi^*$ rejects when $|x- \gamma_0|$ is large---a two-sided test.