Парный t-тест (или что-то еще) для сравнения производительности модели с использованием повторного разделения поездов / тестов?
Я ищу правильный статистический тест, чтобы сравнить тест ROC AUC двух моделей. Я сделал следующее:
- Случайно
train
/test
разделить мой набор данных из 1000 наблюдений (700/300) - Вменить пропущенные значения с использованием двух различных методик (прогнозирующие против медианного режима /):
train_a
,train_b
,test_a
,test_b
- Постройте две идентичные модели на наборах данных поезда:
model_a
&model_b
- Оцените эти две модели на тестовых наборах данных с помощью ROC AUC:
test_AUC_a
&test_AUC_b
- Повторите шаги 1–4 с другим случайным разделом (всего 100 раз)
Мои результаты выглядят так (векторы имеют длину 100):
test_AUC_a <- c(0.786, 0.767, 0.730, 0.728, 0.784)
test_AUC_b <- c(0.777, 0.751, 0.733, 0.700, 0.767)
Я ищу «правильный» статистический тест для сравнения этих двух методов подстановки пропущенных значений, поэтому на самом деле я пытаюсь спросить: «Приводит ли методология a
к более высокому AUC теста, чем методология b
» .
У меня действительно два вопроса:
- Подходит ли здесь односторонний тест? Я планирую придерживаться более простой методологии
b
(медианное / модовое вменение), если нет каких-либо доказательств того, чтоa
(прогнозирующее вменение) дает лучшие результаты - Подходит ли парный t-тест? Итак, используя одно из следующих:
t.test(test_AUC_a, test_AUC_b, paired = T, alternative = "greater")
t.test(test_AUC_a, test_AUC_b, paired = T, alternative = "two.sided")
В моем исследовании мне кажется, что я могу быть в правильном направлении с парным t-тестом, но я наткнулся на Надо Бенжио ( стр.16 ), который предлагает скорректированную статистику t-теста с повторной выборкой (нарушение предположения о независимости, поскольку наборы тестов будут перекрываться с каждой повторной выборкой данных), но я не уверен, правильно ли я понимаю документ и уместен ли он здесь.
Если честно, у меня также возникают проблемы с пониманием всей математики и ее переводом в код R, поэтому я не знаю, как выполнить их исправленный тест (1 или 2 хвоста), если бы я хотел.
Я очень надеюсь, что кто-нибудь сможет мне помочь! Проверка гипотез на самом деле не моя сильная сторона
Ответы
Это было хорошо для меня, потому что я не знал о статье Надо и Бенжио, которая на самом деле очень интересна. Это сложный документ, и я не могу гарантировать, что я понимаю его на 100% правильно, поэтому все, что я сейчас напишу об этой статье, не имеет никаких гарантий. Каким бы интересным ни был документ, я не думаю, что он написан наиболее ясно, см. Ниже.
(1) Здесь важно то, с какой «совокупностью проблем» вы хотите сделать общие заявления. Если вы просто хотите увидеть, какой метод работает лучше в ваших экспериментах, вам не нужен тест; вы можете просто посмотреть на разницу между средствами и визуальным отображением.
(2) Очевидно, что здесь есть некоторая случайная вариация, и тестирование заключается в том, чтобы спросить, можно ли объяснить различия, которые вы видите, случайной вариацией, но вы должны решить, какой вид вариации имеет значение. Я так понимаю, у вас есть только один набор данных. Теперь одна перспектива (P1 от настоящего момента) будет заключаться в том, что вы говорите, что набор данных фиксирован, и вас интересуют только утверждения о случайном изменении по случайным разбиениям. Другая перспектива (P2) заключается в том, что вы также принимаете во внимание, что набор данных является случайным, и вы хотите делать утверждения о базовой совокупности.$P$наборов данных. Мой первый комментарий здесь: P2 кажется на первый взгляд безнадежным; у вас есть только один набор данных, то есть у вас есть эффективный размер выборки одного из наборов данных из этой генеральной совокупности. Исходя из размера выборки, можно сказать немногое.
(3) Я буду обсуждать P2, статью Надо и Бенжио и проблему обобщения на $P$в (6). Это тонкий и трудный процесс, и сначала я сделаю несколько более простых утверждений.
(4) В P1 разные разбиения данных фактически независимы (они не в P2, отсюда и сложность в Nadeau и Bengio), поэтому стандартный парный t-тест здесь подойдет, если предположить, что ваше число реплик достаточно велик, и 100 должно хватить. Но очевидно, что это позволяет вам обобщить только то, что ожидается с большим количеством разделений в том же наборе данных (я на самом деле думаю, что это лучшее, что вы получите, см. Ниже).
(5) Вопрос о том, выбираете ли вы односторонний или двусторонний тест, зависит от того, является ли ваш первоначальный вопрос асимметричным или симметричным. Если вас интересует только, лучше ли метод A (потому что это новый, а если он не лучше, вы выбросите его, независимо от того, хуже ли он или они такие же), вы используете односторонний тестовое задание. Если вас интересует, есть ли какие-либо свидетельства того, что в этом наборе данных методы различаются в любом направлении, вы используете двусторонний тест.
(6) На самом деле кажется, что P2 - это то, о чем Надо и Бенжио обращаются в своей статье; во всем их моделировании набор данных рассматривается как случайный, и похоже, что они допускают ошибку обобщения, которую можно оценить, имея один набор данных, но в их статье это не очень ясно. Фактически, в своем исследовании моделирования они генерируют 1000 наборов данных, однако они отмечают на стр.259, что методы в разд. 4 (из которых вы процитировали один) относятся к одному набору данных. Итак, Надо и Бенжио рассматривают установку, о которой я интуитивно говорю, что это ситуация «эффективного размера выборки один», о которой вы действительно не можете сказать так много. Я говорю, что они ошибаются в этом? Смотря как. Если вы предполагаете, что ваш набор данных$Z=(Z_1,\ldots,Z_n)$ iid, а также случайно выбранный из совокупности $P$ таких наборов данных (это означает, что не только данные в $Z$ iid, но также и разные полные наборы данных $Z$ будет iid, если будет нарисовано более одного), на самом деле $Z$ содержит довольно много информации, если $n$ достаточно большой, около ожидаемого изменения $P$. Таким образом, вычисления в Nadeau и Bengio законны (и в их моделировании они, очевидно, рассматривают такие случаи, так что они действительно существуют), однако я думаю, что на практике они имеют довольно ограниченное значение. Это связано с тем, что обычно, если у вас есть только один набор данных, очень сложно сделать так, чтобы он был взят из любой четко определенной совокупности. Это$P$вымышленный; это «давайте представим, что есть популяция, которая представлена iid этим набором данных», что в основном означает, что набор данных неявно определяет популяцию, и, в конечном итоге, вы все еще делаете только выводы о самом наборе данных. (Я не исключаю возможности того, что существуют ситуации, в которых могут быть представлены более убедительные доводы в пользу применимости этой теории, но я думаю, что они в лучшем случае очень исключительны.)
Читая статью, мы также можем понять, что Надо и Бенжио используют некоторые приближения, которые, по их мнению, очень осторожны и не основаны на математических доказательствах справедливости. Действительность фактически будет зависеть от точного характера$P$, о которых авторы не делают предположений (которые в любом случае невозможно проверить при эффективном размере выборки 1). Насколько я понимаю, неточности в этой статье (о которых авторы, к похвально, открыты) происходят именно от того факта, что для того, чтобы сказать что-либо точное, им потребовались бы смелые предположения о$P$которые не поддаются тестированию в реальной ситуации, если только у вас не имеется существенно более одного набора данных. Поскольку методы, которые они предлагают, хорошо подходят для их моделирования, это связано с тем, что были выбраны установки моделирования, которые работают достаточно хорошо, вдобавок к тому факту, что, очевидно, в их моделированиях$Z$ на самом деле iid взят из $P$, что является ключевым предположением, которое они фактически делают. В большинстве реальных ситуаций, если у вас есть один реальный набор данных$Z$и попробуйте применить эти методы, сам факт того, что это единственный набор данных, который у вас уже есть, означает, что он в некотором роде особенный и не был случайно взят из какой-либо четко определенной совокупности наборов данных! (Иначе зачем было бы рисовать больше?)
Таким образом, у меня сложилось впечатление, что методология Надо и Бенжио не продвинет вас дальше простого парного t-теста; и вы можете только надежно обобщить то, что произошло бы с большим количеством разбиений в том же самом наборе данных. Если вы хотите большего, вам нужно больше (действительно независимых) наборов данных.