Решение в случае нарушения предположения о линейности в модели логистической регрессии? (возможно в R)

Jan 08 2021

У меня проблема с моей логистической регрессией, которую я настроил, и я надеюсь, что кто-то может мне помочь. (Я работаю с R)

Мои данные основаны на почасовой стоимости. Зависимая переменная - это дихотомическая переменная (1 или 0). Модель включает 30 метрических независимых переменных (9 из них имеют как положительные, так и отрицательные наблюдения).

Теперь моя проблема: одно из предположений логистической регрессии состоит в том, что существует линейная связь между логитом результата и каждой независимой метрической переменной. Это предположение нарушается во всех моих моделях. (Все остальные предположения логистической регрессии не нарушаются).

Чтобы проверить это, я несколько раз применил тест Box-Tidwell. Один раз со всеми переменными в логистической регрессии, где я регрессировал исходную зависимую переменную на независимые переменные и произведение независимых переменных с соответствующим логарифмическим преобразованием независимых переменных.

(y ~ x1 + (x1*ln(x1)) + x2 + (x2*ln(x2)) + ... , familiy = binomial("logit"))

Кроме того, я проверил предположение о линейности с функцией R boxTidwell(model$linear.predictors ~ independent variable)для каждой переменной отдельно. Почти для всех переменных тест показал значимость и, следовательно, нарушение предположения модели. Не помогло и несколько преобразований независимых переменных. Кроме того, мои модели не прошли тест Хосмера-Лемешоу.

Я знаю, что могу обойти это предположение, если преобразовываю независимые метрические переменные в категориальные переменные. Однако мне бы хотелось этого избежать. Еще читал, что могу решить проблему методологией сплайнов. К сожалению, мне не удалось найти никакой литературы, объясняющей это. Особенно для оценки логистической модели.

Теперь я хотел бы знать, может ли кто-нибудь помочь мне здесь.

Означает ли нарушение предположения, что мне не разрешено использовать эту модель, и поэтому результаты могут быть неверными? (Я не хочу использовать модель в качестве модели для прогнозирования или прогнозирования, а только для объяснения / описания в пределах временного периода данных.)

Как мне применить методологию сплайнов для решения моей проблемы? Как интерпретировать результаты? (Мне бы очень помогло, если бы эти объяснения были поддержаны R-кодами.)

Ответы

1 kjetilbhalvorsen Jan 10 2021 at 12:09

Несколько моментов:

  • Тест Хосмера-Лемешоу считается устаревшим: Хосмер-Лемешоу против AIC для логистической регрессии

  • Вместо того чтобы проверять предположение о линейности, используйте сплайны регрессии напрямую, чтобы это предположение вам не понадобилось. На этом сайте есть много примеров (обратите внимание, что использование сплайнов в логистической регрессии работает так же, как и в других моделях регрессии). Как работают сплайны, когда они используются в правой части уравнения? , Как мне найти значение p для гладкой регрессии сплайн / лесс?

  • Альтернативой является гамма (обобщенные аддитивные модели), которая может выбирать степень сглаживания (например, количество узлов сплайна) как часть подгонки. См. Раздел Преобразование переменных для множественной регрессии в R , Почему мои сплайны не становятся более гибкими после изменения параметров в R mgcv?