Регрессия: неправильно ли объединять непрерывную переменную, чтобы избежать переобучения?
Повесят ли меня статистики за следующие действия?
У меня есть разнородный набор данных о пожилых людях. Таким образом, у меня есть модель с 7 предикторами, в том числе 4 категориальными, некоторые из которых имеют много уровней. Я провожу региональный анализ, что означает, что в некоторых регионах меньше предметов на определенных контрольных уровнях различных категориальных переменных.
Возраст испытуемых в основном 70-90 лет. Возрастная переменная в диапазоне от 50 до 100 вызывает явное переоснащение при сравнении ее с анализом пояснительных данных графиков. Я обнаружил, что в некоторых регионах не хватает испытуемых среднего возраста, чтобы делать значимые прогнозы. Когда я разделяю возрастную переменную на 10-летние интервалы и использую интервал с наибольшим числом субъектов в качестве ссылки, результаты регрессии соответствуют результатам анализа пояснительных данных.
Будет ли биннинг переменной возраста в порядке, если я опубликую оба: графики по необработанным данным + скорректированный анализ? Таким образом, оба анализа подтверждают главный результат - региональную изменчивость.
Ответы
Группировка непрерывной переменной - не лучшая идея . Вы вряд ли подвергнетесь физическому насилию со стороны статистиков за это, но вы, вероятно, получите много суровых взглядов, хмурых взглядов и бормотания себе под нос.
Есть гораздо лучший подход к решению этой проблемы, который превратит хмурые взгляды в улыбки: используйте смешанную модель . Это позволяет вам с пользой комбинировать информацию среди людей из разных регионов, не охватывая все комбинации предикторов в каждом регионе. В зависимости от цели вашего исследования это может быть выполнено с помощью многоуровневой модели, которая рассматривает как отдельных людей, так и регионы как случайные эффекты. Этот недавний ответ дает хорошее описание преимуществ такого моделирования.
Что касается возраста как непрерывного предиктора, вы можете найти полезным моделирование с помощью сплайна, который может обнаруживать нелинейные отношения между возрастом и результатом в рамках процесса линейного моделирования. Это может быть включено в смешанную модель с помощью стандартных пакетов программного обеспечения.