Régression : est-ce une erreur de biner une variable continue pour surmonter le surajustement ?

Aug 19 2020

Les statisticiens me pendraient-ils pour avoir fait ce qui suit ?

J'ai un ensemble de données hétérogène de sujets âgés. Ainsi, j'ai un modèle avec 7 prédicteurs, dont 4 catégoriels, dont certains ont plusieurs niveaux. Je fais une analyse régionale, ce qui signifie que certaines régions ont moins de sujets sur certains niveaux de référence de différentes variables catégorielles.

Les sujets sont majoritairement âgés de 70 à 90 ans. La variable d'âge, allant de 50 à 100 ans, provoque un surajustement clair tout en la comparant à l'analyse des données explicatives des parcelles. J'ai découvert qu'il n'y avait pas assez de sujets d'âge moyen dans certaines régions pour faire des prédictions significatives. Lorsque je divise la variable d'âge en groupes de 10 ans et que j'utilise le groupe avec le plus grand nombre de sujets comme référence, les résultats de la régression sont conformes à l'analyse des données explicatives.

Le regroupement de la variable d'âge serait-il acceptable si je publiais les deux : graphiques sur données brutes + analyse ajustée ? Ainsi, les deux analyses confirment le résultat principal - la variabilité régionale.

Réponses

3 EdM Aug 20 2020 at 04:44

Regrouper une variable continue n'est pas une bonne idée . Il est peu probable que vous soyez agressé physiquement par des statisticiens pour avoir fait cela, mais vous obtiendrez probablement beaucoup de regards durs, de froncements de sourcils et de marmonnements dans votre souffle.

Il existe une bien meilleure approche pour traiter ce type de problème, qui transformerait les froncements de sourcils en sourires : utilisez un modèle mixte . Cela vous permet de combiner utilement les informations entre les individus de différentes régions sans avoir à couvrir toutes les combinaisons de prédicteurs dans chaque région. Selon le but de votre étude, cela pourrait être fait avec un modèle à plusieurs niveaux qui traite à la fois les individus et les régions comme des effets aléatoires. Cette réponse récente fournit une belle description des avantages d'une telle modélisation.

En ce qui concerne l'âge en tant que prédicteur continu, vous trouverez peut-être utile de modéliser avec une spline qui peut découvrir des relations non linéaires entre l'âge et le résultat dans le cadre d'un processus de modélisation linéaire. Cela peut être intégré dans un modèle mixte via des progiciels standards.