Regresión: ¿es incorrecto agrupar una variable continua para superar el sobreajuste?
¿Me colgarían los estadísticos por hacer lo siguiente?
Tengo un conjunto de datos heterogéneo de sujetos de edad avanzada. Por lo tanto, tengo un modelo con 7 predictores, incluidos 4 categóricos, de los cuales algunos tienen muchos niveles. Estoy haciendo un análisis regional, lo que significa que algunas regiones tienen menos sujetos en ciertos niveles de referencia de diferentes variables categóricas.
Los sujetos en su mayoría tienen entre 70 y 90 años. La variable edad, que oscila entre 50 y 100 años, está causando un claro sobreajuste al compararla con el análisis de datos explicativo de las gráficas. Descubrí que no hay suficientes sujetos de edad media en algunas regiones para hacer predicciones significativas. Cuando clasifico la variable de edad en intervalos de 10 años y uso el intervalo con el mayor número de sujetos como referencia, los resultados de la regresión están en línea con el análisis de datos explicativos.
¿Estaría bien el agrupamiento de la variable de edad si publico ambos: gráficos en datos sin procesar + análisis ajustado? Por lo tanto, ambos análisis confirman el resultado principal: la variabilidad regional.
Respuestas
La clasificación de una variable continua no es una buena idea . Es poco probable que los estadísticos lo agredan físicamente por hacer eso, pero probablemente reciba muchas miradas duras, ceño fruncido y murmullos entre dientes.
Hay un enfoque mucho mejor para lidiar con este tipo de problema, que convertiría el ceño fruncido en sonrisas: usa un modelo mixto . Eso le permite combinar información de manera útil entre individuos en diferentes regiones sin tener que cubrir todas las combinaciones de predictores dentro de cada región. Dependiendo del propósito de su estudio, eso podría hacerse con un modelo multinivel que trate tanto a los individuos como a las regiones como efectos aleatorios. Esta respuesta reciente proporciona una buena descripción de las ventajas de dicho modelado.
Con respecto a la edad como predictor continuo, puede que le resulte útil modelar con una spline que pueda descubrir relaciones no lineales entre la edad y el resultado como parte de un proceso de modelado lineal. Eso se puede incorporar dentro de un modelo mixto a través de paquetes de software estándar.