¿Es una buena idea utilizar un modelo lineal (como la regresión logística) para generar nuevas características para un modelo no lineal (como un bosque aleatorio)? [duplicar]

Nov 25 2020

El escenario es un problema de clasificación de 2 clases. Tenemos demasiadas funciones, algunas de ellas poco informativas y con muchos ceros. Estamos pensando en formas de seleccionar las mejores características, y PCA (en el conjunto de datos completo o quizás en grupos de características relacionadas) es una de las alternativas. Pero pensé si había otra forma de generar combinaciones lineales de características que no solo tomara en consideración la varianza intrínseca, sino también la relación con el objetivo. Como un objetivo-PCA, si eso existiera.

Y una aproximación a esta idea podría ser lo que hago en la pregunta principal: ¿Podría ser una buena idea usar un clasificador lineal como regresión logística o SVM para generar combinaciones lineales de características que, de alguna manera, están optimizando la ganancia de información con respeto al objetivo? Porque creo que si, dado un subconjunto de variables, un hiperplano puede dar una buena separación de las clases, la ecuación del hiperplano, considerada como una característica, tiene más poder predictivo que cualquiera de las características individuales, entonces tal vez podría sustituirla el grupo de características con el nuevo y dar todas estas características generadas al último modelo (el bosque aleatorio) como entradas.

EDITAR: Hay una pregunta muy similar a esta, que alguien ha sugerido:

Árboles de decisión de hiperplano no perpendiculares

Está muy relacionado con lo que estaba pensando. ¡¡Gracias a todos!!

Respuestas

Lewian Nov 25 2020 at 23:20
  1. Parece que Partial Least Squares (PLS) es lo que usted llama "PCA objetivo" - originalmente esto es para regresión, pero hay versiones para clasificación.

  2. Un problema con lo que propone aquí es que deberá tener cuidado cuando luego use algo como la validación cruzada para evaluar la calidad de su clasificador, porque si usa el conjunto de datos completo para la generación de características, la validación cruzada del bosque aleatorio posterior será engañoso. (Esto se puede solucionar con la validación cruzada de todo el proceso, pero eso es más difícil y computacionalmente más engorroso).

  3. Me sorprendería si la reducción de información antes del bosque aleatorio es mejor que el bosque aleatorio en la información completa; no conozco ningún resultado que sugiera que tal operación de antemano ayude de alguna manera al bosque aleatorio, aunque existe la posibilidad de que lo haga en su situación no se puede excluir (si tiene suficientes datos, puede dejar algunos a un lado y comparar).

  4. Otro problema es que la regresión logística o SVD generan características para optimizar su propia forma de clasificación: ¿por qué debería ser mejor usar estas características con otro método que se configuró para hacer otra cosa?