¿Ingeniería de funciones antes o después del escalado?
Estoy haciendo ingeniería de funciones en un conjunto de funciones para reducir el tamaño del conjunto de datos. Las características pueden tener diferentes escalas. Por ejemplo, una característica tiene valores que varían entre 1000 y 1500, y las otras características varían entre 0 y 100. Una de las pruebas que hago en ingeniería de características es eliminar una característica que tiene una alta correlación con otra.
He intentado escalar los datos antes de hacer la ingeniería de características, y también al revés. En el primer caso de uso, obtengo 60 funciones, y en el último caso de uso, obtengo 54 funciones.
¿Cuál es la forma correcta de hacerlo? ¿Deberíamos hacer ingeniería de funciones antes o después del escalado?
Respuestas
La estandarización también se puede aplicar de antemano, pero normalmente se lleva a cabo después de la generación de características. Por ejemplo,
sus características pueden tener significados específicos, por ejemplo, tasa de clics (CTR) = clics/anuncios mostrados, y si escala los clics y el anuncio mostrado de antemano, usará la señal CTR.
las nuevas características pueden estar fuera de escala, por ejemplo, si escala$x$a 0-1 y luego tomar$x^8$como característica nueva, probablemente estará en un rango más pequeño que 0-1.
Si elige aplicar la escala de antemano, también deberá decidir si va a aplicar la escala nuevamente después de generar nuevas funciones o no, especialmente si los rangos de las nuevas funciones son muy diferentes a las funciones estandarizadas.