¿Cómo manejar un problema de regresión con un objetivo sesgado y solo unos pocos valores altos?
Actualmente estoy abordando un problema de regresión con una variable objetivo sesgada (que se presenta a continuación).

Naturalmente, mi primera idea fue transformar el objetivo con logaritmo natural, ya que probablemente ayudará tanto a la regresión lineal como a los algoritmos basados en árboles de decisión. La segunda idea es preparar un esquema de validación similar a la validación cruzada estratificada de k-fold con el objetivo agrupado en n grupos. Sin embargo, mi preocupación es que solo tengo unos pocos valores más altos:

Por lo tanto, mi conjunto de prueba y el error de todos los conjuntos de validación dependen en gran medida de si uno de estos 4 valores extremos se dibuja dentro de ellos o no. Eso hace que sea difícil obtener una estimación de error real confiable.
¿Hay algo más que pueda hacer para manejar ese problema?
Respuestas
Puede generar distribuciones simétricas mediante la transformación adecuada: su distribución es principalmente asimétrica a la derecha, por lo tanto, se requiere una transformación log10.
También puede usar un método de clasificación automática y combinarlo con variables ficticias para los picos.
Si luego realiza una selección de funciones, el alumno elegirá automáticamente las funciones más significativas. Los estudiantes como XGBoost se encargan automáticamente de la multicolinealidad.