Comment gérer un problème de régression avec une cible asymétrique et seulement quelques valeurs élevées ?
Je m'attaque actuellement à un problème de régression avec une variable cible asymétrique (présentée ci-dessous).
Naturellement, ma première idée était de transformer la cible avec un logarithme naturel car cela aidera probablement à la fois la régression linéaire ou les algorithmes basés sur un arbre de décision. La deuxième idée est de préparer un schéma de validation similaire à la validation croisée stratifiée k-fold avec une cible regroupée en n groupes. Cependant, mon souci est que je n'ai que quelques valeurs les plus élevées:
Par conséquent, mon ensemble de test et toutes les erreurs d'ensembles de validation dépendent fortement du fait que l'une de ces 4 valeurs extrêmes soit dessinée ou non. Il est donc difficile d'obtenir une estimation fiable de l'erreur vraie.
Y a-t-il autre chose que je puisse faire pour résoudre ce problème ?
Réponses
Vous pouvez générer une ou plusieurs distributions symétriques par une transformation appropriée : votre distribution est principalement asymétrique à droite, une transformation log10 est donc nécessaire.
Vous pouvez également utiliser une méthode de regroupement automatique et la combiner avec des variables factices pour les pics.
Si vous effectuez ensuite une sélection de fonctionnalités, l'apprenant choisira automatiquement les fonctionnalités les plus significatives. Les apprenants comme XGBoost prennent automatiquement en charge la multicolinéarité.