Как справиться с проблемой регрессии с искаженной целью и только несколькими высокими значениями?

Aug 17 2020

В настоящее время я занимаюсь проблемой регрессии с искаженной целевой переменной (представленной ниже).

Естественно, моей первой идеей было преобразовать цель с помощью натурального логарифма, поскольку это, вероятно, поможет как алгоритмам линейной регрессии, так и алгоритмам на основе дерева решений. Вторая идея - подготовить схему проверки, аналогичную стратифицированной k-кратной перекрестной проверке с целевым разбиением на n групп. Однако меня беспокоит то, что у меня всего несколько высших значений:

Следовательно, мой тестовый набор и все ошибки наборов проверки сильно зависят от того, помещено ли в них одно из этих 4 крайних значений или нет. Это затрудняет получение надежной истинной оценки погрешности.

Могу ли я еще что-нибудь сделать для решения этой проблемы?

Ответы

1 PredictedLife Aug 18 2020 at 02:50

Вы можете сгенерировать симметричные распределения с помощью подходящего преобразования: ваше распределение в основном наклонено вправо, поэтому требуется преобразование log10.

Вы также можете использовать метод автоматического биннинга и комбинировать его с фиктивными переменными для шипов.

Если вы затем выполните выбор функций, учащийся автоматически выберет наиболее важные функции. Такие ученики, как XGBoost, автоматически заботятся о мультиколлинеарности.