Разработка функций до или после масштабирования?

Aug 20 2020

Я занимаюсь разработкой набора функций, чтобы уменьшить размер набора данных. Признаки могут иметь разный масштаб. Например, одна функция имеет значения, которые варьируются от 1000 до 1500, а другие функции варьируются от 0 до 100. Один из тестов, которые я выполняю при разработке функций, заключается в удалении одной функции, которая имеет высокую корреляцию с другой.

Я попытался масштабировать данные перед тем, как приступить к проектированию функций, и наоборот. В первом варианте использования я получаю 60 функций, а во втором - 54 функции.

Как правильно это сделать? Должны ли мы заниматься разработкой функций до или после масштабирования?

Ответы

gunes Aug 20 2020 at 14:18

Стандартизация также может быть применена заранее, но обычно это происходит после создания функции. Например,

  • ваши функции могут иметь определенное значение, например, рейтинг кликов (CTR) = клики / показанная реклама, и если вы масштабируете клики и показ рекламы заранее, вы будете использовать сигнал CTR.

  • новые функции могут быть не в масштабе, например, если вы масштабируете $x$ до 0-1, а затем взять $x^8$ в качестве новой функции он, вероятно, будет в меньшем диапазоне, чем 0-1.

Если вы решите применить масштабирование заранее, вам также нужно будет решить, собираетесь ли вы снова применять масштабирование после создания новых функций или нет, особенно если диапазоны новых функций сильно отличаются от стандартных функций.