Понимание «агрессивности» лассо, пошагового выбора вперед и выбора наилучшего подмножества в Hastie, T., Tibshirani, R. & Tibshirani, RJ (2017)

Aug 17 2020

Hastie et al. (2017) объясняют, как вышеупомянутые методы работают в зависимости от отношения сигнал / шум (SNR) с их переменной «агрессивностью». Теперь я не понимаю, почему разные методы различаются по своей агрессивности (имеется в виду количество предикторов, которые они включают в окончательную модель?) И как это связано с SNR. Я думаю, что понимаю компромисс смещения и дисперсии и то, как он связан с лучшей производительностью лассо в некоторых сценариях, но авторы дают дополнительные объяснения, которых я не понимаю.

В своем пояснении авторы пишут, что

"подогнанные значения из лассо (для любых фиксированных $\lambda \geq 0$) являются непрерывными функциями y (Zou et al., 2007; Tibshirani and Taylor, 2012), тогда как подобранные значения от прямого пошагового выбора и выбора наилучшего подмножества (для фиксированных $k \geq 1$) скачок прерывистый, когда y перемещается через границу принятия решения для активного набора »(стр. 3)

Может ли кто-нибудь пояснить мне, что такое «граница принятия решения» и что подразумевается под активным набором (выбранным набором предикторов?). Авторы также связывают агрессивность со степенями свободы, чего я не могу понять.

Я был бы признателен за интуитивное объяснение в дополнение к любым уравнениям, потому что у меня нет сильного математического образования.


Хасти, Т., Тибширани, Р., и Тибширани, Р.Дж. (2017). Расширенные сравнения выбора лучшего подмножества, прямого пошагового выбора и лассо. ArXiv: 1707.08692 [Статистика].http://arxiv.org/abs/1707.08692

Ответы

2 EdM Aug 17 2020 at 23:57

Судя по использованию в связанной статье, «активный набор» - это набор предикторов, которые добавляются к модели по мере ее построения. Посмотрите на начальное использование фразы по отношению к пошаговой перемотке вперед, в которой вы начинаете с пустого «активного набора» и последовательно добавляете предикторы к набору.

Скажем, это модель линейной регрессии, поэтому ваш критерий выбора «лучшей» модели включает среднеквадратичную разницу между наблюдаемыми значениями результатов. $y$ и их прогнозируемые значения $\hat y$. Вопрос в том, как может шум в наблюдаемых значениях$y$ создают трудности при прогнозировании на основе «лучшей» модели, выбранной на основе наблюдаемых данных.

Скажем, вы подходите по прямому шагу или наилучшему подмножеству и случайному шуму в вашем наборе наблюдаемых значений. $y$означает, что ваш критерий среднеквадратичной ошибки подталкивает выбор «лучшей» модели от модели с тремя предикторами к модели с четырьмя предикторами. Это пересекает границу принятия решений. Поскольку добавляется совершенно новый предиктор, прогнозируемые значения$\hat y$для любого набора предикторов значения будут различаться скачками между двумя моделями, поэтому более поздние прогнозы могут сильно зависеть от шума в исходных наблюдениях. Вы можете думать об этом как о риске того, что эти подходы могут попытаться уместить шум в конкретную выборку данных.

С помощью лассо вы не просто регулируете количество предикторов при изменении значения штрафа. $\lambda$. Вы также регулируете штрафы за соответствующие величины коэффициентов регрессии. Так что любой случайный шум в наблюдениях$y$ приведет к непрерывным, а не пошаговым изменениям в окончательных прогнозах $\hat y$сделано по модели. Исходя из этого, лассо можно считать менее «агрессивным» при моделировании, поскольку его окончательные прогнозы, как правило, не перекрывают шум в исходных данных.

В ответ на комментарии

Из ISLR , стр. 35 (с$\hat f$ представляющий прогнозируемое значение), описывающий компромисс смещения и дисперсии:

Дисперсия относится к сумме, на которую$\hat f$ изменится, если мы оценим его, используя другой набор обучающих данных.

Вот о чем приведенный выше аргумент. Небольшое изменение шума в обучающем наборе может существенно повлиять на прогнозы модели, разработанной пошаговыми методами или методами наилучшего подмножества. Наказание, присущее лассо, сводит к минимуму дисперсию в этом смысле слова.

Связаны ли пошаговые методы и методы наилучшего подмножества с большей «нестабильностью», может зависеть от вашего определения этого термина. Если под «нестабильностью» вы подразумеваете различия в окончательном наборе предикторов, выбранных при переходе от обучающего набора к обучающему набору, все методы выбора предикторов, включая лассо, имеют эту нестабильность. Попробуйте смоделировать повторяющиеся образцы начальной загрузки из набора данных, чтобы проиллюстрировать этот тип нестабильности.

С другой стороны, при том же размере обучающих данных большее количество эффективных степеней свободы, используемых пошаговыми методами и методами наилучшего подмножества, делает их более склонными к переобучению, чем лассо. Это переоснащение в значительной степени включено в использование слова «дисперсия» выше, поэтому, если под «нестабильностью» вы подразумеваете высокую «дисперсию», то да, это так. Даже если модели лассо, обученные на разных обучающих наборах, различаются с точки зрения поддерживаемых предикторов, они с меньшей вероятностью будут различаться с точки зрения прогнозов.

Наконец, большее количество степеней свободы означает, что p-значения, наивно вычисленные для пошаговых моделей и моделей с наилучшим подмножеством, ненадежны. Они не принимают во внимание использование данных для определения модели.