올가미의 '공격성'이해, Hastie, T., Tibshirani, R. & Tibshirani, RJ (2017)에서 전진 단계적 선택 및 최상의 하위 집합 선택

Aug 17 2020

Hastie et al. (2017)은 위에서 언급 한 방법이 다양한 '공격성'과 함께 신호 대 잡음비 (SNR)에 따라 어떻게 수행되는지 설명합니다. 이제 다른 방법이 공격성 (최종 모델에 포함 된 예측 변수의 수를 의미)이 다른 이유와 이것이 SNR과 어떻게 관련되는지 이해하지 못합니다. 편향-분산 트레이드 오프와 이것이 일부 시나리오에서 올가미의 더 나은 성능과 어떻게 관련되는지 이해한다고 생각하지만 저자는 내가 이해하지 못하는 추가 설명을 제공합니다.

그들의 설명에서 저자는 다음과 같이 씁니다.

"올가미의 적합치 (고정 $\lambda \geq 0$)는 y의 연속 함수 (Zou et al., 2007; Tibshirani and Taylor, 2012) 인 반면, 순방향 단계적 및 최상의 부분 집합 선택 (고정 $k \geq 1$) y가 활성 세트의 결정 경계를 넘어 이동할 때 불 연속적으로 점프합니다. "(p. 3)

누군가가 '결정 경계'가 무엇이며 활성 세트 (선택된 예측 자 세트)가 의미하는 바를 설명해 줄 수 있습니다. 저자들은 또한 공격성과 자유도를 연관 짓습니다. 제가 이해할 수없는 점입니다.

나는 강한 수학 배경이 없기 때문에 모든 방정식 외에도 직관적 인 설명을 고맙게 생각합니다.


Hastie, T., Tibshirani, R. 및 Tibshirani, RJ (2017). 최상의 부분 집합 선택, 앞으로 단계적 선택 및 올가미의 확장 된 비교. ArXiv : 1707.08692 [통계].http://arxiv.org/abs/1707.08692

답변

2 EdM Aug 17 2020 at 23:57

링크 된 문서에서 사용 된 "활성 세트"는 모델이 구축 될 때 모델에 추가되는 예측 변수 세트입니다. 비어있는 "활성 세트"로 시작하고 순차적으로 세트에 예측자를 추가하는 단계적 전진과 관련하여 구의 초기 사용을보십시오.

이것이 선형 회귀 모델이라고 가정하면 "최상의"모델을 결정하기위한 기준은 관찰 된 결과 값 간의 평균 제곱 차이를 포함합니다. $y$ 및 예측 값 $\hat y$. 문제는 관찰 된 값에서 노이즈가 발생하는 방식입니다.$y$ 관찰 된 데이터를 기반으로 선택한 "최상의"모델에서 예측을 수행하는 데 어려움이 있습니다.

순방향 또는 최상의 부분 집합으로 적합하고 관찰 된 값 집합의 임의 노이즈로 적합하다고 가정합니다. $y$평균 제곱 오차 기준이 "최상의"모델 선택을 3- 예측 자에서 4- 예측 자 모델로 밀어 붙인다는 의미입니다. 그것은 결정 경계를 넘어선 것입니다. 완전히 새로운 예측 변수가 추가되었으므로 예측 값은$\hat y$모든 예측 변수 세트에 대해 두 모델 간의 점프에 따라 다르므로 이후 예측은 원래 관측치의 노이즈에 크게 의존 할 수 있습니다. 이를 특정 데이터 샘플에 잠재적으로 노이즈를 맞추려고 시도하는 이러한 접근 방식의 위험으로 생각할 수 있습니다.

올가미를 사용하면 패널티 값을 변경할 때 예측 변수의 수만 조정하는 것이 아닙니다. $\lambda$. 또한 해당 회귀 계수 크기의 페널티를 조정합니다. 따라서 관찰에서 임의의 잡음이$y$ 궁극적 인 예측에서 단계적 변화가 아닌 연속적인 변화로 이어질 것입니다. $\hat y$모델에 의해 만들어졌습니다. 이를 바탕으로 올가미는 모델링에서 덜 공격적인 것으로 간주 될 수 있습니다. 궁극적 인 예측은 원본 데이터에서 노이즈를 과적 합하지 않는 경향이 있기 때문입니다.

댓글에 대한 응답

에서 ISLR , 35 페이지 (와$\hat f$ 예측 된 값을 나타냄), 편향-분산 트레이드 오프를 설명합니다.

차이$\hat f$ 다른 훈련 데이터 세트를 사용하여 추정하면 변경됩니다.

그것이 위의 주장이 무엇에 관한 것입니다. 학습 세트에서 약간의 노이즈 변경은 단계적 또는 최상의 하위 세트 방법으로 고안된 모델의 예측에 큰 차이를 만들 수 있습니다. 올가미에 내재 된 벌칙은 단어의 의미에서 분산을 최소화합니다.

단계적 방법과 최상의 하위 집합 방법이 더 많은 "불안정성"과 관련이 있는지 여부는 해당 용어의 정의에 따라 달라질 수 있습니다. "불안정성"이란 학습 세트에서 학습 세트로 이동할 때 선택한 최종 예측 자 세트의 차이를 의미하는 경우 올가미를 포함한 모든 예측 자 선택 방법이 불안정합니다. 데이터 세트에서 반복되는 부트 스트랩 샘플을 모델링하여 이러한 유형의 불안정성을 설명합니다.

반면에 동일한 크기의 훈련 데이터에서 단계적 방법과 최상의 부분 집합 방법에 사용되는 유효 자유도가 많을수록 올가미보다 과적 합되는 경향이 있습니다. 과적 합은 위의 "분산"이라는 단어의 사용에 거의 포함되어 있습니다. 따라서 "불안정성"이 높은 "분산"을 의미하는 경우 그렇습니다. 다른 훈련 세트에서 훈련 된 올가미 모델이 유지되는 예측 변수 측면에서 다르더라도 예측 측면에서 다를 가능성이 적습니다.

마지막으로, 자유도가 더 크다는 것은 단계적 및 최적 부분 집합 모델에 대해 순진하게 계산 된 p- 값을 신뢰할 수 없음을 의미합니다. 모델을 정의하기위한 데이터 사용을 고려하지 않습니다.