하이퍼 파라미터 튜닝 후 모델 패밀리를 선택할 때 낙관적 편향을 피하기 위해 허용되는 관행은 무엇입니까?
이것은 이전 질문의 확장입니다. 하이퍼 파라미터 튜닝과 모델 선택 모두에서 과적 합 편향을 피하는 방법은 무엇입니까? ... 이는 당면한 질문에 대한 몇 가지 옵션을 제공했지만 이제는 관행 또는 경험 법칙이 허용되는 것이 무엇인지 아는 것으로 전환하고 싶습니다.
간단히 말해, 여러 ML 모델 제품군에서 하이퍼 파라미터 튜닝을 수행한다고 가정합니다. 모델 패밀리 자체를 선택하는 다음 선택 단계는 낙관적 편향에 대한 또 다른 기회를 제공합니다. 이것은 위 링크에 언급 된 몇 가지 전략으로 해결할 수 있습니다.
이전 논의에서 언급 한 전략이 중요한시기에 대해 허용되는 경험 규칙 (또는 연구)이 있습니까? 예를 들어, 두 모델 패밀리를 최적화하는 경우 일반적으로 우려 사항을 무시하고 열차 분할 점수 (또는 테스트 분할)에서 모델 패밀리를 선택하는 것이 안전합니까? 아니면 이것이 위험이되고 어떤 종류의 3 중 중첩 또는 그리드 검색 수정이 필요한 특정 n 개의 모델 패밀리가 있습니까?
답변
넓은 의미에서 모델 선택은 하이퍼 파라미터 튜닝의 일부로 종종 볼 수 있습니다.
예 : 간단한 회귀 문제를 풀어야하고 일종의 선형 모델을 사용하려고한다고 가정 해 보겠습니다. 이 시나리오에서는 L1 또는 L2 정규화 항이 있거나없는 다항식 확장이 있거나없는 선형 모델을 선택할 수 있습니다.
다음과 같은 문제를 볼 수 있습니다.
-L1 정규화, L2 정규화 및 정규화되지 않은 모델 사이의 모델 선택
-다항식 및 (있는 경우) 정규화 항의 순서를 정의하기위한 하이퍼 파라미터 튜닝
또는 다항식 확장이있는 하나의 큰 모델 (예 : Elastic Net)로 볼 수 있으며 모든 것이 하이퍼 파라미터가됩니다.
초 매개 변수 조정과 모델 선택이 정규화 계수에 의해 직접 연결되기 때문에이 예는 특히 사소합니다 (0으로 설정하면 비정규 화 모델로 이동). 그러나 이것은 항상 수행 될 수 있으며, 모델 선택은 하이퍼 파라미터 튜닝의 일부로 볼 수 있으며, 하이퍼 파라미터 세트 는 첫 번째 하이퍼 파라미터 (모델)의 선택을 조건 으로합니다.
이상하게 들릴 수 있지만 조건부 하이퍼 파라미터는 매우 일반적입니다. 예를 들어, 내 신경망의 3 층에있는 단위 의 하이퍼 파라미터 수는 내 신경망 의 하이퍼 파라미터 깊이 가 2보다 크면 조건부 입니다.
마지막으로 모범 사례는 무엇입니까?
보유한 데이터의 양과 사용하는 하이퍼 파라미터의 양에 따라 달라집니다. 데이터가 적고 하이퍼 파라미터가 많을수록 더 많은 편향을 갖게됩니다. 충분한 데이터가있는 경우 중첩 교차 검증을 수행하는 것이 과도 할 가능성이 높으며 위의 게시물에서 언급 한 것처럼 플랫 CV를 고수해야합니다.
그러나 엄청난 양의 매개 변수 구성이나 다른 모델을 테스트하는 경우 중첩 된 교차 검증을 사용하거나 별도의 검증 세트를 사용하여 교차 검증의 결과를 확인하는 것이 좋습니다. 이는 교차 검증을 통해 하이퍼 파라미터 조정을 수행하고 별도의 세트에서 모델 선택을 수행하거나 교차 값을 통해 필터링 한 후 단순히 가장 성능이 좋은 모델 및 구성의 점수를 다시 매기는 것을 의미 할 수 있습니다.
나는이 주제들 (중첩 vs 비 중첩 교차 검증)에 대한 논문 (공동 저자와 함께)을 썼습니다.
참조하십시오 https://arxiv.org/abs/1809.09446
TLDR는 : 실제적인 목적을 위해 우리는 조언 에 대해 중첩 교차 유효성 검사를 사용하여. 플랫 검색을 수행하는 데 실제로 긍정적 / 과적 합 편향이 있지만 (중첩과 반대) 차이는 실제적인 무관 한 임계 값 (이 임계 값에 대한 다른 제안과 호환 됨)이라고 생각하는 것보다 낮습니다.
그러나 이것은 문제에 가장 적합한 모델 + 초 매개 변수를 선택하는 것이 목표 일 때 실용적인 제안입니다. 알고리즘이 경쟁사보다 우수하다는 것을 보여주는 과학적 문제가있는 경우 중첩 된 CV를 수행 해야 합니다.