C는 서포트 벡터 머신의 편향과 분산에 어떤 영향을 미칩니 까?
SVM의 최소화 문제는 다음과 같이 작성할 수 있습니다. $$\overset{\text{min}}{\theta} C\sum_{i = 1}^{m}{[y^icost_1(\theta^Tx^i) + (1-y^i)cost_0(\theta^Tx^i)]} + \frac12\sum_{j = 1}^n{\theta_j}^2$$
이제 어떻게 선택할 수 있습니까? $C$ 과소 적합 또는 과적 합으로 이어질까요?
내가 이해하는대로 매개 변수는 $C\sum_{i = 1}^{m}{[y^icost_1(\theta^Tx^i) + (1-y^i)cost_0(\theta^Tx^i)]}$ 부품 $0$. 그리고 우리는 두 번째 부분에 관심이 있습니다.
그리고 앤드류 응은 말한다 큰 것을$C$ 더 낮은 편향과 더 높은 분산으로 이어집니다.
어떻게 이런 일이 발생합니까? 이것 뒤에있는 직감은 무엇입니까?
답변
4 prashant0598
정규화 된 매개 변수 인 C는 주어진 곡선에 대해 잘못 분류 된 각 점에 대해 모델을 얼마나 처벌할지 제어합니다.
C에 큰 값을 넣으면 오류를 줄이려고하지만 동시에 테스트 데이터 세트에서 더 잘 수행되지 않아 과적 합이 발생할 수 있습니다.
svm에서 C의 효과에 대해 자세히 알아보기. 이것을 참조하십시오 .