Como C tem efeitos sobre o viés e a variância de uma Support Vector Machine?
O problema de minimização para SVM pode ser escrito como-$$\overset{\text{min}}{\theta} C\sum_{i = 1}^{m}{[y^icost_1(\theta^Tx^i) + (1-y^i)cost_0(\theta^Tx^i)]} + \frac12\sum_{j = 1}^n{\theta_j}^2$$
Agora, como pode a escolha de$C$levar a underfitting ou overfitting?
Pelo que entendi, os parâmetros são escolhidos para fazer$C\sum_{i = 1}^{m}{[y^icost_1(\theta^Tx^i) + (1-y^i)cost_0(\theta^Tx^i)]}$papel$0$. E nos preocupamos com a segunda parte.
E Andrew Ng diz que um grande$C$leva a um menor viés e maior variância.
Como isso acontece? Qual é a intuição por trás disso?
Respostas
O C sendo um parâmetro regularizado, controla o quanto você deseja punir seu modelo para cada ponto mal classificado para uma determinada curva.
Se você colocar um valor grande em C, ele tentará reduzir os erros, mas, ao mesmo tempo, pode acontecer que não tenha um desempenho melhor no conjunto de dados de teste, causando overfitting.
Para saber mais sobre o efeito de C em svm. Consulte isso .