Comment C a-t-il des effets sur le biais et la variance d'une machine à vecteurs de support ?
Le problème de minimisation pour SVM peut être écrit comme-$$\overset{\text{min}}{\theta} C\sum_{i = 1}^{m}{[y^icost_1(\theta^Tx^i) + (1-y^i)cost_0(\theta^Tx^i)]} + \frac12\sum_{j = 1}^n{\theta_j}^2$$
Maintenant, comment le choix de$C$conduire à un sous-ajustement ou à un sur-ajustement ?
Si je comprends bien, les paramètres sont choisis pour faire$C\sum_{i = 1}^{m}{[y^icost_1(\theta^Tx^i) + (1-y^i)cost_0(\theta^Tx^i)]}$partie$0$. Et nous nous intéressons à la deuxième partie.
Et Andrew Ng dit qu'un grand$C$conduit à un biais plus faible et à une variance plus élevée.
Comment cela peut-il arriver? Quelle est l'intuition derrière tout cela ?
Réponses
Le C étant un paramètre régularisé, contrôle combien vous voulez punir votre modèle pour chaque point mal classé pour une courbe donnée.
Si vous mettez une grande valeur à C, il essaiera de réduire les erreurs, mais en même temps, il se peut qu'il ne fonctionne pas mieux sur l'ensemble de données de test, ce qui provoque un surajustement.
Pour en savoir plus sur l'effet de C dans svm. Reportez -vous ceci .