In che modo C ha effetti su bias e varianza di una Support Vector Machine?
Il problema di minimizzazione per SVM può essere scritto come-$$\overset{\text{min}}{\theta} C\sum_{i = 1}^{m}{[y^icost_1(\theta^Tx^i) + (1-y^i)cost_0(\theta^Tx^i)]} + \frac12\sum_{j = 1}^n{\theta_j}^2$$
Ora, come può la scelta di$C$portare a underfitting o overfitting?
A quanto ho capito, i parametri sono scelti per fare$C\sum_{i = 1}^{m}{[y^icost_1(\theta^Tx^i) + (1-y^i)cost_0(\theta^Tx^i)]}$parte$0$. E ci occupiamo della seconda parte.
E Andrew Ng dice che è un grande$C$porta a bias più bassi e varianza più alta.
Come succede? Qual è l'intuizione dietro questo?
Risposte
Essendo C un parametro regolarizzato, controlla quanto vuoi punire il tuo modello per ogni punto classificato erroneamente per una data curva.
Se si assegna un valore elevato a C, si cercherà di ridurre gli errori, ma allo stesso tempo potrebbe accadere che non funzionerebbe meglio sul set di dati di test, causando quindi un overfitting.
Per saperne di più sull'effetto di C in svm. Fai riferimento a questo .