¿Cómo tiene efectos C en el sesgo y la varianza de una máquina de vectores de soporte?

Aug 16 2020

El problema de minimización para SVM se puede escribir como-$$\overset{\text{min}}{\theta} C\sum_{i = 1}^{m}{[y^icost_1(\theta^Tx^i) + (1-y^i)cost_0(\theta^Tx^i)]} + \frac12\sum_{j = 1}^n{\theta_j}^2$$

Ahora bien, ¿cómo puede la elección de$C$¿Conduce a un ajuste insuficiente o excesivo?

Según tengo entendido, los parámetros se eligen para hacer$C\sum_{i = 1}^{m}{[y^icost_1(\theta^Tx^i) + (1-y^i)cost_0(\theta^Tx^i)]}$parte$0$. Y nos ocupamos de la segunda parte.

Y Andrew Ng dice que una gran$C$conduce a un sesgo más bajo y una varianza más alta.

¿Como sucedió esto? ¿Cuál es la intuición detrás de esto?

Respuestas

4 prashant0598 Aug 16 2020 at 15:56

Siendo la C un parámetro regularizado, controla cuánto quiere castigar su modelo por cada punto mal clasificado para una curva dada.

Si asigna un gran valor a C, intentará reducir los errores, pero al mismo tiempo puede suceder que no funcione mejor en el conjunto de datos de prueba y, por lo tanto, cause un sobreajuste.

Para conocer más sobre el efecto de C en svm. Consulte esto .