Как C влияет на смещение и дисперсию машины опорных векторов?
Задачу минимизации для SVM можно записать как $$\overset{\text{min}}{\theta} C\sum_{i = 1}^{m}{[y^icost_1(\theta^Tx^i) + (1-y^i)cost_0(\theta^Tx^i)]} + \frac12\sum_{j = 1}^n{\theta_j}^2$$
Теперь, как можно выбрать $C$ привести к неполному или переобучению?
Насколько я понимаю, параметры подбираются так, чтобы $C\sum_{i = 1}^{m}{[y^icost_1(\theta^Tx^i) + (1-y^i)cost_0(\theta^Tx^i)]}$ часть $0$. А мы займемся второй частью.
А Эндрю Нг говорит, что большой$C$ приводит к меньшему смещению и большей дисперсии.
Как это произошло? Какая интуиция за этим стоит?
Ответы
Параметр C, являющийся регуляризованным, определяет, насколько вы хотите наказать свою модель за каждую неправильно классифицированную точку для данной кривой.
Если вы установите большое значение для C, он попытается уменьшить количество ошибок, но в то же время может случиться так, что он не будет работать лучше с тестовым набором данных, что приведет к переобучению.
Чтобы узнать больше об эффекте C в svm. Обратитесь к этому .