C có ảnh hưởng như thế nào đến độ chệch và phương sai của Máy hỗ trợ?
Vấn đề giảm thiểu đối với SVM có thể được viết là- $$\overset{\text{min}}{\theta} C\sum_{i = 1}^{m}{[y^icost_1(\theta^Tx^i) + (1-y^i)cost_0(\theta^Tx^i)]} + \frac12\sum_{j = 1}^n{\theta_j}^2$$
Bây giờ, làm thế nào có thể lựa chọn $C$ dẫn đến trang bị thiếu hoặc trang bị quá mức?
Theo tôi hiểu, các thông số được chọn để thực hiện $C\sum_{i = 1}^{m}{[y^icost_1(\theta^Tx^i) + (1-y^i)cost_0(\theta^Tx^i)]}$ phần $0$. Và chúng tôi quan tâm đến phần thứ hai.
Và Andrew Ng nói rằng một$C$ dẫn đến độ chệch thấp hơn và phương sai cao hơn.
Làm thế nào điều này xảy ra? Trực giác đằng sau điều này là gì?
Trả lời
C là một tham số chính quy, kiểm soát mức độ bạn muốn trừng phạt mô hình của mình cho mỗi điểm phân loại sai cho một đường cong nhất định.
Nếu bạn đặt giá trị lớn cho C, nó sẽ cố gắng giảm lỗi nhưng đồng thời có thể xảy ra rằng nó sẽ không hoạt động tốt hơn trên tập dữ liệu thử nghiệm do đó gây ra overfitting.
Để biết thêm về tác dụng của C trong svm. Tham khảo điều này .