Cはサポートベクターマシンのバイアスと分散にどのように影響しますか?
SVMの最小化問題は次のように書くことができます- $$\overset{\text{min}}{\theta} C\sum_{i = 1}^{m}{[y^icost_1(\theta^Tx^i) + (1-y^i)cost_0(\theta^Tx^i)]} + \frac12\sum_{j = 1}^n{\theta_j}^2$$
さて、どのように選択することができますか $C$ 過適合または過剰適合につながりますか?
私が理解しているように、パラメータは作成するために選択されます $C\sum_{i = 1}^{m}{[y^icost_1(\theta^Tx^i) + (1-y^i)cost_0(\theta^Tx^i)]}$ 部 $0$。そして、私たちは第二の部分に関心を持っています。
そしてアンドリュー・ンは、$C$ より低いバイアスとより高い分散につながります。
これはどのように起こりますか?この背後にある直感は何ですか?
回答
4 prashant0598
正則化されたパラメーターであるCは、特定の曲線の誤分類されたポイントごとにモデルを罰する量を制御します。
Cに大きな値を設定すると、エラーを削減しようとしますが、同時に、テストデータセットでのパフォーマンスが低下し、過剰適合が発生する可能性があります。
svmでのCの効果について詳しく知るため。これを参照してください。