W jaki sposób C wpływa na odchylenie i wariancję maszyny wektorów nośnych?

Aug 16 2020

Problem minimalizacji dla SVM można zapisać jako: $$\overset{\text{min}}{\theta} C\sum_{i = 1}^{m}{[y^icost_1(\theta^Tx^i) + (1-y^i)cost_0(\theta^Tx^i)]} + \frac12\sum_{j = 1}^n{\theta_j}^2$$

Teraz, jak można wybrać $C$ prowadzić do niedopasowania lub nadmiernego dopasowania?

Jak rozumiem, parametry dobierane są do wykonania $C\sum_{i = 1}^{m}{[y^icost_1(\theta^Tx^i) + (1-y^i)cost_0(\theta^Tx^i)]}$ część $0$. A my zajmiemy się drugą częścią.

Andrew Ng mówi, że duży$C$ prowadzi do mniejszego odchylenia i większej wariancji.

Jak to się stało? Jaka jest za tym intuicja?

Odpowiedzi

4 prashant0598 Aug 16 2020 at 15:56

C, będący parametrem regularyzowanym, określa, jak bardzo chcesz ukarać model za każdy błędnie sklasyfikowany punkt dla danej krzywej.

Jeśli ustawisz dużą wartość na C, spróbuje zredukować błędy, ale jednocześnie może się zdarzyć, że nie będzie działał lepiej na testowym zestawie danych, co spowoduje nadmierne dopasowanie.

Aby dowiedzieć się więcej o wpływie C w svm. Odnieś się do tego .