Was ist der grundlegende Unterschied zwischen einem ML-Modell und einer Funktion?

Dec 30 2020

Ein Modell kann grob als jedes Design definiert werden, das eine ML-Aufgabe lösen kann. Beispiele für Modelle sind das neuronale Netzwerk, der Entscheidungsbaum, das Markov-Netzwerk usw.

Eine Funktion kann als eine Reihe geordneter Paare mit einer Eins-zu-Viele-Eigenschaft von Domäne zu Co-Domäne / Bereich definiert werden.

Was ist der grundlegende Unterschied zwischen ihnen in formaler Hinsicht?

Antworten

5 nbro Dec 30 2020 at 17:29

Obwohl dies möglicherweise nicht für alle Fälle gilt, stelle ich mir ein Modell gerne als eine Reihe von Funktionen vor. Hier ist also der Unterschied.

Warum ist diese Definition nützlich? Wenn Sie an ein neuronales Netzwerk mit einem Vektor von Parametern denken$\theta \in \mathbb{R}^m$Als Modell repräsentiert dann eine bestimmte Kombination dieser Parameter eine bestimmte Funktion. Angenommen, wir haben ein neuronales Netzwerk mit 2 Eingängen, 1 verstecktem Neuron (mit einer ReLU-Aktivierungsfunktion, bezeichnet als$\phi$, die einer linearen Kombination der Eingänge folgt) und 1 Ausgangsneuron (mit einer Sigmoid-Aktivierungsfunktion, $\sigma$). Die Eingänge sind mit der einzigen versteckten Einheit verbunden und diese Verbindungen haben ein reales Gewicht. Wenn wir Verzerrungen ignorieren, gibt es 3 Parameter, die im Parametervektor gruppiert werden können$\theta = [\theta_1, \theta_2, \theta_3] \in \mathbb{R}^3 $. Die beliebige Funktion, die dieses neuronale Netzwerk darstellt, kann wie folgt definiert werden

$$ f(x_1, x_2) = \sigma (\theta_3 \phi(x_1 \theta_1 + x_2 \theta_2)) \tag{1}\label{1}, $$

In diesem Fall repräsentiert die Gleichung \ ref {1} das Modell unter Berücksichtigung des Parameterraums $\Theta = \mathbb{R}^3$. Für alle spezifischen Werte, die$\theta_1, \theta_2,$ und $\theta_3$ nehmen können, haben wir eine spezifische (deterministische) Funktion $f: \mathbb{R} \rightarrow [0, 1]$.

Beispielsweise, $\theta = [0.2, 10, 0.4]$ stellt eine bestimmte Funktion dar, nämlich

$$ f(x_1, x_2) = \sigma (0.4 \phi(x_1 0.2 + x_2 10.0)) $$Sie können diese Funktion (mit Matplotlib) für einige Werte der Eingaben zeichnen, um zu sehen, wie sie aussehen. Beachten Sie, dass$x_1$ und $x_2$ kann beliebig sein (weil dies nur die Eingaben sind, die ich als reelle Zahlen angenommen habe).

Diese Interpretation eines Modells steht im Einklang mit der Definition einer Hypothesenklasse (oder eines Raums) in der rechnergestützten Lerntheorie, die im Wesentlichen aus einer Reihe von Funktionen besteht . Diese Interpretation stimmt auch mit den universellen Approximationssätzen für neuronale Netze überein , die besagen, dass Sie einen bestimmten Satz von Parametern finden können, so dass Sie eine bestimmte Funktion unter bestimmten Bedingungen beliebig gut annähernd gut berechnen können. Diese Interpretation kann auch auf Entscheidungsbäume, HMM, RNNs und alle diese ML-Modelle angewendet werden.

Der Begriff Modell wird manchmal auch verwendet, um sich auf eine Wahrscheinlichkeitsverteilung zu beziehen, beispielsweise im Kontext des verstärkenden Lernens, wobei $p(s', r \mid s, a)$ ist eine Wahrscheinlichkeitsverteilung über den nächsten Zustand $s'$ und belohnen $r$ angesichts des aktuellen Zustands $s$ und Aktion $a$ in diesem Zustand genommen $s$. Überprüfen Sie diese Frage für weitere Details. Eine Wahrscheinlichkeitsverteilung könnte auch als (möglicherweise unendlich große) Menge von Funktionen betrachtet werden, aber es ist nicht nur eine Menge von Funktionen, da Sie auch eine Stichprobe aus einer Wahrscheinlichkeitsverteilung ziehen können (dh mit einer Wahrscheinlichkeitsverteilung ist eine gewisse Stochastizität verbunden). Eine Wahrscheinlichkeitsverteilung kann also als statistisches Modell betrachtet oder zur Darstellung verwendet werden. Überprüfen Sie diese Antwort .

1 Acccumulation Dec 31 2020 at 06:56

Jedes Modell kann als Funktion betrachtet werden. Der Begriff "Modell" bezeichnet einfach eine Funktion, die auf eine bestimmte Weise verwendet wird, nämlich um eine andere interessierende Funktion zu approximieren.

anurag Dec 31 2020 at 03:31

In einfachen Worten ist ein neuronales Netzwerkmodell ein Funktionsapproximator, der versucht, die Kurve der Hypothesenfunktion anzupassen. Eine Funktion selbst hat eine Gleichung, die eine feste Kurve erzeugt:

Wenn wir die Gleichung (dh die Funktion) haben, benötigen wir kein neuronales Netzwerk für die Eingabedaten. Wenn wir jedoch nur eine Vorstellung von seiner Kurve (oder den Eingabe- und Ausgabedaten) haben, suchen wir einen Funktionsapproximator, damit wir für neue, unsichtbare Eingabedaten die Ausgabe generieren können.

Beim Training dieses neuronalen Netzwerks geht es darum, dem Original (unbekannte Funktion) so nahe wie möglich zu kommen.

AdamAcosta Jan 01 2021 at 02:05

Jedes Modell ist eine Funktion. Nicht jede Funktion ist ein Modell.

Eine Funktion ordnet Elemente einer Menge eindeutig Elementen einer anderen Menge zu, möglicherweise derselben Menge.

Jedes AI-Modell ist eine Funktion, da sie als Computerprogramme implementiert sind und jedes Computerprogramm eine Funktion ist, die die Kombination der Folge von Bits im Speicher und Speicher beim Programmstart plus Eingaben eindeutig der Folge von Bits im Speicher und Speicher zuordnet plus Ausgabe bei Programmbeendigung.

Ein "Modell" ist jedoch sehr spezifisch eine Darstellung von etwas. Nehmen Sie die logistische Kurve:

$$ f(x) = \frac{L}{1 + e^{k(x-x_{0})} } $$

Gegeben willkürliche reelle Werte für $L$, $k$, und $x_{0}$, das ist eine Funktion. Angesichts viel spezifischerer Werte, die aus Daten gelernt wurden, kann dies jedoch ein Modell für das Bevölkerungswachstum sein.

In ähnlicher Weise ist ein neuronales Netzwerk mit auf alle Nullen initialisierten Gewichten eine Funktion, aber eine sehr uninteressante Funktion mit der eher begrenzten Codomäne $\{0\}$. Wenn Sie dann jedoch das Netzwerk trainieren, indem Sie ihm eine Reihe von Daten zuführen, bis die Gewichte konvergieren, um Vorhersagen oder Aktionen zu erhalten, die in etwa einem realen Generierungsprozess entsprechen, haben Sie jetzt ein Modell dieses Generierungsprozesses.