Problema di comprensione dei modelli generativi probabilistici per la classificazione
Sono uno studente e sto studiando machine learning. Mi sto concentrando sui modelli generativi probabilistici per la classificazione e ho qualche difficoltà a comprendere questo argomento.
Nella diapositiva del mio professore è scritto quanto segue:
che non capisco.
Finora ho capito che nei modelli probailistici generativi dobbiamo stimare $P(C_i|x)$, che è la probabilità di avere una classe $i$ dato un dato $x$, usando la verosimiglianza e il teorema di Bayes.
Quindi, inizia scrivendo la regola di Bayes, ma la diapositiva dice che possiamo scriverla come sigmoide, ma perché?
Se devo provare a dare una risposta, direi perché il sigmoide dà un numero da $0$ per $1$, e quindi una probabilità, ma è solo un'ipotesi che sto facendo.
Inoltre, continua dicendo che possiamo usare una distribuzione gaussiana per $P(x|C_i)$, e così $P(x|C_i)=N(\mu ,\sigma )$, e così :
Non capisco cosa stia facendo, qualcuno può aiutarmi per favore?
Non so se la mia domanda è chiara quindi mi dispiace se non lo è ma sono davvero confuso. Se non è lcear, dimmi che proverò a modificarlo. Grazie in anticipo.
Nota: se può essere utile, è stato preso dal libro del Vescovo a pagina 197
Risposte
La mia comprensione è:
La prima riga è OK - deriva dalla regola di Bayes
Supponiamo che questa probabilità segua una funzione logistica, cioè quella
$$P(C_1|x) = \frac{1}{1+exp(-a)}$$
- Allora se
$$ y = \frac{1}{1+exp(-z)}$$
poi
$$ z = ln(\frac{y}{1-y})$$
(alcune righe sotto ma con $a$ e $\sigma$)
- Perciò:
$$ a = ln(\frac{P(C_1|x)}{1-P(C_1|x)})$$
Se ci sono solo due classi allora $1-P(C_1|x)= P(C_2|x)$.
Poi
$$a = ln(\frac{P(C_1|x)}{P(C_2|x)}$$
- Utilizzo di Bayes su $P(C_1|x)$ e $P(C_2|x)$
$$a = ln(\frac{P(x|C_1) P(C_1)}{P(x|C_2)P(C_2)}$$
- L'intera cosa ora è modellare $P(x|C_i)$. Egli presuppone che si tratta di una distribuzione normale. E da lì dovresti la seconda serie di equazioni. La parte importante (per quanto ricordo) è che le due matrici di covarianza (per$C_1$ e per $C_2$) sono gli stessi. Non ho accesso al libro ora, ma lo cercherò domani e vedrò se c'è qualche passaggio difficile nelle derivazioni.
tldr: Il punto è che assume che la probabilità come logistica, quindi ottiene la formula per il$a$, quindi assume una distribuzione normale per $P(x|C_i)$, quindi assume la stessa matrice di covarianza.