Problema di comprensione dei modelli generativi probabilistici per la classificazione

Aug 25 2020

Sono uno studente e sto studiando machine learning. Mi sto concentrando sui modelli generativi probabilistici per la classificazione e ho qualche difficoltà a comprendere questo argomento.

Nella diapositiva del mio professore è scritto quanto segue:

che non capisco.

Finora ho capito che nei modelli probailistici generativi dobbiamo stimare $P(C_i|x)$, che è la probabilità di avere una classe $i$ dato un dato $x$, usando la verosimiglianza e il teorema di Bayes.

Quindi, inizia scrivendo la regola di Bayes, ma la diapositiva dice che possiamo scriverla come sigmoide, ma perché?

Se devo provare a dare una risposta, direi perché il sigmoide dà un numero da $0$ per $1$, e quindi una probabilità, ma è solo un'ipotesi che sto facendo.

Inoltre, continua dicendo che possiamo usare una distribuzione gaussiana per $P(x|C_i)$, e così $P(x|C_i)=N(\mu ,\sigma )$, e così :

Non capisco cosa stia facendo, qualcuno può aiutarmi per favore?

Non so se la mia domanda è chiara quindi mi dispiace se non lo è ma sono davvero confuso. Se non è lcear, dimmi che proverò a modificarlo. Grazie in anticipo.

Nota: se può essere utile, è stato preso dal libro del Vescovo a pagina 197

Risposte

2 JacquesWainer Sep 02 2020 at 19:31

La mia comprensione è:

  1. La prima riga è OK - deriva dalla regola di Bayes

  2. Supponiamo che questa probabilità segua una funzione logistica, cioè quella

$$P(C_1|x) = \frac{1}{1+exp(-a)}$$

  1. Allora se

$$ y = \frac{1}{1+exp(-z)}$$

poi

$$ z = ln(\frac{y}{1-y})$$

(alcune righe sotto ma con $a$ e $\sigma$)

  1. Perciò:

$$ a = ln(\frac{P(C_1|x)}{1-P(C_1|x)})$$

  1. Se ci sono solo due classi allora $1-P(C_1|x)= P(C_2|x)$.

  2. Poi

$$a = ln(\frac{P(C_1|x)}{P(C_2|x)}$$

  1. Utilizzo di Bayes su $P(C_1|x)$ e $P(C_2|x)$

$$a = ln(\frac{P(x|C_1) P(C_1)}{P(x|C_2)P(C_2)}$$

  1. L'intera cosa ora è modellare $P(x|C_i)$. Egli presuppone che si tratta di una distribuzione normale. E da lì dovresti la seconda serie di equazioni. La parte importante (per quanto ricordo) è che le due matrici di covarianza (per$C_1$ e per $C_2$) sono gli stessi. Non ho accesso al libro ora, ma lo cercherò domani e vedrò se c'è qualche passaggio difficile nelle derivazioni.

tldr: Il punto è che assume che la probabilità come logistica, quindi ottiene la formula per il$a$, quindi assume una distribuzione normale per $P(x|C_i)$, quindi assume la stessa matrice di covarianza.