Perché sono utili le probabilità di log?
Le probabilità delle osservazioni di una variabile casuale rientrano nell'intervallo $[0,1]$, mentre le probabilità logaritmiche le trasformano nella scala logaritmica. Qual è allora l'intervallo corrispondente di probabilità logaritmiche, cioè cosa diventa una probabilità di 0, ed è il minimo dell'intervallo, e cosa diventa una probabilità di 1, ed è questo il massimo dell'intervallo di probabilità logaritmico? Qual è l'intuizione di questo di essere di utilità pratica rispetto a$[0,1]$?
So che le probabilità logaritmiche consentono calcoli numerici stabili come la somma, ma oltre all'aritmetica, in che modo questa trasformazione rende le applicazioni migliori rispetto al caso in cui vengono invece utilizzate le probabilità grezze? un esempio comparativo per una variabile casuale continua prima e dopo la registrazione sarebbe buono
Risposte
Il registro di $1$ è solo $0$ e il limite come $x$ approcci $0$ (dal lato positivo) di $\log x$ è $-\infty$. Quindi l'intervallo di valori per le probabilità logaritmiche è$(-\infty, 0]$.
Il vero vantaggio sta nell'aritmetica. Le probabilità di log non sono facili da capire quanto le probabilità (per la maggior parte delle persone), ma ogni volta che moltiplichi due probabilità (diverse da$1 \times 1 = 1$), ti ritroverai con un valore più vicino a $0$. Trattare con numeri molto vicini a$0$può diventare instabile con approssimazioni di precisione finite, quindi lavorare con i log rende le cose molto più stabili e in alcuni casi più veloci e più facili. Perché hai bisogno di una giustificazione più di quella?
Vorrei aggiungere che prendere il log di una probabilità o densità di probabilità può spesso semplificare alcuni calcoli, come calcolare il gradiente della densità dati alcuni dei suoi parametri. Ciò è in particolare quando la densità appartiene alla famiglia esponenziale, che spesso contiene meno chiamate di funzioni speciali dopo essere state registrate rispetto a prima. Ciò rende più semplice prendere la derivata a mano (poiché le regole del prodotto diventano regole di somma più semplici) e può anche portare a calcoli di derivata numerica più stabili come la differenziazione finita.
A titolo illustrativo, prendiamo la funzione di Poisson con probabilità $e^{-\lambda}\frac{\lambda^{x}}{x!}$. Nonostante$x$ è discreto, questa funzione è liscia rispetto a $\lambda$e diventa $\log f_x= -\lambda + x*\log(\lambda) - \log(x!)$, per un derivato rispetto a $\lambda$ di semplicemente $\frac{\partial \log f_x}{\partial \lambda} = -1 + \frac{x}{\lambda}$, che prevede due semplici operazioni. Confrontalo con$\frac{\partial f_x}{\partial \lambda} = \frac{e^{-\lambda } (x-\lambda ) \lambda ^{x-1}}{x!}$, che implica esponenziazione naturale, esponenziazione reale, calcolo di un fattoriale e, peggio ancora, divisione per fattoriale. Ciò comporta sia più tempo di calcolo che meno stabilità di calcolo, anche in questo semplice esempio. Il risultato è composto per funzioni di probabilità più complesse, nonché quando si osserva un campione iid di variabili casuali, poiché queste vengono aggiunte nello spazio logaritmico mentre vengono moltiplicate nello spazio di probabilità (di nuovo, complicando il calcolo delle derivate, oltre a introdurre più del virgola mobile errore menzionato nell'altra risposta).
Queste espressioni di gradiente sono utilizzate sia nel calcolo analitico che numerico di Maximum a Posteriori ($\ell_0$Bayes) e stimatori di massima verosimiglianza. Viene anche utilizzato nella soluzione numerica del Metodo dei Momenti per la stima delle equazioni, spesso tramite il metodo di Newton, che coinvolge calcoli dell'Assia o derivate secondarie. Qui la differenza tra la complessità registrata e non registrata può essere enorme. Infine, viene utilizzato per mostrare l'equivalenza tra i minimi quadrati e la massima verosimiglianza con una struttura di errore gaussiana.
Come esempio del processo menzionato nella risposta di Greg Snow: molto spesso uso linguaggi di programmazione di alto livello (Octave, Maxima [*], Gnuplot, Perl, ...) per calcolare i rapporti tra le probabilità marginali per il confronto del modello bayesiano. Se si cerca di calcolare direttamente il rapporto delle probabilità marginali, i passaggi intermedi nel calcolo (e talvolta anche il risultato finale) molto spesso vanno oltre le capacità dell'implementazione del numero in virgola mobile nell'interprete / compilatore, producendo numeri così piccoli che il il computer non può distinguerli da zero, quando tutte le informazioni importanti sono nel fatto che quei numeri in realtà non sono proprio zero. Se, d'altra parte, si lavora con le probabilità logaritmiche e si prende la differenza tra i logaritmi delle probabilità marginali alla fine, è molto meno probabile che si verifichi questo problema.
[*] A volte Maxima elude il problema usando l'aritmetica dei numeri razionali invece dell'aritmetica in virgola mobile, ma non ci si può necessariamente fidare di questo.
Questo potrebbe non essere ciò che ti interessa, ma le probabilità logaritmiche in fisica statistica sono strettamente correlate ai concetti di energia ed entropia . Per un sistema fisico in equilibrio a temperatura$T$ (in kelvin), la differenza di energia tra due microstati A e B è correlata al logaritmo delle probabilità che il sistema sia nello stato A o nello stato B:
$$E_\mathrm{A} - E_\mathrm{B} =-k_\mathrm{B}T \left[ \ln(P_\mathrm{A}) - \ln( P_\mathrm{B}) \right]$$
Quindi, i fisici statistici spesso lavorano con le probabilità logaritmiche (o versioni in scala di esse), perché sono fisicamente significative. Ad esempio, l'energia potenziale di una molecola di gas in un'atmosfera a una temperatura fissa sotto un campo gravitazionale uniforme (una buona approssimazione vicino alla superficie della Terra) è$mgh$, dove $m$ è la massa della molecola del gas, $g$ è l'accelerazione di gravità, e $h$è l'altezza della molecola sopra la superficie. La probabilità di trovare una molecola di gas al piano superiore dell'edificio rispetto al piano inferiore (supponendo che i piani abbiano lo stesso volume e l'altezza dal pavimento al soffitto sia piccola) è data da:
$$mg (h_\mathrm{top} - h_\mathrm{bottom}) \approx -k_\mathrm{B} T \left[ \ln (P_\mathrm{top}) - \ln(P_\mathrm{bottom}) \right]$$
Questa probabilità è banalmente correlata alla concentrazione del gas sui due piani. I piani più alti hanno una concentrazione inferiore e la concentrazione di molecole più pesanti decade più rapidamente con l'altezza.
In fisica statistica, è spesso utile passare avanti e indietro tra quantità proporzionali alle probabilità logaritmiche (energia, entropia, entalpia, energia libera) e quantità proporzionali alla probabilità (numero di microstati, funzione di partizione, densità di stati).