Come includere i valori osservati, non solo le loro probabilità, nell'entropia dell'informazione?
L'entropia di Shannon misura l'imprevedibilità nel risultato di una variabile casuale come media ponderata delle probabilità dei risultati di quella variabile o dei valori osservati. Tuttavia, scarta i valori effettivi osservati da cui sono state derivate le probabilità, utilizzando invece solo le probabilità nella sua formula. Questa sembra una significativa perdita di informazioni poiché sono i valori osservati, non le loro probabilità, che contengono dettagli come l'ampiezza e la direzione delle realizzazioni della variabile casuale.
Non ci sono stimatori dell'entropia che includono i valori osservati insieme alle probabilità, in modo che non venga misurata sulla base delle sole probabilità? Ad esempio, una misura di entropia aggiustata che è una media ponderata delle probabilità e dei valori osservati in qualche modo?
Risposte
L'entropia può essere sviluppata come sorpresa attesa , come ho provato nell'interpretazione statistica della distribuzione dell'entropia massima . Ora lavorerò per il caso discreto, ma la maggior parte può essere trasferita al caso continuo.
Definisci una funzione sorpresa $\sigma \colon p \mapsto \sigma(p)$che invia una probabilità al valore di sorpresa di un evento avente quella probabilità. Man mano che vieni meno sorpreso da un evento più probabile,$\sigma$ dovrebbe diminuire, e $\sigma(1)=0$poiché non sei affatto sorpreso dal verificarsi di un determinato evento. La funzione sorpresa$\log\left( \frac1p \right)$ porta all'entropia di Shannon.
Innanzitutto, colleghiamo questo all'esempio nell'altra risposta di @Richard Hardy. Indica i valori discreti con$x_i$e supponiamo che siano numeri reali. Supponiamo che ce ne sia uno$x_m =\mu$, il valore atteso e quello $p(x_i)\leq p(x_m)$, e se $(x_i-\mu)^2 \geq (x_j-\mu)^2$ dunque $p_i \leq p_j$. In questo caso$$ \sigma \colon x\mapsto (x-\mu)^2$$è una funzione sorpresa e la corrispondente sorpresa attesa è la varianza. In questo modo possiamo considerare la varianza una sorta di entropia!
Torniamo alle generalità. Una famiglia di funzioni a sorpresa è$$ \sigma_\alpha \colon [0,1]\mapsto [0, \infty]; \quad \sigma_\alpha(p)=\begin{cases} (1-\alpha)^{-1} (1-p^{\alpha-1})&, \alpha\not=1 \\ -\log p &, \alpha=1 \end{cases}$$ La sorpresa attesa diventa $$ D_\alpha(p_1, \dotsc, p_n)=\sum_i p_i \sigma_\alpha(p_i) = \\ \begin{cases} (\alpha-1)^{-1} (\left( 1-\sum_i p_i^\alpha\right) &, \alpha\not=1 \\ -\sum_i p_i\log p_i &, \alpha=1 \end{cases} $$ e abbiamo usato il nome $D$perché in ecologia questa è conosciuta come diversità (come in biodiversità ). In ecologia spesso la si presenta in un altro modo usando il concetto di numero effettivo di specie . L'idea è che un ecosistema con$n$ specie è più diversificata se la frequenza di tutte le specie è la stessa, quindi $p_i=1/n$. In altri casi possiamo calcolarne alcuni$\text{effective number of species }\leq n$. Ne ho scritto qui: In che modo l'indice di Herfindahl-Hirschman è diverso dall'entropia? quindi non si ripeterà. Nel caso dell'entropia di Shannon il numero effettivo di specie è dato dall'esponenziale dell'entropia. Ora Scrivi$A=\{p_1, \dotsc, p_n\}$ e $$ \lvert A \rvert = e^{H(A)} =\prod_i p_i^{-p_i} $$ e chiamiamola la cardinalità di $A$, per avere un nome matematico utile anche al di fuori dell'ecologia. Pensa a questo come una misura della dimensione di$A$. Ora vogliamo estenderlo a tutte le funzioni sorpresa$\sigma_\alpha$. Il risultato è (per il momento salto lo sviluppo)$$\lvert A \rvert_\alpha = \begin{cases} \left( \sum_i p_i^\alpha\right)^{\frac1{1-\alpha}}&,\alpha\not=1 \\ \prod_i p_i^{-p_i}&, \alpha=1 \end{cases} $$ Ora possiamo tornare alla scala dell'entropia prendendo i logaritmi, e quindi definiamo il $\alpha$-entropia di $H_\alpha(A)=\log \lvert A \rvert_\alpha$. Questo di solito è chiamato entropia Renyi e ha proprietà matematiche migliori rispetto a$\alpha$-diversità. Tutto questo e molto altro può essere trovato a partire da qui .
Le misure che abbiamo discusso finora utilizzano solo le probabilità $p_i$, quindi non abbiamo ancora risposto alla domanda, quindi un po 'di pazienza! Per prima cosa abbiamo bisogno di un nuovo concetto:
Cardinalità degli spazi metrici Let$A$ essere un insieme di punti $a_1, \dotsc, a_n$ con date distanze $d_{ij}$ ($d_{ij}=\infty$è consentito.) Pensa a questo come uno spazio metrico finito, ma non è chiaro che abbiamo davvero bisogno di tutti gli assiomi dello spazio metrico. Definisci una matrice$Z=\left( e^{-d_{ij}}\right)_{i,j}$ e un vettore $w$ come qualsiasi soluzione di $Z w = \left(\begin{smallmatrix}1\\ \vdots \\1 \end{smallmatrix}\right)$. $w$si chiama ponderazione di$A$. Ora possiamo definire la cardinalità di$A$ come somma dei componenti di $w$, $$ \lvert A \rvert_\text{MS} =\sum_i w_i $$ È un esercizio per dimostrare che questo non dipende dalla scelta di $w$. Ora vogliamo estendere questa definizione a un ...
Spazio metrico di probabilità $A=(p_1, \dotsc, p_n; d)$ dove $d$è una funzione di distanza, una metrica. Ad ogni punto$i$associamo una densità $\sum_j p_j e^{-d_{ij}}$. Da$e^{-d_{ij}}$ è antimonotono in lontananza $d$, rappresenta una vicinanza , quindi la densità può essere vista come una vicinanza prevista attorno al punto$i$, che spiega la densità della terminologia. Definisci una matrice di somiglianza $Z=\left( e^{-d_{ij}}\right)_{i,j}$ e vettore di probabilità $p=(p_1, \dotsc, p_n)$. Adesso$Zp$è il vettore di densità. Ad esempio, se tutte le distanze$d_{ij}=\infty$ poi $Z=I$, la matrice dell'identità, quindi $Zp=p$.
Ora generalizzeremo sostituendo in molte formule $p$ con $Zp$.
La sorpresa precedente dipendeva solo dalle probabilità dell'evento osservato. Ora prenderemo in considerazione anche le probabilità dei punti vicini. Ad esempio, sarai probabilmente molto sorpreso da un serpente pitone a Manhattan, ma ora misureremo quella sorpresa tenendo conto anche delle probabilità di altri serpenti ... con la funzione sorpresa$\sigma$, la sorpresa attesa è ora definita come $\sum_i p_i \sigma\left( (Zp)_i\right)$ per uno spazio metrico discreto con tutto $d_{ij}=\infty$, questo non è un cambiamento.
La diversità è ora generalizzata a$$ D_\alpha(A)=\sum_i p_i \sigma_\alpha\left( (Zp)_i\right)= \begin{cases} (\alpha-1)^{-1} \left(1-\sum_i p_i(Zp)_i^{\alpha-1} \right)&,\alpha\not=1 \\ -\sum_i p_i \log\left( (Zp)_i\right) &, \alpha=1\end{cases} $$ Ad esempio, con $\alpha=2$, $D_2(A)= p^T \Delta p$, $\Delta=\left( 1-e^{-d_{ij}}\right)_{i,j}$ è noto come indice di diversità quadratica di Rao, o entropia quadratica di Rao.
$\alpha$-Cardinalità Di conseguenza abbiamo$$ \lvert A\rvert_{\alpha} = \frac1{\sigma_\alpha^{-1}(D_\alpha(A))}= \begin{cases} \left( \sum_i p_i (Zp)_i^{\alpha-1} \right)^{\frac1{1-\alpha}}&,\alpha\not=1 \\ \prod_i (Zp)_i^{-p_i} &, \alpha=1 \end{cases} $$ e ora il ...
$\alpha-entropy$ si ottiene prendendo i logaritmi di $\alpha$-cardinalità, e in questo modo ora abbiamo ottenuto un'entropia in cui le distanze tra i punti giocano un ruolo. Tutto questo e molto altro si può trovare qui al bar n-Category . Questa è ancora una teoria relativamente nuova, quindi ci si possono aspettare nuovi sviluppi. Le idee provengono originariamente da ecologisti teorici.
L'entropia misura la quantità di casualità o sorpresa di un fenomeno / esperimento casuale , non necessariamente una variabile casuale (quest'ultima non ha nemmeno bisogno di essere definita).
Per quanto riguarda la tua domanda, le misure di diffusione come la deviazione assoluta media, la varianza e simili potrebbero essere rilevanti. Ad esempio, la varianza potrebbe effettivamente essere considerata una misura di entropia aggiustata che è una media ponderata delle probabilità e dei valori [osservati] . Per una variabile casuale continua con aspettativa$\mu_X$ e densità di probabilità $f(x)$, $$ \text{Var}(X)=\int_{-\infty}^{\infty}(x-\mu_X)^2f(x)\ dx; $$ per uno discreto con valori possibili $x_1,\dots,x_n$ con le probabilità corrispondenti $p_1,\dots,p_n$ e con aspettativa $\mu_X$, è $$ \text{Var}(X)=\sum_{i=1}^{n}(x_i-\mu_X)^2 p_i. $$ Puoi vedere sia i possibili valori che le loro probabilità / densità che giocano un ruolo.