Как включить наблюдаемые значения, а не только их вероятности, в информационную энтропию?

Aug 18 2020

Энтропия Шеннона измеряет непредсказуемость результата случайной переменной как средневзвешенное значение вероятностей результатов или наблюдаемых значений этой переменной. Однако он отбрасывает фактические наблюдаемые значения , из которых были получены вероятности, только вместо этого используя вероятности в своей формуле. Это кажется значительной потерей информации, поскольку именно наблюдаемые значения, а не их вероятности, содержат такие детали, как величина и направление реализации случайной величины.

Нет ли каких-либо оценок энтропии, которые включают наблюдаемые значения наряду с вероятностями, так что она не измеряется только на основе вероятностей? Например, скорректированная мера энтропии, которая представляет собой средневзвешенное значение вероятностей и наблюдаемых значений?

Ответы

3 kjetilbhalvorsen Sep 01 2020 at 20:57

Энтропия может быть развита как ожидаемый сюрприз , как я пытался в статистической интерпретации максимального распределения энтропии . Сейчас я буду работать с дискретным случаем, но большую часть можно перенести на непрерывный случай.

Определите функцию неожиданности $\sigma \colon p \mapsto \sigma(p)$который отправляет вероятность к неожиданному значению события, имеющего эту вероятность. Когда вы будете меньше удивлены более вероятным событием,$\sigma$ должно уменьшаться, и $\sigma(1)=0$потому что вы совсем не удивлены происходящим событием. Функция неожиданности$\log\left( \frac1p \right)$ приводит к энтропии Шеннона.

Во-первых, давайте подключим это к примеру в другом ответе @Richard Hardy. Обозначим дискретные значения через$x_i$и предположим, что это реальные числа. Предположим, есть один$x_m =\mu$, ожидаемое значение, и что $p(x_i)\leq p(x_m)$, и если $(x_i-\mu)^2 \geq (x_j-\mu)^2$ тогда так $p_i \leq p_j$. В этом случае$$ \sigma \colon x\mapsto (x-\mu)^2$$- функция неожиданности, а соответствующая ожидаемая неожиданность - это дисперсия. Таким образом, мы можем рассматривать дисперсию как своего рода энтропию!

Вернемся к общим. Семейство неожиданных функций - это$$ \sigma_\alpha \colon [0,1]\mapsto [0, \infty]; \quad \sigma_\alpha(p)=\begin{cases} (1-\alpha)^{-1} (1-p^{\alpha-1})&, \alpha\not=1 \\ -\log p &, \alpha=1 \end{cases}$$ Ожидаемый сюрприз становится $$ D_\alpha(p_1, \dotsc, p_n)=\sum_i p_i \sigma_\alpha(p_i) = \\ \begin{cases} (\alpha-1)^{-1} (\left( 1-\sum_i p_i^\alpha\right) &, \alpha\not=1 \\ -\sum_i p_i\log p_i &, \alpha=1 \end{cases} $$ и мы использовали имя $D$потому что в экологии это известно как разнообразие (как в биоразнообразии ). В экологии это часто представляется по-другому, используя концепцию эффективного числа видов . Идея состоит в том, что экосистема с$n$ виды наиболее разнообразны, если встречаемость всех видов одинакова, поэтому $p_i=1/n$. В других случаях мы можем вычислить некоторые$\text{effective number of species }\leq n$. Я писал об этом здесь: Чем индекс Херфиндаля-Хиршмана отличается от энтропии? так что повторяться не буду. В случае энтропии Шеннона эффективное количество разновидностей дается экспонентой энтропии. Теперь пиши$A=\{p_1, \dotsc, p_n\}$ и $$ \lvert A \rvert = e^{H(A)} =\prod_i p_i^{-p_i} $$ и назовем это мощностью $A$, чтобы иметь математическое имя, полезное и вне экологии. Думайте об этом как о величине размера$A$. Теперь мы хотим распространить это на все функции неожиданности.$\sigma_\alpha$. Результат (на данный момент я перескакиваю на разработку)$$\lvert A \rvert_\alpha = \begin{cases} \left( \sum_i p_i^\alpha\right)^{\frac1{1-\alpha}}&,\alpha\not=1 \\ \prod_i p_i^{-p_i}&, \alpha=1 \end{cases} $$ Теперь мы можем вернуться к шкале энтропии, взяв логарифм, и поэтому мы определяем $\alpha$-энтропия $H_\alpha(A)=\log \lvert A \rvert_\alpha$. Это обычно называется энтропией Реньи и имеет лучшие математические свойства, чем$\alpha$-разнообразие. Все это и многое другое можно найти здесь .

Меры, которые мы обсуждали до сих пор, используют только вероятности $p_i$, поэтому мы еще не ответили на вопрос --- так что немного терпения! Для начала нам нужна новая концепция:

Мощность метрических пространств Пусть$A$ быть набором точек $a_1, \dotsc, a_n$ с заданными расстояниями $d_{ij}$ ($d_{ij}=\infty$разрешено.) Думайте об этом как о конечном метрическом пространстве, но не ясно, что нам действительно нужны все аксиомы метрического пространства. Определить матрицу$Z=\left( e^{-d_{ij}}\right)_{i,j}$ и вектор $w$ как любое решение $Z w = \left(\begin{smallmatrix}1\\ \vdots \\1 \end{smallmatrix}\right)$. $w$называется весовой из$A$. Теперь мы можем определить мощность$A$ как сумма компонентов $w$, $$ \lvert A \rvert_\text{MS} =\sum_i w_i $$ Это упражнение, чтобы показать, что это не зависит от выбора $w$. Теперь мы хотим расширить это определение до ...

Метрическое вероятностное пространство $A=(p_1, \dotsc, p_n; d)$ куда $d$- функция расстояния, метрика. К каждой точке$i$мы связываем плотность $\sum_j p_j e^{-d_{ij}}$. С$e^{-d_{ij}}$ антимонотон на расстоянии $d$, он представляет собой близость , поэтому плотность можно рассматривать как ожидаемую близость вокруг точки$i$, что объясняет плотность терминологии. Определите матрицу подобия $Z=\left( e^{-d_{ij}}\right)_{i,j}$ и вектор вероятности $p=(p_1, \dotsc, p_n)$. Сейчас же$Zp$- вектор плотности. Например, если все расстояния$d_{ij}=\infty$ тогда $Z=I$, единичная матрица, поэтому $Zp=p$.

Теперь сделаем обобщение, заменив во многих формулах $p$ с $Zp$.

Ранее неожиданность зависела только от вероятности наблюдаемого события. Теперь мы также будем учитывать вероятности ближайших точек. Например, вы, вероятно, будете очень удивлены змеей-питоном на Манхэттене, но теперь мы измерим этот сюрприз, также принимая во внимание вероятности появления других змей ... с помощью функции неожиданности$\sigma$, ожидаемый сюрприз теперь определяется как $\sum_i p_i \sigma\left( (Zp)_i\right)$ для дискретного метрического пространства со всеми $d_{ij}=\infty$, это без изменений.

Разнообразие теперь обобщается на$$ D_\alpha(A)=\sum_i p_i \sigma_\alpha\left( (Zp)_i\right)= \begin{cases} (\alpha-1)^{-1} \left(1-\sum_i p_i(Zp)_i^{\alpha-1} \right)&,\alpha\not=1 \\ -\sum_i p_i \log\left( (Zp)_i\right) &, \alpha=1\end{cases} $$ Например, с $\alpha=2$, $D_2(A)= p^T \Delta p$, $\Delta=\left( 1-e^{-d_{ij}}\right)_{i,j}$ известен как квадратичный индекс разнообразия Рао или квадратичная энтропия Рао.

$\alpha$-Cardinality Соответственно имеем$$ \lvert A\rvert_{\alpha} = \frac1{\sigma_\alpha^{-1}(D_\alpha(A))}= \begin{cases} \left( \sum_i p_i (Zp)_i^{\alpha-1} \right)^{\frac1{1-\alpha}}&,\alpha\not=1 \\ \prod_i (Zp)_i^{-p_i} &, \alpha=1 \end{cases} $$ а теперь ...

$\alpha-entropy$ получается путем логарифмирования $\alpha$-мощность, и теперь мы получили энтропию, в которой расстояния между точками играют роль. Все это и многое другое можно найти здесь, в кафе n-Category . Это все еще относительно новая теория, поэтому можно ожидать новых разработок. Идеи исходят от экологов-теоретиков.

1 RichardHardy Aug 18 2020 at 18:59

Энтропия измеряет степень случайности или неожиданности случайного явления / эксперимента , не обязательно случайную величину (последнюю даже не нужно определять).

Что касается вашего вопроса, могут быть уместны такие меры разброса, как среднее абсолютное отклонение, дисперсия и т.п. Например, дисперсия действительно может считаться скорректированной мерой энтропии, которая представляет собой средневзвешенное значение вероятностей и [наблюдаемых] значений . Для непрерывной случайной величины с математическим ожиданием$\mu_X$ и плотность вероятности $f(x)$, $$ \text{Var}(X)=\int_{-\infty}^{\infty}(x-\mu_X)^2f(x)\ dx; $$ для дискретного с возможными значениями $x_1,\dots,x_n$ с соответствующими вероятностями $p_1,\dots,p_n$ и с ожиданием $\mu_X$, это $$ \text{Var}(X)=\sum_{i=1}^{n}(x_i-\mu_X)^2 p_i. $$ Вы можете видеть как возможные значения, так и их вероятности / плотности, играющие роль.