Чем полезны логарифмические вероятности?

Aug 20 2020

Вероятности наблюдений случайной величины находятся в диапазоне $[0,1]$, тогда как логарифм вероятностей преобразует их в логарифмическую шкалу. Каков же тогда соответствующий диапазон логарифмических вероятностей, то есть чем становится вероятность, равная 0, и является ли это минимумом диапазона, и чем становится вероятность, равная 1, и является ли это максимумом логарифмического диапазона вероятностей? Какова интуиция в том, что это имеет какое-либо практическое применение по сравнению с$[0,1]$?

Я знаю, что логарифмические вероятности позволяют проводить стабильные численные вычисления, такие как суммирование, но, помимо арифметики, как это преобразование может улучшить приложения по сравнению со случаем, когда вместо этого используются необработанные вероятности? был бы хорош сравнительный пример для непрерывной случайной величины до и после регистрации

Ответы

46 GregSnow Aug 20 2020 at 21:30

Журнал $1$ просто $0$ и предел как $x$ подходы $0$ (с положительной стороны) $\log x$ является $-\infty$. Таким образом, диапазон значений логарифмических вероятностей равен$(-\infty, 0]$.

Настоящее преимущество - в арифметике. Логические вероятности не так легко понять, как вероятности (для большинства людей), но каждый раз, когда вы умножаете две вероятности (кроме$1 \times 1 = 1$), вы получите значение, близкое к $0$. Работа с числами, очень близкими к$0$может стать нестабильным из-за приближений конечной точности, поэтому работа с журналами делает работу намного более стабильной, а в некоторых случаях более быстрой и простой. Зачем вам нужно больше оправданий, чем это?

17 JohnMadden Aug 22 2020 at 00:28

Я хотел бы добавить, что ведение журнала вероятности или плотности вероятности часто может упростить определенные вычисления, такие как вычисление градиента плотности с учетом некоторых из ее параметров. Это, в частности, когда плотность принадлежит экспоненциальному семейству, которое часто содержит меньше вызовов специальных функций после регистрации, чем раньше. Это упрощает получение производной вручную (поскольку правила произведения становятся более простыми правилами сумм), а также может привести к более стабильным вычислениям численной производной, таким как конечное разложение.

В качестве иллюстрации возьмем пуассон с функцией вероятности $e^{-\lambda}\frac{\lambda^{x}}{x!}$. Даже не смотря на$x$ дискретна, эта функция гладкая по $\lambda$, и становится $\log f_x= -\lambda + x*\log(\lambda) - \log(x!)$, для производной по $\lambda$ просто $\frac{\partial \log f_x}{\partial \lambda} = -1 + \frac{x}{\lambda}$, который включает две простые операции. Сравните это с$\frac{\partial f_x}{\partial \lambda} = \frac{e^{-\lambda } (x-\lambda ) \lambda ^{x-1}}{x!}$, который включает в себя естественное возведение в степень, действительное возведение в степень, вычисление факториала и, что хуже всего, деление на факториал. Это требует большего времени вычислений и меньшей стабильности вычислений даже в этом простом примере. Результат складывается для более сложных функций вероятности, а также при наблюдении за iid-выборкой случайных величин, поскольку они добавляются в логическое пространство при умножении в вероятностном пространстве (опять же, усложняя вычисление производной, а также вводя больше чисел с плавающей запятой ошибка, упомянутая в другом ответе).

Эти выражения градиента используются как в аналитических, так и в численных расчетах максимума апостериорного ($\ell_0$Байеса) и оценок максимального правдоподобия. Он также используется в численном решении уравнений оценивания метода моментов, часто с помощью метода Ньютона, который включает вычисления Гессе или вторые производные. Здесь разница между регистрируемой и незарегистрированной сложностью может быть огромной. И, наконец, он используется для демонстрации эквивалентности наименьших квадратов и максимальной вероятности с гауссовой структурой ошибок.

7 DanielHatton Aug 23 2020 at 21:43

В качестве примера процесса, упомянутого в ответе Грега Сноу: я довольно часто использую языки программирования высокого уровня (Octave, Maxima [*], Gnuplot, Perl, ...) для вычисления отношений между предельными вероятностями для сравнения байесовских моделей. Если кто-то пытается вычислить отношение предельных правдоподобий напрямую, промежуточные шаги в вычислении (а иногда и конечный результат тоже) очень часто выходят за рамки возможностей реализации числа с плавающей запятой в интерпретаторе / компиляторе, производя числа настолько малые, что компьютер не может отличить их от нуля, когда вся важная информация заключается в том, что эти числа на самом деле не совсем нулевые. Если, с другой стороны, всюду работать с логарифмическими вероятностями и брать разницу между логарифмами предельных правдоподобий в конце, вероятность возникновения этой проблемы гораздо меньше.

[*] Иногда Maxima избегает этой проблемы, используя арифметику с рациональными числами вместо арифметики с плавающей запятой, но на это нельзя обязательно полагаться.

2 WaterMolecule Aug 24 2020 at 00:37

Возможно, это не то, что вас интересует, но логарифмические вероятности в статистической физике тесно связаны с концепциями энергии и энтропии . Для физической системы, находящейся в равновесии при температуре$T$ (в кельвинах) разница в энергии между двумя микросостояниями A и B связана с логарифмом вероятностей того, что система находится в состоянии A или состоянии B:

$$E_\mathrm{A} - E_\mathrm{B} =-k_\mathrm{B}T \left[ \ln(P_\mathrm{A}) - \ln( P_\mathrm{B}) \right]$$

Таким образом, статистические физики часто работают с логарифмическими вероятностями (или их масштабными версиями), потому что они имеют физический смысл. Например, потенциальная энергия молекулы газа в атмосфере при фиксированной температуре и однородном гравитационном поле (хорошее приближение вблизи поверхности Земли) равна$mgh$, где $m$ - масса молекулы газа, $g$ - ускорение свободного падения, а $h$- высота молекулы над поверхностью. Вероятность обнаружения молекулы газа на верхнем этаже здания по сравнению с нижним этажом (при условии, что этажи имеют одинаковый объем и высота от пола до потолка мала) определяется как:

$$mg (h_\mathrm{top} - h_\mathrm{bottom}) \approx -k_\mathrm{B} T \left[ \ln (P_\mathrm{top}) - \ln(P_\mathrm{bottom}) \right]$$

Эта вероятность тривиально связана с концентрацией газа на двух этажах. На более высоких этажах концентрация ниже, и концентрация более тяжелых молекул быстрее спадает с высотой.

В статистической физике часто бывает полезно переключаться между величинами, пропорциональными логарифмическим вероятностям (энергия, энтропия, энтальпия, свободная энергия), и величинами, пропорциональными вероятности (количество микросостояний, статистическая сумма, плотность состояний).