로그 확률이 ​​유용한 이유는 무엇입니까?

Aug 20 2020

랜덤 변수의 관측 확률이 범위 내에 있습니다. $[0,1]$, 반면 로그 확률은이를 로그 스케일로 변환합니다. 그러면 해당하는 로그 확률 범위는 무엇입니까? 즉, 0의 확률은 무엇이며 범위의 최소값이며 1의 확률은 무엇이며 이것이 로그 확률 범위의 최대 값입니까? 이것에 비해 실제 사용되는 직감은 무엇입니까?$[0,1]$?

로그 확률이 ​​합산과 같은 안정적인 수치 계산을 허용한다는 것을 알고 있지만 산술 외에도이 변환이 원시 확률이 대신 사용되는 경우에 비해 애플리케이션을 어떻게 더 좋게 만들까요? 로깅 전후의 연속 랜덤 변수에 대한 비교 예가 좋습니다.

답변

46 GregSnow Aug 20 2020 at 21:30

로그 $1$ 그냥 $0$ 그리고 한계는 $x$ 구혼 $0$ (긍정적 인 측면에서) $\log x$ 이다 $-\infty$. 따라서 로그 확률 값의 범위는$(-\infty, 0]$.

진정한 장점은 산술입니다. 로그 확률은 (대부분의 사람들에게) 확률만큼 이해하기 쉽지는 않지만 두 개의 확률을 곱할 때마다 ($1 \times 1 = 1$)에 가까운 값으로 끝납니다. $0$. 매우 가까운 숫자 다루기$0$유한 정밀도 근사치로 불안정해질 수 있으므로 로그 작업을하면 상황이 훨씬 더 안정되고 경우에 따라 더 빠르고 쉬워집니다. 왜 그보다 더 많은 정당성이 필요합니까?

17 JohnMadden Aug 22 2020 at 00:28

확률 또는 확률 밀도의 로그를 취하면 매개 변수 중 일부가 주어진 밀도의 기울기를 계산하는 것과 같은 특정 계산을 종종 단순화 할 수 있다고 덧붙이고 싶습니다. 특히 밀도가 지수 군에 속할 때 특히 로깅 된 후 이전보다 적은 수의 특수 함수 호출이 포함됩니다. 이렇게하면 손으로 미분을 더 간단하게 수행 할 수 있으며 (제품 규칙이 더 간단한 합계 규칙이됨에 따라) 유한 차분과 같은보다 안정적인 수치 미분 계산으로 이어질 수 있습니다.

예를 들어 확률 함수가있는 푸 아송을 살펴 보겠습니다. $e^{-\lambda}\frac{\lambda^{x}}{x!}$. 그래도$x$ 불 연속적이며,이 기능은 $\lambda$, 및됩니다 $\log f_x= -\lambda + x*\log(\lambda) - \log(x!)$,에 대한 파생 상품 $\lambda$ 단순히 $\frac{\partial \log f_x}{\partial \lambda} = -1 + \frac{x}{\lambda}$, 두 가지 간단한 작업이 포함됩니다. 그것과 대조$\frac{\partial f_x}{\partial \lambda} = \frac{e^{-\lambda } (x-\lambda ) \lambda ^{x-1}}{x!}$, 여기에는 자연 지수, 실수 지수, 계승 계산, 그리고 최악의 경우 계승으로 나누기가 포함됩니다. 이것은이 간단한 예제에서도 더 많은 계산 시간과 더 적은 계산 안정성을 포함합니다. 결과는 확률 공간에서 곱해지면서 로그 공간에 추가되기 때문에 확률 변수의 iid 샘플을 관찰 할 때뿐만 아니라 더 복잡한 확률 함수에 대해 복합화됩니다 (다시 말하지만, 미분 계산을 복잡하게하고 더 많은 부동 소수점을 도입 함 다른 답변에 언급 된 오류).

이러한 기울기 표현은 Maximum a Posteriori ($\ell_0$Bayes) 및 최대 가능성 추정기. 또한 Hessian 계산 또는 2 차 도함수를 포함하는 Newton의 방법을 통해 방정식을 추정하는 Method of Moments의 수치 솔루션에도 사용됩니다. 여기서 기록 된 복잡성과 기록되지 않은 복잡성의 차이는 엄청날 수 있습니다. 마지막으로 가우스 오류 구조를 사용하여 최소 제곱과 최대 가능성 사이의 동등성을 표시하는 데 사용됩니다.

7 DanielHatton Aug 23 2020 at 21:43

Greg Snow의 답변에 언급 된 프로세스의 예 : 저는 베이지안 모델 비교를위한 한계 우도 간의 비율을 계산하기 위해 고수준 프로그래밍 언어 (Octave, Maxima [*], Gnuplot, Perl, ...)를 자주 사용합니다. 한계 가능성의 비율을 직접 계산하려고하면 계산의 중간 단계 (때로는 최종 결과도 마찬가지)가 인터프리터 / 컴파일러에서 부동 소수점 숫자 구현의 기능을 넘어서서 너무 작은 숫자를 생성합니다. 컴퓨터는 0과 구별 할 수 없습니다. 모든 중요한 정보는 그 숫자가 실제로 0이 아니라는 사실에 있습니다. 반면에 로그 확률에서 작업하고 마지막에 한계 우도의 로그 간의 차이를 취하면이 문제가 발생할 가능성이 훨씬 적습니다.

[*] 때때로 Maxima는 부동 소수점 산술 대신 유리수 산술을 사용하여 문제를 회피하지만 반드시 이것에 의존 할 수는 없습니다.

2 WaterMolecule Aug 24 2020 at 00:37

이것은 당신이 관심이있는 것이 아닐 수도 있지만 통계 물리학의 로그 확률 은 에너지엔트로피 개념과 밀접한 관련이 있습니다. 온도에서 평형 상태의 물리적 시스템$T$ (켈빈 단위), 두 미시 상태 A와 B 사이의 에너지 차이는 시스템이 상태 A 또는 상태 B에있을 확률의 로그와 관련이 있습니다.

$$E_\mathrm{A} - E_\mathrm{B} =-k_\mathrm{B}T \left[ \ln(P_\mathrm{A}) - \ln( P_\mathrm{B}) \right]$$

따라서 통계 물리학 자들은 물리적으로 의미가 있기 때문에 로그 확률 (또는 확장 된 버전)으로 작업하는 경우가 많습니다. 예를 들어, 일정한 중력장 (지구 표면 근처의 좋은 근사치) 하에서 고정 된 온도의 대기에서 가스 분자의 위치 에너지는 다음과 같습니다.$mgh$, 어디 $m$ 가스 분자의 질량, $g$ 중력 가속도이고 $h$표면 위의 분자 높이입니다. 건물의 최상층과 최하층에서 가스 분자를 발견 할 확률은 다음과 같습니다 (바닥의 부피가 같고 바닥에서 천장까지의 높이가 작다고 가정).

$$mg (h_\mathrm{top} - h_\mathrm{bottom}) \approx -k_\mathrm{B} T \left[ \ln (P_\mathrm{top}) - \ln(P_\mathrm{bottom}) \right]$$

이 확률은 두 층의 가스 농도와 관계가 있습니다. 높은 층은 농도가 낮으며 무거운 분자의 농도는 높이에 따라 더 빨리 붕괴됩니다.

통계 물리학에서는 로그 확률에 비례하는 양 (에너지, 엔트로피, 엔탈피, 자유 에너지)과 확률에 비례하는 양 (미시 상태 수, 분할 함수, 상태 밀도)간에 전환하는 것이 유용합니다.