엔트로피 정규화 된 Wasserstein 거리에서 다양한 버전의 엔트로피 항
\ begin {equation} \ mathcal {W} _ \ epsilon (\ alpha, \ beta) = \ min _ {\ pi \ in \ Pi (\ alpha \ beta)} \ int c (x, y) \ mathrm {d} \ pi (x, y) + \ epsilon H (\ pi \ | \ alpha \ otimes \ beta) \ end {equation} Cuturi (2013)는 위에 표시된 엔트로피 정규화 된 Wasserstein 거리 또는 싱크 혼 거리를 도입했습니다.$\epsilon $ 정규화 매개 변수이고 $H(\pi \| \alpha \otimes \beta)$ 운송 계획과 한계 확률 간의 상대적 엔트로피 또는 KL- 분산입니다.
그러나 나는 보았다 $H(\cdot)$ 용어는 두 가지 다른 방식으로 표시됩니다. 하나는 엔트로피와 다른 하나는 상대 엔트로피입니다.
\begin{align} H(\pi) &= \int \pi(x,y) \ln \pi(x,y) \\ H(\pi \| \alpha \otimes \beta) &= \int \ln \left(\frac{\mathrm{d}\pi (x,y)}{\mathrm{d}\alpha(x) \mathrm{d}\beta(y) } \right) \mathrm{d}\pi (x,y) \end{align}
마지막 두 줄은 어떻게 같거나 서로 연결되어 있습니까? 분명히 그들은 동일하지 않습니다. 그런데 왜 두 개의 다른 버전이 실행되고 있습니까?
답변
이 두 가지는 실제로 상수와 동일합니다. $\pi$ 커플 링 $\alpha$ 과 $\beta$. 나는 그것을 가정 할 것이다$\pi,\alpha, \beta$모두 밀도가 있습니다. 그런 다음 다음과 같이 작성할 수 있습니다.
$$ H(\pi||\alpha\otimes \beta) = \int\ln\left(\frac{d\pi}{d\alpha d\beta} \right)d\pi = \int \pi(x,y) \ln\left(\frac{\pi(x,y)}{\alpha(x)\beta(y)} \right) dx dy $$
참고 $\pi(x,y)$ Lebesgue 측정 값에 대한 밀도이며, $\alpha(x)$ 과 $\beta(y)$. 따라서:
$$ H(\pi||\alpha\otimes \beta) = \int\pi(x,y)\ln \pi(x,y) dx dy - \int\pi(x,y)\ln(\alpha(x))dxdy - \int\pi(x,y)\ln(\beta(y))dxdy =\\ = \int \pi(x,y) \ln\pi(x,y) dx dy - \int\alpha(x)\ln\alpha(x) dx -\int \beta(y) \ln \beta(y) dy = H(\pi) - H(\alpha) - H(\beta) $$
이후 $\alpha$ 과 $\beta$ 고정, 우리는 $H(\pi) + C$, 어디 $C$ 상수입니다.
여기에 간과해서는 안되는 몇 가지 요점을 추가하고 싶습니다.
두 가지 선택 모두 "잘못된"것은 아닙니다. 2013 년 Cuturi 논문에서 그가 "엔트로피"로 정규화하기로 선택했다고 언급했습니다 (실제로 볼츠만 엔트로피라는 점에 유의하세요).
$$ H(\pi)= \begin{cases} \int \pi \log \pi~~&\text{when}~\pi~\text{has a density} \\ \infty & o.w \end{cases}. $$
- 이것이 정규화를위한 자연스러운 선택 인 이유는 정규화가 수행하려는 "평활화"또는 "완화"작업을 수행하기 때문입니다. 첨가$H$최적의 운송 문제에 대한 질량은 "확산의 자유"를 제공합니다. 이 예에서 볼 수 있습니다.$\mu$ 두 가지 점에 집중하다 $x_1,x_2 \in \mathbb{R}$ 그런 $\mu(x_1)=\mu(x_2)=\frac{1}{2}$, 및 $\nu$ 두 가지 점에 집중하다 $y_1,y_2 \in \mathbb{R}$ 그런 $\nu(y_1)=\mu(y_2)=\frac{1}{2}$, 최적의 결합 $\pi$ 최대화하는 $H$ 이다
$$ \pi(x_i,y_j)=\frac{1}{4},\forall~i,j.$$
편집 : 나는 열역학 제 2 법칙을 언급하는 것을 잊었다! (실제로 여기에는 관련이 없음)
최소화 문제가 있으므로 균일하게 볼록한 항을 추가하는 것이 좋습니다. $H$ 그 상자를 틱!
추가 선택 $H(\pi~||~\alpha\otimes\beta)$, 제품 측정에 따라 조정되는 엔트로피는 다음과 같은 장점이 있습니다. https://audeg.github.io/publications/these_aude.pdf. 내가 이해하는 한 이중 문제를 깔끔하게 다시 표현할 수 있습니다.
이제 두 가지 선택을 비교해 보겠습니다. 어느 쪽이든 그다지 중요하지 않다고 생각합니다. 둘 다 같은 일을합니다. 다른 답변에서 지적했듯이 최소값은 동일하며 상수에 의해 다릅니다.$C$. 마지막으로, 일반적으로 "정규화를 수행"할 때 작은 매개 변수가 있음을 기억하십시오.$\epsilon \ll 1$ 정규화 항을 곱하면
$$ \epsilon \Big(H(\pi~||~\alpha\otimes\beta)-H(\pi)\Big)=\epsilon C \ll 1 .$$