Jednolite tylne w przestrzeni ograniczonej vs nieograniczonej przestrzeni
Zgodnie z tą odpowiedzią :
Nie ma problemu z płaską tylną częścią ograniczonej przestrzeni, jak tutaj. Musisz tylko zacząć od wcześniejszego, który jest bardziej rozłożony niż płaski. To, czego nie możesz mieć, to płaski tył na nieograniczonej przestrzeni, ponieważ to nie jest właściwy rozkład.
Zastanawiałem się, czy ktoś może rozwinąć (czy i), dlaczego płaska tylna przestrzeń w nieograniczonej przestrzeni jest niedopuszczalna i czym różni się od przestrzeni ograniczonej. Przykładem tego ostatniego jest rozkład dirichleta$\mathcal{D}irichlet(\alpha_1,\dots,\alpha_n)$ gdzie $\alpha_1 = \alpha_2=\dots=\alpha_n=1$.
Odpowiedzi
Nie jest możliwe posiadanie płaskiego (jednolitego) rozkładu prawdopodobieństwa na nieograniczonej przestrzeni, więc w szczególności nie jest możliwe uzyskanie płaskiego rozkładu późniejszego.
Gdybyś miał jednolitą gęstość prawdopodobieństwa na całej rzeczywistej prostej, potrzebowałbyś funkcji $f(x)$ta scałkowała się do 1 (aby była gęstością prawdopodobieństwa), ale była stała. To niemożliwe: każda stała funkcja całkuje do 0 lub nieskończoności.
Podobnie, gdybyś miał rozkład równomierny na nieskończonym zbiorze liczb całkowitych, potrzebowałbyś funkcji masy prawdopodobieństwa $p(n)$ być równym dla wszystkich $n$i dodaj do 1. Nie może; gdyby$p(n)$ jest równa dla wszystkich $n$ musi sumować się do zera lub nieskończoności.
Analogiczne problemy pojawiają się w przypadku bardziej skomplikowanych przestrzeni, w których warto mówić o „płaskim” rozkładzie.
Na ograniczonej przestrzeni skończenie wymiarowej, to jest możliwe, aby mieć funkcję stałą, która integruje do 1, a więc rozkładu prawdopodobieństwa może być płaska. Na przykład rozkład Dirichleta jest zdefiniowany w pliku$n$-wymiarowy trójkąt z polem $$\mathrm{B}(\boldsymbol{\alpha})=\frac{\prod_{i=1}^{K} \Gamma\left(\alpha_{i}\right)}{\Gamma\left(\sum_{i=1}^{K} \alpha_{i}\right)}$$ więc każda funkcja stała ma całkę skończoną i funkcję $$f(\boldsymbol{\alpha})=1/B(\boldsymbol{\alpha})$$ całkuje do 1. Rozkład prawdopodobieństwa New Zealand Lotto obejmuje zbiór sześciocyfrowych ciągów o wartościach od 1 do 40, więc jest ich tylko skończenie wiele i możesz przypisać równe prawdopodobieństwo każdemu z nich ($p(x)=1/3838380$) i dodaj do 1.
Biorąc to pod uwagę, prawdziwe pytanie brzmi, jak płaskie wcześniejsze rozkłady mają sens. Okazuje się, że często można umieścić stałą funkcję w regule Bayesa zamiast poprzedniej gęstości i uzyskać autentyczną dystrybucję jako późniejszą. Rozsądne jest zatem myślenie o tym późniejszym jako o „płaskim przeorze”, nawet jeśli czegoś takiego nie ma. Poza tym, późniejszy, jaki dostajesz za „płaski przeor”, jeśli taki istnieje, jest często taki sam, jak limit tylnych, które dostaniesz za coraz bardziej rozłożone autentyczne przeżycia [Nie wiem, czy to zawsze prawda lub po prostu często prawda]. Na przykład, jeśli masz$X_m\sim N(\mu,1)$ dane i a $\mu\sim N(0,\omega^2)$ wcześniej, tylne jest Normalne ze średnią $$\frac{n\bar X_n}{n+\omega^{-2}}$$ i wariancji $1/(n+\omega^{-2})$. Jeśli pozwolisz$\omega$ wzrost, poprzedni coraz bardziej się rozciąga, a tylny coraz bardziej się do niego zbliża $N(\bar X, 1/n)$, co jest również tym, co otrzymujesz z „płaskim przedtem”.
Czasami jednak użycie `` płaskiego wcześniejszego '' nie daje prawdziwego rozkładu prawdopodobieństwa dla późniejszego, w takim przypadku tak naprawdę nie ma sensu.
Ściśle mówiąc, pytanie to jest nieprecyzyjne, ponieważ nie określa środka referencyjnego. Jeśli miarą odniesienia jest$\text{d}\mu(x)=e^{-x^2}\text{d}\lambda(x)$ gdzie $\lambda$ jest miarą Lebesgue'a, a posterior z płaską gęstością jest ważny.
Zakładając jednak, że użycie „wcześniejszego płaskiego” oznacza posiadanie stałej gęstości w stosunku do miary Lebesgue'a, odpowiedź Thomasa Lumleya jasno wyjaśnia, dlaczego wnioskowanie bayesowskie jest niemożliwe przy takim „późniejszym”. Nie jest to gęstość prawdopodobieństwa, a zatem późniejsza po prostu nie jest zdefiniowana. Nie ma sposobu, aby obliczyć późniejsze oczekiwania lub nawet późniejsze prawdopodobieństwa, ponieważ tylna masa całej przestrzeni jest nieskończona. Żadnej przestrzeni parametrów o nieskończonej objętości nie można wywnioskować na podstawie takiej tylnej. Mówiąc bardziej ogólnie, jakiekolwiek późniejsze całkowanie do nieskończoności nie jest dopuszczalne dla wnioskowania bayesowskiego z tego samego powodu, że nie można tego przekształcić w gęstość prawdopodobieństwa.
Jako marginalia , i jak omówiono we wcześniejszym wpisie zatwierdzonym przez X , maksymalna entropia poprzednia$$\arg_p \max \int p(x) \log p(x) \text{d}\lambda(x)$$ jest zdefiniowany w kategoriach miary dominującej $\text{d}\lambda$. Nie ma absolutnej ani niepowtarzalnej miary entropii w ciągłych przestrzeniach.