Comprensione della derivazione in Robbins (1952)

Aug 23 2020

Stavo cercando di leggere l'articolo di Herbert Robbins del 1952 "Alcuni aspetti della progettazione sequenziale degli esperimenti" ( qui ) e sono rimasto davvero, fastidiosamente bloccato sulla formula (2). Non riesco, per la vita di me, a capire come si mostri nell'ambientazione descritta$$ p_{i+1} = (\alpha + \beta - 1)p_i + (\alpha + \beta - 2\alpha\beta). $$La sezione circostante è molto leggibile, ma per salvare lo sforzo del lettore:$\alpha$e$\beta$sono le probabilità di due monete$A$e$B$, rispettivamente, in testa;$p_i$è la probabilità di capovolgere la testa$i$. C'è una ricompensa di un dollaro per ogni testa, quindi l'obiettivo è bilanciare il campionamento di$\alpha$e$\beta$con lo sfruttamento della moneta corrispondente a$\max(\alpha, \beta)$. Robbins sta discutendo di una "regola"$R_1$(politica, nel linguaggio dell'odierna letteratura sui banditi) che stabilisce di cambiare moneta quando la moneta corrente esce croce e di restare con la moneta corrente quando esce testa. Dato questo contesto, penso di aver capito il secondo termine:$$\alpha + \beta - 2\alpha\beta = (1-\alpha)\beta + (1-\beta)\alpha. $$Questa è la probabilità di ottenere croce al lancio$i$, scambiando le monete come richiede la regola e ottenendo testa sulla moneta opposta alla volta$i+1$. Ma semplicemente non riesco a capire il primo mandato. Robbins lo limita$0 < \alpha, \beta < 1$, affinché$|\alpha + \beta - 1| < 1$, tuttavia il primo termine non contiene il valore assoluto. Non capisco come lo assicuriamo$p_{i+1}$è una probabilità se il primo termine può essere negativo. Ancora più importante, non riesco proprio a capire quale evento$(\alpha + \beta - 1)$dovrebbe rappresentare. Non sono stato in grado di produrre una derivazione che lo spieghi in modo soddisfacente. Una spiegazione intuitiva o una derivazione sarebbero molto utili (non sospetto che la derivazione sia lunga, mi manca chiaramente qualcosa).

Grazie molte!

Risposte

1 delivery101 Aug 28 2020 at 23:09

Lottato con l'espressione negli ultimi due giorni, molto frustrante ma alla fine gratificante poiché penso che la derivazione di seguito mostri come ottenere la ricorsione. Purtroppo non ho una spiegazione intuitiva per la ricorsione...

Definire gli eventi$H_i := \text{"heads in flip } i$",$A_i := \text{"coin $UN$ is used in flip $io$"}$e$B_i := \text{"coin $B$ is used in flip $io$"}$. Quindi ottieni quanto segue:\begin{align*} p_{i+1} &= \mathbb{P}(H_{i+1}) \\ &= \mathbb{P}(H_{i+1} | H_i, A_i)\mathbb{P}(H_i|A_i)\mathbb{P}(A_i) + \mathbb{P}(H_{i+1} | H_i^c, A_i)\mathbb{P}(H_i^c|A_i)\mathbb{P}(A_i)\\ & \enspace \enspace \enspace \enspace + \mathbb{P}(H_{i+1} | H_i, B_i)\mathbb{P}(H_i|B_i)\mathbb{P}(B_i) + \mathbb{P}(H_{i+1} | H_i^c, B_i)\mathbb{P}(H_i^c|B_i)\mathbb{P}(B_i) \\ &= \alpha^2\mathbb{P}(A_i) + \beta (1-\alpha)\mathbb{P}(A_i) + \beta^2\mathbb{P}(B_i) + \alpha(1-\beta)\mathbb{P}(B_i) \\ &= \alpha^2\mathbb{P}(A_i) + \beta^2\mathbb{P}(B_i) + \beta(1-\alpha) + \alpha(1-\beta) -\mathbb{P}(B_i)\beta(1-\alpha) - \mathbb{P}(A_i)\alpha(1-\beta)\\ &= \alpha\mathbb{P}(A_i)(\alpha + \beta - 1) + \beta\mathbb{P}(B_i)(\alpha + \beta - 1) + \beta(1-\alpha) + \alpha(1-\beta) \\ &= (\alpha + \beta - 1)(\alpha \mathbb{P}(A_i) + \beta \mathbb{P}(B_i)) + \beta(1-\alpha) + \alpha(1-\beta) \\ &= (\alpha + \beta - 1)p_i + \beta(1-\alpha) + \alpha(1-\beta) \end{align*}

Typist Aug 30 2020 at 05:33

delivery101 ha risposto meravigliosamente alla domanda originale. Volevo contribuire anche con una spiegazione della prossima equazione nel documento poiché mentre si potrebbe accettarla come conseguenza dell'algebra come Eq. (2), la giustificazione è utile e ho già svolto il lavoro noioso.

La prossima equazione afferma senza dimostrare perché la relazione di ricorsione giustificata nella risposta accettata implica quanto segue:$$ p_i = (\alpha + \beta - 1)^{i-1}\Big[p_1 - \frac{\alpha + \beta - 2\alpha\beta}{2 - (\alpha + \beta)}\Big] + \frac{\alpha + \beta - 2\alpha\beta}{2 - (\alpha + \beta)}.$$

Equiparando questo con l'Eq. (2) del documento ho osservato che

$$ (\alpha + \beta - 1)p_1 - \frac{(\alpha + \beta - 1)(\alpha + \beta - 2\alpha\beta)}{2 - (\alpha + \beta)} + \frac{(\alpha + \beta - 2\alpha\beta)}{2-(\alpha + \beta)} = (\alpha + \beta - 1)p_1 + (\alpha + \beta - 2\alpha\beta)$$ $$\implies \frac{1-(\alpha + \beta - 1)}{2 - (\alpha + \beta)}(\alpha + \beta - 2\alpha\beta) = \frac{2 - (\alpha + \beta)}{2 - (\alpha + \beta)}(\alpha + \beta - 2\alpha\beta) = \alpha + \beta - 2\alpha\beta$$

che dimostra la sostituzione di chiave.

Permettere$\pi = \alpha + \beta - 2\alpha\beta$, permettere$\lambda = \alpha + \beta - 1$, e lascia$\phi = \frac{\alpha + \beta - 2\alpha\beta}{2 - (\alpha + \beta)}$. Proviamo a spiegarci$p_3$secondo l'equazione (2). Lo vediamo

\begin{align} p_4 &= \lambda[\lambda[\lambda p_1 + \pi] + \pi] + \pi \\ &= \lambda[\lambda[\lambda p_1 + \phi - \lambda\phi] + \pi] + \pi \\ &= \lambda[\lambda[\lambda p_1 + \phi - \lambda\phi] + \phi - \lambda\phi] + \pi \\ &= \lambda[\lambda[\lambda p_1 + \phi - \lambda\phi] + \phi - \lambda\phi] + \phi - \lambda\phi \\ &= \lambda[\lambda^2[p_1 - \phi] + \lambda\phi + \phi - \lambda\phi] + \phi - \lambda\phi \\ &= \lambda[\lambda^2[p_1 - \phi] + \phi] + \phi - \lambda\phi \\ &= \lambda^3[p_1 - \phi] + \lambda\phi + \phi - \lambda\phi \\ &= \lambda^3[p_1 - \phi] + \phi \end{align}

che generalizza all'equazione (3) come previsto.