ロビンズの派生を理解する(1952)
私はハーバート・ロビンズの1952年の論文「実験計画法のいくつかの側面」(ここ)を読み込もうとしていましたが、式(2)に本当に悩まされました。私は、私の人生の間、説明された設定で人がどのように示すかを理解することはできません$$ p_{i+1} = (\alpha + \beta - 1)p_i + (\alpha + \beta - 2\alpha\beta). $$ 周囲のセクションは非常に読みやすいですが、読者の労力を節約するために: $\alpha$ そして $\beta$ 2枚のコインの確率です $A$ そして $B$、それぞれ、頭を上げます。 $p_i$ フリップで頭をひっくり返す確率です $i$。頭ごとに1ドルの報酬があるので、目標はサンプリングのバランスを取ることです$\alpha$ そして $\beta$ 対応するコインの搾取で $\max(\alpha, \beta)$。ロビンズは「ルール」について話し合っています$R_1$(ポリシー、今日の盗賊文学の言語で)現在のコインが尾を引いたときにコインを切り替え、頭を上げたときに現在のコインに固執することを規定しています。この文脈を考えると、私は2番目の用語を理解していると思います。$$\alpha + \beta - 2\alpha\beta = (1-\alpha)\beta + (1-\beta)\alpha. $$ これは、フリップでテールを取得する確率です $i$、ルールが要求するようにコインを切り替え、時間に反対のコインに頭を置く $i+1$。しかし、私は単に最初の学期に頭を包むことができません。ロビンズはそれを制約します$0 < \alpha, \beta < 1$、 そのため $|\alpha + \beta - 1| < 1$ただし、最初の項には絶対値が含まれていません。どうやってそれを保証するのか分かりません$p_{i+1}$最初の項が負の場合の確率です。さらに重要なことに、私はどのイベントを理解することができません$(\alpha + \beta - 1)$を表すことになっています。私はそれを満足に説明する派生物を生み出すことができませんでした。直感的な説明または派生のいずれかが非常に役立ちます(派生が長いとは思わない、明らかに何かが欠けているだけです)。
どうもありがとうございます!
回答
ここ数日間の表現に苦労し、非常にイライラしましたが、以下の派生は再帰を取得する方法を示していると思うので、最終的にはやりがいがあります。残念ながら、再帰についての直感的な説明はありません...
イベントを定義する $H_i := \text{"heads in flip } i$"、 $A_i := \text{"coin $A$ is used in flip $私$"}$ そして $B_i := \text{"coin $B$ is used in flip $私$"}$。次に、次のようになります。\begin{align*} p_{i+1} &= \mathbb{P}(H_{i+1}) \\ &= \mathbb{P}(H_{i+1} | H_i, A_i)\mathbb{P}(H_i|A_i)\mathbb{P}(A_i) + \mathbb{P}(H_{i+1} | H_i^c, A_i)\mathbb{P}(H_i^c|A_i)\mathbb{P}(A_i)\\ & \enspace \enspace \enspace \enspace + \mathbb{P}(H_{i+1} | H_i, B_i)\mathbb{P}(H_i|B_i)\mathbb{P}(B_i) + \mathbb{P}(H_{i+1} | H_i^c, B_i)\mathbb{P}(H_i^c|B_i)\mathbb{P}(B_i) \\ &= \alpha^2\mathbb{P}(A_i) + \beta (1-\alpha)\mathbb{P}(A_i) + \beta^2\mathbb{P}(B_i) + \alpha(1-\beta)\mathbb{P}(B_i) \\ &= \alpha^2\mathbb{P}(A_i) + \beta^2\mathbb{P}(B_i) + \beta(1-\alpha) + \alpha(1-\beta) -\mathbb{P}(B_i)\beta(1-\alpha) - \mathbb{P}(A_i)\alpha(1-\beta)\\ &= \alpha\mathbb{P}(A_i)(\alpha + \beta - 1) + \beta\mathbb{P}(B_i)(\alpha + \beta - 1) + \beta(1-\alpha) + \alpha(1-\beta) \\ &= (\alpha + \beta - 1)(\alpha \mathbb{P}(A_i) + \beta \mathbb{P}(B_i)) + \beta(1-\alpha) + \alpha(1-\beta) \\ &= (\alpha + \beta - 1)p_i + \beta(1-\alpha) + \alpha(1-\beta) \end{align*}
delivery101は元の質問に素晴らしく答えました。次の方程式の説明も論文で提供したいと思いました。なぜなら、方程式のような代数の結果としてそれを受け入れることができるからです。(2)、正当化は有用であり、私はすでに退屈な仕事をしました。
次の方程式は、受け入れられた答えで正当化された漸化式が次のことを意味する理由を示さずに述べています。 $$ p_i = (\alpha + \beta - 1)^{i-1}\Big[p_1 - \frac{\alpha + \beta - 2\alpha\beta}{2 - (\alpha + \beta)}\Big] + \frac{\alpha + \beta - 2\alpha\beta}{2 - (\alpha + \beta)}.$$
これを式と同等にすることによって。(2)私が観察した論文の
$$ (\alpha + \beta - 1)p_1 - \frac{(\alpha + \beta - 1)(\alpha + \beta - 2\alpha\beta)}{2 - (\alpha + \beta)} + \frac{(\alpha + \beta - 2\alpha\beta)}{2-(\alpha + \beta)} = (\alpha + \beta - 1)p_1 + (\alpha + \beta - 2\alpha\beta)$$ $$\implies \frac{1-(\alpha + \beta - 1)}{2 - (\alpha + \beta)}(\alpha + \beta - 2\alpha\beta) = \frac{2 - (\alpha + \beta)}{2 - (\alpha + \beta)}(\alpha + \beta - 2\alpha\beta) = \alpha + \beta - 2\alpha\beta$$
これは、キーの置換を示しています。
しましょう $\pi = \alpha + \beta - 2\alpha\beta$、 $\lambda = \alpha + \beta - 1$、そして $\phi = \frac{\alpha + \beta - 2\alpha\beta}{2 - (\alpha + \beta)}$。展開してみましょう$p_3$式(2)による。わかります
\begin{align} p_4 &= \lambda[\lambda[\lambda p_1 + \pi] + \pi] + \pi \\ &= \lambda[\lambda[\lambda p_1 + \phi - \lambda\phi] + \pi] + \pi \\ &= \lambda[\lambda[\lambda p_1 + \phi - \lambda\phi] + \phi - \lambda\phi] + \pi \\ &= \lambda[\lambda[\lambda p_1 + \phi - \lambda\phi] + \phi - \lambda\phi] + \phi - \lambda\phi \\ &= \lambda[\lambda^2[p_1 - \phi] + \lambda\phi + \phi - \lambda\phi] + \phi - \lambda\phi \\ &= \lambda[\lambda^2[p_1 - \phi] + \phi] + \phi - \lambda\phi \\ &= \lambda^3[p_1 - \phi] + \lambda\phi + \phi - \lambda\phi \\ &= \lambda^3[p_1 - \phi] + \phi \end{align}
これは、意図したとおりに式(3)に一般化されます。