Limites de la variance de la somme des variables aléatoires dépendantes
Laisser $x_1, \ldots, x_n$être éventuellement des variables aléatoires dépendantes , chacune prenant des valeurs$x_i \in \{0, 1, 2\}$. Supposons en outre que dans chaque résultat, le nombre de variables aléatoires égal à 2 soit exactement 1. Maintenant pour chaque$i \in \{1, \ldots, n\}$ définir $$ f_i = \begin{cases} \Pr[x_i = 2 \mid x_i \geq 1] & \text{if } x_i \geq 1\\ 0 & \text{if } x_i =0 \end{cases}, $$ et laissez $ f = \sum_i f_i. $
Ma question est de savoir dans quelle mesure la variance de $f$être? Ma conjecture est que nous devrions pouvoir le lier par$O(1)$ mais je ne sais pas comment le prouver.
Remarque: au cas où cela aiderait, il est facile de prouver que $E[f] = 1$: $$ E[f] = \sum_i E[f_i] = \sum_i \Pr[x_i \geq 1] \times \Pr[x_i = 2 \mid x_i \geq 1] = \sum_i \Pr[x_i = 2] = 1, $$ où la dernière égalité vient de notre hypothèse initiale que dans tous les résultats, exactement l'un des $x_i$'s est égal à 2.
Réponses
$Var\,f$ peut être de l'ordre de $n$ (mais pas plus que ça).
En effet, laissez $U$ et $N$ être des variables aléatoires indépendantes telles que $P(U=1)=:p=1-P(U=0)=:q$ et $P(N=i)=1/n$ pour tous $i\in[n]:=\{1,\dots,n\}$. Laisser$$x_i:=1(U=1,N\ne i)+2\times1(N=i). $$ Puis avec $p=1/n$ $$Var\,f\sim n/4\tag{1}$$ (comme $n\to\infty$).
D'autre part, $$Var\,f\le Ef^2=\sum_{i,j\in[n]}Ef_if_j\le\sum_{i,j\in[n]}Ef_i =n\sum_{i\in[n]}Ef_i=n.$$
Détails sur (1): Nous avons $$Ef^2=\sum_{i,j\in[n]}Ef_if_j \\ =\sum_{i,j\in[n]}P(x_i=2|x_i\ge1)P(x_j=2|x_j\ge1) P(x_i\ge1,x_j\ge1),\tag{2}$$ $$P(x_i\ge1)=1-P(x_i=0)=1-P(U=0)P(N\ne i)=1-q(1-1/n)=p+q/n,$$ $$P(x_i=2)=P(N=i)=1/n,$$ $$P(x_i=2|x_i\ge1)=\frac{P(x_i=2)}{P(x_i\ge1)}=\frac{1/n}{p+q/n},$$ et $$P(x_i\ge1,x_j\ge1)=1-P(x_i=0\text{ or }x_j=0)=1-P(x_i=0)-P(x_j=0)+P(x_i=0,x_j=0) =1-2q(1-1/n)+q(1-2/n)=1-q=p$$ pour $i\ne j$. Choisir maintenant$p=1/n$, nous avons
$$Ef^2\sim n/4.$$ Depuis $Ef=1$, (1) suit maintenant.
En regardant en arrière (2), maintenant l'idée derrière la construction devrait devenir transparente: nous voulons faire $P(x_i\ge1,x_j\ge1)$ pour $i\ne j$ bien plus grand que $P(x_i\ge1)P(x_j\ge1)$ et en même temps ne pas faire $P(x_i\ge1,x_j\ge1)$trop petit. Le choix$p=1/n$ est presque optimale à cet égard.