Probabilità di ottenere una certa somma dopo aver lanciato diversi dadi a sei facce
Credi al tuo amico che afferma di ottenere una somma di $400$ dopo il rotolamento $100$ dadi a sei facce?
Mi è stata posta questa domanda in un'intervista sulla scienza dei dati e mi chiedevo se qualcuno possa spiegare se la mia comprensione del ragionamento è corretta ora. Penso che la risposta sia no, non dovrei crederci. Con l'approssimazione normale alla distribuzione binomiale, ho scoperto che la probabilità di ottenere una somma di 400 che è inferiore a 1/501, che è la probabilità "media" dei 501 risultati.
Il mio ragionamento va bene? O c'è qualcosa che non va in questo.
Risposte
Il risultato esatto di 400 non è la quantità rilevante per valutare la plausibilità del reclamo; man mano che aggiungi più dadi, anche i risultati più probabili diventeranno estremamente improbabili da soli, quindi non è la probabilità di quel risultato esatto che ti dice quanto sia coerente con le circostanze apparenti (che qualche risultato è plausibile su un gran numero di dadi equi).
Il binomio non sembra essere direttamente rilevante, quindi probabilmente non ti faresti alcun favore menzionandolo. Anche se pertinente non è chiaro dal tuo post come sei arrivato a 1/501 dal binomio. Sembra che tu sia passato a trattare la somma di 100 dadi come un'uniforme discreta (il che suggerirebbe quali sono forse i malintesi anche peggiori del pensare che fosse binomiale).
Se la mia convoluzione numerica non ha perso troppa precisione spostando pile di sabbia, sembra la probabilità di $\geq 400$ dal calcolo diretto si tratta $0.00182$ (l'approssimazione normale con correzione della continuità è circa $0.00187$).
Tuttavia, in un'intervista mi limitavo a calcolare la deviazione standard (var = 3500/12 è leggermente inferiore a 300, quindi solo con un'approssimazione approssimativa, sd è intorno a 17) e dicevo "Il totale sarà approssimativamente normale. Ora 400 è quasi 3 sd dalla media di 350. Se i dadi fossero giusti un valore almeno così lontano dalla media sarebbe piuttosto improbabile ". Fatto.
Ecco la metà destra del pmf (con la coda più in alto tagliata), con l'approssimazione normale a quelle probabilità punteggiate in rosso:

È simmetrico, quindi ne mostro solo la metà (permettendoci di ottenere un po 'più di dettagli).
Come possiamo vedere dalla trama, l'approssimazione normale funzionerà abbastanza bene. Le circonvoluzioni di uniformi discrete si sistemano abbastanza rapidamente, a parte la coda più lontana; 100 dadi sono abbastanza buoni da usare un'approssimazione normale per questo tipo di calcolo del retro dell'inviluppo.
Se non sai che la varianza dei risultati su un dado con lati k è $\frac{k^2-1}{12}$ (quindi 35/12 per un dado a sei facce), avresti bisogno di risolverlo, ma non è un lungo calcolo mentale:
La somma dei primi 6 quadrati è semplice: $k(k+1)(2k+1)/6$ per $k=6$ dà $7\times 13=91$, quindi la varianza è $91/6-(7/2)^2 = (182-147)/12 = 35/12$. (Anche se se lo facessi nella mia testa, lo lavorerei in modo leggermente diverso, in termini di deviazioni quadrate dalla media -$\frac16\cdot 2(\frac14+2\frac14+6\frac14)=35/12$.)
Quindi la somma di 100 dadi ha varianza 3500/12 e si procede con il ragionamento precedente a "quasi 3 sd dalla media" (supponendo che si sappia anche $17^2 =289$ e $18^2=324$, quindi la radice quadrata di qualcosa nella regione di 290-300 è 17 e un bit; nel peggiore dei casi dovresti sicuramente essere in grado di dire che la deviazione standard è da qualche parte tra 16 e 18 e comunque arrivare a "circa 3 sd dalla media").
[Il numero effettivo di SD è di circa 2.9 ma non è necessario essere così accurati per rispondere alla domanda.]
Solo con alcuni fatti di base sui numeri, il CLT, e conoscendo alcune cose di base sulla distribuzione normale dovresti essere in grado di dare una buona risposta abbastanza rapidamente.
Non importa se il calcolo della probabilità deve essere a una o due code (entrambi sono piuttosto piccoli), ma probabilmente menzionerei che se fai due code vuoi raddoppiare $P(T\geq 400)$, ma "è ancora un numero molto piccolo".
In che modo tutto ciò è rilevante per questo tipo di lavoro? Penso che parli di diverse cose, ma IMO, forse la più importante è la tua capacità di eseguire rapidi controlli di ragionevolezza sui tuoi calcoli. Se non hai idea di come affrontare questo tipo di calcoli, sei lasciato ad accettare qualunque risultato tu ottenga, il che significa che a un dato livello di competenza stai lasciando passare molti più errori che se sapessi come dire "aspetta, questo non ha senso, ricontrolliamo quel calcolo ".
Essere in grado di identificare un'approssimazione rapida o un limite adatto e valutarlo è un'abilità quotidiana essenziale per chiunque faccia molti calcoli. Le persone commettono errori in continuazione - di molti tipi - ma se riesci a prenderne molti prima che sia importante, il fatto che commetterai errori danneggerà molto meno il tuo datore di lavoro - ne elimini molti.