La statistica è un po' un mix tra matematica e probabilità. Lo scopo delle statistiche è descrivere i processi che puoi osservare nel mondo - l'altezza delle querce o la probabilità che un vaccino funzioni per respingere le malattie - senza dover misurare ogni quercia nel mondo o vaccinare ogni persona prima di decidere come efficace è un farmaco.
Poiché la probabilità descrive cose che coinvolgono il caso, dobbiamo accettare che qualunque sia il processo che stiamo usando le statistiche per misurare, non avremo mai il quadro completo.
Perché usare le statistiche?
Supponiamo di lanciare una moneta quattro volte. Ottieni tre teste e una coda. Senza usare le statistiche, potremmo concludere che la probabilità di ottenere testa è del 75 percento, dove la reale probabilità di ottenere testa in un lancio di una moneta è 1:1, o una possibilità di 50-50. Se invece facessimo 40 lanci di monete, ci avvicineremmo sicuramente a un rapporto 1:1 tra testa e croce e l'uso delle statistiche rifletterebbe questo.
"Gran parte delle statistiche ha a che fare con il ragionamento da un campione - le effettive osservazioni - alle caratteristiche della popolazione - tutte le possibili osservazioni", afferma John Drake, professore di ricerca presso il Center for the Ecology of Infectious Diseases presso l'Università della Georgia, in una e-mail. "Ad esempio, potremmo essere interessati all'altezza delle querce. Non possiamo misurare tutte le querce del mondo, ma possiamo misurarne alcune. Possiamo calcolare l'altezza media delle querce nel campione, ma questo non funzionerà t necessariamente essere uguale alla media di tutte le querce."
Intervalli di confidenza
Poiché non possiamo misurare tutte le querce del mondo, gli statistici escogitano un intervallo stimato di altezze basato sulla probabilità e su tutti i dati a loro disposizione. Questo intervallo è chiamato intervallo di confidenza ed è costituito da due numeri: uno che è probabilmente più piccolo del valore reale e uno che è probabilmente più grande. Il vero valore è probabilmente una via di mezzo.
"Un 'intervallo di confidenza al 95 percento' significa che 95 volte su 100 che l'intervallo di confidenza è costruito in questo modo, l'intervallo includerà il valore vero", afferma Drake. "Se misurassimo campioni di querce 100 volte, l'intervallo di confidenza basato sui dati raccolti in 95 di quegli esperimenti includerebbe la media della popolazione o l'altezza media di tutte le querce. Pertanto, un intervallo di confidenza è una misura della precisione di una stima. La stima diventa sempre più precisa man mano che si raccolgono più dati. Questo è il motivo per cui gli intervalli di confidenza si riducono man mano che diventano disponibili più dati".
Quindi, un intervallo di confidenza aiuta a mostrare quanto sia buona o cattiva la stima. Quando lanciamo una moneta solo quattro volte, la nostra stima del 75 percento ha un ampio intervallo di confidenza perché la dimensione del nostro campione è molto piccola. La nostra stima con 40 lanci di monete avrebbe un intervallo di confidenza molto più ristretto.
Il vero significato di un intervallo di confidenza ha a che fare con la ripetizione di un esperimento più e più volte. Nel caso dei quattro lanci di monete, un intervallo di confidenza del 95 percento significa che se abbiamo ripetuto l'esperimento di lancio di monete 100 volte, in 95 di queste, la nostra probabilità di ottenere testa rientrerà in quell'intervallo di confidenza.
I limiti della statistica
Ci sono limiti alle statistiche. Devi progettare un buon studio: le statistiche non possono dirti nulla che tu non abbia chiesto.
Supponiamo che tu stia studiando l'efficacia di un vaccino, ma non hai incluso i bambini nel tuo studio. Puoi trovare un intervallo di confidenza basato sui dati che hai raccolto, ma non ti dirà nulla su quanto bene il vaccino protegga i bambini.
"Oltre ad avere dati sufficienti, il campione deve anche essere rappresentativo", afferma Drake. "Di solito, questo significa avere un campione casuale o un campione casuale stratificato. Supponendo che i 1.000 partecipanti al tuo ipotetico studio sul vaccino siano rappresentativi della popolazione, è ragionevole concludere che la vera efficacia del vaccino rientra nell'intervallo di confidenza riportato. Se il campione non è rappresentativo, se non include i bambini, non esiste una base statistica per trarre conclusioni sulla parte non rappresentata della popolazione".
Ora è interessante:
Florence Nightingale è stata una delle statistiche più importanti della storia, utilizzando la scienza che ha sperimentato per salvare la vita dei soldati durante la guerra di Crimea.