Les statistiques sont un peu un mélange entre les mathématiques et les probabilités. Le but des statistiques est de décrire les processus que vous pouvez observer dans le monde – la hauteur des chênes ou la probabilité qu'un vaccin fonctionne pour repousser la maladie – sans avoir à mesurer chaque chêne du monde ou à vacciner chaque personne avant de décider comment efficace est un médicament.
Parce que la probabilité décrit des choses qui impliquent le hasard, nous devons accepter que quel que soit le processus que nous utilisons pour mesurer les statistiques, nous n'obtiendrons jamais une image complète.
Pourquoi utiliser les statistiques ?
Supposons que vous lancez une pièce quatre fois. Vous obtenez trois têtes et une queue. Sans utiliser de statistiques, nous pourrions conclure que la probabilité d'obtenir face est de 75 %, alors que la probabilité réelle d'obtenir face dans un tirage au sort est de 1:1, soit une chance de 50-50. Si nous faisions 40 lancers de pièces à la place, nous nous rapprocherions certainement beaucoup plus d'un ratio de 1: 1 de face à face, et l'utilisation de statistiques refléterait cela.
"Une grande partie des statistiques a à voir avec le raisonnement à partir d'un échantillon - les observations réelles - aux caractéristiques de la population - toutes les observations possibles", explique John Drake, professeur de recherche au Center for the Ecology of Infectious Diseases de l'Université de Géorgie, dans un e-mail. "Par exemple, nous pourrions être intéressés par la hauteur des chênes. Nous ne pouvons pas mesurer tous les chênes du monde, mais nous pouvons en mesurer certains. Nous pouvons calculer la hauteur moyenne des chênes de l'échantillon, mais cela t nécessairement être le même que la moyenne de tous les chênes."
Intervalles de confiance
Parce que nous ne pouvons pas mesurer tous les chênes du monde, les statisticiens proposent une fourchette estimée de hauteurs basée sur la probabilité et toutes les données à leur disposition. Cette plage s'appelle un intervalle de confiance et se compose de deux nombres : un qui est probablement plus petit que la valeur réelle et un qui est probablement plus grand. La vraie valeur se situe probablement quelque part entre les deux.
"Un 'intervalle de confiance à 95 %' signifie que 95 fois sur 100 l'intervalle de confiance est construit de cette façon, l'intervalle inclura la vraie valeur", explique Drake. "Si nous mesurions des échantillons de chênes 100 fois, l'intervalle de confiance basé sur les données recueillies dans 95 de ces expériences inclurait la moyenne de la population, ou la hauteur moyenne de tous les chênes. Ainsi, un intervalle de confiance est une mesure de la précision d'une estimation. L'estimation devient de plus en plus précise à mesure que vous collectez plus de données. C'est pourquoi les intervalles de confiance deviennent plus petits à mesure que davantage de données deviennent disponibles.
Ainsi, un intervalle de confiance permet de montrer à quel point l'estimation est bonne ou mauvaise. Lorsque nous lançons une pièce seulement quatre fois, notre estimation de 75 % a un large intervalle de confiance car la taille de notre échantillon est très petite. Notre estimation avec 40 lancers de pièces aurait un intervalle de confiance beaucoup plus étroit.
La signification réelle d'un intervalle de confiance a à voir avec la répétition d'une expérience encore et encore. Dans le cas des quatre lancers de pièces, un intervalle de confiance de 95 % signifie que si nous répétons l'expérience de lancer de pièces 100 fois, dans 95 d'entre eux, notre probabilité d'obtenir face tombera dans cet intervalle de confiance.
Les limites des statistiques
Il y a des limites aux statistiques. Vous devez concevoir une bonne étude - les statistiques ne peuvent rien vous dire que vous n'ayez pas demandé.
Disons que vous étudiez l'efficacité d'un vaccin, mais que vous n'avez pas inclus d'enfants dans votre étude. Vous pouvez établir un intervalle de confiance basé sur les données que vous avez recueillies, mais cela ne vous dira rien sur la façon dont le vaccin protège les enfants.
"En plus d'avoir suffisamment de données, l'échantillon doit également être représentatif", explique Drake. "Habituellement, cela signifie avoir un échantillon aléatoire ou un échantillon aléatoire stratifié. En supposant que les 1 000 participants à votre essai de vaccin hypothétique sont représentatifs de la population, il est raisonnable de conclure que la véritable efficacité du vaccin se situe dans l'intervalle de confiance rapporté. Si l'échantillon n'est pas représentatif - s'il n'inclut pas d'enfants - alors il n'y a pas de base statistique pour tirer des conclusions sur la partie non représentée de la population."
Maintenant c'est intéressant :
Florence Nightingale était l'une des statisticiennes les plus importantes de l'histoire, utilisant la science dont elle était la pionnière pour sauver la vie de soldats pendant la guerre de Crimée.