SciPy - Statistiques

Toutes les fonctions statistiques se trouvent dans le sous-package scipy.stats et une liste assez complète de ces fonctions peut être obtenue en utilisant info(stats)fonction. Une liste des variables aléatoires disponibles peut également être obtenue à partir dudocstringpour le sous-package stats. Ce module contient un grand nombre de distributions de probabilités ainsi qu'une bibliothèque croissante de fonctions statistiques.

Chaque distribution univariée a sa propre sous-classe comme décrit dans le tableau suivant -

Sr. No. Classe et description
1

rv_continuous

Une classe générique de variable aléatoire continue destinée au sous-classement

2

rv_discrete

Une classe de variable aléatoire discrète générique destinée au sous-classement

3

rv_histogram

Génère une distribution donnée par un histogramme

Variable aléatoire continue normale

Une distribution de probabilité dans laquelle la variable aléatoire X peut prendre n'importe quelle valeur est une variable aléatoire continue. Le mot-clé location (loc) spécifie la moyenne. Le mot clé scale (scale) spécifie l'écart type.

En tant qu'instance du rv_continuous classe, norm object en hérite une collection de méthodes génériques et les complète avec des détails spécifiques à cette distribution particulière.

Pour calculer le CDF en un certain nombre de points, nous pouvons passer une liste ou un tableau NumPy. Prenons l'exemple suivant.

from scipy.stats import norm
import numpy as np
print norm.cdf(np.array([1,-1., 0, 1, 3, 4, -2, 6]))

Le programme ci-dessus générera la sortie suivante.

array([ 0.84134475, 0.15865525, 0.5 , 0.84134475, 0.9986501 ,
0.99996833, 0.02275013, 1. ])

Pour trouver la médiane d'une distribution, nous pouvons utiliser la fonction de point de pourcentage (PPF), qui est l'inverse de la CDF. Laissez-nous comprendre en utilisant l'exemple suivant.

from scipy.stats import norm
print norm.ppf(0.5)

Le programme ci-dessus générera la sortie suivante.

0.0

Pour générer une séquence de variables aléatoires, nous devons utiliser l'argument de mot-clé size, qui est illustré dans l'exemple suivant.

from scipy.stats import norm
print norm.rvs(size = 5)

Le programme ci-dessus générera la sortie suivante.

array([ 0.20929928, -1.91049255, 0.41264672, -0.7135557 , -0.03833048])

La sortie ci-dessus n'est pas reproductible. Pour générer les mêmes nombres aléatoires, utilisez la fonction de départ.

Distribution uniforme

Une distribution uniforme peut être générée en utilisant la fonction uniforme. Prenons l'exemple suivant.

from scipy.stats import uniform
print uniform.cdf([0, 1, 2, 3, 4, 5], loc = 1, scale = 4)

Le programme ci-dessus générera la sortie suivante.

array([ 0. , 0. , 0.25, 0.5 , 0.75, 1. ])

Créer une distribution discrète

Générons un échantillon aléatoire et comparons les fréquences observées aux probabilités.

Distribution binomiale

En tant qu'instance du rv_discrete class, la binom objecten hérite une collection de méthodes génériques et les complète avec des détails spécifiques à cette distribution particulière. Prenons l'exemple suivant.

from scipy.stats import uniform
print uniform.cdf([0, 1, 2, 3, 4, 5], loc = 1, scale = 4)

Le programme ci-dessus générera la sortie suivante.

array([ 0. , 0. , 0.25, 0.5 , 0.75, 1. ])

Statistiques descriptives

Les statistiques de base telles que Min, Max, Moyenne et Variance prennent le tableau NumPy comme entrée et retournent les résultats respectifs. Quelques fonctions statistiques de base disponibles dans lescipy.stats package sont décrits dans le tableau suivant.

Sr. No. Description de la fonction
1

describe()

Calcule plusieurs statistiques descriptives du tableau passé

2

gmean()

Calcule la moyenne géométrique le long de l'axe spécifié

3

hmean()

Calcule la moyenne harmonique le long de l'axe spécifié

4

kurtosis()

Calcule le kurtosis

5

mode()

Renvoie la valeur modale

6

skew()

Teste l'asymétrie des données

sept

f_oneway()

Effectue une ANOVA unidirectionnelle

8

iqr()

Calcule l'intervalle interquartile des données le long de l'axe spécifié

9

zscore()

Calcule le score z de chaque valeur de l'échantillon, par rapport à la moyenne de l'échantillon et à l'écart type

dix

sem()

Calcule l'erreur standard de la moyenne (ou erreur standard de mesure) des valeurs dans le tableau d'entrée

Plusieurs de ces fonctions ont une version similaire dans le scipy.stats.mstats, qui fonctionnent pour les tableaux masqués. Comprenons cela avec l'exemple ci-dessous.

from scipy import stats
import numpy as np
x = np.array([1,2,3,4,5,6,7,8,9])
print x.max(),x.min(),x.mean(),x.var()

Le programme ci-dessus générera la sortie suivante.

(9, 1, 5.0, 6.666666666666667)

Test T

Voyons comment le test T est utile dans SciPy.

ttest_1samp

Calcule le test T pour la moyenne d'UN groupe de scores. Il s'agit d'un test bilatéral pour l'hypothèse nulle selon laquelle la valeur attendue (moyenne) d'un échantillon d'observations indépendantes `` a '' est égale à la moyenne de la population donnée,popmean. Prenons l'exemple suivant.

from scipy import stats
rvs = stats.norm.rvs(loc = 5, scale = 10, size = (50,2))
print stats.ttest_1samp(rvs,5.0)

Le programme ci-dessus générera la sortie suivante.

Ttest_1sampResult(statistic = array([-1.40184894, 2.70158009]),
pvalue = array([ 0.16726344, 0.00945234]))

Comparaison de deux échantillons

Dans les exemples suivants, il y a deux échantillons, qui peuvent provenir de la même distribution ou d'une distribution différente, et nous voulons tester si ces échantillons ont les mêmes propriétés statistiques.

ttest_ind- Calcule le test T pour les moyennes de deux échantillons indépendants de scores. Il s'agit d'un test bilatéral pour l'hypothèse nulle selon laquelle deux échantillons indépendants ont des valeurs moyennes (attendues) identiques. Ce test suppose que les populations ont des variances identiques par défaut.

Nous pouvons utiliser ce test si nous observons deux échantillons indépendants d'une population identique ou différente. Prenons l'exemple suivant.

from scipy import stats
rvs1 = stats.norm.rvs(loc = 5,scale = 10,size = 500)
rvs2 = stats.norm.rvs(loc = 5,scale = 10,size = 500)
print stats.ttest_ind(rvs1,rvs2)

Le programme ci-dessus générera la sortie suivante.

Ttest_indResult(statistic = -0.67406312233650278, pvalue = 0.50042727502272966)

Vous pouvez tester la même chose avec un nouveau tableau de même longueur, mais avec une moyenne variée. Utilisez une valeur différente dansloc et testez le même.