Statistiques - Kolmogorov Smirnov Test

Ce test est utilisé dans les situations où une comparaison doit être faite entre une distribution d'échantillon observée et une distribution théorique.

Test d'échantillon KS One

Ce test est utilisé comme un test de qualité de l'ajustement et est idéal lorsque la taille de l'échantillon est petite. Il compare la fonction de distribution cumulative pour une variable avec une distribution spécifiée. L'hypothèse nulle ne suppose aucune différence entre la distribution observée et théorique et la valeur de la statistique de test `` D '' est calculée comme suit:

Formule

$D = Maximum |F_o(X)-F_r(X)|$

Où -

  • ${F_o(X)}$ = Distribution de fréquence cumulative observée d'un échantillon aléatoire de n observations.

  • et ${F_o(X) = \frac{k}{n}}$ = (Nombre d'observations ≤ X) / (Nombre total d'observations).

  • ${F_r(X)}$ = La distribution de fréquence théorique.

La valeur critique de ${D}$ est trouvé à partir des valeurs de la table KS pour un échantillon de test.

Acceptance Criteria: Si la valeur calculée est inférieure à la valeur critique, acceptez l'hypothèse nulle.

Rejection Criteria: Si la valeur calculée est supérieure à la valeur de la table, rejetez l'hypothèse nulle.

Exemple

Problem Statement:

Dans une étude réalisée à partir de différents flux d'un collège, 60 étudiants, avec un nombre égal d'étudiants issus de chaque flux, nous sommes interviewés et leur intention de rejoindre le Drama Club of college a été notée.

  B.Sc. BA B.Com MA M.Com
Non dans chaque classe 5 9 11 16 19

Il était prévu que 12 étudiants de chaque classe rejoignent le Drama Club. Utiliser le test KS pour trouver s'il y a une différence entre les classes d'étudiants en ce qui concerne leur intention de rejoindre le Drama Club.

Solution:

${H_o}$: Il n'y a aucune différence entre les étudiants de différents filières quant à leur intention de rejoindre le club de théâtre.

Nous développons les fréquences cumulées pour les distributions observées et théoriques.

Ruisseaux Nombre d'étudiants intéressés à rejoindre ${F_O(X)}$ ${F_T(X)}$ ${|F_O(X)-F_T(X)|}$
  Observé
(O)
Théorique
(T)
     
B.Sc. 5 12 5/60 12/60 7/60
BA 9 12 14/60 24/60 10/60
B.COM. 11 12 25/60 36/60 11/60
MA 16 12 41/60 48/60 7/60
M.COM. 19 12 60/40 60/60 60/60
Total n = 60        

Statistique de test ${|D|}$ est calculé comme suit:

$D = Maximum {|F_0 (X)-F_T (X)|} \\[7pt] \, = \frac{11}{60} \\[7pt] \, = 0.183$

La valeur de table de D au niveau de signification de 5% est donnée par

${D_0.05 = \frac{1.36}{\sqrt{n}}} \\[7pt] \, = \frac{1.36}{\sqrt{60}} \\[7pt] \, = 0.175$

Puisque la valeur calculée est supérieure à la valeur critique, nous rejetons donc l'hypothèse nulle et concluons qu'il existe une différence entre les étudiants de différents courants dans leur intention de rejoindre le Club.

Test à deux échantillons KS

Lorsqu'au lieu d'un, il y a deux échantillons indépendants, le test à deux échantillons KS peut être utilisé pour tester l'accord entre deux distributions cumulatives. L'hypothèse nulle stipule qu'il n'y a pas de différence entre les deux distributions. La statistique D est calculée de la même manière que le test KS One Sample.

Formule

${D = Maximum |{F_n}_1(X)-{F_n}_2(X)|}$

Où -

  • ${n_1}$ = Observations du premier échantillon.

  • ${n_2}$ = Observations du deuxième échantillon.

On a vu que lorsque les distributions cumulées montrent un grand écart maximal ${|D|}$ il indique une différence entre les deux distributions d'échantillons.

La valeur critique de D pour les échantillons où ${n_1 = n_2}$et est ≤ 40, la table KS pour deux cas d'échantillon est utilisée. Quand${n_1}$ et / ou ${n_2}$> 40, alors le tableau KS pour les grands échantillons de deux échantillons de test doit être utilisé. L'hypothèse nulle est acceptée si la valeur calculée est inférieure à la valeur de la table et vice-versa.

Ainsi, l'utilisation de n'importe lequel de ces tests non paramétriques aide un chercheur à tester la signification de ses résultats lorsque les caractéristiques de la population cible sont inconnues ou qu'aucune hypothèse n'a été faite à leur sujet.