Estatísticas - Teste Kolmogorov Smirnov

Este teste é usado em situações onde uma comparação deve ser feita entre uma distribuição de amostra observada e uma distribuição teórica.

Teste KS One Sample

Este teste é usado como um teste de adequação e é ideal quando o tamanho da amostra é pequeno. Ele compara a função de distribuição cumulativa de uma variável com uma distribuição especificada. A hipótese nula assume que não há diferença entre a distribuição observada e teórica e o valor da estatística de teste 'D' é calculado como:

Fórmula

$D = Maximum |F_o(X)-F_r(X)|$

Onde -

  • ${F_o(X)}$ = Distribuição de frequência cumulativa observada de uma amostra aleatória de n observações.

  • e ${F_o(X) = \frac{k}{n}}$ = (Nº de observações ≤ X) / (Nº total de observações).

  • ${F_r(X)}$ = A distribuição de frequência teórica.

O valor crítico de ${D}$ é encontrado nos valores da tabela KS para um teste de amostra.

Acceptance Criteria: Se o valor calculado for menor que o valor crítico, aceite a hipótese nula.

Rejection Criteria: Se o valor calculado for maior que o valor da tabela, rejeite a hipótese nula.

Exemplo

Problem Statement:

Em um estudo feito com várias correntes de uma faculdade, 60 alunos, com igual número de alunos sorteados em cada corrente, foram entrevistados e sua intenção de ingressar no Clube de Drama da faculdade foi observada.

  B.Sc. BA B.Com MA M.Com
No. em cada classe 5 9 11 16 19

Esperava-se que 12 alunos de cada turma ingressassem no Clube de Drama. Usar o teste KS para descobrir se há alguma diferença entre as classes de alunos no que diz respeito à intenção de ingressar no Clube de Teatro.

Solution:

${H_o}$: Não há diferença entre alunos de diferentes áreas no que diz respeito à intenção de ingressar no clube de teatro.

Desenvolvemos as frequências cumulativas para distribuições observadas e teóricas.

Streams Nº de alunos interessados ​​em ingressar ${F_O(X)}$ ${F_T(X)}$ ${|F_O(X)-F_T(X)|}$
  Observado
(O)
Teórico
(T)
     
B.Sc. 5 12 5/60 12/60 7/60
BA 9 12 14/60 24/60 10/60
B.COM. 11 12 25/60 36/60 11/60
MA 16 12 41/60 48/60 7/60
M.COM. 19 12 60/40 60/60 60/60
Total n = 60        

Estatística de teste ${|D|}$ é calculado como:

$D = Maximum {|F_0 (X)-F_T (X)|} \\[7pt] \, = \frac{11}{60} \\[7pt] \, = 0.183$

O valor da tabela de D ao nível de significância de 5% é dado por

${D_0.05 = \frac{1.36}{\sqrt{n}}} \\[7pt] \, = \frac{1.36}{\sqrt{60}} \\[7pt] \, = 0.175$

Como o valor calculado é maior que o valor crítico, rejeitamos a hipótese nula e concluímos que existe uma diferença entre os alunos de diferentes correntes na intenção de ingressar no Clube.

Teste KS Duas Amostras

Quando, em vez de uma, houver duas amostras independentes, o teste KS de duas amostras pode ser usado para testar a concordância entre duas distribuições cumulativas. A hipótese nula afirma que não há diferença entre as duas distribuições. A estatística D é calculada da mesma maneira que o Teste KS One Sample.

Fórmula

${D = Maximum |{F_n}_1(X)-{F_n}_2(X)|}$

Onde -

  • ${n_1}$ = Observações da primeira amostra.

  • ${n_2}$ = Observações da segunda amostra.

Foi visto que quando as distribuições cumulativas mostram um grande desvio máximo ${|D|}$ está indicando uma diferença entre as duas distribuições de amostra.

O valor crítico de D para amostras onde ${n_1 = n_2}$e é ≤ 40, a tabela KS para dois casos de amostra é usada. Quando${n_1}$ e / ou ${n_2}$> 40 então a tabela KS para grandes amostras de teste de duas amostras deve ser usada. A hipótese nula é aceita se o valor calculado for menor que o valor da tabela e vice-versa.

Assim, o uso de qualquer um desses testes não paramétricos ajuda o pesquisador a testar a significância de seus resultados quando as características da população-alvo são desconhecidas ou nenhuma suposição foi feita sobre elas.