Estatísticas - Teste Kolmogorov Smirnov
Este teste é usado em situações onde uma comparação deve ser feita entre uma distribuição de amostra observada e uma distribuição teórica.
Teste KS One Sample
Este teste é usado como um teste de adequação e é ideal quando o tamanho da amostra é pequeno. Ele compara a função de distribuição cumulativa de uma variável com uma distribuição especificada. A hipótese nula assume que não há diferença entre a distribuição observada e teórica e o valor da estatística de teste 'D' é calculado como:
Fórmula
$D = Maximum |F_o(X)-F_r(X)|$
Onde -
${F_o(X)}$ = Distribuição de frequência cumulativa observada de uma amostra aleatória de n observações.
e ${F_o(X) = \frac{k}{n}}$ = (Nº de observações ≤ X) / (Nº total de observações).
${F_r(X)}$ = A distribuição de frequência teórica.
O valor crítico de ${D}$ é encontrado nos valores da tabela KS para um teste de amostra.
Acceptance Criteria: Se o valor calculado for menor que o valor crítico, aceite a hipótese nula.
Rejection Criteria: Se o valor calculado for maior que o valor da tabela, rejeite a hipótese nula.
Exemplo
Problem Statement:
Em um estudo feito com várias correntes de uma faculdade, 60 alunos, com igual número de alunos sorteados em cada corrente, foram entrevistados e sua intenção de ingressar no Clube de Drama da faculdade foi observada.
B.Sc. | BA | B.Com | MA | M.Com | |
---|---|---|---|---|---|
No. em cada classe | 5 | 9 | 11 | 16 | 19 |
Esperava-se que 12 alunos de cada turma ingressassem no Clube de Drama. Usar o teste KS para descobrir se há alguma diferença entre as classes de alunos no que diz respeito à intenção de ingressar no Clube de Teatro.
Solution:
${H_o}$: Não há diferença entre alunos de diferentes áreas no que diz respeito à intenção de ingressar no clube de teatro.
Desenvolvemos as frequências cumulativas para distribuições observadas e teóricas.
Streams | Nº de alunos interessados em ingressar | ${F_O(X)}$ | ${F_T(X)}$ | ${|F_O(X)-F_T(X)|}$ | |
---|---|---|---|---|---|
Observado (O) |
Teórico (T) |
||||
B.Sc. | 5 | 12 | 5/60 | 12/60 | 7/60 |
BA | 9 | 12 | 14/60 | 24/60 | 10/60 |
B.COM. | 11 | 12 | 25/60 | 36/60 | 11/60 |
MA | 16 | 12 | 41/60 | 48/60 | 7/60 |
M.COM. | 19 | 12 | 60/40 | 60/60 | 60/60 |
Total | n = 60 | ||||
Estatística de teste ${|D|}$ é calculado como:
O valor da tabela de D ao nível de significância de 5% é dado por
Como o valor calculado é maior que o valor crítico, rejeitamos a hipótese nula e concluímos que existe uma diferença entre os alunos de diferentes correntes na intenção de ingressar no Clube.
Teste KS Duas Amostras
Quando, em vez de uma, houver duas amostras independentes, o teste KS de duas amostras pode ser usado para testar a concordância entre duas distribuições cumulativas. A hipótese nula afirma que não há diferença entre as duas distribuições. A estatística D é calculada da mesma maneira que o Teste KS One Sample.
Fórmula
${D = Maximum |{F_n}_1(X)-{F_n}_2(X)|}$
Onde -
${n_1}$ = Observações da primeira amostra.
${n_2}$ = Observações da segunda amostra.
Foi visto que quando as distribuições cumulativas mostram um grande desvio máximo ${|D|}$ está indicando uma diferença entre as duas distribuições de amostra.
O valor crítico de D para amostras onde ${n_1 = n_2}$e é ≤ 40, a tabela KS para dois casos de amostra é usada. Quando${n_1}$ e / ou ${n_2}$> 40 então a tabela KS para grandes amostras de teste de duas amostras deve ser usada. A hipótese nula é aceita se o valor calculado for menor que o valor da tabela e vice-versa.
Assim, o uso de qualquer um desses testes não paramétricos ajuda o pesquisador a testar a significância de seus resultados quando as características da população-alvo são desconhecidas ou nenhuma suposição foi feita sobre elas.