Estatísticas - Teste Kolmogorov Smirnov

Este teste é usado em situações onde uma comparação deve ser feita entre uma distribuição de amostra observada e uma distribuição teórica.

Teste KS One Sample

Este teste é usado como um teste de adequação e é ideal quando o tamanho da amostra é pequeno. Ele compara a função de distribuição cumulativa de uma variável com uma distribuição especificada. A hipótese nula assume que não há diferença entre a distribuição observada e teórica e o valor da estatística de teste 'D' é calculado como:

Fórmula

$D = Maximum |F_o(X)-F_r(X)|$

Onde -

${F_o(X)}$ = Distribuição de frequência cumulativa observada de uma amostra aleatória de n observações.
e ${F_o(X) = \frac{k}{n}}$ = (Nº de observações ≤ X) / (Nº total de observações).
${F_r(X)}$ = A distribuição de frequência teórica.

O valor crítico de ${D}$ é encontrado nos valores da tabela KS para um teste de amostra.

Acceptance Criteria: Se o valor calculado for menor que o valor crítico, aceite a hipótese nula.

Rejection Criteria: Se o valor calculado for maior que o valor da tabela, rejeite a hipótese nula.

Exemplo

Problem Statement:

Em um estudo feito com várias correntes de uma faculdade, 60 alunos, com igual número de alunos sorteados em cada corrente, foram entrevistados e sua intenção de ingressar no Clube de Drama da faculdade foi observada.

	B.Sc.	BA	B.Com	MA	M.Com
No. em cada classe	5	9	11	16	19

Esperava-se que 12 alunos de cada turma ingressassem no Clube de Drama. Usar o teste KS para descobrir se há alguma diferença entre as classes de alunos no que diz respeito à intenção de ingressar no Clube de Teatro.

Solution:

${H_o}$: Não há diferença entre alunos de diferentes áreas no que diz respeito à intenção de ingressar no clube de teatro.

Desenvolvemos as frequências cumulativas para distribuições observadas e teóricas.

Streams	Nº de alunos interessados em ingressar		${F_O(X)}$	${F_T(X)}$	${\|F_O(X)-F_T(X)\|}$
	Observado (O)	Teórico (T)
B.Sc.	5	12	5/60	12/60	7/60
BA	9	12	14/60	24/60	10/60
B.COM.	11	12	25/60	36/60	11/60
MA	16	12	41/60	48/60	7/60
M.COM.	19	12	60/40	60/60	60/60
Total	n = 60

Estatística de teste ${|D|}$ é calculado como:

$D = Maximum {|F_0 (X)-F_T (X)|} \\[7pt] \, = \frac{11}{60} \\[7pt] \, = 0.183$

O valor da tabela de D ao nível de significância de 5% é dado por

${D_0.05 = \frac{1.36}{\sqrt{n}}} \\[7pt] \, = \frac{1.36}{\sqrt{60}} \\[7pt] \, = 0.175$

Como o valor calculado é maior que o valor crítico, rejeitamos a hipótese nula e concluímos que existe uma diferença entre os alunos de diferentes correntes na intenção de ingressar no Clube.

Teste KS Duas Amostras

Quando, em vez de uma, houver duas amostras independentes, o teste KS de duas amostras pode ser usado para testar a concordância entre duas distribuições cumulativas. A hipótese nula afirma que não há diferença entre as duas distribuições. A estatística D é calculada da mesma maneira que o Teste KS One Sample.

Fórmula

${D = Maximum |{F_n}_1(X)-{F_n}_2(X)|}$

Onde -

${n_1}$ = Observações da primeira amostra.
${n_2}$ = Observações da segunda amostra.

Foi visto que quando as distribuições cumulativas mostram um grande desvio máximo ${|D|}$ está indicando uma diferença entre as duas distribuições de amostra.

O valor crítico de D para amostras onde ${n_1 = n_2}$e é ≤ 40, a tabela KS para dois casos de amostra é usada. Quando${n_1}$ e / ou ${n_2}$> 40 então a tabela KS para grandes amostras de teste de duas amostras deve ser usada. A hipótese nula é aceita se o valor calculado for menor que o valor da tabela e vice-versa.

Assim, o uso de qualquer um desses testes não paramétricos ajuda o pesquisador a testar a significância de seus resultados quando as características da população-alvo são desconhecidas ou nenhuma suposição foi feita sobre elas.