Thống kê - Kolmogorov Smirnov Test

Phép thử này được sử dụng trong các tình huống phải so sánh giữa phân bố mẫu quan sát và phân bố lý thuyết.

Kiểm tra một mẫu KS

Phép thử này được sử dụng như một phép thử về độ vừa vặn và lý tưởng khi kích thước của mẫu nhỏ. Nó so sánh hàm phân phối tích lũy cho một biến có phân phối được chỉ định. Giả thuyết rỗng giả định không có sự khác biệt giữa phân phối quan sát và lý thuyết và giá trị của thống kê thử nghiệm 'D' được tính như sau:

Công thức

$D = Maximum |F_o(X)-F_r(X)|$

Ở đâu -

${F_o(X)}$ = Phân phối tần số tích lũy quan sát được của một mẫu ngẫu nhiên gồm n quan sát.
và ${F_o(X) = \frac{k}{n}}$ = (Số lần quan sát ≤ X) / (Tổng số lần quan sát).
${F_r(X)}$ = Sự phân bố tần số lý thuyết.

Giá trị quan trọng của ${D}$ được tìm thấy từ các giá trị bảng KS cho một thử nghiệm mẫu.

Acceptance Criteria: Nếu giá trị được tính toán nhỏ hơn giá trị tới hạn thì chấp nhận giả thuyết rỗng.

Rejection Criteria: Nếu giá trị được tính toán lớn hơn giá trị bảng thì bác bỏ giả thuyết rỗng.

Thí dụ

Problem Statement:

Trong một nghiên cứu được thực hiện từ các luồng khác nhau của 60 sinh viên đại học, với số lượng sinh viên bằng nhau được rút ra từ mỗi luồng, chúng tôi đã phỏng vấn và ý định tham gia Câu lạc bộ Kịch của trường đại học của họ đã được ghi nhận.

	B.Sc.	ba	B.Com	MA	M.Com
Số trong mỗi lớp	5	9	11	16	19

Dự kiến sẽ có 12 học sinh từ mỗi lớp tham gia Câu lạc bộ kịch. Sử dụng bài kiểm tra KS để tìm xem có sự khác biệt nào giữa các lớp học sinh về ý định tham gia Câu lạc bộ kịch hay không.

Solution:

${H_o}$: Không có sự khác biệt giữa các sinh viên thuộc các luồng khác nhau về ý định tham gia câu lạc bộ kịch.

Chúng tôi phát triển các tần số tích lũy cho các phân phối quan sát và lý thuyết.

Dòng	Số sinh viên muốn tham gia		${F_O(X)}$	${F_T(X)}$	${\|F_O(X)-F_T(X)\|}$
	Đã quan sát (O)	Lý thuyết (T)
B.Sc.	5	12	5/60	12/60	7/60
ba	9	12	14/60	24/60	10/60
B.COM.	11	12	25/60	36/60	11/60
MA	16	12	41/60	48/60	7/60
M.COM.	19	12	60/40	60/60	60/60
Toàn bộ	n = 60

Thử nghiệm thống kê ${|D|}$ được tính là:

$D = Maximum {|F_0 (X)-F_T (X)|} \\[7pt] \, = \frac{11}{60} \\[7pt] \, = 0.183$

Bảng giá trị của D với mức ý nghĩa 5% được cho bởi

${D_0.05 = \frac{1.36}{\sqrt{n}}} \\[7pt] \, = \frac{1.36}{\sqrt{60}} \\[7pt] \, = 0.175$

Vì giá trị tính toán lớn hơn giá trị tới hạn nên chúng tôi bác bỏ giả thuyết vô hiệu và kết luận rằng có sự khác biệt giữa các sinh viên thuộc các luồng khác nhau về ý định tham gia Câu lạc bộ.

KS hai mẫu thử nghiệm

Khi thay vì một, có hai mẫu độc lập thì KS hai mẫu thử có thể được sử dụng để kiểm tra sự thống nhất giữa hai phân phối tích lũy. Giả thuyết rỗng nói rằng không có sự khác biệt giữa hai phân phối. Thống kê D được tính theo cách tương tự như Kiểm tra một mẫu KS.

Công thức

${D = Maximum |{F_n}_1(X)-{F_n}_2(X)|}$

Ở đâu -

${n_1}$ = Quan sát từ mẫu đầu tiên.
${n_2}$ = Các quan sát từ mẫu thứ hai.

Người ta đã thấy rằng khi các phân phối tích lũy cho thấy độ lệch lớn nhất lớn ${|D|}$ nó chỉ ra sự khác biệt giữa hai phân phối mẫu.

Giá trị tới hạn của D đối với các mẫu trong đó ${n_1 = n_2}$và ≤ 40, bảng KS cho hai trường hợp mẫu được sử dụng. Khi nào${n_1}$ và / hoặc ${n_2}$> 40 thì nên sử dụng bảng KS cho các mẫu lớn của hai mẫu thử. Giả thuyết rỗng được chấp nhận nếu giá trị tính toán nhỏ hơn giá trị bảng và ngược lại.

Do đó, việc sử dụng bất kỳ phép thử phi tham số nào này sẽ giúp nhà nghiên cứu kiểm tra tầm quan trọng của kết quả của mình khi các đặc điểm của dân số mục tiêu chưa được biết hoặc không có giả định nào về chúng.