ขนาดตัวอย่างสำหรับการทดสอบความเป็นอิสระไคสแควร์ของ Pearson
ฉันกำลังพยายามทำ $\chi^2$การทดสอบความเป็นอิสระระหว่างสองตัวแปร ปัญหาที่ฉันมีคือฉันกำลังดิ้นรนกับขนาดตัวอย่างสำหรับการทดสอบ ฉันมักจะลงเอยด้วยเซลล์บางเซลล์ที่มี 0 ตัวอย่างเสมอ
ฉันมีข้อมูลเกี่ยวกับประชากรทั้งหมด แต่ฉันไม่สามารถใช้เพื่อทดสอบสมมติฐานได้ดังนั้นฉันจึงลองใช้ขนาดต่างๆโดยมีและไม่มีการเปลี่ยน นอกจากนี้จำนวนประชากรยังค่อนข้างน้อย - เพียง 162
ด้วยขนาดตัวอย่างที่เล็กกว่าchisq()
ฟังก์ชันใน R ยังคงมีข้อความแสดงข้อผิดพลาดที่การประมาณอาจไม่ถูกต้อง
> chisq = chisq.test(tbl)
Warning message:
In chisq.test(tbl) : Chi-squared approximation may be incorrect
ตอนนี้ฉันได้เพิ่มขนาดตัวอย่างเป็น 100% ของประชากรที่มีการแทนที่ ข้อผิดพลาดหายไป แต่ฉันกังวลตั้งแต่:
ก) ฉันยังมี 0 ตัวอย่างในบางเซลล์ :
var2_high var2_low var2_medium var2_very_high
var1_high 12 0 10 3
var1_low 10 20 9 1
var1_medium 5 23 19 0
var1_very_high 9 0 0 41
และb) ฉันไม่แน่ใจว่าขนาดตัวอย่างนั้นเป็นที่ยอมรับได้หรือไม่
ใครสามารถช่วยฉันด้วยคำถามเหล่านี้
คำตอบ
คุณเห็นข้อความด้านบนเนื่องจากการประมาณไคกำลังสองไม่น่าเชื่อถือเมื่อขนาดตัวอย่างมีขนาดเล็ก ฉันขอแนะนำให้คุณใช้ข้อมูลต้นฉบับและทำการทดสอบที่แน่นอนของฟิชเชอร์ ตัวอย่างจะได้รับด้านล่างเมื่อปัญหานี้อาจเกิดขึ้นและเราจะจัดการกับปัญหานี้ได้อย่างไรโดยใช้การทดสอบดังกล่าวข้างต้น
สมมติว่าเรามีข้อมูลตัวอย่างด้านล่างนี้ เช่นกันการทดสอบที่แน่นอนฟิชเชอร์ที่ถูกสร้างขึ้นจากผู้หญิงชิมทดลองชา
Truth
Guess Milk Tea
Milk 3 1
Tea 1 3
เราต้องการทดสอบสมมติฐานที่ว่าตัวแปรทั้งสองเป็นอิสระ ใช้การทดสอบไคสแควร์เราได้รับคำเตือนด้านล่าง:
Code:
TeaTasting <- matrix(c(3, 1, 1, 3),
nrow = 2,
dimnames = list(Guess = c("Milk", "Tea"), Truth = c("Milk", "Tea")))
chiSqTest= chisq.test(TeaTasting)
Warning message:
In chisq.test(TeaTasting) : Chi-squared approximation may be incorrect
ไม่น่าแปลกใจเนื่องจากขนาดของกลุ่มตัวอย่างค่อนข้างเล็ก นอกจากนี้เราจะเห็นว่าจำนวนที่คาดไว้ทั้งหมดน้อยกว่า 5
chiSqTest$expected
Truth
Guess Milk Tea
Milk 2 2
Tea 2 2
ในกรณีนี้เราสามารถใช้การทดสอบที่แน่นอนของฟิชเชอร์เพื่อทดสอบสมมติฐานของเรา
fisher.test(TeaTasting)
เนื่องจากค่า p ของเรามีค่ามากกว่า 0.05 เราสามารถสรุปได้ว่าไม่มีหลักฐานทางสถิติที่บ่งชี้ว่าตัวแปรทั้งสองเป็นอิสระ
Fisher's Exact Test for Count Data
data: TeaTasting
p-value = 0.4857
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
0.2117329 621.9337505
sample estimates:
odds ratio
6.408309