เหตุใดการทดสอบที่แน่นอนจึงเป็นที่ต้องการมากกว่าไคสแควร์สำหรับตัวอย่างขนาดเล็ก

Aug 18 2020

ฉันทราบดีว่าการทดสอบเช่นการทดสอบที่แน่นอนของฟิชเชอร์บางครั้งมักจะดีกว่าการใช้ไคสแควร์หากค่าที่คาดหวังของคุณอยู่ในระดับต่ำในตารางสถานการณ์ฉุกเฉินเมื่อต้องการทดสอบความเป็นเนื้อเดียวกันของกลุ่ม (ในอดีตมีคนแนะนำ 5 แม้ว่าบางคนจะคิดว่านี่เป็นแบบอนุรักษ์นิยม) .

อย่างไรก็ตามฉันไม่สามารถหาคำอธิบายได้ว่าเหตุใดไคสแควร์จึงทำงานได้ไม่ดีกับตัวอย่างขนาดเล็ก ฉันจึงมีคำถาม 2 ข้อ:

  1. อะไรทำให้ค่าที่คาดหวังในตารางฉุกเฉินมีขนาดเล็กลงเมื่อขนาดตัวอย่างลดลง (ฉันสมมติว่าที่นี่ค่าที่คาดหวังเล็กน้อยเป็นผลมาจากขนาดตัวอย่างที่เล็ก)
  2. เหตุใดจึงไม่ควรใช้การทดสอบไคสแควร์สำหรับกลุ่มตัวอย่างขนาดเล็ก ฉันเคยเห็นคนบอกว่ามันไม่ได้ประมาณค่าการแจกแจงแบบไคสแควร์ตามทฤษฎีอย่างเพียงพอ แต่มีคนอธิบายได้ไหมว่าทำไม / มันไม่ได้?

คำตอบ

12 Ben Aug 18 2020 at 07:24

ในการทดสอบสมมติฐานแบบคลาสสิกคุณมีสถิติการทดสอบที่สั่งให้หลักฐานจากสิ่งที่เอื้อต่อสมมติฐานว่างมากที่สุดไปสู่สิ่งที่เอื้อต่อสมมติฐานทางเลือกมากที่สุด (หากไม่มีการสูญเสียลักษณะทั่วไปสมมติว่าค่าที่สูงกว่าของสถิตินี้จะเอื้อต่อสมมติฐานทางเลือกมากกว่า) ค่าpของการทดสอบคือความน่าจะเป็นของการสังเกตหลักฐานอย่างน้อยที่สุดซึ่งเอื้อต่อสมมติฐานทางเลือกตามที่คุณสังเกตเห็นได้จริง ( สถิติการทดสอบอย่างน้อยมีขนาดใหญ่เท่ากับค่าที่สังเกตได้) ภายใต้สมมติฐานที่ว่าสมมติฐานว่างเป็นจริง สิ่งนี้คำนวณจากการแจกแจงค่าว่างของสถิติทดสอบซึ่งเป็นการแจกแจงภายใต้สมมติฐานที่ว่าสมมติฐานว่างเป็นจริง

ตอนนี้ "การทดสอบที่แน่นอน" คือการทดสอบที่คำนวณค่า p ให้ตรง - กล่าวคือคำนวณจากการแจกแจงค่าว่างที่แท้จริงของสถิติทดสอบ ในการทดสอบทางสถิติหลายครั้งการแจกแจงค่าว่างที่แท้จริงมีความซับซ้อน แต่สามารถประมาณได้ด้วยการแจกแจงอื่นและจะรวมเข้ากับการแจกแจงโดยประมาณเป็น$n \rightarrow \infty$. โดยเฉพาะอย่างยิ่งสิ่งที่เรียกว่า "การทดสอบไคสแควร์" คือการทดสอบสมมติฐานที่การแจกแจงค่าว่างที่แท้จริงมาบรรจบกันเป็นการแจกแจงแบบไคสแควร์

ดังนั้นใน "การทดสอบไคสแควร์" ของชนิดนี้เมื่อคุณคำนวณ p-value ของการทดสอบโดยใช้การแจกแจงไคสแควร์นี้เป็นเพียงการประมาณความจริง p-value ค่า p ที่แท้จริงของการทดสอบได้มาจากการทดสอบที่แน่นอนและคุณกำลังประมาณค่านี้โดยใช้การประมาณค่าการแจกแจงค่าว่างของสถิติทดสอบ เมื่อไหร่$n$ มีขนาดใหญ่การประมาณนี้ดีมาก แต่เมื่อไหร่ $n$มีขนาดเล็กการประมาณอาจไม่ดี ด้วยเหตุนี้นักสถิติจึงไม่แนะนำให้ใช้ "การทดสอบไคสแควร์" (กล่าวคือใช้การประมาณไคสแควร์กับการแจกแจงค่าว่างที่แท้จริง) เมื่อ$n$ เล็ก.


การทดสอบไคสแควร์เพื่อความเป็นอิสระในตารางฉุกเฉิน:ตอนนี้ฉันจะตรวจสอบคำถามเฉพาะของคุณเกี่ยวกับการทดสอบไคสแควร์สำหรับการทดสอบความเป็นอิสระในตารางฉุกเฉิน ในบริบทนี้หากเรามีตารางฉุกเฉินพร้อมจำนวนที่สังเกตได้$O_1,...,O_K$ รวมกับ $n \equiv \sum O_i$ จากนั้นสถิติการทดสอบคือสถิติของเพียร์สัน:

$$\chi^2 = \sum_{i=1}^K \frac{(O_i-E_i)^2}{E_i},$$

ที่ไหน $E_1,...,E_K$ คือค่าเซลล์ที่คาดหวังภายใต้สมมติฐานว่าง$^\dagger$ สิ่งแรกที่ควรทราบก็คือจำนวนที่สังเกตได้ $O_1,...,O_K$เป็นจำนวนเต็มไม่ติดลบ สำหรับใด ๆ$n<\infty$สิ่งนี้จะ จำกัด ค่าที่เป็นไปได้ของสถิติทดสอบให้เป็นชุดค่าที่ จำกัด ของค่าที่เป็นไปได้ดังนั้นการแจกแจงค่าว่างที่แท้จริงจะเป็นการแจกแจงแบบไม่ต่อเนื่องสำหรับชุดค่าที่ จำกัด นี้ โปรดสังเกตว่าการแจกแจงแบบไคสแควร์ไม่สามารถเป็นการแจกแจงค่า null ที่แท้จริงได้เนื่องจากเป็นการแจกแจงแบบต่อเนื่องเหนือจำนวนจริงที่ไม่ใช่ค่าลบทั้งหมดซึ่งเป็นชุดค่าอนันต์ (นับไม่ได้)

เช่นเดียวกับใน "การทดสอบไคสแควร์" อื่น ๆ การแจกแจงค่าว่างของสถิติการทดสอบที่นี่จะประมาณได้ดีโดยการแจกแจงไคสแควร์เมื่อ $n$มีขนาดใหญ่ คุณไม่ถูกต้องที่จะบอกว่านี่เป็นเรื่องของความล้มเหลวในการ "ประมาณค่าการแจกแจงแบบไคสแควร์ตามทฤษฎีอย่างเพียงพอ" ในทางตรงกันข้ามการแจกแจงแบบไคสแควร์ตามทฤษฎีคือการประมาณไม่ใช่การแจกแจงค่าว่างที่แท้จริง การประมาณแบบไคสแควร์นั้นดีตราบเท่าที่ไม่มีค่าใดเลย$E_1,...,E_K$เล็ก. สาเหตุที่ค่าที่คาดหวังเหล่านี้มีขนาดเล็กสำหรับค่าต่ำของ$n$ ก็คือเมื่อคุณมีค่าการนับรวมต่ำคุณต้องคาดหวังว่าจำนวนในเซลล์บางเซลล์จะต่ำ


$^\dagger$สำหรับการวิเคราะห์ตารางภาวะฉุกเฉินจำนวนเซลล์ที่คาดหวังเหล่านี้ได้มาจากการปรับสภาพของผลรวมส่วนเพิ่มภายใต้สมมติฐานว่างของความเป็นอิสระ ไม่จำเป็นที่เราจะต้องลงรายละเอียดเพิ่มเติมเกี่ยวกับค่าเหล่านี้