การกำหนดความพิเศษของสถิติการทดสอบและการกำหนด $p$- ค่าสำหรับการทดสอบสองด้าน

Aug 19 2020

นิยามแท็กของเราเกี่ยวกับไฟล์ $p$- ค่ากล่าวว่า

ในการทดสอบสมมติฐานบ่อยครั้ง $p$- ค่าคือความน่าจะเป็นของผลลัพธ์ที่มาก (หรือมากกว่า) มากกว่าผลลัพธ์ที่สังเกตได้ภายใต้สมมติฐานที่ว่าสมมติฐานว่างเป็นจริง

แต่เราจะกำหนดได้อย่างไรว่าอะไรคือสิ่งที่สุดโต่งกว่านี้? ใน"A Dialog between a Teacher and a Thoughtful Student" , @whuber แสดงให้เห็นว่าสุดขั้วสามารถกำหนดอัตราส่วนความเป็นไปได้ภายใต้$H_0$ เทียบกับ $H_1$ (หรือ $H_A$ ในสัญกรณ์ดั้งเดิม) $LR=\frac{P(data|H_1)}{P(data|H_0)}$. ยิ่ง LR มีขนาดใหญ่ผลลัพธ์ก็จะยิ่งมากขึ้นเท่านั้น จนถึงตอนนี้ดีมาก

ในตัวอย่างของ @ whuber $H_0$เป็นด้านเดียวและก็เป็นเช่นนั้น$H_1$. จากนั้นจึงไม่ใช่เรื่องยากที่จะค้นหาว่าบริเวณใดของค่าของสถิติทดสอบที่สร้าง LR ได้มากที่สุด ดังนั้นเราจึงมีปัญหาเล็กน้อยในการค้นหาไฟล์$p$- มูลค่า; เราแค่รวมพื้นที่ภายใต้การแจกแจงแบบ null สำหรับค่าที่เป็นไปได้ทั้งหมดของสถิติทดสอบที่มีค่ามากเท่ากันหรือมากกว่า (มี LR เท่ากับหรือมากกว่า) มากกว่าค่าที่สังเกตได้

อย่างไรก็ตามยังไม่ชัดเจนว่าเมื่อใด$H_1$เป็นสองด้านเช่นสองด้าน$t$-ทดสอบ. ในขณะที่หางด้านซ้ายของการแจกแจงโมฆะจะสร้าง LR ที่ใหญ่ที่สุดสำหรับทางเลือกทางด้านซ้ายของค่าสมมุติฐานใน$H_0$หางซ้ายจะไม่สุดโต่งสำหรับทางเลือกทางขวาของ$H_0$; ในความเป็นจริงมันจะเป็นหางตรงข้ามที่สุดขั้ว ปัญหาคือทางเลือกทั้งสองเป็นของ$H_1$.

ถาม:เราจะจัดการกับสถานการณ์ดังกล่าวอย่างไร? อะไรคือวิธีที่มีหลักการในการกำหนดความพิเศษเมื่อระดับของ LR ที่ขัดแย้งกันอาจเกิดขึ้นได้ภายใต้อินสแตนซ์ที่แตกต่างกันภายใน$H_1$เหรอ?

ปล. ฉันเคยถามคำถามที่เกี่ยวข้องก่อนหน้านี้ว่า$p$- มูลค่าขึ้นอยู่กับทางเลือกอื่น ฉันเรียนรู้ว่าการใช้คำจำกัดความสมัยใหม่ (โพสต์ฟิชเชอร์) ของ$p$- คุ้มค่า

คำตอบ

1 ThomasLumley Aug 19 2020 at 07:45

นอกเหนือจากสถานการณ์จำลองในการทดสอบสองด้านแล้วคำถามนี้ยังเกิดขึ้นในลักษณะที่หลีกเลี่ยงได้น้อยกว่าในการทดลองทางคลินิกตามลำดับแบบกลุ่ม

ในการทดลองตามลำดับแบบกลุ่มจะมีการกำหนดเวลาในการวิเคราะห์และขอบเขตการหยุดที่ระบุขีด จำกัด ในการวิเคราะห์แต่ละครั้งเพื่อให้การทดลองหยุดลง ในการคำนวณ$p$- ค่าหรือช่วงความเชื่อมั่นจำเป็นต้องระบุลำดับของผลลัพธ์ที่เป็นไปได้ ตัวอย่างเช่นหากคุณหยุดเวลา 2 ใน 4 ด้วย a$Z$- คะแนน 3 เป็นอย่างไรเมื่อเทียบกับการหยุดในเวลา 3 ด้วย a $Z$- คะแนน 2.5?

ในบรรดาคำสั่งที่เสนอจริงคือ

  • เรียงลำดับตามขนาดของความแตกต่าง
  • การสั่งซื้อตามเวลาดังนั้นการหยุดในเวลาก่อนหน้าจะรุนแรงกว่าการหยุดในเวลาต่อมา

นี่คือทางเลือกที่แท้จริง ผู้คนที่แตกต่างกันสามารถเลือกคำสั่งซื้อที่แตกต่างกันได้ การจัดลำดับตามขนาดของความแตกต่างมีแนวโน้มที่จะนำไปสู่ช่วงความเชื่อมั่นที่แคบลงค่า p ที่ถูกต้องมากขึ้นและความเอนเอียงน้อยลง แต่จะเพิ่มความไวของการวิเคราะห์เป็นเวลา (ไม่สามารถสังเกตได้) ซึ่งจะเกิดการวิเคราะห์ในอนาคตของการทดลองที่หยุดลง

( อ้างอิง : หลักสูตรระยะสั้นโดย Kittleson และ Gillen)

1 Michael Sep 10 2020 at 01:17

การกำหนดความพิเศษของสถิติการทดสอบและการกำหนดค่า p สำหรับการทดสอบสองด้าน ...

ฉันขอแนะนำว่ามุมมองที่เหมาะสมในที่นี้คือเมื่อมีสถิติที่ "ถูกต้อง" สถิติจะบอกคุณเองว่า "ความพิเศษ" หมายถึงอะไรสำหรับปัญหาการทดสอบในมือ --- ด้านเดียวหรือสองด้าน คำถามพื้นฐานมากกว่านั้นคือสถิติที่ "ถูกต้อง" คืออะไร ปัญหาการทดสอบเป็นกรณีพิเศษของปัญหาการปรับให้เหมาะสม --- คุณต้องการเพิ่มกำลังสูงสุดภายใต้ข้อ จำกัด ของขนาด ดังนั้นจึงหมายถึงการกำหนดแนวคิดการแก้ปัญหาที่ "ถูกต้อง"

ตัวอย่างเช่นการค้นหาการทดสอบที่ทรงพลังที่สุดสำหรับปัญหาการทดสอบด้วยค่า null อย่างง่ายกับทางเลือกที่เรียบง่ายเป็นกรณีพิเศษของโปรแกรมเชิงเส้น: $$ \sup_{0 \leq \phi \leq 1, \, \\ \\ \int \phi(\omega) f_0(\omega) d\mu \leq \alpha} \int \phi(\omega) f_1(\omega) d\mu. $$ มันเป็นความจริงทั่วไปที่จะแก้ปัญหา $\phi^*$สำหรับโปรแกรมดังกล่าวใช้แบบฟอร์ม $$ \phi^* = \begin{cases} 1 & \text{if } f_1 \geq k f_0 \\ 0 & \text{if } f_1 \geq k f_0, \end{cases} $$ สำหรับบางคน $k$. ในบริบทของปัญหาการทดสอบการตีความตามธรรมชาตินั้นจะถูกปฏิเสธเมื่อสถิติอัตราส่วนความเป็นไปได้$\frac{f_1}{f_0}$ มีขนาดใหญ่กว่า $k$.

(เป็นข้อเสนอแนะในความคิดเห็นว่าเกณฑ์ $k$ถูกตีความว่าเป็น "ราคาเงา" ของข้อ จำกัด ด้านขนาด เห็นได้ชัดว่าคำศัพท์นี้ยืมมาจากเศรษฐศาสตร์$k$คือตัวคูณของปัญหา Kuhn-Tucker-Lagrange สำหรับโซลูชันการตกแต่งภายในโดยทั่วไปแล้วใคร ๆ ก็บอกว่าถ้า$\alpha$- งบประมาณในปัญหาเศรษฐกิจ - ถูกผ่อนคลายโดย $\epsilon$พลังของการทดสอบจะเพิ่มขึ้นโดย $k \epsilon$. อย่างไรก็ตามการตีความนี้ไม่ได้มีไว้สำหรับโปรแกรมเชิงเส้นโดยทั่วไป)

ในทำนองเดียวกันการค้นหาการทดสอบค่า null เชิงประกอบกับจำนวนทางเลือกที่เรียบง่ายที่สุดในการแก้โปรแกรมเชิงเส้น วิธีแก้ปัญหาสำหรับโปรแกรมคู่ที่สอดคล้องกันบอกเราว่าสถิติที่ทรงพลังที่สุดคือสถิติอัตราส่วนความเป็นไปได้ที่เกี่ยวกับเบย์เซียนที่เป็นที่นิยมน้อยที่สุดก่อนหน้าบนค่าว่าง (กรณีโมฆะธรรมดาเป็นกรณีพิเศษโดยมีความสำคัญมาก่อน)

การทดสอบด้วยทางเลือกด้านเดียวสำหรับรุ่นที่มีคุณสมบัติ monotone likelihood ratio (MLR) เป็นอีกตัวอย่างหนึ่ง MLR หมายถึงโมเดลยอมรับการจัดอันดับอัตราส่วนความเป็นไปได้ที่ไม่แน่นอนเมื่อเทียบกับข้อมูล$\omega$. ดังนั้นการทดสอบอัตราส่วนความเป็นไปได้จึงเป็นการทดสอบที่ทรงพลังที่สุดเกือบจะเป็นไปตามสมมติฐาน

สำหรับทางเลือกสองด้านเช่น $\Gamma_0 = \{\gamma_0\}$ และ $\Gamma_1 = (-\infty,\gamma_0)\cup (\gamma_0, \infty)$ สำหรับความหนาแน่นปกติพาราเมตไตรโดยค่าเฉลี่ย $\gamma \in \mathbb{R}$การทดสอบที่ทรงพลังที่สุดไม่มีอยู่ทั่วไป ดังนั้นสถิติที่ถูกต้องจำเป็นต้องถูกกำหนดโดยเกณฑ์อื่น ๆ เช่นเราสามารถมองหาการทดสอบที่ทรงพลังที่สุดในท้องถิ่นแทน

การทดสอบ $\phi^*$ เป็นการทดสอบที่ทรงพลังที่สุดในพื้นที่สำหรับการทดสอบอื่น ๆ $\phi$มีพื้นที่ใกล้เคียงเปิดอยู่ $N_{\gamma_0, \phi}$ ของสมมติฐานว่างเช่นนั้น $\phi^*$ มีกำลังไฟสูงกว่า $\phi$ บน $N_{\gamma_0, \phi}$. เงื่อนไขการเพิ่มประสิทธิภาพลำดับที่หนึ่งที่สอดคล้องกันจะให้เกณฑ์ $$ \phi^* = \begin{cases} 1 & \text{if } \frac{\partial^2}{\partial \gamma^2}f_{\gamma_0} \geq k_1 \frac{\partial}{\partial \gamma} f_{\gamma_0} + k_2 f_{\gamma_0} \\ 0 & \text{if } \frac{\partial^2}{\partial \gamma^2}f_{\gamma_0} < k_1 \frac{\partial}{\partial \gamma} f_{\gamma_0} + k_2 f_{\gamma_0} \end{cases} $$ สำหรับบางคน $k_1$ และ $k_2$. การแทนที่ความหนาแน่นปกติเป็นนิพจน์ข้างต้นเราได้สิ่งนั้น$\phi^*$ ปฏิเสธเมื่อ $|x- \gamma_0|$ มีขนาดใหญ่ - เป็นการทดสอบสองด้าน