การทดสอบ t จับคู่ (หรืออย่างอื่น) เพื่อเปรียบเทียบประสิทธิภาพของโมเดลโดยใช้การแยกรถไฟ / การทดสอบซ้ำ?
ฉันกำลังมองหาการทดสอบทางสถิติที่ถูกต้องเพื่อเปรียบเทียบการทดสอบ ROC AUC ของสองรุ่น ฉันได้ทำสิ่งต่อไปนี้แล้ว:
- สุ่ม
train
/test
แยกชุดข้อมูลการสังเกต 1,000 ชุดของฉัน (700/300) - ค่าที่ขาดหายใส่ร้ายใช้สองวิธีการที่แตกต่างกัน (การทำนายเทียบกับโหมด / เฉลี่ย):
train_a
,train_b
,test_a
,test_b
- สร้างโมเดลที่เหมือนกันสองแบบบนชุดข้อมูลรถไฟ:
model_a
&model_b
- ประเมินทั้งสองรุ่นนี้ในชุดข้อมูลทดสอบโดยใช้ ROC AUC:
test_AUC_a
&test_AUC_b
- ทำซ้ำขั้นตอนที่ 1 - 4 โดยใช้พาร์ติชั่นสุ่มอื่น (รวม 100 ครั้ง)
ผลลัพธ์ของฉันมีลักษณะดังนี้ (เวกเตอร์มีความยาว 100):
test_AUC_a <- c(0.786, 0.767, 0.730, 0.728, 0.784)
test_AUC_b <- c(0.777, 0.751, 0.733, 0.700, 0.767)
ฉันกำลังมองหาของที่ถูกต้อง 'ทดสอบทางสถิติในการดำเนินการเพื่อเปรียบเทียบทั้งสองวิธีของ imputing ค่าที่ขาดหายไปดังนั้นจริงๆฉันพยายามที่จะถาม"วิธีการไม่a
ส่งผลในการ AUC ทดสอบสูงกว่าวิธีการb
"
ฉันมีคำถามสองข้อที่นี่:
- การทดสอบแบบด้านเดียวเหมาะสมหรือไม่ ฉันวางแผนที่จะยึดติดกับวิธีการที่ง่ายกว่านี้
b
(การใส่ค่ามัธยฐาน / โหมด) เว้นแต่จะมีหลักฐานบางอย่างว่าa
(การใส่คำทำนาย) ให้ผลลัพธ์ที่ดีกว่า - t-test ที่จับคู่เหมาะสมหรือไม่? ดังนั้นใช้อย่างใดอย่างหนึ่งต่อไปนี้:
t.test(test_AUC_a, test_AUC_b, paired = T, alternative = "greater")
t.test(test_AUC_a, test_AUC_b, paired = T, alternative = "two.sided")
ในการวิจัยของฉันดูเหมือนว่าฉันจะไปถูกทางด้วยการทดสอบ t แบบจับคู่ แต่ฉันเจอNadeau Bengio (หน้า 16) ซึ่งเสนอสถิติการทดสอบ t ที่ได้รับการแก้ไขแบบจำลอง (การละเมิดสมมติฐานความเป็นอิสระเนื่องจากการฝึกอบรม & ชุดทดสอบจะทับซ้อนกับตัวอย่างข้อมูลแต่ละตัวอย่าง) แต่ฉันไม่แน่ใจว่าฉันเข้าใจกระดาษถูกต้องหรือไม่และตรงนี้เหมาะสมหรือไม่
ถ้าฉันพูดตามตรงฉันก็มีปัญหาในการทำความเข้าใจคณิตศาสตร์ทั้งหมดและแปลเป็นรหัส R ดังนั้นฉันจึงไม่รู้ว่าจะทำการทดสอบที่แก้ไขได้อย่างไร (1 หรือ 2 ก้อย) ถ้าฉันต้องการ
ฉันหวังว่าจะมีคนช่วยฉันได้! การทดสอบสมมติฐานไม่ได้เหมาะกับฉันจริงๆ
คำตอบ
สิ่งนี้ดีสำหรับฉันเพราะฉันไม่รู้จักกระดาษ Nadeau & Bengio ซึ่งน่าสนใจมากจริงๆ มันเป็นกระดาษที่ยากและฉันไม่สามารถรับประกันได้ว่าความเข้าใจของฉันถูกต้อง 100% ดังนั้นสิ่งที่ฉันเขียนเกี่ยวกับกระดาษนั้นตอนนี้ไม่ได้มาพร้อมกับการรับประกันใด ๆ น่าสนใจพอ ๆ กับกระดาษฉันไม่คิดว่ามันจะเขียนในลักษณะที่ชัดเจนที่สุดดูด้านล่าง
(1) สิ่งที่สำคัญในที่นี้คือ "ประชากรของปัญหา" ที่คุณต้องการให้เป็นข้อความทั่วไป หากคุณต้องการดูว่าวิธีใดทำได้ดีกว่าในการทดลองของคุณคุณไม่จำเป็นต้องมีการทดสอบ คุณสามารถดูความแตกต่างระหว่างวิธีการและการแสดงภาพ
(2) เห็นได้ชัดว่ามีการเปลี่ยนแปลงแบบสุ่มบางอย่างในสิ่งนี้และการทดสอบเกี่ยวกับการถามว่าความแตกต่างที่คุณเห็นนั้นสามารถอธิบายได้ด้วยรูปแบบสุ่มหรือไม่ แต่คุณต้องตัดสินใจว่ารูปแบบใดที่เกี่ยวข้อง ฉันรวบรวมว่าคุณมีเพียงชุดข้อมูลเดียว มุมมองหนึ่ง (P1 นับจากนี้) ก็คือคุณบอกว่าชุดข้อมูลได้รับการแก้ไขแล้วและคุณสนใจที่จะสร้างข้อความเกี่ยวกับการเปลี่ยนแปลงแบบสุ่มมากกว่าการแยกแบบสุ่ม อีกมุมมองหนึ่ง (P2) คือคุณต้องคำนึงด้วยว่าชุดข้อมูลนั้นเป็นแบบสุ่มและคุณต้องการสร้างคำแถลงเกี่ยวกับประชากรพื้นฐาน$P$ของชุดข้อมูล ความคิดเห็นแรกของฉันที่นี่คือ P2 ดูเหมือนสิ้นหวังในตอนแรก คุณมีเพียงชุดข้อมูลเดียวนั่นคือคุณมีขนาดตัวอย่างที่มีประสิทธิภาพของชุดข้อมูลชุดหนึ่งจากกลุ่มประชากรนั้น จากขนาดตัวอย่างไม่สามารถบอกได้มากนัก
(3) ฉันจะพูดถึง P2 กระดาษ Nadeau และ Bengio และประเด็นของการพูดทั่วไปถึง $P$ใน (6) นี่เป็นเรื่องละเอียดอ่อนและยากและก่อนอื่นฉันต้องสร้างข้อความที่ง่ายกว่านี้
(4) ภายใต้ P1 การแยกข้อมูลที่แตกต่างกันนั้นเป็นอิสระในความเป็นจริง (ไม่ได้อยู่ภายใต้ P2 ซึ่งเป็นที่มาของความยากใน Nadeau และ Bengio) ดังนั้นการทดสอบ t-test แบบจับคู่มาตรฐานควรจะใช้ได้ดีที่นี่โดยสมมติว่าหมายเลขของคุณ ของแบบจำลองมีขนาดใหญ่เพียงพอและ 100 รายการควรทำ แต่เห็นได้ชัดว่าสิ่งนี้ช่วยให้คุณสามารถสรุปสิ่งที่คาดว่าจะเกิดขึ้นได้โดยมีการแยกข้อมูลเพิ่มเติมในชุดข้อมูลเดียวกัน (ฉันคิดว่านั่นคือสิ่งที่ดีที่สุดที่คุณจะได้รับดูด้านล่าง)
(5) คำถามที่ว่าคุณจะเลือกแบบทดสอบด้านเดียวหรือสองด้านขึ้นอยู่กับว่าคำถามเริ่มต้นของคุณไม่สมมาตรหรือสมมาตร หากคุณสนใจเพียงว่าวิธี A ดีกว่า (เพราะเป็นวิธีใหม่และถ้ายังไม่ดีกว่าคุณจะทิ้งมันไปไม่ว่าจะแย่กว่าหรือเหมือนกันก็ตาม) คุณใช้วิธีการด้านเดียว ทดสอบ. หากคุณสนใจว่ามีหลักฐานว่าในชุดข้อมูลนี้มีวิธีการแตกต่างกันไปในทิศทางใดหรือไม่ให้ใช้การทดสอบแบบสองด้าน
(6) ดูเหมือนว่า P2 คือสิ่งที่ Nadeau และ Bengio ระบุไว้ในกระดาษ ในการสร้างแบบจำลองทั้งหมดของพวกเขาชุดข้อมูลจะถือว่าเป็นแบบสุ่มและดูเหมือนว่าพวกเขากำลังเกิดข้อผิดพลาดทั่วไปที่สามารถประมาณได้จากการมีชุดข้อมูลเดียว แต่เอกสารของพวกเขาไม่ได้ทำให้ชัดเจนมากนัก จริงๆแล้วในการศึกษาแบบจำลองพวกเขาสร้างชุดข้อมูล 1,000 ชุดอย่างไรก็ตามพวกเขาสังเกตในหน้า 259 ว่าวิธีการในวินาที 4 (ซึ่งคุณได้อ้างถึงอย่างใดอย่างหนึ่ง) ใช้กับชุดข้อมูลเดียว ดังนั้น Nadeau และ Bengio จึงจัดการเซ็ตอัพซึ่งฉันสังหรณ์ใจว่านี่เป็นสถานการณ์ "ขนาดตัวอย่างที่มีประสิทธิภาพหนึ่ง" ซึ่งคุณไม่สามารถพูดได้มากขนาดนั้น ฉันกำลังบอกว่าพวกเขาทำผิดหรือเปล่า? มันขึ้นอยู่กับ หากคุณคิดว่าชุดข้อมูลของคุณ$Z=(Z_1,\ldots,Z_n)$ คือ iid และสุ่มมาจากประชากร $P$ ของชุดข้อมูลดังกล่าว (หมายความว่าไม่ใช่เฉพาะข้อมูลใน $Z$ เป็น iid แต่ยังรวมถึงชุดข้อมูลทั้งหมดที่แตกต่างกัน $Z$ จะเป็นอย่างไรถ้ามีการวาดมากกว่าหนึ่ง) ที่จริง $Z$ มีข้อมูลค่อนข้างน้อยถ้า $n$ มีขนาดใหญ่พอเกี่ยวกับรูปแบบที่คาดหวังใน $P$. ดังนั้นการคำนวณใน Nadeau และ Bengio จึงถูกต้องตามกฎหมาย (และในการจำลองของพวกเขาเห็นได้ชัดว่าพวกเขาปฏิบัติต่อกรณีดังกล่าวดังนั้นจึงมีอยู่จริง) แต่ฉันคิดว่าในทางปฏิบัติพวกเขามีความเกี่ยวข้องค่อนข้าง จำกัด เนื่องจากโดยปกติแล้วหากคุณมีเพียงชุดข้อมูลเดียวมันยากมากที่จะทำให้กรณีนี้ถูกดึงออกมาจากประชากรที่กำหนดไว้อย่างดี ที่$P$เป็นเรื่องสมมติ; มันคือ "ลองนึกภาพว่ามีประชากรที่แสดงในลักษณะ iid โดยชุดข้อมูลนี้" ซึ่งโดยพื้นฐานแล้วหมายความว่าชุดข้อมูลกำหนดประชากรโดยปริยายและท้ายที่สุดคุณก็ยังคงเป็นเพียงการอนุมานเกี่ยวกับชุดข้อมูลเท่านั้น (ฉันไม่ได้ยกเว้นความเป็นไปได้ที่จะมีสถานการณ์ที่สามารถทำให้เกิดกรณีที่น่าเชื่อถือมากขึ้นในการประยุกต์ใช้ทฤษฎีนั้นได้ แต่ฉันคิดว่าพวกเขามีความพิเศษมากที่สุด)
การอ่านบทความนี้เราสามารถทราบได้เช่นกันว่า Nadeau และ Bengio ใช้การประมาณบางอย่างที่ฟังดูระมัดระวังและไม่ได้ขึ้นอยู่กับการพิสูจน์ความถูกต้องทางคณิตศาสตร์ ความถูกต้องจะขึ้นอยู่กับลักษณะที่แม่นยำของ$P$ซึ่งผู้เขียนไม่ได้ตั้งสมมติฐาน (ซึ่งในกรณีใด ๆ ไม่สามารถตรวจสอบได้ด้วยขนาดตัวอย่างที่มีประสิทธิภาพเท่ากับ 1) ความเข้าใจของฉันคือความไม่ชัดเจนในบทความนี้ (เกี่ยวกับที่ผู้เขียนเปิดใจอย่างน่ายกย่อง) มาจากความจริงที่ว่าการพูดอะไรที่แม่นยำพวกเขาต้องการสมมติฐานที่ชัดเจนเกี่ยวกับ$P$ที่ไม่สามารถทดสอบได้ในสถานการณ์จริงเว้นแต่คุณจะมีชุดข้อมูลย่อยมากกว่าหนึ่งชุด เท่าที่วิธีการที่พวกเขาเสนอนั้นทำได้ดีในการจำลองของพวกเขานี่เป็นเพราะความจริงที่ว่าการตั้งค่าการจำลองได้รับการเลือกที่เล่นได้ดีพอสมควรนอกเหนือจากความจริงที่เห็นได้ชัดในการจำลองของพวกเขา$Z$ แท้จริงแล้วฉันดึงมาจาก $P$ซึ่งเป็นข้อสันนิษฐานสำคัญที่พวกเขาสร้างขึ้นจริง ในสถานการณ์จริงส่วนใหญ่หากคุณมีชุดข้อมูลจริงชุดเดียว$Z$และลองใช้วิธีการเหล่านี้ความจริงที่ว่านี่เป็นชุดข้อมูลเดียวที่คุณมีอยู่แล้วหมายความว่ามันมีความพิเศษไม่ทางใดก็ทางหนึ่งและไม่ได้ถูกสุ่มมาจากกลุ่มข้อมูลที่กำหนดไว้อย่างดี! (ไม่งั้นจะวาดเพิ่มทำไม)
ดังนั้นความประทับใจของฉันคือวิธีการของ Nadeau และ Bengio จะไม่ทำให้คุณได้ไกลไปกว่าการทดสอบ t แบบจับคู่แบบธรรมดา และคุณสามารถสรุปสิ่งที่จะเกิดขึ้นได้อย่างน่าเชื่อถือโดยมีการแยกส่วนข้อมูลเพิ่มเติมในชุดข้อมูลเดียวกัน หากคุณต้องการมากกว่านี้คุณต้องการชุดข้อมูลเพิ่มเติม (อิสระอย่างแท้จริง)