เหตุใดจึงใช้การตรวจสอบความถูกต้องข้ามสำหรับการวิเคราะห์การถดถอย

Aug 18 2020

ในงานของฉันฉันพยายามปรับให้พอดีกับการถดถอยโลจิสติกแบบพหุนามโดยมีวัตถุประสงค์ในการทำนาย ขณะนี้ฉันกำลังใช้การตรวจสอบความถูกต้องข้ามกับการพับ K แบบแบ่งชั้นซ้ำ แต่ฉันยังมีคำถามบางอย่างเกี่ยวกับวิธีการที่ฉันไม่เคยเห็น

มันสมเหตุสมผลหรือไม่ที่จะใช้การตรวจสอบความถูกต้องข้ามเพื่อทดสอบการถดถอยในกรณีนี้ที่ฉันไม่ได้ปรับแต่งไฮเปอร์พารามิเตอร์ใด ๆ ฉันเห็นมามากแล้วว่าครอสวาลมีประโยชน์มากที่สุดสำหรับการปรับแต่งไฮเปอร์พารามิเตอร์

ฉันใช้แบบจำลองของฉัน (การถดถอยด้วยตัวทำนายเดียวกัน) โดยทำซ้ำ 10 ครั้ง 3 ครั้งและฉันได้รับเมตริกที่ดีมากในแต่ละพับ (ROC ที่ 0.95 การเรียกคืนความแม่นยำโดยเฉลี่ยขนาดเล็กเท่ากับ 0.94 และอื่น ๆ ตามเส้นเหล่านั้น) แบบจำลองมีการแยกแยะอย่างเหมาะสมและสามารถคาดการณ์ได้ดี ฉันจะมั่นใจได้หรือไม่ว่าการถดถอยของฉันไม่เกินพอดี? นั่นคือตัวแปรที่ฉันเลือกให้ทำงานเป็นตัวทำนายจะไม่พอดีกับข้อมูล

สุดท้ายนี้ฉันไม่แน่ใจว่าในทางเทคนิคจะยุติการวิเคราะห์ของฉันได้หรือไม่หรือฉันสามารถสร้าง "แบบจำลองขั้นสุดท้าย" ด้วยตัวทำนายเดียวกันทั้งหมดและได้รับการฝึกฝนในส่วนที่ใหญ่กว่าของข้อมูล ฉันคิดว่าถ้า บริษัท ต้องการใช้โมเดลนี้จริงพวกเขาจะต้องมี "ความพอดีขั้นสุดท้าย" เพื่อคาดการณ์ใช่ไหม ฉันควรใช้ตัวแยกการทดสอบรถไฟอื่นสำหรับรุ่นสุดท้ายนี้หรือไม่

ความช่วยเหลือของคุณเป็นที่ชื่นชมอย่างมาก!

คำตอบ

1 J.C.Wahl Aug 18 2020 at 16:56

การตรวจสอบครอสสามารถนำมาใช้สำหรับงานหลาย hyperparameter tunning วิธีการที่มั่นคงของคุณออกจากความผิดพลาดเป็นตัวอย่าง แต่ผมจะบอกว่ามันเป็นประโยชน์มากที่สุดสำหรับการเปรียบเทียบที่แตกต่างกันรุ่น

ตัวอย่างเช่นหากคุณมีสองรุ่นและคุณเรียกใช้การตรวจสอบความถูกต้องข้ามกับทั้งสองรุ่นคุณสามารถเปรียบเทียบประสิทธิภาพของการพับแบบต่างๆและดูว่ารุ่นหนึ่งมีประสิทธิภาพดีกว่าอีกรุ่นหรือไม่ เมื่อทำเช่นนี้สมมติว่า 10 เท่าคุณจะได้ค่าประมาณประสิทธิภาพจากตัวอย่างที่มีประสิทธิภาพมากขึ้นเมื่อเทียบกับการใช้ชุดทดสอบเพียงชุดเดียว (เช่นการตรวจสอบความถูกต้อง 1 เท่า)

คุณอาจพบว่าแบบจำลองที่ซับซ้อนกว่านั้นสามารถรับ AUC เฉลี่ยที่ 0.97 หรืออาจจะใส่มากเกินไปและให้ AUC ที่แย่กว่า 0.9 คุณจะพูดได้ก็ต่อเมื่อนางแบบสวมใส่เกินจริงหากคุณเปรียบเทียบจากตัวอย่างกับโมเดลที่เรียบง่ายกว่า

สำหรับคำถามสุดท้ายของคุณ: หลังจากที่คุณพบโมเดลที่ดีที่สุดที่ทำการตรวจสอบความถูกต้องข้ามและคุณได้ตัดสินใจว่าจะนำโมเดลนี้ไปใช้ในการผลิตคุณควรฝึกโมเดลกับข้อมูลทั้งหมดที่มีเพื่อให้คุณได้ค่าประมาณที่แม่นยำที่สุด เป็นไปได้.