ฉันควรแยกการทดสอบรถไฟเมื่อใด
ฉันเพิ่งเริ่มใช้ Machine Learning โดยพื้นฐานแล้วฉันสับสนเกี่ยวกับเวลาที่จะทำการแยกทดสอบรถไฟ
คำสั่งที่ระบุด้านล่างถูกต้องหรือไม่?
แยกข้อมูลทั้งหมดออกเป็นชุดฝึกและชุดทดสอบ
แยกคุณสมบัติจากข้อมูลการฝึกอบรม
ปรับรูปแบบการจัดประเภทให้พอดีกับคุณสมบัติที่ดึงมาจากข้อมูลการฝึกอบรม
แยกคุณลักษณะเดียวกันซึ่งคำนวณในขั้นตอนที่ 2 จากข้อมูลการทดสอบ
ใช้โมเดลที่ติดตั้งในขั้นตอนที่ 3 กับคุณสมบัติที่ดึงมาจากข้อมูลการทดสอบในขั้นตอนที่ 4 เพื่อประเมินโมเดล
คำตอบ
ขั้นตอนของคุณถูกต้องโดยทั่วไป ในลูปที่ซับซ้อนมากขึ้นการดำเนินการเพิ่มเติมอาจรวมถึงการตรวจสอบความถูกต้องการเพิ่มประสิทธิภาพไฮเปอร์พารามิเตอร์การเลือกคุณสมบัติเป็นต้น
โดยทั่วไปแล้วการแยกคุณลักษณะจะเป็นไปตามการวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) ซึ่งคุณจะทำความรู้จักกับข้อมูลของคุณวิเคราะห์ / สรุปและสรุปข้อสรุปที่เข้าใจง่าย ใน EDA คุณไม่จำเป็นต้องแยกรถไฟ / ทดสอบ
โปรดทราบว่าหากคุณทำซ้ำขั้นตอนที่ 2-3 ในลูปข้อเสนอแนะเพื่อทดสอบว่าคุณลักษณะที่ดึงออกมาใหม่ (เช่นตัวแปรการโต้ตอบ) มีประโยชน์สำหรับโมเดลหรือไม่คุณจะต้องมีขั้นตอนการตรวจสอบความถูกต้อง