ฉันควรแยกการทดสอบรถไฟเมื่อใด

Aug 18 2020

ฉันเพิ่งเริ่มใช้ Machine Learning โดยพื้นฐานแล้วฉันสับสนเกี่ยวกับเวลาที่จะทำการแยกทดสอบรถไฟ

คำสั่งที่ระบุด้านล่างถูกต้องหรือไม่?

  1. แยกข้อมูลทั้งหมดออกเป็นชุดฝึกและชุดทดสอบ

  2. แยกคุณสมบัติจากข้อมูลการฝึกอบรม

  3. ปรับรูปแบบการจัดประเภทให้พอดีกับคุณสมบัติที่ดึงมาจากข้อมูลการฝึกอบรม

  4. แยกคุณลักษณะเดียวกันซึ่งคำนวณในขั้นตอนที่ 2 จากข้อมูลการทดสอบ

  5. ใช้โมเดลที่ติดตั้งในขั้นตอนที่ 3 กับคุณสมบัติที่ดึงมาจากข้อมูลการทดสอบในขั้นตอนที่ 4 เพื่อประเมินโมเดล

คำตอบ

6 gunes Aug 18 2020 at 21:24

ขั้นตอนของคุณถูกต้องโดยทั่วไป ในลูปที่ซับซ้อนมากขึ้นการดำเนินการเพิ่มเติมอาจรวมถึงการตรวจสอบความถูกต้องการเพิ่มประสิทธิภาพไฮเปอร์พารามิเตอร์การเลือกคุณสมบัติเป็นต้น

โดยทั่วไปแล้วการแยกคุณลักษณะจะเป็นไปตามการวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) ซึ่งคุณจะทำความรู้จักกับข้อมูลของคุณวิเคราะห์ / สรุปและสรุปข้อสรุปที่เข้าใจง่าย ใน EDA คุณไม่จำเป็นต้องแยกรถไฟ / ทดสอบ

โปรดทราบว่าหากคุณทำซ้ำขั้นตอนที่ 2-3 ในลูปข้อเสนอแนะเพื่อทดสอบว่าคุณลักษณะที่ดึงออกมาใหม่ (เช่นตัวแปรการโต้ตอบ) มีประโยชน์สำหรับโมเดลหรือไม่คุณจะต้องมีขั้นตอนการตรวจสอบความถูกต้อง