วิธีจัดการกับปัญหาการถดถอยด้วยเป้าหมายที่เบ้และมีค่าสูงเพียงไม่กี่ค่า?

Aug 17 2020

ฉันกำลังแก้ปัญหาการถดถอยด้วยตัวแปรเป้าหมายที่เบ้ (แสดงด้านล่าง)

ตามธรรมชาติแล้วความคิดแรกของฉันคือการเปลี่ยนเป้าหมายด้วยลอการิทึมธรรมชาติเนื่องจากอาจช่วยได้ทั้งการถดถอยเชิงเส้นหรืออัลกอริธึมที่อิงตามต้นไม้เพื่อการตัดสินใจ แนวคิดที่สองคือการจัดเตรียมรูปแบบการตรวจสอบความถูกต้องคล้ายกับการตรวจสอบความถูกต้องข้ามแบบแบ่งชั้น k-fold โดยกำหนดเป้าหมายเป็นกลุ่ม n อย่างไรก็ตามความกังวลของฉันคือฉันมีค่าสูงสุดเพียงเล็กน้อย:

ดังนั้นข้อผิดพลาดของชุดทดสอบและชุดการตรวจสอบความถูกต้องทั้งหมดของฉันจึงขึ้นอยู่กับอย่างมากว่าค่าหนึ่งใน 4 ค่ามากเหล่านี้ถูกวาดไว้ภายในหรือไม่ ทำให้ยากที่จะได้รับค่าประมาณข้อผิดพลาดจริงที่เชื่อถือได้

มีอะไรเพิ่มเติมที่ฉันสามารถทำได้เพื่อจัดการปัญหานั้นหรือไม่?

คำตอบ

1 PredictedLife Aug 18 2020 at 02:50

คุณสามารถสร้างการแจกแจงแบบสมมาตรได้โดยการแปลงที่เหมาะสม: การกระจายของคุณส่วนใหญ่จะเบ้ขวาดังนั้นจึงจำเป็นต้องมีการแปลง log10

คุณยังสามารถใช้วิธีการป้อนอัตโนมัติและรวมเข้ากับตัวแปรดัมมี่สำหรับการเพิ่มขึ้นอย่างรวดเร็ว

หากคุณทำการเลือกคุณสมบัติผู้เรียนจะเลือกคุณลักษณะที่สำคัญที่สุดโดยอัตโนมัติ ผู้เรียนเช่น XGBoost จะดูแลความหลากหลายของนักศึกษาโดยอัตโนมัติ