การถดถอย: เป็นเรื่องผิดหรือไม่ที่จะเลือกตัวแปรแบบต่อเนื่องเพื่อเอาชนะการฟิตติ้งมากเกินไป?
นักสถิติจะแขวนฉันไว้เพราะทำสิ่งต่อไปนี้หรือไม่?
ฉันมีชุดข้อมูลผู้สูงอายุที่แตกต่างกัน ดังนั้นฉันจึงมีแบบจำลองที่มีตัวทำนาย 7 ตัวซึ่งรวมถึงตัวบ่งชี้ที่เป็นหมวดหมู่ 4 ตัวซึ่งบางตัวมีหลายระดับ ฉันกำลังทำการวิเคราะห์ระดับภูมิภาคซึ่งหมายความว่าบางภูมิภาคมีหัวข้อน้อยกว่าในระดับการอ้างอิงบางระดับของตัวแปรเชิงหมวดหมู่ที่แตกต่างกัน
ผู้เข้ารับการทดลองส่วนใหญ่มีอายุ 70-90 ปี ตัวแปรอายุตั้งแต่ 50-100 ทำให้เกิด overfitting ชัดเจนในขณะที่เปรียบเทียบกับพล็อตการวิเคราะห์ข้อมูลเชิงอธิบาย ฉันพบว่ามีอาสาสมัครที่อายุเฉลี่ยในบางภูมิภาคไม่เพียงพอที่จะคาดเดาได้อย่างมีความหมาย เมื่อฉันจัดเก็บตัวแปรอายุลงในถังขยะ 10 ปีและใช้ถังที่มีหัวข้อจำนวนมากที่สุดเป็นข้อมูลอ้างอิงผลลัพธ์ของการถดถอยจะสอดคล้องกับการวิเคราะห์ข้อมูลเชิงอธิบาย
ตัวแปร binning of age จะใช้ได้หรือไม่ถ้าฉันเผยแพร่ทั้งสอง: แปลงข้อมูลดิบ + การวิเคราะห์ที่ปรับแล้ว ดังนั้นการวิเคราะห์ทั้งสองจึงยืนยันผลลัพธ์หลัก - ความแปรปรวนในระดับภูมิภาค
คำตอบ
binning ตัวแปรอย่างต่อเนื่องเป็นไม่ได้เป็นความคิดที่ดี คุณไม่น่าจะถูกนักสถิติทำร้ายร่างกายเพราะทำแบบนั้น แต่คุณอาจจะถูกจ้องมองอย่างหนักและขมวดคิ้วและพึมพำภายใต้ลมหายใจ
มีวิธีการที่ดีมากที่จะจัดการกับประเภทนี้ของปัญหาซึ่งจะเปิดขมวดคิ้วลงในรอยยิ้มเป็น: ใช้รูปแบบผสม ที่ช่วยให้คุณสามารถรวมข้อมูลที่เป็นประโยชน์ระหว่างบุคคลในภูมิภาคต่างๆได้โดยไม่ต้องครอบคลุมตัวทำนายทั้งหมดในแต่ละภูมิภาค ขึ้นอยู่กับวัตถุประสงค์ของการศึกษาของคุณที่สามารถทำได้ด้วยแบบจำลองหลายระดับที่ถือว่าทั้งบุคคลและภูมิภาคเป็นผลกระทบแบบสุ่ม คำตอบล่าสุดนี้ให้คำอธิบายที่ดีเกี่ยวกับข้อดีของการสร้างแบบจำลองดังกล่าว
เมื่อเทียบกับอายุเป็นตัวทำนายอย่างต่อเนื่องคุณอาจพบว่ามีประโยชน์ในการสร้างแบบจำลองด้วยเส้นโค้งที่สามารถค้นพบความสัมพันธ์แบบไม่เชิงเส้นระหว่างอายุและผลลัพธ์ซึ่งเป็นส่วนหนึ่งของกระบวนการสร้างแบบจำลองเชิงเส้น ที่สามารถรวมอยู่ในรูปแบบผสมผ่านชุดซอฟต์แวร์มาตรฐาน