การกำหนดค่าที่ขาดหายไปสำหรับโมเดลการถดถอยเชิงเส้นโดยใช้การถดถอยเชิงเส้น

Aug 16 2020

ฉันคัดลอกเว็บไซต์อสังหาริมทรัพย์และต้องการคาดเดาข้อมูลที่ขาดหายไปในพื้นที่ทั้งหมด (ขาดไปประมาณ 40%) โดยใช้การถดถอยเชิงเส้น ฉันบรรลุผลลัพธ์ที่ดีที่สุดโดยใช้ราคาจำนวนห้องห้องนอนห้องน้ำและห้องแป้ง

การเพิ่มราคาให้กับข้อมูลห้องพักสร้างความแตกต่างอย่างมีนัยสำคัญ สิ่งนี้สมเหตุสมผลเนื่องจากจำนวนห้องเพียงอย่างเดียวไม่ได้ให้ข้อมูลใด ๆ กับคุณว่าห้องเหล่านั้นอาจมีขนาดใหญ่เพียงใด ราคาสามารถลดความไม่แน่นอนบางอย่างได้ มีความแตกต่าง 20 คะแนนระหว่างคะแนน R ^ 2 ของรุ่นที่รวมและคะแนนที่ไม่รวมราคา (0.62 เทียบกับ 0.82)

ปัญหาที่ฉันเห็นคือแบบจำลองสุดท้ายของฉันน่าจะเป็นการถดถอยของซับโดยมีราคาเป็นเป้าหมาย ด้วยเหตุนี้จึงดูเหมือนไม่ถูกต้องที่จะรวมราคาในการทำนายพื้นที่ทั้งหมดสำหรับการใส่ค่า โดยพื้นฐานแล้วฉันใช้เป้าหมายเพื่อทำนายคุณสมบัติแล้วใช้คุณสมบัตินั้นเพื่อทำนายเป้าหมายอีกครั้ง นั่นเป็นวงกลมและดูเหมือนจะเป็นปัญหาสำหรับฉัน แต่ฉันคิดผิด ผลที่ตามมาแบบจำลองสุดท้ายของฉันจะดูดีขึ้น แต่ฉันจะสร้างความสัมพันธ์เชิงสังเคราะห์ สิ่งนี้ดูเหมือนจะสำคัญอย่างยิ่งเนื่องจากต้องเปลี่ยนค่าประมาณ 40%

มีใครไม่เห็นด้วยกับเรื่องนี้บ้าง? ฉันควรเก็บราคาไว้เป็นตัวทำนายเพื่อกำหนดค่าที่ขาดหายไปแม้ว่าจะเป็นเป้าหมายของโมเดลสุดท้ายของฉันหรือไม่

คำตอบ

EdM Aug 16 2020 at 04:17

ดังที่ Robert Long กล่าวในความคิดเห็นว่า "ด้วยการใส่เพียงครั้งเดียวคุณไม่ควรทำตั้งแต่แรก"

มีวิธีจัดการกับข้อมูลที่ขาดหายไปด้วยการใช้อินพุทหลายตัว แนวคิดคือการรับทราบและรวมความแปรปรวนในกระบวนการใส่ข้อมูลโดยการสร้างชุดข้อมูลที่แตกต่างกันหลายชุดที่มีความน่าจะเป็น จากนั้นคุณจะทำการวิเคราะห์ของคุณแยกกันในแต่ละชุดที่ประเมินไว้และรวมข้อมูลในลักษณะที่คำนึงถึงความแปรปรวนทั้งภายในและระหว่างชุด สิ่งนี้จะอยู่รอบ ๆ ความเป็นวงกลมโดยธรรมชาติที่คุณกลัวด้วยวิธีการใส่เพียงครั้งเดียว

ฟังก์ชั่นที่ใช้กระบวนการวิเคราะห์และประมวลผลมีอยู่ในระบบซอฟต์แวร์ทางสถิติจำนวนมาก หนังสือออนไลน์เล่มนี้เป็นข้อมูลเบื้องต้นที่เป็นประโยชน์ และใช่รวมถึงผลลัพธ์ (ราคาในกรณีของคุณ) เป็นส่วนสำคัญของกระบวนการใส่ข้อมูลหลายรายการ