Nhập các giá trị còn thiếu cho mô hình hồi quy tuyến tính, sử dụng hồi quy tuyến tính

Aug 16 2020

Tôi đã tìm kiếm một trang web bất động sản và muốn cung cấp dữ liệu bị thiếu về tổng diện tích (thiếu khoảng 40%) bằng cách sử dụng hồi quy tuyến tính. Tôi đạt được kết quả tốt nhất bằng cách sử dụng giá cả, số lượng phòng, phòng ngủ, phòng tắm và phòng trang điểm.

Việc thêm giá vào thông tin phòng sẽ tạo ra sự khác biệt đáng kể. Điều này có ý nghĩa, vì chỉ riêng số lượng phòng không cung cấp cho bạn bất kỳ thông tin nào về diện tích của những phòng đó. Giá cả có thể làm giảm một số bất ổn đó. Có sự khác biệt 20 điểm giữa điểm số R ^ 2 của mô hình bao gồm và mô hình không bao gồm giá (0,62 so với 0,82).

Vấn đề mà tôi thấy, là mô hình cuối cùng của tôi có thể cũng sẽ là một hồi quy lót với giá là mục tiêu. Với điều này, có vẻ như sai khi đưa giá vào dự đoán tổng diện tích áp dụng. Về bản chất, tôi đang sử dụng mục tiêu để dự đoán một tính năng và sau đó sử dụng tính năng đó để dự đoán lại mục tiêu. Đó là vòng tròn và có vẻ có vấn đề với tôi nhưng tôi có thể sai. Hệ quả là mô hình cuối cùng của tôi sẽ đẹp hơn nhưng tôi sẽ thiết kế một mối tương quan tổng hợp. Điều này có vẻ đặc biệt quan trọng vì khoảng 40% giá trị cần được thay thế.

Có ai không đồng ý với điều này? Tôi có nên giữ giá như một công cụ dự đoán để đưa ra các giá trị còn thiếu mặc dù nó sẽ là mục tiêu của mô hình cuối cùng của tôi?

Trả lời

EdM Aug 16 2020 at 04:17

Như Robert Long nói trong một bình luận, "Chỉ với một lần áp đặt, bạn không nên làm điều đó ngay từ đầu."

Có một cách được tôn trọng để xử lý dữ liệu bị thiếu, bằng cách thực hiện nhiều lần áp đặt. Ý tưởng là thừa nhận và kết hợp sự thay đổi trong quá trình áp đặt bằng cách tạo ra một số tập dữ liệu được áp đặt khác nhau theo xác suất. Sau đó, bạn thực hiện phân tích của mình một cách riêng biệt trên từng nhóm được quy định và kết hợp thông tin theo cách có tính đến cả sự biến thiên trong tập hợp và giữa các tập hợp. Điều đó xoay quanh sự tuần hoàn vốn có mà bạn thực sự sợ hãi với cách tiếp cận một lần.

Các chức năng thực hiện quá trình đặt và phân tích có sẵn trong nhiều hệ thống phần mềm thống kê. Cuốn sách trực tuyến này là một phần giới thiệu hữu ích. Và có, bao gồm cả kết quả (giá trong trường hợp của bạn) là một phần quan trọng của quá trình áp đặt nhiều lần .