Cung cấp vĩ độ và kinh độ cho mô hình giá nhà
Tôi là người mới làm quen với công nghệ máy học và tôi đang cố gắng hiểu cách bạn tối ưu hóa dữ liệu cho một mô hình. Tôi đang theo dõi hướng dẫn chính thức của Kaggle , hướng dẫn này dạy những điều cơ bản về máy học thông qua dự đoán giá nhà. Họ sử dụng cây quyết định, nhưng tôi thấy thật kỳ lạ khi họ đưa các tính năng vào mô hình để dự đoán giá của một ngôi nhà:
house_price_features = ['Rooms', 'Bathroom', 'Landsize', 'Latitude', 'Longitude']
Phòng, phòng tắm và kích thước tiếp đất đều có ý nghĩa đối với tôi - nhưng vĩ độ và kinh độ? Rõ ràng là có mối tương quan giữa vị trí và giá cả, nhưng nó sẽ không đi theo một đường cong đẹp. Đôi khi, việc tăng một khu nhà sẽ khiến giá nhà tăng gấp đôi; đôi khi, nó sẽ không có tác dụng gì cả. Theo trực giác, tôi cảm thấy như tất cả những gì một mô hình có thể làm với những tính năng đó trong việc dự đoán giá là quá phù hợp. Vì vậy, câu hỏi của tôi gấp đôi:
- Họ đã đúng khi đưa ra kinh độ và vĩ độ của mô hình này để dự đoán giá cả hay là thông tin không liên quan chỉ có thể làm tổn hại đến mô hình? Tại sao?
- Nếu câu trả lời ở trên là "không", thì có bất kỳ sự chuyển đổi nào của dữ liệu kinh độ và vĩ độ (tức là thành ID vùng lân cận) sẽ làm cho dữ liệu hữu ích hơn không?
Trả lời
Câu trả lời là có vì vị trí thường là động lực chính của giá nhà trên mỗi feet vuông. Việc đánh rơi nó có thể làm giảm hiệu suất của mô hình một cách đáng kể.
Dựa trên vĩ độ / vĩ độ, các phương pháp dựa trên cây chia bản đồ thành các mảnh hình chữ nhật. Hiệu ứng càng mạnh và càng nhiều dữ liệu trong một khu vực nhất định, các mảnh càng nhỏ. Ở những vùng ít mật độ hơn, các mảnh sẽ không quá nhỏ.
Bạn sẽ không thêm chúng dưới dạng hiệu ứng tuyến tính trong hồi quy tuyến tính. Ở đó, bạn sẽ cần phải xem xét các cách tiếp cận khác nhau. Một cách đơn giản là biểu diễn vĩ độ / kinh độ từng đường nét khối và thêm các thuật ngữ tương tác giữa chúng.