Memberikan lintang dan bujur untuk model harga rumah

Aug 16 2020

Saya baru mengenal pembelajaran mesin, dan saya mencoba memahami cara Anda mengoptimalkan data untuk sebuah model. Saya mengikuti tutorial resmi Kaggle ini , yang mengajarkan dasar-dasar pembelajaran mesin melalui prediksi harga rumah. Mereka menggunakan pohon keputusan, tetapi saya merasa aneh fitur mana yang mereka masukkan ke dalam model untuk memprediksi harga rumah:

house_price_features = ['Rooms', 'Bathroom', 'Landsize', 'Latitude', 'Longitude']

Kamar, kamar mandi, dan luas semuanya masuk akal bagi saya - tetapi lintang dan bujur? Jelas ada korelasi antara lokasi dan harga, tetapi tidak akan mengikuti kurva yang bagus. Terkadang, menaikkan blok akan meningkatkan harga rumah dua kali lipat; terkadang, hal itu tidak akan berpengaruh sama sekali. Secara intuitif, saya merasa semua model dapat melakukan dengan fitur-fitur itu dalam memprediksi harga adalah overfit. Jadi, pertanyaan saya ada dua:

  1. Apakah mereka benar dalam memberikan model garis lintang dan garis bujur untuk memprediksi harga, atau apakah informasi asing ini hanya dapat merugikan model? Mengapa?
  2. Jika jawaban di atas adalah "tidak", apakah ada transformasi data lintang dan bujur (yaitu menjadi ID lingkungan) yang akan membuat data lebih berguna?

Jawaban

9 MichaelM Aug 15 2020 at 23:56

Jawabannya adalah ya karena lokasi biasanya merupakan pendorong utama harga rumah per kaki persegi. Menghapusnya mungkin akan menurunkan kinerja model dengan cara yang dramatis.

Berdasarkan lintang / bujur, metode berbasis pohon membagi peta menjadi potongan-potongan persegi panjang. Semakin kuat efeknya dan semakin banyak data di area tertentu, semakin kecil potongannya. Di daerah yang kurang padat, potongannya tidak akan terlalu kecil.

Anda tidak akan menambahkannya sebagai efek linier dalam regresi linier. Di sana, Anda perlu mempertimbangkan pendekatan yang berbeda. Cara sederhananya adalah merepresentasikan lintang / bujur masing-masing dengan spline kubik dan menambahkan istilah interaksi di antara keduanya.