Fornire latitudine e longitudine a un modello di prezzo della casa

Aug 16 2020

Sono nuovo nell'apprendimento automatico e sto cercando di avere un'idea di come ottimizzi i dati per un modello. Sto seguendo questo tutorial ufficiale di Kaggle , che insegna le basi dell'apprendimento automatico attraverso la previsione dei prezzi delle case. Usano un albero decisionale, ma ho trovato strano quali caratteristiche inseriscano nel modello per prevedere il prezzo di una casa:

house_price_features = ['Rooms', 'Bathroom', 'Landsize', 'Latitude', 'Longitude']

Stanze, bagni e dimensioni del terreno hanno tutti senso per me, ma latitudine e longitudine? Ovviamente c'è una correlazione tra posizione e prezzo, ma non seguirà una bella curva. A volte, salire di un blocco farà raddoppiare i prezzi delle case; a volte, non avrà alcun effetto. Intuitivamente, mi sembra che tutto ciò che un modello può fare con quelle caratteristiche nella previsione del prezzo sia overfit. Quindi la mia domanda è duplice:

  1. Avevano ragione nel dare a questo modello latitudine e longitudine per prevedere il prezzo, o queste informazioni estranee possono solo danneggiare il modello? Come mai?
  2. Se la risposta a quanto sopra è "no", c'è qualche trasformazione dei dati di latitudine e longitudine (cioè in ID di quartiere) che renderebbe i dati più utili?

Risposte

9 MichaelM Aug 15 2020 at 23:56

La risposta è perché la posizione di solito è il fattore principale dei prezzi delle case per metro quadrato. Rilasciarlo deteriorerebbe le prestazioni del modello probabilmente in modo drammatico.

Basato su lat/lon, i metodi basati sugli alberi dividono la mappa in pezzi rettangolari. Più forte è l'effetto e maggiore è il numero di dati in una determinata area, più piccoli sono i pezzi. Nelle regioni meno dense, i pezzi non sarebbero troppo piccoli.

Non li aggiungeresti come effetti lineari in una regressione lineare. Lì, dovresti considerare approcci diversi. Un semplice sarebbe rappresentare lat/lon ciascuno con una spline cubica e aggiungere termini di interazione tra di loro.