Fournir la latitude et la longitude à un modèle de prix de l'immobilier
Je suis nouveau dans l'apprentissage automatique et j'essaie de comprendre comment optimiser les données d'un modèle. Je suis ce didacticiel officiel de Kaggle , qui enseigne les bases de l'apprentissage automatique grâce à la prévision des prix de l'immobilier. Ils utilisent un arbre de décision, mais j'ai trouvé étrange les caractéristiques qu'ils alimentent dans le modèle pour prédire le prix d'une maison :
house_price_features = ['Rooms', 'Bathroom', 'Landsize', 'Latitude', 'Longitude']
Les chambres, les salles de bains et la taille du terrain ont du sens pour moi - mais la latitude et la longitude ? Évidemment, il y a une corrélation entre l'emplacement et le prix, mais cela ne va pas suivre une belle courbe. Parfois, monter d'un immeuble doublera les prix de l'immobilier ; parfois, cela n'aura aucun effet du tout. Intuitivement, j'ai l'impression que tout ce qu'un modèle peut faire avec ces fonctionnalités pour prédire le prix est surajusté. Alors, ma question est double :
- Avaient-ils raison de donner à ce modèle la latitude et la longitude pour prédire le prix, ou s'agit-il d'informations superflues qui ne peuvent que nuire au modèle ? Pourquoi?
- Si la réponse à la question ci-dessus est "non", y a-t-il une transformation des données de latitude et de longitude (c'est-à-dire en identifiants de quartier) qui rendrait les données plus utiles ?
Réponses
La réponse est oui , car l'emplacement est généralement le principal moteur des prix des maisons au pied carré. Le laisser tomber détériorerait probablement les performances du modèle de manière dramatique.
Basées sur la latitude/longitude, les méthodes arborescentes divisent la carte en morceaux rectangulaires. Plus l'effet est fort et plus il y a de données dans une certaine zone, plus les pièces sont petites. Dans les régions moins denses, les morceaux ne seraient pas trop petits.
Vous ne les ajouteriez pas en tant qu'effets linéaires dans une régression linéaire. Là, vous devrez envisager différentes approches. Un simple serait de représenter lat/lon chacun par une spline cubique et d'ajouter des termes d'interaction entre eux.