Podanie szerokości i długości geograficznej do modelu ceny domu

Aug 16 2020

Jestem nowy w uczeniu maszynowym i staram się zrozumieć, jak optymalizujesz dane dla modelu. Podążam za tym oficjalnym samouczkiem Kaggle , który uczy podstaw uczenia maszynowego poprzez przewidywanie cen domów. Korzystają z drzewa decyzyjnego, ale wydaje mi się dziwne, jakie funkcje wprowadzają do modelu, aby przewidzieć cenę domu:

house_price_features = ['Rooms', 'Bathroom', 'Landsize', 'Latitude', 'Longitude']

Pokoje, łazienki i krajobraz mają dla mnie sens - ale szerokość i długość geograficzna? Oczywiście istnieje korelacja między lokalizacją a ceną, ale nie będzie to przebiegać według ładnej krzywej. Czasami przejście w górę spowoduje dwukrotny wzrost cen domów; czasami nie przyniesie to żadnego efektu. Intuicyjnie czuję, że wszystko, co model może zrobić z tymi cechami w przewidywaniu ceny, jest przesadzone. Moje pytanie jest więc dwojakie:

  1. Czy mieli rację, podając temu modelowi szerokość i długość geograficzną do przewidywania ceny, czy też te obce informacje mogą tylko zaszkodzić modelowi? Czemu?
  2. Jeśli odpowiedź na powyższe pytanie brzmi „nie”, czy istnieje jakakolwiek transformacja danych dotyczących szerokości i długości geograficznej (tj. Na identyfikatory sąsiedztwa), która uczyniłaby dane bardziej przydatnymi?

Odpowiedzi

9 MichaelM Aug 15 2020 at 23:56

Odpowiedź brzmi: tak, ponieważ lokalizacja zwykle jest głównym czynnikiem wpływającym na ceny domów za stopę kwadratową. Upuszczenie go prawdopodobnie pogorszyłoby wydajność modelu w dramatyczny sposób.

Opierając się na szerokości / długości geograficznej, metody oparte na drzewach dzielą mapę na prostokątne części. Im silniejszy efekt i im więcej danych w określonym obszarze, tym mniejsze fragmenty. W mniej gęstych regionach kawałki nie byłyby zbyt małe.

Nie dodasz ich jako efektów liniowych w regresji liniowej. Tam należałoby rozważyć różne podejścia. Prostym rozwiązaniem byłoby przedstawienie każdej szerokości / długości krzywej sześciennej i dodanie między nimi warunków interakcji.