주택 가격 모델에 위도와 경도 제공
저는 기계 학습을 처음 접했고 모델에 대한 데이터를 최적화하는 방법을 이해하려고합니다. 저는 주택 가격 예측을 통해 기계 학습의 기초를 가르치는 이 공식 Kaggle 튜토리얼을 따르고 있습니다 . 그들은 의사 결정 트리를 사용하지만 주택 가격을 예측하기 위해 모델에 어떤 기능을 제공하는지가 이상하다는 것을 알았습니다.
house_price_features = ['Rooms', 'Bathroom', 'Landsize', 'Latitude', 'Longitude']
방, 욕실 및 토지 크기는 모두 나에게 의미가 있지만 위도와 경도? 분명히 위치와 가격 사이에는 상관 관계가 있지만 좋은 곡선을 따르지는 않을 것입니다. 때로는 블록을 올리면 집값이 두 배로 올라갑니다. 때로는 전혀 효과가 없습니다. 직관적으로, 가격을 예측할 때 모델이 이러한 기능으로 할 수있는 모든 작업이 과잉 적합하다고 생각합니다. 그래서 제 질문은 두 가지입니다.
- 가격을 예측하기 위해이 모델에 위도와 경도를 제공하는 것이 옳았습니까, 아니면 모델을 손상시킬 수있는이 외부 정보입니까? 왜?
- 위의 답변이 "아니요"인 경우 데이터를 더 유용하게 만드는 위도 및 경도 데이터 (예 : 이웃 ID로)의 변환이 있습니까?
답변
9 MichaelM
대답은 ' 예'입니다. 일반적으로 위치가 평방 피트 당 주택 가격의 주요 동인이기 때문입니다. 이를 삭제하면 아마도 극적인 방식으로 모델 성능이 저하 될 것입니다.
위도 / 경도를 기반으로 트리 기반 방법은지도를 직사각형 조각으로 나눕니다. 효과가 강하고 특정 영역의 데이터가 많을수록 조각이 작아집니다. 밀도가 낮은 지역에서는 조각이 너무 작지 않습니다.
선형 회귀에서 선형 효과로 추가하지 않습니다. 거기에서 다른 접근 방식을 고려해야합니다. 간단한 방법은 각각 3 차 스플라인으로 위도 / 경도를 표현하고 그 사이에 상호 작용 조건을 추가하는 것입니다.