住宅価格モデルに緯度と経度を提供する
私は機械学習に不慣れで、モデルのデータを最適化する方法を理解しようとしています。私はこの公式のKaggleチュートリアルに従っています。このチュートリアルでは、住宅価格の予測を通じて機械学習の基本を学びます。彼らは決定木を使用しますが、家の価格を予測するためにモデルにフィードする機能は奇妙だと思いました。
house_price_features = ['Rooms', 'Bathroom', 'Landsize', 'Latitude', 'Longitude']
部屋、バスルーム、土地の大きさはすべて私には理にかなっていますが、緯度と経度は?明らかに場所と価格の間には相関関係がありますが、それは良い曲線をたどることはありません。時々、ブロックを上げると住宅価格が2倍になります。場合によっては、まったく効果がないこともあります。直感的には、価格が過剰適合であると予測する際に、これらの機能を使用してすべてのモデルで実行できるように感じます。したがって、私の質問は2つあります。
- 価格を予測するためにこのモデルに緯度と経度を与えるのは正しいのでしょうか、それともモデルを傷つけるだけのこの無関係な情報でしょうか?どうして?
- 上記の答えが「いいえ」の場合、データをより役立つものにする緯度と経度のデータの変換(つまり近隣IDへの変換)はありますか?
回答
9 MichaelM
通常、場所が1平方フィートあたりの住宅価格の主な要因であるため、答えは「はい」です。それを落とすと、おそらく劇的な方法でモデルのパフォーマンスが低下します。
lat / lonに基づいて、ツリーベースの方法でマップを長方形に分割します。効果が強く、特定の領域のデータが多いほど、断片は小さくなります。密度の低い領域では、ピースは小さすぎません。
線形回帰で線形効果としてそれらを追加することはありません。そこでは、さまざまなアプローチを検討する必要があります。簡単なのは、lat / lonをそれぞれ3次スプラインで表し、それらの間に交互作用項を追加することです。