線形回帰を使用して、線形回帰モデルに欠測値を代入する
不動産のウェブサイトをスクレイピングし、線形回帰を使用して、不足しているデータを総面積(約40%が不足している)に代入したいと思います。価格、部屋数、寝室、バスルーム、パウダールームを使用して最良の結果を達成します。
部屋情報に価格を追加すると、大きな違いが生じます。部屋の数だけでは、それらの部屋の大きさに関する情報は得られないため、これは理にかなっています。価格はその不確実性の一部を減らすことができます。価格を含むモデルと含まないモデルのR ^ 2スコアには20ポイントの違いがあります(0.62対0.82)。
私が見ている問題は、私の最終モデルも価格をターゲットとした線形回帰である可能性が高いということです。これにより、代入の総面積を予測する際に価格を含めるのは間違っているようです。本質的に、私はターゲットを使用して機能を予測し、次にその機能を使用してターゲットを再度予測しています。それは循環的で、私には問題があるように見えますが、私は間違っている可能性があります。結果として、私の最終モデルは見栄えが良くなりますが、合成相関を設計します。値の約40%を置き換える必要があるため、これは特に重要なようです。
誰かがこれに同意しませんか?最終モデルのターゲットになる場合でも、欠測値を代入するための予測子として価格を維持する必要がありますか?
回答
Robert Longがコメントで述べているように、「単一の代入では、そもそもそれを行うべきではありません」。
複数の代入を行うことにより、欠測データを処理するための尊敬される方法があります。アイデアは、確率的にいくつかの異なる代入データセットを生成することにより、代入プロセスの変動性を認識して組み込むことです。次に、入力された各セットに対して個別に分析を実行し、セット内とセット間の変動性の両方を考慮した方法で情報を結合します。これは、単一代入アプローチで当然恐れる固有の循環性を回避します。
代入および分析プロセスを実装する関数は、多くの統計ソフトウェアシステムで使用できます。このオンラインブックは役立つ紹介です。そして、はい、結果(あなたの場合の価格)を含めることは、多重代入プロセスの重要な部分です。