Giữ các yếu tố dự báo khác không đổi thông qua mô phỏng trong R

Aug 16 2020

Hãy tưởng tượng dự đoán salarycủa một số giáo sư từ nhiều năm kinh nghiệm của họ ( time) kiểm soát / nắm giữ không đổi số lượng xuất bản của họ ( pubs).

Câu hỏi: Điều sau đây có liên quan đến ý nghĩa của việc giữ hằng số của chúng pubsđúng và có thể chứng minh được thông qua mô phỏng trong Rkhông?

Hãy tưởng tượng chúng ta có vô số giáo sư, sau đó lấy một mẫu trong số họ với cùng một số lượng pubs(ví dụ:$1$).

  • Phù hợp với một mô hình hồi quy chỉ timelàm công cụ dự đoán, lấy hệ số hồi quy là time.
  • Đi một mẫu với pubscác$2$, Điều chỉnh lại mô hình hồi quy, lấy hệ số hồi quy là time.
  • Tiếp tục thay đổi pubsthành$3, 4,…$và mỗi lần lấy hệ số hồi quy là time.

Cuối cùng, trung bình của hệ số hồi quy của chúng tôi timesẽ là một hệ số hồi quy một phần đã được kiểm soát cho các pubsgiáo sư trong khi dự đoán salarytừ time.

ps Việc kiểm soát một dự đoán có tương tự như tích hợp nó ra không?

Trả lời

1 Michael Aug 17 2020 at 02:22

Có, nếu mô hình được chỉ định chính xác .

Giả sử dữ liệu của bạn được tạo bởi $$ y = \beta_1 x_1 + \beta_2 x_2 + \epsilon, \mbox{ where } E[\epsilon|x_1, x_2] = 0, $$ I E $$ E[y|x_1, x_2] = \beta_1 x_1 + \beta_2 x_2. $$ Giả sử $x_1$ là yếu tố dự đoán về sự quan tâm và $x_2$là kiểm soát. Điều chỉnh điều khiển$x_2$ cho $$ E[y|x_2] = \beta_1 E[x_1|x_2] + \beta_2 x_2. \quad (*) $$

Bản đối chiếu kinh nghiệm của $(*)$ là hồi quy bạn đang đề xuất --- hồi quy $y$ trên $x_1$ (với số chặn) cho một giá trị nhất định của $x_2$. Lưu ý rằng đối với bất kỳ giá trị nhất định nào của$x_2$, hồi quy này có điều kiện về $x_2$ đã là một ước tính không thiên vị về $\beta_1$.

Tính trung bình $x_2$làm cho ước tính ít ồn hơn. Giả định$E[\epsilon|x_1, x_2] = 0$ ngụ ý rằng các mẫu không liên quan đến $x_2$. Do đó, tính trung bình trên$x_2$ cho một sai số tiêu chuẩn nhỏ hơn.

Bình luận

Câu lệnh "hồi quy có điều kiện về $x_2$ là một ước tính không thiên vị về $\beta_1$"là tùy thuộc vào đặc điểm kỹ thuật chính xác --- dạng chức năng chính xác / không có biến bị bỏ qua / v.v.

Nếu hàm hồi quy tổng thể thực sự không tuyến tính nhưng $E[\epsilon|x_1, x_2] = 0$ vẫn giữ nguyên, tôi mong đợi hệ số OLS trung bình cho $x_1$ từ hồi quy có điều kiện về $x_2$, gọi nó đi $\hat{\beta}_1|x_2$, kết thúc $x_2$ gần với hệ số OLS $\hat{\beta}_1$.