Giữ các yếu tố dự báo khác không đổi thông qua mô phỏng trong R
Hãy tưởng tượng dự đoán salary
của một số giáo sư từ nhiều năm kinh nghiệm của họ ( time
) kiểm soát / nắm giữ không đổi số lượng xuất bản của họ ( pubs
).
Câu hỏi: Điều sau đây có liên quan đến ý nghĩa của việc giữ hằng số của chúng
pubs
đúng và có thể chứng minh được thông qua mô phỏng trongR
không?
Hãy tưởng tượng chúng ta có vô số giáo sư, sau đó lấy một mẫu trong số họ với cùng một số lượng pubs
(ví dụ:$1$).
- Phù hợp với một mô hình hồi quy chỉ
time
làm công cụ dự đoán, lấy hệ số hồi quy làtime
. - Đi một mẫu với
pubs
các$2$, Điều chỉnh lại mô hình hồi quy, lấy hệ số hồi quy làtime
. - Tiếp tục thay đổi
pubs
thành$3, 4,…$và mỗi lần lấy hệ số hồi quy làtime
.
Cuối cùng, trung bình của hệ số hồi quy của chúng tôi time
sẽ là một hệ số hồi quy một phần đã được kiểm soát cho các pubs
giáo sư trong khi dự đoán salary
từ time
.
ps Việc kiểm soát một dự đoán có tương tự như tích hợp nó ra không?
Trả lời
Có, nếu mô hình được chỉ định chính xác .
Giả sử dữ liệu của bạn được tạo bởi $$ y = \beta_1 x_1 + \beta_2 x_2 + \epsilon, \mbox{ where } E[\epsilon|x_1, x_2] = 0, $$ I E $$ E[y|x_1, x_2] = \beta_1 x_1 + \beta_2 x_2. $$ Giả sử $x_1$ là yếu tố dự đoán về sự quan tâm và $x_2$là kiểm soát. Điều chỉnh điều khiển$x_2$ cho $$ E[y|x_2] = \beta_1 E[x_1|x_2] + \beta_2 x_2. \quad (*) $$
Bản đối chiếu kinh nghiệm của $(*)$ là hồi quy bạn đang đề xuất --- hồi quy $y$ trên $x_1$ (với số chặn) cho một giá trị nhất định của $x_2$. Lưu ý rằng đối với bất kỳ giá trị nhất định nào của$x_2$, hồi quy này có điều kiện về $x_2$ đã là một ước tính không thiên vị về $\beta_1$.
Tính trung bình $x_2$làm cho ước tính ít ồn hơn. Giả định$E[\epsilon|x_1, x_2] = 0$ ngụ ý rằng các mẫu không liên quan đến $x_2$. Do đó, tính trung bình trên$x_2$ cho một sai số tiêu chuẩn nhỏ hơn.
Bình luận
Câu lệnh "hồi quy có điều kiện về $x_2$ là một ước tính không thiên vị về $\beta_1$"là tùy thuộc vào đặc điểm kỹ thuật chính xác --- dạng chức năng chính xác / không có biến bị bỏ qua / v.v.
Nếu hàm hồi quy tổng thể thực sự không tuyến tính nhưng $E[\epsilon|x_1, x_2] = 0$ vẫn giữ nguyên, tôi mong đợi hệ số OLS trung bình cho $x_1$ từ hồi quy có điều kiện về $x_2$, gọi nó đi $\hat{\beta}_1|x_2$, kết thúc $x_2$ gần với hệ số OLS $\hat{\beta}_1$.