ถือค่าคงที่ตัวทำนายอื่น ๆ ผ่านการจำลองใน R

Aug 16 2020

ลองนึกภาพการทำนายsalaryของอาจารย์บางคนจากประสบการณ์หลายปี ( time) ควบคุม / รักษาจำนวนสิ่งพิมพ์ให้คงที่ ( pubs)

คำถาม:สิ่งต่อไปนี้เกี่ยวกับความหมายของการถือครองคงที่จำนวนที่pubsถูกต้องและสามารถพิสูจน์ได้ผ่านการจำลองในRหรือไม่?

ลองนึกภาพว่าเรามีอาจารย์จำนวนนับไม่ถ้วนจากนั้นจึงนำตัวอย่างของพวกเขาที่มีจำนวนเท่ากันpubs(เช่น$1$).

  • เหมาะสมกับรูปแบบการถดถอยที่มีเพียงtimeเป็นปัจจัยบ่งชี้ที่ได้รับ COEF timeถดถอยของ
  • นำตัวอย่างอื่นที่มีpubsของ$2$พอดีตัวแบบการถดถอยอีกครั้งได้รับ COEF timeถดถอยของ
  • เปลี่ยนpubsเป็น$3, 4,…$และทุกครั้งที่ได้รับ COEF timeถดถอยของ

ในตอนท้ายเฉลี่ยของ coefs ถดถอยของเราtimeจะมีค่าสัมประสิทธิ์การถดถอยบางส่วนที่มีการควบคุมสำหรับpubsอาจารย์ในขณะที่การคาดการณ์จากsalarytime

ps การควบคุมตัวทำนายคล้ายกับการรวมเข้าด้วยกันหรือไม่?

คำตอบ

1 Michael Aug 17 2020 at 02:22

ใช่ถ้ารูปแบบไว้อย่างถูกต้อง

สมมติว่าข้อมูลของคุณสร้างขึ้นโดย $$ y = \beta_1 x_1 + \beta_2 x_2 + \epsilon, \mbox{ where } E[\epsilon|x_1, x_2] = 0, $$ กล่าวคือ $$ E[y|x_1, x_2] = \beta_1 x_1 + \beta_2 x_2. $$ สมมติ $x_1$ เป็นตัวทำนายความสนใจและ $x_2$คือการควบคุม การปรับสภาพบนตัวควบคุม$x_2$ ให้ $$ E[y|x_2] = \beta_1 E[x_1|x_2] + \beta_2 x_2. \quad (*) $$

คู่ของเชิงประจักษ์ของ $(*)$ คือการถดถอยที่คุณกำลังแนะนำ --- ถดถอย $y$ บน $x_1$ (พร้อมการสกัดกั้น) สำหรับค่าที่กำหนดเป็น $x_2$. โปรดทราบว่าสำหรับค่าที่ระบุของ$x_2$เงื่อนไขการถดถอยนี้เปิดอยู่ $x_2$ เป็นตัวประมาณที่เป็นกลางอยู่แล้ว $\beta_1$.

เฉลี่ยมากกว่า $x_2$ทำให้ประมาณมีเสียงดังน้อยลง สมมติฐาน$E[\epsilon|x_1, x_2] = 0$ หมายความว่ากลุ่มตัวอย่างไม่เกี่ยวข้องกัน $x_2$. จึงมีค่าเฉลี่ยมากกว่า$x_2$ ให้ข้อผิดพลาดมาตรฐานที่เล็กกว่า

แสดงความคิดเห็น

คำสั่ง "เงื่อนไขการถดถอยบน $x_2$ เป็นตัวประมาณที่เป็นกลางของ $\beta_1$"ขึ้นอยู่กับข้อกำหนดที่ถูกต้อง --- รูปแบบการทำงานที่ถูกต้อง / ไม่มีตัวแปรที่ละไว้ / ฯลฯ ในชุดข้อมูลจริงคุณจะต้องเต็มใจที่จะเชื่อ / อ้างว่ารูปแบบการทำงานที่แท้จริงเป็นแบบเชิงเส้น / ไม่มีการละเว้นการควบคุม / ฯลฯ

ถ้าฟังก์ชันการถดถอยประชากรจริงไม่ใช่เชิงเส้น แต่ $E[\epsilon|x_1, x_2] = 0$ ยังคงถืออยู่ฉันคาดว่าจะมีค่าสัมประสิทธิ์ OLS โดยเฉลี่ยสำหรับ $x_1$ จากเงื่อนไขการถดถอยบน $x_2$โทร $\hat{\beta}_1|x_2$, เกิน $x_2$ ใกล้เคียงกับค่าสัมประสิทธิ์ OLS $\hat{\beta}_1$.