आर में सिमुलेशन के माध्यम से अन्य भविष्यवाणियों को स्थिर रखना
salary
अपने वर्षों के अनुभव से कुछ प्रोफेसरों की भविष्यवाणी की कल्पना करें ( time
) उनके प्रकाशनों की संख्या को नियंत्रित / स्थिर रखने के लिएpubs
।
प्रश्न: क्या अनुकृति के माध्यम से उनकी सही, और प्रदर्शनकारी संख्या को स्थिर रखने के अर्थ के बारे में निम्नलिखित
pubs
हैR
?
कल्पना कीजिए कि हमारे पास अनगिनत प्रोफेसर थे, फिर उनमें से एक ही संख्या के साथ एक नमूना लें pubs
(जैसे,$1$)।
- केवल
time
प्रतिपादक के रूप में एक प्रतिगमन मॉडल को फिट करें , प्रतिगमन की सीमा प्राप्त करेंtime
। - के साथ एक और नमूना ले लो
pubs
की$2$, फिर से प्रतिगमन मॉडल को फिट करें, का प्रतिगमन कोफ़ प्राप्त करेंtime
। - बदलते रखें
pubs
करने के लिए$3, 4,…$और हर बार प्रतिगमन की सीमा प्राप्त करेंtime
।
अंत में, औसत के बारे में हमारी प्रतिगमन coefs के time
एक हो जाएगा आंशिक प्रतिगमन गुणांक कि के लिए नियंत्रित किया गया है pubs
, जबकि भविष्यवाणी प्रोफेसरों की salary
से time
।
ps क्या एक भविष्यवक्ता के लिए इसे नियंत्रित करने के समान है ?
जवाब
हां, यदि मॉडल सही ढंग से निर्दिष्ट है ।
मान लीजिए कि आपका डेटा द्वारा जनरेट किया गया है $$ y = \beta_1 x_1 + \beta_2 x_2 + \epsilon, \mbox{ where } E[\epsilon|x_1, x_2] = 0, $$ अर्थात $$ E[y|x_1, x_2] = \beta_1 x_1 + \beta_2 x_2. $$ मान लीजिए $x_1$ ब्याज का पूर्वसूचक है और $x_2$नियंत्रण है। नियंत्रण पर कंडीशनिंग$x_2$ देता है $$ E[y|x_2] = \beta_1 E[x_1|x_2] + \beta_2 x_2. \quad (*) $$
का अनुभवजन्य समकक्ष $(*)$ वह प्रतिगमन है जिसका आप सुझाव दे रहे हैं --- पुनः प्राप्त करें $y$ पर $x_1$ (इंटरसेप्ट के साथ) दिए गए मूल्य के लिए $x_2$। ध्यान दें कि किसी भी मूल्य के लिए$x_2$, इस प्रतिगमन सशर्त पर $x_2$ पहले से ही निष्पक्ष अनुमान लगाने वाला है $\beta_1$।
ओवर ओवर कर रहे हैं $x_2$अनुमान कम शोर करता है। धारणा$E[\epsilon|x_1, x_2] = 0$ तात्पर्य नमूने अनारक्षित हैं $x_2$। इसलिए औसत है$x_2$ एक छोटी मानक त्रुटि देता है।
टिप्पणी
बयान "पर प्रतिगमन सशर्त $x_2$ का एक निष्पक्ष आकलनकर्ता है $\beta_1$"सही विनिर्देश पर आकस्मिक है --- सही कार्यात्मक रूप / नहीं छोड़े गए चर / आदि। एक वास्तविक डेटा सेट में, आपको विश्वास करने का दावा करना होगा / सही कार्यात्मक रूप रैखिक है / कोई नियंत्रण नहीं छोड़ा गया है / आदि।
यदि सही जनसंख्या प्रतिगमन फ़ंक्शन रैखिक नहीं है लेकिन $E[\epsilon|x_1, x_2] = 0$ अभी भी रखती है, मैं के लिए OLS गुणांक के औसत की उम्मीद होगी $x_1$ पर प्रतिगमन स्थिति से $x_2$, इसे कहते हैं $\hat{\beta}_1|x_2$, ऊपर $x_2$ ओएलएस गुणांक के करीब होना $\hat{\beta}_1$।