พหุนามในรูปแบบการถดถอย (แบบจำลองลำดับชั้นแบบเบย์)
ฉันไม่ใช่นักสถิติที่ได้รับการฝึกฝนมาและกำลังต้องการคำชี้แจงเกี่ยวกับแบบจำลองจากวรรณกรรม การศึกษาในคำถามคือ ` ลำดับชั้นกรอบสำหรับการแก้ไขภายใต้การรายงานในจำนวนข้อมูล แบบจำลองที่กำหนดโดยสมการ 11 ถึง 14 (พร้อมตัวห้อยคำที่ไม่เกี่ยวข้องถูกลบออกเพื่อให้ตีความได้ง่ายขึ้น):$$ \begin{align} z_{t} \mid y_{t} &\sim \operatorname{Binomial}\left(\pi, y_t \right) \\ \log \left(\frac{\pi}{1-\pi}\right)&=\beta_{0}+g\left(u\right) \\ y_{t} &\sim \operatorname{Poisson}\left(\lambda_{t}\right) \\ \log \left(\lambda_{t}\right) &=\log \left(P_{t, s}\right)+a_{0}+f_{1}\left(x_{s}^{(1)}\right)+f_{2}\left(x_{s}^{(2)}\right) \\ &+f_{3}\left(x_{s}^{(3)}\right)+f_{4}\left(x_{s}^{(4)}\right) \end{align} $$
ที่ไหน $z_t$ มีการสังเกตจำนวนและ $y_t$เป็นของจริงนับจริง และฟังก์ชั่นต่างๆ$g, f_1, \ldots, f_4(\cdot)$ เป็น (จากกระดาษ)
พหุนามมุมฉากที่องศา 3,2,2,2 เมื่อเทียบกับพหุนามแบบดิบสิ่งเหล่านี้จะลดความเป็นหลายคอลลิเนียร์ระหว่างคำศัพท์เชิงเดี่ยว (Kennedy และ Gentle 1980) และถูกตั้งค่าโดยใช้ฟังก์ชัน "poly" ใน R
จากความเข้าใจของฉันโมเดลนี้จะประมาณจำนวนจริงก่อน $y_t$. การนับที่แท้จริงนั้นขึ้นอยู่กับสูตรการถดถอยโลจิสติกที่ตัวแปรร่วมคือประชากรและตัวบ่งชี้ทางสังคมเช่น$x_s^{(1)} = $การว่างงาน. ตัวแปรที่ใช้เป็น input เพื่อฟังก์ชั่นมุมฉาก เมื่อประเมินจำนวนจริงแล้วจะใช้ค่านั้นในแบบจำลองทวินามเพื่อนับจำนวน "ความสำเร็จ" นั่นคือจำนวนที่สังเกตได้ ความน่าจะเป็นของความสำเร็จในกรณีนี้จะได้รับจากสูตรการถดถอยอื่นที่มีฟังก์ชันมุมฉากสำหรับโควาเรียต
คำถามของฉันค่อนข้างง่าย:
สิ่งที่สำคัญมากเกี่ยวกับการใช้ฟังก์ชันมุมฉากในแบบจำลองการถดถอย เหตุใดจึงไม่สามารถใช้สัมประสิทธิ์อย่างง่าย (และค่าสัมประสิทธิ์เหล่านี้ประมาณในการใช้งานแบบเบย์)
การตีความ
log
ของ$\pi$ และ $\lambda$. สำหรับ$\pi$ฉันเดาว่าสูตรการถดถอยสามารถประเมินเป็นตัวเลขภายนอก (0, 1) ได้ดังนั้น ilogit จะแปลงค่าระหว่าง 0, 1 ฉันไม่เข้าใจว่าทำไมบันทึกจึงใช้สำหรับ $\lambda$.
คำตอบ
จัดการ 2. ก่อน
ตามที่คุณคาดเดาการเปลี่ยนแปลงลอจิทของ $\pi$ได้รับการออกแบบมาเพื่อให้สูตรการถดถอยไม่มีข้อ จำกัด เกี่ยวกับค่า ค่าใด ๆ จะถูกจับคู่เป็น$(0,1)$. เช่นเดียวกับการเปลี่ยนแปลงบันทึกของ$\lambda$: $\lambda$ จะต้องเป็นค่าบวกและการใช้การแปลงบันทึกช่วยให้สูตรการถดถอยสามารถรับค่าใด ๆ บวกหรือลบ
ส่วนบันทึกของการแปลงทั้งสองยังหมายความว่าเราได้โมเดลหลายหลากมากกว่าส่วนเติมแต่งซึ่งมักจะเหมาะสมกว่าสำหรับการนับและสัดส่วน
และเหนือสิ่งอื่นใดมีเหตุผลทางคณิตศาสตร์ที่การแปลงเหล่านี้สำหรับการแจกแจงเฉพาะเหล่านี้นำไปสู่การคำนวณที่เป็นระเบียบเรียบร้อยขึ้นเล็กน้อยและเป็นค่าเริ่มต้นแม้ว่านั่นไม่น่าจะเป็นเหตุผลที่สำคัญมากนัก
ตอนนี้สำหรับฟังก์ชันมุมฉาก สิ่งเหล่านี้ไม่ได้พูด$f_1$ เป็นมุมฉากกับ $f_2$; ขึ้นอยู่กับข้อมูลที่จะตัดสินใจ พวกเขากำลังพูดอย่างนั้น$f_1$ เป็นพหุนามกำลังสองใน $x^{(1)}$และนำไปใช้เป็นผลรวมถ่วงน้ำหนักของคำที่ตั้งฉากกันแทนที่จะเป็นผลรวมถ่วงน้ำหนักของ $x$, $x^2$. ความจริงแล้วพหุนามมุมฉากนั้นขึ้นอยู่กับข้อมูล แต่ลองแกล้งทำเป็นว่าข้อมูลมีระยะห่างเท่า ๆ กัน$[-1,1]$ และพวกมันคือพหุนามเชบีเชฟ $T_0(x)=1,\, T_1(x)=x,\, T_2(x)=2x^2-1,\, T_3(x)=4x^3-3x$.
ถ้าเราแค่ทำตามความเป็นไปได้สูงสุดสิ่งนี้จะไม่สำคัญเลย สมมติว่าค่าประมาณ ML ตามอำนาจของ$x$ คือ $-0.1+2.7x-3x^2+4.5x^3$. เราสามารถเขียนสิ่งนี้ใหม่ในรูปของพหุนามมุมฉาก: สัมประสิทธิ์ของ$T_3$ จะต้องเป็น 4.5 / 4 เพื่อสร้างไฟล์ $x^3$การแข่งขันและส่วนที่เหลือจะนำไปคำนวณ ปรากฎว่าเป็น$-1.6T_0+6.075T_1-1.5T_2+1.125T_3$. สิ่งเหล่านี้เป็นพหุนามเดียวกันเป็นเพียงวิธีการเขียนแบบจำลองเดียวกันที่แตกต่างกันและในกรณีนี้ (และเกือบตลอดเวลาในคอมพิวเตอร์สมัยใหม่) collinearity ไม่ได้อยู่ใกล้มากพอที่จะทำให้เกิดปัญหาการปัดเศษตัวเลข
อย่างไรก็ตามด้วยการอนุมานแบบเบย์มีคำถามของนักบวช มันสมเหตุสมผลกว่าที่จะใส่นักบวชอิสระ ($\alpha_j$ และ $\beta_k$ ในกระดาษ) บนสัมประสิทธิ์ของพหุนามมุมฉากมากกว่าที่จะใส่ไพรเออร์อิสระในสัมประสิทธิ์ของ $x$, $x^2$, $x^3$. ดังนั้นสมมติฐานของฉันคือเลือกพหุนามมุมฉากเพื่อให้ค่อนข้างแบน ($N(0,10^2)$) นักบวชอิสระเกี่ยวกับสัมประสิทธิ์ของพวกเขามีเหตุผล