เหตุใด Log odds จึงถูกจำลองเป็นฟังก์ชันเชิงเส้น

Jan 04 2021

ฉันคิดว่าฉันมีคำตอบอยู่แล้วอย่างไรก็ตามฉันต้องการคำยืนยันว่าฉันไม่ได้พลาดอะไรที่นี่ คำถามประเภทนี้ถามเหมือนกัน แต่ฉันต้องการตรวจสอบอีกครั้ง

การถดถอยโลจิสติกสามารถได้รับการกระตุ้นผ่านทั่วไปแบบจำลองเชิงเส้น

โดยพื้นฐานแล้ว GLM กล่าวว่าเราสร้างแบบจำลองมูลค่าที่คาดว่าจะถูกแปลง (“ เชื่อมโยง” เพื่อที่จะพูด) $\mu$ ของตัวแปร $Y$กำหนดตัวแปรร่วม / คุณสมบัติเป็นฟังก์ชันเชิงเส้น ขอเรียกฟังก์ชั่นลิงค์$g()$. ในกรณีของแบบจำลองการถดถอยเชิงเส้นแบบคลาสสิกฟังก์ชันนี้จะเป็นฟังก์ชันเอกลักษณ์ ถ้า$Y$ เป็นไบนารีค่าที่คาดหวังจะเท่ากับ $p = P(Y = 1)$. ในแบบจำลองการถดถอยโลจิสติกเราจำลองlog-oddsเป็นฟังก์ชันเชิงเส้น:

$$ \log\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1x_1 + \dots + \beta_Kx_K$$

ดังนั้นสมมติฐานก็คือ log-odds ถูกอธิบายไว้อย่างเพียงพอโดยฟังก์ชันเชิงเส้น ฟังก์ชั่น logit แต่อย่างเห็นได้ชัดไม่ได้เป็นฟังก์ชั่นการเชิงเส้น ถึงกระนั้นมันก็มีค่าประมาณอย่างสมเหตุสมผลโดยฟังก์ชันเชิงเส้นถ้าเราตัดทอนช่วงความน่าจะเป็นไปเป็นบางอย่างเช่น$0.05 < p < 0.95$.

คำถาม: เหตุใดเราจึงจำลอง log-odds เป็นฟังก์ชันเชิงเส้นในเมื่อไม่ใช่เชิงเส้นสำหรับความน่าจะเป็นน้อยและมาก

คำตอบของฉันก็คือเนื่องจากเราสนใจในมูลค่าที่คาดหวังเราจึงถือว่า (!) ว่าช่วงความน่าจะเป็นที่เกี่ยวข้องที่เราพยายามประเมินนั้นไม่มีความน่าจะเป็นที่“ สุดขั้ว” เหล่านี้ ดังนั้นโดยพื้นฐานแล้วเราเพียงแค่เพิกเฉยต่อความไม่เป็นเชิงเส้น

แก้ไข?

คำตอบ

2 passerby51 Jan 05 2021 at 00:57

ความคิดเห็นกลายเป็นคำตอบ:

ดูเหมือนคุณจะสับสนสองสิ่ง: (1) "logit" ไม่เป็นเชิงเส้น $p$(2) สมมติว่า logit ของ p เป็นเส้นตรงในสารโควาเรียต จุดแรกไม่มีผลต่อจุดที่สองเว้นแต่คุณจะเชื่อว่าความน่าจะเป็นในตัวเองควรขึ้นอยู่กับความแปรปรวนร่วมแบบเชิงเส้นซึ่งอาจจะดูไร้สาระมากกว่าเมื่อพิจารณาว่า p จะต้องอยู่ใน [0,1]