Какая связь между коэффициентами простой линейной и множественной линейной регрессии?
Итак, простота, давайте ограничим случай множественной линейной регрессии двумя предикторами, $x_1, x_2$. Ты регресс$y$ по каждому индивидуально и получите $\hat{\beta}_1, \hat{\beta}_2$. Теперь ты регрессируешь$y$ на обоих и получить $\hat{\gamma}_1, \hat{\gamma}_2$.
Так что я знаю, если $x_1 \perp x_2$, тогда $\hat{\beta}_i = \hat{\gamma}_i$, но если они не ортогональны, что можно сказать об отношениях между ними?
Если бы в каждом из случаев простой линейной регрессии наклон был положительным, т. Е. $\hat{\beta}_1, \hat{\beta_2} > 0$мы можем ожидать $\hat{\gamma}_1, \hat{\gamma}_2 > 0$?
Я только что задал этот вопрос по математике SE (https://math.stackexchange.com/questions/3791992/relationship-between-projection-of-y-onto-x-1-x-2-individually-vs-projecti), но я ищу больше интуиции в линейной алгебре в этом вопросе. Здесь я открываюсь для любой интуиции, статистической или нет.
Ответы
Вот простой пример, который дает понимание.
y = c(5.8,5.2,4.7,8.7,8.1,7.7,10.2,9.6,9.0)
x1 = c(1,1.5,2,1.8,2.7,3.5,3,4,4.5)
x2 = c(1,1,1,2,2,2,3,3,3)
summary(lm(y~x1))
summary(lm(y~x2))
summary(lm(y~x1+x2))
plot(x1,y,col=x2)
legend("topleft", c("x2=1", "x2=2", "x2=3"), pch=1, col=1:3)
Простые регрессии имеют значительные положительные взаимосвязи, но множественная регрессия показывает, что эффект x1 значительный и отрицательный. График ясно дает интуицию:
Игнорируя x1, обычно есть более высокие значения y для большего x2. Точно так же, игнорируя x2, обычно есть большие значения y для большего x1. Эти наблюдения объясняют простые результаты регрессии.
В модели множественной регрессии коэффициенты наклона являются оценками влияния одного x, в то время как другой остается фиксированным . И вы можете легко увидеть на графике, что значения y меньше по мере увеличения x1 в любой из трех групп, где x2 фиксируется (на 1,2 или 3).