다항 로지스틱 회귀 피팅과 다중 로지스틱 회귀 피팅의 차이점은 무엇입니까?
종속 변수 Y
에 4 개의 수준 (예 : A, B, C, D)이 있고 여러 독립 변수 (중요한 상호 작용 용어 포함)가있는 분석에서 데이터를 설명하는 여러 방법 (빈도주의 접근 방식)을 생각할 수 있습니다. .
첫째, 다항 로지스틱 회귀에 적합 할 수 있습니다 (그리고 아마도 그래야합니다). 이는 3 OR 만 출력합니다 (참조 수준에서 하나가 누락 됨). 이러한 OR는 특히 참조 수준을 Y
임의로 선택한 경우 해석하기가 약간 까다 롭습니다 . 변경하면보고 된 계수가 변경되기 때문입니다.
둘째, 각 Y
수준 에 대해 4 개의 이진 더미 변수를 만들고 4 개의 로지스틱 모델을 맞출 수 있습니다. 이것은 각 레벨에 대해 하나의 OR을 출력하여 만나지 않을 확률을 나타냅니다. 이러한 OR는 통계 학자와 비 통계 학자 모두에게 훨씬 쉽게 읽고 해석 할 수 있습니다.
이것을 감안할 때 (그리고 너무 많은 말도 안되는 말을하지 않았 으면 좋겠다), 두 번째 접근법이 어떻게 잘못 되었습니까? 그러한 접근에서 해석해서는 안되는 것은 무엇입니까? (이 질문은 해석에 관한 것이지 여러 곳에서 명확하게 설명 된 수학이 아닙니다)
Human Context : 이러한 범주 형 종속 변수를 사용하여 상호 작용 용어를 해석하고 싶습니다. 어떤 수준도 참조 수준으로 의미가 없습니다. 4 개의 OR를 사용하면 변수를 설명하는 것이 더 쉬우 며 데이터에 잘 맞는 것 같습니다 (플롯을 사용하여 목격 할 수 있음). 또한 편집자들이 다항 모델의 OR을 이해하지 못할까 봐 걱정이됩니다. 어쨌든 통계학자가 아닌 동료에게 설명하기가 상당히 어려울 것입니다.
답변
문제는 다항 분석 자체가 아니라 결과를 가장 잘 표시하는 방법입니다. 예, 절편 및 회귀 계수는 다항 모델에서 해석하기 어려울 수 있습니다. 이러한 계수는 단순히 데이터 표시의 시작점을 제공합니다. 단일 참조 범주를 기준으로 표현 된 대부분의 그룹에 대한 로그 확률이 있지만, 관련 오류 추정치와 함께 원하는 방식으로 이러한 확률을 결합하는 것을 막을 수있는 방법은 없습니다.
예측 변수 값의 함수로 관심이있을 수있는 결과 범주 집합을 표시하는 방식으로 범주에 대한 다항 회귀 확률을 사용합니다. 예측 변수에 대한 상호 작용 항에 대한 요점을 만드는 방식으로 결과를 승산 비로 변환하거나 다른 모든 항목에 대해 단일 범주 결과를 표시하려면 제대로 구성된 다항 모델부터 시작하면됩니다. 일반적으로 상관 된 변수의 가중 합계 분산 에 대한 공식을 기반으로 한 오류 추정치와 함께 원하는 모델 예측의 선형 조합을 표시 할 수 있습니다 . 당신의 삶을 더 쉽게 만들기 위해, 당신을 위해 계산을 할 R emmeans
패키지 와 같은 패키지 가 있습니다.