예측 변수가 다른 그룹에 대한 다단계 모델

Aug 20 2020

제품에 다단계 모델을 맞추고 제품 유형별로 그룹화하려고한다고 상상해보십시오.

제품 유형에 모두 동일한 예측 변수가있는 경우 이는 간단합니다. 예를 들어 판매 또는 이와 유사한 것에 대한 색상의 영향을 추정 할 수 있습니다.

그러나 일부 예측 변수가 일부 제품 유형에만 의미가 있다면 어떻게 될까요? "다리 길이"기능은 사람들이 반바지를 좋아하는 무릎 위 또는 아래의 거리를 선호하는 경우 반바지에 적합 할 수 있지만 항상 전체 길이 인 바지에는 적합하지 않습니다. 그리고 셔츠에는 다리 길이가 전혀 없기 때문에 이치에 맞지 않을 수 있습니다.

이 경우이를 처리하는 방법이 있습니까? 아니면 그룹별로 다른 모델을 사용하는 것이 가장 좋은가요? 공유되고 동일한 분포에서 끌어낼 것으로 예상되는 기능의 경우 이점을 잃는 것 같아서 모델을 단일 모델로 수행 할 수 있는지 궁금합니다.

여러 가지에 대해 생각했습니다 (예 : 기능이없는 제품의 경우 상수 값으로 설정하거나 기능이 의미가있는 제품의 기능 값 분포에서 가져온 임의의 값 등) ) 그러나 모두 매우 명백한 문제가있는 것 같습니다.

답변

2 Eoin Aug 24 2020 at 20:52

평균값을 빼서 모든 예측 변수를 중앙에두면이 작업을 수행 할 수있는 꽤 합리적인 방법이 있습니다.

예를 들어 운동 용 반바지, 반바지, 청바지가 있고 숫자 예측 변수가 a) 밝기 (모든 카테고리에 대해 정의 됨) 및 b) 짧은 길이 (반바지에만 정의 됨, NA바지 용으로 정의 됨)라고 가정 해 보겠습니다 . 이제 두 수치 예측 변수를 모두 중앙에 배치하면 a) 항목이 평균보다 어둡거나 밝은 지 b) 단락이 평균보다 짧거나 긴지 여부에 대한 측정 값을 얻습니다. 바지가 있다고 안전하게 말할 수 있습니다.$\pm0$cm가 평균보다 짧거나 길기 때문에이 예측 변수에 대해 반바지가 아닌 모든 항목에 대해 0 값을 대치합니다 (평균보다 짧지도 길지도 않음). 그런 다음 일반적인 방식으로 다중 수준을 피팅하여 모든 예측 변수가 범주에 따라 달라 지도록 할 수 있습니다.

lmer(sales ~ 1 + centred_colour + centred_leg_length + 
             (1 + centred_colour + centred_leg_length | category),
     data=sales_data)

이 예측 변수는 다양한 종류의 공매도에 따라 다르기 때문에 해당 품목의 판매 만이 매개 변수에 영향을 미칩니다. 다른 모든 제품에 대해 0으로 설정되어 있기 때문에이 예측자는 제품에 대한 추론이나 예측에 영향을주지 않습니다.

데이터에 하나의 단락 범주 만있는 경우 무작위 효과로 포함 할 수없는 경우 그에 따라 모델을 변경해야합니다.

lmer(sales ~ 1 + centred_colour + centred_leg_length + 
             (1 + centred_colour | category),
     data=sales_data)
1 Alex.C-L-ReinstateMonica Aug 24 2020 at 15:46

제품에 기능이없는 경우 (예 : 다리가없는 경우) 0,이 기능이있는 경우 1 인 더미 변수를 생성 해보십시오. 그런 다음이 더미 변수를 요인으로 바꿉니다.

더미에 기능이 없으면 누락 된 값을 0으로 바꿉니다.

그런 다음 모델에서 관심있는 연속 변수를 더미 요인 변수와 상호 작용합니다. 더미 요인 변수도 추가하십시오.


참고 :이 기능이 작동하는 이유 (또는 일반적인 경우 작동하지 않음)를 더 잘 아는 사람으로부터 읽어서 기쁩니다.