정확한 사건 발생 시간을 알 수없는 생존 분석?

Nov 20 2020

내 데이터 세트 ( 여기 예 )는 약 20 년 기간의 장기 캡처 마크 재 캡처 연구를 나타냅니다. 나는 동물의 생존이 동물의 성별과 바이러스 병원체에 대한 노출에 어떻게 영향을 미치는지에 관심이 있습니다. 나는 매번 포획 할 때마다 동물의 나이에 대한 데이터를 가지고 있지만, 기술적으로 그들의 사망 시간에 대한 데이터는 가지고 있지 않습니다. 오히려 동물이 하나의 특정 시간 / 연속 시점에 포획되지 않으면 포획을 피했거나 죽었습니다.

동물의 평균 연령은 1 세 미만이지만 일부 개체는 최대 7 년까지 산다. 따라서 20 년의 연구 기간 동안 수천 마리의 동물이 매우 다른 시간에 집단에 들어오고 나가는 (연구에 들어오고 나가는) 동물이 있습니다.

질문 : 이러한 데이터를 Cox 비례 위험 모델, Kaplan-Meier 생존 곡선 등을 사용하는 생존 분석에 사용할 수 있습니까? 그렇지 않다면, 그러한 데이터의 분석에 접근하는 방법에 대한 권장 사항이있는 사람이 있습니까? (관심있는 질문 고려-위의 기울임 꼴 텍스트). 사건 / 사망의 특정 시간에 대한 정보가 없습니다.

지금까지 감마 분포, 연령을 결과로, 성별과 병원체 노출을 예측 변수로 혼합 모델을 사용하여이 데이터를 모델링했습니다. 그러나 이것이 올바른 접근 방식이라고 확신하지 않습니다. 이것은 동물이 생존 한 시간 (연령)을 비교하는 반면, 동물이 사망했을 수있는 비율은 고려하지 않습니다. 생존 분석은 생존 시간의 중앙값과 사망이 발생한 비율을 모두 비교한다는 것을 이해합니다.

답변

3 Cam.Davidson.Pilon Nov 20 2020 at 22:35

기록 된 사망 사건이 없더라도 (즉, 모든 데이터가 검열 됨) 생존 분석을 사용하여 추론 할 수 있습니다. 그러나 트레이드 오프가 있습니다. 비모수 또는 반모 수 모델을 사용할 수 없습니다. 여기에는 Kaplan Meier 모델과 Cox 모델이 포함됩니다. 완전한 파라 메트릭 모델 을 사용하기 위해 사임했습니다 (나쁜 것은 아닙니다!). 예를 들어, Weibull, Gamma 또는 스플라인 모델이 있습니다. 이 모든 것들은 사망 사건의 검열, 심지어는 100 % 검열을 처리하고 공변량의 계수 추정치를 제공하고 평균 생존 시간 등을 생성합니다.

소프트웨어:

R에는 flexsurvreg
Stata에는 merlin
파이썬에는 lifelines(저는 저자입니다)

원하는 경우 한 단계 더 나아가 베이지안 매개 변수 모델 을 사용하여 수명에 대한 이전 정보를 포함 할 수 있습니다 ( "평균은 1 년 미만이지만 때로는 7 년까지") . 기본적으로 수명에 대한 현재 지식을 반영하는 알려지지 않은 매개 변수에 대한 사전을 선택합니다.