28 일 사망률을 계산하는 방법은 무엇입니까?
병원 의 후 향적 EHR 데이터베이스 가 있고 환자가 28 일 이내에 사망할지 여부를 예측하는 ML 모델을 구축하고 싶습니다 (퇴원 / 일부 T 시점부터)
아래 단계에서 확인할 수 있습니까?
a) 5000 명의 환자 샘플이 있다고 가정 해 보겠습니다.
b) 3500 명의 환자로 훈련 데이터를 선택합니다.
c)이 3500 명의 환자를 위해 시간 "T"까지 필요한 변수와 값을 추출합니다.
d) 이제 훈련 데이터를 위해 레이블이 필요합니다. 그래서이 사람이 "t"시간으로부터 28 일 이내에 사망했는지 여부를 파이썬 스크립트를 사용하여 계산합니다 (모든 데이터를 가지고 있기 때문입니다. 그의 퇴원 일과 퇴원 일 사이의 차이를 찾을 수 있습니다. 사망일)
e) "예"인 경우 "1"로 표시하고 "0"으로 표시합니다.
f) 로지스틱 회귀를 사용하여지도 학습 모델을 구축합니다.
이제 도전적인 부분이 온다 (적어도 나를 위해)
g) 보이지 않는 1500 명의 환자에게이 모델을 적용하고 싶습니다.
h) 훈련 데이터와 동일한 변수를 추출합니다.
i) 이제 1500 명의 환자의 보이지 않는 데이터에 모델을 적용합니다.
k) 그러나 문제는 이것이 환자가 죽을지 말지 여부 만 알려준다는 것입니다. 그가 28 일 안에 죽을지 안 죽을지 어떻게 알 수 있습니까?
이 시간 구성 요소를 여기에 어떻게 통합 할 수 있습니까?
누군가 이해하기 쉬운 단계와 사용할 알고리즘을 제공하여 나를 도울 수 있습니까?
답변
@DWin이 의견에서 말했듯이 이것은 생존 분석의 표준 응용 프로그램입니다. 이는 이벤트 발생뿐만 아니라 이벤트 발생 시간을 평가하는 장점이 있습니다.
훈련 / 테스트 분할을 진행하면 (5000 명의 환자조차도 이를 신뢰할 수있을만큼 충분하지 않을 수 있습니다 . 리샘플링을 통한 모델 평가가 더 좋을 수 있음) 이벤트 발생 시간 데이터가 있다고 말합니다. 이 경우 로지스틱 회귀 모델이 모두 또는 전혀없는 경우에도 시작 시간으로부터 28 일 후에 발생하는 사망을 무시하여 28 일 사망률을 평가할 수 있습니다.
@DWin에서도 언급 한 R 의 rms패키지 는 생존 분석을 리샘플링 기반 모델 검증 및 교정과 결합하고 지정된 공변량 값 조합에 대한 예측을 제공하기 위해 잘 개발 된 인프라를 제공합니다. 거기에 사용 된 접근 방식이 "기계 학습"또는 "데이터 과학"풍미를 더 많이 사용하는 분석으로 확장 될 수없는 이유가 없습니다. 후자의 접근 방식에서 제공하는 모델은 단순한 인간이 해석하기가 더 어려울 수 있습니다.