다른 시간 간격에 대한 이벤트를 예측하고 점수를 계산하는 방법은 무엇입니까?
내가 회고적이고 종단적인 의료 데이터 세트 / EHR 데이터 세트가 있다고 가정 해 보겠습니다. 한 사람이 여러 시점 (과거)에 걸쳐 여러 측정 값을 가지고 있음을 의미합니다.
이 데이터 세트에는 환자의 진단, 실험실, 입원 및 소비 된 약물 등에 대한 정보가 포함되어 있습니다.
이제 사망률에 영향을 미칠 수있는 예측 변수를 찾고자한다면 로지스틱 회귀를 사용할 수 있습니다 (환자가 사망할지 여부).
하지만 내 목표는 사람이 다음 30 일 내에 사망할지 240 일 내에 사망할지 예측하는 데 도움이 될 수있는 예측 변수를 찾는 것입니다. ML / 데이터 분석 기술을 사용하여 어떻게이 작업을 수행 할 수 있습니까?
또한이 사람이 앞으로 30 일 이내에 사망 할 가능성을 나타내는 점수도 계산하고 싶습니다. 점수는 어떻게 계산할 수 있습니까? 튜토리얼 좀주세요.
제발 도와 주 시겠어요?
답변
관련 질문 에서 논의했듯이 이것은 이벤트에 대한 시간을 명시 적으로 모델링하는 생존 분석을 통해 쉽게 수행됩니다. 요령은 time = 0
특히 여러 잠재적 시작 시간에 걸쳐 동일한 개인을 따랐을 때 생존 시간을 평가할 기준을 정의하는 것입니다. 분석 접근 방식은 사건 유형에 따라 달라집니다. 사망은 개인당 한 번 발생하지만 병원 재 입원은 동일한 개인에 대해 여러 번 발생할 수 있으며 사건 간의 개인 내 연관성을 고려해야합니다.
R 의 survival패키지 와 함께 제공되는 비 네트 는 다른 머신 러닝 접근 방식을 사용하더라도 원칙에 대한 좋은 소개를 제공합니다.