Jak obliczyć 28-dniową śmiertelność?

Nov 24 2020

Mam retrospektywną bazę danych EHR ze szpitala i chciałbym zbudować model ML, aby przewidzieć, czy pacjent umrze w ciągu 28 dni, czy nie (od wypisu / pewnego punktu czasowego T)

Czy mogę sprawdzić poniższe kroki?

a) Powiedzmy, że mam próbkę 5000 pacjentów

b) Dane treningowe wybieram jako 3500 pacjentów

c) Dla tych 3500 pacjentów wyodrębniam wymagane zmienne i ich wartości do czasu „T”

d) A teraz do danych treningowych potrzebujemy etykiet, więc obliczam za pomocą skryptu w Pythonie, czy ta osoba zmarła w ciągu 28 dni od czasu „t” (ponieważ mam wszystkie jej dane. Mogę znaleźć różnicę między datą wypisu a Data śmierci)

e) Jeśli tak, oznaczę to jako „1”, w przeciwnym razie „0”

f) Buduję nadzorowany model uczenia się z wykorzystaniem regresji logistycznej

Teraz nadchodzi trudna część (przynajmniej dla mnie)

g) Chciałbym zastosować ten model na niewidzianej grupie 1500 pacjentów

h) Wyodrębniam te same zmienne, co dane uczące

i) Teraz stosuję model do tych niewidocznych danych 1500 pacjentów

k) Problem w tym, że to tylko da informację, czy pacjent umrze, czy nie. Skąd mam wiedzieć, czy umrze, czy nie w ciągu 28 dni?

Jak mogę włączyć tutaj ten składnik czasu.

Czy ktoś może mi w tym pomóc, podając łatwe do zrozumienia kroki i jakiego algorytmu użyć?

Odpowiedzi

1 EdM Nov 28 2020 at 23:46

Jak mówi @DWin w komentarzu, jest to standardowa aplikacja analizy przeżycia. Ma to tę zaletę, że pozwala oceniać nie tylko wystąpienie zdarzenia, ale także czas, w którym się ono zdarzy.

Jeśli kontynuujesz podział pociąg / test (nawet 5000 pacjentów może nie wystarczyć , aby było to wiarygodne; ocena modelu przez ponowne próbkowanie może być lepsza), mówisz, że masz dane dotyczące czasu do zdarzenia. W takim przypadku, nawet w przypadku modelu regresji logistycznej typu „wszystko albo nic”, można ocenić 28-dniową śmiertelność, ignorując zgony, które nastąpiły po 28 dniach od rozpoczęcia.

rmsPakiet w R, a także zauważa @DWin, zapewnia rozwinięty infrastruktury połączenie analizy przeżycia walidacji i kalibracji resampling modelu opartym i dostarczenie prognozy dla określonych kombinacji wartości zmienną towarzyszącą. Nie ma powodu, dla którego zastosowanych tam podejść nie można rozszerzyć na analizę o charakterze „uczenia maszynowego” lub „nauki o danych”. Należy tylko pamiętać, że modele stworzone przez te ostatnie podejścia mogą być trudniejsze do zinterpretowania przez zwykłych ludzi.