¿Cómo calcular la mortalidad a los 28 días?

Nov 24 2020

Tengo una base de datos EHR retrospectiva de un hospital y me gustaría construir un modelo ML para predecir si un paciente morirá dentro de los 28 días o no (desde el alta / en algún momento T)

¿Puedo consultar con usted sobre los pasos a continuación?

a) Digamos que tengo una muestra de 5000 pacientes

b) Elijo datos de entrenamiento como 3500 pacientes

c) Para estos 3500 pacientes, extraigo las variables requeridas y sus valores hasta el tiempo "T"

d) Y ahora, para los datos de entrenamiento, necesitamos etiquetas, así que calculo con un script de Python si esta persona murió dentro de los 28 días desde el momento "t" (porque tengo todos sus datos. Puedo encontrar la diferencia entre su fecha de alta y fecha de la muerte)

e) En caso afirmativo, lo etiquetaré como "1", de lo contrario, "0".

f) Construyo un modelo de aprendizaje supervisado usando regresión logística

Ahora viene la parte desafiante (para mí al menos)

g) Me gustaría aplicar este modelo en el grupo invisible de 1500 pacientes

h) Extraigo las mismas variables que los datos de entrenamiento

i) Ahora aplico el modelo a estos datos invisibles de 1500 pacientes

k) Pero el problema es que esto solo dará si el paciente morirá o no. ¿Cómo puedo saber si morirá o no en los 28 días?

¿Cómo puedo incorporar este componente de tiempo aquí?

¿Alguien puede ayudarme con esto proporcionando pasos fáciles de entender y qué algoritmo usar, por favor?

Respuestas

1 EdM Nov 28 2020 at 23:46

Como dice @DWin en un comentario, esta es una aplicación estándar del análisis de supervivencia. Eso tiene la ventaja de evaluar no solo la ocurrencia de eventos, sino también los tiempos para los eventos.

Si continúa con su división de tren / prueba (incluso 5000 pacientes podrían no ser suficientes para que eso sea confiable; la evaluación del modelo mediante remuestreo podría ser mejor), dice que tiene datos de tiempo hasta el evento. En ese caso, incluso con un modelo de regresión logística de todo o nada, puede evaluar la mortalidad de 28 días ignorando las muertes que ocurren después de 28 días desde su hora de inicio.

El rmspaquete en R, también señalado por @DWin, proporciona una infraestructura bien desarrollada para combinar el análisis de supervivencia con la validación y calibración del modelo basado en remuestreo, y proporciona predicciones para combinaciones específicas de valores de covariables. No hay ninguna razón por la que los enfoques utilizados allí no puedan extenderse al análisis con un sabor más de "aprendizaje automático" o "ciencia de datos". Solo tenga en cuenta que los modelos proporcionados por estos últimos enfoques pueden ser más difíciles de interpretar para los simples seres humanos.