R - Analyse de survie

L'analyse de survie consiste à prévoir le moment où un événement spécifique va se produire. Elle est également connue sous le nom d'analyse du temps de défaillance ou d'analyse du temps mort. Par exemple, prédire le nombre de jours pendant lesquels une personne atteinte de cancer survivra ou prévoir le moment où un système mécanique échouera.

Le package R nommé survivalest utilisé pour effectuer une analyse de survie. Ce package contient la fonctionSurv()qui prend les données d'entrée comme une formule R et crée un objet de survie parmi les variables choisies pour l'analyse. Ensuite, nous utilisons la fonctionsurvfit() pour créer un tracé pour l'analyse.

Installer le paquet

install.packages("survival")

Syntaxe

La syntaxe de base pour créer une analyse de survie dans R est -

Surv(time,event)
survfit(formula)

Voici la description des paramètres utilisés -

  • time est le temps de suivi jusqu'à ce que l'événement se produise.

  • event indique l'état d'occurrence de l'événement attendu.

  • formula est la relation entre les variables prédictives.

Exemple

Nous considérerons l'ensemble de données nommé "pbc" présent dans les packages de survie installés ci-dessus. Il décrit les points de données de survie des personnes atteintes de cirrhose biliaire primitive (CBP) du foie. Parmi les nombreuses colonnes présentes dans le jeu de données, nous nous intéressons principalement aux champs «heure» et «statut». Le temps représente le nombre de jours entre l'enregistrement du patient et le début de l'événement entre le patient recevant une transplantation hépatique ou le décès du patient.

# Load the library.
library("survival")

# Print first few rows.
print(head(pbc))

Lorsque nous exécutons le code ci-dessus, il produit le résultat et le graphique suivants -

id time status trt      age sex ascites hepato spiders edema bili chol
1  1  400      2   1 58.76523   f       1      1       1   1.0 14.5  261
2  2 4500      0   1 56.44627   f       0      1       1   0.0  1.1  302
3  3 1012      2   1 70.07255   m       0      0       0   0.5  1.4  176
4  4 1925      2   1 54.74059   f       0      1       1   0.5  1.8  244
5  5 1504      1   2 38.10541   f       0      1       1   0.0  3.4  279
6  6 2503      2   2 66.25873   f       0      1       0   0.0  0.8  248
  albumin copper alk.phos    ast trig platelet protime stage
1    2.60    156   1718.0 137.95  172      190    12.2     4
2    4.14     54   7394.8 113.52   88      221    10.6     3
3    3.48    210    516.0  96.10   55      151    12.0     4
4    2.54     64   6121.8  60.63   92      183    10.3     4
5    3.53    143    671.0 113.15   72      136    10.9     3
6    3.98     50    944.0  93.00   63       NA    11.0     3

À partir des données ci-dessus, nous considérons le temps et le statut pour notre analyse.

Application de la fonction Surv () et survfit ()

Nous procédons maintenant à l'application du Surv() fonction à l'ensemble de données ci-dessus et créez un graphique qui montrera la tendance.

# Load the library.
library("survival")

# Create the survival object. 
survfit(Surv(pbc$time,pbc$status == 2)~1)

# Give the chart file a name.
png(file = "survival.png")

# Plot the graph. 
plot(survfit(Surv(pbc$time,pbc$status == 2)~1))

# Save the file.
dev.off()

Lorsque nous exécutons le code ci-dessus, il produit le résultat et le graphique suivants -

Call: survfit(formula = Surv(pbc$time, pbc$status == 2) ~ 1)

      n  events  median 0.95LCL 0.95UCL 
    418     161    3395    3090    3853

La tendance du graphique ci-dessus nous aide à prédire la probabilité de survie au bout d'un certain nombre de jours.