nichtlineare Regression mit Zufallseffekt und lsoda

Jan 19 2021

Ich stehe vor einem Problem, das ich nicht lösen kann. Ich möchte eine nichtlineare Regression mit zufälligem Effekt verwenden nlmeoder nlmODEdurchführen, indem ich als Modell die Lösung einer Differentialgleichung zweiter Ordnung mit festen Koeffizienten (einem gedämpften Oszillator) verwende.

Ich schaffe es, nlmemit einfachen Modellen zu arbeiten, aber es scheint, dass die Verwendung von deSolve, um die Lösung der Differentialgleichung zu generieren, ein Problem verursacht. Unten ein Beispiel und die Probleme, mit denen ich konfrontiert bin.

Die Daten und Funktionen

Hier ist die Funktion zum Generieren der Lösung der Differentialgleichung mit deSolve:

library(deSolve)
ODE2_nls <- function(t, y, parms) {
  S1 <- y[1]
  dS1 <- y[2]
  dS2 <- dS1
  dS1 <- - parms["esp2omega"]*dS1  - parms["omega2"]*S1 + parms["omega2"]*parms["yeq"]
  res <- c(dS2,dS1)
  list(res)}

solution_analy_ODE2 = function(omega2,esp2omega,time,y0,v0,yeq){
  parms  <- c(esp2omega = esp2omega,
              omega2 = omega2,
              yeq = yeq)
  xstart = c(S1 =  y0, dS1 = v0)
  out <-  lsoda(xstart, time, ODE2_nls, parms)
  return(out[,2])
}

Ich kann eine Lösung für eine bestimmte Periode und einen bestimmten Dämpfungsfaktor generieren, wie zum Beispiel hier eine Periode von 20 und eine leichte Dämpfung von 0,2:


# small example:
time <- 1:100
period <- 20 # period of oscillation
amort_factor <- 0.2
omega <- 2*pi/period # agular frequency
oscil <- solution_analy_ODE2(omega^2,amort_factor*2*omega,time,1,0,0)
plot(time,oscil)

Jetzt generiere ich ein Panel von 10 Personen mit einer zufälligen Startphase (dh unterschiedlicher Startposition und Geschwindigkeit). Ziel ist es, eine nichtlineare Regression mit zufälliger Auswirkung auf die Startwerte durchzuführen

library(data.table)
# generate panel
Npoint <- 100 # number of time poitns
Nindiv <- 10 # number of individuals
period <- 20 # period of oscillation
amort_factor <- 0.2
omega <- 2*pi/period # agular frequency
# random phase
phase <- sample(seq(0,2*pi,0.01),Nindiv)
# simu data:
data_simu <- data.table(time = rep(1:Npoint,Nindiv), ID = rep(1:Nindiv,each = Npoint))

# signal generation
data_simu[,signal := solution_analy_ODE2(omega2 = omega^2,
                                         esp2omega = 2*0.2*omega,
                                         time = time,
                                         y0 = sin(phase[.GRP]),
                                         v0 = omega*cos(phase[.GRP]),
                                         yeq = 0)+ 
            rnorm(.N,0,0.02),by = ID]

Wenn wir einen Blick darauf werfen, haben wir einen richtigen Datensatz:

library(ggplot2)
ggplot(data_simu,aes(time,signal,color = ID))+
  geom_line()+
  facet_wrap(~ID)

Die Probleme

Mit nlme

Mit einer nlmeähnlichen Syntax, die an einfacheren Beispielen arbeitet (nichtlineare Funktionen, die deSolve nicht verwenden), habe ich versucht:

fit <- nlme(model = signal ~ solution_analy_ODE2(esp2omega,omega2,time,y0,v0,yeq), 
     data = data_simu,
     fixed = esp2omega + omega2 + y0 + v0 + yeq ~ 1,
     random = y0 ~ 1 ,
     groups = ~ ID, 
     start = c(esp2omega = 0.08, 
               omega2 = 0.04,
               yeq = 0,
               y0 = 1,
               v0 = 0))

Ich erhalte:

Fehler in checkFunc (Func2, times, y, rho): Die Anzahl der von func () (2) zurückgegebenen Ableitungen muss der Länge des Anfangsbedingungsvektors (2000) entsprechen.

Der Traceback:

12. stop(paste("The number of derivatives returned by func() (", length(tmp[[1]]), ") must equal the length of the initial conditions vector (", length(y), ")", sep = ""))
11. checkFunc(Func2, times, y, rho)
10. lsoda(xstart, time, ODE2_nls, parms)
9. solution_analy_ODE2(omega2, esp2omega, time, y0, v0, yeq)
.
.

Ich sehe so aus, nlmeals würde versucht, einen Vektor der Startbedingung an zu übergeben solution_analy_ODE2, und verursacht einen Fehler in checkFuncfrom lasoda.

Ich habe versucht nlsList:

test <- nlsList(model = signal ~ solution_analy_ODE2(omega2,esp2omega,time,y0,v0,yeq) | ID, 
        data = data_simu, 
        start = list(esp2omega = 0.08, omega2 = 0.04,yeq = 0,
                     y0 = 1,v0 = 0),
        control = list(maxiter=150, warnOnly=T,minFactor = 1e-10), 
        na.action = na.fail, pool = TRUE)
head(test)

Call:
  Model: signal ~ solution_analy_ODE2(omega2, esp2omega, time, y0, v0, yeq) | ID 
   Data: data_simu 

Coefficients:
   esp2omega     omega2           yeq         y0          v0
1  0.1190764 0.09696076  0.0007577956 -0.1049423  0.30234654
2  0.1238936 0.09827158 -0.0003463023  0.9837386  0.04773775
3  0.1280399 0.09853310 -0.0004908579  0.6051663  0.25216134
4  0.1254053 0.09917855  0.0001922963 -0.5484005 -0.25972829
5  0.1249473 0.09884761  0.0017730823  0.7041049  0.22066652
6  0.1275408 0.09966155 -0.0017522320  0.8349450  0.17596648

Wir können sehen, dass die nichtlineare Anpassung bei einzelnen Signalen gut funktioniert. Wenn ich nun eine Regression des Datensatzes mit zufälligen Effekten durchführen möchte, sollte die Syntax wie folgt lauten:

fit <- nlme(test, 
     random = y0 ~ 1 ,
     groups = ~ ID, 
     start = c(esp2omega = 0.08, 
               omega2 = 0.04,
               yeq = 0,
               y0 = 1,
               v0 = 0))

Aber ich erhalte genau die gleiche Fehlermeldung.

Ich habe es dann versucht nlmODE, nach Bne Bolkers Kommentar zu einer ähnlichen Frage, die ich vor einigen Jahren gestellt habe

mit nlmODE

library(nlmeODE)
datas_grouped <- groupedData( signal ~ time | ID, data = data_simu, 
                              labels = list (x = "time", y = "signal"), 
                              units = list(x ="arbitrary", y = "arbitrary"))

modelODE <- list( DiffEq = list(dS2dt = ~ S1,
                                dS1dt = ~ -esp2omega*S1  - omega2*S2 + omega2*yeq),
                  ObsEq = list(yc = ~ S2),
                  States = c("S1","S2"),
                  Parms = c("esp2omega","omega2","yeq","ID"), 
                  Init = c(y0 = 0,v0 = 0))

resnlmeode = nlmeODE(modelODE, datas_grouped) 
assign("resnlmeode", resnlmeode, envir = .GlobalEnv)
#Fitting with nlme the resulting function
model <- nlme(signal ~ resnlmeode(esp2omega,omega2,yeq,time,ID), 
              data = datas_grouped, 
              fixed = esp2omega + omega2 + yeq + y0 + v0  ~ 1, 
              random = y0 + v0 ~1,
              start = c(esp2omega = 0.08, 
                        omega2 = 0.04,
                        yeq = 0,
                        y0 = 0,
                        v0 = 0)) #

Ich bekomme den Fehler:

Fehler im Resnlmeode (esp2omega, omega2, yeq, time, ID): Objekt 'yhat' nicht gefunden

Hier verstehe ich nicht, woher der Fehler kommt und wie ich ihn lösen kann.

Fragen

Können Sie das Problem reproduzieren?
Hat jemand eine Idee, um dieses Problem mit entweder nlmeoder zu lösen nlmODE?
Wenn nicht, gibt es eine Lösung mit einem anderen Paket? Ich sah nlmixr(https://cran.r-project.org/web/packages/nlmixr/index.html), aber ich weiß es nicht, die Installation ist kompliziert und wurde kürzlich aus CRAN entfernt

Bearbeitungen

@tpetzoldt schlug einen guten Weg vor, um das nlmeVerhalten zu debuggen , und es überraschte mich sehr. Hier ist ein Arbeitsbeispiel mit einer nichtlinearen Funktion, bei dem ich einen Satz von 5 Individuen mit einem zufälligen Parameter generiere, der zwischen Individuen variiert:

reg_fun = function(time,b,A,y0){
  cat("time : ",length(time)," b :",length(b)," A : ",length(A)," y0: ",length(y0),"\n")
  out <- A*exp(-b*time)+(y0-1)
  cat("out : ",length(out),"\n")
  tmp <- cbind(b,A,y0,time,out)
  cat(apply(tmp,1,function(x) paste(paste(x,collapse = " "),"\n")),"\n")
  return(out)
}

time <- 0:10*10
ramdom_y0 <- sample(seq(0,1,0.01),10)
Nid <- 5
data_simu <- 
data.table(time = rep(time,Nid),
           ID = rep(LETTERS[1:Nid],each = length(time)) )[,signal := reg_fun(time,0.02,2,ramdom_y0[.GRP]) + rnorm(.N,0,0.1),by = ID]

Die Katzen in der Funktion geben hier:

time :  11  b : 1  A :  1  y0:  1 
out :  11 
0.02 2 0.64 0 1.64 
 0.02 2 0.64 10 1.27746150615596 
 0.02 2 0.64 20 0.980640092071279 
 0.02 2 0.64 30 0.737623272188053 
 0.02 2 0.64 40 0.538657928234443 
 0.02 2 0.64 50 0.375758882342885 
 0.02 2 0.64 60 0.242388423824404 
 0.02 2 0.64 70 0.133193927883213 
 0.02 2 0.64 80 0.0437930359893108 
 0.02 2 0.64 90 -0.0294022235568269 
 0.02 2 0.64 100 -0.0893294335267746
.
.
.

Jetzt mache ich mit nlme:

nlme(model = signal ~ reg_fun(time,b,A,y0), 
     data = data_simu,
     fixed = b + A + y0 ~ 1,
     random = y0 ~ 1 ,
     groups = ~ ID, 
     start = c(b = 0.03, A = 1,y0 = 0))

Ich bekomme:

time :  55  b : 55  A :  55  y0:  55 
out :  55 
0.03 1 0 0 0 
 0.03 1 0 10 -0.259181779318282 
 0.03 1 0 20 -0.451188363905974 
 0.03 1 0 30 -0.593430340259401 
 0.03 1 0 40 -0.698805788087798 
 0.03 1 0 50 -0.77686983985157 
 0.03 1 0 60 -0.834701111778413 
 0.03 1 0 70 -0.877543571747018 
 0.03 1 0 80 -0.909282046710588 
 0.03 1 0 90 -0.93279448726025 
 0.03 1 0 100 -0.950212931632136 
 0.03 1 0 0 0 
 0.03 1 0 10 -0.259181779318282 
 0.03 1 0 20 -0.451188363905974 
 0.03 1 0 30 -0.593430340259401 
 0.03 1 0 40 -0.698805788087798 
 0.03 1 0 50 -0.77686983985157 
 0.03 1 0 60 -0.834701111778413 
 0.03 1 0 70 -0.877543571747018 
 0.03 1 0 80 -0.909282046710588 
 0.03 1 0 90 -0.93279448726025 
 0.03 1 0 100 -0.950212931632136 
 0.03 1 0 0 0 
 0.03 1 0 10 -0.259181779318282 
 0.03 1 0 20 -0.451188363905974 
 0.03 1 0 30 -0.593430340259401 
 0.03 1 0 40 -0.698805788087798 
 0.03 1 0 50 -0.77686983985157 
 0.03 1 0 60 -0.834701111778413 
 0.03 1 0 70 -0.877543571747018 
 0.03 1 0 80 -0.909282046710588 
 0.03 1 0 90 -0.93279448726025 
 0.03 1 0 100 -0.950212931632136 
 0.03 1 0 0 0 
 0.03 1 0 10 -0.259181779318282 
 0.03 1 0 20 -0.451188363905974 
 0.03 1 0 30 -0.593430340259401 
 0.03 1 0 40 -0.698805788087798 
 0.03 1 0 50 -0.77686983985157 
 0.03 1 0 60 -0.834701111778413 
 0.03 1 0 70 -0.877543571747018 
 0.03 1 0 80 -0.909282046710588 
 0.03 1 0 90 -0.93279448726025 
 0.03 1 0 100 -0.950212931632136 
 0.03 1 0 0 0 
 0.03 1 0 10 -0.259181779318282 
 0.03 1 0 20 -0.451188363905974 
 0.03 1 0 30 -0.593430340259401 
 0.03 1 0 40 -0.698805788087798 
 0.03 1 0 50 -0.77686983985157 
 0.03 1 0 60 -0.834701111778413 
 0.03 1 0 70 -0.877543571747018 
 0.03 1 0 80 -0.909282046710588 
 0.03 1 0 90 -0.93279448726025 
 0.03 1 0 100 -0.950212931632136 
 
time :  55  b : 55  A :  55  y0:  55 
out :  55 
0.03 1 0 0 0 
 0.03 1 0 10 -0.259181779318282 
 0.03 1 0 20 -0.451188363905974 
 0.03 1 0 30 -0.593430340259401 
 0.03 1 0 40 -0.698805788087798 
 0.03 1 0 50 -0.77686983985157 
 0.03 1 0 60 -0.834701111778413 
 0.03 1 0 70 -0.877543571747018 
 0.03 1 0 80 -0.909282046710588 
 0.03 1 0 90 -0.93279448726025 
 0.03 1 0 100 -0.950212931632136 
 0.03 1 0 0 0 
 0.03 1 0 10 -0.259181779318282 
 0.03 1 0 20 -0.451188363905974 
 0.03 1 0 30 -0.593430340259401 
 0.03 1 0 40 -0.698805788087798 
 0.03 1 0 50 -0.77686983985157 
 0.03 1 0 60 -0.834701111778413 
 0.03 1 0 70 -0.877543571747018 
 0.03 1 0 80 -0.909282046710588 
 0.03 1 0 90 -0.93279448726025 
 0.03 1 0 100 -0.950212931632136 
 0.03 1 0 0 0 
 0.03 1 0 10 -0.259181779318282 
 0.03 1 0 20 -0.451188363905974 
 0.03 1 0 30 -0.593430340259401 
 0.03 1 0 40 -0.698805788087798 
 0.03 1 0 50 -0.77686983985157 
 0.03 1 0 60 -0.834701111778413 
 0.03 1 0 70 -0.877543571747018 
 0.03 1 0 80 -0.909282046710588 
 0.03 1 0 90 -0.93279448726025 
 0.03 1 0 100 -0.950212931632136 
...

So nlmebindet 5 Zeit (die Anzahl der einzelnen) , um die Zeitvektor und übergeben sie an die Funktion, mit der die Parameter , die die gleiche Anzahl von Zeit wiederholt. Was natürlich nicht mit dem Weg kompatibel ist lsodaund meine Funktion funktioniert.

Antworten

3 tpetzoldt Jan 21 2021 at 01:21

Es scheint, dass das Ode-Modell mit einem falschen Argument aufgerufen wird, sodass es einen Vektor mit 2000 Statusvariablen anstelle von 2 erhält. Versuchen Sie Folgendes, um das Problem zu sehen:

ODE2_nls <- function(t, y, parms) {
  cat(length(y),"\n") # <----
  S1 <- y[1]
  dS1 <- y[2]
  dS2 <- dS1
  dS1 <- - parms["esp2omega"]*dS1  - parms["omega2"]*S1 + parms["omega2"]*parms["yeq"]
  res <- c(dS2,dS1)
  list(res)
}

Bearbeiten : Ich denke, dass die analytische Funktion funktioniert hat, weil sie vektorisiert ist. Sie können also versuchen, die Ode-Funktion zu vektorisieren, indem Sie entweder über das Ode-Modell iterieren oder (besser) intern Vektoren als Zustandsvariablen verwenden. Wie odebeim Lösen von Systemen mit mehreren 100.000 Gleichungen schnell, sollte 2000 machbar sein.

Ich denke, dass sowohl Zustände als auch Parameter von nlmeals Vektoren übergeben werden. Die Zustandsvariable des Odenmodells ist dann ein "langer" Vektor, die Parameter können als Liste implementiert werden.

Hier ein Beispiel (bearbeitet, jetzt mit Parametern als Liste):

ODE2_nls <- function(t, y, parms) {
  #cat(length(y),"\n")
  #cat(length(parms$omega2)) ndx <- seq(1, 2*N-1, 2) S1 <- y[ndx] dS1 <- y[ndx + 1] dS2 <- dS1 dS1 <- - parms$esp2omega * dS1  - parms$omega2 * S1 + parms$omega2 * parms$yeq
  res <- c(dS2, dS1)
  list(res)
}

solution_analy_ODE2 = function(omega2, esp2omega, time, y0, v0, yeq){
  parms  <- list(esp2omega = esp2omega, omega2 = omega2, yeq = yeq)
  xstart = c(S1 =  y0, dS1 = v0)
  out <-  ode(xstart, time, ODE2_nls, parms, atol=1e-4, rtol=1e-4, method="ode45")
  return(out[,2])
}

Stellen Sie dann die Anzahl der Gleichungen ein (oder berechnen Sie sie), z N <- 1. N <-1000vor den Anrufen.

Das Modell läuft auf diese Weise ab, bevor numerische Probleme auftreten, aber das ist eine andere Geschichte ...

Sie können dann versuchen, einen anderen Ode-Löser (z. B. vode) zu verwenden, Werte festzulegen atolund rtolzu senken, die nmleOptimierungsparameter zu optimieren, Box-Einschränkungen zu verwenden usw., wie bei der nichtlinearen Optimierung üblich.

1 denis Jan 29 2021 at 20:07

Ich habe ein Lösungs-Hacking- nlmeVerhalten gefunden: Wie in meiner Bearbeitung gezeigt, nlmeberuht das Problem auf der Tatsache, dass ein Vektor von NindividualxNpoints an die nichtlineare Funktion übergeben wird, vorausgesetzt, die Funktion ordnet jedem Zeitpunkt einen Wert zu. Aber lsodatun Sie das nicht, da es eine Gleichung über die Zeit integriert (dh es braucht alle Zeit bis zu einem bestimmten Zeitpunkt, um einen Wert zu erzeugen).

Meine Lösung besteht darin, die Parameter zu zerlegen, nlmedie an meine Funktion übergeben werden, die Berechnung durchzuführen und einen Vektor neu zu erstellen:

detect_id <- function(vec){
  tmp <- c(0,diff(vec))
  out <- tmp
  out <- NA
  out[tmp < 0] <- 1:sum(tmp < 0)
  out <- na.locf(out,na.rm = F)
  rleid(out)
}

detect_id Zerlegen Sie den Zeitvektor in einen einzelnen Zeitvektorkenner:

detect_id(rep(1:10,3))
[1] 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3

Und dann die Funktion, die die numerische Integrationsschleife über jedes Individuum ausführt und die resultierenden Vektoren zusammenbindet:

solution_analy_ODE2_modif = function(omega2,esp2omega,time,y0,v0,yeq){
  tmp <- detect_id(time)
  
  out <- lapply(unique(tmp),function(i){
    idxs <- which(tmp == i)
    parms  <- c(esp2omega = esp2omega[idxs][1],
                omega2 = omega2[idxs][1],
                yeq = yeq[idxs][1])
    
    xstart = c(S1 =  y0[idxs][1], dS1 = v0[idxs][1])
    out_tmp <-  lsoda(xstart, time[idxs], ODE2_nls, parms)
    out_tmp[,2]
  }) %>% unlist()
  
  return(out)
}

Ich mache einen Test, bei dem ich einen Vektor übergebe, der dem ähnelt, was nlmean die Funktion übergeben wird:

omega2vec <- rep(0.1,30)
eps2omegavec <- rep(0.1,30)
timevec <- rep(1:10,3)
y0vec <- rep(1,30)
v0vec <- rep(0,30)
yeqvec = rep(0,30)
solution_analy_ODE2_modif(omega2 = omega2vec,
                          esp2omega = eps2omegavec,
                          time = timevec,
                          y0 = y0vec,
                          v0 = v0vec,
                          yeq = yeqvec)
 [1]  1.0000000  0.9520263  0.8187691  0.6209244  0.3833110  0.1321355 -0.1076071 -0.3143798
 [9] -0.4718058 -0.5697255  1.0000000  0.9520263  0.8187691  0.6209244  0.3833110  0.1321355
[17] -0.1076071 -0.3143798 -0.4718058 -0.5697255  1.0000000  0.9520263  0.8187691  0.6209244
[25]  0.3833110  0.1321355 -0.1076071 -0.3143798 -0.4718058 -0.5697255

Es klappt. Mit der @ tpetzoldt-Methode würde dies nicht funktionieren, da der Zeitvektor von 10 auf 0 übergeht, was zu Integrationsproblemen führen würde. Hier muss ich wirklich hacken, wie es nlnmefunktioniert. Jetzt :