Giải pháp trong trường hợp vi phạm giả định tuyến tính trong mô hình hồi quy logistic? (có thể bằng R)

Jan 08 2021

Tôi gặp sự cố với hồi quy logistic mà tôi đã thiết lập và tôi hy vọng ai đó có thể giúp tôi. (Tôi đang làm việc với R)

Dữ liệu của tôi dựa trên giá trị hàng giờ. Biến phụ thuộc là một biến phân đôi (1 hoặc 0). Mô hình bao gồm 30 biến số liệu độc lập (9 trong số chúng có cả quan sát tích cực và tiêu cực).

Bây giờ vấn đề của tôi: Một giả định của hồi quy logistic là có một mối quan hệ tuyến tính giữa logit của kết quả và mỗi biến số liệu độc lập. Giả định này bị vi phạm trong tất cả các mô hình của tôi. (Tất cả các giả định khác của hồi quy logistic không bị vi phạm).

Để kiểm tra điều này, tôi đã áp dụng thử nghiệm Box-Tidwell nhiều lần. Một lần với tất cả các biến trong hồi quy logistic, trong đó tôi hồi quy biến phụ thuộc ban đầu về các biến độc lập và tích của các biến độc lập với phép biến đổi logarit tương ứng của các biến độc lập.

(y ~ x1 + (x1*ln(x1)) + x2 + (x2*ln(x2)) + ... , familiy = binomial("logit"))

Hơn nữa, tôi đã thử nghiệm giả định về độ tuyến tính với hàm R boxTidwell(model$linear.predictors ~ independent variable)cho từng biến riêng biệt. Đối với hầu hết tất cả các biến, kiểm định cho thấy ý nghĩa và do đó vi phạm giả định của mô hình. Một số phép biến đổi của các biến độc lập cũng không giúp được gì. Ngoài ra, các mô hình của tôi đã thất bại trong bài kiểm tra Hosmer-Lemeshow.

Tôi biết rằng tôi có thể vượt qua giả định nếu tôi chuyển đổi các biến độc lập của hệ mét thành các biến phân loại. Tuy nhiên, tôi muốn tránh điều này. Tôi cũng đọc được rằng tôi có thể chống lại vấn đề bằng phương pháp luận của splines. Thật không may, tôi không thể tìm thấy bất kỳ tài liệu nào giải thích điều này. Đặc biệt là không dành cho ước lượng mô hình hậu cần.

Bây giờ tôi muốn biết nếu ai đó có thể vui lòng giúp tôi ở đây.

Có phải vi phạm giả định có nghĩa là tôi không được phép sử dụng mô hình này và do đó kết quả có thể sai không? (Tôi không muốn sử dụng mô hình làm mô hình dự báo hoặc dự báo, mà chỉ để giải thích / mô tả trong khoảng thời gian của dữ liệu.)

Làm cách nào để áp dụng phương pháp luận của splines để giải quyết vấn đề của tôi? Làm cách nào để giải thích kết quả? (Nó sẽ giúp tôi rất nhiều nếu những giải thích này được hỗ trợ bởi mã R.)

Trả lời

1 kjetilbhalvorsen Jan 10 2021 at 12:09

Một số điểm:

  • Kiểm tra Hosmer-Lemeshow được coi là lỗi thời: Hosmer-Lemeshow vs AIC cho hồi quy logistic

  • Thay vì kiểm tra giả định tuyến tính, hãy sử dụng trực tiếp các splines hồi quy để bạn không cần giả định đó. Có rất nhiều ví dụ trên trang web này (lưu ý rằng việc sử dụng splines trong hồi quy logistic hoạt động giống như trong các mô hình hồi quy khác) Splines hoạt động như thế nào khi được sử dụng ở bên phải của một phương trình? , Làm cách nào để tìm giá trị p của hồi quy spline / loess?

  • Một giải pháp thay thế là gam's (mô hình phụ gia tổng quát) có thể chọn mức độ làm mịn (ví dụ: số lượng nút thắt) như một phần của khớp nối. Xem Chuyển đổi các biến cho hồi quy nhiều lần trong R , Tại sao các splines của tôi không trở nên linh hoạt hơn sau khi thay đổi các tham số trong R mgcv?