イベントまでの正確な時間が不明な場合の生存分析?

Nov 20 2020

私のデータセット(ここの例)は、約20年間の長期の捕獲-標識-再捕獲研究を表しています。動物の生存が性別やウイルス性病原体への曝露によってどのように影響を受けるかを調べることに興味があります。私は各捕獲時の動物の年齢に関するデータを持っていますが、技術的には彼らの死の時間に関するデータを持っていません。むしろ、動物が特定の時点/連続した時点で捕獲されなかった場合、捕獲を回避したか、死亡しました。

動物の平均年齢は1歳未満ですが、7歳まで生きる個体もいます。したがって、20年間の研究期間中、数千匹の動物が非常に異なる時間に個体群に出入りします(そして研究に出入りします)。

質問:このようなデータは、コックス比例ハザードモデル、カプランマイヤー生存曲線などを使用した生存分析で使用できますか?そうでない場合、そのようなデータの分析にどのようにアプローチするかについて誰かが推奨事項を持っていますか?(関心のある質問を検討する-上記の斜体のテキスト)。イベント/死亡の特定の時間に関する情報がないことに注意してください。

これまで、私はこのデータを、ガンマ分布、結果としての年齢、予測因子としての性別および病原体曝露を伴う混合モデルを使用してモデル化してきました。ただし、これが正しいアプローチであるとは確信していません。これは動物が生きていた時間(年齢)を比較しますが、動物が死亡した可能性のある割合は考慮しません-生存分析では、生存期間の中央値と死亡が発生した可能性のある割合の両方を比較していることを理解しています。

回答

3 Cam.Davidson.Pilon Nov 20 2020 at 22:35

死亡イベントが記録されていない(つまり、すべてのデータが打ち切られている)場合でも、生存分析を使用して推論を行うことができます。ただし、トレードオフがあります。ノンパラメトリックモデルまたはセミパラメトリックモデルを使用できなくなります。これらには、カプランマイヤーモデルとコックスモデルが含まれます。完全にパラメトリックなモデルを使用することを辞任しました(悪いことではありません!)。たとえば、ワイブル、またはガンマ、またはスプラインモデル。これらはすべて、死亡イベントの打ち切り、さらには100%の打ち切りを処理し、共変量の係数推定値を提供し、生存時間の中央値などを生成します。

ソフトウェア:

  • Rにはあります flexsurvreg
  • スタタには merlin
  • Pythonにはlifelines(私が作者です)があります

必要に応じて、ベイジアンパラメトリックモデルを使用して、さらに一歩進んで、寿命に関する以前の情報(「平均は1年未満ですが、7年になることもあります」)を含めることができます。基本的に、寿命に関する現在の知識を反映する未知のパラメーターの事前確率を選択します。