さまざまな時間間隔でイベントを予測し、スコアを計算する方法は?
Nov 20 2020
遡及的かつ縦断的な性質の医療データセット/ EHRデータセットがあるとしましょう。つまり、1人の人が複数の時点(過去)にわたって複数の測定値を持っているということです。
このデータセットには、患者の診断、ラボ、入院、消費された薬などに関する情報が含まれています。
ここで、死亡率に影響を与える可能性のある予測因子を見つけたい場合は、ロジスティック回帰を使用できます(患者が死亡するかどうかは関係ありません)。
しかし、私の目的は、人が次の30日または次の240日で死亡するかどうかを予測するのに役立つ予測因子を見つけることです。ML/データ分析手法を使用してこれを行うにはどうすればよいですか?
さらに、この人が今後30日以内に死亡する可能性を示すことができるスコアも計算したいと思いますか?スコアを計算するにはどうすればよいですか?チュートリアルはありますか?
これを手伝ってもらえますか?
回答
1 EdM Nov 28 2020 at 23:56
関連する質問で説明したように、これは、イベントまでの時間を明示的にモデル化する生存分析を介して簡単に実行できます。秘訣はtime = 0
、特に複数の潜在的な開始時間にわたって同じ個人を追跡した場合に、生存時間を評価するための基準を定義することです。分析アプローチは、イベントのタイプによっても異なります。死亡は個人ごとに1回発生しますが、病院への再入院は同じ個人に対して何度も発生する可能性があるため、イベント間の個人内の関連を考慮する必要があります。
Rのsurvivalパッケージで提供されるビネットは、最終的に別の機械学習アプローチを使用することになった場合でも、原則の優れた入門書となります。