28日間の死亡率を計算する方法は?

Nov 24 2020

私が持って遡及EHRデータベースを病院から、私は、患者が(放電/いくつかの時点Tから)28日以内に死亡かするかどうかを予測するためにMLモデルを構築したいと思います

以下の手順で確認できますか?

a)5000人の患者のサンプルがあるとしましょう

b)3500人の患者としてトレーニングデータを選択します

c)これらの3500人の患者について、時間「T」までに必要な変数とその値を抽出します。

d)トレーニングデータにはラベルが必要なので、Pythonスクリプトを使用して、この人が時間「t」から28日以内に死亡したかどうかを計算します(すべてのデータがあるためです。彼の退院日と死亡日)

e)はいの場合、「1」、それ以外の場合は「0」のラベルを付けます

f)ロジスティック回帰を使用して教師あり学習モデルを構築します

今、挑戦的な部分が来ます(少なくとも私にとっては)

g)このモデルを1500人の患者の目に見えないセットに適用したい

h)トレーニングデータと同じ変数を抽出します

i)ここで、1500人の患者のこの目に見えないデータにモデルを適用します

k)しかし、問題は、これは患者が死ぬかどうかだけを与えるということです。彼が28日以内に死ぬかどうかをどうやって知ることができますか?

この時間コンポーネントをここに組み込むにはどうすればよいですか。

誰かが理解しやすい手順と使用するアルゴリズムを提供することでこれを手伝ってくれますか?

回答

1 EdM Nov 28 2020 at 23:46

@DWinがコメントで述べているように、これは生存分析の標準的なアプリケーションです。これには、イベントの発生だけでなく、イベントまでの時間も評価できるという利点があります。

トレイン/テストの分割を続行する場合(5000人の患者でも信頼性を確保するには不十分な場合があります。リサンプリングによるモデル評価の方が良い場合があります)、イベントまでの時間のデータがあると言います。その場合、全か無かのロジスティック回帰モデルを使用しても、開始時刻から28日後に発生する死亡を無視することで、28日の死亡率を評価できます。

@DWinによっても示されるRのrmsパッケージは、生存分析をリサンプリングベースのモデル検証およびキャリブレーションと組み合わせ、共変量値の指定された組み合わせの予測を提供するための十分に開発されたインフラストラクチャを提供します。そこで使用されているアプローチを、「機械学習」または「データサイエンス」のフレーバーを使用した分析に拡張できない理由はありません。これらの後者のアプローチによって提供されるモデルは、単なる人間にとっては解釈が難しい場合があることに注意してください。