Menjelaskan langkah untuk menurunkan rasio biaya dalam kurva KOP sebagai fungsi AUC

Dec 21 2020

Pada makalah ini oleh David Hand biaya kesalahan klasifikasi adalah$c_0$ dan $c_1$ dengan perbandingan $c$ didefinisikan sebagai $c=c_0/(c_0+c_1).$ Ambang batas yang dianggap optimal adalah

$$T(c)=\underset{t}{\text{arg min}}\left\{ c\pi_0(1-F_0(t)) + (1-c) \pi_1 F_1(t) \right\}$$

dengan $t$ menjadi ambang batas dalam skor, dan $1=\pi_0+\pi_1$ fraksi individu yang sakit dan sehat dalam populasi. $F_0$ adalah distribusi penyakit, dan $F_1$distribusi individu yang sehat. Kasus dianggap kelas$0.$

Dengan asumsi hubungan satu-ke-satu dari $c$ dengan $T$ dan berdiferensiasi, dia mendapatkan hasil sebagai berikut (persamaan (5)):

$$c= \color{red}{\Pr(1\vert T)} = \pi_1 f_1(T) / \left\{ \pi_0f_0(T) + \pi_1f_1(T)\right\}$$

dimana $\Pr(1\vert T)$ adalah probabilitas bersyarat untuk menjadi anggota kelas $1,$ diberi skor $T.$

Saya mengikuti semuanya di sini, kecuali bagian yang berwarna merah. Ini mungkin kesalahpahaman yang sangat mendasar tetapi bukankah seharusnya probabilitas bersyarat dihitung dari rasio cdf, sebagai lawan dari pdf ?

Saya kira jawabannya adalah dengan mempertimbangkan skor $s(x)$ dalam regresi logistik sebagai transformasi yang meningkat secara monoton $\Pr(1 \vert x).$


Berikut ini upaya yang gagal meretas ini:

install.packages('pROC')
install.packages('ROCR')
install.packages('Epi')
library(pROC)
library(ROCR)
library(Epi)

set.seed(561)

cost0 = 1   # Cost of mis-classifying a normal as having cancer in million $ cost1 = 10 # Cost of mis-classifying a cancer patient as normal (death?) b = cost0 + cost1 c = cost0/(b) n = 7000 # Total cases pi0 =.8 # Percentage of normal pi1 =.2 # Percentage of disease # Actual values of the test for normals and disease (D higher test values) testA_Normals = rnorm(n*pi0, mean=3, sd=1) testA_Sick = rnorm(n*pi1, 6, 1) # Determining a threshold based on cost # arg t min {Loss = cost0 * (1 - pnorm(t,3,1)) * pi0 + # cost1 * pnorm(t,6,1) * pi1} t = seq(0,10,0.0001) loss <- cost0 * (1 - pnorm(t,3,1)) * pi0 + cost1 * pnorm(t,6,1) * pi1 Threshold = data.frame(t,loss)[which(loss==min(loss)),]$t

hist(testA_Normals,border=F, xlim=c(0,10))
hist(testA_Sick,col=2,border=F, add=T)

abline(v=Threshold)

Membandingkan 3 persamaan dalam persamaan:

c
pi1 * dnorm(Threshold,6,1) / (pi0 * dnorm(Threshold,3,1) + pi1 * dnorm(Threshold,6,1))
#P(1|T) = P(T|1) * P(1) / [P(T|0) * P(0) + P(T|1) * P(1)]
(pnorm(Threshold,6,1,F)*pi1)/(pnorm(Threshold,6,1,F)*pi1+
                            pnorm(Threshold,3,1,F)*pi0)

0.0909090909090909
0.0909165896894187
0.6749524!!!!!(***)

$(***) \text{Edit}:$ Setelah mendapatkan bantuan dari sumber yang sangat dapat diandalkan (tidak disebutkan namanya jangan sampai saya salah mengutip) pemikiran di belakang $\Pr(1\vert T)$ tidak $\Pr(1\vert s \geq T),$ yang akan menjadi apa yang disarankan oleh kode saya, melainkan $\Pr(1\vert s=T),$ atau $$\Tiny\lim_{d \to 0}\frac{d \pi_1 f_1(T)}{ d \pi_1 f_1(T) + d \pi_0 f_0(T) }= \lim_{d \to 0} \Pr\left(1\Big\vert -\frac d 2 +T +\frac d 2\right). $$

Jawaban

3 DilipSarwate Dec 23 2020 at 05:19

Diberikan aturan keputusan

Kapan Hipotesis $\mathsf H_0$ benar (peristiwa yang terjadi dengan probabilitas $\pi_0$), variabel keputusan $X$ melebihi ambang batas $t$ dengan probabilitas $(1-F_0(t))$ (dan alarm palsu terjadi) dan biaya yang dikeluarkan adalah $c_0$.

Kapan Hipotesis $\mathsf H_1$ benar (peristiwa yang terjadi dengan probabilitas $\pi_1$), variabel keputusan $X$ lebih kecil dari ambang batas $t$ dengan probabilitas $F_1(t)$ (dan kemudian terjadi kesalahan deteksi) dan biaya yang timbul adalah $c_1$.

Jadi, biaya rata - rata atau biaya yang diharapkan dari setiap keputusan adalah\begin{align} \text{average cost} &= c_0\pi_0(1-F_0(t)) + c_1\pi_1F_1(t)\\\ &= (c_0 + c_1)\left[\frac{c_0}{c_0 + c_1}\pi_0(1-F_0(t)) + \frac{c_1}{c_0 + c_1}\pi_1F_1(t)\right]\\ &= (c_0 + c_1)\big[c\pi_0(1-F_0(t)) + (1-c)\pi_1F_1(t)\big]. \end{align} Nilai dari $t$ sehingga meminimalkan biaya rata-rata $$T = \underset{t}{\arg \min}\big[c\pi_0(1-F_0(t)) + (1-c)\pi_1F_1(t)\big],\tag{1}$$ dan biaya rata-rata minimum yang dapat dicapai oleh aturan keputusan ini $$\text{minimum average cost}=(c_0 + c_1)\big[c\pi_0(1-F_0(T)) + (1-c)\pi_1F_1(T)\big]. \tag{2}$$

Perhatikan, bagaimanapun, bahwa minimalitas biaya rata-rata ini hanya di antara semua aturan keputusan dalam formulir

Jika $X > t$, keputusannya adalah itu$\mathsf H_1$terjadi.
Jika$X \leq t$, keputusannya adalah itu$\mathsf H_0$ terjadi.

Aturan keputusan lain mungkin mencapai biaya rata-rata yang lebih kecil daripada $(2)$, dan kami membahasnya di bawah ini.


Aturan keputusan biaya rata-rata minimum yang optimal

The optimal aturan keputusan minimum yang diperkirakan-biaya adalah salah satu yang membandingkan rasio kemungkinan$\displaystyle\Lambda(X) = \frac{f_1(X)}{f_0(X)}$ ke ambang pintu $\displaystyle\frac{c_0\pi_0}{c_1\pi_1}$ dan memutuskan itu $\mathsf H_0$ atau $\mathsf H_1$ terjadi menurut $\Lambda(X)$kurang dari atau sama dengan ambang batas atau lebih besar dari ambang batas. Dengan demikian, garis nyata dapat dipartisi menjadi himpunan$\Gamma_0$ dan $\Gamma_1$ didefinisikan sebagai \begin{align} \Gamma_0 &= \big\{X \in \Gamma_0 \implies \textit{decision }\text{is that } \mathsf H_0~\text{occurred}\big\}\\ &= \left\{x\in \mathbb R\colon \Lambda(x) \leq \frac{c_0\pi_0}{c_1\pi_1}\right\}\\ \Gamma_1 &= \big\{X \in \Gamma_1 \implies \textit{decision }\text{is that } \mathsf H_1~\text{occurred}\big\}\\ &= \left\{x\in \mathbb R\colon \Lambda(x) > \frac{c_0\pi_0}{c_1\pi_1}\right\} \end{align} dimana $\Gamma_0$ dan $\Gamma_1$ belum tentu set $\left\{x \leq T\right\}$ dan $\left\{x > T\right\}$dibahas sebelumnya. The optimal keputusan minimum-rata biaya memiliki biaya$$\text{minimum average cost}=(c_0 + c_1)\big[c\pi_0\Pr\{X \in \Gamma_1\mid \mathsf H_0\} + (1-c)\pi_1\Pr\{X \in \Gamma_0\mid \mathsf H_1\}\big]. \tag{3}$$

Jika rasio kemungkinan adalah fungsi peningkatan monoton dari argumennya,

kemudian $\Gamma_0$ dan $\Gamma_1$ ditemukan dalam bentuk $\left\{x \leq T^*\right\}$ dan $\left\{x > T^*\right\}$ dan $(3)$ disederhanakan menjadi \begin{align} \text{minimum average cost}&=(c_0 + c_1)\big[c\pi_0\Pr\{X > T^*\mid \mathsf H_0\} + (1-c)\pi_1\Pr\{X \leq T^*\mid \mathsf H_1\}\big]\\ &= (c_0 + c_1)\big[c\pi_0(1-F_0(T^*)) + (1-c)\pi_1F_1(T^*)\big]. \tag{4} \end{align} Sedikit pemikiran menunjukkan itu $T^*$ harus sama dengan $T$ di $(1)$. Tetapi ada lebih banyak informasi yang bisa diperoleh$(4)$ karena sekarang kami memiliki deskripsi yang berbeda tentang nilai $T^*$.

$T^*$ adalah bilangan seperti itu $\Lambda(T^*)$ sama $\displaystyle\frac{c_0\pi_0}{c_1\pi_1}$.

Dari $\displaystyle\Lambda(T^*) = \frac{f_1(T^*)}{f_0(T^*)} = \frac{c_0\pi_0}{c_1\pi_1}$, kami mendapatkan (dengan beberapa aljabar langsung dan klaim itu $T^*$ sama $T$) itu $$c =\frac{c_0}{c_0+c_1} = \frac{\pi_1f_1(T^*)}{\pi_0f_0(T^*)+\pi_1f_1(T^*)} = \frac{\pi_1f_1(T)}{\pi_0f_0(T)+\pi_1f_1(T)}$$ derivasi siapa yang membingungkan OP.

Akhirnya, mari kita beralih ke klaim itu $c$ juga sama $\Pr(1\mid T)$. Membiarkan$Y$ menjadi variabel acak Bernoulli sedemikian rupa $Y=1$ kapanpun $\mathsf H_1$ terjadi sementara $Y=0$ kapan $\mathsf H_0$terjadi. Jadi kita punya itu untuk$i=0,1$, $f_{X\mid Y=i}(x) := f_i(x)$. Sekarang,$X$ dan $Y$tidak dapat menikmati fungsi kepadatan sendi karena$Y$ bukanlah variabel acak kontinu, dan jika kita ingin memvisualisasikan $x$-$y$pesawat, maka kami memiliki dua (tertimbang) kerapatan garis $\pi_0f_0(x)$ dan $\pi_1f_1(x)$ sepanjang garis $y=0$ dan $y=1$ dalam $x$-$y$pesawat. Berapakah kepadatan tak bersyarat dari$X$? Nah, di$X=x$, kepadatan tak bersyarat dari $X$ memiliki nilai $$f_X(x) = \pi_0f_0(x)+\pi_1f_1(x).\tag{5}$$ Sebaliknya, berapa distribusi variabel acak Bernoulli $Y$ dikondisikan $X=x$? Nah, kapan$X=x$, $Y$ mengambil nilai $0$ dan $1$ dengan probabilitas masing-masing \begin{align}\Pr(Y=0\mid X=x) &= \frac{\pi_0f_0(x)}{\pi_0f_0(x)+\pi_1f_1(x)}\tag{6}\\ \Pr(Y=1\mid X=x) &= \frac{\pi_1f_1(x)}{\pi_0f_0(x)+\pi_1f_1(x)}\tag{7} \end{align} yang menunjukkan itu $c$ sama $\Pr(Y=1\mid X=T)$ yang ditulis oleh kertas yang OP membaca tulis $\Pr(1|T)$. Itu adalah istilah pembelajaran mesin untuk Anda .... Tapi ya$(6)$ dan $(7)$ nilai yang masuk akal untuk pdf bersyarat dari $Y$? Nah, untuk$i=0,1$, kita dapat menemukan probabilitas tak bersyarat itu$Y=i$ dengan mengalikan probabilitas bersyarat $\Pr(Y=i\mid X=x)$ dengan pdf dari $X$ dan mengintegrasikan yang memberi kita \begin{align} \Pr(Y=i) &= \int_{-\infty}^\infty \Pr(Y=i\mid X=x)\cdot f_X(x) \,\mathrm dx\\ &= \int_{-\infty}^\infty \left.\left.\frac{\pi_if_i(x)}{\pi_0f_0(x)+\pi_1f_1(x)} \cdot \right(\pi_0f_0(x)+\pi_1f_1(x)\right) \,\mathrm dx\\ &= \int_{-\infty}^\infty \pi_if_i(x) \,\mathrm dx\\ &= \pi_i \end{align} yang saya harap menambahkan sentuhan artistik pada narasi yang botak dan tidak meyakinkan.