ROC 곡선의 비용 비율을 AUC의 함수로 유도하는 단계 설명
에 이 논문 데이비드 손으로 오 분류 비용은$c_0$ 과 $c_1$ 비율로 $c$ ~로써 정의 된 $c=c_0/(c_0+c_1).$ 최적으로 간주되는 임계 값은 다음과 같습니다.
$$T(c)=\underset{t}{\text{arg min}}\left\{ c\pi_0(1-F_0(t)) + (1-c) \pi_1 F_1(t) \right\}$$
와 $t$ 점수의 임계 값 $1=\pi_0+\pi_1$ 인구에서 질병에 걸린 건강한 개인의 비율. $F_0$ 질병의 분포이고 $F_1$건강한 개인의 분포. 케이스는 클래스로 간주됩니다.$0.$
일대일 관계 가정 $c$ 와 $T$ 미분하면 다음과 같은 결과를 얻습니다 (방정식 (5)).
$$c= \color{red}{\Pr(1\vert T)} = \pi_1 f_1(T) / \left\{ \pi_0f_0(T) + \pi_1f_1(T)\right\}$$
어디 $\Pr(1\vert T)$ 클래스에 속할 조건부 확률입니다. $1,$ 주어진 점수 $T.$
빨간색 부분을 제외하고는 여기에있는 모든 것을 따릅니다. 그것은 매우 기본적인 오해 일 수 있지만 조건부 확률은 pdf와 달리 cdf의 비율로 계산되어서는 안됩니다 .
답은 점수를 고려한 것 같아요 $s(x)$ 로지스틱 회귀에서 단조롭게 증가하는 변환으로 $\Pr(1 \vert x).$
다음은 이것을 해킹하려는 실패한 시도입니다.
install.packages('pROC')
install.packages('ROCR')
install.packages('Epi')
library(pROC)
library(ROCR)
library(Epi)
set.seed(561)
cost0 = 1 # Cost of mis-classifying a normal as having cancer in million $ cost1 = 10 # Cost of mis-classifying a cancer patient as normal (death?) b = cost0 + cost1 c = cost0/(b) n = 7000 # Total cases pi0 =.8 # Percentage of normal pi1 =.2 # Percentage of disease # Actual values of the test for normals and disease (D higher test values) testA_Normals = rnorm(n*pi0, mean=3, sd=1) testA_Sick = rnorm(n*pi1, 6, 1) # Determining a threshold based on cost # arg t min {Loss = cost0 * (1 - pnorm(t,3,1)) * pi0 + # cost1 * pnorm(t,6,1) * pi1} t = seq(0,10,0.0001) loss <- cost0 * (1 - pnorm(t,3,1)) * pi0 + cost1 * pnorm(t,6,1) * pi1 Threshold = data.frame(t,loss)[which(loss==min(loss)),]$t
hist(testA_Normals,border=F, xlim=c(0,10))
hist(testA_Sick,col=2,border=F, add=T)
abline(v=Threshold)

방정식에서 3 개의 평등을 비교 :
c
pi1 * dnorm(Threshold,6,1) / (pi0 * dnorm(Threshold,3,1) + pi1 * dnorm(Threshold,6,1))
#P(1|T) = P(T|1) * P(1) / [P(T|0) * P(0) + P(T|1) * P(1)]
(pnorm(Threshold,6,1,F)*pi1)/(pnorm(Threshold,6,1,F)*pi1+
pnorm(Threshold,3,1,F)*pi0)
0.0909090909090909
0.0909165896894187
0.6749524!!!!!(***)
$(***) \text{Edit}:$ 매우 신뢰할 수있는 출처로부터 도움을받은 후 (내가 잘못 인용하지 않도록 이름이 지정되지 않음) $\Pr(1\vert T)$ 아니다 $\Pr(1\vert s \geq T),$ 내 코드가 제안하는 것이지만 오히려 $\Pr(1\vert s=T),$ 또는 $$\Tiny\lim_{d \to 0}\frac{d \pi_1 f_1(T)}{ d \pi_1 f_1(T) + d \pi_0 f_0(T) }= \lim_{d \to 0} \Pr\left(1\Big\vert -\frac d 2 +T +\frac d 2\right). $$
답변
주어진 결정 규칙
가설 $\mathsf H_0$ true (확률로 발생하는 이벤트 $\pi_0$), 결정 변수 $X$ 임계 값을 초과 $t$ 확률 적으로 $(1-F_0(t))$ (따라서 잘못된 경보가 발생 함) 발생하는 비용은 $c_0$.
가설 $\mathsf H_1$ true (확률로 발생하는 이벤트 $\pi_1$), 결정 변수 $X$ 임계 값보다 작습니다. $t$ 확률 적으로 $F_1(t)$ (따라서 누락 된 감지가 발생 함) 발생하는 비용은 $c_1$.
따라서 각 결정 의 평균 비용 또는 예상 비용 은\begin{align} \text{average cost} &= c_0\pi_0(1-F_0(t)) + c_1\pi_1F_1(t)\\\ &= (c_0 + c_1)\left[\frac{c_0}{c_0 + c_1}\pi_0(1-F_0(t)) + \frac{c_1}{c_0 + c_1}\pi_1F_1(t)\right]\\ &= (c_0 + c_1)\big[c\pi_0(1-F_0(t)) + (1-c)\pi_1F_1(t)\big]. \end{align} 의 가치 $t$ 따라서 평균 비용을 최소화하는 것은 $$T = \underset{t}{\arg \min}\big[c\pi_0(1-F_0(t)) + (1-c)\pi_1F_1(t)\big],\tag{1}$$ 이 결정 규칙이 달성 할 수있는 최소 평균 비용은 $$\text{minimum average cost}=(c_0 + c_1)\big[c\pi_0(1-F_0(T)) + (1-c)\pi_1F_1(T)\big]. \tag{2}$$
그러나 평균 비용의이 최소 성은 양식의 모든 결정 규칙 중에 만 해당됩니다.
만약 $X > t$, 결정 은$\mathsf H_1$발생했습니다.
만약$X \leq t$, 결정 은$\mathsf H_0$ 발생했습니다.
다른 결정 규칙은 다음보다 적은 평균 비용을 달성 할 수 있습니다. $(2)$, 이에 대해 아래에서 논의합니다.
최적의 최소 평균 비용 결정 규칙
최적의 최소 예상 비용 결정 규칙은 우도 비를 비교 한 것이다$\displaystyle\Lambda(X) = \frac{f_1(X)}{f_0(X)}$ 문턱까지 $\displaystyle\frac{c_0\pi_0}{c_1\pi_1}$ 그리고 그것을 결정 $\mathsf H_0$ 또는 $\mathsf H_1$ 다음과 같이 발생했습니다. $\Lambda(X)$임계 값보다 작거나 같거나 임계 값보다 큽니다. 따라서 실제 라인은 세트로 분할 될 수 있습니다.$\Gamma_0$ 과 $\Gamma_1$ ~로써 정의 된 \begin{align} \Gamma_0 &= \big\{X \in \Gamma_0 \implies \textit{decision }\text{is that } \mathsf H_0~\text{occurred}\big\}\\ &= \left\{x\in \mathbb R\colon \Lambda(x) \leq \frac{c_0\pi_0}{c_1\pi_1}\right\}\\ \Gamma_1 &= \big\{X \in \Gamma_1 \implies \textit{decision }\text{is that } \mathsf H_1~\text{occurred}\big\}\\ &= \left\{x\in \mathbb R\colon \Lambda(x) > \frac{c_0\pi_0}{c_1\pi_1}\right\} \end{align} 어디 $\Gamma_0$ 과 $\Gamma_1$ 반드시 세트는 아닙니다 $\left\{x \leq T\right\}$ 과 $\left\{x > T\right\}$앞서 논의했습니다. 최적의 최소 평균 비용 결정의 비용이$$\text{minimum average cost}=(c_0 + c_1)\big[c\pi_0\Pr\{X \in \Gamma_1\mid \mathsf H_0\} + (1-c)\pi_1\Pr\{X \in \Gamma_0\mid \mathsf H_1\}\big]. \tag{3}$$
우도 비가 인수의 단조 증가 함수 인 경우
그때 $\Gamma_0$ 과 $\Gamma_1$ 다음과 같은 형태로 밝혀졌습니다. $\left\{x \leq T^*\right\}$ 과 $\left\{x > T^*\right\}$ 과 $(3)$ 단순화 \begin{align} \text{minimum average cost}&=(c_0 + c_1)\big[c\pi_0\Pr\{X > T^*\mid \mathsf H_0\} + (1-c)\pi_1\Pr\{X \leq T^*\mid \mathsf H_1\}\big]\\ &= (c_0 + c_1)\big[c\pi_0(1-F_0(T^*)) + (1-c)\pi_1F_1(T^*)\big]. \tag{4} \end{align} 약간의 생각은 $T^*$ 반드시 다음과 같아야합니다. $T$ 에 $(1)$. 그러나 더 많은 정보를 얻을 수 있습니다.$(4)$ 이제 우리는 가치에 대한 다른 설명을 가지고 있기 때문에 $T^*$.
$T^*$ 다음과 같은 숫자입니다 $\Lambda(T^*)$ 같음 $\displaystyle\frac{c_0\pi_0}{c_1\pi_1}$.
에서 $\displaystyle\Lambda(T^*) = \frac{f_1(T^*)}{f_0(T^*)} = \frac{c_0\pi_0}{c_1\pi_1}$, 우리는 (몇 가지 간단한 대수와 $T^*$ 같음 $T$) 그 $$c =\frac{c_0}{c_0+c_1} = \frac{\pi_1f_1(T^*)}{\pi_0f_0(T^*)+\pi_1f_1(T^*)} = \frac{\pi_1f_1(T)}{\pi_0f_0(T)+\pi_1f_1(T)}$$ 그 파생물이 OP를 당혹스럽게 만들었습니다.
마지막으로 다음과 같은 주장을 살펴 보겠습니다. $c$ 또한 같다 $\Pr(1\mid T)$. 허락하다$Y$ 베르누이 확률 변수가 $Y=1$ 할때는 언제나 $\mathsf H_1$ 동안 발생 $Y=0$ 언제 $\mathsf H_0$발생합니다. 따라서 우리는$i=0,1$, $f_{X\mid Y=i}(x) := f_i(x)$. 지금,$X$ 과 $Y$관절 밀도 기능을 즐길 수 없습니다.$Y$ 연속 랜덤 변수가 아닙니다. $x$-$y$평면, 두 개의 (가중) 선 밀도가 있습니다. $\pi_0f_0(x)$ 과 $\pi_1f_1(x)$ 라인을 따라 $y=0$ 과 $y=1$ 에 $x$-$y$비행기. 무조건 밀도는 무엇입니까$X$? 글쎄,$X=x$, 무조건 밀도 $X$ 가치가있다 $$f_X(x) = \pi_0f_0(x)+\pi_1f_1(x).\tag{5}$$ 베르누이 확률 변수의 분포는 무엇입니까? $Y$ 조건부 $X=x$? 글쎄, 언제$X=x$, $Y$ 가치를 취하다 $0$ 과 $1$ 각각의 확률로 \begin{align}\Pr(Y=0\mid X=x) &= \frac{\pi_0f_0(x)}{\pi_0f_0(x)+\pi_1f_1(x)}\tag{6}\\ \Pr(Y=1\mid X=x) &= \frac{\pi_1f_1(x)}{\pi_0f_0(x)+\pi_1f_1(x)}\tag{7} \end{align} 그것은 그것을 보여줍니다 $c$ 같음 $\Pr(Y=1\mid X=T)$ OP가 읽는 논문은 다음과 같이 씁니다. $\Pr(1|T)$. 이것이 바로 기계 학습 용어입니다 ....하지만$(6)$ 과 $(7)$ 조건부 pdf에 대한 그럴듯한 값 $Y$? 글쎄,$i=0,1$, 우리는 무조건적인 확률을 찾을 수 있습니다$Y=i$ 조건부 확률을 곱하여 $\Pr(Y=i\mid X=x)$ PDF로 $X$ 우리에게주는 통합 \begin{align} \Pr(Y=i) &= \int_{-\infty}^\infty \Pr(Y=i\mid X=x)\cdot f_X(x) \,\mathrm dx\\ &= \int_{-\infty}^\infty \left.\left.\frac{\pi_if_i(x)}{\pi_0f_0(x)+\pi_1f_1(x)} \cdot \right(\pi_0f_0(x)+\pi_1f_1(x)\right) \,\mathrm dx\\ &= \int_{-\infty}^\infty \pi_if_i(x) \,\mathrm dx\\ &= \pi_i \end{align} 대머리이고 설득력이없는 내러티브에 예술적 진실성을 더하기를 바랍니다.