Xác suất ung thư vú
Tôi đang gặp sự cố với một bài toán xác suất mà tôi đã cố gắng giải quyết trong một thời gian. Đó là về độ chính xác của xét nghiệm ung thư vú. Các xác suất liên quan được liệt kê bên dưới, trong đó:
- "$\text{cancer}$"là sự kiện" bị ung thư vú ".
- "$+$"là sự kiện" xét nghiệm dương tính với ung thư vú ".
$P(\text{cancer}) = \frac{12}{1000}$
$P(+|\text{cancer}) = \frac{11}{12}$
$P(+) = \frac{31}{1000}$
$P(\text{cancer}|+) = 0.355$
Dòng cuối cùng này là kết quả từ một vấn đề trước đó. Phần tiếp theo liên quan đến việc cập nhật xác suất mắc bệnh ung thư, nhưng tôi đang gặp khó khăn trong việc tìm ra câu trả lời là gì.
Trong phần tiếp theo của câu hỏi, có một người phụ nữ đã có kết quả xét nghiệm dương tính và bác sĩ của cô ấy nói rằng cô ấy thuộc dân số có 40% nguy cơ mắc bệnh ung thư vú.
Tôi cần tìm xác suất người phụ nữ bị ung thư.
Tôi bối rối bởi bản cập nhật này đối với xác suất ung thư, nhưng tôi sẽ cho rằng điều này có nghĩa là $P(\text{cancer})$ đã thay đổi.
Tôi cũng cho rằng điều này có nghĩa là tôi cần tìm một giá trị mới cho $P(\text{cancer}|+)$, nhưng tôi không hiểu đúng.
$P(+ | \text{cancer}) = \frac{11}{12} = \frac{P(\text{cancer} | +)\cdot P(+)}{P(\text{cancer})} = \frac{P(\text{cancer} | +) \cdot \frac{31}{1000}}{0.40}$
$P(\text{cancer} | +) = \frac{11}{12} \cdot 0.40 \cdot \frac{1000}{31} = 11.828$
Kết quả không thể chính xác vì nó hơn 1.
Làm thế nào tôi có thể sửa lỗi này? Cảm ơn bạn trước cho bất kỳ cái nhìn sâu sắc.
Trả lời
Theo Định lý Bayes:
$$P(cancer|+) = \frac{P(+|cancer) P(cancer)}{P(+)}$$
Ở đâu $$P(+) = P(+|cancer)P(cancer)+ P(+|no-cancer)P(no-cancer)$$ $$P(+|cancer) = \frac{11}{12}$$ $$P(cancer) = \frac{4}{10}$$ Vì thế, $$P(cancer|+) = {\frac{11}{12} \cdot \frac{4}{10} \over \frac{11}{12} \cdot \frac{4}{10} + \frac{6}{10} \cdot P(+|no-cancer)}$$
Để tìm tỷ lệ dương tính giả cho xét nghiệm P (+ | không ung thư), chúng ta có thể sử dụng thông tin từ dân số chung, rằng $P(+)= \frac{31}{1000}$ và điều đó $P(cancer) = \frac{12}{1000}$. Sau đó,$$ \frac{31}{1000} = \frac{11}{12} \cdot \frac{12}{1000} + P(+|no-cancer) \cdot \frac{988}{1000} $$ Sắp xếp lại để có được $$ P(+|no-cancer) = \frac{5}{247}$$
Cắm lại điều này vào phương trình trước đó để nhận được $$P(cancer|+) = \frac{2717}{2807} \approx 0.968$$
Chỉ để kiểm tra các số liệu được đưa ra sớm trong câu hỏi của bạn:
\begin{align*} P(\text{cancer}|+) &= \frac{P(+|\text{cancer}) \cdot P(\text{cancer})}{P(+)} \\ &= \frac{\frac{11}{12} \cdot \frac{12}{1000}}{\frac{31}{1000}} \\ &= \frac{11}{31} \\ &\approx 0.355 \end{align*}
Vì vậy, ít nhất phần đó là chính xác.
Bây giờ, điều gì sẽ xảy ra khi bạn thay đổi $P(\text{cancer})$ đến $0.40$, nhưng giữ $P(+|\text{cancer}) = \frac{11}{12}$ và $P(+) = \frac{31}{1000}$? Bạn đã tính toán điều này, nhưng có một cách trực tiếp hơn để viết phép tính của bạn:
\begin{align*} P(\text{cancer}|+) &= \frac{P(+|\text{cancer}) \cdot P(\text{cancer})}{P(+)} \\ &= \frac{\frac{11}{12} \cdot 0.40}{\frac{31}{1000}} \\ &= \frac{11}{12} \cdot 0.40 \cdot \frac{1000}{31} \\ &\approx 11.828 \end{align*}
Tính toán này cho thấy rằng sự kết hợp các xác suất này không hoạt động. Kết luận này đúng, nhưng tại sao?
Đây là một lời giải thích đơn giản: $P(\text{cancer})$ nhưng giữ $P(+|\text{cancer})$ cùng mức tăng $P(\text{cancer} \cap +)$. Trên thực tế, trong trường hợp này,
\begin{align*} P(\text{cancer} \cap +) &= P(\text{cancer}) \cdot P(+|\text{cancer}) \\ &= 0.40 \cdot \frac{11}{12} \\ &> \frac{1}{3} \\ &\gg \frac{31}{1000} \\ &= P(+) \end{align*}
Vậy bạn nên làm gì? Thật khó để nói từ một câu hỏi mơ hồ như vậy. Tôi đoán là giữ$P(+|\text{cancer})$ và $P(+|\neg \text{cancer})$ giống như tình trạng ban đầu (bởi vì chúng chỉ phụ thuộc vào xét nghiệm và do đó độc lập với sự phân bố ung thư):
\begin{align*} P(+|\text{cancer}) &= \frac{11}{12} \\ P(\neg \text{cancer}) &= 1 - P(\text{cancer}) \\ &= \frac{988}{1000} \\ P(\text{cancer} \cap +) &= P(\text{cancer}) \cdot P(+|\text{cancer}) \\ &= \frac{12}{1000} \cdot \frac{11}{12} \\ &= \frac{11}{1000} \\ P(\neg \text{cancer} \cap +) &= P(+) - P(\text{cancer} \cap +) \\ &= \frac{31}{1000} - \frac{11}{1000} \\ &= \frac{20}{1000} \\ P(+|\neg \text{cancer}) &= \frac{P(\neg \text{cancer} \cap +)}{P(\neg \text{cancer})} \\ &= \frac{\left( \frac{20}{1000} \right)}{\left( \frac{988}{1000} \right)} \\ &= \frac{5}{247} \end{align*}
(Có một lá cờ đỏ lớn ở đây: rõ ràng, xét nghiệm này đã thực hiện điều kỳ diệu là giảm thiểu cả tỷ lệ dương tính giả và âm tính giả. Nhưng tôi không thấy gì tốt hơn, vì vậy tôi sẽ tiếp tục con đường ban đầu của mình.)
Áp dụng các giá trị này của $P(+|\text{cancer})$ và $P(+|\neg \text{cancer})$ sang giá trị mới của $P(\text{cancer}) = 0.40$ cung cấp một giá trị mới của $P(+)$:
\begin{align*} P(\neg \text{cancer}) &= 1 - P(\text{cancer}) \\ &= 0.60 \\ P(\text{cancer} \cap +) &= P(\text{cancer}) \cdot P(+|\text{cancer}) \\ &= 0.40 \cdot \frac{11}{12} \\ &= \frac{11}{30} \\ P(\neg \text{cancer} \cap +) &= P(\neg \text{cancer}) \cdot P(+|\neg \text{cancer}) \\ &= 0.60 \cdot \frac{5}{247} \\ &= \frac{3}{247} \\ P(+) &= P(\text{cancer} \cap +) + P(\neg \text{cancer} \cap +) \\ &= \frac{11}{30} + \frac{3}{247} \\ &= \frac{2807}{7410} \end{align*}
Bây giờ chúng ta có thể áp dụng định lý Bayes với giá trị mới này là $P(+)$:
\begin{align*} P(\text{cancer}|+) &= \frac{P(+|\text{cancer}) \cdot P(\text{cancer})}{P(+)} \\ &= \frac{\frac{11}{12} \cdot 0.40}{\frac{2807}{7410}} \\ &\approx 0.968 \end{align*}
Cuối cùng, chúng ta hãy suy nghĩ xem câu trả lời này có hợp lý hay không. Vì thử nghiệm thần kỳ của chúng tôi có tỷ lệ kết quả sai thấp, chúng tôi mong đợi:
$$P(\text{cancer}|+) \approx 1 \tag{1}$$
Với giá trị ban đầu là $P(\text{cancer}) = \frac{12}{1000}$, sự gần đúng $(1)$ là sai, bởi vì $P(\neg \text{cancer})$ cao đến mức thậm chí tỷ lệ dương tính giả thấp cũng dẫn đến số lượng dương tính giả cao (so với số người được xét nghiệm) - trong trường hợp này là cao hơn số lượng âm tính giả.
Nhưng với giá trị mới của $P(\text{cancer}) = 0.40$, sự gần đúng $(1)$là đúng. Hoặc, ít nhất, đó là một ước tính tốt hơn nhiều so với trước đây.
Vì vậy, có vẻ như câu trả lời này là hợp lý.
Đương nhiên giả định rằng trong trường hợp này giá trị trước đó của $P(+)$ không thể áp dụng (đây là một thử nghiệm rất giường, có $3.1\%$ cơ hội tích cực trong một quần thể nơi có cơ hội thực sự $40\%$). Hơn nữa, điều này mâu thuẫn với điều kiện$P(+ | cancer) = \frac{11}{12}$, bởi vì lúc đó $P(+)$ là ít nhất $\frac{11}{12}\cdot 0.4>0.031$.
Điều tự nhiên là giả định rằng các giá trị của $P(+|cancer)$ và $P(cancer|+)$phản ánh hiệu quả và độ tin cậy của thử nghiệm. Tôi hy vọng rằng một quy trình thử nghiệm xử lý một mẫu biệt lập, vì vậy nó độc lập với sự lây lan của ung thư. Nhưng nếu chúng ta giữ các giá trị này thì xác suất$P’(cancer|+)$ rằng người phụ nữ bị ung thư vú là $P(cancer|+)$, và thông tin $P’(cancer)=0.4$ là thừa.
Vì vậy, chúng tôi giả định rằng quy trình kiểm tra chỉ cung cấp $P(+|cancer)$ và $P(+|\neg cancer)$. Sau đó, từ các xác suất đã cho, chúng ta có
$$\frac{31}{1000}=P(+)=P(+|cancer)P(cancer)+ P(+|\neg cancer)P(\neg cancer)=$$ $$ \frac{11}{12}\cdot \frac{12}{1000}+ P(+|\neg cancer) \cdot \frac{988}{1000},$$
vì thế $P(+|\neg cancer)=\frac 5{247}$.
Sau đó
$$P’(+)=P(+|cancer)P’(cancer)+ P(+|\neg cancer)P’(\neg cancer)= \frac{11}{12}\cdot 0.4+\frac 5{247}\cdot 0.6=\frac {2807}{7410}.$$
Từ $P’(cancer|+) P’(+)=P’(cancer\, \&\, +)= P’(+|cancer) P’(cancer),$ chúng ta có
$$P’(cancer|+)=\frac{ P’(+|cancer) P’(cancer)}{P’(+)}=\frac{\frac{11}{12}\cdot 0.4}{\frac {2807}{7410}}=\frac {2717}{2807}\approx 0.968.$$
Tôi sẽ cố gắng làm cho việc này trở nên dễ dàng, bằng cách "bình thường hóa" mọi thứ. Giả sử có$12000$người (con số này sẽ biến mọi thứ trở thành số nguyên - dù sao thì đối với phần đầu tiên này). Đây là những gì chúng tôi biết:
- $\frac{12}{1000}$ bị ung thư: $144$ Mọi người
- 11 trong số 12 người có kết quả xét nghiệm ung thư dương tính với ung thư: $132$ kiểm tra tích cực và $12$ phủ định sai
- $\frac{31}{1000}$ kết quả dương tính với ung thư: $372$ tích cực (nghĩa là $240$ dương tính giả)
- Có nghĩa $p(\text{cancer}|+) = \frac{132}{372} = \frac{11}{31} \approx 0.355$ (và kết quả này là từ Định lý Bayes: $p(\text{cancer}|+) = \frac{p(+ | \text{cancer})p(\text{cancer})}{p(+)} = \left(\frac{11}{12}\cdot \frac{12}{1000}\right)\cdot\frac{1000}{31}$)
Vì vậy, bây giờ bạn đang nói với tôi rằng bạn rơi vào một nhóm không phải là trung bình ($1.2\%$) nhưng một nhóm lớn hơn nhiều: $40\%$. Có một giả định nhất định, trong thế giới thực, chúng ta sẽ phải thực hiện và đó là độ chính xác của bài kiểm tra không thay đổi. Đó có thể không phải là trường hợp trong thế giới thực. Các nhóm khác nhau có khả năng nhận được độ chính xác khác nhau cho một bài kiểm tra.
Vì vậy, những gì tôi có nghĩa là "cùng một độ chính xác". Có hai kết quả có thể xảy ra đối với một bài kiểm tra:
- $\text{# positive results} = \text{# true positives} +\text{# false positives}$
- $\text{# negative results} = \text{# true negatives} + \text{# false negatives}$
Tỷ lệ âm tính giả và dương tính giả phải giữ nguyên (số lượng âm tính thật và dương tính thật sẽ được xác định bởi dân số). Đây là giả định rằng thử nghiệm sẽ có cùng độ chính xác .
Vì vậy, bây giờ chúng ta hãy tiếp tục như trên, ngoại trừ chúng ta cần tìm số lượng các thử nghiệm dương tính thay vì nó là một:
- $\frac{4}{10}$ bị ung thư: $4800$ Mọi người
- $11$ của $12$ những người bị ung thư vẫn cho kết quả dương tính: $4400$ kiểm tra tích cực ($400$ âm tính giả - lưu ý rằng tỷ lệ âm tính giả không đổi theo giả định này).
Phần tiếp theo, chúng ta cần dự đoán xem chúng ta sẽ nhận được bao nhiêu dương tính giả. Giả sử nó xảy ra với tốc độ tương tự. Bây giờ hãy nghĩ về điều này: dương tính giả đến từ đâu? Họ đến từ những người nên tiêu cực. Trong ví dụ ban đầu, có$11856$ những người không bị ung thư, trong số những người được kiểm tra, $240$ dương tính trở lại, vì vậy tỷ lệ dương tính giả là: $\frac{240}{11856} = \frac{5}{247}$. Điều này đại diện cho$p(+|\neg \text{cancer})$. Điều này có thể hơi phức tạp để giải quyết (mặc dù phần trên sẽ cung cấp một số thông tin chi tiết):
\begin{align*} p(+) = p(+|\text{cancer})p(\text{cancer}) + p(+|\neg\text{cancer})p(\neg\text{cancer})\\ \frac{31}{1000} = \frac{11}{12}\frac{12}{1000} + x*\left(1 - \frac{12}{1000}\right) \end{align*}
Hãy loại bỏ $1000$:
\begin{align*} 31 = 11 + 1000x - 12x \leadsto 20 = 1000x - 12x &&\text{divide everything by 4}\\ 5 = 250x - 3x \leadsto x = \frac{5}{247} && \text{q.e.d.} \end{align*}
OK, quay lại ví dụ. Chúng tôi biết$\frac{5}{247}$ những người không bị ung thư sẽ cho kết quả dương tính (giả), vì vậy bây giờ chúng tôi tìm ra bao nhiêu người:
$$ \frac{5}{247}\cdot 7200 \approx 145.75\ \text{false positives} $$
Đưa ra tổng số tích cực vào khoảng $4400 + 145.75 = 4545.75$. Vì vậy, bây giờ chúng tôi làm giống như chúng tôi đã làm ở trên: chúng tôi có$4400$ tích cực thực sự trong số$4545.75$ tổng số tích cực:
$$ p(\text{cancer}|+) \approx \frac{4400}{4545.75} \approx 96.79\% $$
Nhưng bạn có thể thấy từ cách chúng tôi tìm ra tỷ lệ dương tính giả, cách chúng tôi giải quyết vấn đề này bằng cách sử dụng các xác suất:
\begin{align*} p(+) =&\ p(+|\text{cancer})p(\text{cancer}) + p(+|\neg\text{cancer})p(\neg\text{cancer}) \\ x =&\ \frac{11}{12}\frac{2}{5} + \frac{5}{247}\frac{3}{5} \\ =&\ \frac{11}{30} + \frac{3}{247} = \frac{2807}{7410} \end{align*}
Và cuối cùng, sử dụng lại Định lý Bayes:
\begin{align*} p(\text{cancer}|+) =&\ \frac{p(+|\text{cancer})p(\text{cancer})}{p(+)} = \frac{\frac{11}{12}\cdot\frac{2}{5}}{\frac{2807}{7410}} \\ =&\ \frac{11}{30}\cdot\frac{7410}{2807} = \frac{11\cdot 247}{2807} \\ =&\ \frac{2717}{2807} \approx 96.79 \% \end{align*}