Kapan kurva ROC untuk membandingkan tes pencitraan valid? (Fokus pada contoh di bawah)

Dec 17 2020

Saya ingin bertanya kritik apa yang bisa dikemukakan dalam contoh kasus berikut: Dalam makalah ini mereka menguji cara mendeteksi penyempitan saluran serviks pada radiografi menggunakan rasio pengukuran. Dalam mata pelajaran yang diteliti mereka memiliki CT-scan sebagai "standar emas": sudah mapan bahwa kanal tulang belakang diukur pada CT$<12$ mm adalah diagnostik penyempitan ($1$ label dalam regresi logistik).

Berikut adalah tujuan penelitian tersebut:

Rasio dengan koefisien korelasi yang signifikan [dengan pengukuran CT] dievaluasi dengan analisis kurva karakteristik operasi penerima (ROC) untuk menentukan nilai rasio cutoff yang mengoptimalkan sensitivitas dan tingkat positif palsu (1 - spesifisitas) untuk menunjukkan stenosis serviks perkembangan, yang didefinisikan sebagai diameter kanal sagital <12 mm pada CT.

dengan kesimpulan sebagai berikut:

Namun, analisis kurva ROC menunjukkan bahwa hanya rasio LM / CD [salah satu metode pengukuran diameter pada radiografi] dari $\geq 0.735$ menunjukkan diameter kanal $<12$mm (perkembangan stenosis serviks). [$<12$ mm adalah ambang batas yang disepakati pada "standar emas"].

  1. Apakah benar secara metodologis membandingkan rasio pengukuran saluran tulang belakang yang berbeda ini (LM / CD, SL / LM, dll) untuk akurasi menggunakan ROC? Di bawah kriteria apa OK secara umum?
  2. Apakah benar untuk mendapatkan titik potong $0.735$ dari kurva ROC?
  3. Dan, yang tidak terlalu penting tapi penasaran, bukankah SL / VB akan sama bagusnya dengan pengklasifikasi (terbalik) seperti LM / CD, yang menunjukkan kanal tulang belakang yang terbuka lebar?

Mengenai poin (2) penggunaan kurva ROC untuk menetapkan ambang batas dalam kedokteran sangat bermasalah, dan seperti yang dijelaskan dalam Scientific American, "Ambang mana yang optimal untuk populasi tertentu bergantung pada faktor-faktor seperti keseriusan kondisi yang didiagnosis, prevalensi. tentang kondisi dalam populasi, ketersediaan tindakan korektif bagi mereka yang didiagnosis, dan biaya finansial, emosional, dan lainnya dari peringatan palsu. " .

Sayangnya, makalah ini jarang dalam rincian statistik, tetapi saya menganggap nilai batas yang ditunjukkan dipilih untuk memaksimalkan statistik Youden J (lr.eta). Tanpa bukti positif bahwa ini adalah metode yang digunakan, ini bermasalah karena rasio biaya bervariasi dengan prevalensi, seperti dalam artikel ini dengan baik hati dibagikan oleh @Scortchi.

Mengenai poin (3) Saya bertanya-tanya apakah pengukuran ini seharusnya telah dibalik untuk menempatkannya kembali ke dalam persaingan untuk "rasio terbaik" sebagai prediktor negatif, karena "pengklasifikasi apa pun yang menghasilkan titik di segitiga siku-siku bawah dapat dinegasikan menjadi menghasilkan titik di segitiga kiri atas. "

Sebagai gambaran, dan menggunakan kumpulan data PSA (prostatic specific antigen) yang tersedia untuk diunduh di sini , total PSA dapat dianggap sebagai indikator yang baik untuk kanker prostat. Plot ROC menunjukkan lambung cembung dengan AUC$0.85,$ dan nilai p dari $<0.01$; Namun, hanya mengubah tanda (atau membalikkan nilai konsentrasi$\text{[PSA]}$ untuk $1/\text{[PSA]}$) menghasilkan bayangan cermin:

Seseorang dapat menyimpulkan bahwa rasio yang memprediksi diameter saluran yang besar (dan oleh karena itu dapat bertindak sebagai indikator yang baik untuk tidak adanya stenosis saluran akar) tidak dipertimbangkan dalam penelitian ini, karena tidak ada transformasi sederhana yang diterapkan untuk, misalnya SL / VB ( berwarna kuning) untuk membaliknya ke segitiga atas:

Setelah pengamatan @ Carl tentang fakta bahwa SL / VB berhubungan positif dengan diameter saluran $0.652$ tidak sesuai dengan kurva cekung dan AUC rendah, titik (3) diperkuat - mereka melempar ke dalam tas yang sama dan membandingkan ukuran lebar saluran serviks (sehat) dengan korelasi positif bersama dengan ukuran saluran sempit (penyakit) dengan satu-satunya korelasi negatif:


Secara umum, akurasi atau kinerja uji diagnostik yang berbeda dianalisis di mana-mana dalam kurva ROC, dan AUC dilaporkan dengan atau tanpa CI. Kombinasi dari pengklasifikasi yang berbeda juga sering dibandingkan. Ini adalah praktik umum sehingga sulit bagi saya untuk mengatakan apakah itu hanya sesuatu yang mungkin disalahgunakan tetapi tidak akan hilang (sebagai nilai p ), dan oleh karena itu tidak layak disebutkan dalam tinjauan sejawat, atau praktik yang dapat diterima di bawah beberapa kondisi yang menghindari banyak kritik yang diterima kurva KOP, termasuk ABK yang memfaktorkan segmen yang sedikit atau tidak ada minat dalam kurva. Dalam hal ini, harus kurva ROC disajikan sebagai tambahan , dan menghindari menyajikan "analisis ROC" sebagai yang metode?

Jawaban

2 EdM Dec 28 2020 at 05:08

Makalah khusus yang dimaksud, PH Horne et al, A Novel Radiographic Indicator of Developmental Cervical Stenosis , J Bone Joint Surg Am. (2016) 98: 1206-14 , tampaknya menjadi contoh yang tidak menguntungkan dari apa yang disebut "dikotomisasi dini." Ada batas diameter kanal spinal saggital <12 mm yang ditetapkan untuk mengklasifikasikan seseorang memiliki "stenosis serviks", berdasarkan rekonstruksi dari pencitraan 3D (seperti pemindaian tomografi terkomputasi). Para penulis memeriksa empat pengukuran dari pencitraan 2D yang lebih mudah tersedia (yang juga lebih murah dan melibatkan dosis radiasi yang jauh lebih rendah) pada pasien yang juga memiliki diameter saluran yang ditentukan dari pencitraan 3D. Para penulis memeriksa apakah pengukuran dalam 2D ​​tersebut dapat digunakan untuk memprediksi stenosis serviks.

Studi ini akan menjadi peluang besar untuk memodelkan diameter saluran saggital sebagai fungsi dari semua pengukuran 2D ini, dan melihat seberapa baik diameter saluran yang sebenarnya dapat dimodelkan. Sayangnya, penulis hanya memeriksa korelasi individu dari masing-masing 4 pengukuran tersebut dengan diameter saluran untuk memulai, dan kemudian melihat korelasi diameter saluran dengan seperangkat rasio berpasangan pengukuran 2D. Pendekatan itu membuang informasi yang lebih rinci yang mungkin disediakan oleh pendekatan regresi berganda yang melibatkan semua 4 pengukuran bersama.

Kemudian, untuk mengevaluasi rasio berpasangan yang kurang ideal ini, penulis tampaknya telah mengabaikan pengukuran diameter kanal yang sebenarnya, dan hanya mencoba memprediksi klasifikasi berbasis 3D menjadi stenosis / normal. Kurva karakteristik operasi penerima (ROC) yang ditunjukkan di makalah dan dalam pertanyaan ini menunjukkan bagaimana mengubah batas untuk masing-masing rasio tersebut mempengaruhi sensitivitas dan spesifisitas dalam mengidentifikasi stenosis. Model di mana semua pengukuran digunakan untuk memperkirakan diameter saluran (bersama dengan perkiraan kesalahan), dan baru kemudian membuat panggilan dengan diameter <12 mm, mungkin akan jauh lebih berguna.

Meskipun ini bukan makalah yang bagus dari sudut pandang statistik, pertanyaan yang diajukan tentangnya bersifat umum dan pantas didiskusikan. D. Tangan, dalam Mengukur kinerja pengklasifikasi: alternatif yang koheren ke area di bawah kurva KOP , Mach Learn (2009) 77: 103–123 (dirujuk dalam pertanyaan terkait ini ) memberikan kunci penting.

Tangan menganggap dua kelas berlabel $k=0$ dan $k=1$, prevalensi $\pi_k$, dan fungsi kepadatan $f_k(s)$ mendeskripsikan distribusi dalam setiap kelas dari suatu skor $s$ yang meningkat secara monoton dengan kemungkinan keanggotaan di kelas $1$. Biaya kesalahan klasifikasi ke dalam kelas$k$ aku s $c_k$, dengan $c$ rasio biaya untuk kesalahan klasifikasi ke dalam kelas $0$, $c =c_0/(c_0+c_1)$.

Ketika rasio biaya dinyatakan seperti ini dan Anda memiliki model yang benar untuk probabilitas keanggotaan kelas, batas probabilitas optimal biaya untuk tugas kelas adalah$c$. Dengan demikian, ukuran kualitas model yang umum mungkin tidak memberikan banyak panduan dalam menerapkan model. Yang penting adalah memiliki model probabilitas keanggotaan kelas yang terkalibrasi dengan baik, terutama untuk probabilitas yang mendekati titik keputusan akhir jika biaya kesalahan klasifikasi relatif diketahui. Dengan kata lain, setiap pilihan probabilitas atau batas skor membuat pilihan implisit tentang biaya relatif tersebut.

Tangan menunjukkan (halaman 111) bahwa area di bawah kurva KOP, AUC,

setara dengan mengambil rata-rata kerugian yang sesuai dengan rasio biaya yang berbeda $c$, di mana rata-rata dihitung menurut distribusi:

$$w(c) = \pi_0 f_0 (P_1^{-1}(c)) \left| \frac{dP_1^{-1}(c)}{dc} \right| + \pi_1 f_1 (P_1^{-1}(c)) \left| \frac{dP_1^{-1}(c)}{dc} \right|.$$

Sini, $P_1^{-1}(c)$mewakili ambang skor / probabilitas biaya-optimal untuk klasifikasi. Ini menggambarkan dua masalah dengan menggunakan AUC untuk membandingkan pengklasifikasi yang berbeda. Pertama, seiring Hand melanjutkan;

Implikasi dari hal ini adalah distribusi bobot di atas rasio biaya $c$, secara implisit digunakan dalam menghitung ABK, bergantung pada distribusi skor empiris $f_k$. Artinya, distribusi bobot yang digunakan untuk menggabungkan berbagai rasio biaya c, akan bervariasi dari pengklasifikasi ke pengklasifikasi . Tapi ini tidak masuk akal. Keyakinan tentang kemungkinan nilai$c$harus diperoleh dari pertimbangan yang terpisah dari data: mereka adalah bagian dari definisi masalah. Seseorang tidak dapat mengubah pikirannya tentang betapa pentingnya menganggap kesalahan klasifikasi menurut alat yang digunakan untuk membuat klasifikasi itu. Namun demikian, inilah yang secara efektif AUC lakukan —- mengevaluasi pengklasifikasi yang berbeda menggunakan metrik yang berbeda.

Kedua, rata-rata tertimbang selanjutnya tergantung pada prevalensi kelas, $\pi_0$ dan $\pi_1$. Hal itu dapat menyebabkan kebingungan lebih lanjut, yang dijelaskan misalnya oleh TM Hamill dan J. Juras, Mengukur keterampilan ramalan: apakah itu keterampilan nyata atau klimatologi yang berbeda-beda? , QJR Meteorol. Soc. (2006), 132: 2905–2923 .

Menerapkan prinsip-prinsip ini pada 3 pertanyaan spesifik sehubungan dengan makalah Horne et al:

  1. Apakah benar secara metodologis membandingkan rasio pengukuran saluran tulang belakang yang berbeda ini (LM / CD, SL / LM, dll) untuk akurasi menggunakan ROC? Di bawah kriteria apa OK secara umum?

Untuk saat ini, kesampingkan masalah yang lebih luas dengan desain eksperimental yang diangkat di awal. Jika seseorang menganggap "bandingkan ... akurasi menggunakan ROC" yang berarti membandingkan nilai AUC, maka itu bisa berbahaya secara umum. Selain mengabaikan biaya relatif dari kesalahan klasifikasi yang berbeda dan masalah distribusi yang berbeda dari skor di dalam kelas di antara skema klasifikasi yang dibahas Hand, ada potensi masalah besar di sini yang timbul dari prevalensi.$\pi$dari stenosis. Populasi dalam makalah Horne et al terdiri dari individu-individu yang telah menjalani pencitraan 2D dan 3D untuk beberapa indikasi klinis. Seseorang mungkin tidak ingin menerapkan kriteria yang sama pada populasi yang lebih luas di mana prevalensi stenosis mungkin jauh lebih rendah dan biaya kesalahan klasifikasi relatif mungkin berbeda.

Lebih jauh, bahkan jika seseorang memilih untuk mengabaikan masalah ini, AUC tidak terlalu sensitif untuk membedakan di antara model. Sekali lagi, kalibrasi adalah kuncinya. Dengan ukuran sampel yang khas dari studi klinis semacam itu, perbandingan performa model lebih baik berdasarkan resampling, misalnya pengulangan pemodelan pada beberapa sampel bootstrap dari data dan mengevaluasi pada kumpulan data lengkap.

2, Apakah benar untuk mendapatkan titik potong 0,735 dari kurva ROC?

Pilihan itu tampaknya dibuat untuk titik pada KOP yang memiliki jarak tegak lurus terjauh dari garis diagonal yang tidak mewakili keterampilan, yang disebut (antara lain) skor keterampilan Peirce maksimum. Dalam A Note On the Maximum Peirce Skill Score , Weather and Forecasting (2007) 22: 1148-1154 , A. Manzato mengatakan: "itu adalah titik ROC yang memaksimalkan keterampilan pengklasifikasi." Namun demikian, pilihan batas tersebut tidak memperhitungkan biaya kesalahan klasifikasi relatif, seperti yang selanjutnya ditunjukkan oleh Manzato. Apakah pilihan itu "benar" tergantung pada tujuan penggunaan sistem penilaian dan biaya kesalahan klasifikasi relatif, yang tampaknya tidak dibahas Horne dkk.

  1. Dan, yang tidak terlalu penting tapi penasaran, bukankah SL / VB akan sama bagusnya dengan pengklasifikasi (terbalik) seperti LM / CD, yang menunjukkan kanal tulang belakang yang terbuka lebar?

Secara umum, jika sistem penilaian melakukan tugas yang baik dalam memilih kelas yang salah, pilih saja kelas lainnya.

Namun, perhatikan bahwa sebagian besar hal di atas berkaitan dengan masalah dalam membandingkan sistem penilaian yang berbeda. Untuk salah satu sistem penilaian, kurva KOP masih memberikan gambaran yang mudah tentang pengorbanan sensitivitas / spesifisitas yang mendasarinya, terutama jika kurva tersebut diberi label terkait dengan skor. Dan untuk salah satu sistem penilaian, AUC menyediakan pecahan pasangan kasus kelas yang berbeda yang perbedaan skor relatifnya sesuai dengan keanggotaan kelas.