Gunakan pengklasifikasi Naive Bayes yang berbeda untuk menargetkan data yang berbeda

Aug 19 2020

Saya berlatih menggunakan pengklasifikasi Naive Bayes untuk memprediksi apakah orang terkena stroke atau tidak, tetapi, saya bingung dengan dua pengklasifikasi. Salah satunya adalah Naive Bayes kategoris, yang lainnya adalah Gaussian Naive Bayes.

Misalnya pada dataset terdapat beberapa atribut teks seperti gender, ever_married, dan ever_smoked. Beberapa kolom adalah data numerik. Untuk standarisasi, saya menggunakan dummies like sex = pd.get_dummies(df['gender'],drop_first=True)untuk mengubah teks menjadi biner, kemudian menstandarisasi dataset dan menggunakan classifier Gaussian Naive Bayes untuk melatih data. Apakah ini cara yang benar untuk melakukannya?

Atau haruskah saya langsung menggunakan Categorical Naive Bayes untuk melatih data? Namun, beberapa kolom numerik yang tidak layak untuk menggunakan pengklasifikasi ini?

Bantuan apa pun sangat dihargai.

Jawaban

2 MatchMakerEE Aug 19 2020 at 18:14

Pertama, istilah 'Naive Bayes' mengacu pada asumsi yang dibuat tentang independensi bersyarat di antara variabel fitur, dengan mempertimbangkan hasil kelas (yaitu, 'stroke' atau 'no-stroke'). Mengambil variabel gender dan ever_smoked, independensi bersyarat ditulis sebagai$Gender \; INDEP \; EverSmoked \; \mid \; Stroke$. Independensi bersyarat juga berlaku untuk variabel numerik.

Kedua variabel Gender dan EverSmoked Anda bersifat kategoris sehingga pengklasifikasi diskrit sesuai untuk tujuan Anda (Anda dapat mencoba Insight Classifiers layanan web off-the-shelf , yang juga menangani variabel numerik , semuanya dalam sekali jalan).

Secara umum, jaringan neural (dalam), mesin vektor pendukung, dan pohon keputusan (C4.5) dengan mudah menggabungkan variabel fitur diskrit dan kontinu.