ใช้ตัวแยกประเภท Naive Bayes ที่แตกต่างกันเพื่อกำหนดเป้าหมายข้อมูลที่แตกต่างกัน
ฉันกำลังฝึกใช้ลักษณนาม Naive Bayes เพื่อทำนายว่าคนเป็นโรคหลอดเลือดสมองหรือไม่ แต่ฉันสับสนกับตัวจำแนกสองตัว หนึ่งคือ Naive Bayes เด็ดขาดอีกอันคือ Gaussian Naive Bayes
ตัวอย่างเช่นในชุดข้อมูลมีแอตทริบิวต์ข้อความหลายอย่างเช่น gender, ever_married และ ever_smoked บางคอลัมน์เป็นข้อมูลตัวเลข สำหรับการกำหนดมาตรฐานฉันใช้ Dummies sex = pd.get_dummies(df['gender'],drop_first=True)
เพื่อแปลงข้อความเป็นไบนารีจากนั้นกำหนดมาตรฐานชุดข้อมูลและใช้ตัวจำแนก Gaussian Naive Bayes เพื่อฝึกอบรมข้อมูล วิธีนี้เป็นวิธีที่ถูกต้องหรือไม่?
หรือฉันควรใช้หมวดหมู่ Naive Bayes โดยตรงเพื่อฝึกอบรมข้อมูล? อย่างไรก็ตามบางคอลัมน์เป็นตัวเลขที่ไม่สมเหตุสมผลที่จะใช้ลักษณนามนี้?
ความช่วยเหลือใด ๆ จะได้รับการชื่นชมอย่างมาก
คำตอบ
ประการแรกคำว่า 'Naive Bayes' หมายถึงสมมติฐานที่ตั้งขึ้นของความเป็นอิสระตามเงื่อนไขระหว่างตัวแปรคุณลักษณะโดยพิจารณาจากผลลัพธ์ของคลาส (นั่นคือ 'จังหวะ' หรือ 'ไม่มีจังหวะ') การใช้ตัวแปร gender และ ever_smoked ความเป็นอิสระตามเงื่อนไขจะเขียนเป็น$Gender \; INDEP \; EverSmoked \; \mid \; Stroke$. ความเป็นอิสระตามเงื่อนไขสามารถถือไว้สำหรับตัวแปรตัวเลข
ตัวแปรสองตัวของคุณคือ Gender และ EverSmoked เป็นหมวดหมู่ดังนั้นตัวแยกประเภทที่ไม่ต่อเนื่องจึงเหมาะสมกับวัตถุประสงค์ของคุณ (คุณสามารถลองใช้Insight Classifiersเว็บบริการนอกชั้นวางซึ่งจัดการกับตัวแปรตัวเลขได้ในคราวเดียว)
โดยทั่วไปเครือข่ายประสาทเทียม (แบบลึก) สนับสนุนเครื่องเวกเตอร์และแผนผังการตัดสินใจ (C4.5) จะรวมตัวแปรคุณลักษณะที่ไม่ต่อเนื่องและต่อเนื่อง