Use diferentes clasificadores Naive Bayes para apuntar a diferentes datos
Estoy practicando con el clasificador Naive Bayes para predecir si las personas sufrirán un derrame cerebral o no, pero estoy confundido con dos clasificadores. Uno es Naive Bayes categórico, otro es Gaussian Naive Bayes.
Por ejemplo, en el conjunto de datos, hay varios atributos de texto como género, alguna vez casado y fumado alguna vez. Algunas de las columnas son datos numéricos. Para la estandarización, uso dummies como sex = pd.get_dummies(df['gender'],drop_first=True)
transformar el texto en binario, y luego estandarizo el conjunto de datos y uso el clasificador Gaussian Naive Bayes para entrenar los datos. ¿Es esta la forma correcta de hacerlo?
¿O debería usar directamente Categorical Naive Bayes para entrenar los datos? Sin embargo, algunas columnas son numéricas, ¿no es razonable usar este clasificador?
Cualquier ayuda es muy apreciada.
Respuestas
En primer lugar, el término 'Naive Bayes' se refiere a la suposición hecha de independencia condicional entre variables de características, dado el resultado de la clase (es decir, 'carrera' o 'no carrara'). Tomando las variables sexo y alguna vez fumado, la independencia condicional se escribe como$Gender \; INDEP \; EverSmoked \; \mid \; Stroke$. La independencia condicional también puede ser válida para variables numéricas.
Sus dos variables Género y EverSmoked son categóricas, por lo que un clasificador discreto es apropiado para su propósito (puede probar el servicio web estándar Insight Classifiers , que también se adapta a variables numéricas , todo de una sola vez).
En general, las redes neuronales (profundas), las máquinas de vectores de soporte y los árboles de decisión (C4.5) combinan fácilmente variables de características discretas y continuas.