Utiliser différents classificateurs Naive Bayes pour cibler différentes données
Je m'entraîne à utiliser le classificateur Naive Bayes pour prédire si les gens subissent un accident vasculaire cérébral ou non, mais je suis confus avec deux classificateurs. L'un est le Bayes naïf catégorique, l'autre est le Bayes naïf gaussien.
Par exemple, dans le jeu de données, il existe plusieurs attributs de texte tels que gender, ever_married et ever_smoked. Certaines des colonnes sont des données numériques. Pour la standardisation, j'utilise des mannequins comme sex = pd.get_dummies(df['gender'],drop_first=True)
pour transformer le texte en binaire, puis standardise l'ensemble de données et utilise le classificateur gaussien Naive Bayes pour former les données. Est-ce la bonne façon de procéder ?
Ou dois-je utiliser directement le Categorical Naive Bayes pour former les données ? Cependant, certaines colonnes sont numériques ce n'est pas raisonnable d'utiliser ce classifieur ?
Toute aide est grandement appréciée.
Réponses
Premièrement, le terme « Bayes naïf » fait référence à l'hypothèse d'indépendance conditionnelle entre les variables de caractéristiques, compte tenu du résultat de la classe (c'est-à-dire « AVC » ou « sans AVC »). En prenant les variables gender et ever_smoked, l'indépendance conditionnelle s'écrit$Gender \; INDEP \; EverSmoked \; \mid \; Stroke$. L'indépendance conditionnelle peut également s'appliquer aux variables numériques.
Vos deux variables Gender et EverSmoked sont catégoriques, donc un classificateur discret est approprié à votre objectif (vous pouvez essayer le service Web standard Insight Classifiers , qui gère également les variables numériques , le tout en une seule fois).
En général, les réseaux de neurones (profonds), les machines à vecteurs de support et les arbres de décision (C4.5) combinent facilement des variables de caractéristiques discrètes et continues.