Используйте разные наивные байесовские классификаторы для нацеливания на разные данные

Aug 19 2020

Я практикуюсь в использовании наивного байесовского классификатора, чтобы предсказать, будет у людей инсульт или нет, но меня смущают два классификатора. Один - категоричный наивный байесовский метод, другой - гауссовский наивный байесовский.

Например, в наборе данных есть несколько текстовых атрибутов, таких как пол, ever_married и ever_smoked. Некоторые столбцы представляют собой числовые данные. Для стандартизации я использую манекены, такие как sex = pd.get_dummies(df['gender'],drop_first=True)преобразование текста в двоичный, а затем стандартизирую набор данных и использую классификатор Gaussian Naive Bayes для обучения данных. Это правильный способ сделать это?

Или мне следует напрямую использовать категориальный наивный байесовский метод для обучения данных? Однако некоторые столбцы являются числовыми, что нецелесообразно использовать этот классификатор?

Любая помощь высоко ценится.

Ответы

2 MatchMakerEE Aug 19 2020 at 18:14

Во-первых, термин «наивный байесовский» относится к сделанному предположению об условной независимости между характеристическими переменными с учетом результата класса (то есть «инсульта» или «отсутствия удара»). Принимая переменные пол и ever_smoked, условная независимость записывается как$Gender \; INDEP \; EverSmoked \; \mid \; Stroke$. Условная независимость может сохраняться и для числовых переменных.

Две ваши переменные Gender и EverSmoked являются категориальными, поэтому для ваших целей подходит дискретный классификатор (вы можете попробовать готовые классификаторы веб-службы Insight Classifiers , которые также справляются с числовыми переменными , все за один раз).

В общем, (глубокие) нейронные сети, опорные векторные машины и деревья решений (C4.5) легко комбинируют дискретные и непрерывные переменные признаков.