다른 Naive Bayes 분류기를 사용하여 다른 데이터를 대상으로 지정

Aug 19 2020

나는 사람들이 뇌졸중을 앓는 지 여부를 예측하기 위해 Naive Bayes 분류기를 사용하여 연습하고 있지만 두 가지 분류기와 혼동됩니다. 하나는 범주 형 Naive Bayes이고 다른 하나는 Gaussian Naive Bayes입니다.

예를 들어 데이터 세트에는 성별, ever_married 및 ever_smoked와 같은 여러 텍스트 속성이 있습니다. 일부 열은 숫자 데이터입니다. 표준화를 sex = pd.get_dummies(df['gender'],drop_first=True)위해 텍스트를 이진으로 변환하는 것과 같은 더미를 사용 하고 데이터 세트를 표준화하고 Gaussian Naive Bayes 분류기를 사용하여 데이터를 훈련시킵니다. 이것이 올바른 방법입니까?

아니면 데이터를 훈련하기 위해 범주 형 Naive Bayes를 직접 사용해야합니까? 그러나 일부 열은이 분류자를 사용하기에 합리적이지 않은 숫자입니까?

어떤 도움이라도 대단히 감사합니다.

답변

2 MatchMakerEE Aug 19 2020 at 18:14

첫째, 'Naive Bayes'라는 용어는 클래스 결과 (즉, 'stroke'또는 'no-stroke')가 주어 졌을 때 특성 변수 간의 조건부 독립성 가정을 의미합니다. 성별 및 ever_smoked 변수를 취하면 조건부 독립성은 다음과 같이 작성됩니다.$Gender \; INDEP \; EverSmoked \; \mid \; Stroke$. 조건부 독립성은 숫자 변수에 대해서도 유지할 수 있습니다.

두 변수 Gender 및 EverSmoked는 범주 형이므로 개별 분류 기가 목적에 적합합니다 (한 번 에 숫자 변수 에도 대응하는 기성 웹 서비스 Insight Classifiers를 사용해 볼 수 있습니다 ).

일반적으로 (심층) 신경망, 지원 벡터 머신 및 의사 결정 트리 (C4.5)는 이산 및 연속 특성 변수를 쉽게 결합합니다.