さまざまな単純ベイズ分類器を使用して、さまざまなデータをターゲットにします
私は単純ベイズ分類器を使用して、人々が脳卒中を起こすかどうかを予測する練習をしていますが、2つの分類器と混同しています。1つはカテゴリ別のナイーブベイズで、もう1つはガウスナイーブベイズです。
たとえば、データセットには、gender、ever_married、ever_smokedなどのいくつかのテキスト属性があります。一部の列は数値データです。標準化にはsex = pd.get_dummies(df['gender'],drop_first=True)
、テキストをバイナリに変換するようなダミーを使用してから、データセットを標準化し、ガウス単純ベイズ分類器を使用してデータをトレーニングします。これは正しい方法ですか?
または、Categorical Naive Bayesを直接使用してデータをトレーニングする必要がありますか?ただし、一部の列は数値であり、この分類子を使用するのは合理的ではありませんか?
どんな助けでも大歓迎です。
回答
まず、「ナイーブベイズ」という用語は、クラスの結果(つまり、「ストローク」または「ストロークなし」)が与えられた場合に、特徴変数間の条件付き独立性の仮定を指します。変数genderとever_smokedを使用すると、条件付き独立性は次のように記述されます。$Gender \; INDEP \; EverSmoked \; \mid \; Stroke$。条件付き独立性は、数値変数にも当てはまります。
2つの変数GenderとEverSmokedはカテゴリであるため、目的に応じて離散分類子が適しています(数値変数も処理する、既成のWebサービスInsight Classifiersを一度に試すことができます)。
一般に、(ディープ)ニューラルネットワーク、サポートベクターマシン、および決定木(C4.5)は、離散および連続の特徴変数を簡単に組み合わせることができます。