데이터 마이닝-베이지안 분류
베이지안 분류는 Bayes의 정리를 기반으로합니다. 베이지안 분류기는 통계 분류기입니다. 베이지안 분류기는 주어진 튜플이 특정 클래스에 속할 확률과 같은 클래스 구성원 확률을 예측할 수 있습니다.
베이의 정리
Bayes의 정리는 Thomas Bayes의 이름을 따서 명명되었습니다. 두 가지 유형의 확률이 있습니다.
- 사후 확률 [P (H / X)]
- 사전 확률 [P (H)]
여기서 X는 데이터 튜플이고 H는 가설입니다.
Bayes의 정리에 따르면,
베이지안 신념 네트워크
베이지안 신념 네트워크는 결합 조건부 확률 분포를 지정합니다. Belief Networks, Bayesian Networks 또는 Probabilistic Networks라고도합니다.
Belief Network를 사용하면 변수의 하위 집합간에 클래스 조건부 독립성을 정의 할 수 있습니다.
학습이 수행 될 수있는 인과 관계의 그래픽 모델을 제공합니다.
훈련 된 베이지안 네트워크를 사용하여 분류 할 수 있습니다.
베이지안 신념 네트워크를 정의하는 두 가지 구성 요소가 있습니다-
- 방향성 비순환 그래프
- 조건부 확률 테이블 세트
방향성 비순환 그래프
- 방향성 비순환 그래프의 각 노드는 랜덤 변수를 나타냅니다.
- 이러한 변수는 불연속 적이거나 연속적인 값일 수 있습니다.
- 이러한 변수는 데이터에 제공된 실제 속성에 해당 할 수 있습니다.
방향성 비순환 그래프 표현
다음 다이어그램은 6 개의 부울 변수에 대한 유 방향 비순환 그래프를 보여줍니다.
다이어그램의 호는 인과 적 지식을 표현할 수 있습니다. 예를 들어, 폐암은 개인의 폐암 가족력과 흡연자 여부의 영향을받습니다. 변수 PositiveXray는 환자가 폐암의 가족력이 있는지 또는 환자가 흡연자인지 여부와 무관하다는 점에 주목할 가치가 있습니다.
조건부 확률 표
부모 노드, FamilyHistory (FH) 및 Smoker (S) 값의 가능한 각 조합을 보여주는 변수 LungCancer (LC)의 값에 대한 조건부 확률 테이블은 다음과 같습니다.