Eksploracja danych - klasyfikacja bayesowska
Klasyfikacja bayesowska oparta jest na twierdzeniu Bayesa. Klasyfikatory bayesowskie to klasyfikatory statystyczne. Klasyfikatory bayesowskie mogą przewidywać prawdopodobieństwa przynależności do klas, takie jak prawdopodobieństwo, że dana krotka należy do określonej klasy.
Twierdzenie Baye'a
Twierdzenie Bayesa nosi imię Thomasa Bayesa. Istnieją dwa rodzaje prawdopodobieństw -
- Prawdopodobieństwo późniejsze [P (H / X)]
- Wcześniejsze prawdopodobieństwo [P (H)]
gdzie X to krotka danych, a H to pewna hipoteza.
Zgodnie z twierdzeniem Bayesa,
Bayesian Belief Network
Sieci przekonań bayesowskich określają wspólne rozkłady prawdopodobieństwa warunkowego. Są również znane jako sieci przekonań, sieci bayesowskie lub sieci probabilistyczne.
Sieć przekonań umożliwia definiowanie warunkowych niezależności klas między podzbiorami zmiennych.
Zapewnia graficzny model związku przyczynowego, na którym można przeprowadzić naukę.
Do klasyfikacji możemy wykorzystać przeszkoloną sieć bayesowską.
Istnieją dwa komponenty definiujące sieć przekonań bayesowskich:
- Skierowany graf acykliczny
- Zbiór warunkowych tabel prawdopodobieństwa
Skierowany graf acykliczny
- Każdy węzeł na skierowanym acyklicznym grafie reprezentuje zmienną losową.
- Te zmienne mogą mieć wartość dyskretną lub ciągłą.
- Te zmienne mogą odpowiadać faktycznemu atrybutowi podanemu w danych.
Reprezentacja ukierunkowanego grafu acyklicznego
Poniższy diagram przedstawia skierowany acykliczny wykres dla sześciu zmiennych boolowskich.
Łuk na diagramie umożliwia przedstawienie wiedzy przyczynowej. Na przykład na raka płuc ma wpływ historia raka płuc w rodzinie, a także to, czy dana osoba jest palaczem. Warto zauważyć, że zmienna PositiveXray jest niezależna od tego, czy pacjent ma raka płuc w wywiadzie rodzinnym, czy też jest palaczem, biorąc pod uwagę, że wiemy, że pacjent ma raka płuc.
Warunkowa tabela prawdopodobieństwa
Tabela prawdopodobieństwa warunkowego dla wartości zmiennej LungCancer (LC) pokazująca każdą możliwą kombinację wartości jej węzłów nadrzędnych, FamilyHistory (FH) i Smoker (S) przedstawia się następująco -