Eksploracja danych - klasyfikacja i przewidywanie
Istnieją dwie formy analizy danych, które można wykorzystać do wyodrębnienia modeli opisujących ważne klasy lub do przewidywania przyszłych trendów danych. Te dwie formy są następujące -
- Classification
- Prediction
Modele klasyfikacyjne przewidują kategoryczne etykiety klas; a modele predykcyjne przewidują funkcje o wartościach ciągłych. Na przykład, możemy zbudować model klasyfikacyjny, aby sklasyfikować wnioski o pożyczkę bankową jako bezpieczne lub ryzykowne, lub model prognozujący, aby przewidzieć wydatki potencjalnych klientów na sprzęt komputerowy w dolarach, biorąc pod uwagę ich dochody i zawód.
Co to jest klasyfikacja?
Poniżej znajdują się przykłady przypadków, w których zadaniem analizy danych jest Klasyfikacja -
Pracownik banku chce przeanalizować dane, aby wiedzieć, który klient (wnioskodawca kredytowy) jest ryzykowny lub który jest bezpieczny.
Menedżer ds. Marketingu w firmie musi przeanalizować klienta o określonym profilu, który kupi nowy komputer.
W obu powyższych przykładach model lub klasyfikator jest konstruowany w celu przewidywania etykiet jakościowych. Te etykiety są ryzykowne lub bezpieczne w przypadku danych dotyczących wniosków o pożyczkę oraz tak lub nie w przypadku danych marketingowych.
Co to jest przewidywanie?
Poniżej znajdują się przykłady przypadków, w których zadanie analizy danych to Prognozowanie -
Załóżmy, że menedżer ds. Marketingu musi przewidzieć, ile dany klient wyda podczas sprzedaży w swojej firmie. W tym przykładzie przeszkadza nam przewidzenie wartości liczbowej. Dlatego zadanie analizy danych jest przykładem predykcji numerycznej. W takim przypadku zostanie skonstruowany model lub predyktor, który przewiduje funkcję o wartościach ciągłych lub wartości uporządkowanej.
Note - Analiza regresji to metodologia statystyczna, która jest najczęściej używana do prognozowania liczbowego.
Jak działa klasyfikacja?
Z pomocą omawianego powyżej wniosku kredytowego, zrozummy działanie klasyfikacji. Proces klasyfikacji danych obejmuje dwa etapy -
- Budowanie klasyfikatora lub modelu
- Używanie klasyfikatora do klasyfikacji
Budowanie klasyfikatora lub modelu
Ten krok to etap uczenia się lub faza uczenia się.
Na tym etapie algorytmy klasyfikacji budują klasyfikator.
Klasyfikator jest zbudowany z zestawu uczącego składającego się z krotek bazy danych i powiązanych z nimi etykiet klas.
Każda krotka, która stanowi zbiór uczący, jest określana jako kategoria lub klasa. Te krotki mogą być również nazywane punktami próbki, obiektu lub danych.
Używanie klasyfikatora do klasyfikacji
Na tym etapie klasyfikator służy do klasyfikacji. Tutaj dane testowe są wykorzystywane do oszacowania dokładności reguł klasyfikacji. Reguły klasyfikacji można zastosować do nowych krotek danych, jeśli dokładność zostanie uznana za akceptowalną.
Problemy z klasyfikacją i prognozowaniem
Głównym problemem jest przygotowanie danych do klasyfikacji i prognozowania. Przygotowanie danych obejmuje następujące czynności -
Data Cleaning- Czyszczenie danych polega na usunięciu szumu i naprawie brakujących wartości. Szum jest usuwany przez zastosowanie technik wygładzania, a problem brakujących wartości rozwiązany jest poprzez zastąpienie brakującej wartości najczęściej występującą wartością dla tego atrybutu.
Relevance Analysis- Baza danych może mieć również nieistotne atrybuty. Analiza korelacji służy do określenia, czy jakiekolwiek dwa podane atrybuty są powiązane.
Data Transformation and reduction - Dane można przekształcić dowolną z następujących metod.
Normalization- Dane są przekształcane przy użyciu normalizacji. Normalizacja polega na skalowaniu wszystkich wartości danego atrybutu, tak aby mieściły się w małym określonym zakresie. Normalizacja jest stosowana, gdy na etapie uczenia się używane są sieci neuronowe lub metody obejmujące pomiary.
Generalization- Dane można również przekształcić poprzez uogólnienie ich na wyższą koncepcję. W tym celu możemy wykorzystać hierarchie pojęć.
Note - Dane można również zredukować za pomocą innych metod, takich jak transformacja falkowa, binning, analiza histogramu i grupowanie.
Porównanie metod klasyfikacji i predykcji
Oto kryteria porównania metod klasyfikacji i prognozowania -
Accuracy- Dokładność klasyfikatora odnosi się do zdolności klasyfikatora. Przewiduje poprawnie etykietę klasy, a dokładność predyktora odnosi się do tego, jak dobrze dany predyktor może odgadnąć wartość przewidywanego atrybutu dla nowych danych.
Speed - Odnosi się to do kosztu obliczeniowego generowania i używania klasyfikatora lub predyktora.
Robustness - Odnosi się do zdolności klasyfikatora lub predyktora do dokonywania poprawnych prognoz na podstawie podanych zaszumionych danych.
Scalability- Skalowalność odnosi się do zdolności do efektywnego konstruowania klasyfikatora lub predyktora; biorąc pod uwagę dużą ilość danych.
Interpretability - Odnosi się do tego, w jakim stopniu klasyfikator lub predyktor rozumie.