Agile Data Science - rola prognoz

W tym rozdziale dowiemy się o roli prognoz w zwinnej nauce o danych. Interaktywne raporty ujawniają różne aspekty danych. Prognozy stanowią czwartą warstwę zwinnego sprintu.

Tworząc prognozy, zawsze odwołujemy się do przeszłych danych i wykorzystujemy je jako wnioski dla przyszłych iteracji. W tym kompletnym procesie przenosimy dane z przetwarzania wsadowego danych historycznych do danych w czasie rzeczywistym dotyczących przyszłości.

Rola prognoz obejmuje:

  • Prognozy pomagają w prognozowaniu. Niektóre prognozy opierają się na wnioskach statystycznych. Niektóre z prognoz są oparte na opiniach ekspertów.

  • Wnioskowanie statystyczne dotyczy wszelkiego rodzaju prognoz.

  • Czasami prognozy są dokładne, a czasami niedokładne.

Predictive Analytics

Analityka predykcyjna obejmuje różnorodne techniki statystyczne, od modelowania predykcyjnego, uczenia maszynowego i eksploracji danych, które analizują aktualne i historyczne fakty, aby przewidywać przyszłe i nieznane zdarzenia.

Analizy predykcyjne wymagają danych szkoleniowych. Przeszkolone dane obejmują niezależne i zależne funkcje. Cechy zależne to wartości, które użytkownik próbuje przewidzieć. Cechy niezależne to cechy opisujące rzeczy, które chcemy przewidzieć na podstawie cech zależnych.

Badanie cech nazywa się inżynierią cech; ma to kluczowe znaczenie dla prognozowania. Wizualizacja danych i eksploracyjna analiza danych to elementy inżynierii cech; tworzą one rdzeńAgile data science.

Prognozowanie

Istnieją dwa sposoby tworzenia prognoz w zwinnej nauce o danych -

  • Regression

  • Classification

Budowanie regresji lub klasyfikacji całkowicie zależy od wymagań biznesowych i ich analizy. Predykcja zmiennej ciągłej prowadzi do modelu regresji, a predykcja zmiennych kategorialnych prowadzi do modelu klasyfikacyjnego.

Regresja

Regresja bierze pod uwagę przykłady, które zawierają cechy, a tym samym daje wynik liczbowy.

Klasyfikacja

Klasyfikacja pobiera dane wejściowe i tworzy klasyfikację kategoryczną.

Note - Przykładowy zestaw danych, który definiuje dane wejściowe do prognozowania statystycznego i który umożliwia maszynie uczenie się, nosi nazwę „dane szkoleniowe”.