Analiza danych - proces

Analiza danych to proces gromadzenia, przekształcania, czyszczenia i modelowania danych w celu odkrycia wymaganych informacji. Uzyskane w ten sposób wyniki są przekazywane, sugerując wnioski i wspomagając podejmowanie decyzji. Wizualizacja danych jest czasami używana do przedstawiania danych w celu ułatwienia odkrywania użytecznych wzorców w danych. Terminy modelowanie danych i analiza danych oznaczają to samo.

Proces analizy danych składa się z następujących etapów, które mają charakter iteracyjny -

  • Specyfikacja wymagań dotyczących danych
  • Gromadzenie danych
  • Przetwarzanie danych
  • Czyszczenie danych
  • Analiza danych
  • Communication

Specyfikacja wymagań dotyczących danych

Dane wymagane do analizy opierają się na pytaniu lub eksperymencie. W oparciu o wymagania osób kierujących analizą identyfikowane są dane niezbędne jako dane wejściowe do analizy (np. Populacja osób). Można określić i uzyskać określone zmienne dotyczące populacji (np. Wiek i dochód). Dane mogą być liczbowe lub jakościowe.

Gromadzenie danych

Gromadzenie danych to proces gromadzenia informacji na temat zmiennych docelowych określonych jako wymagania dotyczące danych. Nacisk kładzie się na zapewnienie dokładnego i uczciwego gromadzenia danych. Gromadzenie danych zapewnia, że ​​zebrane dane są dokładne, a związane z nimi decyzje są ważne. Gromadzenie danych zapewnia zarówno punkt odniesienia do pomiaru, jak i cel do poprawy.

Dane są zbierane z różnych źródeł, od baz danych organizacji po informacje na stronach internetowych. Uzyskane w ten sposób dane mogą nie mieć strukturyzacji i mogą zawierać nieistotne informacje. W związku z tym zebrane dane muszą zostać poddane przetwarzaniu i czyszczeniu danych.

Przetwarzanie danych

Gromadzone dane muszą zostać przetworzone lub zorganizowane do analizy. Obejmuje to uporządkowanie danych zgodnie z wymaganiami odpowiednich narzędzi analitycznych. Na przykład dane mogą wymagać umieszczenia w wierszach i kolumnach tabeli w arkuszu kalkulacyjnym lub aplikacji statystycznej. Może być konieczne utworzenie modelu danych.

Czyszczenie danych

Przetwarzane i uporządkowane dane mogą być niekompletne, zawierać duplikaty lub zawierać błędy. Czyszczenie danych to proces zapobiegania i korygowania tych błędów. Istnieje kilka typów czyszczenia danych, które zależą od typu danych. Na przykład podczas czyszczenia danych finansowych pewne sumy można porównać z wiarygodnymi opublikowanymi liczbami lub określonymi progami. Podobnie, metody danych ilościowych można wykorzystać do wykrywania wartości odstających, które zostałyby następnie wykluczone z analizy.

Analiza danych

Dane, które są przetwarzane, porządkowane i czyszczone byłyby gotowe do analizy. Dostępne są różne techniki analizy danych umożliwiające zrozumienie, interpretację i wyciąganie wniosków na podstawie wymagań. Wizualizacja danych może być również wykorzystana do badania danych w formacie graficznym, aby uzyskać dodatkowy wgląd w komunikaty zawarte w danych.

Statystyczne modele danych, takie jak korelacja, analiza regresji, mogą służyć do identyfikacji relacji między zmiennymi danych. Te modele, które opisują dane, są pomocne w upraszczaniu analizy i przekazywaniu wyników.

Proces może wymagać dodatkowego czyszczenia danych lub dodatkowego zbierania danych, dlatego te czynności mają charakter iteracyjny.

Komunikacja

Wyniki analizy danych należy zgłaszać w formacie wymaganym przez użytkowników w celu wsparcia ich decyzji i dalszych działań. Informacje zwrotne od użytkowników mogą skutkować dodatkową analizą.

Analitycy danych mogą wybrać techniki wizualizacji danych, takie jak tabele i wykresy, które pomagają w jasnym i efektywnym przekazywaniu wiadomości użytkownikom. Narzędzia analityczne umożliwiają wyróżnianie wymaganych informacji za pomocą kodów kolorów i formatowania w tabelach i wykresach.