Proces analizy danych

Dec 15 2022
Witam. Przez większą część tego roku spędzałem godziny próbując opanować analizę danych.

Witam.

Przez większą część tego roku spędzałem godziny próbując opanować analizę danych. Zaoferowano niezliczoną ilość stypendiów i udało mi się zdobyć dwa z nich. Do tej pory jeden ukończyłem i zdobyłem certyfikat, który obecnie zdobi moje CV.

Jako średniozaawansowany analityk danych wreszcie czuję, że mam pewność, że mogę podzielić się czymś wartościowym z aspirującymi analitykami danych, takimi jak ja. Więc dzisiaj zaczniemy od podstaw; proces analityka danych.

Analiza danych

Zorganizowałem proces analizy danych w pięciu krokach: pytanie, kłótnia, eksploracja, wyciąganie wniosków i komunikacja. Źródło

Poniżej znajduje się przegląd kluczowych punktów, ale możesz dodać więcej lub wyjaśnić je w sekcjach komentarzy. Przećwiczymy każdy krok w nadchodzących postach w formacie opartym na projekcie, a cały proces przebiegniesz w mgnieniu oka.

Krok 1: Zadawaj pytania

Albo otrzymujesz dane i na ich podstawie zadajesz pytania, albo najpierw zadajesz pytania, a później gromadzisz dane na ich podstawie. W obu przypadkach dobre pytania pomagają skoncentrować się na odpowiednich częściach danych i ukierunkować analizę na znaczące wnioski.

Pozyskiwanie danych może odbywać się na kilka sposobów:

  • Pobieranie plików, które są łatwo dostępne.
  • Zbieranie danych z API lub web scrapingu.
  • Pobieranie danych z istniejących baz danych.

Otrzymujesz potrzebne dane w formie, z którą możesz pracować w trzech krokach: zebrać, ocenić, wyczyścić. Gromadzisz dane, których potrzebujesz, aby odpowiedzieć na swoje pytania, oceniasz swoje dane, aby zidentyfikować wszelkie problemy z jakością lub strukturą danych, a także czyścisz swoje dane, modyfikując, zastępując lub usuwając dane, aby zapewnić, że Twój zbiór danych jest najwyższej jakości i dobrze- możliwie ustrukturyzowane.

Krok 3: Wykonaj EDA (eksploracyjna analiza danych)

Eksplorujesz, a następnie rozszerzasz swoje dane, aby zmaksymalizować potencjał swoich analiz, wizualizacji i modeli. Eksploracja obejmuje znajdowanie wzorców w danych, wizualizację relacji w danych i budowanie intuicji dotyczącej tego, z czym pracujesz. Po eksploracji możesz wykonywać takie czynności, jak usuwanie wartości odstających i tworzenie lepszych funkcji na podstawie swoich danych, co jest również znane jako inżynieria funkcji.

Krok 4: Wyciągnij wnioski (lub nawet prognozy)

Do tego kroku zwykle podchodzi się za pomocą uczenia maszynowego lub statystyki wnioskowania, która jest na bardziej zaawansowanym poziomie. Ale kiedy dopiero zaczynasz, skupisz się głównie na wyciąganiu wniosków za pomocą statystyk opisowych.

Statystyka opisowa koncentruje się na opisie fizycznych cech zbioru danych (populacji lub próby).

Statystyki wnioskowania koncentrują się na przewidywaniu lub uogólnianiu większego zestawu danych na podstawie próbki tych danych. Źródło .

Krok 5: Przekaż swoje wyniki

Często musisz uzasadnić i przekazać znaczenie znalezionych spostrzeżeń. Lub, jeśli Twoim celem końcowym jest zbudowanie systemu, zwykle musisz podzielić się tym, co zbudowałeś, wyjaśnić, w jaki sposób podjąłeś decyzje projektowe i zgłosić, jak dobrze działa. Istnieje wiele sposobów komunikowania wyników; raporty, pokazy slajdów, posty na blogach, e-maile, prezentacje, a nawet rozmowy. Wizualizacja danych zawsze będzie bardzo cenna.

Mam nadzieję, że ten krótki przewodnik pomoże Ci w Twojej podróży związanej z analizą danych. Podążaj za mną w mojej podróży, gdy robię projekty i dziel się tym, czego się uczę.