Big Data Analytics - definicja problemu
W tym samouczku opracujemy projekt. Każdy kolejny rozdział tego samouczka dotyczy części większego projektu w sekcji mini-projekt. Uważa się, że jest to zastosowana sekcja samouczka, która zapewni ekspozycję na rzeczywisty problem. W tym przypadku zaczęlibyśmy od zdefiniowania problemu projektu.
Opis Projektu
Celem tego projektu byłoby opracowanie modelu uczenia maszynowego do przewidywania godzinowej pensji osób korzystających z tekstu z życiorysu (CV) jako danych wejściowych.
Korzystając z ram zdefiniowanych powyżej, można łatwo zdefiniować problem. Możemy zdefiniować X = {x 1 , x 2 ,…, x n } jako CV użytkowników, gdzie każda cecha może być w najprostszy możliwy sposób, ile razy pojawia się to słowo. Wtedy reakcja jest realnie wyceniana, staramy się przewidzieć godzinowe wynagrodzenie osób w dolarach.
Te dwa rozważania wystarczą, aby stwierdzić, że przedstawiony problem można rozwiązać za pomocą nadzorowanego algorytmu regresji.
Definicja problemu
Problem Definitionjest prawdopodobnie jednym z najbardziej złożonych i zaniedbanych etapów w potoku analizy dużych zbiorów danych. Aby zdefiniować problem, który rozwiązałby produkt danych, wymagane jest doświadczenie. Większość aspirantów do badań danych ma niewielkie lub żadne doświadczenie na tym etapie.
Większość problemów związanych z dużymi zbiorami danych można podzielić na następujące kategorie:
- Nadzorowana klasyfikacja
- Nadzorowana regresja
- Uczenie się bez nadzoru
- Nauka rangi
Dowiedzmy się teraz więcej o tych czterech koncepcjach.
Nadzorowana klasyfikacja
Mając macierz cech X = {x 1 , x 2 , ..., x n } opracowujemy model M do przewidywania różnych klas zdefiniowanych jako y = {c 1 , c 2 , ..., c n } . Na przykład: Biorąc pod uwagę dane transakcyjne klientów w firmie ubezpieczeniowej, można opracować model, który będzie przewidywał, czy klient odejdzie, czy nie. Ten ostatni jest problemem klasyfikacji binarnej, w którym istnieją dwie klasy lub zmienne docelowe: odejście i brak odejścia.
Inne problemy obejmują przewidywanie więcej niż jednej klasy, moglibyśmy być zainteresowani rozpoznaniem cyfr, dlatego wektor odpowiedzi byłby zdefiniowany jako: y = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} najnowocześniejszym modelem byłaby konwolucyjna sieć neuronowa, a macierz cech byłaby zdefiniowana jako piksele obrazu.
Nadzorowana regresja
W tym przypadku definicja problemu jest raczej podobna do poprzedniego przykładu; różnica zależy od odpowiedzi. W przypadku problemu regresji odpowiedź y ∈ ℜ oznacza, że odpowiedź ma wartość rzeczywistą. Na przykład, możemy opracować model przewidywania wynagrodzenia godzinowego osób, które mają zbiór ich CV.
Uczenie się bez nadzoru
Kierownictwo jest często spragnione nowych spostrzeżeń. Modele segmentacji mogą zapewnić ten wgląd, aby dział marketingu mógł opracowywać produkty dla różnych segmentów. Dobrym podejściem do opracowania modelu segmentacji, zamiast myślenia o algorytmach, jest wybranie cech, które są istotne dla pożądanej segmentacji.
Na przykład w firmie telekomunikacyjnej interesujące jest segmentowanie klientów według korzystania z telefonów komórkowych. Wymagałoby to pominięcia cech, które nie mają nic wspólnego z celem segmentacji i uwzględnienia tylko tych, które to robią. W tym przypadku byłby to wybór funkcji, takich jak liczba wykorzystanych wiadomości SMS w miesiącu, liczba minut przychodzących i wychodzących itp.
Nauka rangi
Problem ten można uznać za problem regresji, ale ma on szczególne cechy i zasługuje na osobne potraktowanie. Problem polega na tym, że dany zbiór dokumentów staramy się znaleźć najbardziej trafne zamówienie na dane zapytanie. Aby opracować algorytm uczenia nadzorowanego, konieczne jest określenie, jak istotne jest uporządkowanie w przypadku danego zapytania.
Należy zauważyć, że w celu opracowania algorytmu uczenia nadzorowanego konieczne jest oznaczenie danych uczących. Oznacza to, że aby wytrenować model, który będzie na przykład rozpoznawał cyfry z obrazu, musimy ręcznie opisać znaczną liczbę przykładów. Istnieją usługi internetowe, które mogą przyspieszyć ten proces i są powszechnie używane do tego zadania, takie jak amazon Mechanical Turk. Udowodniono, że algorytmy uczące się poprawiają swoją wydajność, gdy otrzymują więcej danych, więc etykietowanie przyzwoitej liczby przykładów jest praktycznie obowiązkowe w uczeniu nadzorowanym.