H2O - uruchomienie przykładowej aplikacji

Kliknij łącze Airlines Delay Flow na liście próbek, jak pokazano na poniższym zrzucie ekranu -

Po potwierdzeniu nowy notatnik zostanie załadowany.

Kasowanie wszystkich wyników

Zanim wyjaśnimy instrukcje kodu w notatniku, wyczyśćmy wszystkie dane wyjściowe, a następnie stopniowo uruchom notebook. Aby wyczyścić wszystkie wyjścia, wybierz następującą opcję menu -

Flow / Clear All Cell Contents

Jest to pokazane na poniższym zrzucie ekranu -

Po wyczyszczeniu wszystkich danych wyjściowych uruchomimy każdą komórkę w notebooku indywidualnie i zbadamy jej dane wyjściowe.

Prowadzenie pierwszej celi

Kliknij pierwszą komórkę. Po lewej stronie pojawi się czerwona flaga wskazująca, że ​​komórka została wybrana. Jest to pokazane na poniższym zrzucie ekranu -

Zawartość tej komórki to tylko komentarz do programu napisany w języku MarkDown (MD). Treść opisuje, co robi załadowana aplikacja. Aby uruchomić komórkę, kliknij ikonę Uruchom, jak pokazano na poniższym zrzucie ekranu -

Nie zobaczysz żadnych danych wyjściowych pod komórką, ponieważ w bieżącej komórce nie ma kodu wykonywalnego. Kursor przesuwa się teraz automatycznie do następnej komórki, która jest gotowa do wykonania.

Importowanie danych

Następna komórka zawiera następującą instrukcję Pythona -

importFiles ["https://s3.amazonaws.com/h2o-airlines-unpacked/allyears2k.csv"]

Oświadczenie importuje plik allyears2k.csv z Amazon AWS do systemu. Po uruchomieniu komórki importuje plik i wyświetla następujące dane wyjściowe.

Konfigurowanie parsera danych

Teraz musimy przeanalizować dane i dostosować je do naszego algorytmu ML. Odbywa się to za pomocą następującego polecenia -

setupParse paths: [ "https://s3.amazonaws.com/h2o-airlines-unpacked/allyears2k.csv" ]

Po wykonaniu powyższej instrukcji pojawi się okno dialogowe konfiguracji. W oknie dialogowym dostępnych jest kilka ustawień analizowania pliku. Jest to pokazane na poniższym zrzucie ekranu -

W tym oknie dialogowym możesz wybrać żądany parser z podanej listy rozwijanej i ustawić inne parametry, takie jak separator pól itp.

Analizowanie danych

Następna instrukcja, która faktycznie analizuje plik danych przy użyciu powyższej konfiguracji, jest długa i jest taka, jak pokazano tutaj -

parseFiles
paths: ["https://s3.amazonaws.com/h2o-airlines-unpacked/allyears2k.csv"]
destination_frame: "allyears2k.hex"
parse_type: "CSV"
separator: 44
number_columns: 31
single_quotes: false
column_names: ["Year","Month","DayofMonth","DayOfWeek","DepTime","CRSDepTime",
   "ArrTime","CRSArrTime","UniqueCarrier","FlightNum","TailNum",
   "ActualElapsedTime","CRSElapsedTime","AirTime","ArrDelay","DepDelay",
   "Origin","Dest","Distance","TaxiIn","TaxiOut","Cancelled","CancellationCode",
   "Diverted","CarrierDelay","WeatherDelay","NASDelay","SecurityDelay",
   "LateAircraftDelay","IsArrDelayed","IsDepDelayed"]
column_types: ["Enum","Enum","Enum","Enum","Numeric","Numeric","Numeric"
   ,"Numeric","Enum","Enum","Enum","Numeric","Numeric","Numeric","Numeric",
   "Numeric","Enum","Enum","Numeric","Numeric","Numeric","Enum","Enum",
   "Numeric","Numeric","Numeric","Numeric","Numeric","Numeric","Enum","Enum"]
delete_on_done: true
check_header: 1
chunk_size: 4194304

Zwróć uwagę, że parametry ustawione w oknie konfiguracji są wymienione w powyższym kodzie. Teraz uruchom tę komórkę. Po chwili parsowanie zostanie zakończone i zobaczysz następujące dane wyjściowe -

Badanie Dataframe

Po przetworzeniu generuje ramkę danych, którą można zbadać za pomocą następującej instrukcji -

getFrameSummary "allyears2k.hex"

Po wykonaniu powyższej instrukcji zobaczysz następujący wynik -

Teraz Twoje dane są gotowe do wprowadzenia do algorytmu uczenia maszynowego.

Następna instrukcja to komentarz do programu, który mówi, że będziemy używać modelu regresji i określa wstępnie ustawione regularyzacje i wartości lambda.

Budowanie modelu

Dalej następuje najważniejsze stwierdzenie, czyli samo zbudowanie modelu. Jest to określone w następującym oświadczeniu -

buildModel 'glm', {
   "model_id":"glm_model","training_frame":"allyears2k.hex",
   "ignored_columns":[
      "DayofMonth","DepTime","CRSDepTime","ArrTime","CRSArrTime","TailNum",
      "ActualElapsedTime","CRSElapsedTime","AirTime","ArrDelay","DepDelay",
      "TaxiIn","TaxiOut","Cancelled","CancellationCode","Diverted","CarrierDelay",
      "WeatherDelay","NASDelay","SecurityDelay","LateAircraftDelay","IsArrDelayed"],
   "ignore_const_cols":true,"response_column":"IsDepDelayed","family":"binomial",
   "solver":"IRLSM","alpha":[0.5],"lambda":[0.00001],"lambda_search":false,
   "standardize":true,"non_negative":false,"score_each_iteration":false,
   "max_iterations":-1,"link":"family_default","intercept":true,
   "objective_epsilon":0.00001,"beta_epsilon":0.0001,"gradient_epsilon":0.0001,
   "prior":-1,"max_active_predictors":-1
}

Używamy glm, który jest zestawem uogólnionego modelu liniowego z typem rodziny ustawionym na dwumian. Możesz zobaczyć te podkreślone w powyższym oświadczeniu. W naszym przypadku oczekiwany wynik jest binarny i dlatego używamy typu dwumianowego. Możesz samodzielnie zbadać pozostałe parametry; na przykład spójrz na alfa i lambda, które określiliśmy wcześniej. Objaśnienie wszystkich parametrów można znaleźć w dokumentacji modelu GLM.

Teraz uruchom to oświadczenie. Po wykonaniu zostanie wygenerowany następujący wynik -

Z pewnością czas wykonania na twoim komputerze byłby inny. A teraz najciekawsza część tego przykładowego kodu.

Badanie wyników

Po prostu wyprowadzamy model, który zbudowaliśmy, używając następującej instrukcji -

getModel "glm_model"

Zwróć uwagę, że glm_model to identyfikator modelu, który określiliśmy jako parametr model_id podczas budowania modelu w poprzedniej instrukcji. Daje nam to ogromne dane wyjściowe zawierające szczegółowe wyniki z kilkoma różnymi parametrami. Częściowe wyniki raportu pokazano na poniższym zrzucie ekranu -

Jak widać na danych wyjściowych, jest to wynik działania algorytmu uogólnionego modelowania liniowego na zbiorze danych.

Tuż nad HISTORIĄ PUNKTÓW, zobaczysz tag MODEL PARAMETERS, rozwiń go, a zobaczysz listę wszystkich parametrów, które są używane podczas budowania modelu. Pokazuje to poniższy zrzut ekranu.

Podobnie każdy znacznik zapewnia szczegółowe dane wyjściowe określonego typu. Rozwiń samodzielnie różne tagi, aby przeanalizować wyniki różnego rodzaju.

Budowanie innego modelu

Następnie zbudujemy model Deep Learning w naszej ramce danych. Następna instrukcja w przykładowym kodzie to tylko komentarz do programu. Poniższa instrukcja jest w rzeczywistości poleceniem budowania modelu. Jest jak pokazano tutaj -

buildModel 'deeplearning', {
   "model_id":"deeplearning_model","training_frame":"allyear
   s2k.hex","ignored_columns":[
      "DepTime","CRSDepTime","ArrTime","CRSArrTime","FlightNum","TailNum",
      "ActualElapsedTime","CRSElapsedTime","AirTime","ArrDelay","DepDelay",
      "TaxiIn","TaxiOut","Cancelled","CancellationCode","Diverted",
      "CarrierDelay","WeatherDelay","NASDelay","SecurityDelay",
      "LateAircraftDelay","IsArrDelayed"],
   "ignore_const_cols":true,"res   ponse_column":"IsDepDelayed",
   "activation":"Rectifier","hidden":[200,200],"epochs":"100",
   "variable_importances":false,"balance_classes":false,
   "checkpoint":"","use_all_factor_levels":true,
   "train_samples_per_iteration":-2,"adaptive_rate":true,
   "input_dropout_ratio":0,"l1":0,"l2":0,"loss":"Automatic","score_interval":5,
   "score_training_samples":10000,"score_duty_cycle":0.1,"autoencoder":false,
   "overwrite_with_best_model":true,"target_ratio_comm_to_comp":0.02,
   "seed":6765686131094811000,"rho":0.99,"epsilon":1e-8,"max_w2":"Infinity",
   "initial_weight_distribution":"UniformAdaptive","classification_stop":0,
   "diagnostics":true,"fast_mode":true,"force_load_balance":true,
   "single_node_mode":false,"shuffle_training_data":false,"missing_values_handling":
   "MeanImputation","quiet_mode":false,"sparse":false,"col_major":false,
   "average_activation":0,"sparsity_beta":0,"max_categorical_features":2147483647,
   "reproducible":false,"export_weights_and_biases":false
}

Jak widać w powyższym kodzie, określamy deeplearning do budowy modelu z kilkoma parametrami ustawionymi na odpowiednie wartości, jak określono w dokumentacji modelu deeplearning. Po uruchomieniu tej instrukcji zajmie to więcej czasu niż tworzenie modelu GLM. Po zakończeniu budowania modelu zobaczysz następujące dane wyjściowe, choć z różnymi czasami.

Analiza wyników modelu uczenia głębokiego

Generuje to rodzaj danych wyjściowych, które można zbadać za pomocą poniższej instrukcji, tak jak we wcześniejszym przypadku.

getModel "deeplearning_model"

W celu szybkiego odniesienia rozważymy wynik krzywej ROC, jak pokazano poniżej.

Podobnie jak w poprzednim przypadku, rozwiń różne zakładki i przeanalizuj różne wyniki.

Zapisywanie modelu

Po przestudiowaniu wyników różnych modeli decydujesz się użyć jednego z nich w środowisku produkcyjnym. H20 umożliwia zapisanie tego modelu jako POJO (zwykły stary obiekt Java).

Rozwiń ostatni znacznik PREVIEW POJO w danych wyjściowych, a zobaczysz kod Java dla swojego precyzyjnie dostrojonego modelu. Użyj tego w swoim środowisku produkcyjnym.

Następnie dowiemy się o bardzo ekscytującej funkcji H2O. Dowiemy się, jak używać AutoML do testowania i oceniania różnych algorytmów na podstawie ich wydajności.