H2O - Wprowadzenie
Czy kiedykolwiek poproszono Cię o opracowanie modelu uczenia maszynowego na ogromnej bazie danych? Zazwyczaj klient dostarcza bazę danych i prosi o zrobienie pewnych prognoz, takich jak kto będzie potencjalnym kupującym; czy możliwe jest wczesne wykrycie oszukańczych przypadków itp. Aby odpowiedzieć na te pytania, Twoim zadaniem byłoby opracowanie algorytmu uczenia maszynowego, który dostarczy odpowiedzi na zapytanie klienta. Tworzenie algorytmu uczenia maszynowego od podstaw nie jest łatwym zadaniem i po co to robić, skoro na rynku dostępnych jest kilka gotowych do użycia bibliotek uczenia maszynowego.
Obecnie wolisz korzystać z tych bibliotek, zastosować dobrze przetestowany algorytm z tych bibliotek i spojrzeć na jego wydajność. Gdyby wydajność nie mieściła się w akceptowalnych granicach, można spróbować dostroić aktualny algorytm lub wypróbować zupełnie inny.
Podobnie możesz wypróbować wiele algorytmów na tym samym zbiorze danych, a następnie wybrać najlepszy, który w zadowalający sposób spełnia wymagania klienta. Tutaj z pomocą przychodzi H2O. Jest to platforma uczenia maszynowego typu open source z w pełni przetestowanymi implementacjami kilku powszechnie akceptowanych algorytmów ML. Musisz tylko pobrać algorytm z jego ogromnego repozytorium i zastosować go do swojego zbioru danych. Zawiera najczęściej używane algorytmy statystyczne i ML.
Aby wspomnieć o kilku tutaj, obejmuje on maszyny ze wzmocnieniem gradientowym (GBM), uogólniony model liniowy (GLM), głębokie uczenie i wiele innych. Nie tylko, że obsługuje również funkcję AutoML, która będzie oceniać wydajność różnych algorytmów w zbiorze danych, zmniejszając w ten sposób wysiłki związane ze znalezieniem najlepiej działającego modelu. H2O jest używany na całym świecie przez ponad 18000 organizacji i dobrze współpracuje z językami R i Python w celu ułatwienia programowania. Jest to platforma w pamięci, która zapewnia doskonałą wydajność.
W tym samouczku najpierw nauczysz się instalować H2O na komputerze z opcjami języka Python i R. Zrozumiemy, jak tego użyć w linii poleceń, abyś zrozumiał, jak działa linia poleceń. Jeśli jesteś miłośnikiem Pythona, możesz używać Jupytera lub dowolnego innego IDE do tworzenia aplikacji H2O. Jeśli wolisz R, możesz użyć RStudio do programowania.
W tym samouczku rozważymy przykład, aby zrozumieć, jak należy pracować z H2O. Dowiemy się również, jak zmienić algorytm w kodzie programu i porównać jego wydajność z wcześniejszym. H2O zapewnia również narzędzie internetowe do testowania różnych algorytmów w zbiorze danych. Nazywa się to przepływem.
Samouczek wprowadzi Cię w korzystanie z Flow. Równocześnie omówimy wykorzystanie AutoML, które pozwoli zidentyfikować najlepiej działający algorytm w Twoim zbiorze danych. Nie jesteś podekscytowany nauką H2O? Czytaj dalej!