H2O - Introdução
Você já foi convidado a desenvolver um modelo de aprendizado de máquina em um banco de dados enorme? Normalmente, o cliente fornecerá o banco de dados e solicitará que você faça algumas previsões, como quem serão os compradores em potencial; se pode haver uma detecção precoce de casos fraudulentos, etc. Para responder a essas perguntas, sua tarefa seria desenvolver um algoritmo de aprendizado de máquina que forneceria uma resposta à consulta do cliente. Desenvolver um algoritmo de aprendizado de máquina do zero não é uma tarefa fácil e por que você deve fazer isso quando há várias bibliotecas de aprendizado de máquina prontas para usar disponíveis no mercado.
Atualmente, você prefere usar essas bibliotecas, aplicar um algoritmo bem testado dessas bibliotecas e observar seu desempenho. Se o desempenho não estivesse dentro dos limites aceitáveis, você tentaria fazer o ajuste fino do algoritmo atual ou tentar um totalmente diferente.
Da mesma forma, você pode tentar vários algoritmos no mesmo conjunto de dados e, em seguida, escolher o melhor que atenda satisfatoriamente aos requisitos do cliente. É aqui que H2O vem em seu socorro. É uma estrutura de aprendizado de máquina de código aberto com implementações totalmente testadas de vários algoritmos de ML amplamente aceitos. Você apenas tem que pegar o algoritmo de seu enorme repositório e aplicá-lo ao seu conjunto de dados. Ele contém os algoritmos estatísticos e de ML mais amplamente usados.
Para mencionar alguns aqui, inclui máquinas com gradiente aumentado (GBM), modelo linear generalizado (GLM), aprendizado profundo e muito mais. Além disso, ele também oferece suporte à funcionalidade AutoML que classificará o desempenho de diferentes algoritmos em seu conjunto de dados, reduzindo assim seus esforços para encontrar o modelo de melhor desempenho. H2O é usado em todo o mundo por mais de 18.000 organizações e faz uma boa interface com R e Python para facilitar o desenvolvimento. É uma plataforma in-memory que oferece um desempenho excelente.
Neste tutorial, você aprenderá primeiro a instalar o H2O em sua máquina com as opções Python e R. Vamos entender como usar isso na linha de comando para que você entenda seu funcionamento em linha. Se você é um amante do Python, pode usar o Jupyter ou qualquer outro IDE de sua escolha para desenvolver aplicativos H2O. Se você preferir R, você pode usar RStudio para desenvolvimento.
Neste tutorial, consideraremos um exemplo para entender como trabalhar com H2O. Também aprenderemos como alterar o algoritmo no código do programa e comparar seu desempenho com o anterior. O H2O também fornece uma ferramenta baseada na web para testar os diferentes algoritmos em seu conjunto de dados. Isso é chamado de fluxo.
O tutorial irá apresentá-lo ao uso do Flow. Paralelamente, discutiremos o uso do AutoML que identificará o algoritmo de melhor desempenho em seu conjunto de dados. Você não está animado para aprender H2O? Continue lendo!