H2O - Présentation
Vous a-t-on déjà demandé de développer un modèle d'apprentissage automatique sur une énorme base de données? En règle générale, le client vous fournira la base de données et vous demandera de faire certaines prédictions telles que qui seront les acheteurs potentiels; s'il peut y avoir une détection précoce des cas frauduleux, etc. Pour répondre à ces questions, votre tâche serait de développer un algorithme d'apprentissage automatique qui fournirait une réponse à la requête du client. Développer un algorithme de Machine Learning à partir de zéro n'est pas une tâche facile et pourquoi devriez-vous le faire alors qu'il existe plusieurs bibliothèques de Machine Learning prêtes à l'emploi disponibles sur le marché.
De nos jours, vous préférez utiliser ces bibliothèques, appliquer un algorithme bien testé à partir de ces bibliothèques et regarder ses performances. Si les performances n'étaient pas dans des limites acceptables, vous tenteriez soit d'affiner l'algorithme actuel, soit d'en essayer un tout à fait différent.
De même, vous pouvez essayer plusieurs algorithmes sur le même ensemble de données, puis choisir le meilleur qui répond de manière satisfaisante aux exigences du client. C'est là que H2O vient à votre secours. Il s'agit d'un cadre d'apprentissage automatique open source avec des implémentations entièrement testées de plusieurs algorithmes de ML largement acceptés. Il vous suffit de récupérer l'algorithme de son énorme référentiel et de l'appliquer à votre ensemble de données. Il contient les algorithmes statistiques et ML les plus utilisés.
Pour n'en citer que quelques-uns, il comprend les machines à gradient boosté (GBM), le modèle linéaire généralisé (GLM), l'apprentissage en profondeur et bien d'autres. Non seulement il prend également en charge la fonctionnalité AutoML qui classera les performances de différents algorithmes sur votre ensemble de données, réduisant ainsi vos efforts pour trouver le modèle le plus performant. H2O est utilisé dans le monde entier par plus de 18000 organisations et s'interface bien avec R et Python pour votre facilité de développement. C'est une plate-forme en mémoire qui offre de superbes performances.
Dans ce didacticiel, vous apprendrez d'abord à installer le H2O sur votre machine avec les options Python et R. Nous allons comprendre comment l'utiliser dans la ligne de commande afin que vous compreniez son fonctionnement en ligne. Si vous êtes un amoureux de Python, vous pouvez utiliser Jupyter ou tout autre IDE de votre choix pour développer des applications H2O. Si vous préférez R, vous pouvez utiliser RStudio pour le développement.
Dans ce tutoriel, nous examinerons un exemple pour comprendre comment travailler avec H2O. Nous apprendrons également comment changer l'algorithme dans le code de votre programme et comparer ses performances avec le précédent. Le H2O fournit également un outil Web pour tester les différents algorithmes de votre ensemble de données. C'est ce qu'on appelle Flow.
Le tutoriel vous présentera l'utilisation de Flow. Parallèlement, nous discuterons de l'utilisation d'AutoML qui identifiera l'algorithme le plus performant sur votre ensemble de données. N'êtes-vous pas impatient d'apprendre H2O? Continue de lire!