H2O-はじめに

巨大なデータベースで機械学習モデルを開発するように依頼されたことはありますか?通常、顧客はデータベースを提供し、誰が潜在的な購入者になるかなどの特定の予測を行うように依頼します。不正なケースなどを早期に検出できる場合。これらの質問に答えるには、顧客の質問に答える機械学習アルゴリズムを開発することがタスクになります。機械学習アルゴリズムを最初から開発するのは簡単な作業ではありません。市場にすぐに使用できる機械学習ライブラリがいくつかあるのに、なぜこれを行う必要があるのでしょうか。

最近では、これらのライブラリを使用し、これらのライブラリから十分にテストされたアルゴリズムを適用して、そのパフォーマンスを確認することをお勧めします。パフォーマンスが許容範囲内にない場合は、現在のアルゴリズムを微調整するか、まったく別のアルゴリズムを試してください。

同様に、同じデータセットで複数のアルゴリズムを試してから、顧客の要件を十分に満たす最適なアルゴリズムを選択することもできます。ここでH2Oが役に立ちます。これは、広く受け入れられているいくつかのMLアルゴリズムの完全にテストされた実装を備えたオープンソースの機械学習フレームワークです。巨大なリポジトリからアルゴリズムを取得して、データセットに適用するだけです。これには、最も広く使用されている統計アルゴリズムとMLアルゴリズムが含まれています。

ここでいくつか言及すると、勾配ブーストマシン(GBM)、一般化線形モデル(GLM)、ディープラーニングなどが含まれます。データセット上のさまざまなアルゴリズムのパフォーマンスをランク付けするAutoML機能もサポートしているため、最高のパフォーマンスを発揮するモデルを見つける手間が省けます。H2Oは、世界中で18000以上の組織で使用されており、開発を容易にするためにRおよびPythonとうまく連携しています。これは、優れたパフォーマンスを提供するインメモリプラットフォームです。

このチュートリアルでは、最初にPythonとRの両方のオプションを使用してH2Oをマシンにインストールする方法を学習します。コマンドラインでこれを使用する方法を理解し、行ごとの動作を理解できるようにします。Pythonが好きな方は、H2Oアプリケーションの開発にJupyterまたはその他の任意のIDEを使用できます。Rが必要な場合は、開発にRStudioを使用できます。

このチュートリアルでは、H2Oの操作方法を理解するための例を検討します。また、プログラムコードのアルゴリズムを変更し、そのパフォーマンスを以前のアルゴリズムと比較する方法についても学習します。H2Oは、データセットのさまざまなアルゴリズムをテストするためのWebベースのツールも提供します。これはフローと呼ばれます。

チュートリアルでは、フローの使用法を紹介します。同時に、データセットで最もパフォーマンスの高いアルゴリズムを特定するAutoMLの使用についても説明します。H2Oを学ぶことにワクワクしていませんか?読み続けます!