ウェカ-はじめに

機械学習アプリケーションの基盤はデータです。小さなデータだけでなく、巨大なデータと呼ばれます。 Big Data 現在の用語で。

ビッグデータを分析するようにマシンをトレーニングするには、データに関していくつかの考慮事項が必要です。

  • データはクリーンである必要があります。
  • null値を含めることはできません。

さらに、データテーブルのすべての列が、達成しようとしている分析のタイプに役立つとは限りません。機械学習の用語で呼ばれる無関係なデータ列または「機能」は、データが機械学習アルゴリズムに入力される前に削除する必要があります。

つまり、ビッグデータを機械学習に使用するには、多くの前処理が必要です。データの準備ができたら、分類、回帰、クラスタリングなどのさまざまな機械学習アルゴリズムを適用して、最後に問題を解決します。

適用するアルゴリズムのタイプは、主にドメイン知識に基づいています。同じタイプ内でも、たとえば分類など、いくつかのアルゴリズムを使用できます。同じクラスでさまざまなアルゴリズムをテストして、効率的な機械学習モデルを構築することをお勧めします。その際、処理されたデータの視覚化を希望するため、視覚化ツールも必要です。

次の章では、上記のすべてを簡単に実行し、ビッグデータを快適に操作できるソフトウェアであるWekaについて学習します。