KNIME-ワークフローの調査

ワークフローのノードをチェックアウトすると、次のノードが含まれていることがわかります。

ファイルリーダー、
カラーマネージャー
Partitioning
デシジョンツリー学習者
デシジョンツリー予測子
Score
インタラクティブテーブル
散布図
Statistics

これらは簡単に見られます Outline ここに示すように表示-

各ノードは、ワークフローで特定の機能を提供します。次に、必要な機能を満たすようにこれらのノードを構成する方法について説明します。ワークフローを探索する現在のコンテキストで、私たちに関連するノードについてのみ説明することに注意してください。

ファイルリーダー

ファイルリーダーノードは、以下のスクリーンショットに示されています-

ウィンドウの上部には、ワークフローの作成者によって提供された説明があります。これは、このノードがアダルトデータセットを読み取ることを示しています。ファイルの名前はadult.csvノードシンボルの下の説明からわかるように。ザ・File Reader 2つの出力があります-1つはに行きます Color Manager ノードともう1つはに行きます Statistics ノード。

右クリックすると File Manager、ポップアップメニューは次のように表示されます-

ザ・ Configureメニューオプションを使用すると、ノードを構成できます。ザ・Executeメニューはノードを実行します。ノードがすでに実行されていて、緑色の状態にある場合、このメニューは無効になっていることに注意してください。また、の存在に注意してくださいEdit Note Descriptionメニューオプション。これにより、ノードの説明を書き込むことができます。

次に、 Configure メニューオプション、ここのスクリーンショットに見られるように、adult.csvファイルからのデータを含む画面を表示します-

このノードを実行すると、データがメモリにロードされます。データ読み込みプログラムコード全体がユーザーに表示されません。これで、このようなノードの有用性を理解できます。コーディングは必要ありません。

次のノードは Color Manager。

カラーマネージャー

を選択 Color Managerノードを右クリックして構成に入ります。色設定ダイアログが表示されます。を選択income ドロップダウンリストの列。

画面は次のようになります-

2つの制約があることに注意してください。収入が50K未満の場合、データポイントは緑色になり、それ以上の場合は赤色になります。この章の後半で散布図を見ると、データポイントのマッピングがわかります。

パーティショニング

機械学習では、通常、利用可能なデータ全体を2つの部分に分割します。大きい部分はモデルのトレーニングに使用され、小さい部分はテストに使用されます。データの分割に使用されるさまざまな戦略があります。

目的のパーティションを定義するには、を右クリックします。 Partitioning ノードを選択し、 Configureオプション。次の画面が表示されます-

この場合、システムモデラーは Relative（％）モードで、データは80:20の比率で分割されます。分割を実行している間、データポイントはランダムに取得されます。これにより、テストデータに偏りが生じないことが保証されます。線形サンプリングの場合、テストに使用される残りの20％のデータは、収集中に完全に偏っている可能性があるため、トレーニングデータを正しく表していない可能性があります。

データ収集中にランダム性が保証されていることが確実な場合は、線形サンプリングを選択できます。データをモデルのトレーニングの準備ができたら、次のノードにフィードします。Decision Tree Learner。

デシジョンツリー学習者

ザ・ Decision Tree Learner名前が示すように、ノードはトレーニングデータを使用してモデルを構築します。以下のスクリーンショットに示されている、このノードの構成設定を確認してください。

あなたが見るように Class です income。したがって、ツリーは収入列に基づいて構築され、それがこのモデルで達成しようとしていることです。収入が5万人以上または5万人未満の人を分離したいと考えています。

このノードが正常に実行されると、モデルをテストする準備が整います。

デシジョンツリー予測子

デシジョンツリー予測ノードは、開発されたモデルをテストデータセットに適用し、モデル予測を追加します。

予測子の出力は、2つの異なるノードに送られます- Scorer そして Scatter Plot。次に、予測の出力を調べます。

得点者

このノードは、 confusion matrix。表示するには、ノードを右クリックします。次のポップアップメニューが表示されます-

クリック View: Confusion Matrix ここのスクリーンショットに示すように、メニューオプションとマトリックスが別のウィンドウにポップアップ表示されます-

これは、開発したモデルの精度が83.71％であることを示しています。これに満足できない場合は、モデル構築で他のパラメーターを試してみることができます。特に、データを再確認してクレンジングすることができます。

散布図

データ分布の散布図を表示するには、を右クリックします。 Scatter Plot ノードを選択し、メニューオプションを選択します Interactive View: Scatter Plot。次のプロットが表示されます-

プロットは、赤と青の2つの異なる色の点で、50Kのしきい値に基づいて、さまざまな収入グループの人々の分布を示しています。これらは私たちに設定された色でしたColor Managerノード。分布は、x軸にプロットされた年齢を基準にしています。ノードの構成を変更することにより、x軸に別の機能を選択できます。

構成ダイアログがここに表示されます。ここで、 marital-status x軸の機能として。

これで、KNIMEが提供する事前定義モデルに関する説明は完了です。自習のために、モデル内の他の2つのノード（統計とインタラクティブテーブル）を使用することをお勧めします。

次に、チュートリアルの最も重要な部分である独自のモデルの作成に移りましょう。