KNIME - Erkundung des Workflows

Wenn Sie die Knoten im Workflow auschecken, sehen Sie, dass sie Folgendes enthalten:

  • Dateireader,

  • Farbmanager

  • Partitioning

  • Entscheidungsbaum-Lernender

  • Entscheidungsbaum-Prädiktor

  • Score

  • Interaktive Tabelle

  • Streudiagramm

  • Statistics

Diese sind in der leicht zu sehen Outline Ansicht wie hier gezeigt -

Jeder Knoten bietet eine bestimmte Funktionalität im Workflow. Wir werden nun untersuchen, wie diese Knoten so konfiguriert werden, dass sie die gewünschte Funktionalität erfüllen. Bitte beachten Sie, dass wir nur die Knoten diskutieren, die für uns im aktuellen Kontext der Untersuchung des Workflows relevant sind.

Dateireader

Der File Reader-Knoten ist im folgenden Screenshot dargestellt -

Oben im Fenster befindet sich eine Beschreibung, die vom Ersteller des Workflows bereitgestellt wird. Es sagt, dass dieser Knoten den Datensatz für Erwachsene liest. Der Name der Datei lautetadult.csvwie aus der Beschreibung unter dem Knotensymbol ersichtlich. DasFile Reader hat zwei Ausgänge - einer geht zu Color Manager Knoten und der andere geht zu Statistics Knoten.

Wenn Sie mit der rechten Maustaste klicken, klicken Sie auf File Managerwürde ein Popup-Menü wie folgt angezeigt:

Das ConfigureDie Menüoption ermöglicht die Knotenkonfiguration. DasExecuteMenü führt den Knoten aus. Beachten Sie, dass dieses Menü deaktiviert ist, wenn der Knoten bereits ausgeführt wurde und sich in einem grünen Zustand befindet. Beachten Sie auch das Vorhandensein vonEdit Note DescriptionMenüoption. Auf diese Weise können Sie die Beschreibung für Ihren Knoten schreiben.

Wählen Sie nun die Configure Menüoption, es zeigt den Bildschirm mit den Daten aus der Datei adult.csv, wie im Screenshot hier gezeigt -

Wenn Sie diesen Knoten ausführen, werden die Daten in den Speicher geladen. Der gesamte Code des Datenladeprogramms ist dem Benutzer verborgen. Sie können jetzt die Nützlichkeit solcher Knoten erkennen - keine Codierung erforderlich.

Unser nächster Knoten ist der Color Manager.

Farbmanager

Wähle aus Color ManagerKnoten und gehen Sie in seine Konfiguration, indem Sie mit der rechten Maustaste darauf klicken. Ein Dialogfeld mit den Farbeinstellungen wird angezeigt. Wähle ausincome Spalte aus der Dropdown-Liste.

Ihr Bildschirm würde wie folgt aussehen:

Beachten Sie das Vorhandensein von zwei Einschränkungen. Wenn das Einkommen weniger als 50.000 beträgt, erhält der Datenpunkt eine grüne Farbe und wenn er höher ist, erhält er eine rote Farbe. Sie werden die Datenpunktzuordnungen sehen, wenn wir uns das Streudiagramm weiter unten in diesem Kapitel ansehen.

Partitionierung

Beim maschinellen Lernen teilen wir normalerweise die gesamten verfügbaren Daten in zwei Teile. Der größere Teil wird zum Trainieren des Modells verwendet, während der kleinere Teil zum Testen verwendet wird. Es gibt verschiedene Strategien zum Partitionieren der Daten.

Um die gewünschte Partitionierung zu definieren, klicken Sie mit der rechten Maustaste auf Partitioning Knoten und wählen Sie die ConfigureMöglichkeit. Sie würden den folgenden Bildschirm sehen -

In diesem Fall hat der Systemmodellierer das verwendet Relative(%) -Modus und die Daten werden im Verhältnis 80:20 aufgeteilt. Während der Aufteilung werden die Datenpunkte zufällig erfasst. Dies stellt sicher, dass Ihre Testdaten nicht verzerrt sind. Im Fall einer linearen Abtastung stellen die verbleibenden 20% -Daten, die zum Testen verwendet werden, die Trainingsdaten möglicherweise nicht korrekt dar, da sie während ihrer Erfassung möglicherweise vollständig verzerrt sind.

Wenn Sie sicher sind, dass während der Datenerfassung die Zufälligkeit garantiert ist, können Sie die lineare Stichprobe auswählen. Sobald Ihre Daten für das Training des Modells bereit sind, geben Sie sie an den nächsten Knoten weiter, denDecision Tree Learner.

Entscheidungsbaum-Lernender

Das Decision Tree LearnerDer Knoten verwendet, wie der Name schon sagt, die Trainingsdaten und erstellt ein Modell. Überprüfen Sie die Konfigurationseinstellungen dieses Knotens, die im folgenden Screenshot dargestellt sind.

Wie Sie sehen Class ist income. Somit würde der Baum basierend auf der Einkommensspalte erstellt, und das ist es, was wir in diesem Modell erreichen wollen. Wir wollen eine Trennung von Menschen mit einem Einkommen von mehr oder weniger als 50.000.

Nachdem dieser Knoten erfolgreich ausgeführt wurde, ist Ihr Modell zum Testen bereit.

Entscheidungsbaum-Prädiktor

Der Decision Tree Predictor-Knoten wendet das entwickelte Modell auf den Testdatensatz an und hängt die Modellvorhersagen an.

Die Ausgabe des Prädiktors wird zwei verschiedenen Knoten zugeführt - Scorer und Scatter Plot. Als nächstes werden wir die Ausgabe der Vorhersage untersuchen.

Torschütze

Dieser Knoten generiert die confusion matrix. Um es anzuzeigen, klicken Sie mit der rechten Maustaste auf den Knoten. Sie sehen das folgende Popup-Menü -

Drücke den View: Confusion Matrix Menüoption und die Matrix werden in einem separaten Fenster angezeigt, wie im Screenshot hier gezeigt -

Dies zeigt an, dass die Genauigkeit unseres entwickelten Modells 83,71% beträgt. Wenn Sie damit nicht zufrieden sind, können Sie beim Modellbau mit anderen Parametern herumspielen, insbesondere möchten Sie Ihre Daten möglicherweise erneut überprüfen und bereinigen.

Streudiagramm

Klicken Sie mit der rechten Maustaste auf, um das Streudiagramm der Datenverteilung anzuzeigen Scatter Plot Knoten und wählen Sie die Menüoption Interactive View: Scatter Plot. Sie sehen die folgende Handlung -

Die Darstellung zeigt die Verteilung der verschiedenen Personen der Einkommensgruppe basierend auf der Schwelle von 50.000 in zwei verschiedenfarbigen Punkten - rot und blau. Dies waren die Farben in unseremColor ManagerKnoten. Die Verteilung ist relativ zum Alter, wie auf der x-Achse aufgetragen. Sie können eine andere Funktion für die x-Achse auswählen, indem Sie die Konfiguration des Knotens ändern.

Der Konfigurationsdialog wird hier angezeigt, wo wir die ausgewählt haben marital-status als Merkmal für die x-Achse.

Damit ist unsere Diskussion über das von KNIME bereitgestellte vordefinierte Modell abgeschlossen. Wir empfehlen Ihnen, die beiden anderen Knoten (Statistik und interaktive Tabelle) im Modell für Ihr Selbststudium zu verwenden.

Kommen wir nun zum wichtigsten Teil des Tutorials - dem Erstellen Ihres eigenen Modells.