KNIME - Kurzanleitung

Die Entwicklung von Modellen für maschinelles Lernen wird aufgrund ihrer kryptischen Natur immer als sehr herausfordernd angesehen. Um Anwendungen für maschinelles Lernen zu entwickeln, müssen Sie im Allgemeinen ein guter Entwickler mit Fachkenntnissen in befehlsgesteuerter Entwicklung sein. Die Einführung von KNIME hat die Entwicklung von Modellen für maschinelles Lernen in den Zuständigkeitsbereich eines einfachen Mannes gebracht.

KNIME bietet eine grafische Oberfläche (eine benutzerfreundliche Benutzeroberfläche) für die gesamte Entwicklung. In KNIME müssen Sie lediglich den Workflow zwischen den verschiedenen vordefinierten Knoten definieren, die in seinem Repository bereitgestellt werden. KNIME bietet mehrere vordefinierte Komponenten, die als Knoten bezeichnet werden, für verschiedene Aufgaben wie das Lesen von Daten, das Anwenden verschiedener ML-Algorithmen und das Visualisieren von Daten in verschiedenen Formaten. Für die Arbeit mit KNIME sind daher keine Programmierkenntnisse erforderlich. Ist das nicht aufregend?

In den nächsten Kapiteln dieses Tutorials erfahren Sie, wie Sie die Datenanalyse mit mehreren bewährten ML-Algorithmen beherrschen.

Die KNIME Analytics-Plattform ist für Windows, Linux und MacOS verfügbar. Lassen Sie uns in diesem Kapitel die Schritte zum Installieren der Plattform auf dem Mac untersuchen. Wenn Sie Windows oder Linux verwenden, befolgen Sie einfach die Installationsanweisungen auf der KNIME-Downloadseite. Die Binärinstallation für alle drei Plattformen ist auf der KNIME-Seite verfügbar .

Mac-Installation

Laden Sie die Binärinstallation von der offiziellen KNIME-Website herunter. Doppelklicken Sie auf das heruntergeladenedmgDatei, um die Installation zu starten. Wenn die Installation abgeschlossen ist, ziehen Sie einfach das KNIME-Symbol in den Anwendungsordner (siehe hier).

Doppelklicken Sie auf das KNIME-Symbol, um die KNIME Analytics-Plattform zu starten. Zunächst werden Sie aufgefordert, einen Arbeitsbereichsordner zum Speichern Ihrer Arbeit einzurichten. Ihr Bildschirm sieht folgendermaßen aus:

Sie können den ausgewählten Ordner als Standard festlegen und beim nächsten Start von KNIME nicht

Zeigen Sie diesen Dialog erneut an.

Nach einer Weile startet die KNIME-Plattform auf Ihrem Desktop. Dies ist die Workbench, auf der Sie Ihre Analysearbeit ausführen würden. Betrachten wir nun die verschiedenen Teile der Werkbank.

Wenn KNIME gestartet wird, wird der folgende Bildschirm angezeigt:

Wie im Screenshot markiert, besteht die Workbench aus mehreren Ansichten. Die Ansichten, die für uns sofort von Nutzen sind, sind im Screenshot markiert und unten aufgeführt -

  • Workspace

  • Outline

  • Knoten-Repository

  • KNIME Explorer

  • Console

  • Description

Lassen Sie uns in diesem Kapitel diese Ansichten jeweils im Detail kennenlernen.

Arbeitsbereichsansicht

Die wichtigste Sichtweise für uns ist die WorkspaceAussicht. Hier würden Sie Ihr Modell für maschinelles Lernen erstellen. Die Arbeitsbereichsansicht wird im folgenden Screenshot hervorgehoben -

Der Screenshot zeigt einen geöffneten Arbeitsbereich. Sie werden bald lernen, wie Sie einen vorhandenen Arbeitsbereich öffnen.

Jeder Arbeitsbereich enthält einen oder mehrere Knoten. Die Bedeutung dieser Knoten erfahren Sie später im Lernprogramm. Die Knoten sind mit Pfeilen verbunden. Im Allgemeinen wird der Programmablauf von links nach rechts definiert, obwohl dies nicht erforderlich ist. Sie können jeden Knoten frei an eine beliebige Stelle im Arbeitsbereich verschieben. Die Verbindungslinien zwischen den beiden würden sich entsprechend bewegen, um die Verbindung zwischen den Knoten aufrechtzuerhalten. Sie können jederzeit Verbindungen zwischen Knoten hinzufügen / entfernen. Für jeden Knoten kann optional eine kleine Beschreibung hinzugefügt werden.

Gliederungsansicht

In der Arbeitsbereichsansicht wird möglicherweise nicht der gesamte Workflow gleichzeitig angezeigt. Aus diesem Grund wird die Gliederungsansicht bereitgestellt.

Die Umrissansicht zeigt eine Miniaturansicht des gesamten Arbeitsbereichs. In dieser Ansicht befindet sich ein Zoomfenster, in das Sie schieben können, um die verschiedenen Bereiche des Workflows im anzuzeigenWorkspace Aussicht.

Knoten-Repository

Dies ist die nächste wichtige Ansicht in der Workbench. Das Knoten-Repository listet die verschiedenen Knoten auf, die für Ihre Analyse verfügbar sind. Das gesamte Repository ist anhand der Knotenfunktionen gut kategorisiert. Sie finden Kategorien wie -

  • IO

  • Views

  • Analytics

Unter jeder Kategorie finden Sie mehrere Optionen. Erweitern Sie einfach jede Kategorieansicht, um zu sehen, was Sie dort haben. Unter demIO In dieser Kategorie finden Sie Knoten zum Lesen Ihrer Daten in verschiedenen Dateiformaten wie ARFF, CSV, PMML, XLS usw.

Abhängig von Ihrem Datenformat für die Eingangsquelle wählen Sie den geeigneten Knoten zum Lesen Ihres Datensatzes aus.

Zu diesem Zeitpunkt haben Sie wahrscheinlich den Zweck eines Knotens verstanden. Ein Knoten definiert eine bestimmte Art von Funktionalität, die Sie visuell in Ihren Workflow aufnehmen können.

Der Analytics-Knoten definiert die verschiedenen Algorithmen für maschinelles Lernen, z. B. Bayes, Clustering, Entscheidungsbaum, Ensemble-Lernen usw.

Die Implementierung dieser verschiedenen ML-Algorithmen wird in diesen Knoten bereitgestellt. Um einen Algorithmus in Ihrer Analyse anzuwenden, nehmen Sie einfach den gewünschten Knoten aus dem Repository und fügen Sie ihn Ihrem Arbeitsbereich hinzu. Verbinden Sie die Ausgabe des Datenleseknotens mit der Eingabe dieses ML-Knotens, und Ihr Workflow wird erstellt.

Wir empfehlen Ihnen, die verschiedenen im Repository verfügbaren Knoten zu erkunden.

KNIME Explorer

Die nächste wichtige Ansicht in der Workbench ist die Explorer Ansicht wie im Screenshot unten gezeigt -

In den ersten beiden Kategorien werden die auf dem KNIME-Server definierten Arbeitsbereiche aufgelistet. Die dritte Option LOCAL wird zum Speichern aller Arbeitsbereiche verwendet, die Sie auf Ihrem lokalen Computer erstellen. Erweitern Sie diese Registerkarten, um die verschiedenen vordefinierten Arbeitsbereiche anzuzeigen. Erweitern Sie insbesondere die Registerkarte BEISPIELE.

KNIME bietet verschiedene Beispiele, um Ihnen den Einstieg in die Plattform zu erleichtern. Im nächsten Kapitel werden Sie eines dieser Beispiele verwenden, um sich mit der Plattform vertraut zu machen.

Konsolenansicht

Wie der Name schon sagt, ist die Console Ansicht bietet eine Ansicht der verschiedenen Konsolenmeldungen während der Ausführung Ihres Workflows.

Das Console Die Ansicht ist nützlich, um den Workflow zu diagnostizieren und die Analyseergebnisse zu untersuchen.

Beschreibung Ansicht

Die letzte wichtige Ansicht, die für uns von unmittelbarer Bedeutung ist, ist die DescriptionAussicht. Diese Ansicht enthält eine Beschreibung eines ausgewählten Elements im Arbeitsbereich. Eine typische Ansicht ist im folgenden Screenshot dargestellt -

Die obige Ansicht zeigt die Beschreibung von a File ReaderKnoten. Wenn Sie die auswählenFile ReaderKnoten in Ihrem Arbeitsbereich, sehen Sie seine Beschreibung in dieser Ansicht. Wenn Sie auf einen anderen Knoten klicken, wird die Beschreibung des ausgewählten Knotens angezeigt. Daher ist diese Ansicht in der Anfangsphase des Lernens sehr nützlich, wenn Sie den Zweck der verschiedenen Knoten im Arbeitsbereich und / oder im Knoten-Repository nicht genau kennen.

Symbolleiste

Neben den oben beschriebenen Ansichten verfügt die Workbench über andere Ansichten, z. B. die Symbolleiste. Die Symbolleiste enthält verschiedene Symbole, die eine schnelle Aktion ermöglichen. Die Symbole sind je nach Kontext aktiviert / deaktiviert. Sie können die Aktion sehen, die jedes Symbol ausführt, indem Sie mit der Maus darüber fahren. Der folgende Bildschirm zeigt die Aktion vonConfigure Symbol.

Ansichten aktivieren / deaktivieren

Die verschiedenen Ansichten, die Sie bisher gesehen haben, können einfach ein- und ausgeschaltet werden. Klicken Sie in der Ansicht auf das Symbol Schließenclosedie Aussicht. Um die Ansicht wiederherzustellen, gehen Sie zuViewMenüoption und wählen Sie die gewünschte Ansicht. Die ausgewählte Ansicht wird der Workbench hinzugefügt.

Nachdem Sie mit der Workbench vertraut sind, zeige ich Ihnen, wie Sie einen Workflow ausführen und die von ihm durchgeführten Analysen untersuchen.

KNIME hat mehrere gute Workflows bereitgestellt, um das Lernen zu vereinfachen. In diesem Kapitel werden wir einen der in der Installation bereitgestellten Workflows aufgreifen, um die verschiedenen Funktionen und die Leistungsfähigkeit der Analyseplattform zu erläutern. Wir werden einen einfachen Klassifikator verwenden, der auf a basiertDecision Tree für unsere Studie.

Laden des Entscheidungsbaumklassifikators

Suchen Sie im KNIME Explorer den folgenden Workflow:

LOCAL / Example Workflows / Basic Examples / Building a Simple Classifier

Dies wird auch im folgenden Screenshot als Kurzreferenz gezeigt -

Doppelklicken Sie auf das ausgewählte Element, um den Workflow zu öffnen. Beachten Sie die Arbeitsbereichsansicht. Sie sehen den Workflow mit mehreren Knoten. Der Zweck dieses Workflows besteht darin, die Einkommensgruppe anhand der demokratischen Attribute des Datensatzes für Erwachsene aus dem UCI Machine Learning Repository vorherzusagen. Die Aufgabe dieses ML-Modells besteht darin, die Menschen in einer bestimmten Region als Personen mit einem Einkommen von mehr oder weniger als 50.000 zu klassifizieren.

Das Workspace Die Ansicht zusammen mit dem Umriss ist im folgenden Screenshot dargestellt.

Beachten Sie das Vorhandensein mehrerer Knoten, die von der aufgenommen wurden NodesRepository und in einem Workflow durch Pfeile verbunden. Die Verbindung zeigt an, dass der Ausgang eines Knotens dem Eingang des nächsten Knotens zugeführt wird. Bevor wir die Funktionalität der einzelnen Knoten im Workflow kennenlernen, lassen Sie uns zunächst den gesamten Workflow ausführen.

Workflow ausführen

Bevor wir uns mit der Ausführung des Workflows befassen, ist es wichtig, den Statusbericht jedes Knotens zu verstehen. Untersuchen Sie einen beliebigen Knoten im Workflow. Am unteren Rand jedes Knotens befindet sich eine Statusanzeige mit drei Kreisen. Der Decision Tree Learner-Knoten wird im folgenden Screenshot gezeigt -

Die Statusanzeige ist rot, um anzuzeigen, dass dieser Knoten bisher nicht ausgeführt wurde. Während der Ausführung leuchtet der gelbe Mittelkreis auf. Bei erfolgreicher Ausführung wird der letzte Kreis grün. Es gibt weitere Indikatoren, die Ihnen bei Fehlern die Statusinformationen geben. Sie lernen sie, wenn bei der Verarbeitung ein Fehler auftritt.

Beachten Sie, dass derzeit die Anzeigen auf allen Knoten rot sind, um anzuzeigen, dass bisher kein Knoten ausgeführt wurde. Um alle Knoten auszuführen, klicken Sie auf den folgenden Menüpunkt -

Node → Execute All

Nach einer Weile werden Sie feststellen, dass jede Knotenstatusanzeige jetzt grün geworden ist, um anzuzeigen, dass keine Fehler vorliegen.

Im nächsten Kapitel werden wir die Funktionalität der verschiedenen Knoten im Workflow untersuchen.

Wenn Sie die Knoten im Workflow auschecken, sehen Sie, dass sie Folgendes enthalten:

  • Dateireader,

  • Farbmanager

  • Partitioning

  • Entscheidungsbaum-Lernender

  • Entscheidungsbaum-Prädiktor

  • Score

  • Interaktive Tabelle

  • Streudiagramm

  • Statistics

Diese sind in der leicht zu sehen Outline Ansicht wie hier gezeigt -

Jeder Knoten bietet eine bestimmte Funktionalität im Workflow. Wir werden nun untersuchen, wie diese Knoten so konfiguriert werden, dass sie die gewünschte Funktionalität erfüllen. Bitte beachten Sie, dass wir nur die Knoten diskutieren, die für uns im aktuellen Kontext der Untersuchung des Workflows relevant sind.

Dateireader

Der File Reader-Knoten ist im folgenden Screenshot dargestellt -

Oben im Fenster befindet sich eine Beschreibung, die vom Ersteller des Workflows bereitgestellt wird. Es sagt, dass dieser Knoten den Datensatz für Erwachsene liest. Der Name der Datei lautetadult.csvwie aus der Beschreibung unter dem Knotensymbol ersichtlich. DasFile Reader hat zwei Ausgänge - einer geht zu Color Manager Knoten und der andere geht zu Statistics Knoten.

Wenn Sie mit der rechten Maustaste klicken, klicken Sie auf File Managerwürde ein Popup-Menü wie folgt angezeigt:

Das ConfigureDie Menüoption ermöglicht die Knotenkonfiguration. DasExecuteMenü führt den Knoten aus. Beachten Sie, dass dieses Menü deaktiviert ist, wenn der Knoten bereits ausgeführt wurde und sich in einem grünen Zustand befindet. Beachten Sie auch das Vorhandensein vonEdit Note DescriptionMenüoption. Auf diese Weise können Sie die Beschreibung für Ihren Knoten schreiben.

Wählen Sie nun die Configure Menüoption, es zeigt den Bildschirm mit den Daten aus der Datei adult.csv, wie im Screenshot hier gezeigt -

Wenn Sie diesen Knoten ausführen, werden die Daten in den Speicher geladen. Der gesamte Code des Datenladeprogramms ist dem Benutzer verborgen. Sie können jetzt die Nützlichkeit solcher Knoten erkennen - keine Codierung erforderlich.

Unser nächster Knoten ist der Color Manager.

Farbmanager

Wähle aus Color ManagerKnoten und gehen Sie in seine Konfiguration, indem Sie mit der rechten Maustaste darauf klicken. Ein Dialogfeld mit den Farbeinstellungen wird angezeigt. Wähle ausincome Spalte aus der Dropdown-Liste.

Ihr Bildschirm würde wie folgt aussehen:

Beachten Sie das Vorhandensein von zwei Einschränkungen. Wenn das Einkommen weniger als 50.000 beträgt, erhält der Datenpunkt eine grüne Farbe und wenn er höher ist, erhält er eine rote Farbe. Sie werden die Datenpunktzuordnungen sehen, wenn wir uns das Streudiagramm weiter unten in diesem Kapitel ansehen.

Partitionierung

Beim maschinellen Lernen teilen wir normalerweise die gesamten verfügbaren Daten in zwei Teile. Der größere Teil wird zum Trainieren des Modells verwendet, während der kleinere Teil zum Testen verwendet wird. Es gibt verschiedene Strategien zum Partitionieren der Daten.

Um die gewünschte Partitionierung zu definieren, klicken Sie mit der rechten Maustaste auf Partitioning Knoten und wählen Sie die ConfigureMöglichkeit. Sie würden den folgenden Bildschirm sehen -

In diesem Fall hat der Systemmodellierer das verwendet Relative(%) -Modus und die Daten werden im Verhältnis 80:20 aufgeteilt. Während der Aufteilung werden die Datenpunkte zufällig erfasst. Dies stellt sicher, dass Ihre Testdaten nicht verzerrt sind. Im Fall einer linearen Abtastung stellen die verbleibenden 20% -Daten, die zum Testen verwendet werden, die Trainingsdaten möglicherweise nicht korrekt dar, da sie während ihrer Erfassung möglicherweise vollständig verzerrt sind.

Wenn Sie sicher sind, dass während der Datenerfassung die Zufälligkeit garantiert ist, können Sie die lineare Stichprobe auswählen. Sobald Ihre Daten für das Training des Modells bereit sind, geben Sie sie an den nächsten Knoten weiter, denDecision Tree Learner.

Entscheidungsbaum-Lernender

Das Decision Tree LearnerDer Knoten verwendet, wie der Name schon sagt, die Trainingsdaten und erstellt ein Modell. Überprüfen Sie die Konfigurationseinstellungen dieses Knotens, die im folgenden Screenshot dargestellt sind.

Wie Sie sehen Class ist income. Somit würde der Baum basierend auf der Einkommensspalte erstellt, und das ist es, was wir in diesem Modell erreichen wollen. Wir wollen eine Trennung von Menschen mit einem Einkommen von mehr oder weniger als 50.000.

Nachdem dieser Knoten erfolgreich ausgeführt wurde, ist Ihr Modell zum Testen bereit.

Entscheidungsbaum-Prädiktor

Der Decision Tree Predictor-Knoten wendet das entwickelte Modell auf den Testdatensatz an und hängt die Modellvorhersagen an.

Die Ausgabe des Prädiktors wird zwei verschiedenen Knoten zugeführt - Scorer und Scatter Plot. Als nächstes werden wir die Ausgabe der Vorhersage untersuchen.

Torschütze

Dieser Knoten generiert die confusion matrix. Um es anzuzeigen, klicken Sie mit der rechten Maustaste auf den Knoten. Sie sehen das folgende Popup-Menü -

Drücke den View: Confusion Matrix Menüoption und die Matrix werden in einem separaten Fenster angezeigt, wie im Screenshot hier gezeigt -

Dies zeigt an, dass die Genauigkeit unseres entwickelten Modells 83,71% beträgt. Wenn Sie damit nicht zufrieden sind, können Sie beim Modellbau mit anderen Parametern herumspielen, insbesondere möchten Sie Ihre Daten möglicherweise erneut überprüfen und bereinigen.

Streudiagramm

Klicken Sie mit der rechten Maustaste auf, um das Streudiagramm der Datenverteilung anzuzeigen Scatter Plot Knoten und wählen Sie die Menüoption Interactive View: Scatter Plot. Sie sehen die folgende Handlung -

Die Darstellung zeigt die Verteilung der verschiedenen Personen der Einkommensgruppe basierend auf der Schwelle von 50.000 in zwei verschiedenfarbigen Punkten - rot und blau. Dies waren die Farben in unseremColor ManagerKnoten. Die Verteilung ist relativ zum Alter, wie auf der x-Achse aufgetragen. Sie können eine andere Funktion für die x-Achse auswählen, indem Sie die Konfiguration des Knotens ändern.

Der Konfigurationsdialog wird hier angezeigt, wo wir die ausgewählt haben marital-status als Merkmal für die x-Achse.

Damit ist unsere Diskussion über das von KNIME bereitgestellte vordefinierte Modell abgeschlossen. Wir empfehlen Ihnen, die beiden anderen Knoten (Statistik und interaktive Tabelle) im Modell für Ihr Selbststudium zu verwenden.

Kommen wir nun zum wichtigsten Teil des Tutorials - dem Erstellen Ihres eigenen Modells.

In diesem Kapitel erstellen Sie Ihr eigenes Modell für maschinelles Lernen, um die Anlagen anhand einiger beobachteter Merkmale zu kategorisieren. Wir werden das bekannte verwendeniris Datensatz von UCI Machine Learning Repositoryfür diesen Zweck. Der Datensatz enthält drei verschiedene Pflanzenklassen. Wir werden unser Modell trainieren, um eine unbekannte Pflanze in eine dieser drei Klassen einzuteilen.

Wir beginnen mit der Erstellung eines neuen Workflows in KNIME zur Erstellung unserer Modelle für maschinelles Lernen.

Workflow erstellen

Um einen neuen Workflow zu erstellen, wählen Sie die folgende Menüoption in der KNIME-Workbench.

File → New

Sie sehen den folgenden Bildschirm -

Wähle aus New KNIME Workflow Option und klicken Sie auf die NextTaste. Im nächsten Bildschirm werden Sie nach dem gewünschten Namen für den Workflow und dem Zielordner zum Speichern gefragt. Geben Sie diese Informationen wie gewünscht ein und klicken Sie aufFinish um einen neuen Arbeitsbereich zu erstellen.

Ein neuer Arbeitsbereich mit dem angegebenen Namen wird dem hinzugefügt Workspace Ansicht wie hier gesehen -

Sie fügen nun die verschiedenen Knoten in diesem Arbeitsbereich hinzu, um Ihr Modell zu erstellen. Bevor Sie Knoten hinzufügen, müssen Sie die herunterladen und vorbereiteniris Datensatz für unsere Verwendung.

Datensatz vorbereiten

Laden Sie den Iris-Datensatz von der UCI Machine Learning Repository-Site herunter . Laden Sie den Iris-Datensatz herunter . Die heruntergeladene Datei iris.data liegt im CSV-Format vor. Wir werden einige Änderungen daran vornehmen, um die Spaltennamen hinzuzufügen.

Öffnen Sie die heruntergeladene Datei in Ihrem bevorzugten Texteditor und fügen Sie am Anfang die folgende Zeile hinzu.

sepal length, petal length, sepal width, petal width, class

Wenn unsere File Reader Der Knoten liest diese Datei und verwendet automatisch die obigen Felder als Spaltennamen.

Nun werden Sie verschiedene Knoten hinzufügen.

Dateireader hinzufügen

Gehe zum Node Repository Geben Sie "Datei" in das Suchfeld ein, um die zu finden File ReaderKnoten. Dies ist im folgenden Screenshot zu sehen -

Wählen Sie und doppelklicken Sie auf File Readerum den Knoten zum Arbeitsbereich hinzuzufügen. Alternativ können Sie die Drag & Drop-Funktion verwenden, um den Knoten zum Arbeitsbereich hinzuzufügen. Nachdem der Knoten hinzugefügt wurde, müssen Sie ihn konfigurieren. Klicken Sie mit der rechten Maustaste auf den Knoten und wählen Sie die ausConfigureMenüoption. Sie haben dies in der vorherigen Lektion getan.

Der Einstellungsbildschirm sieht nach dem Laden der Datendatei folgendermaßen aus.

Um Ihren Datensatz zu laden, klicken Sie auf BrowseKlicken Sie auf die Schaltfläche und wählen Sie den Speicherort Ihrer iris.data-Datei aus. Der Knoten lädt den Inhalt der Datei, der im unteren Bereich des Konfigurationsfelds angezeigt wird. Wenn Sie zufrieden sind, dass die Datendatei ordnungsgemäß gefunden und geladen wurde, klicken Sie aufOK Schaltfläche, um den Konfigurationsdialog zu schließen.

Sie werden diesem Knoten nun einige Anmerkungen hinzufügen. Klicken Sie mit der rechten Maustaste auf den Knoten und wählen SieNew Workflow AnnotationMenüoption. Auf dem Bildschirm wird ein Anmerkungsfeld angezeigt, wie im folgenden Screenshot gezeigt:

Klicken Sie in das Feld und fügen Sie die folgende Anmerkung hinzu:

Reads iris.data

Klicken Sie auf eine beliebige Stelle außerhalb des Felds, um den Bearbeitungsmodus zu verlassen. Ändern Sie die Größe und platzieren Sie die Box wie gewünscht um den Knoten. Zum Schluss doppelklicken Sie aufNode 1 Text unter dem Knoten, um diese Zeichenfolge wie folgt zu ändern:

Loads data

Zu diesem Zeitpunkt würde Ihr Bildschirm wie folgt aussehen:

Wir werden jetzt einen neuen Knoten hinzufügen, um unser geladenes Dataset in Training und Test zu unterteilen.

Partitionierungsknoten hinzufügen

In dem Node Repository Geben Sie im Suchfenster einige Zeichen ein, um das zu finden Partitioning Knoten, wie im Screenshot unten zu sehen -

Fügen Sie den Knoten zu unserem Arbeitsbereich hinzu. Stellen Sie die Konfiguration wie folgt ein:

Relative (%) : 95
Draw Randomly

Der folgende Screenshot zeigt die Konfigurationsparameter.

Stellen Sie als Nächstes die Verbindung zwischen den beiden Knoten her. Klicken Sie dazu auf die Ausgabe desFile Reader Knoten, halten Sie die Maustaste gedrückt, eine Gummibandlinie würde erscheinen, ziehen Sie es auf die Eingabe von PartitioningKnoten, lassen Sie die Maustaste los. Es wird nun eine Verbindung zwischen den beiden Knoten hergestellt.

Fügen Sie die Anmerkung hinzu, ändern Sie die Beschreibung, positionieren Sie den Knoten und die Anmerkungsansicht wie gewünscht. Ihr Bildschirm sollte zu diesem Zeitpunkt wie folgt aussehen:

Als nächstes werden wir die hinzufügen k-Means Knoten.

Hinzufügen eines k-Means-Knotens

Wähle aus k-MeansKnoten aus dem Repository und fügen Sie es dem Arbeitsbereich hinzu. Wenn Sie Ihr Wissen über den k-Means-Algorithmus auffrischen möchten, schlagen Sie einfach seine Beschreibung in der Beschreibungsansicht der Workbench nach. Dies wird im folgenden Screenshot gezeigt -

Im Übrigen können Sie die Beschreibung verschiedener Algorithmen im Beschreibungsfenster nachschlagen, bevor Sie eine endgültige Entscheidung treffen, welche verwendet werden sollen.

Öffnen Sie den Konfigurationsdialog für den Knoten. Wir werden die Standardeinstellungen für alle Felder verwenden, wie hier gezeigt -

Klicken OK um die Standardeinstellungen zu übernehmen und den Dialog zu schließen.

Stellen Sie die Anmerkung und Beschreibung auf Folgendes ein:

  • Anmerkung: Klassifizieren Sie Cluster

  • Beschreibung: Führen Sie das Clustering durch

Verbinden Sie den oberen Ausgang des Partitioning Knoten zur Eingabe von k-MeansKnoten. Positionieren Sie Ihre Artikel neu und Ihr Bildschirm sollte wie folgt aussehen:

Als nächstes werden wir eine hinzufügen Cluster Assigner Knoten.

Cluster Assigner hinzufügen

Das Cluster Assignerweist einem vorhandenen Satz von Prototypen neue Daten zu. Es sind zwei Eingaben erforderlich - das Prototypmodell und die Datentabelle, die die Eingabedaten enthält. Schlagen Sie die Beschreibung des Knotens im Beschreibungsfenster nach, das im folgenden Screenshot dargestellt ist.

Für diesen Knoten müssen Sie also zwei Verbindungen herstellen -

  • Die Ausgabe des PMML-Cluster-Modells von Partitioning Knoten → Prototypen Eingabe von Cluster Assigner

  • Zweite Partitionsausgabe von Partitioning Knoten → Eingabedaten von Cluster Assigner

Diese beiden Verbindungen sind im folgenden Screenshot dargestellt -

Das Cluster Assignerbenötigt keine spezielle Konfiguration. Akzeptieren Sie einfach die Standardeinstellungen.

Fügen Sie diesem Knoten nun einige Anmerkungen und Beschreibungen hinzu. Ordnen Sie Ihre Knoten neu an. Ihr Bildschirm sollte wie folgt aussehen:

Zu diesem Zeitpunkt ist unser Clustering abgeschlossen. Wir müssen die Ausgabe grafisch visualisieren. Dazu fügen wir ein Streudiagramm hinzu. Wir werden die Farben und Formen für drei Klassen im Streudiagramm unterschiedlich einstellen. Daher werden wir die Ausgabe von filternk-Means Knoten zuerst durch die Color Manager Knoten und dann durch Shape Manager Knoten.

Farbmanager hinzufügen

Suchen Sie die Color ManagerKnoten im Repository. Fügen Sie es dem Arbeitsbereich hinzu. Übernehmen Sie die Standardeinstellungen der Konfiguration. Beachten Sie, dass Sie den Konfigurationsdialog öffnen und drücken müssenOKdie Standardeinstellungen zu akzeptieren. Legen Sie den Beschreibungstext für den Knoten fest.

Stellen Sie eine Verbindung vom Ausgang von her k-Means zum Eingang von Color Manager. Ihr Bildschirm würde zu diesem Zeitpunkt wie folgt aussehen:

Shape Manager hinzufügen

Suchen Sie die Shape Managerim Repository und fügen Sie es dem Arbeitsbereich hinzu. Überlassen Sie die Konfiguration den Standardeinstellungen. Wie beim vorherigen müssen Sie den Konfigurationsdialog öffnen und drückenOKStandardeinstellungen festlegen. Stellen Sie die Verbindung vom Ausgang von herColor Manager zum Eingang von Shape Manager. Legen Sie die Beschreibung für den Knoten fest.

Ihr Bildschirm sollte wie folgt aussehen:

Jetzt fügen Sie den letzten Knoten in unserem Modell hinzu, und das ist das Streudiagramm.

Streudiagramm hinzufügen

Lokalisieren Scatter PlotKnoten im Repository und fügen Sie es dem Arbeitsbereich hinzu. Verbinden Sie den Ausgang vonShape Manager zum Eingang von Scatter Plot. Übernehmen Sie die Standardeinstellungen für die Konfiguration. Stellen Sie die Beschreibung ein.

Fügen Sie abschließend den kürzlich hinzugefügten drei Knoten eine Gruppenanmerkung hinzu

Anmerkung: Visualisierung

Positionieren Sie die Knoten wie gewünscht neu. Ihr Bildschirm sollte zu diesem Zeitpunkt wie folgt aussehen.

Damit ist die Aufgabe des Modellbaus abgeschlossen.

Führen Sie die folgenden Menüoptionen aus, um das Modell zu testen: NodeExecute All

Wenn alles richtig läuft, wird das Statussignal am unteren Rand jedes Knotens grün. Wenn nicht, müssen Sie die nachschlagenConsole Zeigen Sie die Fehler an, beheben Sie sie und führen Sie den Workflow erneut aus.

Jetzt können Sie die vorhergesagte Ausgabe des Modells visualisieren. Klicken Sie dazu mit der rechten Maustaste aufScatter Plot Knoten und wählen Sie die folgenden Menüoptionen: Interactive View: Scatter Plot

Dies wird im folgenden Screenshot gezeigt -

Sie würden das Streudiagramm auf dem Bildschirm sehen, wie hier gezeigt -

Sie können verschiedene Visualisierungen durchlaufen, indem Sie die x- und y-Achse ändern. Klicken Sie dazu auf das Einstellungsmenü in der oberen rechten Ecke des Streudiagramms. Ein Popup-Menü wird angezeigt (siehe Abbildung unten).

Auf diesem Bildschirm können Sie die verschiedenen Parameter für das Diagramm festlegen, um die Daten unter verschiedenen Gesichtspunkten zu visualisieren.

Damit ist unsere Aufgabe des Modellbaus abgeschlossen.

KNIME bietet ein grafisches Tool zum Erstellen von Modellen für maschinelles Lernen. In diesem Tutorial haben Sie gelernt, wie Sie KNIME auf Ihren Computer herunterladen und installieren.

Zusammenfassung

Sie haben die verschiedenen Ansichten in der KNIME-Workbench kennengelernt. KNIME bietet mehrere vordefinierte Workflows für Ihr Lernen. Wir haben einen solchen Workflow verwendet, um die Funktionen von KNIME kennenzulernen. KNIME bietet mehrere vorprogrammierte Knoten zum Lesen von Daten in verschiedenen Formaten, zum Analysieren von Daten mit mehreren ML-Algorithmen und zum endgültigen Visualisieren von Daten auf viele verschiedene Arten. Gegen Ende des Tutorials haben Sie Ihr eigenes Modell von Grund auf neu erstellt. Wir haben den bekannten Iris-Datensatz verwendet, um die Pflanzen mithilfe des k-Means-Algorithmus zu klassifizieren.

Sie können diese Techniken jetzt für Ihre eigenen Analysen verwenden.

Zukünftige Arbeit

Wenn Sie Entwickler sind und die KNIME-Komponenten in Ihren Programmieranwendungen verwenden möchten, sind Sie froh zu wissen, dass KNIME nativ in eine Vielzahl von Programmiersprachen wie Java, R, Python und viele mehr integriert ist.