Weka - Vorverarbeitung der Daten

Die vom Feld gesammelten Daten enthalten viele unerwünschte Dinge, die zu falschen Analysen führen. Beispielsweise können die Daten Nullfelder enthalten, Spalten, die für die aktuelle Analyse irrelevant sind, usw. Daher müssen die Daten vorverarbeitet werden, um die Anforderungen der Art der Analyse zu erfüllen, die Sie suchen. Dies erfolgt im Vorverarbeitungsmodul.

Um die verfügbaren Funktionen in der Vorverarbeitung zu demonstrieren, verwenden wir die Weather Datenbank, die in der Installation bereitgestellt wird.

Verwendung der Open file ... Option unter der Preprocess Tag wählen Sie die weather-nominal.arff Datei.

Wenn Sie die Datei öffnen, sieht Ihr Bildschirm wie hier gezeigt aus -

Dieser Bildschirm enthält einige Informationen zu den geladenen Daten, die in diesem Kapitel näher erläutert werden.

Daten verstehen

Schauen wir uns zunächst die hervorgehobenen an Current relationUnterfenster. Es zeigt den Namen der aktuell geladenen Datenbank. Sie können zwei Punkte aus diesem Unterfenster ableiten -

Es gibt 14 Instanzen - die Anzahl der Zeilen in der Tabelle.
Die Tabelle enthält 5 Attribute - die Felder, die in den nächsten Abschnitten erläutert werden.

Beachten Sie auf der linken Seite die Attributes Unterfenster, in dem die verschiedenen Felder in der Datenbank angezeigt werden.

Das weatherDie Datenbank enthält fünf Felder - Ausblick, Temperatur, Luftfeuchtigkeit, Wind und Spiel. Wenn Sie ein Attribut aus dieser Liste auswählen, indem Sie darauf klicken, werden auf der rechten Seite weitere Details zum Attribut selbst angezeigt.

Lassen Sie uns zuerst das Temperaturattribut auswählen. Wenn Sie darauf klicken, wird der folgende Bildschirm angezeigt:

In dem Selected Attribute Unterfenster können Sie Folgendes beobachten:

Der Name und der Typ des Attributs werden angezeigt.
Der Typ für die temperature Attribut ist Nominal.
Die Anzahl der Missing Werte ist Null.
Es gibt drei verschiedene Werte ohne eindeutigen Wert.
Die Tabelle unter diesen Informationen zeigt die Nennwerte für dieses Feld als heiß, mild und kalt.
Es zeigt auch die Anzahl und das Gewicht in Prozent für jeden Nennwert.

Am unteren Rand des Fensters sehen Sie die visuelle Darstellung des class Werte.

Wenn Sie auf klicken Visualize All Schaltfläche, können Sie alle Funktionen in einem einzigen Fenster sehen, wie hier gezeigt -

Attribute entfernen

Die Daten, die Sie für die Modellbildung verwenden möchten, enthalten häufig viele irrelevante Felder. Beispielsweise kann die Kundendatenbank seine Handynummer enthalten, die für die Analyse seiner Bonität relevant ist.

Um Attribute zu entfernen, wählen Sie sie aus und klicken Sie auf Remove Schaltfläche unten.

Die ausgewählten Attribute werden aus der Datenbank entfernt. Nachdem Sie die Daten vollständig vorverarbeitet haben, können Sie sie für die Modellbildung speichern.

Als Nächstes lernen Sie, die Daten durch Anwenden von Filtern auf diese Daten vorzuverarbeiten.

Anwenden von Filtern

Einige der maschinellen Lerntechniken wie das Assoziationsregel-Mining erfordern kategoriale Daten. Um die Verwendung von Filtern zu veranschaulichen, werden wir verwendenweather-numeric.arff Datenbank, die zwei enthält numeric Attribute - temperature und humidity.

Wir werden diese in konvertieren nominaldurch Anwenden eines Filters auf unsere Rohdaten. Klick auf dasChoose Schaltfläche in der Filter Unterfenster und wählen Sie den folgenden Filter -

weka→filters→supervised→attribute→Discretize

Klick auf das Apply Knopf und überprüfen Sie die temperature und / oder humidityAttribut. Sie werden feststellen, dass sich diese von numerischen zu nominalen Typen geändert haben.

Schauen wir uns jetzt einen anderen Filter an. Angenommen, Sie möchten die besten Attribute für die Entscheidung auswählenplay. Wählen Sie den folgenden Filter aus und wenden Sie ihn an:

weka→filters→supervised→attribute→AttributeSelection

Sie werden feststellen, dass die Temperatur- und Feuchtigkeitsattribute aus der Datenbank entfernt werden.

Wenn Sie mit der Vorverarbeitung Ihrer Daten zufrieden sind, speichern Sie die Daten, indem Sie auf klicken Save... Taste. Sie verwenden diese gespeicherte Datei für die Modellbildung.

Im nächsten Kapitel werden wir die Modellbildung mit mehreren vordefinierten ML-Algorithmen untersuchen.