Weka - Dateiformate

WEKA unterstützt eine Vielzahl von Dateiformaten für die Daten. Hier ist die vollständige Liste -

  • arff
  • arff.gz
  • bsi
  • csv
  • dat
  • data
  • json
  • json.gz
  • libsvm
  • m
  • names
  • xrff
  • xrff.gz

Die unterstützten Dateitypen werden im Dropdown-Listenfeld am unteren Bildschirmrand aufgelistet. Dies wird im folgenden Screenshot gezeigt.

Wie Sie sehen würden, unterstützt es verschiedene Formate, einschließlich CSV und JSON. Der Standarddateityp ist Arff.

Arff-Format

Ein Arff Datei enthält zwei Abschnitte - Header und Daten.

  • Der Header beschreibt die Attributtypen.
  • Der Datenabschnitt enthält eine durch Kommas getrennte Liste von Daten.

Als Beispiel für das Arff-Format dient das Weather Die aus den WEKA-Beispieldatenbanken geladene Datendatei wird unten angezeigt -

Aus dem Screenshot können Sie die folgenden Punkte ableiten:

  • Das @ relation-Tag definiert den Namen der Datenbank.

  • Das @ attribute-Tag definiert die Attribute.

  • Das @ data-Tag startet die Liste der Datenzeilen, die jeweils die durch Kommas getrennten Felder enthalten.

  • Die Attribute können Nennwerte annehmen, wie im Fall des hier gezeigten Ausblicks -

@attribute outlook (sunny, overcast, rainy)
  • Die Attribute können wie in diesem Fall reale Werte annehmen -

@attribute temperature real
  • Sie können auch eine Ziel- oder Klassenvariable namens play festlegen, wie hier gezeigt -

@attribute play (yes, no)
  • Das Ziel nimmt zwei Nennwerte Ja oder Nein an.

Andere Formate

Der Explorer kann die Daten in einem der zuvor genannten Formate laden. Da arff das bevorzugte Format in WEKA ist, können Sie die Daten aus einem beliebigen Format laden und zur späteren Verwendung im arff-Format speichern. Speichern Sie die Daten nach der Vorverarbeitung zur weiteren Analyse im Arff-Format.

Nachdem Sie gelernt haben, wie Daten in WEKA geladen werden, erfahren Sie im nächsten Kapitel, wie Sie die Daten vorverarbeiten.