Weka - Formats de fichiers
WEKA prend en charge un grand nombre de formats de fichiers pour les données. Voici la liste complète -
- arff
- arff.gz
- bsi
- csv
- dat
- data
- json
- json.gz
- libsvm
- m
- names
- xrff
- xrff.gz
Les types de fichiers qu'il prend en charge sont répertoriés dans la zone de liste déroulante au bas de l'écran. Ceci est montré dans la capture d'écran ci-dessous.
Comme vous le remarquerez, il prend en charge plusieurs formats, notamment CSV et JSON. Le type de fichier par défaut est Arff.
Format Arff
Un Arff Le fichier contient deux sections - en-tête et données.
- L'en-tête décrit les types d'attributs.
- La section de données contient une liste de données séparées par des virgules.
À titre d'exemple pour le format Arff, le Weather Le fichier de données chargé à partir des exemples de bases de données WEKA est illustré ci-dessous -
À partir de la capture d'écran, vous pouvez déduire les points suivants -
La balise @relation définit le nom de la base de données.
La balise @attribute définit les attributs.
La balise @data démarre la liste des lignes de données contenant chacune les champs séparés par des virgules.
Les attributs peuvent prendre des valeurs nominales comme dans le cas des perspectives présentées ici -
@attribute outlook (sunny, overcast, rainy)
Les attributs peuvent prendre des valeurs réelles comme dans ce cas -
@attribute temperature real
Vous pouvez également définir une cible ou une variable de classe appelée play, comme indiqué ici -
@attribute play (yes, no)
La cible suppose deux valeurs nominales oui ou non.
Autres formats
L'explorateur peut charger les données dans l'un des formats mentionnés précédemment. Comme arff est le format préféré dans WEKA, vous pouvez charger les données de n'importe quel format et les enregistrer au format arff pour une utilisation ultérieure. Après avoir prétraité les données, enregistrez-les simplement au format arff pour une analyse plus approfondie.
Maintenant que vous avez appris à charger des données dans WEKA, dans le chapitre suivant, vous apprendrez comment prétraiter les données.