Weka: pre-elaborazione dei dati

I dati raccolti dal campo contengono molte cose indesiderate che portano a un'analisi sbagliata. Ad esempio, i dati possono contenere campi nulli, possono contenere colonne irrilevanti per l'analisi corrente e così via. Pertanto, i dati devono essere preelaborati per soddisfare i requisiti del tipo di analisi che stai cercando. Questa operazione viene eseguita nel modulo di pre-elaborazione.

Per dimostrare le funzionalità disponibili nella preelaborazione, utilizzeremo il Weather database fornito durante l'installazione.

Usando il Open file ... opzione sotto Preprocess selezionare il tag weather-nominal.arff file.

Quando apri il file, lo schermo appare come mostrato qui -

Questa schermata ci dice molte cose sui dati caricati, che sono discussi ulteriormente in questo capitolo.

Comprensione dei dati

Diamo prima un'occhiata all'evidenziato Current relationfinestra secondaria. Mostra il nome del database attualmente caricato. Puoi dedurre due punti da questa finestra secondaria:

Ci sono 14 istanze: il numero di righe nella tabella.
La tabella contiene 5 attributi: i campi, discussi nelle sezioni successive.

Sul lato sinistro, notare il Attributes finestra secondaria che mostra i vari campi del database.

Il weatheril database contiene cinque campi: prospettiva, temperatura, umidità, vento e gioco. Quando si seleziona un attributo da questo elenco facendo clic su di esso, ulteriori dettagli sull'attributo stesso vengono visualizzati sul lato destro.

Selezioniamo prima l'attributo della temperatura. Quando fai clic su di esso, vedrai la seguente schermata:

Nel Selected Attribute sottofinestra, puoi osservare quanto segue:

Vengono visualizzati il nome e il tipo di attributo.
Il tipo per temperature l'attributo è Nominal.
Il numero di Missing valori è zero.
Esistono tre valori distinti senza valore univoco.
La tabella sotto queste informazioni mostra i valori nominali per questo campo come caldo, mite e freddo.
Mostra anche il conteggio e il peso in termini di percentuale per ogni valore nominale.

Nella parte inferiore della finestra, vedi la rappresentazione visiva del file class valori.

Se fai clic sul file Visualize All pulsante, sarai in grado di vedere tutte le funzionalità in una singola finestra come mostrato qui -

Rimozione di attributi

Molte volte, i dati che si desidera utilizzare per la creazione di modelli vengono forniti con molti campi irrilevanti. Ad esempio, il database dei clienti può contenere il suo numero di cellulare che è rilevante per l'analisi della sua solvibilità.

Per rimuovere uno o più attributi selezionarli e fare clic su Remove pulsante in basso.

Gli attributi selezionati verranno rimossi dal database. Dopo aver preelaborato completamente i dati, è possibile salvarli per la creazione del modello.

Successivamente, imparerai a preelaborare i dati applicando filtri su questi dati.

Applicazione di filtri

Alcune delle tecniche di apprendimento automatico come il mining di regole di associazione richiedono dati categoriali. Per illustrare l'uso dei filtri, useremoweather-numeric.arff database che ne contiene due numeric attributi - temperature e humidity.

Li convertiremo in nominalapplicando un filtro ai nostri dati grezzi. Clicca sulChoose pulsante in Filter sottofinestra e selezionare il seguente filtro:

weka→filters→supervised→attribute→Discretize

Clicca sul Apply ed esaminare il temperature e / o humidityattributo. Noterai che questi sono cambiati da tipi numerici a nominali.

Esaminiamo ora un altro filtro. Supponi di voler selezionare gli attributi migliori per decidere il fileplay. Seleziona e applica il seguente filtro:

weka→filters→supervised→attribute→AttributeSelection

Noterai che rimuove gli attributi di temperatura e umidità dal database.

Dopo essere soddisfatto della preelaborazione dei dati, salvare i dati facendo clic su Save... pulsante. Utilizzerai questo file salvato per la creazione del modello.

Nel prossimo capitolo esploreremo la costruzione del modello utilizzando diversi algoritmi ML predefiniti.