Weka - Classificatori

Molte applicazioni di machine learning sono correlate alla classificazione. Ad esempio, potresti classificare un tumore come maligno o benigno. Potresti decidere se giocare un gioco esterno a seconda delle condizioni meteorologiche. Generalmente, questa decisione dipende da diverse caratteristiche / condizioni meteorologiche. Quindi potresti preferire utilizzare un classificatore ad albero per decidere se giocare o meno.

In questo capitolo impareremo come costruire un tale classificatore ad albero sui dati meteorologici per decidere le condizioni di gioco.

Impostazione dei dati di prova

Useremo il file di dati meteo preelaborato della lezione precedente. Apri il file salvato utilizzando l'estensioneOpen file ... opzione sotto Preprocess fare clic sulla scheda Classify scheda e vedrai la seguente schermata:

Prima di conoscere i classificatori disponibili, esaminiamo le opzioni di test. Noterai quattro opzioni di test elencate di seguito:

  • Set di allenamento
  • Set di prova fornito
  • Cross-validation
  • Ripartizione percentuale

A meno che tu non abbia il tuo set di addestramento o un set di test fornito dal cliente, useresti la convalida incrociata o le opzioni di ripartizione percentuale. Con la convalida incrociata, è possibile impostare il numero di pieghe in cui verranno suddivisi e utilizzati interi dati durante ogni iterazione dell'addestramento. Nella suddivisione percentuale, dividerete i dati tra addestramento e test utilizzando la percentuale di suddivisione impostata.

Ora, mantieni l'impostazione predefinita play opzione per la classe di output -

Successivamente, selezionerai il classificatore.

Selezione del classificatore

Fare clic sul pulsante Scegli e selezionare il seguente classificatore:

weka→classifiers>trees>J48

Questo è mostrato nello screenshot qui sotto -

Clicca sul Startpulsante per avviare il processo di classificazione. Dopo un po ', i risultati della classificazione verranno presentati sullo schermo come mostrato qui -

Esaminiamo l'output mostrato sul lato destro dello schermo.

Dice che la dimensione dell'albero è 6. Vedrai molto presto la rappresentazione visiva dell'albero. Nel Riepilogo, si dice che le istanze classificate correttamente come 2 e le istanze classificate in modo errato come 3, Dice anche che l'errore relativo assoluto è del 110%. Mostra anche la matrice di confusione. Entrare nell'analisi di questi risultati va oltre lo scopo di questo tutorial. Tuttavia, puoi facilmente capire da questi risultati che la classificazione non è accettabile e avrai bisogno di più dati per l'analisi, per perfezionare la selezione delle caratteristiche, ricostruire il modello e così via fino a quando non sarai soddisfatto della precisione del modello. In ogni caso, questo è ciò di cui si occupa WEKA. Ti consente di testare rapidamente le tue idee.

Visualizza i risultati

Per vedere la rappresentazione visiva dei risultati, fare clic con il tasto destro sul risultato nel file Result listscatola. Diverse opzioni appariranno sullo schermo come mostrato qui -

Selezionare Visualize tree per ottenere una rappresentazione visiva dell'albero di attraversamento come mostrato nello screenshot qui sotto -

Selezione Visualize classifier errors traccerebbe i risultati della classificazione come mostrato qui -

UN cross rappresenta un'istanza classificata correttamente mentre squaresrappresenta istanze classificate in modo errato. Nell'angolo in basso a sinistra del grafico vedi un filecross che indica se outlook è soleggiato allora playil gioco. Quindi questa è un'istanza classificata correttamente. Per individuare le istanze, puoi introdurre un po 'di jitter facendo scorrere iljitter barra di scorrimento.

La trama attuale è outlook contro play. Questi sono indicati dalle due caselle di riepilogo a discesa nella parte superiore dello schermo.

Ora, prova una selezione diversa in ciascuna di queste caselle e nota come cambiano gli assi X e Y. Lo stesso può essere ottenuto utilizzando le strisce orizzontali sul lato destro della trama. Ogni striscia rappresenta un attributo. Il clic sinistro sulla striscia imposta l'attributo selezionato sull'asse X mentre un clic destro lo imposta sull'asse Y.

Ci sono molti altri grafici forniti per un'analisi più approfondita. Usali con giudizio per mettere a punto il tuo modello. Uno di questi complotti diCost/Benefit analysis è mostrato di seguito come riferimento rapido.

Spiegare l'analisi in questi grafici va oltre lo scopo di questo tutorial. Il lettore è incoraggiato a rispolverare la propria conoscenza dell'analisi degli algoritmi di apprendimento automatico.

Nel prossimo capitolo apprenderemo il prossimo set di algoritmi di apprendimento automatico, ovvero il clustering.