R - Albero decisionale

L'albero decisionale è un grafico che rappresenta le scelte ei loro risultati sotto forma di albero. I nodi nel grafico rappresentano un evento o una scelta e i bordi del grafico rappresentano le regole o le condizioni di decisione. Viene utilizzato principalmente nelle applicazioni di Machine Learning e Data Mining che utilizzano R.

Esempi di utilizzo del tress decisionale sono: prevedere un'e-mail come spam o non spam, prevedere un tumore canceroso o prevedere un prestito come rischio di credito buono o cattivo in base ai fattori di ciascuno di questi. In genere, viene creato un modello con dati osservati chiamati anche dati di addestramento. Quindi una serie di dati di convalida viene utilizzata per verificare e migliorare il modello. R ha pacchetti che vengono utilizzati per creare e visualizzare alberi decisionali. Per il nuovo set di variabili predittive, utilizziamo questo modello per arrivare a una decisione sulla categoria (sì / no, spam / non spam) dei dati.

Il pacchetto R. "party" viene utilizzato per creare alberi decisionali.

Installa il pacchetto R.

Utilizzare il comando seguente nella console R per installare il pacchetto. È inoltre necessario installare i pacchetti dipendenti, se presenti.

install.packages("party")

Il pacchetto "party" ha la funzione ctree() che viene utilizzato per creare e analizzare l'albero decisionale.

Sintassi

La sintassi di base per creare un albero decisionale in R è:

ctree(formula, data)

Di seguito la descrizione dei parametri utilizzati:

  • formula è una formula che descrive il predittore e le variabili di risposta.

  • data è il nome del set di dati utilizzato.

Dati in ingresso

Useremo il set di dati integrato R denominato readingSkillsper creare un albero decisionale. Descrive il punteggio delle capacità di lettura di qualcuno se conosciamo le variabili "età", "taglia", "punteggio" e se la persona è madrelingua o meno.

Ecco i dati di esempio.

# Load the party package. It will automatically load other
# dependent packages.
library(party)

# Print some records from data set readingSkills.
print(head(readingSkills))

Quando eseguiamo il codice sopra, produce il seguente risultato e grafico:

nativeSpeaker   age   shoeSize      score
1           yes     5   24.83189   32.29385
2           yes     6   25.95238   36.63105
3            no    11   30.42170   49.60593
4           yes     7   28.66450   40.28456
5           yes    11   31.88207   55.46085
6           yes    10   30.07843   52.83124
Loading required package: methods
Loading required package: grid
...............................
...............................

Esempio

Useremo il file ctree() funzione per creare l'albero decisionale e vederne il grafico.

# Load the party package. It will automatically load other
# dependent packages.
library(party)

# Create the input data frame.
input.dat <- readingSkills[c(1:105),]

# Give the chart file a name.
png(file = "decision_tree.png")

# Create the tree.
  output.tree <- ctree(
  nativeSpeaker ~ age + shoeSize + score, 
  data = input.dat)

# Plot the tree.
plot(output.tree)

# Save the file.
dev.off()

Quando eseguiamo il codice sopra, produce il seguente risultato:

null device 
          1 
Loading required package: methods
Loading required package: grid
Loading required package: mvtnorm
Loading required package: modeltools
Loading required package: stats4
Loading required package: strucchange
Loading required package: zoo

Attaching package: ‘zoo’

The following objects are masked from ‘package:base’:

   as.Date, as.Date.numeric

Loading required package: sandwich

Conclusione

Dall'albero decisionale mostrato sopra possiamo concludere che chiunque abbia un punteggio di readingSkills inferiore a 38,3 e l'età superiore a 6 non è un madrelingua.