R - Albero decisionale
L'albero decisionale è un grafico che rappresenta le scelte ei loro risultati sotto forma di albero. I nodi nel grafico rappresentano un evento o una scelta e i bordi del grafico rappresentano le regole o le condizioni di decisione. Viene utilizzato principalmente nelle applicazioni di Machine Learning e Data Mining che utilizzano R.
Esempi di utilizzo del tress decisionale sono: prevedere un'e-mail come spam o non spam, prevedere un tumore canceroso o prevedere un prestito come rischio di credito buono o cattivo in base ai fattori di ciascuno di questi. In genere, viene creato un modello con dati osservati chiamati anche dati di addestramento. Quindi una serie di dati di convalida viene utilizzata per verificare e migliorare il modello. R ha pacchetti che vengono utilizzati per creare e visualizzare alberi decisionali. Per il nuovo set di variabili predittive, utilizziamo questo modello per arrivare a una decisione sulla categoria (sì / no, spam / non spam) dei dati.
Il pacchetto R. "party" viene utilizzato per creare alberi decisionali.
Installa il pacchetto R.
Utilizzare il comando seguente nella console R per installare il pacchetto. È inoltre necessario installare i pacchetti dipendenti, se presenti.
install.packages("party")
Il pacchetto "party" ha la funzione ctree() che viene utilizzato per creare e analizzare l'albero decisionale.
Sintassi
La sintassi di base per creare un albero decisionale in R è:
ctree(formula, data)
Di seguito la descrizione dei parametri utilizzati:
formula è una formula che descrive il predittore e le variabili di risposta.
data è il nome del set di dati utilizzato.
Dati in ingresso
Useremo il set di dati integrato R denominato readingSkillsper creare un albero decisionale. Descrive il punteggio delle capacità di lettura di qualcuno se conosciamo le variabili "età", "taglia", "punteggio" e se la persona è madrelingua o meno.
Ecco i dati di esempio.
# Load the party package. It will automatically load other
# dependent packages.
library(party)
# Print some records from data set readingSkills.
print(head(readingSkills))
Quando eseguiamo il codice sopra, produce il seguente risultato e grafico:
nativeSpeaker age shoeSize score
1 yes 5 24.83189 32.29385
2 yes 6 25.95238 36.63105
3 no 11 30.42170 49.60593
4 yes 7 28.66450 40.28456
5 yes 11 31.88207 55.46085
6 yes 10 30.07843 52.83124
Loading required package: methods
Loading required package: grid
...............................
...............................
Esempio
Useremo il file ctree() funzione per creare l'albero decisionale e vederne il grafico.
# Load the party package. It will automatically load other
# dependent packages.
library(party)
# Create the input data frame.
input.dat <- readingSkills[c(1:105),]
# Give the chart file a name.
png(file = "decision_tree.png")
# Create the tree.
output.tree <- ctree(
nativeSpeaker ~ age + shoeSize + score,
data = input.dat)
# Plot the tree.
plot(output.tree)
# Save the file.
dev.off()
Quando eseguiamo il codice sopra, produce il seguente risultato:
null device
1
Loading required package: methods
Loading required package: grid
Loading required package: mvtnorm
Loading required package: modeltools
Loading required package: stats4
Loading required package: strucchange
Loading required package: zoo
Attaching package: ‘zoo’
The following objects are masked from ‘package:base’:
as.Date, as.Date.numeric
Loading required package: sandwich
Conclusione
Dall'albero decisionale mostrato sopra possiamo concludere che chiunque abbia un punteggio di readingSkills inferiore a 38,3 e l'età superiore a 6 non è un madrelingua.