R: bosque aleatorio

En el enfoque de bosque aleatorio, se crea una gran cantidad de árboles de decisión. Cada observación se incorpora a cada árbol de decisiones. El resultado más común de cada observación se utiliza como resultado final. Se alimenta una nueva observación en todos los árboles y se obtiene una mayoría de votos para cada modelo de clasificación.

Se realiza una estimación de error para los casos que no se utilizaron durante la construcción del árbol. Eso se llama unOOB (Out-of-bag) estimación del error que se menciona como porcentaje.

El paquete R "randomForest" se utiliza para crear bosques aleatorios.

Instalar paquete R

Utilice el siguiente comando en la consola de R para instalar el paquete. También debe instalar los paquetes dependientes, si los hubiera.

install.packages("randomForest)

El paquete "randomForest" tiene la función randomForest() que se utiliza para crear y analizar bosques aleatorios.

Sintaxis

La sintaxis básica para crear un bosque aleatorio en R es:

randomForest(formula, data)

A continuación se muestra la descripción de los parámetros utilizados:

  • formula es una fórmula que describe las variables de predicción y respuesta.

  • data es el nombre del conjunto de datos utilizado.

Los datos de entrada

Usaremos el conjunto de datos incorporado de R llamado readingSkills para crear un árbol de decisiones. Describe la puntuación de las habilidades de lectura de alguien si conocemos las variables "edad", "tamaño de los zapatos", "puntuación" y si la persona es un hablante nativo.

Aquí están los datos de muestra.

# Load the party package. It will automatically load other
# required packages.
library(party)

# Print some records from data set readingSkills.
print(head(readingSkills))

Cuando ejecutamos el código anterior, produce el siguiente resultado y gráfico:

nativeSpeaker   age   shoeSize      score
1           yes     5   24.83189   32.29385
2           yes     6   25.95238   36.63105
3            no    11   30.42170   49.60593
4           yes     7   28.66450   40.28456
5           yes    11   31.88207   55.46085
6           yes    10   30.07843   52.83124
Loading required package: methods
Loading required package: grid
...............................
...............................

Ejemplo

Usaremos el randomForest() función para crear el árbol de decisiones y ver su gráfico.

# Load the party package. It will automatically load other
# required packages.
library(party)
library(randomForest)

# Create the forest.
output.forest <- randomForest(nativeSpeaker ~ age + shoeSize + score, 
           data = readingSkills)

# View the forest results.
print(output.forest) 

# Importance of each predictor.
print(importance(fit,type = 2))

Cuando ejecutamos el código anterior, produce el siguiente resultado:

Call:
 randomForest(formula = nativeSpeaker ~ age + shoeSize + score,     
                 data = readingSkills)
               Type of random forest: classification
                     Number of trees: 500
No. of variables tried at each split: 1

        OOB estimate of  error rate: 1%
Confusion matrix:
    no yes class.error
no  99   1        0.01
yes  1  99        0.01
         MeanDecreaseGini
age              13.95406
shoeSize         18.91006
score            56.73051

Conclusión

A partir del bosque aleatorio que se muestra arriba, podemos concluir que el tamaño de los zapatos y la puntuación son los factores importantes para decidir si alguien es un hablante nativo o no. Además, el modelo tiene solo un 1% de error, lo que significa que podemos predecir con un 99% de precisión.