R: bosque aleatorio
En el enfoque de bosque aleatorio, se crea una gran cantidad de árboles de decisión. Cada observación se incorpora a cada árbol de decisiones. El resultado más común de cada observación se utiliza como resultado final. Se alimenta una nueva observación en todos los árboles y se obtiene una mayoría de votos para cada modelo de clasificación.
Se realiza una estimación de error para los casos que no se utilizaron durante la construcción del árbol. Eso se llama unOOB (Out-of-bag) estimación del error que se menciona como porcentaje.
El paquete R "randomForest" se utiliza para crear bosques aleatorios.
Instalar paquete R
Utilice el siguiente comando en la consola de R para instalar el paquete. También debe instalar los paquetes dependientes, si los hubiera.
install.packages("randomForest)
El paquete "randomForest" tiene la función randomForest() que se utiliza para crear y analizar bosques aleatorios.
Sintaxis
La sintaxis básica para crear un bosque aleatorio en R es:
randomForest(formula, data)
A continuación se muestra la descripción de los parámetros utilizados:
formula es una fórmula que describe las variables de predicción y respuesta.
data es el nombre del conjunto de datos utilizado.
Los datos de entrada
Usaremos el conjunto de datos incorporado de R llamado readingSkills para crear un árbol de decisiones. Describe la puntuación de las habilidades de lectura de alguien si conocemos las variables "edad", "tamaño de los zapatos", "puntuación" y si la persona es un hablante nativo.
Aquí están los datos de muestra.
# Load the party package. It will automatically load other
# required packages.
library(party)
# Print some records from data set readingSkills.
print(head(readingSkills))
Cuando ejecutamos el código anterior, produce el siguiente resultado y gráfico:
nativeSpeaker age shoeSize score
1 yes 5 24.83189 32.29385
2 yes 6 25.95238 36.63105
3 no 11 30.42170 49.60593
4 yes 7 28.66450 40.28456
5 yes 11 31.88207 55.46085
6 yes 10 30.07843 52.83124
Loading required package: methods
Loading required package: grid
...............................
...............................
Ejemplo
Usaremos el randomForest() función para crear el árbol de decisiones y ver su gráfico.
# Load the party package. It will automatically load other
# required packages.
library(party)
library(randomForest)
# Create the forest.
output.forest <- randomForest(nativeSpeaker ~ age + shoeSize + score,
data = readingSkills)
# View the forest results.
print(output.forest)
# Importance of each predictor.
print(importance(fit,type = 2))
Cuando ejecutamos el código anterior, produce el siguiente resultado:
Call:
randomForest(formula = nativeSpeaker ~ age + shoeSize + score,
data = readingSkills)
Type of random forest: classification
Number of trees: 500
No. of variables tried at each split: 1
OOB estimate of error rate: 1%
Confusion matrix:
no yes class.error
no 99 1 0.01
yes 1 99 0.01
MeanDecreaseGini
age 13.95406
shoeSize 18.91006
score 56.73051
Conclusión
A partir del bosque aleatorio que se muestra arriba, podemos concluir que el tamaño de los zapatos y la puntuación son los factores importantes para decidir si alguien es un hablante nativo o no. Además, el modelo tiene solo un 1% de error, lo que significa que podemos predecir con un 99% de precisión.