R - Forêt aléatoire

Dans l'approche de forêt aléatoire, un grand nombre d'arbres de décision sont créés. Chaque observation est introduite dans chaque arbre de décision. Le résultat le plus courant pour chaque observation est utilisé comme résultat final. Une nouvelle observation est introduite dans tous les arbres et prend un vote majoritaire pour chaque modèle de classification.

Une estimation d'erreur est faite pour les cas qui n'ont pas été utilisés lors de la construction de l'arbre. Cela s'appelle unOOB (Out-of-bag) estimation d'erreur qui est mentionnée en pourcentage.

Le package R "randomForest" est utilisé pour créer des forêts aléatoires.

Installer le package R

Utilisez la commande ci-dessous dans la console R pour installer le package. Vous devez également installer les packages dépendants, le cas échéant.

install.packages("randomForest)

Le package "randomForest" a la fonction randomForest() qui est utilisé pour créer et analyser des forêts aléatoires.

Syntaxe

La syntaxe de base pour créer une forêt aléatoire dans R est -

randomForest(formula, data)

Voici la description des paramètres utilisés -

  • formula est une formule décrivant les variables de prédiction et de réponse.

  • data est le nom de l'ensemble de données utilisé.

Des données d'entrée

Nous utiliserons l'ensemble de données intégré R nommé readingSkills pour créer un arbre de décision. Il décrit le score des compétences en lecture d'une personne si nous connaissons les variables «âge», «taille des chaussures», «score» et si la personne est un locuteur natif.

Voici les exemples de données.

# Load the party package. It will automatically load other
# required packages.
library(party)

# Print some records from data set readingSkills.
print(head(readingSkills))

Lorsque nous exécutons le code ci-dessus, il produit le résultat et le graphique suivants -

nativeSpeaker   age   shoeSize      score
1           yes     5   24.83189   32.29385
2           yes     6   25.95238   36.63105
3            no    11   30.42170   49.60593
4           yes     7   28.66450   40.28456
5           yes    11   31.88207   55.46085
6           yes    10   30.07843   52.83124
Loading required package: methods
Loading required package: grid
...............................
...............................

Exemple

Nous utiliserons le randomForest() fonction pour créer l'arbre de décision et voir son graphique.

# Load the party package. It will automatically load other
# required packages.
library(party)
library(randomForest)

# Create the forest.
output.forest <- randomForest(nativeSpeaker ~ age + shoeSize + score, 
           data = readingSkills)

# View the forest results.
print(output.forest) 

# Importance of each predictor.
print(importance(fit,type = 2))

Lorsque nous exécutons le code ci-dessus, cela produit le résultat suivant -

Call:
 randomForest(formula = nativeSpeaker ~ age + shoeSize + score,     
                 data = readingSkills)
               Type of random forest: classification
                     Number of trees: 500
No. of variables tried at each split: 1

        OOB estimate of  error rate: 1%
Confusion matrix:
    no yes class.error
no  99   1        0.01
yes  1  99        0.01
         MeanDecreaseGini
age              13.95406
shoeSize         18.91006
score            56.73051

Conclusion

À partir de la forêt aléatoire présentée ci-dessus, nous pouvons conclure que la taille des chaussures et le score sont les facteurs importants pour décider si quelqu'un est ou non un locuteur natif. De plus, le modèle n'a qu'une erreur de 1%, ce qui signifie que nous pouvons prédire avec une précision de 99%.