R - Facteurs
Les facteurs sont les objets de données qui sont utilisés pour catégoriser les données et les stocker sous forme de niveaux. Ils peuvent stocker à la fois des chaînes et des entiers. Ils sont utiles dans les colonnes qui ont un nombre limité de valeurs uniques. Comme «Homme», «Femme» et Vrai, Faux, etc. Ils sont utiles dans l'analyse des données pour la modélisation statistique.
Les facteurs sont créés à l'aide du factor () fonction en prenant un vecteur comme entrée.
Exemple
# Create a vector as input.
data <- c("East","West","East","North","North","East","West","West","West","East","North")
print(data)
print(is.factor(data))
# Apply the factor function.
factor_data <- factor(data)
print(factor_data)
print(is.factor(factor_data))
Lorsque nous exécutons le code ci-dessus, cela produit le résultat suivant -
[1] "East" "West" "East" "North" "North" "East" "West" "West" "West" "East" "North"
[1] FALSE
[1] East West East North North East West West West East North
Levels: East North West
[1] TRUE
Facteurs dans la base de données
Lors de la création d'un bloc de données avec une colonne de données texte, R traite la colonne de texte comme des données catégorielles et crée des facteurs dessus.
# Create the vectors for data frame.
height <- c(132,151,162,139,166,147,122)
weight <- c(48,49,66,53,67,52,40)
gender <- c("male","male","female","female","male","female","male")
# Create the data frame.
input_data <- data.frame(height,weight,gender)
print(input_data)
# Test if the gender column is a factor.
print(is.factor(input_data$gender))
# Print the gender column so see the levels.
print(input_data$gender)
Lorsque nous exécutons le code ci-dessus, cela produit le résultat suivant -
height weight gender
1 132 48 male
2 151 49 male
3 162 66 female
4 139 53 female
5 166 67 male
6 147 52 female
7 122 40 male
[1] TRUE
[1] male male female female male female male
Levels: female male
Changer l'ordre des niveaux
L'ordre des niveaux d'un facteur peut être modifié en appliquant à nouveau la fonction de facteur avec un nouvel ordre des niveaux.
data <- c("East","West","East","North","North","East","West",
"West","West","East","North")
# Create the factors
factor_data <- factor(data)
print(factor_data)
# Apply the factor function with required order of the level.
new_order_data <- factor(factor_data,levels = c("East","West","North"))
print(new_order_data)
Lorsque nous exécutons le code ci-dessus, cela produit le résultat suivant -
[1] East West East North North East West West West East North
Levels: East North West
[1] East West East North North East West West West East North
Levels: East West North
Générer des niveaux de facteur
Nous pouvons générer des niveaux de facteur en utilisant le gl()fonction. Il prend deux entiers comme entrée qui indique combien de niveaux et combien de fois chaque niveau.
Syntaxe
gl(n, k, labels)
Voici la description des paramètres utilisés -
n est un entier donnant le nombre de niveaux.
k est un entier donnant le nombre de réplications.
labels est un vecteur d'étiquettes pour les niveaux de facteurs résultants.
Exemple
v <- gl(3, 4, labels = c("Tampa", "Seattle","Boston"))
print(v)
Lorsque nous exécutons le code ci-dessus, cela produit le résultat suivant -
Tampa Tampa Tampa Tampa Seattle Seattle Seattle Seattle Boston
[10] Boston Boston Boston
Levels: Tampa Seattle Boston