R - Facteurs

Les facteurs sont les objets de données qui sont utilisés pour catégoriser les données et les stocker sous forme de niveaux. Ils peuvent stocker à la fois des chaînes et des entiers. Ils sont utiles dans les colonnes qui ont un nombre limité de valeurs uniques. Comme «Homme», «Femme» et Vrai, Faux, etc. Ils sont utiles dans l'analyse des données pour la modélisation statistique.

Les facteurs sont créés à l'aide du factor () fonction en prenant un vecteur comme entrée.

Exemple

# Create a vector as input.
data <- c("East","West","East","North","North","East","West","West","West","East","North")

print(data)
print(is.factor(data))

# Apply the factor function.
factor_data <- factor(data)

print(factor_data)
print(is.factor(factor_data))

Lorsque nous exécutons le code ci-dessus, cela produit le résultat suivant -

[1] "East"  "West"  "East"  "North" "North" "East"  "West"  "West"  "West"  "East" "North"
[1] FALSE
[1] East  West  East  North North East  West  West  West  East  North
Levels: East North West
[1] TRUE

Facteurs dans la base de données

Lors de la création d'un bloc de données avec une colonne de données texte, R traite la colonne de texte comme des données catégorielles et crée des facteurs dessus.

# Create the vectors for data frame.
height <- c(132,151,162,139,166,147,122)
weight <- c(48,49,66,53,67,52,40)
gender <- c("male","male","female","female","male","female","male")

# Create the data frame.
input_data <- data.frame(height,weight,gender)
print(input_data)

# Test if the gender column is a factor.
print(is.factor(input_data$gender))

# Print the gender column so see the levels.
print(input_data$gender)

Lorsque nous exécutons le code ci-dessus, cela produit le résultat suivant -

height weight gender
1    132     48   male
2    151     49   male
3    162     66 female
4    139     53 female
5    166     67   male
6    147     52 female
7    122     40   male
[1] TRUE
[1] male   male   female female male   female male  
Levels: female male

Changer l'ordre des niveaux

L'ordre des niveaux d'un facteur peut être modifié en appliquant à nouveau la fonction de facteur avec un nouvel ordre des niveaux.

data <- c("East","West","East","North","North","East","West",
   "West","West","East","North")
# Create the factors
factor_data <- factor(data)
print(factor_data)

# Apply the factor function with required order of the level.
new_order_data <- factor(factor_data,levels = c("East","West","North"))
print(new_order_data)

Lorsque nous exécutons le code ci-dessus, cela produit le résultat suivant -

[1] East  West  East  North North East  West  West  West  East  North
Levels: East North West
 [1] East  West  East  North North East  West  West  West  East  North
Levels: East West North

Générer des niveaux de facteur

Nous pouvons générer des niveaux de facteur en utilisant le gl()fonction. Il prend deux entiers comme entrée qui indique combien de niveaux et combien de fois chaque niveau.

Syntaxe

gl(n, k, labels)

Voici la description des paramètres utilisés -

  • n est un entier donnant le nombre de niveaux.

  • k est un entier donnant le nombre de réplications.

  • labels est un vecteur d'étiquettes pour les niveaux de facteurs résultants.

Exemple

v <- gl(3, 4, labels = c("Tampa", "Seattle","Boston"))
print(v)

Lorsque nous exécutons le code ci-dessus, cela produit le résultat suivant -

Tampa   Tampa   Tampa   Tampa   Seattle Seattle Seattle Seattle Boston 
[10] Boston  Boston  Boston 
Levels: Tampa Seattle Boston