R - Factores

Los factores son los objetos de datos que se utilizan para categorizar los datos y almacenarlos como niveles. Pueden almacenar tanto cadenas como enteros. Son útiles en las columnas que tienen un número limitado de valores únicos. Como "Masculino," Femenino "y Verdadero, Falso, etc. Son útiles en el análisis de datos para el modelado estadístico.

Los factores se crean utilizando el factor () función tomando un vector como entrada.

Ejemplo

# Create a vector as input.
data <- c("East","West","East","North","North","East","West","West","West","East","North")

print(data)
print(is.factor(data))

# Apply the factor function.
factor_data <- factor(data)

print(factor_data)
print(is.factor(factor_data))

Cuando ejecutamos el código anterior, produce el siguiente resultado:

[1] "East"  "West"  "East"  "North" "North" "East"  "West"  "West"  "West"  "East" "North"
[1] FALSE
[1] East  West  East  North North East  West  West  West  East  North
Levels: East North West
[1] TRUE

Factores en el marco de datos

Al crear cualquier marco de datos con una columna de datos de texto, R trata la columna de texto como datos categóricos y crea factores en ella.

# Create the vectors for data frame.
height <- c(132,151,162,139,166,147,122)
weight <- c(48,49,66,53,67,52,40)
gender <- c("male","male","female","female","male","female","male")

# Create the data frame.
input_data <- data.frame(height,weight,gender)
print(input_data)

# Test if the gender column is a factor.
print(is.factor(input_data$gender))

# Print the gender column so see the levels.
print(input_data$gender)

Cuando ejecutamos el código anterior, produce el siguiente resultado:

height weight gender
1    132     48   male
2    151     49   male
3    162     66 female
4    139     53 female
5    166     67   male
6    147     52 female
7    122     40   male
[1] TRUE
[1] male   male   female female male   female male  
Levels: female male

Cambiar el orden de los niveles

El orden de los niveles en un factor se puede cambiar aplicando la función de factor nuevamente con un nuevo orden de niveles.

data <- c("East","West","East","North","North","East","West",
   "West","West","East","North")
# Create the factors
factor_data <- factor(data)
print(factor_data)

# Apply the factor function with required order of the level.
new_order_data <- factor(factor_data,levels = c("East","West","North"))
print(new_order_data)

Cuando ejecutamos el código anterior, produce el siguiente resultado:

[1] East  West  East  North North East  West  West  West  East  North
Levels: East North West
 [1] East  West  East  North North East  West  West  West  East  North
Levels: East West North

Generación de niveles de factor

Podemos generar niveles de factores usando el gl()función. Toma dos números enteros como entrada que indica cuántos niveles y cuántas veces cada nivel.

Sintaxis

gl(n, k, labels)

A continuación se muestra la descripción de los parámetros utilizados:

  • n es un número entero que indica el número de niveles.

  • k es un número entero que indica el número de repeticiones.

  • labels es un vector de etiquetas para los niveles de factor resultantes.

Ejemplo

v <- gl(3, 4, labels = c("Tampa", "Seattle","Boston"))
print(v)

Cuando ejecutamos el código anterior, produce el siguiente resultado:

Tampa   Tampa   Tampa   Tampa   Seattle Seattle Seattle Seattle Boston 
[10] Boston  Boston  Boston 
Levels: Tampa Seattle Boston