R - Factores
Los factores son los objetos de datos que se utilizan para categorizar los datos y almacenarlos como niveles. Pueden almacenar tanto cadenas como enteros. Son útiles en las columnas que tienen un número limitado de valores únicos. Como "Masculino," Femenino "y Verdadero, Falso, etc. Son útiles en el análisis de datos para el modelado estadístico.
Los factores se crean utilizando el factor () función tomando un vector como entrada.
Ejemplo
# Create a vector as input.
data <- c("East","West","East","North","North","East","West","West","West","East","North")
print(data)
print(is.factor(data))
# Apply the factor function.
factor_data <- factor(data)
print(factor_data)
print(is.factor(factor_data))
Cuando ejecutamos el código anterior, produce el siguiente resultado:
[1] "East" "West" "East" "North" "North" "East" "West" "West" "West" "East" "North"
[1] FALSE
[1] East West East North North East West West West East North
Levels: East North West
[1] TRUE
Factores en el marco de datos
Al crear cualquier marco de datos con una columna de datos de texto, R trata la columna de texto como datos categóricos y crea factores en ella.
# Create the vectors for data frame.
height <- c(132,151,162,139,166,147,122)
weight <- c(48,49,66,53,67,52,40)
gender <- c("male","male","female","female","male","female","male")
# Create the data frame.
input_data <- data.frame(height,weight,gender)
print(input_data)
# Test if the gender column is a factor.
print(is.factor(input_data$gender))
# Print the gender column so see the levels.
print(input_data$gender)
Cuando ejecutamos el código anterior, produce el siguiente resultado:
height weight gender
1 132 48 male
2 151 49 male
3 162 66 female
4 139 53 female
5 166 67 male
6 147 52 female
7 122 40 male
[1] TRUE
[1] male male female female male female male
Levels: female male
Cambiar el orden de los niveles
El orden de los niveles en un factor se puede cambiar aplicando la función de factor nuevamente con un nuevo orden de niveles.
data <- c("East","West","East","North","North","East","West",
"West","West","East","North")
# Create the factors
factor_data <- factor(data)
print(factor_data)
# Apply the factor function with required order of the level.
new_order_data <- factor(factor_data,levels = c("East","West","North"))
print(new_order_data)
Cuando ejecutamos el código anterior, produce el siguiente resultado:
[1] East West East North North East West West West East North
Levels: East North West
[1] East West East North North East West West West East North
Levels: East West North
Generación de niveles de factor
Podemos generar niveles de factores usando el gl()función. Toma dos números enteros como entrada que indica cuántos niveles y cuántas veces cada nivel.
Sintaxis
gl(n, k, labels)
A continuación se muestra la descripción de los parámetros utilizados:
n es un número entero que indica el número de niveles.
k es un número entero que indica el número de repeticiones.
labels es un vector de etiquetas para los niveles de factor resultantes.
Ejemplo
v <- gl(3, 4, labels = c("Tampa", "Seattle","Boston"))
print(v)
Cuando ejecutamos el código anterior, produce el siguiente resultado:
Tampa Tampa Tampa Tampa Seattle Seattle Seattle Seattle Boston
[10] Boston Boston Boston
Levels: Tampa Seattle Boston