R - Faktoren
Faktoren sind die Datenobjekte, mit denen die Daten kategorisiert und als Ebenen gespeichert werden. Sie können sowohl Zeichenfolgen als auch Ganzzahlen speichern. Sie sind nützlich in Spalten mit einer begrenzten Anzahl eindeutiger Werte. Wie "Männlich", "Weiblich" und Richtig, Falsch usw. Sie sind nützlich bei der Datenanalyse für die statistische Modellierung.
Faktoren werden mit dem erstellt factor () Funktion durch Verwendung eines Vektors als Eingabe.
Beispiel
# Create a vector as input.
data <- c("East","West","East","North","North","East","West","West","West","East","North")
print(data)
print(is.factor(data))
# Apply the factor function.
factor_data <- factor(data)
print(factor_data)
print(is.factor(factor_data))
Wenn wir den obigen Code ausführen, wird das folgende Ergebnis erzeugt:
[1] "East" "West" "East" "North" "North" "East" "West" "West" "West" "East" "North"
[1] FALSE
[1] East West East North North East West West West East North
Levels: East North West
[1] TRUE
Faktoren im Datenrahmen
Beim Erstellen eines Datenrahmens mit einer Spalte mit Textdaten behandelt R die Textspalte als kategoriale Daten und erstellt Faktoren darauf.
# Create the vectors for data frame.
height <- c(132,151,162,139,166,147,122)
weight <- c(48,49,66,53,67,52,40)
gender <- c("male","male","female","female","male","female","male")
# Create the data frame.
input_data <- data.frame(height,weight,gender)
print(input_data)
# Test if the gender column is a factor.
print(is.factor(input_data$gender))
# Print the gender column so see the levels.
print(input_data$gender)
Wenn wir den obigen Code ausführen, wird das folgende Ergebnis erzeugt:
height weight gender
1 132 48 male
2 151 49 male
3 162 66 female
4 139 53 female
5 166 67 male
6 147 52 female
7 122 40 male
[1] TRUE
[1] male male female female male female male
Levels: female male
Ändern der Reihenfolge der Ebenen
Die Reihenfolge der Ebenen in einem Faktor kann geändert werden, indem die Faktorfunktion mit der neuen Reihenfolge der Ebenen erneut angewendet wird.
data <- c("East","West","East","North","North","East","West",
"West","West","East","North")
# Create the factors
factor_data <- factor(data)
print(factor_data)
# Apply the factor function with required order of the level.
new_order_data <- factor(factor_data,levels = c("East","West","North"))
print(new_order_data)
Wenn wir den obigen Code ausführen, wird das folgende Ergebnis erzeugt:
[1] East West East North North East West West West East North
Levels: East North West
[1] East West East North North East West West West East North
Levels: East West North
Faktorstufen generieren
Mit dem können wir Faktorstufen generieren gl()Funktion. Es werden zwei Ganzzahlen als Eingabe verwendet, die angeben, wie viele Ebenen und wie oft jede Ebene vorhanden ist.
Syntax
gl(n, k, labels)
Es folgt die Beschreibung der verwendeten Parameter -
n ist eine Ganzzahl, die die Anzahl der Ebenen angibt.
k ist eine Ganzzahl, die die Anzahl der Replikationen angibt.
labels ist ein Vektor von Markierungen für die resultierenden Faktorstufen.
Beispiel
v <- gl(3, 4, labels = c("Tampa", "Seattle","Boston"))
print(v)
Wenn wir den obigen Code ausführen, wird das folgende Ergebnis erzeugt:
Tampa Tampa Tampa Tampa Seattle Seattle Seattle Seattle Boston
[10] Boston Boston Boston
Levels: Tampa Seattle Boston