R - Faktoren

Faktoren sind die Datenobjekte, mit denen die Daten kategorisiert und als Ebenen gespeichert werden. Sie können sowohl Zeichenfolgen als auch Ganzzahlen speichern. Sie sind nützlich in Spalten mit einer begrenzten Anzahl eindeutiger Werte. Wie "Männlich", "Weiblich" und Richtig, Falsch usw. Sie sind nützlich bei der Datenanalyse für die statistische Modellierung.

Faktoren werden mit dem erstellt factor () Funktion durch Verwendung eines Vektors als Eingabe.

Beispiel

# Create a vector as input.
data <- c("East","West","East","North","North","East","West","West","West","East","North")

print(data)
print(is.factor(data))

# Apply the factor function.
factor_data <- factor(data)

print(factor_data)
print(is.factor(factor_data))

Wenn wir den obigen Code ausführen, wird das folgende Ergebnis erzeugt:

[1] "East"  "West"  "East"  "North" "North" "East"  "West"  "West"  "West"  "East" "North"
[1] FALSE
[1] East  West  East  North North East  West  West  West  East  North
Levels: East North West
[1] TRUE

Faktoren im Datenrahmen

Beim Erstellen eines Datenrahmens mit einer Spalte mit Textdaten behandelt R die Textspalte als kategoriale Daten und erstellt Faktoren darauf.

# Create the vectors for data frame.
height <- c(132,151,162,139,166,147,122)
weight <- c(48,49,66,53,67,52,40)
gender <- c("male","male","female","female","male","female","male")

# Create the data frame.
input_data <- data.frame(height,weight,gender)
print(input_data)

# Test if the gender column is a factor.
print(is.factor(input_data$gender))

# Print the gender column so see the levels.
print(input_data$gender)

Wenn wir den obigen Code ausführen, wird das folgende Ergebnis erzeugt:

height weight gender
1    132     48   male
2    151     49   male
3    162     66 female
4    139     53 female
5    166     67   male
6    147     52 female
7    122     40   male
[1] TRUE
[1] male   male   female female male   female male  
Levels: female male

Ändern der Reihenfolge der Ebenen

Die Reihenfolge der Ebenen in einem Faktor kann geändert werden, indem die Faktorfunktion mit der neuen Reihenfolge der Ebenen erneut angewendet wird.

data <- c("East","West","East","North","North","East","West",
   "West","West","East","North")
# Create the factors
factor_data <- factor(data)
print(factor_data)

# Apply the factor function with required order of the level.
new_order_data <- factor(factor_data,levels = c("East","West","North"))
print(new_order_data)

Wenn wir den obigen Code ausführen, wird das folgende Ergebnis erzeugt:

[1] East  West  East  North North East  West  West  West  East  North
Levels: East North West
 [1] East  West  East  North North East  West  West  West  East  North
Levels: East West North

Faktorstufen generieren

Mit dem können wir Faktorstufen generieren gl()Funktion. Es werden zwei Ganzzahlen als Eingabe verwendet, die angeben, wie viele Ebenen und wie oft jede Ebene vorhanden ist.

Syntax

gl(n, k, labels)

Es folgt die Beschreibung der verwendeten Parameter -

  • n ist eine Ganzzahl, die die Anzahl der Ebenen angibt.

  • k ist eine Ganzzahl, die die Anzahl der Replikationen angibt.

  • labels ist ein Vektor von Markierungen für die resultierenden Faktorstufen.

Beispiel

v <- gl(3, 4, labels = c("Tampa", "Seattle","Boston"))
print(v)

Wenn wir den obigen Code ausführen, wird das folgende Ergebnis erzeugt:

Tampa   Tampa   Tampa   Tampa   Seattle Seattle Seattle Seattle Boston 
[10] Boston  Boston  Boston 
Levels: Tampa Seattle Boston