R-데이터 재구성
R의 데이터 재구성은 데이터가 행과 열로 구성되는 방식을 변경하는 것입니다. R에서 대부분의 데이터 처리는 입력 데이터를 데이터 프레임으로 사용하여 수행됩니다. 데이터 프레임의 행과 열에서 데이터를 추출하는 것은 쉽지만 데이터 프레임을받은 형식과 다른 형식의 데이터 프레임이 필요한 경우가 있습니다. R에는 데이터 프레임에서 행을 열로 분할, 병합 및 변경하는 많은 기능이 있습니다.
데이터 프레임에서 열과 행 결합
여러 벡터를 결합하여 데이터 프레임을 만들 수 있습니다. cbind()함수. 또한 다음을 사용하여 두 데이터 프레임을 병합 할 수 있습니다.rbind() 함수.
# Create vector objects.
city <- c("Tampa","Seattle","Hartford","Denver")
state <- c("FL","WA","CT","CO")
zipcode <- c(33602,98104,06161,80294)
# Combine above three vectors into one data frame.
addresses <- cbind(city,state,zipcode)
# Print a header.
cat("# # # # The First data frame\n")
# Print the data frame.
print(addresses)
# Create another data frame with similar columns
new.address <- data.frame(
city = c("Lowry","Charlotte"),
state = c("CO","FL"),
zipcode = c("80230","33949"),
stringsAsFactors = FALSE
)
# Print a header.
cat("# # # The Second data frame\n")
# Print the data frame.
print(new.address)
# Combine rows form both the data frames.
all.addresses <- rbind(addresses,new.address)
# Print a header.
cat("# # # The combined data frame\n")
# Print the result.
print(all.addresses)
위 코드를 실행하면 다음과 같은 결과가 생성됩니다.
# # # # The First data frame
city state zipcode
[1,] "Tampa" "FL" "33602"
[2,] "Seattle" "WA" "98104"
[3,] "Hartford" "CT" "6161"
[4,] "Denver" "CO" "80294"
# # # The Second data frame
city state zipcode
1 Lowry CO 80230
2 Charlotte FL 33949
# # # The combined data frame
city state zipcode
1 Tampa FL 33602
2 Seattle WA 98104
3 Hartford CT 6161
4 Denver CO 80294
5 Lowry CO 80230
6 Charlotte FL 33949
데이터 프레임 병합
두 데이터 프레임을 병합 할 수 있습니다. merge()함수. 데이터 프레임은 병합이 발생하는 동일한 열 이름을 가져야합니다.
아래 예에서는 라이브러리 이름 "MASS"에서 사용 가능한 Pima Indian Women의 당뇨병에 대한 데이터 세트를 고려합니다. 혈압 ( "bp")과 체질량 지수 ( "bmi")의 값을 기반으로 두 데이터 세트를 병합합니다. 병합을 위해이 두 열을 선택하면 두 데이터 세트에서이 두 변수의 값이 일치하는 레코드가 함께 결합되어 단일 데이터 프레임을 형성합니다.
library(MASS)
merged.Pima <- merge(x = Pima.te, y = Pima.tr,
by.x = c("bp", "bmi"),
by.y = c("bp", "bmi")
)
print(merged.Pima)
nrow(merged.Pima)
위 코드를 실행하면 다음과 같은 결과가 생성됩니다.
bp bmi npreg.x glu.x skin.x ped.x age.x type.x npreg.y glu.y skin.y ped.y
1 60 33.8 1 117 23 0.466 27 No 2 125 20 0.088
2 64 29.7 2 75 24 0.370 33 No 2 100 23 0.368
3 64 31.2 5 189 33 0.583 29 Yes 3 158 13 0.295
4 64 33.2 4 117 27 0.230 24 No 1 96 27 0.289
5 66 38.1 3 115 39 0.150 28 No 1 114 36 0.289
6 68 38.5 2 100 25 0.324 26 No 7 129 49 0.439
7 70 27.4 1 116 28 0.204 21 No 0 124 20 0.254
8 70 33.1 4 91 32 0.446 22 No 9 123 44 0.374
9 70 35.4 9 124 33 0.282 34 No 6 134 23 0.542
10 72 25.6 1 157 21 0.123 24 No 4 99 17 0.294
11 72 37.7 5 95 33 0.370 27 No 6 103 32 0.324
12 74 25.9 9 134 33 0.460 81 No 8 126 38 0.162
13 74 25.9 1 95 21 0.673 36 No 8 126 38 0.162
14 78 27.6 5 88 30 0.258 37 No 6 125 31 0.565
15 78 27.6 10 122 31 0.512 45 No 6 125 31 0.565
16 78 39.4 2 112 50 0.175 24 No 4 112 40 0.236
17 88 34.5 1 117 24 0.403 40 Yes 4 127 11 0.598
age.y type.y
1 31 No
2 21 No
3 24 No
4 21 No
5 21 No
6 43 Yes
7 36 Yes
8 40 No
9 29 Yes
10 28 No
11 55 No
12 39 No
13 39 No
14 49 Yes
15 49 Yes
16 38 No
17 28 No
[1] 17
용융 및 주조
R 프로그래밍의 가장 흥미로운 측면 중 하나는 원하는 모양을 얻기 위해 여러 단계에서 데이터 모양을 변경하는 것입니다. 이를 수행하는 데 사용되는 함수가 호출됩니다.melt() 과 cast().
"MASS"라는 라이브러리에있는 ships라는 데이터 세트를 고려합니다.
library(MASS)
print(ships)
위 코드를 실행하면 다음과 같은 결과가 생성됩니다.
type year period service incidents
1 A 60 60 127 0
2 A 60 75 63 0
3 A 65 60 1095 3
4 A 65 75 1095 4
5 A 70 60 1512 6
.............
.............
8 A 75 75 2244 11
9 B 60 60 44882 39
10 B 60 75 17176 29
11 B 65 60 28609 58
............
............
17 C 60 60 1179 1
18 C 60 75 552 1
19 C 65 60 781 0
............
............
데이터 녹이기
이제 데이터를 녹여 구성하고 유형 및 연도를 제외한 모든 열을 여러 행으로 변환합니다.
molten.ships <- melt(ships, id = c("type","year"))
print(molten.ships)
위 코드를 실행하면 다음과 같은 결과가 생성됩니다.
type year variable value
1 A 60 period 60
2 A 60 period 75
3 A 65 period 60
4 A 65 period 75
............
............
9 B 60 period 60
10 B 60 period 75
11 B 65 period 60
12 B 65 period 75
13 B 70 period 60
...........
...........
41 A 60 service 127
42 A 60 service 63
43 A 65 service 1095
...........
...........
70 D 70 service 1208
71 D 75 service 0
72 D 75 service 2051
73 E 60 service 45
74 E 60 service 0
75 E 65 service 789
...........
...........
101 C 70 incidents 6
102 C 70 incidents 2
103 C 75 incidents 0
104 C 75 incidents 1
105 D 60 incidents 0
106 D 60 incidents 0
...........
...........
녹은 데이터 캐스팅
용융 된 데이터를 매년 각 선박 유형의 집계가 생성되는 새로운 형식으로 변환 할 수 있습니다. 그것은 사용하여 이루어집니다cast() 함수.
recasted.ship <- cast(molten.ships, type+year~variable,sum)
print(recasted.ship)
위 코드를 실행하면 다음과 같은 결과가 생성됩니다.
type year period service incidents
1 A 60 135 190 0
2 A 65 135 2190 7
3 A 70 135 4865 24
4 A 75 135 2244 11
5 B 60 135 62058 68
6 B 65 135 48979 111
7 B 70 135 20163 56
8 B 75 135 7117 18
9 C 60 135 1731 2
10 C 65 135 1457 1
11 C 70 135 2731 8
12 C 75 135 274 1
13 D 60 135 356 0
14 D 65 135 480 0
15 D 70 135 1557 13
16 D 75 135 2051 4
17 E 60 135 45 0
18 E 65 135 1226 14
19 E 70 135 3318 17
20 E 75 135 542 1