R - Biểu đồ phân tán

Biểu đồ phân tán cho thấy nhiều điểm được vẽ trong mặt phẳng Descartes. Mỗi điểm đại diện cho các giá trị của hai biến. Một biến được chọn trong trục hoành và một biến khác trong trục tung.

Biểu đồ phân tán đơn giản được tạo bằng cách sử dụng plot() chức năng.

Cú pháp

Cú pháp cơ bản để tạo scatterplot trong R là:

plot(x, y, main, xlab, ylab, xlim, ylim, axes)

Sau đây là mô tả về các tham số được sử dụng:

  • x là tập dữ liệu có giá trị là tọa độ ngang.

  • y là tập dữ liệu có giá trị là tọa độ dọc.

  • main là ô của biểu đồ.

  • xlab là nhãn trong trục hoành.

  • ylab là nhãn trong trục tung.

  • xlim là giới hạn của các giá trị của x được sử dụng để vẽ biểu đồ.

  • ylim là giới hạn của các giá trị của y được sử dụng để vẽ biểu đồ.

  • axes cho biết liệu cả hai trục có nên được vẽ trên biểu đồ hay không.

Thí dụ

Chúng tôi sử dụng tập dữ liệu "mtcars"có sẵn trong môi trường R để tạo biểu đồ phân tán cơ bản. Hãy sử dụng các cột "wt" và "mpg" trong mtcars.

input <- mtcars[,c('wt','mpg')]
print(head(input))

Khi chúng tôi thực thi đoạn mã trên, nó tạo ra kết quả sau:

wt      mpg
Mazda RX4           2.620   21.0
Mazda RX4 Wag       2.875   21.0
Datsun 710          2.320   22.8
Hornet 4 Drive      3.215   21.4
Hornet Sportabout   3.440   18.7
Valiant             3.460   18.1

Tạo Scatterplot

Kịch bản dưới đây sẽ tạo ra một biểu đồ phân tán cho mối quan hệ giữa trọng lượng (trọng lượng) và mpg (dặm mỗi gallon).

# Get the input values.
input <- mtcars[,c('wt','mpg')]

# Give the chart file a name.
png(file = "scatterplot.png")

# Plot the chart for cars with weight between 2.5 to 5 and mileage between 15 and 30.
plot(x = input$wt,y = input$mpg,
   xlab = "Weight",
   ylab = "Milage",
   xlim = c(2.5,5),
   ylim = c(15,30),		 
   main = "Weight vs Milage"
)
	 
# Save the file.
dev.off()

Khi chúng tôi thực thi đoạn mã trên, nó tạo ra kết quả sau:

Ma trận Scatterplot

Khi chúng ta có nhiều hơn hai biến và chúng ta muốn tìm mối tương quan giữa một biến so với những biến còn lại, chúng ta sử dụng ma trận scatterplot. Chúng tôi sử dụngpairs() hàm tạo ma trận biểu đồ phân tán.

Cú pháp

Cú pháp cơ bản để tạo ma trận scatterplot trong R là:

pairs(formula, data)

Sau đây là mô tả về các tham số được sử dụng:

  • formula đại diện cho một loạt các biến được sử dụng theo cặp.

  • data đại diện cho tập dữ liệu mà từ đó các biến sẽ được lấy.

Thí dụ

Mỗi biến được ghép nối với mỗi biến còn lại. Biểu đồ phân tán được vẽ cho mỗi cặp.

# Give the chart file a name.
png(file = "scatterplot_matrices.png")

# Plot the matrices between 4 variables giving 12 plots.

# One variable with 3 others and total 4 variables.

pairs(~wt+mpg+disp+cyl,data = mtcars,
   main = "Scatterplot Matrix")

# Save the file.
dev.off()

Khi đoạn mã trên được thực thi, chúng ta nhận được kết quả sau.