ggplot2 - Phân tán Plots & Jitter Plots
Biểu đồ phân tán tương tự như biểu đồ đường thường được sử dụng để vẽ biểu đồ. Biểu đồ phân tán cho biết mức độ liên quan của một biến với biến khác. Mối quan hệ giữa các biến được gọi là mối tương quan thường được sử dụng trong các phương pháp thống kê. Chúng tôi sẽ sử dụng cùng một tập dữ liệu được gọi là “Iris”, bao gồm rất nhiều biến thể giữa mỗi biến. Đây là tập dữ liệu nổi tiếng cung cấp các phép đo tính bằng cm của các biến chiều dài và chiều rộng của đài hoa với chiều dài và chiều rộng của cánh hoa cho 50 bông hoa từ mỗi trong số 3 loài iris. Các loài này được gọi là Iris setosa, versicolor và virginica.
Tạo lô phân tán cơ bản
Các bước sau được thực hiện để tạo các biểu đồ phân tán với gói “ggplot2” -
Để tạo một biểu đồ phân tán cơ bản, lệnh sau được thực hiện:
> # Basic Scatter Plot
> ggplot(iris, aes(Sepal.Length, Petal.Length)) +
+ geom_point()
Thêm thuộc tính
Chúng ta có thể thay đổi hình dạng của các điểm với một thuộc tính gọi là shape trong hàm geom_point ().
> # Change the shape of points
> ggplot(iris, aes(Sepal.Length, Petal.Length)) +
+ geom_point(shape=1)
Chúng ta có thể thêm màu cho các điểm được thêm vào trong các ô phân tán bắt buộc.
> ggplot(iris, aes(Sepal.Length, Petal.Length, colour=Species)) +
+ geom_point(shape=1)
Trong ví dụ này, chúng tôi đã tạo ra màu sắc theo loài được đề cập trong truyền thuyết. Ba loài được phân biệt duy nhất trong lô đề cập.
Bây giờ chúng ta sẽ tập trung vào việc thiết lập mối quan hệ giữa các biến.
> ggplot(iris, aes(Sepal.Length, Petal.Length, colour=Species)) +
+ geom_point(shape=1) +
+ geom_smooth(method=lm)
geom_smooth hàm hỗ trợ mô hình chồng chéo và tạo ra mô hình của các biến cần thiết.
Phương thức thuộc tính “lm” đề cập đến dòng hồi quy cần được phát triển.
> # Add a regression line
> ggplot(iris, aes(Sepal.Length, Petal.Length, colour=Species)) +
+ geom_point(shape=1) +
+ geom_smooth(method=lm)
Chúng tôi cũng có thể thêm một dòng hồi quy không có vùng tin cậy được tô bóng bằng cú pháp được đề cập bên dưới:
># Add a regression line but no shaded confidence region
> ggplot(iris, aes(Sepal.Length, Petal.Length, colour=Species)) +
+ geom_point(shape=1) +
+ geom_smooth(method=lm, se=FALSE)
Vùng bóng mờ đại diện cho những thứ khác ngoài vùng tin cậy.
Lô đất
Các âm mưu Jitter bao gồm các hiệu ứng đặc biệt mà các ô phân tán có thể được mô tả. Jitter không là gì ngoài một giá trị ngẫu nhiên được gán cho các dấu chấm để phân tách chúng như được đề cập bên dưới -
> ggplot(mpg, aes(cyl, hwy)) +
+ geom_point() +
+ geom_jitter(aes(colour = class))