SAS - Lô phân tán

Biểu đồ phân tán là một loại biểu đồ sử dụng các giá trị từ hai biến được vẽ trong mặt phẳng Descartes. Nó thường được sử dụng để tìm ra mối quan hệ giữa hai biến. Trong SAS, chúng tôi sử dụngPROC SGSCATTER để tạo biểu đồ phân tán.

Xin lưu ý rằng chúng tôi tạo tập dữ liệu có tên CARS1 trong ví dụ đầu tiên và sử dụng cùng một tập dữ liệu cho tất cả các tập dữ liệu tiếp theo. Tập dữ liệu này vẫn còn trong thư viện công việc cho đến khi kết thúc phiên SAS.

Cú pháp

Cú pháp cơ bản để tạo biểu đồ phân tán trong SAS là:

PROC sgscatter  DATA = DATASET;
   PLOT VARIABLE_1 * VARIABLE_2
   / datalabel = VARIABLE group = VARIABLE;
RUN;

Sau đây là mô tả các tham số được sử dụng:

  • DATASET là tên của tập dữ liệu.

  • VARIABLE là biến được sử dụng từ tập dữ liệu.

Scatterplot đơn giản

Trong một biểu đồ phân tán đơn giản, chúng tôi chọn hai biến tạo thành tập dữ liệu và nhóm chúng lại với một biến thứ ba. Chúng tôi cũng có thể gắn nhãn dữ liệu. Kết quả cho thấy hai biến phân tán như thế nào trongCartesian plane.

Thí dụ

PROC SQL;
create table CARS1 as
SELECT make, model, type, invoice, horsepower, length, weight
FROM 
SASHELP.CARS
WHERE make in ('Audi','BMW')
;
RUN;

TITLE 'Scatterplot - Two Variables';
PROC sgscatter  DATA = CARS1;
   PLOT horsepower*Invoice 
   / datalabel = make group = type grid;
   title 'Horsepower vs. Invoice for car makers by types';
RUN;

Khi chúng tôi thực thi đoạn mã trên, chúng tôi nhận được kết quả sau:

Scatterplot với dự đoán

chúng ta có thể sử dụng một tham số ước lượng để dự đoán độ tương quan giữa các giá trị bằng cách vẽ một hình elip xung quanh các giá trị. Chúng tôi sử dụng các tùy chọn bổ sung trong quy trình để vẽ hình elip như hình dưới đây.

Thí dụ

proc sgscatter data = cars1; 
compare y = Invoice  x = (horsepower length)  
         / group = type  ellipse =(alpha = 0.05 type = predicted); 
title
'Average Invoice vs. horsepower for cars by length'; 
title2
'-- with 95% prediction ellipse --'
; 
format
Invoice dollar6.0;
run;

Khi chúng tôi thực thi đoạn mã trên, chúng tôi nhận được kết quả sau:

Ma trận phân tán

Chúng ta cũng có thể có biểu đồ phân tán liên quan đến nhiều hơn hai biến bằng cách nhóm chúng thành từng cặp. Trong ví dụ dưới đây, chúng tôi xem xét ba biến và vẽ một ma trận biểu đồ phân tán. Chúng tôi nhận được 3 cặp ma trận kết quả.

Thí dụ

PROC sgscatter  DATA = CARS1;
   matrix horsepower invoice length
   / group = type;

   title 'Horsepower vs. Invoice vs. Length for car makers by types';
RUN;

Khi chúng tôi thực thi đoạn mã trên, chúng tôi nhận được kết quả sau: