SAS - Phân tích tương quan
Phân tích tương quan giải quyết mối quan hệ giữa các biến. Hệ số tương quan là thước đo sự liên kết tuyến tính giữa hai biến, giá trị của hệ số tương quan luôn nằm trong khoảng từ -1 đến +1. SAS cung cấp quy trìnhPROC CORR để tìm hệ số tương quan giữa một cặp biến trong tập dữ liệu.
Cú pháp
Cú pháp cơ bản để áp dụng PROC CORR trong SAS là:
PROC CORR DATA = dataset options;
VAR variable;
Sau đây là mô tả về các tham số được sử dụng:
Dataset là tên của tập dữ liệu.
Options là tùy chọn bổ sung với quy trình như vẽ ma trận, v.v.
Variable là tên biến của tập dữ liệu được sử dụng để tìm mối tương quan.
Thí dụ
Có thể thu được hệ số tương quan giữa một cặp biến có sẵn trong tập dữ liệu bằng cách sử dụng tên của chúng trong câu lệnh VAR. Trong ví dụ dưới đây, chúng tôi sử dụng tập dữ liệu CARS1 và nhận được kết quả hiển thị hệ số tương quan giữa mã lực và trọng lượng.
PROC SQL;
create table CARS1 as
SELECT invoice, horsepower, length, weight
FROM
SASHELP.CARS
WHERE make in ('Audi','BMW')
;
RUN;
proc corr data = cars1 ;
VAR horsepower weight ;
BY make;
run;
Khi đoạn mã trên được thực thi, chúng tôi nhận được kết quả sau:
Tương quan giữa tất cả các biến
Hệ số tương quan giữa tất cả các biến có sẵn trong tập dữ liệu có thể thu được bằng cách đơn giản áp dụng quy trình với tên tập dữ liệu.
Thí dụ
Trong ví dụ dưới đây, chúng tôi sử dụng tập dữ liệu CARS1 và nhận được kết quả hiển thị các hệ số tương quan giữa mỗi cặp biến.
proc corr data = cars1 ;
run;
Khi đoạn mã trên được thực thi, chúng tôi nhận được kết quả sau:
Ma trận tương quan
Chúng ta có thể có được một ma trận biểu đồ phân tán giữa các biến bằng cách chọn tùy chọn để vẽ biểu đồ ma trận trong PROC tuyên bố.
Thí dụ
Trong ví dụ dưới đây, chúng tôi nhận được ma trận giữa mã lực và trọng lượng.
proc corr data = cars1 plots = matrix ;
VAR horsepower weight ;
run;
Khi đoạn mã trên được thực thi, chúng tôi nhận được kết quả sau: