SAS - Phân tích tương quan

Phân tích tương quan giải quyết mối quan hệ giữa các biến. Hệ số tương quan là thước đo sự liên kết tuyến tính giữa hai biến, giá trị của hệ số tương quan luôn nằm trong khoảng từ -1 đến +1. SAS cung cấp quy trìnhPROC CORR để tìm hệ số tương quan giữa một cặp biến trong tập dữ liệu.

Cú pháp

Cú pháp cơ bản để áp dụng PROC CORR trong SAS là:

PROC CORR DATA = dataset options;
VAR variable;

Sau đây là mô tả về các tham số được sử dụng:

  • Dataset là tên của tập dữ liệu.

  • Options là tùy chọn bổ sung với quy trình như vẽ ma trận, v.v.

  • Variable là tên biến của tập dữ liệu được sử dụng để tìm mối tương quan.

Thí dụ

Có thể thu được hệ số tương quan giữa một cặp biến có sẵn trong tập dữ liệu bằng cách sử dụng tên của chúng trong câu lệnh VAR. Trong ví dụ dưới đây, chúng tôi sử dụng tập dữ liệu CARS1 và nhận được kết quả hiển thị hệ số tương quan giữa mã lực và trọng lượng.

PROC SQL;
create table CARS1 as
SELECT invoice, horsepower, length, weight
   FROM 
   SASHELP.CARS
   WHERE make in ('Audi','BMW')
;
RUN;

proc corr data = cars1 ;
VAR horsepower weight ;
BY make;
run;

Khi đoạn mã trên được thực thi, chúng tôi nhận được kết quả sau:

Tương quan giữa tất cả các biến

Hệ số tương quan giữa tất cả các biến có sẵn trong tập dữ liệu có thể thu được bằng cách đơn giản áp dụng quy trình với tên tập dữ liệu.

Thí dụ

Trong ví dụ dưới đây, chúng tôi sử dụng tập dữ liệu CARS1 và nhận được kết quả hiển thị các hệ số tương quan giữa mỗi cặp biến.

proc corr data = cars1 ;
run;

Khi đoạn mã trên được thực thi, chúng tôi nhận được kết quả sau:

Ma trận tương quan

Chúng ta có thể có được một ma trận biểu đồ phân tán giữa các biến bằng cách chọn tùy chọn để vẽ biểu đồ ma trận trong PROC tuyên bố.

Thí dụ

Trong ví dụ dưới đây, chúng tôi nhận được ma trận giữa mã lực và trọng lượng.

proc corr data = cars1 plots = matrix ;
VAR horsepower weight ;
run;

Khi đoạn mã trên được thực thi, chúng tôi nhận được kết quả sau: