SAS - Tập hợp dữ liệu con

Thiết lập con một tập dữ liệu SAS có nghĩa là trích xuất một phần của tập dữ liệu bằng cách chọn số lượng biến ít hơn hoặc số lượng quan sát ít hơn hoặc cả hai. Trong khi tập hợp con các biến được thực hiện bằng cách sử dụngKEEPDROP tuyên bố, thiết lập phụ của các quan sát được thực hiện bằng cách sử dụng DELETE tuyên bố.

Ngoài ra, dữ liệu kết quả từ hoạt động tập hợp con được giữ trong một tập dữ liệu mới có thể được sử dụng để phân tích thêm. Thiết lập phụ chủ yếu được sử dụng cho mục đích phân tích một phần của tập dữ liệu mà không sử dụng các biến hoặc quan sát có thể không liên quan đến phân tích.

Đặt các biến

Trong phương pháp này, chúng tôi chỉ trích xuất một số biến từ toàn bộ tập dữ liệu.

Cú pháp

Cú pháp cơ bản cho các biến thiết lập phụ trong SAS là:

KEEP var1 var2 ... ;
DROP var1 var2 ... ;

Sau đây là mô tả về các tham số được sử dụng:

  • var1 and var2 là các tên biến từ tập dữ liệu cần được giữ lại hoặc loại bỏ.

Thí dụ

Hãy xem xét tập dữ liệu SAS dưới đây chứa thông tin chi tiết về nhân viên của một tổ chức. Nếu chúng ta chỉ quan tâm đến việc lấy các giá trị Tên và Phòng ban từ tập dữ liệu, thì chúng ta có thể sử dụng mã dưới đây.

DATA Employee; 
   INPUT empid ename $ salary DEPT $ ; 
DATALINES; 
1 Rick 623.3 	IT 		 
2 Dan 515.2 	OPS	
3 Mike 611.5 	IT 	
4 Ryan 729.1    HR 
5 Gary 843.25   FIN 
6 Tusar 578.6   IT 
7 Pranab 632.8  OPS
8 Rasmi 722.5   FIN 
;
RUN;
DATA OnlyDept;
   SET Employee;
   KEEP ename DEPT;
   RUN;
   PROC PRINT DATA = OnlyDept; 
RUN;

Khi đoạn mã trên được thực thi, chúng ta nhận được kết quả sau.

Kết quả tương tự có thể nhận được bằng cách loại bỏ các biến không bắt buộc. Đoạn mã dưới đây minh họa điều này.

DATA Employee; 
   INPUT empid ename $ salary DEPT $ ; 
DATALINES; 
1 Rick 623.3 	IT 		 
2 Dan 515.2 	OPS	
3 Mike 611.5 	IT 	
4 Ryan 729.1    HR 
5 Gary 843.25   FIN 
6 Tusar 578.6   IT 
7 Pranab 632.8  OPS
8 Rasmi 722.5   FIN 
;
RUN;
DATA OnlyDept;
   SET Employee;
   DROP empid salary;
   RUN;
   PROC PRINT DATA = OnlyDept; 
RUN;

Thiết lập các quan sát

Trong phương pháp này, chúng tôi chỉ trích xuất một số quan sát từ toàn bộ tập dữ liệu.

Cú pháp

Chúng tôi sử dụng PROC FREQ để theo dõi các quan sát được chọn cho tập dữ liệu mới.

Cú pháp cho các quan sát thiết lập phụ là:

IF Var Condition THEN DELETE ;

Sau đây là mô tả về các tham số được sử dụng:

  • Var là tên của biến dựa trên giá trị của nó mà các quan sát sẽ bị xóa khi sử dụng điều kiện đã chỉ định.

Thí dụ

Hãy xem xét tập dữ liệu SAS dưới đây chứa thông tin chi tiết về nhân viên của một tổ chức. Nếu chúng tôi chỉ quan tâm đến việc lấy dữ liệu cho những nhân viên có mức lương lớn hơn 700, thì chúng tôi sử dụng mã dưới đây.

DATA Employee; 
   INPUT empid name $ salary DEPT $ ; 
DATALINES; 
1 Rick 623.3	IT 		 
2 Dan 515.2 	OPS	
3 Mike 611.5 	IT 	
4 Ryan 729.1    HR 
5 Gary 843.25   FIN 
6 Tusar 578.6   IT 
7 Pranab 632.8  OPS
8 Rasmi 722.5   FIN 
;
RUN;
DATA OnlyDept;
   SET Employee;
   IF salary < 700 THEN DELETE;
   RUN;
   PROC PRINT DATA = OnlyDept; 
RUN;

Khi đoạn mã trên được thực thi, chúng ta nhận được kết quả sau.