SAS - Subsetting Data Sets
Subconjunto de um conjunto de dados SAS significa extrair uma parte do conjunto de dados, selecionando menos número de variáveis ou menos número de observações ou ambos. Enquanto o subconjunto de variáveis é feito usandoKEEP e DROP declaração, a subconfiguração de observações é feita usando DELETE declaração.
Além disso, os dados resultantes da operação de subconjunto são mantidos em um novo conjunto de dados que pode ser usado para análise posterior. A configuração secundária é usada principalmente com o propósito de analisar uma parte do conjunto de dados sem usar as variáveis ou observações que podem não ser relevantes para a análise.
Subsetting Variables
Neste método, extraímos apenas algumas variáveis de todo o conjunto de dados.
Sintaxe
A sintaxe básica para variáveis de subconfiguração no SAS é -
KEEP var1 var2 ... ;
DROP var1 var2 ... ;
A seguir está a descrição dos parâmetros usados -
var1 and var2 são os nomes das variáveis do conjunto de dados que precisam ser mantidos ou eliminados.
Exemplo
Considere o conjunto de dados SAS abaixo contendo os detalhes dos funcionários de uma organização. Se estivermos interessados apenas em obter os valores de Nome e Departamento do conjunto de dados, podemos usar o código abaixo.
DATA Employee;
INPUT empid ename $ salary DEPT $ ;
DATALINES;
1 Rick 623.3 IT
2 Dan 515.2 OPS
3 Mike 611.5 IT
4 Ryan 729.1 HR
5 Gary 843.25 FIN
6 Tusar 578.6 IT
7 Pranab 632.8 OPS
8 Rasmi 722.5 FIN
;
RUN;
DATA OnlyDept;
SET Employee;
KEEP ename DEPT;
RUN;
PROC PRINT DATA = OnlyDept;
RUN;
Quando o código acima é executado, obtemos a seguinte saída.
O mesmo resultado pode ser obtido eliminando as variáveis que não são necessárias. O código a seguir ilustra isso.
DATA Employee;
INPUT empid ename $ salary DEPT $ ;
DATALINES;
1 Rick 623.3 IT
2 Dan 515.2 OPS
3 Mike 611.5 IT
4 Ryan 729.1 HR
5 Gary 843.25 FIN
6 Tusar 578.6 IT
7 Pranab 632.8 OPS
8 Rasmi 722.5 FIN
;
RUN;
DATA OnlyDept;
SET Employee;
DROP empid salary;
RUN;
PROC PRINT DATA = OnlyDept;
RUN;
Subsetting Observations
Neste método, extraímos apenas algumas observações de todo o conjunto de dados.
Sintaxe
Usamos PROC FREQ, que mantém o controle das observações selecionadas para o novo conjunto de dados.
A sintaxe para observações de subconfiguração é -
IF Var Condition THEN DELETE ;
A seguir está a descrição dos parâmetros usados -
Var é o nome da variável com base em cujo valor as observações serão excluídas usando a condição especificada.
Exemplo
Considere o conjunto de dados SAS abaixo contendo os detalhes dos funcionários de uma organização. Se estivermos interessados apenas em obter os dados de funcionários com salário superior a 700, usamos o código abaixo.
DATA Employee;
INPUT empid name $ salary DEPT $ ;
DATALINES;
1 Rick 623.3 IT
2 Dan 515.2 OPS
3 Mike 611.5 IT
4 Ryan 729.1 HR
5 Gary 843.25 FIN
6 Tusar 578.6 IT
7 Pranab 632.8 OPS
8 Rasmi 722.5 FIN
;
RUN;
DATA OnlyDept;
SET Employee;
IF salary < 700 THEN DELETE;
RUN;
PROC PRINT DATA = OnlyDept;
RUN;
Quando o código acima é executado, obtemos a seguinte saída.