SAS - Box Plots
Um Boxplot é a representação gráfica de grupos de dados numéricos por meio de seus quartis. Os gráficos de caixa também podem ter linhas que se estendem verticalmente a partir das caixas (bigodes), indicando variabilidade fora dos quartis superior e inferior. A parte inferior e superior da caixa são sempre o primeiro e o terceiro quartis, e a faixa dentro da caixa é sempre o segundo quartil (a mediana). No SAS, um Boxplot simples é criado usandoPROC SGPLOT e boxplot com painéis é criado usando PROC SGPANEL.
Observe que criamos o conjunto de dados denominado CARS1 no primeiro exemplo e usamos o mesmo conjunto de dados para todos os conjuntos de dados subsequentes. Este conjunto de dados permanece na biblioteca de trabalho até o final da sessão SAS.
Sintaxe
A sintaxe básica para criar um boxplot no SAS é -
PROC SGPLOT DATA = DATASET;
VBOX VARIABLE / category = VARIABLE;
RUN;
PROC SGPANEL DATA = DATASET;;
PANELBY VARIABLE;
VBOX VARIABLE> / category = VARIABLE;
RUN;
A seguir está a descrição dos parâmetros usados -
DATASET - é o nome do conjunto de dados usado.
VARIABLE - é o valor usado para plotar o Boxplot.
Boxplot simples
Em um Boxplot simples, escolhemos uma variável do conjunto de dados e outra para formar uma categoria. Os valores da primeira variável são categorizados em tantos grupos quanto o número de valores distintos na segunda variável.
Exemplo
No exemplo abaixo, escolhemos a variável de potência como a primeira variável e o tipo como a variável de categoria. Assim, obtemos boxplots para a distribuição dos valores de potência para cada tipo de carro.
PROC SQL;
create table CARS1 as
SELECT make, model, type, invoice, horsepower, length, weight
FROM
SASHELP.CARS
WHERE make in ('Audi','BMW')
;
RUN;
PROC SGPLOT DATA = CARS1;
VBOX horsepower
/ category = type;
title 'Horsepower of cars by types';
RUN;
Quando executamos o código acima, obtemos a seguinte saída -
Boxplot em painéis verticais
Podemos dividir os Boxplots de uma variável em muitos painéis verticais (colunas). Cada painel contém os boxplots para todas as variáveis categóricas. Mas os boxplots são agrupados usando outra terceira variável que divide o gráfico em vários painéis.
Exemplo
No exemplo abaixo, colocamos o gráfico em painéis usando a variável 'make'. Como existem dois valores distintos de 'make', obtemos dois painéis verticais.
PROC SGPANEL DATA = CARS1;
PANELBY MAKE;
VBOX horsepower / category = type;
title 'Horsepower of cars by types';
RUN;
Quando executamos o código acima, obtemos a seguinte saída -
Boxplot em painéis horizontais
Podemos dividir os Boxplots de uma variável em muitos painéis horizontais (linhas). Cada painel contém os boxplots para todas as variáveis categóricas. Mas os boxplots são agrupados usando outra terceira variável que divide o gráfico em vários painéis. No exemplo abaixo, colocamos o gráfico em painéis usando a variável 'make'. Como existem dois valores distintos de 'make', obtemos dois painéis horizontais.
PROC SGPANEL DATA = CARS1;
PANELBY MAKE / columns = 1 novarname;
VBOX horsepower / category = type;
title 'Horsepower of cars by types';
RUN;
Quando executamos o código acima, obtemos a seguinte saída -