SAS - Box Plots

Um Boxplot é a representação gráfica de grupos de dados numéricos por meio de seus quartis. Os gráficos de caixa também podem ter linhas que se estendem verticalmente a partir das caixas (bigodes), indicando variabilidade fora dos quartis superior e inferior. A parte inferior e superior da caixa são sempre o primeiro e o terceiro quartis, e a faixa dentro da caixa é sempre o segundo quartil (a mediana). No SAS, um Boxplot simples é criado usandoPROC SGPLOT e boxplot com painéis é criado usando PROC SGPANEL.

Observe que criamos o conjunto de dados denominado CARS1 no primeiro exemplo e usamos o mesmo conjunto de dados para todos os conjuntos de dados subsequentes. Este conjunto de dados permanece na biblioteca de trabalho até o final da sessão SAS.

Sintaxe

A sintaxe básica para criar um boxplot no SAS é -

PROC SGPLOT  DATA = DATASET;
   VBOX VARIABLE / category = VARIABLE;
RUN; 

PROC SGPANEL  DATA = DATASET;;
PANELBY VARIABLE;
   VBOX VARIABLE> / category = VARIABLE;
RUN;

A seguir está a descrição dos parâmetros usados ​​-

  • DATASET - é o nome do conjunto de dados usado.

  • VARIABLE - é o valor usado para plotar o Boxplot.

Boxplot simples

Em um Boxplot simples, escolhemos uma variável do conjunto de dados e outra para formar uma categoria. Os valores da primeira variável são categorizados em tantos grupos quanto o número de valores distintos na segunda variável.

Exemplo

No exemplo abaixo, escolhemos a variável de potência como a primeira variável e o tipo como a variável de categoria. Assim, obtemos boxplots para a distribuição dos valores de potência para cada tipo de carro.

PROC SQL;
create table CARS1 as
SELECT make, model, type, invoice, horsepower, length, weight
   FROM 
   SASHELP.CARS
   WHERE make in ('Audi','BMW')
;
RUN;

PROC SGPLOT  DATA = CARS1;
   VBOX horsepower 
   / category = type;

   title 'Horsepower of cars by types';
RUN;

Quando executamos o código acima, obtemos a seguinte saída -

Boxplot em painéis verticais

Podemos dividir os Boxplots de uma variável em muitos painéis verticais (colunas). Cada painel contém os boxplots para todas as variáveis ​​categóricas. Mas os boxplots são agrupados usando outra terceira variável que divide o gráfico em vários painéis.

Exemplo

No exemplo abaixo, colocamos o gráfico em painéis usando a variável 'make'. Como existem dois valores distintos de 'make', obtemos dois painéis verticais.

PROC SGPANEL  DATA = CARS1;
PANELBY MAKE;
   VBOX horsepower   / category = type;

   title 'Horsepower of cars by types';
RUN;

Quando executamos o código acima, obtemos a seguinte saída -

Boxplot em painéis horizontais

Podemos dividir os Boxplots de uma variável em muitos painéis horizontais (linhas). Cada painel contém os boxplots para todas as variáveis ​​categóricas. Mas os boxplots são agrupados usando outra terceira variável que divide o gráfico em vários painéis. No exemplo abaixo, colocamos o gráfico em painéis usando a variável 'make'. Como existem dois valores distintos de 'make', obtemos dois painéis horizontais.

PROC SGPANEL  DATA = CARS1;
PANELBY MAKE / columns = 1 novarname;

   VBOX horsepower   / category = type;

   title 'Horsepower of cars by types';
RUN;

Quando executamos o código acima, obtemos a seguinte saída -