SAS - wykresy pudełkowe

Wykres pudełkowy to graficzna reprezentacja grup danych liczbowych za pomocą ich kwartyli. Wykresy pudełkowe mogą również mieć linie rozciągające się pionowo z ramek (wąsy) wskazujące na zmienność poza górnym i dolnym kwartylem. Dół i góra prostokąta to zawsze pierwszy i trzeci kwartyl, a pasmo wewnątrz prostokąta to zawsze drugi kwartyl (mediana). W SAS prosty Boxplot jest tworzony za pomocąPROC SGPLOT a panelowy wykres pudełkowy jest tworzony za pomocą PROC SGPANEL.

Należy pamiętać, że w pierwszym przykładzie tworzymy zbiór danych o nazwie CARS1 i używamy tego samego zestawu danych dla wszystkich kolejnych zestawów danych. Ten zestaw danych pozostaje w bibliotece roboczej do końca sesji SAS.

Składnia

Podstawowa składnia tworzenia wykresu pudełkowego w SAS to -

PROC SGPLOT  DATA = DATASET;
   VBOX VARIABLE / category = VARIABLE;
RUN; 

PROC SGPANEL  DATA = DATASET;;
PANELBY VARIABLE;
   VBOX VARIABLE> / category = VARIABLE;
RUN;

Poniżej znajduje się opis użytych parametrów -

  • DATASET - to nazwa używanego zbioru danych.

  • VARIABLE - to wartość używana do wykreślania wykresu pudełkowego.

Prosty wykres pudełkowy

W prostym wykresie Boxplot wybieramy jedną zmienną ze zbioru danych, a drugą w celu utworzenia kategorii. Wartości pierwszej zmiennej są podzielone na taką liczbę grup, jak liczba odrębnych wartości w drugiej zmiennej.

Przykład

W poniższym przykładzie wybieramy zmienną moc jako pierwszą zmienną i wpisujemy jako zmienną kategorii. Otrzymujemy więc wykresy pudełkowe dla rozkładu wartości mocy dla każdego typu samochodu.

PROC SQL;
create table CARS1 as
SELECT make, model, type, invoice, horsepower, length, weight
   FROM 
   SASHELP.CARS
   WHERE make in ('Audi','BMW')
;
RUN;

PROC SGPLOT  DATA = CARS1;
   VBOX horsepower 
   / category = type;

   title 'Horsepower of cars by types';
RUN;

Kiedy wykonujemy powyższy kod, otrzymujemy następujący wynik -

Boxplot w panelach pionowych

Możemy podzielić Boxplots zmiennej na wiele pionowych paneli (kolumn). Każdy panel zawiera wykresy pudełkowe dla wszystkich zmiennych kategorialnych. Ale wykresy pudełkowe są dalej grupowane przy użyciu innej trzeciej zmiennej, która dzieli wykres na wiele paneli.

Przykład

W poniższym przykładzie umieściliśmy wykres za pomocą zmiennej „make”. Ponieważ istnieją dwie różne wartości parametru „make”, otrzymujemy dwa panele pionowe.

PROC SGPANEL  DATA = CARS1;
PANELBY MAKE;
   VBOX horsepower   / category = type;

   title 'Horsepower of cars by types';
RUN;

Kiedy wykonujemy powyższy kod, otrzymujemy następujący wynik -

Boxplot w poziomych panelach

Możemy podzielić Boxplots zmiennej na wiele poziomych paneli (rzędów). Każdy panel zawiera wykresy pudełkowe dla wszystkich zmiennych kategorialnych. Ale wykresy pudełkowe są dalej grupowane przy użyciu innej trzeciej zmiennej, która dzieli wykres na wiele paneli. W poniższym przykładzie umieściliśmy wykres za pomocą zmiennej „make”. Ponieważ istnieją dwie różne wartości parametru „make”, otrzymujemy dwa poziome panele.

PROC SGPANEL  DATA = CARS1;
PANELBY MAKE / columns = 1 novarname;

   VBOX horsepower   / category = type;

   title 'Horsepower of cars by types';
RUN;

Kiedy wykonujemy powyższy kod, otrzymujemy następujący wynik -