SAS - wykresy pudełkowe
Wykres pudełkowy to graficzna reprezentacja grup danych liczbowych za pomocą ich kwartyli. Wykresy pudełkowe mogą również mieć linie rozciągające się pionowo z ramek (wąsy) wskazujące na zmienność poza górnym i dolnym kwartylem. Dół i góra prostokąta to zawsze pierwszy i trzeci kwartyl, a pasmo wewnątrz prostokąta to zawsze drugi kwartyl (mediana). W SAS prosty Boxplot jest tworzony za pomocąPROC SGPLOT a panelowy wykres pudełkowy jest tworzony za pomocą PROC SGPANEL.
Należy pamiętać, że w pierwszym przykładzie tworzymy zbiór danych o nazwie CARS1 i używamy tego samego zestawu danych dla wszystkich kolejnych zestawów danych. Ten zestaw danych pozostaje w bibliotece roboczej do końca sesji SAS.
Składnia
Podstawowa składnia tworzenia wykresu pudełkowego w SAS to -
PROC SGPLOT DATA = DATASET;
VBOX VARIABLE / category = VARIABLE;
RUN;
PROC SGPANEL DATA = DATASET;;
PANELBY VARIABLE;
VBOX VARIABLE> / category = VARIABLE;
RUN;
Poniżej znajduje się opis użytych parametrów -
DATASET - to nazwa używanego zbioru danych.
VARIABLE - to wartość używana do wykreślania wykresu pudełkowego.
Prosty wykres pudełkowy
W prostym wykresie Boxplot wybieramy jedną zmienną ze zbioru danych, a drugą w celu utworzenia kategorii. Wartości pierwszej zmiennej są podzielone na taką liczbę grup, jak liczba odrębnych wartości w drugiej zmiennej.
Przykład
W poniższym przykładzie wybieramy zmienną moc jako pierwszą zmienną i wpisujemy jako zmienną kategorii. Otrzymujemy więc wykresy pudełkowe dla rozkładu wartości mocy dla każdego typu samochodu.
PROC SQL;
create table CARS1 as
SELECT make, model, type, invoice, horsepower, length, weight
FROM
SASHELP.CARS
WHERE make in ('Audi','BMW')
;
RUN;
PROC SGPLOT DATA = CARS1;
VBOX horsepower
/ category = type;
title 'Horsepower of cars by types';
RUN;
Kiedy wykonujemy powyższy kod, otrzymujemy następujący wynik -
Boxplot w panelach pionowych
Możemy podzielić Boxplots zmiennej na wiele pionowych paneli (kolumn). Każdy panel zawiera wykresy pudełkowe dla wszystkich zmiennych kategorialnych. Ale wykresy pudełkowe są dalej grupowane przy użyciu innej trzeciej zmiennej, która dzieli wykres na wiele paneli.
Przykład
W poniższym przykładzie umieściliśmy wykres za pomocą zmiennej „make”. Ponieważ istnieją dwie różne wartości parametru „make”, otrzymujemy dwa panele pionowe.
PROC SGPANEL DATA = CARS1;
PANELBY MAKE;
VBOX horsepower / category = type;
title 'Horsepower of cars by types';
RUN;
Kiedy wykonujemy powyższy kod, otrzymujemy następujący wynik -
Boxplot w poziomych panelach
Możemy podzielić Boxplots zmiennej na wiele poziomych paneli (rzędów). Każdy panel zawiera wykresy pudełkowe dla wszystkich zmiennych kategorialnych. Ale wykresy pudełkowe są dalej grupowane przy użyciu innej trzeciej zmiennej, która dzieli wykres na wiele paneli. W poniższym przykładzie umieściliśmy wykres za pomocą zmiennej „make”. Ponieważ istnieją dwie różne wartości parametru „make”, otrzymujemy dwa poziome panele.
PROC SGPANEL DATA = CARS1;
PANELBY MAKE / columns = 1 novarname;
VBOX horsepower / category = type;
title 'Horsepower of cars by types';
RUN;
Kiedy wykonujemy powyższy kod, otrzymujemy następujący wynik -