ggplot2 - wykresy punktowe i wykresy fluktuacji
Wykresy punktowe są podobne do wykresów liniowych, które są zwykle używane do kreślenia. Wykresy punktowe pokazują, jak bardzo jedna zmienna jest powiązana z inną. Zależność między zmiennymi nazywana jest korelacją, która jest zwykle używana w metodach statystycznych. Będziemy używać tego samego zbioru danych o nazwie „Iris”, który zawiera wiele różnic między każdą zmienną. Jest to słynny zbiór danych, który podaje pomiary w centymetrach zmiennych długości i szerokości działek oraz długości i szerokości płatków dla 50 kwiatów z każdego z 3 gatunków tęczówki. Gatunki te nazywane są Iris setosa, versicolor i virginica.
Tworzenie podstawowego wykresu punktowego
Poniższe kroki dotyczą tworzenia wykresów punktowych za pomocą pakietu „ggplot2” -
Aby utworzyć podstawowy wykres punktowy, wykonuje się następujące polecenie -
> # Basic Scatter Plot
> ggplot(iris, aes(Sepal.Length, Petal.Length)) +
+ geom_point()
Dodawanie atrybutów
Możemy zmienić kształt punktów za pomocą właściwości o nazwie shape w funkcji geom_point ().
> # Change the shape of points
> ggplot(iris, aes(Sepal.Length, Petal.Length)) +
+ geom_point(shape=1)
Możemy dodać kolor do punktów, które są dodawane na wymaganych wykresach rozrzutu.
> ggplot(iris, aes(Sepal.Length, Petal.Length, colour=Species)) +
+ geom_point(shape=1)
W tym przykładzie stworzyliśmy kolory według gatunków, o których mowa w legendach. Te trzy gatunki wyróżniają się wyjątkowo na wspomnianej powierzchni.
Teraz skupimy się na ustaleniu relacji między zmiennymi.
> ggplot(iris, aes(Sepal.Length, Petal.Length, colour=Species)) +
+ geom_point(shape=1) +
+ geom_smooth(method=lm)
geom_smooth funkcja wspomaga wzór nakładania się i tworzenie wzorca wymaganych zmiennych.
Metoda atrybutów „lm” wspomina o linii regresji, którą należy opracować.
> # Add a regression line
> ggplot(iris, aes(Sepal.Length, Petal.Length, colour=Species)) +
+ geom_point(shape=1) +
+ geom_smooth(method=lm)
Możemy również dodać linię regresji bez zacienionego obszaru ufności z poniższą składnią -
># Add a regression line but no shaded confidence region
> ggplot(iris, aes(Sepal.Length, Petal.Length, colour=Species)) +
+ geom_point(shape=1) +
+ geom_smooth(method=lm, se=FALSE)
Obszary zacienione reprezentują elementy inne niż regiony zaufania.
Wykresy jittera
Wykresy fluktuacji zawierają efekty specjalne, za pomocą których można przedstawić wykresy rozproszone. Jitter to nic innego jak losowa wartość przypisywana kropkom, aby je oddzielić, jak wspomniano poniżej -
> ggplot(mpg, aes(cyl, hwy)) +
+ geom_point() +
+ geom_jitter(aes(colour = class))