ggplot2 - графики разброса и графики джиттера
Точечные графики похожи на линейные графики, которые обычно используются для построения графиков. Диаграммы разброса показывают, насколько одна переменная связана с другой. Связь между переменными называется корреляцией, которая обычно используется в статистических методах. Мы будем использовать тот же набор данных под названием «Ирис», который включает множество вариаций между каждой переменной. Это знаменитый набор данных, который дает измерения в сантиметрах переменных длины и ширины чашелистиков, а также длины и ширины лепестков для 50 цветов каждого из 3 видов ириса. Виды называются Iris setosa, versicolor и virginica.
Создание базовой диаграммы рассеяния
Следующие шаги используются для создания диаграмм рассеяния с помощью пакета «ggplot2»:
Для создания базовой диаграммы рассеяния выполняется следующая команда -
> # Basic Scatter Plot
> ggplot(iris, aes(Sepal.Length, Petal.Length)) +
+ geom_point()
Добавление атрибутов
Мы можем изменить форму точек с помощью свойства, называемого shape в функции geom_point ().
> # Change the shape of points
> ggplot(iris, aes(Sepal.Length, Petal.Length)) +
+ geom_point(shape=1)
Мы можем добавить цвет к точкам, который добавлен в требуемые диаграммы разброса.
> ggplot(iris, aes(Sepal.Length, Petal.Length, colour=Species)) +
+ geom_point(shape=1)
В этом примере мы создали цвета в соответствии с видами, упомянутыми в легендах. На упомянутом участке все три вида однозначно выделяются.
Теперь мы сосредоточимся на установлении взаимосвязи между переменными.
> ggplot(iris, aes(Sepal.Length, Petal.Length, colour=Species)) +
+ geom_point(shape=1) +
+ geom_smooth(method=lm)
geom_smooth Функция помогает шаблону перекрытия и создания шаблона требуемых переменных.
Метод атрибута «lm» указывает линию регрессии, которую необходимо разработать.
> # Add a regression line
> ggplot(iris, aes(Sepal.Length, Petal.Length, colour=Species)) +
+ geom_point(shape=1) +
+ geom_smooth(method=lm)
Мы также можем добавить линию регрессии без затененной доверительной области с указанным ниже синтаксисом -
># Add a regression line but no shaded confidence region
> ggplot(iris, aes(Sepal.Length, Petal.Length, colour=Species)) +
+ geom_point(shape=1) +
+ geom_smooth(method=lm, se=FALSE)
Заштрихованные области представляют вещи, отличные от областей доверия.
Графики джиттера
Графики джиттера включают специальные эффекты, с помощью которых могут быть изображены разбросанные графики. Джиттер - это не что иное, как случайное значение, которое присваивается точкам для их разделения, как указано ниже -
> ggplot(mpg, aes(cyl, hwy)) +
+ geom_point() +
+ geom_jitter(aes(colour = class))