ggplot2 - Gráficos de dispersão e gráficos de jitter
Os gráficos de dispersão são semelhantes aos gráficos de linha geralmente usados para plotagem. Os gráficos de dispersão mostram o quanto uma variável está relacionada a outra. A relação entre as variáveis é chamada de correlação, geralmente usada em métodos estatísticos. Usaremos o mesmo conjunto de dados chamado “Iris” que inclui muitas variações entre cada variável. Este é o famoso conjunto de dados que fornece medidas em centímetros das variáveis comprimento e largura da sépala com comprimento e largura da pétala para 50 flores de cada uma das 3 espécies de íris. As espécies são denominadas Iris setosa, versicolor e virginica.
Criação de gráfico de dispersão básico
As etapas a seguir estão envolvidas para criar gráficos de dispersão com o pacote “ggplot2” -
Para criar um gráfico de dispersão básico, o seguinte comando é executado -
> # Basic Scatter Plot
> ggplot(iris, aes(Sepal.Length, Petal.Length)) +
+ geom_point()
Adicionando atributos
Podemos mudar a forma dos pontos com uma propriedade chamada forma na função geom_point ().
> # Change the shape of points
> ggplot(iris, aes(Sepal.Length, Petal.Length)) +
+ geom_point(shape=1)
Podemos adicionar cor aos pontos que são adicionados nos gráficos de dispersão necessários.
> ggplot(iris, aes(Sepal.Length, Petal.Length, colour=Species)) +
+ geom_point(shape=1)
Neste exemplo, criamos cores de acordo com as espécies que são mencionadas nas lendas. As três espécies são distinguidas de forma única no lote mencionado.
Agora vamos nos concentrar em estabelecer a relação entre as variáveis.
> ggplot(iris, aes(Sepal.Length, Petal.Length, colour=Species)) +
+ geom_point(shape=1) +
+ geom_smooth(method=lm)
geom_smooth A função auxilia no padrão de sobreposição e na criação do padrão de variáveis necessárias.
O método de atributo “lm” menciona a linha de regressão que precisa ser desenvolvida.
> # Add a regression line
> ggplot(iris, aes(Sepal.Length, Petal.Length, colour=Species)) +
+ geom_point(shape=1) +
+ geom_smooth(method=lm)
Também podemos adicionar uma linha de regressão sem região de confiança sombreada com a sintaxe mencionada abaixo -
># Add a regression line but no shaded confidence region
> ggplot(iris, aes(Sepal.Length, Petal.Length, colour=Species)) +
+ geom_point(shape=1) +
+ geom_smooth(method=lm, se=FALSE)
As regiões sombreadas representam coisas diferentes das regiões de confiança.
Gráficos de jitter
Os gráficos de jitter incluem efeitos especiais com os quais gráficos dispersos podem ser representados. Jitter nada mais é do que um valor aleatório que é atribuído a pontos para separá-los conforme mencionado abaixo -
> ggplot(mpg, aes(cyl, hwy)) +
+ geom_point() +
+ geom_jitter(aes(colour = class))