R: diagramas de dispersión

Los diagramas de dispersión muestran muchos puntos trazados en el plano cartesiano. Cada punto representa los valores de dos variables. Se elige una variable en el eje horizontal y otra en el eje vertical.

El diagrama de dispersión simple se crea usando el plot() función.

Sintaxis

La sintaxis básica para crear un diagrama de dispersión en R es:

plot(x, y, main, xlab, ylab, xlim, ylim, axes)

A continuación se muestra la descripción de los parámetros utilizados:

  • x es el conjunto de datos cuyos valores son las coordenadas horizontales.

  • y es el conjunto de datos cuyos valores son las coordenadas verticales.

  • main es el mosaico del gráfico.

  • xlab es la etiqueta en el eje horizontal.

  • ylab es la etiqueta en el eje vertical.

  • xlim son los límites de los valores de x utilizados para graficar.

  • ylim son los límites de los valores de y utilizados para graficar.

  • axes indica si se deben dibujar ambos ejes en el gráfico.

Ejemplo

Usamos el conjunto de datos "mtcars"disponible en el entorno R para crear un diagrama de dispersión básico. Usemos las columnas "wt" y "mpg" en mtcars.

input <- mtcars[,c('wt','mpg')]
print(head(input))

Cuando ejecutamos el código anterior, produce el siguiente resultado:

wt      mpg
Mazda RX4           2.620   21.0
Mazda RX4 Wag       2.875   21.0
Datsun 710          2.320   22.8
Hornet 4 Drive      3.215   21.4
Hornet Sportabout   3.440   18.7
Valiant             3.460   18.1

Crear el diagrama de dispersión

El siguiente script creará un gráfico de dispersión para la relación entre peso (peso) y mpg (millas por galón).

# Get the input values.
input <- mtcars[,c('wt','mpg')]

# Give the chart file a name.
png(file = "scatterplot.png")

# Plot the chart for cars with weight between 2.5 to 5 and mileage between 15 and 30.
plot(x = input$wt,y = input$mpg,
   xlab = "Weight",
   ylab = "Milage",
   xlim = c(2.5,5),
   ylim = c(15,30),		 
   main = "Weight vs Milage"
)
	 
# Save the file.
dev.off()

Cuando ejecutamos el código anterior, produce el siguiente resultado:

Matrices de gráficos de dispersión

Cuando tenemos más de dos variables y queremos encontrar la correlación entre una variable y las restantes, usamos la matriz de diagrama de dispersión. Usamospairs() función para crear matrices de diagramas de dispersión.

Sintaxis

La sintaxis básica para crear matrices de diagramas de dispersión en R es:

pairs(formula, data)

A continuación se muestra la descripción de los parámetros utilizados:

  • formula representa la serie de variables utilizadas en pares.

  • data representa el conjunto de datos del que se tomarán las variables.

Ejemplo

Cada variable se empareja con cada una de las variables restantes. Se traza una gráfica de dispersión para cada par.

# Give the chart file a name.
png(file = "scatterplot_matrices.png")

# Plot the matrices between 4 variables giving 12 plots.

# One variable with 3 others and total 4 variables.

pairs(~wt+mpg+disp+cyl,data = mtcars,
   main = "Scatterplot Matrix")

# Save the file.
dev.off()

Cuando se ejecuta el código anterior, obtenemos el siguiente resultado.