Big Data Analytics - Bagan & Grafik
Pendekatan pertama untuk menganalisis data adalah menganalisisnya secara visual. Tujuan melakukan ini biasanya menemukan hubungan antara variabel dan deskripsi univariat variabel. Kami dapat membagi strategi ini sebagai -
- Analisis univariat
- Analisis multivariasi
Metode Grafis Univariat
Univariateadalah istilah statistik. Dalam praktiknya, ini berarti kami ingin menganalisis variabel secara independen dari data lainnya. Plot yang memungkinkan untuk melakukan ini secara efisien adalah -
Kotak-Plot
Box-Plot biasanya digunakan untuk membandingkan distribusi. Ini adalah cara yang bagus untuk memeriksa secara visual jika ada perbedaan di antara distribusi. Kita bisa melihat apakah ada perbedaan antara harga berlian untuk potongan yang berbeda.
# We will be using the ggplot2 library for plotting
library(ggplot2)
data("diamonds")
# We will be using the diamonds dataset to analyze distributions of numeric variables
head(diamonds)
# carat cut color clarity depth table price x y z
# 1 0.23 Ideal E SI2 61.5 55 326 3.95 3.98 2.43
# 2 0.21 Premium E SI1 59.8 61 326 3.89 3.84 2.31
# 3 0.23 Good E VS1 56.9 65 327 4.05 4.07 2.31
# 4 0.29 Premium I VS2 62.4 58 334 4.20 4.23 2.63
# 5 0.31 Good J SI2 63.3 58 335 4.34 4.35 2.75
# 6 0.24 Very Good J VVS2 62.8 57 336 3.94 3.96 2.48
### Box-Plots
p = ggplot(diamonds, aes(x = cut, y = price, fill = cut)) +
geom_box-plot() +
theme_bw()
print(p)
Dapat kita lihat di plot terdapat perbedaan distribusi harga berlian di berbagai jenis potongan.
Histogram
source('01_box_plots.R')
# We can plot histograms for each level of the cut factor variable using
facet_grid
p = ggplot(diamonds, aes(x = price, fill = cut)) +
geom_histogram() +
facet_grid(cut ~ .) +
theme_bw()
p
# the previous plot doesn’t allow to visuallize correctly the data because of
the differences in scale
# we can turn this off using the scales argument of facet_grid
p = ggplot(diamonds, aes(x = price, fill = cut)) +
geom_histogram() +
facet_grid(cut ~ ., scales = 'free') +
theme_bw()
p
png('02_histogram_diamonds_cut.png')
print(p)
dev.off()
Output dari kode di atas adalah sebagai berikut -
Metode Grafis Multivariasi
Metode grafik multivariat dalam analisis data eksplorasi bertujuan untuk menemukan hubungan antar variabel yang berbeda. Ada dua cara untuk mencapai ini yang umum digunakan: memplot matriks korelasi variabel numerik atau hanya memplot data mentah sebagai matriks plot pencar.
Untuk mendemonstrasikan ini, kami akan menggunakan dataset diamonds. Untuk mengikuti kode, buka skripbda/part2/charts/03_multivariate_analysis.R.
library(ggplot2)
data(diamonds)
# Correlation matrix plots
keep_vars = c('carat', 'depth', 'price', 'table')
df = diamonds[, keep_vars]
# compute the correlation matrix
M_cor = cor(df)
# carat depth price table
# carat 1.00000000 0.02822431 0.9215913 0.1816175
# depth 0.02822431 1.00000000 -0.0106474 -0.2957785
# price 0.92159130 -0.01064740 1.0000000 0.1271339
# table 0.18161755 -0.29577852 0.1271339 1.0000000
# plots
heat-map(M_cor)
Kode akan menghasilkan keluaran berikut -
Ini adalah ringkasan, yang memberi tahu kita bahwa ada korelasi yang kuat antara harga dan tanda sisipan, dan tidak banyak di antara variabel lainnya.
Matriks korelasi dapat berguna jika kita memiliki banyak variabel yang tidak praktis dalam merencanakan data mentah. Seperti yang disebutkan, dimungkinkan untuk menampilkan data mentah juga -
library(GGally)
ggpairs(df)
Kita bisa lihat di plot bahwa hasil yang ditampilkan di heat-map dikonfirmasi, ada korelasi 0,922 antara variabel harga dan karat.
Hubungan ini dapat divisualisasikan dalam diagram sebar harga-karat yang terletak di indeks (3, 1) dari matriks diagram sebar.