Big Data Analytics - Bagan & Grafik

Pendekatan pertama untuk menganalisis data adalah menganalisisnya secara visual. Tujuan melakukan ini biasanya menemukan hubungan antara variabel dan deskripsi univariat variabel. Kami dapat membagi strategi ini sebagai -

  • Analisis univariat
  • Analisis multivariasi

Metode Grafis Univariat

Univariateadalah istilah statistik. Dalam praktiknya, ini berarti kami ingin menganalisis variabel secara independen dari data lainnya. Plot yang memungkinkan untuk melakukan ini secara efisien adalah -

Kotak-Plot

Box-Plot biasanya digunakan untuk membandingkan distribusi. Ini adalah cara yang bagus untuk memeriksa secara visual jika ada perbedaan di antara distribusi. Kita bisa melihat apakah ada perbedaan antara harga berlian untuk potongan yang berbeda.

# We will be using the ggplot2 library for plotting
library(ggplot2)  
data("diamonds")  

# We will be using the diamonds dataset to analyze distributions of numeric variables 
head(diamonds) 

#    carat   cut       color  clarity  depth  table   price    x     y     z 
# 1  0.23    Ideal       E      SI2    61.5    55     326     3.95  3.98  2.43 
# 2  0.21    Premium     E      SI1    59.8    61     326     3.89  3.84  2.31 
# 3  0.23    Good        E      VS1    56.9    65     327     4.05  4.07  2.31 
# 4  0.29    Premium     I      VS2    62.4    58     334     4.20  4.23  2.63 
# 5  0.31    Good        J      SI2    63.3    58     335     4.34  4.35  2.75 
# 6  0.24    Very Good   J      VVS2   62.8    57     336     3.94  3.96  2.48 

### Box-Plots
p = ggplot(diamonds, aes(x = cut, y = price, fill = cut)) + 
   geom_box-plot() + 
   theme_bw() 
print(p)

Dapat kita lihat di plot terdapat perbedaan distribusi harga berlian di berbagai jenis potongan.

Histogram

source('01_box_plots.R')

# We can plot histograms for each level of the cut factor variable using 
facet_grid 
p = ggplot(diamonds, aes(x = price, fill = cut)) + 
   geom_histogram() + 
   facet_grid(cut ~ .) + 
   theme_bw() 

p  
# the previous plot doesn’t allow to visuallize correctly the data because of 
the differences in scale 
# we can turn this off using the scales argument of facet_grid  

p = ggplot(diamonds, aes(x = price, fill = cut)) + 
   geom_histogram() + 
   facet_grid(cut ~ ., scales = 'free') + 
   theme_bw() 
p  

png('02_histogram_diamonds_cut.png') 
print(p) 
dev.off()

Output dari kode di atas adalah sebagai berikut -

Metode Grafis Multivariasi

Metode grafik multivariat dalam analisis data eksplorasi bertujuan untuk menemukan hubungan antar variabel yang berbeda. Ada dua cara untuk mencapai ini yang umum digunakan: memplot matriks korelasi variabel numerik atau hanya memplot data mentah sebagai matriks plot pencar.

Untuk mendemonstrasikan ini, kami akan menggunakan dataset diamonds. Untuk mengikuti kode, buka skripbda/part2/charts/03_multivariate_analysis.R.

library(ggplot2)
data(diamonds) 

# Correlation matrix plots  
keep_vars = c('carat', 'depth', 'price', 'table') 
df = diamonds[, keep_vars]  
# compute the correlation matrix 
M_cor = cor(df) 

#          carat       depth      price      table 
# carat 1.00000000  0.02822431  0.9215913  0.1816175 
# depth 0.02822431  1.00000000 -0.0106474 -0.2957785 
# price 0.92159130 -0.01064740  1.0000000  0.1271339 
# table 0.18161755 -0.29577852  0.1271339  1.0000000  

# plots 
heat-map(M_cor)

Kode akan menghasilkan keluaran berikut -

Ini adalah ringkasan, yang memberi tahu kita bahwa ada korelasi yang kuat antara harga dan tanda sisipan, dan tidak banyak di antara variabel lainnya.

Matriks korelasi dapat berguna jika kita memiliki banyak variabel yang tidak praktis dalam merencanakan data mentah. Seperti yang disebutkan, dimungkinkan untuk menampilkan data mentah juga -

library(GGally)
ggpairs(df)

Kita bisa lihat di plot bahwa hasil yang ditampilkan di heat-map dikonfirmasi, ada korelasi 0,922 antara variabel harga dan karat.

Hubungan ini dapat divisualisasikan dalam diagram sebar harga-karat yang terletak di indeks (3, 1) dari matriks diagram sebar.