Big Data Analytics - Eksplorasi Data
Exploratory data analysisadalah konsep yang dikembangkan oleh John Tuckey (1977) yang terdiri dari perspektif baru statistik. Ide Tuckey adalah bahwa dalam statistik tradisional, data tidak dieksplorasi secara grafis, hanya digunakan untuk menguji hipotesis. Upaya pertama untuk mengembangkan alat dilakukan di Stanford, proyek itu disebut prim9 . Alat tersebut mampu memvisualisasikan data dalam sembilan dimensi, sehingga mampu memberikan perspektif multivariasi dari data tersebut.
Dalam beberapa hari terakhir, analisis data eksplorasi adalah suatu keharusan dan telah dimasukkan dalam siklus hidup analitik data besar. Kemampuan untuk menemukan wawasan dan mampu mengkomunikasikannya secara efektif dalam organisasi didorong oleh kemampuan EDA yang kuat.
Berdasarkan ide Tuckey, Bell Labs mengembangkan S programming languageuntuk menyediakan antarmuka interaktif untuk melakukan statistik. Ide S adalah untuk menyediakan kemampuan grafis yang luas dengan bahasa yang mudah digunakan. Di dunia saat ini, dalam konteks Big Data,R yang didasarkan pada S bahasa pemrograman adalah perangkat lunak paling populer untuk analitik.
Program berikut mendemonstrasikan penggunaan analisis data eksplorasi.
Berikut adalah contoh analisis data eksplorasi. Kode ini juga tersedia dipart1/eda/exploratory_data_analysis.R mengajukan.
library(nycflights13)
library(ggplot2)
library(data.table)
library(reshape2)
# Using the code from the previous section
# This computes the mean arrival and departure delays by carrier.
DT <- as.data.table(flights)
mean2 = DT[, list(mean_departure_delay = mean(dep_delay, na.rm = TRUE),
mean_arrival_delay = mean(arr_delay, na.rm = TRUE)),
by = carrier]
# In order to plot data in R usign ggplot, it is normally needed to reshape the data
# We want to have the data in long format for plotting with ggplot
dt = melt(mean2, id.vars = ’carrier’)
# Take a look at the first rows
print(head(dt))
# Take a look at the help for ?geom_point and geom_line to find similar examples
# Here we take the carrier code as the x axis
# the value from the dt data.table goes in the y axis
# The variable column represents the color
p = ggplot(dt, aes(x = carrier, y = value, color = variable, group = variable)) +
geom_point() + # Plots points
geom_line() + # Plots lines
theme_bw() + # Uses a white background
labs(list(title = 'Mean arrival and departure delay by carrier',
x = 'Carrier', y = 'Mean delay'))
print(p)
# Save the plot to disk
ggsave('mean_delay_by_carrier.png', p,
width = 10.4, height = 5.07)
Kode tersebut harus menghasilkan gambar seperti berikut -