बिग डेटा एनालिटिक्स - डेटा का सारांश
बड़े डेटा एनालिटिक्स में रिपोर्टिंग बहुत महत्वपूर्ण है। प्रत्येक संगठन को अपने निर्णय लेने की प्रक्रिया का समर्थन करने के लिए जानकारी का एक नियमित प्रावधान होना चाहिए। यह कार्य सामान्य रूप से SQL और ETL (एक्सट्रैक्ट, ट्रांसफर और लोड) अनुभव के साथ डेटा विश्लेषकों द्वारा नियंत्रित किया जाता है।
इस कार्य के प्रभारी टीम के पास संगठन के विभिन्न क्षेत्रों में बड़े डेटा एनालिटिक्स विभाग में उत्पादित जानकारी को फैलाने की जिम्मेदारी है।
निम्न उदाहरण दर्शाता है कि डेटा के सारांश का क्या अर्थ है। फ़ोल्डर पर नेविगेट करेंbda/part1/summarize_data और फ़ोल्डर के अंदर, खोलें summarize_data.Rprojडबल क्लिक करके फ़ाइल। फिर, खोलेंsummarize_data.R स्क्रिप्ट और कोड पर एक नज़र डालें, और प्रस्तुत स्पष्टीकरण का पालन करें।
# Install the following packages by running the following code in R.
pkgs = c('data.table', 'ggplot2', 'nycflights13', 'reshape2')
install.packages(pkgs)
ggplot2पैकेज डेटा विज़ुअलाइज़ेशन के लिए बहुत अच्छा है। data.table पैकेज तेज और मेमोरी कुशल संक्षेपण करने के लिए एक शानदार विकल्प है R। हाल के एक बेंचमार्क से पता चलता है कि यह उससे भी तेज हैpandas, अजगर पुस्तकालय समान कार्यों के लिए उपयोग किया जाता है।
निम्नलिखित कोड का उपयोग करके डेटा को देखें। यह कोड भी उपलब्ध हैbda/part1/summarize_data/summarize_data.Rproj फ़ाइल।
library(nycflights13)
library(ggplot2)
library(data.table)
library(reshape2)
# Convert the flights data.frame to a data.table object and call it DT
DT <- as.data.table(flights)
# The data has 336776 rows and 16 columns
dim(DT)
# Take a look at the first rows
head(DT)
# year month day dep_time dep_delay arr_time arr_delay carrier
# 1: 2013 1 1 517 2 830 11 UA
# 2: 2013 1 1 533 4 850 20 UA
# 3: 2013 1 1 542 2 923 33 AA
# 4: 2013 1 1 544 -1 1004 -18 B6
# 5: 2013 1 1 554 -6 812 -25 DL
# 6: 2013 1 1 554 -4 740 12 UA
# tailnum flight origin dest air_time distance hour minute
# 1: N14228 1545 EWR IAH 227 1400 5 17
# 2: N24211 1714 LGA IAH 227 1416 5 33
# 3: N619AA 1141 JFK MIA 160 1089 5 42
# 4: N804JB 725 JFK BQN 183 1576 5 44
# 5: N668DN 461 LGA ATL 116 762 5 54
# 6: N39463 1696 EWR ORD 150 719 5 54
निम्नलिखित कोड में डेटा संक्षेपण का एक उदाहरण है।
### Data Summarization
# Compute the mean arrival delay
DT[, list(mean_arrival_delay = mean(arr_delay, na.rm = TRUE))]
# mean_arrival_delay
# 1: 6.895377
# Now, we compute the same value but for each carrier
mean1 = DT[, list(mean_arrival_delay = mean(arr_delay, na.rm = TRUE)),
by = carrier]
print(mean1)
# carrier mean_arrival_delay
# 1: UA 3.5580111
# 2: AA 0.3642909
# 3: B6 9.4579733
# 4: DL 1.6443409
# 5: EV 15.7964311
# 6: MQ 10.7747334
# 7: US 2.1295951
# 8: WN 9.6491199
# 9: VX 1.7644644
# 10: FL 20.1159055
# 11: AS -9.9308886
# 12: 9E 7.3796692
# 13: F9 21.9207048
# 14: HA -6.9152047
# 15: YV 15.5569853
# 16: OO 11.9310345
# Now let’s compute to means in the same line of code
mean2 = DT[, list(mean_departure_delay = mean(dep_delay, na.rm = TRUE),
mean_arrival_delay = mean(arr_delay, na.rm = TRUE)),
by = carrier]
print(mean2)
# carrier mean_departure_delay mean_arrival_delay
# 1: UA 12.106073 3.5580111
# 2: AA 8.586016 0.3642909
# 3: B6 13.022522 9.4579733
# 4: DL 9.264505 1.6443409
# 5: EV 19.955390 15.7964311
# 6: MQ 10.552041 10.7747334
# 7: US 3.782418 2.1295951
# 8: WN 17.711744 9.6491199
# 9: VX 12.869421 1.7644644
# 10: FL 18.726075 20.1159055
# 11: AS 5.804775 -9.9308886
# 12: 9E 16.725769 7.3796692
# 13: F9 20.215543 21.9207048
# 14: HA 4.900585 -6.9152047
# 15: YV 18.996330 15.5569853
# 16: OO 12.586207 11.9310345
### Create a new variable called gain
# this is the difference between arrival delay and departure delay
DT[, gain:= arr_delay - dep_delay]
# Compute the median gain per carrier
median_gain = DT[, median(gain, na.rm = TRUE), by = carrier]
print(median_gain)