बिग डेटा एनालिटिक्स - आर का परिचय
यह खंड उपयोगकर्ताओं को आर प्रोग्रामिंग भाषा से परिचित कराने के लिए समर्पित है। आर को क्रेन वेबसाइट से डाउनलोड किया जा सकता है । विंडोज उपयोगकर्ताओं के लिए, rtools और rstudio IDE को स्थापित करना उपयोगी है ।
पीछे सामान्य अवधारणा R सी, सी ++, और फोरट्रान जैसे संकलित भाषाओं में विकसित अन्य सॉफ़्टवेयर के लिए एक इंटरफ़ेस के रूप में सेवा करने और उपयोगकर्ता को डेटा का विश्लेषण करने के लिए एक इंटरैक्टिव उपकरण देने के लिए है।
पुस्तक ज़िप फ़ाइल के फ़ोल्डर में नेविगेट करें bda/part2/R_introduction और खोलें R_introduction.Rprojफ़ाइल। यह एक RStudio सत्र खोलेगा। फिर 01_vectors.R फ़ाइल खोलें। स्क्रिप्ट लाइन को लाइन से चलाएं और कोड में टिप्पणियों का पालन करें। सीखने के लिए एक और उपयोगी विकल्प कोड को टाइप करना है, यह आपको आर सिंटैक्स की आदत डालने में मदद करेगा। R में कमेंट्स # सिंबल के साथ लिखे गए हैं।
पुस्तक में R कोड चलाने के परिणामों को प्रदर्शित करने के लिए, कोड का मूल्यांकन करने के बाद, परिणाम R पर टिप्पणी की जाती है। इस तरह, आप पुस्तक में कोड पेस्ट कर सकते हैं और आर में सीधे इसके वर्गों की कोशिश कर सकते हैं।
# Create a vector of numbers
numbers = c(1, 2, 3, 4, 5)
print(numbers)
# [1] 1 2 3 4 5
# Create a vector of letters
ltrs = c('a', 'b', 'c', 'd', 'e')
# [1] "a" "b" "c" "d" "e"
# Concatenate both
mixed_vec = c(numbers, ltrs)
print(mixed_vec)
# [1] "1" "2" "3" "4" "5" "a" "b" "c" "d" "e"
आइए देखें कि पिछले कोड में क्या हुआ था। हम देख सकते हैं कि संख्याओं के साथ और अक्षरों के साथ वैक्टर बनाना संभव है। हमें R को यह बताने की आवश्यकता नहीं थी कि हम पहले से किस प्रकार का डेटा टाइप चाहते थे। अंत में, हम संख्याओं और अक्षरों दोनों के साथ एक वेक्टर बनाने में सक्षम थे। वेक्टर मिश्रित_vec ने वर्णों के लिए संख्याओं को कम किया है, हम इसे यह देखते हुए देख सकते हैं कि मूल्यों को उद्धरण के अंदर कैसे मुद्रित किया जाता है।
निम्न कोड फ़ंक्शन वर्ग द्वारा लौटाए गए अनुसार विभिन्न प्रकार के वैक्टर के डेटा प्रकार को दर्शाता है। किसी वस्तु से "पूछताछ" करने के लिए वर्ग फ़ंक्शन का उपयोग करना आम है, उससे पूछते हुए कि उसकी कक्षा क्या है।
### Evaluate the data types using class
### One dimensional objects
# Integer vector
num = 1:10
class(num)
# [1] "integer"
# Numeric vector, it has a float, 10.5
num = c(1:10, 10.5)
class(num)
# [1] "numeric"
# Character vector
ltrs = letters[1:10]
class(ltrs)
# [1] "character"
# Factor vector
fac = as.factor(ltrs)
class(fac)
# [1] "factor"
R द्वि-आयामी वस्तुओं का भी समर्थन करता है। निम्नलिखित कोड में, आर: मैट्रिक्स और डेटा.फ्रेम में उपयोग किए जाने वाले दो सबसे लोकप्रिय डेटा संरचनाओं के उदाहरण हैं।
# Matrix
M = matrix(1:12, ncol = 4)
# [,1] [,2] [,3] [,4]
# [1,] 1 4 7 10
# [2,] 2 5 8 11
# [3,] 3 6 9 12
lM = matrix(letters[1:12], ncol = 4)
# [,1] [,2] [,3] [,4]
# [1,] "a" "d" "g" "j"
# [2,] "b" "e" "h" "k"
# [3,] "c" "f" "i" "l"
# Coerces the numbers to character
# cbind concatenates two matrices (or vectors) in one matrix
cbind(M, lM)
# [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8]
# [1,] "1" "4" "7" "10" "a" "d" "g" "j"
# [2,] "2" "5" "8" "11" "b" "e" "h" "k"
# [3,] "3" "6" "9" "12" "c" "f" "i" "l"
class(M)
# [1] "matrix"
class(lM)
# [1] "matrix"
# data.frame
# One of the main objects of R, handles different data types in the same object.
# It is possible to have numeric, character and factor vectors in the same data.frame
df = data.frame(n = 1:5, l = letters[1:5])
df
# n l
# 1 1 a
# 2 2 b
# 3 3 c
# 4 4 d
# 5 5 e
जैसा कि पिछले उदाहरण में दिखाया गया है, एक ही ऑब्जेक्ट में विभिन्न डेटा प्रकारों का उपयोग करना संभव है। सामान्य तौर पर, यह है कि डेटा डेटाबेस में कैसे प्रस्तुत किया जाता है, डेटा का एपीआई हिस्सा टेक्स्ट या कैरेक्टर वैक्टर और अन्य संख्यात्मक होता है। यह निर्धारित करना विश्लेषक का काम है कि कौन सा सांख्यिकीय डेटा टाइप करना है और फिर उसके लिए सही R डेटा प्रकार का उपयोग करें। आम तौर पर हम जिन आंकड़ों पर विचार करते हैं, वे निम्न प्रकार के होते हैं -
- Numeric
- नाममात्र या श्रेणीबद्ध
- Ordinal
R में, एक वेक्टर निम्न वर्ग का हो सकता है -
- न्यूमेरिक - पूर्णांक
- Factor
- फैक्टर का आदेश दिया
R प्रत्येक सांख्यिकीय प्रकार के चर के लिए एक डेटा प्रकार प्रदान करता है। आदेशित कारक को शायद ही कभी उपयोग किया जाता है, लेकिन फ़ंक्शन कारक द्वारा बनाया जा सकता है, या ऑर्डर किया जा सकता है।
निम्न अनुभाग अनुक्रमण की अवधारणा को मानता है। यह एक बहुत ही सामान्य ऑपरेशन है, और किसी वस्तु के अनुभागों का चयन करने और उनमें परिवर्तन करने की समस्या से संबंधित है।
# Let's create a data.frame
df = data.frame(numbers = 1:26, letters)
head(df)
# numbers letters
# 1 1 a
# 2 2 b
# 3 3 c
# 4 4 d
# 5 5 e
# 6 6 f
# str gives the structure of a data.frame, it’s a good summary to inspect an object
str(df)
# 'data.frame': 26 obs. of 2 variables:
# $ numbers: int 1 2 3 4 5 6 7 8 9 10 ...
# $ letters: Factor w/ 26 levels "a","b","c","d",..: 1 2 3 4 5 6 7 8 9 10 ...
# The latter shows the letters character vector was coerced as a factor.
# This can be explained by the stringsAsFactors = TRUE argumnet in data.frame
# read ?data.frame for more information
class(df)
# [1] "data.frame"
### Indexing
# Get the first row
df[1, ]
# numbers letters
# 1 1 a
# Used for programming normally - returns the output as a list
df[1, , drop = TRUE]
# $numbers
# [1] 1
#
# $letters
# [1] a
# Levels: a b c d e f g h i j k l m n o p q r s t u v w x y z
# Get several rows of the data.frame
df[5:7, ]
# numbers letters
# 5 5 e
# 6 6 f
# 7 7 g
### Add one column that mixes the numeric column with the factor column
df$mixed = paste(df$numbers, df$letters, sep = ’’)
str(df)
# 'data.frame': 26 obs. of 3 variables:
# $ numbers: int 1 2 3 4 5 6 7 8 9 10 ...
# $ letters: Factor w/ 26 levels "a","b","c","d",..: 1 2 3 4 5 6 7 8 9 10 ...
# $ mixed : chr "1a" "2b" "3c" "4d" ...
### Get columns
# Get the first column
df[, 1]
# It returns a one dimensional vector with that column
# Get two columns
df2 = df[, 1:2]
head(df2)
# numbers letters
# 1 1 a
# 2 2 b
# 3 3 c
# 4 4 d
# 5 5 e
# 6 6 f
# Get the first and third columns
df3 = df[, c(1, 3)]
df3[1:3, ]
# numbers mixed
# 1 1 1a
# 2 2 2b
# 3 3 3c
### Index columns from their names
names(df)
# [1] "numbers" "letters" "mixed"
# This is the best practice in programming, as many times indeces change, but
variable names don’t
# We create a variable with the names we want to subset
keep_vars = c("numbers", "mixed")
df4 = df[, keep_vars]
head(df4)
# numbers mixed
# 1 1 1a
# 2 2 2b
# 3 3 3c
# 4 4 4d
# 5 5 5e
# 6 6 6f
### subset rows and columns
# Keep the first five rows
df5 = df[1:5, keep_vars]
df5
# numbers mixed
# 1 1 1a
# 2 2 2b
# 3 3 3c
# 4 4 4d
# 5 5 5e
# subset rows using a logical condition
df6 = df[df$numbers < 10, keep_vars]
df6
# numbers mixed
# 1 1 1a
# 2 2 2b
# 3 3 3c
# 4 4 4d
# 5 5 5e
# 6 6 6f
# 7 7 7g
# 8 8 8h
# 9 9 9i