आर - वेब डेटा

कई वेबसाइट अपने उपयोगकर्ताओं द्वारा खपत के लिए डेटा प्रदान करती हैं। उदाहरण के लिए विश्व स्वास्थ्य संगठन (WHO) CSV, txt और XML फ़ाइलों के रूप में स्वास्थ्य और चिकित्सा संबंधी जानकारी प्रदान करता है। आर कार्यक्रमों का उपयोग करते हुए, हम प्रोग्रामेटिक रूप से ऐसी वेबसाइटों से विशिष्ट डेटा निकाल सकते हैं। R के कुछ पैकेज जिनका उपयोग डेटा को वेब को स्क्रैप करने के लिए किया जाता है, वे हैं - "RCurl", XML "और" stringr "। इनका उपयोग URL से कनेक्ट करने, फ़ाइलों के लिए आवश्यक लिंक की पहचान करने और स्थानीय वातावरण में डाउनलोड करने के लिए किया जाता है।

आर संकुल को स्थापित करें

निम्न पैकेज यूआरएल के प्रसंस्करण और फाइलों के लिंक के लिए आवश्यक हैं। यदि वे आपके आर पर्यावरण में उपलब्ध नहीं हैं, तो आप उन्हें निम्न आदेशों का उपयोग करके स्थापित कर सकते हैं।

install.packages("RCurl")
install.packages("XML")
install.packages("stringr")
install.packages("plyr")

इनपुट डेटा

हम वर्ष 2015 के लिए R का उपयोग करके URL मौसम डेटा पर जाएँगे और CSV फ़ाइलों को डाउनलोड करेंगे।

उदाहरण

हम फ़ंक्शन का उपयोग करेंगे getHTMLLinks()फ़ाइलों के URL को इकट्ठा करने के लिए। फिर हम फ़ंक्शन का उपयोग करेंगेdownload.file()फ़ाइलों को स्थानीय सिस्टम में सहेजने के लिए। जैसा कि हम कई फ़ाइलों के लिए एक ही कोड को बार-बार लागू करेंगे, हम एक फ़ंक्शन को कई बार कहा जाएगा। फ़ाइलनामों को इस फ़ंक्शन के लिए आर सूची ऑब्जेक्ट के रूप में पैरामीटर के रूप में पारित किया जाता है।

# Read the URL.
url <- "http://www.geos.ed.ac.uk/~weather/jcmb_ws/"

# Gather the html links present in the webpage.
links <- getHTMLLinks(url)

# Identify only the links which point to the JCMB 2015 files. 
filenames <- links[str_detect(links, "JCMB_2015")]

# Store the file names as a list.
filenames_list <- as.list(filenames)

# Create a function to download the files by passing the URL and filename list.
downloadcsv <- function (mainurl,filename) {
   filedetails <- str_c(mainurl,filename)
   download.file(filedetails,filename)
}

# Now apply the l_ply function and save the files into the current R working directory.
l_ply(filenames,downloadcsv,mainurl = "http://www.geos.ed.ac.uk/~weather/jcmb_ws/")

फ़ाइल डाउनलोड सत्यापित करें

उपरोक्त कोड चलाने के बाद, आप वर्तमान आर वर्किंग डायरेक्टरी में निम्नलिखित फाइलों का पता लगा सकते हैं।

"JCMB_2015.csv" "JCMB_2015_Apr.csv" "JCMB_2015_Feb.csv" "JCMB_2015_Jan.csv"
   "JCMB_2015_Mar.csv"