R - Data Web

Banyak situs menyediakan data untuk dikonsumsi oleh penggunanya. Misalnya Organisasi Kesehatan Dunia (WHO) memberikan laporan tentang informasi kesehatan dan medis dalam bentuk file CSV, txt dan XML. Dengan menggunakan program R, kami dapat mengekstrak data tertentu secara terprogram dari situs web tersebut. Beberapa paket di R yang digunakan untuk menyalin data dari web adalah - "RCurl", XML ", dan" stringr ". Mereka digunakan untuk menyambung ke URL, mengidentifikasi tautan yang diperlukan untuk file dan mengunduhnya ke lingkungan lokal.

Instal Paket R.

Paket berikut diperlukan untuk memproses URL dan tautan ke file. Jika tidak tersedia di Lingkungan R Anda, Anda dapat menginstalnya menggunakan perintah berikut.

install.packages("RCurl")
install.packages("XML")
install.packages("stringr")
install.packages("plyr")

Memasukan data

Kami akan mengunjungi URL data cuaca dan mengunduh file CSV menggunakan R untuk tahun 2015.

Contoh

Kami akan menggunakan fungsinya getHTMLLinks()untuk mengumpulkan URL file. Kemudian kita akan menggunakan fungsinyadownload.file()untuk menyimpan file ke sistem lokal. Karena kami akan menerapkan kode yang sama berulang kali untuk banyak file, kami akan membuat fungsi untuk dipanggil beberapa kali. Nama file dikirimkan sebagai parameter dalam bentuk objek daftar R ke fungsi ini.

# Read the URL.
url <- "http://www.geos.ed.ac.uk/~weather/jcmb_ws/"

# Gather the html links present in the webpage.
links <- getHTMLLinks(url)

# Identify only the links which point to the JCMB 2015 files. 
filenames <- links[str_detect(links, "JCMB_2015")]

# Store the file names as a list.
filenames_list <- as.list(filenames)

# Create a function to download the files by passing the URL and filename list.
downloadcsv <- function (mainurl,filename) {
   filedetails <- str_c(mainurl,filename)
   download.file(filedetails,filename)
}

# Now apply the l_ply function and save the files into the current R working directory.
l_ply(filenames,downloadcsv,mainurl = "http://www.geos.ed.ac.uk/~weather/jcmb_ws/")

Verifikasi Unduhan File

Setelah menjalankan kode di atas, Anda dapat menemukan file berikut di direktori kerja R.

"JCMB_2015.csv" "JCMB_2015_Apr.csv" "JCMB_2015_Feb.csv" "JCMB_2015_Jan.csv"
   "JCMB_2015_Mar.csv"