R - Données Web

De nombreux sites Web fournissent des données à la consommation de leurs utilisateurs. Par exemple, l'Organisation mondiale de la santé (OMS) fournit des rapports sur la santé et les informations médicales sous forme de fichiers CSV, txt et XML. En utilisant les programmes R, nous pouvons extraire par programmation des données spécifiques de ces sites Web. Certains packages dans R qui sont utilisés pour supprimer des données du Web sont - "RCurl", XML "et" stringr ". Ils sont utilisés pour se connecter aux URL, identifier les liens requis pour les fichiers et les télécharger dans l'environnement local.

Installer les packages R

Les packages suivants sont nécessaires pour traiter les URL et les liens vers les fichiers. S'ils ne sont pas disponibles dans votre environnement R, vous pouvez les installer à l'aide des commandes suivantes.

install.packages("RCurl")
install.packages("XML")
install.packages("stringr")
install.packages("plyr")

Des données d'entrée

Nous visiterons les données météorologiques URL et téléchargerons les fichiers CSV en utilisant R pour l'année 2015.

Exemple

Nous utiliserons la fonction getHTMLLinks()pour rassembler les URL des fichiers. Ensuite, nous utiliserons la fonctiondownload.file()pour enregistrer les fichiers sur le système local. Comme nous appliquerons le même code encore et encore pour plusieurs fichiers, nous allons créer une fonction à appeler plusieurs fois. Les noms de fichiers sont transmis en tant que paramètres sous la forme d'un objet de liste R à cette fonction.

# Read the URL.
url <- "http://www.geos.ed.ac.uk/~weather/jcmb_ws/"

# Gather the html links present in the webpage.
links <- getHTMLLinks(url)

# Identify only the links which point to the JCMB 2015 files. 
filenames <- links[str_detect(links, "JCMB_2015")]

# Store the file names as a list.
filenames_list <- as.list(filenames)

# Create a function to download the files by passing the URL and filename list.
downloadcsv <- function (mainurl,filename) {
   filedetails <- str_c(mainurl,filename)
   download.file(filedetails,filename)
}

# Now apply the l_ply function and save the files into the current R working directory.
l_ply(filenames,downloadcsv,mainurl = "http://www.geos.ed.ac.uk/~weather/jcmb_ws/")

Vérifier le téléchargement du fichier

Après avoir exécuté le code ci-dessus, vous pouvez localiser les fichiers suivants dans le répertoire de travail R actuel.

"JCMB_2015.csv" "JCMB_2015_Apr.csv" "JCMB_2015_Feb.csv" "JCMB_2015_Jan.csv"
   "JCMB_2015_Mar.csv"