R - Fichiers CSV

Dans R, nous pouvons lire des données à partir de fichiers stockés en dehors de l'environnement R. Nous pouvons également écrire des données dans des fichiers qui seront stockés et accessibles par le système d'exploitation. R peut lire et écrire dans divers formats de fichiers tels que csv, excel, xml, etc.

Dans ce chapitre, nous allons apprendre à lire les données d'un fichier csv, puis à écrire des données dans un fichier csv. Le fichier doit être présent dans le répertoire de travail courant pour que R puisse le lire. Bien sûr, nous pouvons également définir notre propre répertoire et lire les fichiers à partir de là.

Obtention et configuration du répertoire de travail

Vous pouvez vérifier le répertoire vers lequel pointe l'espace de travail R à l'aide du getwd()fonction. Vous pouvez également définir un nouveau répertoire de travail en utilisantsetwd()fonction.

# Get and print current working directory.
print(getwd())

# Set current working directory.
setwd("/web/com")

# Get and print current working directory.
print(getwd())

Lorsque nous exécutons le code ci-dessus, cela produit le résultat suivant -

[1] "/web/com/1441086124_2016"
[1] "/web/com"

Ce résultat dépend de votre système d'exploitation et de votre répertoire actuel dans lequel vous travaillez.

Entrée sous forme de fichier CSV

Le fichier csv est un fichier texte dans lequel les valeurs des colonnes sont séparées par une virgule. Considérons les données suivantes présentes dans le fichier nomméinput.csv.

Vous pouvez créer ce fichier à l'aide du bloc-notes Windows en copiant et en collant ces données. Enregistrez le fichier sousinput.csv en utilisant l'option Enregistrer sous tous les fichiers (*. *) dans le bloc-notes.

id,name,salary,start_date,dept
1,Rick,623.3,2012-01-01,IT
2,Dan,515.2,2013-09-23,Operations
3,Michelle,611,2014-11-15,IT
4,Ryan,729,2014-05-11,HR
5,Gary,843.25,2015-03-27,Finance
6,Nina,578,2013-05-21,IT
7,Simon,632.8,2013-07-30,Operations
8,Guru,722.5,2014-06-17,Finance

Lire un fichier CSV

Voici un exemple simple de read.csv() fonction pour lire un fichier CSV disponible dans votre répertoire de travail actuel -

data <- read.csv("input.csv")
print(data)

Lorsque nous exécutons le code ci-dessus, cela produit le résultat suivant -

id,   name,    salary,   start_date,     dept
1      1    Rick     623.30    2012-01-01      IT
2      2    Dan      515.20    2013-09-23      Operations
3      3    Michelle 611.00    2014-11-15      IT
4      4    Ryan     729.00    2014-05-11      HR
5     NA    Gary     843.25    2015-03-27      Finance
6      6    Nina     578.00    2013-05-21      IT
7      7    Simon    632.80    2013-07-30      Operations
8      8    Guru     722.50    2014-06-17      Finance

Analyse du fichier CSV

Par défaut, le read.csv()La fonction donne la sortie sous forme de trame de données. Cela peut être facilement vérifié comme suit. Nous pouvons également vérifier le nombre de colonnes et de lignes.

data <- read.csv("input.csv")

print(is.data.frame(data))
print(ncol(data))
print(nrow(data))

Lorsque nous exécutons le code ci-dessus, cela produit le résultat suivant -

[1] TRUE
[1] 5
[1] 8

Une fois que nous lisons les données dans une trame de données, nous pouvons appliquer toutes les fonctions applicables aux trames de données comme expliqué dans la section suivante.

Obtenez le salaire maximum

# Create a data frame.
data <- read.csv("input.csv")

# Get the max salary from data frame.
sal <- max(data$salary)
print(sal)

Lorsque nous exécutons le code ci-dessus, cela produit le résultat suivant -

[1] 843.25

Obtenez les détails de la personne avec le salaire maximum

Nous pouvons récupérer des lignes répondant à des critères de filtre spécifiques similaires à une clause WHERE SQL.

# Create a data frame.
data <- read.csv("input.csv")

# Get the max salary from data frame.
sal <- max(data$salary)

# Get the person detail having max salary.
retval <- subset(data, salary == max(salary))
print(retval)

Lorsque nous exécutons le code ci-dessus, cela produit le résultat suivant -

id    name  salary  start_date    dept
5     NA    Gary  843.25  2015-03-27    Finance

Obtenez toutes les personnes travaillant dans le service informatique

# Create a data frame.
data <- read.csv("input.csv")

retval <- subset( data, dept == "IT")
print(retval)

Lorsque nous exécutons le code ci-dessus, cela produit le résultat suivant -

id   name      salary   start_date   dept
1      1    Rick      623.3    2012-01-01   IT
3      3    Michelle  611.0    2014-11-15   IT
6      6    Nina      578.0    2013-05-21   IT

Obtenir les personnes du service informatique dont le salaire est supérieur à 600

# Create a data frame.
data <- read.csv("input.csv")

info <- subset(data, salary > 600 & dept == "IT")
print(info)

Lorsque nous exécutons le code ci-dessus, cela produit le résultat suivant -

id   name      salary   start_date   dept
1      1    Rick      623.3    2012-01-01   IT
3      3    Michelle  611.0    2014-11-15   IT

Obtenez les personnes qui ont rejoint en 2014 ou après

# Create a data frame.
data <- read.csv("input.csv")

retval <- subset(data, as.Date(start_date) > as.Date("2014-01-01"))
print(retval)

Lorsque nous exécutons le code ci-dessus, cela produit le résultat suivant -

id   name     salary   start_date    dept
3      3    Michelle 611.00   2014-11-15    IT
4      4    Ryan     729.00   2014-05-11    HR
5     NA    Gary     843.25   2015-03-27    Finance
8      8    Guru     722.50   2014-06-17    Finance

Écriture dans un fichier CSV

R peut créer un fichier csv à partir d'une trame de données existante. lewrite.csv()La fonction est utilisée pour créer le fichier csv. Ce fichier est créé dans le répertoire de travail.

# Create a data frame.
data <- read.csv("input.csv")
retval <- subset(data, as.Date(start_date) > as.Date("2014-01-01"))

# Write filtered data into a new file.
write.csv(retval,"output.csv")
newdata <- read.csv("output.csv")
print(newdata)

Lorsque nous exécutons le code ci-dessus, cela produit le résultat suivant -

X      id   name      salary   start_date    dept
1 3      3    Michelle  611.00   2014-11-15    IT
2 4      4    Ryan      729.00   2014-05-11    HR
3 5     NA    Gary      843.25   2015-03-27    Finance
4 8      8    Guru      722.50   2014-06-17    Finance

Ici, la colonne X provient du jeu de données newper. Cela peut être supprimé en utilisant des paramètres supplémentaires lors de l'écriture du fichier.

# Create a data frame.
data <- read.csv("input.csv")
retval <- subset(data, as.Date(start_date) > as.Date("2014-01-01"))

# Write filtered data into a new file.
write.csv(retval,"output.csv", row.names = FALSE)
newdata <- read.csv("output.csv")
print(newdata)

Lorsque nous exécutons le code ci-dessus, cela produit le résultat suivant -

id    name      salary   start_date    dept
1      3    Michelle  611.00   2014-11-15    IT
2      4    Ryan      729.00   2014-05-11    HR
3     NA    Gary      843.25   2015-03-27    Finance
4      8    Guru      722.50   2014-06-17    Finance