R - Bases de données

Les données sont des systèmes de bases de données relationnelles sont stockées dans un format normalisé. Ainsi, pour effectuer des calculs statistiques, nous aurons besoin de requêtes SQL très avancées et complexes. Mais R peut se connecter facilement à de nombreuses bases de données relationnelles telles que MySql, Oracle, serveur SQL, etc. Une fois que les données sont disponibles dans l'environnement R, elles deviennent un ensemble de données R normal et peuvent être manipulées ou analysées à l'aide de tous les packages et fonctions puissants.

Dans ce didacticiel, nous utiliserons MySql comme base de données de référence pour la connexion à R.

Package RMySQL

R a un package intégré nommé "RMySQL" qui fournit une connectivité native avec la base de données MySql. Vous pouvez installer ce package dans l'environnement R à l'aide de la commande suivante.

install.packages("RMySQL")

Connexion de R à MySql

Une fois le package installé, nous créons un objet de connexion dans R pour se connecter à la base de données. Il prend le nom d'utilisateur, le mot de passe, le nom de la base de données et le nom d'hôte comme entrée.

# Create a connection Object to MySQL database.
# We will connect to the sampel database named "sakila" that comes with MySql installation.
mysqlconnection = dbConnect(MySQL(), user = 'root', password = '', dbname = 'sakila',
   host = 'localhost')

# List the tables available in this database.
 dbListTables(mysqlconnection)

Lorsque nous exécutons le code ci-dessus, cela produit le résultat suivant -

[1] "actor"                      "actor_info"                
 [3] "address"                    "category"                  
 [5] "city"                       "country"                   
 [7] "customer"                   "customer_list"             
 [9] "film"                       "film_actor"                
[11] "film_category"              "film_list"                 
[13] "film_text"                  "inventory"                 
[15] "language"                   "nicer_but_slower_film_list"
[17] "payment"                    "rental"                    
[19] "sales_by_film_category"     "sales_by_store"            
[21] "staff"                      "staff_list"                
[23] "store"

Interroger les tables

Nous pouvons interroger les tables de la base de données dans MySql en utilisant la fonction dbSendQuery(). La requête est exécutée dans MySql et le jeu de résultats est renvoyé à l'aide du Rfetch()fonction. Enfin, il est stocké sous forme de trame de données dans R.

# Query the "actor" tables to get all the rows.
result = dbSendQuery(mysqlconnection, "select * from actor")

# Store the result in a R data frame object. n = 5 is used to fetch first 5 rows.
data.frame = fetch(result, n = 5)
print(data.fame)

Lorsque nous exécutons le code ci-dessus, cela produit le résultat suivant -

actor_id   first_name    last_name         last_update
1        1         PENELOPE      GUINESS           2006-02-15 04:34:33
2        2         NICK          WAHLBERG          2006-02-15 04:34:33
3        3         ED            CHASE             2006-02-15 04:34:33
4        4         JENNIFER      DAVIS             2006-02-15 04:34:33
5        5         JOHNNY        LOLLOBRIGIDA      2006-02-15 04:34:33

Requête avec clause de filtre

Nous pouvons passer n'importe quelle requête de sélection valide pour obtenir le résultat.

result = dbSendQuery(mysqlconnection, "select * from actor where last_name = 'TORN'")

# Fetch all the records(with n = -1) and store it as a data frame.
data.frame = fetch(result, n = -1)
print(data)

Lorsque nous exécutons le code ci-dessus, cela produit le résultat suivant -

actor_id    first_name     last_name         last_update
1        18         DAN            TORN              2006-02-15 04:34:33
2        94         KENNETH        TORN              2006-02-15 04:34:33
3       102         WALTER         TORN              2006-02-15 04:34:33

Mise à jour des lignes dans les tables

Nous pouvons mettre à jour les lignes d'une table Mysql en passant la requête de mise à jour à la fonction dbSendQuery ().

dbSendQuery(mysqlconnection, "update mtcars set disp = 168.5 where hp = 110")

Après avoir exécuté le code ci-dessus, nous pouvons voir le tableau mis à jour dans l'environnement MySql.

Insertion de données dans les tableaux

dbSendQuery(mysqlconnection,
   "insert into mtcars(row_names, mpg, cyl, disp, hp, drat, wt, qsec, vs, am, gear, carb)
   values('New Mazda RX4 Wag', 21, 6, 168.5, 110, 3.9, 2.875, 17.02, 0, 1, 4, 4)"
)

Après avoir exécuté le code ci-dessus, nous pouvons voir la ligne insérée dans la table dans l'environnement MySql.

Créer des tables dans MySql

Nous pouvons créer des tables dans MySql en utilisant la fonction dbWriteTable(). Il écrase la table si elle existe déjà et prend une trame de données en entrée.

# Create the connection object to the database where we want to create the table.
mysqlconnection = dbConnect(MySQL(), user = 'root', password = '', dbname = 'sakila', 
   host = 'localhost')

# Use the R data frame "mtcars" to create the table in MySql.
# All the rows of mtcars are taken inot MySql.
dbWriteTable(mysqlconnection, "mtcars", mtcars[, ], overwrite = TRUE)

Après avoir exécuté le code ci-dessus, nous pouvons voir la table créée dans l'environnement MySql.

Suppression de tables dans MySql

Nous pouvons supprimer les tables de la base de données MySql en passant l'instruction drop table dans dbSendQuery () de la même manière que nous l'avons utilisée pour interroger les données des tables.

dbSendQuery(mysqlconnection, 'drop table if exists mtcars')

Après avoir exécuté le code ci-dessus, nous pouvons voir que la table est supprimée dans l'environnement MySql.