R - Fichiers binaires

Un fichier binaire est un fichier qui contient des informations stockées uniquement sous forme de bits et d'octets (0 et 1). Ils ne sont pas lisibles par l'homme car les octets qu'ils contiennent se traduisent en caractères et symboles qui contiennent de nombreux autres caractères non imprimables. Tenter de lire un fichier binaire à l'aide de n'importe quel éditeur de texte affichera des caractères tels que Ø et ð.

Le fichier binaire doit être lu par des programmes spécifiques pour être utilisable. Par exemple, le fichier binaire d'un programme Microsoft Word peut être lu sous une forme lisible par l'homme uniquement par le programme Word. Ce qui indique qu'en plus du texte lisible par l'homme, il y a beaucoup plus d'informations comme le formatage des caractères et des numéros de page, etc., qui sont également stockés avec des caractères alphanumériques. Et enfin, un fichier binaire est une séquence continue d'octets. Le saut de ligne que nous voyons dans un fichier texte est un caractère joignant la première ligne à la suivante.

Parfois, les données générées par d'autres programmes doivent être traitées par R en tant que fichier binaire. R est également nécessaire pour créer des fichiers binaires qui peuvent être partagés avec d'autres programmes.

R a deux fonctions WriteBin() et readBin() pour créer et lire des fichiers binaires.

Syntaxe

writeBin(object, con)
readBin(con, what, n )

Voici la description des paramètres utilisés -

  • con est l'objet de connexion pour lire ou écrire le fichier binaire.

  • object est le fichier binaire à écrire.

  • what est le mode tel que caractère, entier, etc. représentant les octets à lire.

  • n est le nombre d'octets à lire dans le fichier binaire.

Exemple

Nous considérons les données intégrées R "mtcars". Nous créons d'abord un fichier csv à partir de celui-ci et le convertissons en fichier binaire et le stockons en tant que fichier OS. Ensuite, nous lisons ce fichier binaire créé dans R.

Ecrire le fichier binaire

Nous lisons la trame de données «mtcars» sous forme de fichier csv, puis l'écrivons sous forme de fichier binaire dans le système d'exploitation.

# Read the "mtcars" data frame as a csv file and store only the columns 
   "cyl", "am" and "gear".
write.table(mtcars, file = "mtcars.csv",row.names = FALSE, na = "", 
   col.names = TRUE, sep = ",")

# Store 5 records from the csv file as a new data frame.
new.mtcars <- read.table("mtcars.csv",sep = ",",header = TRUE,nrows = 5)

# Create a connection object to write the binary file using mode "wb".
write.filename = file("/web/com/binmtcars.dat", "wb")

# Write the column names of the data frame to the connection object.
writeBin(colnames(new.mtcars), write.filename)

# Write the records in each of the column to the file.
writeBin(c(new.mtcars$cyl,new.mtcars$am,new.mtcars$gear), write.filename)

# Close the file for writing so that it can be read by other program.
close(write.filename)

Lire le fichier binaire

Le fichier binaire créé ci-dessus stocke toutes les données sous forme d'octets continus. Nous allons donc le lire en choisissant les valeurs appropriées des noms de colonne ainsi que les valeurs de colonne.

# Create a connection object to read the file in binary mode using "rb".
read.filename <- file("/web/com/binmtcars.dat", "rb")

# First read the column names. n = 3 as we have 3 columns.
column.names <- readBin(read.filename, character(),  n = 3)

# Next read the column values. n = 18 as we have 3 column names and 15 values.
read.filename <- file("/web/com/binmtcars.dat", "rb")
bindata <- readBin(read.filename, integer(),  n = 18)

# Print the data.
print(bindata)

# Read the values from 4th byte to 8th byte which represents "cyl".
cyldata = bindata[4:8]
print(cyldata)

# Read the values form 9th byte to 13th byte which represents "am".
amdata = bindata[9:13]
print(amdata)

# Read the values form 9th byte to 13th byte which represents "gear".
geardata = bindata[14:18]
print(geardata)

# Combine all the read values to a dat frame.
finaldata = cbind(cyldata, amdata, geardata)
colnames(finaldata) = column.names
print(finaldata)

Lorsque nous exécutons le code ci-dessus, il produit le résultat et le graphique suivants -

[1]    7108963 1728081249    7496037          6          6          4
 [7]          6          8          1          1          1          0
[13]          0          4          4          4          3          3

[1] 6 6 4 6 8

[1] 1 1 1 0 0

[1] 4 4 4 3 3

     cyl am gear
[1,]   6  1    4
[2,]   6  1    4
[3,]   4  1    4
[4,]   6  0    3
[5,]   8  0    3

Comme nous pouvons le voir, nous avons récupéré les données d'origine en lisant le fichier binaire dans R.