Sqoop - Importation

Ce chapitre décrit comment importer des données de la base de données MySQL vers Hadoop HDFS. L'outil "Importer" importe des tables individuelles du SGBDR vers HDFS. Chaque ligne d'une table est traitée comme un enregistrement dans HDFS. Tous les enregistrements sont stockés sous forme de données texte dans les fichiers texte ou sous forme de données binaires dans les fichiers Avro et Sequence.

Syntaxe

La syntaxe suivante est utilisée pour importer des données dans HDFS.

$ sqoop import (generic-args) (import-args) 
$ sqoop-import (generic-args) (import-args)

Exemple

Prenons un exemple de trois tables nommées emp, emp_add, et emp_contact, qui se trouvent dans une base de données appelée userdb dans un serveur de base de données MySQL.

Les trois tableaux et leurs données sont les suivants.

emp:

id Nom deg un salaire département
1201 gopal directeur 50 000 TP
1202 manisha Lecteur d'épreuves 50 000 TP
1203 Khalil php dev 30 000 AC
1204 prasanthe php dev 30 000 AC
1204 kranthi admin 20 000 TP

emp_add:

id hno rue ville
1201 288A vgiri jublee
1202 108I aoc sec-mauvais
1203 144Z pgutta hyd
1204 78B vieille ville sec-mauvais
1205 720X haute technologie sec-mauvais

emp_contact:

id phno email
1201 2356742 [email protected]
1202 1661663 [email protected]
1203 8887776 [email protected]
1204 9988774 [email protected]
1205 1231231 [email protected]

Importer une table

L'outil Sqoop 'import' est utilisé pour importer des données de table de la table vers le système de fichiers Hadoop sous forme de fichier texte ou de fichier binaire.

La commande suivante est utilisée pour importer le emp table du serveur de base de données MySQL vers HDFS.

$ sqoop import \
--connect jdbc:mysql://localhost/userdb \
--username root \
--table emp --m 1

S'il est exécuté avec succès, vous obtenez la sortie suivante.

14/12/22 15:24:54 INFO sqoop.Sqoop: Running Sqoop version: 1.4.5
14/12/22 15:24:56 INFO manager.MySQLManager: Preparing to use a MySQL streaming resultset.
14/12/22 15:24:56 INFO tool.CodeGenTool: Beginning code generation
14/12/22 15:24:58 INFO manager.SqlManager: Executing SQL statement: 
   SELECT t.* FROM `emp` AS t LIMIT 1
14/12/22 15:24:58 INFO manager.SqlManager: Executing SQL statement: 
   SELECT t.* FROM `emp` AS t LIMIT 1
14/12/22 15:24:58 INFO orm.CompilationManager: HADOOP_MAPRED_HOME is /usr/local/hadoop
14/12/22 15:25:11 INFO orm.CompilationManager: Writing jar file: 
   /tmp/sqoop-hadoop/compile/cebe706d23ebb1fd99c1f063ad51ebd7/emp.jar
-----------------------------------------------------
-----------------------------------------------------
14/12/22 15:25:40 INFO mapreduce.Job: The url to track the job: 
   http://localhost:8088/proxy/application_1419242001831_0001/
14/12/22 15:26:45 INFO mapreduce.Job: Job job_1419242001831_0001 running in uber mode : 
   false
14/12/22 15:26:45 INFO mapreduce.Job: map 0% reduce 0%
14/12/22 15:28:08 INFO mapreduce.Job: map 100% reduce 0%
14/12/22 15:28:16 INFO mapreduce.Job: Job job_1419242001831_0001 completed successfully
-----------------------------------------------------
-----------------------------------------------------
14/12/22 15:28:17 INFO mapreduce.ImportJobBase: Transferred 145 bytes in 177.5849 seconds 
   (0.8165 bytes/sec)
14/12/22 15:28:17 INFO mapreduce.ImportJobBase: Retrieved 5 records.

Pour vérifier les données importées dans HDFS, utilisez la commande suivante.

$ $HADOOP_HOME/bin/hadoop fs -cat /emp/part-m-*

Il vous montre le emp les données et les champs de la table sont séparés par des virgules (,).

1201, gopal,    manager, 50000, TP
1202, manisha,  preader, 50000, TP
1203, kalil,    php dev, 30000, AC
1204, prasanth, php dev, 30000, AC
1205, kranthi,  admin,   20000, TP

Importation dans le répertoire cible

Nous pouvons spécifier le répertoire cible lors de l'importation des données de table dans HDFS à l'aide de l'outil d'importation Sqoop.

Voici la syntaxe pour spécifier le répertoire cible comme option de la commande d'importation Sqoop.

--target-dir <new or exist directory in HDFS>

La commande suivante est utilisée pour importer emp_add table les données dans le répertoire '/ queryresult'.

$ sqoop import \
--connect jdbc:mysql://localhost/userdb \
--username root \
--table emp_add \
--m 1 \
--target-dir /queryresult

La commande suivante est utilisée pour vérifier les données importées dans le formulaire du répertoire / queryresult emp_add table.

$ $HADOOP_HOME/bin/hadoop fs -cat /queryresult/part-m-*

Il vous montrera les données de la table emp_add avec des champs séparés par des virgules (,).

1201, 288A, vgiri,   jublee
1202, 108I, aoc,     sec-bad
1203, 144Z, pgutta,  hyd
1204, 78B,  oldcity, sec-bad
1205, 720C, hitech,  sec-bad

Importer un sous-ensemble de données de table

Nous pouvons importer un sous-ensemble d'une table en utilisant la clause «where» de l'outil d'importation Sqoop. Il exécute la requête SQL correspondante dans le serveur de base de données respectif et stocke le résultat dans un répertoire cible dans HDFS.

La syntaxe de la clause where est la suivante.

--where <condition>

La commande suivante est utilisée pour importer un sous-ensemble de emp_adddonnées de table. La requête de sous-ensemble consiste à récupérer l'identifiant et l'adresse de l'employé, qui vit dans la ville de Secunderabad.

$ sqoop import \
--connect jdbc:mysql://localhost/userdb \
--username root \
--table emp_add \
--m 1 \
--where “city =’sec-bad’” \
--target-dir /wherequery

La commande suivante est utilisée pour vérifier les données importées dans le répertoire / wherequery à partir du emp_add table.

$ $HADOOP_HOME/bin/hadoop fs -cat /wherequery/part-m-*

Il vous montrera le emp_add données de table avec des champs séparés par des virgules (,).

1202, 108I, aoc,     sec-bad
1204, 78B,  oldcity, sec-bad
1205, 720C, hitech,  sec-bad

Importation incrémentielle

L'importation incrémentielle est une technique qui importe uniquement les lignes nouvellement ajoutées dans une table. Il est nécessaire d'ajouter les options «incrémentiel», «colonne de contrôle» et «dernière valeur» pour effectuer l'importation incrémentielle.

La syntaxe suivante est utilisée pour l'option incrémentielle dans la commande d'importation Sqoop.

--incremental <mode>
--check-column <column name>
--last value <last check column value>

Supposons que les données nouvellement ajoutées dans emp le tableau est le suivant -

1206, satish p, grp des, 20000, GR

La commande suivante est utilisée pour effectuer l'importation incrémentielle dans le emp table.

$ sqoop import \
--connect jdbc:mysql://localhost/userdb \
--username root \
--table emp \
--m 1 \
--incremental append \
--check-column id \
-last value 1205

La commande suivante est utilisée pour vérifier les données importées depuis emp table dans le répertoire emp / HDFS.

$ $HADOOP_HOME/bin/hadoop fs -cat /emp/part-m-*

Il vous montre le emp données de table avec des champs séparés par des virgules (,).

1201, gopal,    manager, 50000, TP
1202, manisha,  preader, 50000, TP
1203, kalil,    php dev, 30000, AC
1204, prasanth, php dev, 30000, AC
1205, kranthi,  admin,   20000, TP
1206, satish p, grp des, 20000, GR

La commande suivante est utilisée pour voir les lignes modifiées ou nouvellement ajoutées à partir du emp table.

$ $HADOOP_HOME/bin/hadoop fs -cat /emp/part-m-*1

Il vous montre les lignes nouvellement ajoutées au emp table avec des champs séparés par des virgules (,).

1206, satish p, grp des, 20000, GR