Sqoop - Présentation
Le système de gestion des applications traditionnel, c'est-à-dire l'interaction des applications avec la base de données relationnelle utilisant le SGBDR, est l'une des sources qui génèrent du Big Data. Ces Big Data, générées par le SGBDR, sont stockées dans RelationalDatabase Servers dans la structure de la base de données relationnelle.
Lorsque les stockages et les analyseurs Big Data tels que MapReduce, Hive, HBase, Cassandra, Pig, etc. de l'écosystème Hadoop sont apparus, ils ont besoin d'un outil pour interagir avec les serveurs de bases de données relationnelles pour importer et exporter les Big Data qui y résident. Ici, Sqoop occupe une place dans l'écosystème Hadoop pour fournir une interaction réalisable entre le serveur de base de données relationnelle et le HDFS de Hadoop.
Sqoop - «SQL vers Hadoop et Hadoop vers SQL»
Sqoop est un outil conçu pour transférer des données entre Hadoop et des serveurs de bases de données relationnelles. Il est utilisé pour importer des données à partir de bases de données relationnelles telles que MySQL, Oracle vers Hadoop HDFS et pour exporter du système de fichiers Hadoop vers des bases de données relationnelles. Il est fourni par Apache Software Foundation.
Comment fonctionne Sqoop?
L'image suivante décrit le flux de travail de Sqoop.
Importation Sqoop
L'outil d'importation importe des tables individuelles du SGBDR vers HDFS. Chaque ligne d'une table est traitée comme un enregistrement dans HDFS. Tous les enregistrements sont stockés sous forme de données texte dans des fichiers texte ou sous forme de données binaires dans des fichiers Avro et Sequence.
Exportation Sqoop
L'outil d'exportation exporte un ensemble de fichiers de HDFS vers un SGBDR. Les fichiers fournis en entrée dans Sqoop contiennent des enregistrements, appelés sous forme de lignes dans la table. Ceux-ci sont lus et analysés dans un ensemble d'enregistrements et délimités par un délimiteur spécifié par l'utilisateur.