Sqoop - Pendahuluan
Sistem manajemen aplikasi tradisional, yaitu interaksi aplikasi dengan database relasional menggunakan RDBMS, merupakan salah satu sumber yang menghasilkan Big Data. Big Data tersebut, yang dihasilkan oleh RDBMS, disimpan dalam RelasionalDatabase Servers dalam struktur database relasional.
Ketika penyimpanan dan penganalisis Big Data seperti MapReduce, Hive, HBase, Cassandra, Pig, dll. Dari ekosistem Hadoop muncul, mereka membutuhkan alat untuk berinteraksi dengan server database relasional untuk mengimpor dan mengekspor Big Data yang berada di dalamnya. Di sini, Sqoop menempati tempat di ekosistem Hadoop untuk menyediakan interaksi yang layak antara server database relasional dan HDFS Hadoop.
Sqoop - “SQL ke Hadoop dan Hadoop ke SQL”
Sqoop adalah alat yang dirancang untuk mentransfer data antara Hadoop dan server database relasional. Ini digunakan untuk mengimpor data dari database relasional seperti MySQL, Oracle ke Hadoop HDFS, dan mengekspor dari sistem file Hadoop ke database relasional. Ini disediakan oleh Apache Software Foundation.
Bagaimana Sqoop Bekerja?
Gambar berikut menjelaskan alur kerja Sqoop.
Impor Sqoop
Alat impor mengimpor tabel individu dari RDBMS ke HDFS. Setiap baris dalam tabel diperlakukan sebagai catatan di HDFS. Semua record disimpan sebagai data teks dalam file teks atau sebagai data biner di file Avro dan Sequence.
Ekspor Sqoop
Alat ekspor mengekspor sekumpulan file dari HDFS kembali ke RDBMS. File yang diberikan sebagai input ke Sqoop berisi record, yang disebut sebagai baris dalam tabel. Itu dibaca dan diurai menjadi sekumpulan record dan dibatasi dengan pembatas yang ditentukan pengguna.