Sqoop - Impor

Bab ini menjelaskan cara mengimpor data dari database MySQL ke Hadoop HDFS. 'Alat Impor' mengimpor tabel individu dari RDBMS ke HDFS. Setiap baris dalam tabel diperlakukan sebagai catatan di HDFS. Semua record disimpan sebagai data teks dalam file teks atau sebagai data biner di file Avro dan Sequence.

Sintaksis

Sintaks berikut digunakan untuk mengimpor data ke HDFS.

$ sqoop import (generic-args) (import-args) 
$ sqoop-import (generic-args) (import-args)

Contoh

Mari kita ambil contoh tiga tabel bernama emp, emp_add, dan emp_contact, yang ada di database bernama userdb di server database MySQL.

Ketiga tabel dan datanya adalah sebagai berikut.

emp:

Indo nama derajat gaji dept
1201 gopal Pengelola 50.000 TP
1202 manisha Pembaca bukti 50.000 TP
1203 khalil php dev 30.000 AC
1204 prasanth php dev 30.000 AC
1204 kranthi admin 20.000 TP

emp_add:

Indo hno jalan kota
1201 288A vgiri jublee
1202 108I aoc detik-buruk
1203 144Z pgutta hid
1204 78B kota Tua detik-buruk
1205 720X hitec detik-buruk

emp_contact:

Indo phno surel
1201 2356742 [email protected]
1202 1661663 [email protected]
1203 8887776 [email protected]
1204 9988774 [email protected]
1205 1231231 [email protected]

Mengimpor Tabel

Alat Sqoop 'import' digunakan untuk mengimpor data tabel dari tabel ke sistem file Hadoop sebagai file teks atau file biner.

Perintah berikut digunakan untuk mengimpor file emp tabel dari server database MySQL ke HDFS.

$ sqoop import \
--connect jdbc:mysql://localhost/userdb \
--username root \
--table emp --m 1

Jika berhasil dijalankan, maka Anda mendapatkan output berikut.

14/12/22 15:24:54 INFO sqoop.Sqoop: Running Sqoop version: 1.4.5
14/12/22 15:24:56 INFO manager.MySQLManager: Preparing to use a MySQL streaming resultset.
14/12/22 15:24:56 INFO tool.CodeGenTool: Beginning code generation
14/12/22 15:24:58 INFO manager.SqlManager: Executing SQL statement: 
   SELECT t.* FROM `emp` AS t LIMIT 1
14/12/22 15:24:58 INFO manager.SqlManager: Executing SQL statement: 
   SELECT t.* FROM `emp` AS t LIMIT 1
14/12/22 15:24:58 INFO orm.CompilationManager: HADOOP_MAPRED_HOME is /usr/local/hadoop
14/12/22 15:25:11 INFO orm.CompilationManager: Writing jar file: 
   /tmp/sqoop-hadoop/compile/cebe706d23ebb1fd99c1f063ad51ebd7/emp.jar
-----------------------------------------------------
-----------------------------------------------------
14/12/22 15:25:40 INFO mapreduce.Job: The url to track the job: 
   http://localhost:8088/proxy/application_1419242001831_0001/
14/12/22 15:26:45 INFO mapreduce.Job: Job job_1419242001831_0001 running in uber mode : 
   false
14/12/22 15:26:45 INFO mapreduce.Job: map 0% reduce 0%
14/12/22 15:28:08 INFO mapreduce.Job: map 100% reduce 0%
14/12/22 15:28:16 INFO mapreduce.Job: Job job_1419242001831_0001 completed successfully
-----------------------------------------------------
-----------------------------------------------------
14/12/22 15:28:17 INFO mapreduce.ImportJobBase: Transferred 145 bytes in 177.5849 seconds 
   (0.8165 bytes/sec)
14/12/22 15:28:17 INFO mapreduce.ImportJobBase: Retrieved 5 records.

Untuk memverifikasi data yang diimpor di HDFS, gunakan perintah berikut.

$ $HADOOP_HOME/bin/hadoop fs -cat /emp/part-m-*

Ini menunjukkan kepada Anda emp data tabel dan bidang dipisahkan dengan koma (,).

1201, gopal,    manager, 50000, TP
1202, manisha,  preader, 50000, TP
1203, kalil,    php dev, 30000, AC
1204, prasanth, php dev, 30000, AC
1205, kranthi,  admin,   20000, TP

Mengimpor ke Direktori Target

Kita dapat menentukan direktori target saat mengimpor data tabel ke HDFS menggunakan alat impor Sqoop.

Berikut ini adalah sintaks untuk menentukan direktori target sebagai opsi untuk perintah impor Sqoop.

--target-dir <new or exist directory in HDFS>

Perintah berikut digunakan untuk mengimpor emp_add tabel data ke dalam direktori '/ queryresult'.

$ sqoop import \
--connect jdbc:mysql://localhost/userdb \
--username root \
--table emp_add \
--m 1 \
--target-dir /queryresult

Perintah berikut digunakan untuk memverifikasi data yang diimpor dalam bentuk direktori / queryresult emp_add meja.

$ $HADOOP_HOME/bin/hadoop fs -cat /queryresult/part-m-*

Ini akan menunjukkan kepada Anda data tabel emp_add dengan bidang dipisahkan koma (,).

1201, 288A, vgiri,   jublee
1202, 108I, aoc,     sec-bad
1203, 144Z, pgutta,  hyd
1204, 78B,  oldcity, sec-bad
1205, 720C, hitech,  sec-bad

Impor Subset Data Tabel

Kita dapat mengimpor subset dari tabel menggunakan klausa 'where' di alat impor Sqoop. Ini mengeksekusi kueri SQL yang sesuai di server database masing-masing dan menyimpan hasilnya di direktori target di HDFS.

Sintaks klausa where adalah sebagai berikut.

--where <condition>

Perintah berikut digunakan untuk mengimpor subset dari emp_adddata tabel. Kueri subset adalah untuk mengambil id dan alamat karyawan, yang tinggal di kota Secunderabad.

$ sqoop import \
--connect jdbc:mysql://localhost/userdb \
--username root \
--table emp_add \
--m 1 \
--where “city =’sec-bad’” \
--target-dir /wherequery

Perintah berikut digunakan untuk memverifikasi data yang diimpor di direktori / wherequery dari emp_add meja.

$ $HADOOP_HOME/bin/hadoop fs -cat /wherequery/part-m-*

Ini akan menunjukkan kepada Anda emp_add data tabel dengan bidang yang dipisahkan koma (,).

1202, 108I, aoc,     sec-bad
1204, 78B,  oldcity, sec-bad
1205, 720C, hitech,  sec-bad

Impor Tambahan

Impor inkremental adalah teknik yang hanya mengimpor baris yang baru ditambahkan dalam tabel. Anda harus menambahkan opsi 'incremental', 'check-column', dan 'last-value' untuk melakukan impor tambahan.

Sintaks berikut digunakan untuk opsi tambahan dalam perintah impor Sqoop.

--incremental <mode>
--check-column <column name>
--last value <last check column value>

Mari kita asumsikan data yang baru ditambahkan ke emp tabel adalah sebagai berikut -

1206, satish p, grp des, 20000, GR

Perintah berikut digunakan untuk melakukan impor inkremental di file emp meja.

$ sqoop import \
--connect jdbc:mysql://localhost/userdb \
--username root \
--table emp \
--m 1 \
--incremental append \
--check-column id \
-last value 1205

Perintah berikut digunakan untuk memverifikasi data yang diimpor dari emp tabel ke direktori emp / HDFS.

$ $HADOOP_HOME/bin/hadoop fs -cat /emp/part-m-*

Ini menunjukkan kepada Anda emp data tabel dengan bidang yang dipisahkan koma (,).

1201, gopal,    manager, 50000, TP
1202, manisha,  preader, 50000, TP
1203, kalil,    php dev, 30000, AC
1204, prasanth, php dev, 30000, AC
1205, kranthi,  admin,   20000, TP
1206, satish p, grp des, 20000, GR

Perintah berikut digunakan untuk melihat baris yang dimodifikasi atau baru ditambahkan dari emp meja.

$ $HADOOP_HOME/bin/hadoop fs -cat /emp/part-m-*1

Ini menunjukkan kepada Anda baris yang baru ditambahkan ke emp tabel dengan bidang yang dipisahkan koma (,).

1206, satish p, grp des, 20000, GR