Sqoop-퀵 가이드

전통적인 애플리케이션 관리 시스템, 즉 RDBMS를 사용하는 관계형 데이터베이스와 애플리케이션의 상호 작용은 빅 데이터를 생성하는 소스 중 하나입니다. RDBMS에서 생성 된 이러한 빅 데이터는 관계형에 저장됩니다.Database Servers 관계형 데이터베이스 구조에서.

Hadoop 생태계의 MapReduce, Hive, HBase, Cassandra, Pig 등과 같은 빅 데이터 스토리지 및 분석기가 등장했을 때, 그 안에 상주하는 빅 데이터를 가져오고 내보내기 위해 관계형 데이터베이스 서버와 상호 작용하는 도구가 필요했습니다. 여기에서 Sqoop은 관계형 데이터베이스 서버와 Hadoop의 HDFS 간의 실행 가능한 상호 작용을 제공하기 위해 Hadoop 에코 시스템의 한 자리를 차지합니다.

Sqoop − "SQL에서 Hadoop으로, Hadoop에서 SQL로"

Sqoop은 Hadoop과 관계형 데이터베이스 서버간에 데이터를 전송하도록 설계된 도구입니다. MySQL, Oracle과 같은 관계형 데이터베이스에서 Hadoop HDFS로 데이터를 가져오고 Hadoop 파일 시스템에서 관계형 데이터베이스로 내보내는 데 사용됩니다. Apache Software Foundation에서 제공합니다.

Sqoop은 어떻게 작동합니까?

다음 이미지는 Sqoop의 워크 플로를 설명합니다.

Sqoop 가져 오기

가져 오기 도구는 RDBMS에서 HDFS로 개별 테이블을 가져옵니다. 테이블의 각 행은 HDFS에서 레코드로 처리됩니다. 모든 레코드는 텍스트 파일의 텍스트 데이터 또는 Avro 및 Sequence 파일의 이진 데이터로 저장됩니다.

Sqoop 내보내기

내보내기 도구는 HDFS에서 RDBMS로 파일 세트를 다시 내 보냅니다. Sqoop에 대한 입력으로 제공된 파일에는 테이블의 행이라고하는 레코드가 포함됩니다. 이를 읽고 레코드 세트로 구문 분석하고 사용자 지정 구분 기호로 구분합니다.

Sqoop은 Hadoop의 하위 프로젝트이므로 Linux 운영 체제에서만 작동 할 수 있습니다. 시스템에 Sqoop을 설치하려면 아래 단계를 따르십시오.

1 단계 : JAVA 설치 확인

Sqoop을 설치하기 전에 시스템에 Java가 설치되어 있어야합니다. 다음 명령을 사용하여 Java 설치를 확인하겠습니다.

$ java –version

Java가 이미 시스템에 설치되어있는 경우 다음 응답이 표시됩니다.

java version "1.7.0_71"
Java(TM) SE Runtime Environment (build 1.7.0_71-b13)
Java HotSpot(TM) Client VM (build 25.0-b02, mixed mode)

시스템에 Java가 설치되어 있지 않으면 아래 단계를 따르십시오.

자바 설치

시스템에 Java를 설치하려면 아래의 간단한 단계를 따르십시오.

1 단계

다음 링크 를 방문하여 Java (JDK <최신 버전>-X64.tar.gz)를 다운로드 하십시오 .

그런 다음 jdk-7u71-linux-x64.tar.gz가 시스템에 다운로드됩니다.

2 단계

일반적으로 다운로드 폴더에서 다운로드 한 Java 파일을 찾을 수 있습니다. 이를 확인하고 다음 명령을 사용하여 jdk-7u71-linux-x64.gz 파일을 추출하십시오.

$ cd Downloads/
$ ls
jdk-7u71-linux-x64.gz
$ tar zxf jdk-7u71-linux-x64.gz
$ ls
jdk1.7.0_71 jdk-7u71-linux-x64.gz

3 단계

모든 사용자가 Java를 사용할 수 있도록하려면 "/ usr / local /"위치로 이동해야합니다. 루트를 열고 다음 명령을 입력하십시오.

$ su
password:

# mv jdk1.7.0_71 /usr/local/java
# exitStep IV:

4 단계

PATH 및 JAVA_HOME 변수를 설정하려면 ~ / .bashrc 파일에 다음 명령을 추가하십시오.

export JAVA_HOME=/usr/local/java
export PATH=$PATH:$JAVA_HOME/bin

이제 모든 변경 사항을 현재 실행중인 시스템에 적용합니다.

$ source ~/.bashrc

5 단계

다음 명령을 사용하여 Java 대안을 구성하십시오-

# alternatives --install /usr/bin/java java usr/local/java/bin/java 2
# alternatives --install /usr/bin/javac javac usr/local/java/bin/javac 2
# alternatives --install /usr/bin/jar jar usr/local/java/bin/jar 2

# alternatives --set java usr/local/java/bin/java
# alternatives --set javac usr/local/java/bin/javac
# alternatives --set jar usr/local/java/bin/jar

이제 명령을 사용하여 설치를 확인하십시오. java -version 위에서 설명한대로 터미널에서.

2 단계 : Hadoop 설치 확인

Sqoop을 설치하기 전에 시스템에 Hadoop을 설치해야합니다. 다음 명령을 사용하여 Hadoop 설치를 확인하겠습니다.

$ hadoop version

Hadoop이 이미 시스템에 설치되어있는 경우 다음 응답을 받게됩니다.

Hadoop 2.4.1
--
Subversion https://svn.apache.org/repos/asf/hadoop/common -r 1529768
Compiled by hortonmu on 2013-10-07T06:28Z
Compiled with protoc 2.5.0
From source with checksum 79e53ce7994d1628b240f09af91e1af4

시스템에 Hadoop이 설치되어 있지 않으면 다음 단계를 진행하십시오.

Hadoop 다운로드

다음 명령을 사용하여 Apache Software Foundation에서 Hadoop 2.4.1을 다운로드하고 추출합니다.

$ su
password:

# cd /usr/local
# wget http://apache.claz.org/hadoop/common/hadoop-2.4.1/
hadoop-2.4.1.tar.gz
# tar xzf hadoop-2.4.1.tar.gz
# mv hadoop-2.4.1/* to hadoop/
# exit

의사 분산 모드에서 Hadoop 설치

의사 분산 모드에서 Hadoop 2.4.1을 설치하려면 아래 단계를 따르십시오.

1 단계 : Hadoop 설정

~ / .bashrc 파일에 다음 명령을 추가하여 Hadoop 환경 변수를 설정할 수 있습니다.

export HADOOP_HOME=/usr/local/hadoop
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

이제 모든 변경 사항을 현재 실행중인 시스템에 적용합니다.

$ source ~/.bashrc

2 단계 : Hadoop 구성

"$ HADOOP_HOME / etc / hadoop"위치에서 모든 Hadoop 구성 파일을 찾을 수 있습니다. Hadoop 인프라에 따라 해당 구성 파일을 적절하게 변경해야합니다.

$ cd $HADOOP_HOME/etc/hadoop

Java를 사용하여 Hadoop 프로그램을 개발하려면 다음에서 Java 환경 변수를 재설정해야합니다. hadoop-env.sh JAVA_HOME 값을 시스템의 java 위치로 대체하여 파일.

export JAVA_HOME=/usr/local/java

다음은 Hadoop을 구성하기 위해 편집해야하는 파일 목록입니다.

core-site.xml

core-site.xml 파일에는 Hadoop 인스턴스에 사용되는 포트 번호, 파일 시스템에 할당 된 메모리, 데이터 저장을위한 메모리 제한 및 읽기 / 쓰기 버퍼 크기와 같은 정보가 포함됩니다.

core-site.xml을 열고 <configuration> 및 </ configuration> 태그 사이에 다음 속성을 추가합니다.

<configuration>
   <property>
      <name>fs.default.name</name>
      <value>hdfs://localhost:9000 </value>
   </property>
</configuration>

hdfs-site.xml

hdfs-site.xml 파일에는 복제 데이터 값, 이름 노드 경로 및 로컬 파일 시스템의 데이터 노드 경로와 같은 정보가 포함됩니다. Hadoop 인프라를 저장하려는 장소를 의미합니다.

다음 데이터를 가정 해 보겠습니다.

dfs.replication (data replication value) = 1

(In the following path /hadoop/ is the user name.
hadoopinfra/hdfs/namenode is the directory created by hdfs file system.)
namenode path = //home/hadoop/hadoopinfra/hdfs/namenode

(hadoopinfra/hdfs/datanode is the directory created by hdfs file system.)
datanode path = //home/hadoop/hadoopinfra/hdfs/datanode

이 파일을 열고이 파일의 <configuration>, </ configuration> 태그 사이에 다음 속성을 추가합니다.

<configuration>
   <property>
      <name>dfs.replication</name>
      <value>1</value>
   </property>
   
   <property>
      <name>dfs.name.dir</name>
      <value>file:///home/hadoop/hadoopinfra/hdfs/namenode </value>
   </property>
   
   <property>
      <name>dfs.data.dir</name>
      <value>file:///home/hadoop/hadoopinfra/hdfs/datanode </value>
   </property>
</configuration>

Note − 위 파일에서 모든 속성 값은 사용자 정의되며 Hadoop 인프라에 따라 변경할 수 있습니다.

yarn-site.xml

이 파일은 yarn을 Hadoop으로 구성하는 데 사용됩니다. yarn-site.xml 파일을 열고이 파일의 <configuration>, </ configuration> 태그 사이에 다음 특성을 추가하십시오.

<configuration>
   <property>
      <name>yarn.nodemanager.aux-services</name>
      <value>mapreduce_shuffle</value>
   </property>
</configuration>

mapred-site.xml

이 파일은 우리가 사용하는 MapReduce 프레임 워크를 지정하는 데 사용됩니다. 기본적으로 Hadoop에는 yarn-site.xml의 템플릿이 포함되어 있습니다. 먼저 다음 명령을 사용하여 mapred-site.xml.template에서 mapred-site.xml 파일로 파일을 복사해야합니다.

$ cp mapred-site.xml.template mapred-site.xml

mapred-site.xml 파일을 열고이 파일의 <configuration>, </ configuration> 태그 사이에 다음 속성을 추가합니다.

<configuration>
   <property>
      <name>mapreduce.framework.name</name>
      <value>yarn</value>
   </property>
</configuration>

Hadoop 설치 확인

다음 단계는 Hadoop 설치를 확인하는 데 사용됩니다.

1 단계 : 이름 노드 설정

다음과 같이“hdfs namenode -format”명령을 사용하여 namenode를 설정합니다.

$ cd ~
$ hdfs namenode -format

예상 결과는 다음과 같습니다.

10/24/14 21:30:55 INFO namenode.NameNode: STARTUP_MSG:
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG: host = localhost/192.168.1.11
STARTUP_MSG: args = [-format]
STARTUP_MSG: version = 2.4.1
...
...
10/24/14 21:30:56 INFO common.Storage: Storage directory
/home/hadoop/hadoopinfra/hdfs/namenode has been successfully formatted.
10/24/14 21:30:56 INFO namenode.NNStorageRetentionManager: Going to
retain 1 images with txid >= 0
10/24/14 21:30:56 INFO util.ExitUtil: Exiting with status 0
10/24/14 21:30:56 INFO namenode.NameNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at localhost/192.168.1.11
************************************************************/

2 단계 : Hadoop dfs 확인

다음 명령은 dfs를 시작하는 데 사용됩니다. 이 명령을 실행하면 Hadoop 파일 시스템이 시작됩니다.

$ start-dfs.sh

예상 출력은 다음과 같습니다.

10/24/14 21:37:56
Starting namenodes on [localhost]
localhost: starting namenode, logging to /home/hadoop/hadoop-
2.4.1/logs/hadoop-hadoop-namenode-localhost.out
localhost: starting datanode, logging to /home/hadoop/hadoop-
2.4.1/logs/hadoop-hadoop-datanode-localhost.out
Starting secondary namenodes [0.0.0.0]

3 단계 : Yarn 스크립트 확인

다음 명령은 yarn 스크립트를 시작하는 데 사용됩니다. 이 명령을 실행하면 yarn 데몬이 시작됩니다.

$ start-yarn.sh

예상 출력은 다음과 같습니다.

starting yarn daemons
starting resourcemanager, logging to /home/hadoop/hadoop-
2.4.1/logs/yarn-hadoop-resourcemanager-localhost.out
localhost: starting node manager, logging to /home/hadoop/hadoop-
2.4.1/logs/yarn-hadoop-nodemanager-localhost.out

4 단계 : 브라우저에서 Hadoop 액세스

Hadoop에 액세스하기위한 기본 포트 번호는 50070입니다. 다음 URL을 사용하여 브라우저에서 Hadoop 서비스를 가져옵니다.

http://localhost:50070/

다음 이미지는 Hadoop 브라우저를 보여줍니다.

5 단계 : 클러스터의 모든 애플리케이션 확인

클러스터의 모든 애플리케이션에 액세스하기위한 기본 포트 번호는 8088입니다.이 서비스를 방문하려면 다음 URL을 사용하십시오.

http://localhost:8088/

다음 이미지는 Hadoop 클러스터 브라우저를 보여줍니다.

3 단계 : Sqoop 다운로드

다음 링크 에서 최신 버전의 Sqoop을 다운로드 할 수 있습니다. 이 자습서에서는 버전 1.4.5를 사용합니다.sqoop-1.4.5.bin__hadoop-2.0.4-alpha.tar.gz.

4 단계 : Sqoop 설치

다음 명령은 Sqoop tar ball을 추출하여“/ usr / lib / sqoop”디렉토리로 이동하는 데 사용됩니다.

$tar -xvf sqoop-1.4.4.bin__hadoop-2.0.4-alpha.tar.gz
$ su
password:

# mv sqoop-1.4.4.bin__hadoop-2.0.4-alpha /usr/lib/sqoop
#exit

5 단계 : bashrc 구성

~ /에 다음 줄을 추가하여 Sqoop 환경을 설정해야합니다..bashrc 파일-

#Sqoop
export SQOOP_HOME=/usr/lib/sqoop export PATH=$PATH:$SQOOP_HOME/bin

~ /를 실행하려면 다음 명령을 사용합니다..bashrc 파일.

$ source ~/.bashrc

6 단계 : Sqoop 구성

Hadoop으로 Sqoop을 구성하려면 다음을 편집해야합니다. sqoop-env.sh 파일은 $SQOOP_HOME/conf예배 규칙서. 우선, Sqoop 구성 디렉토리로 리디렉션하고 다음 명령을 사용하여 템플릿 파일을 복사하십시오.

$ cd $SQOOP_HOME/conf
$ mv sqoop-env-template.sh sqoop-env.sh

열다 sqoop-env.sh 다음 줄을 편집하십시오-

export HADOOP_COMMON_HOME=/usr/local/hadoop 
export HADOOP_MAPRED_HOME=/usr/local/hadoop

7 단계 : mysql-connector-java 다운로드 및 구성

다운로드 할 수 있습니다 mysql-connector-java-5.1.30.tar.gz다음 링크 에서 파일 .

다음 명령은 mysql-connector-java tarball을 추출하고 이동하는 데 사용됩니다. mysql-connector-java-5.1.30-bin.jar / usr / lib / sqoop / lib 디렉토리로.

$ tar -zxf mysql-connector-java-5.1.30.tar.gz
$ su
password:

# cd mysql-connector-java-5.1.30
# mv mysql-connector-java-5.1.30-bin.jar /usr/lib/sqoop/lib

8 단계 : Sqoop 확인

다음 명령은 Sqoop 버전을 확인하는 데 사용됩니다.

$ cd $SQOOP_HOME/bin
$ sqoop-version

예상 출력-

14/12/17 14:52:32 INFO sqoop.Sqoop: Running Sqoop version: 1.4.5
Sqoop 1.4.5 git commit id 5b34accaca7de251fc91161733f906af2eddbe83
Compiled by abe on Fri Aug 1 11:19:26 PDT 2014

Sqoop 설치가 완료되었습니다.

이 장에서는 MySQL 데이터베이스에서 Hadoop HDFS로 데이터를 가져 오는 방법에 대해 설명합니다. '가져 오기 도구'는 RDBMS에서 HDFS로 개별 테이블을 가져옵니다. 테이블의 각 행은 HDFS에서 레코드로 처리됩니다. 모든 레코드는 텍스트 파일에 텍스트 데이터로 저장되거나 Avro 및 Sequence 파일에 이진 데이터로 저장됩니다.

통사론

다음 구문은 데이터를 HDFS로 가져 오는 데 사용됩니다.

$ sqoop import (generic-args) (import-args) 
$ sqoop-import (generic-args) (import-args)

다음과 같은 세 테이블의 예를 살펴 보겠습니다. emp, emp_add, 및 emp_contact, MySQL 데이터베이스 서버의 userdb라는 데이터베이스에 있습니다.

세 개의 테이블과 그 데이터는 다음과 같습니다.

emp :

신분증 이름 봉급 부서
1201 고팔 매니저 50,000 TP
1202 Manisha 증거 판독기 50,000 TP
1203 년 칼릴 PHP 개발 30,000 AC
1204 프라 산스 PHP 개발 30,000 AC
1204 Kranthi 관리자 20,000 TP

emp_add :

신분증 hno 거리 시티
1201 288A vgiri 희년
1202 108I AOC 초-나쁜
1203 년 144Z Pgutta 하이드
1204 78B 오래된 도시 초-나쁜
1205 년 720X 하이텍 초-나쁜

emp_contact :

신분증 phno 이메일
1201 2356742 [email protected]
1202 1661663 [email protected]
1203 년 8887776 [email protected]
1204 9988774 [email protected]
1205 년 1231231 [email protected]

테이블 가져 오기

Sqoop 도구 'import'는 테이블 데이터를 테이블에서 Hadoop 파일 시스템으로 텍스트 파일 또는 이진 파일로 가져 오는 데 사용됩니다.

다음 명령을 사용하여 emp MySQL 데이터베이스 서버에서 HDFS로 테이블.

$ sqoop import \
--connect jdbc:mysql://localhost/userdb \
--username root \
--table emp --m 1

성공적으로 실행되면 다음 출력이 표시됩니다.

14/12/22 15:24:54 INFO sqoop.Sqoop: Running Sqoop version: 1.4.5
14/12/22 15:24:56 INFO manager.MySQLManager: Preparing to use a MySQL streaming resultset.
14/12/22 15:24:56 INFO tool.CodeGenTool: Beginning code generation
14/12/22 15:24:58 INFO manager.SqlManager: Executing SQL statement: 
   SELECT t.* FROM `emp` AS t LIMIT 1
14/12/22 15:24:58 INFO manager.SqlManager: Executing SQL statement: 
   SELECT t.* FROM `emp` AS t LIMIT 1
14/12/22 15:24:58 INFO orm.CompilationManager: HADOOP_MAPRED_HOME is /usr/local/hadoop
14/12/22 15:25:11 INFO orm.CompilationManager: Writing jar file: 
   /tmp/sqoop-hadoop/compile/cebe706d23ebb1fd99c1f063ad51ebd7/emp.jar
-----------------------------------------------------
-----------------------------------------------------
14/12/22 15:25:40 INFO mapreduce.Job: The url to track the job: 
   http://localhost:8088/proxy/application_1419242001831_0001/
14/12/22 15:26:45 INFO mapreduce.Job: Job job_1419242001831_0001 running in uber mode : 
   false
14/12/22 15:26:45 INFO mapreduce.Job: map 0% reduce 0%
14/12/22 15:28:08 INFO mapreduce.Job: map 100% reduce 0%
14/12/22 15:28:16 INFO mapreduce.Job: Job job_1419242001831_0001 completed successfully
-----------------------------------------------------
-----------------------------------------------------
14/12/22 15:28:17 INFO mapreduce.ImportJobBase: Transferred 145 bytes in 177.5849 seconds 
   (0.8165 bytes/sec)
14/12/22 15:28:17 INFO mapreduce.ImportJobBase: Retrieved 5 records.

HDFS에서 가져온 데이터를 확인하려면 다음 명령을 사용하십시오.

$ $HADOOP_HOME/bin/hadoop fs -cat /emp/part-m-*

그것은 당신에게 보여줍니다 emp 테이블 데이터와 필드는 쉼표 (,)로 구분됩니다.

1201, gopal,    manager, 50000, TP
1202, manisha,  preader, 50000, TP
1203, kalil,    php dev, 30000, AC
1204, prasanth, php dev, 30000, AC
1205, kranthi,  admin,   20000, TP

대상 디렉터리로 가져 오기

Sqoop 가져 오기 도구를 사용하여 테이블 데이터를 HDFS로 가져 오는 동안 대상 디렉터리를 지정할 수 있습니다.

다음은 Sqoop 가져 오기 명령에 대한 옵션으로 대상 디렉터리를 지정하는 구문입니다.

--target-dir <new or exist directory in HDFS>

다음 명령은 가져 오기에 사용됩니다. emp_add 테이블 데이터를 '/ queryresult'디렉토리에 저장합니다.

$ sqoop import \
--connect jdbc:mysql://localhost/userdb \
--username root \
--table emp_add \
--m 1 \
--target-dir /queryresult

다음 명령은 / queryresult 디렉토리 형식으로 가져온 데이터를 확인하는 데 사용됩니다. emp_add 표.

$ $HADOOP_HOME/bin/hadoop fs -cat /queryresult/part-m-*

쉼표 (,)로 구분 된 필드가있는 emp_add 테이블 데이터가 표시됩니다.

1201, 288A, vgiri,   jublee
1202, 108I, aoc,     sec-bad
1203, 144Z, pgutta,  hyd
1204, 78B,  oldcity, sec-bad
1205, 720C, hitech,  sec-bad

테이블 데이터의 하위 집합 가져 오기

Sqoop 가져 오기 도구의 'where'절을 사용하여 테이블의 하위 집합을 가져올 수 있습니다. 각 데이터베이스 서버에서 해당 SQL 쿼리를 실행하고 그 결과를 HDFS의 대상 디렉터리에 저장합니다.

where 절의 구문은 다음과 같습니다.

--where <condition>

다음 명령은 하위 집합을 가져 오는 데 사용됩니다. emp_add테이블 데이터. 서브 세트 쿼리는 Secunderabad 도시에 거주하는 직원 ID와 주소를 검색하는 것입니다.

$ sqoop import \
--connect jdbc:mysql://localhost/userdb \
--username root \
--table emp_add \
--m 1 \
--where “city =’sec-bad’” \
--target-dir /wherequery

다음 명령은 / wherequery 디렉토리에서 가져온 데이터를 확인하는 데 사용됩니다. emp_add 표.

$ $HADOOP_HOME/bin/hadoop fs -cat /wherequery/part-m-*

그것은 당신에게 보여줄 것입니다 emp_add 쉼표 (,)로 구분 된 필드가있는 테이블 데이터.

1202, 108I, aoc,     sec-bad
1204, 78B,  oldcity, sec-bad
1205, 720C, hitech,  sec-bad

증분 가져 오기

증분 가져 오기는 테이블에 새로 추가 된 행만 가져 오는 기술입니다. 증분 가져 오기를 수행하려면 'incremental', 'check-column'및 'last-value'옵션을 추가해야합니다.

다음 구문은 Sqoop 가져 오기 명령의 증분 옵션에 사용됩니다.

--incremental <mode>
--check-column <column name>
--last value <last check column value>

새로 추가 된 데이터를 emp 표는 다음과 같습니다-

1206, satish p, grp des, 20000, GR

다음 명령은 서버에서 증분 가져 오기를 수행하는 데 사용됩니다. emp 표.

$ sqoop import \
--connect jdbc:mysql://localhost/userdb \
--username root \
--table emp \
--m 1 \
--incremental append \
--check-column id \
-last value 1205

다음 명령은 다음에서 가져온 데이터를 확인하는 데 사용됩니다. emp 테이블을 HDFS emp / 디렉토리에 추가합니다.

$ $HADOOP_HOME/bin/hadoop fs -cat /emp/part-m-*

그것은 당신에게 보여줍니다 emp 쉼표 (,)로 구분 된 필드가있는 테이블 데이터.

1201, gopal,    manager, 50000, TP
1202, manisha,  preader, 50000, TP
1203, kalil,    php dev, 30000, AC
1204, prasanth, php dev, 30000, AC
1205, kranthi,  admin,   20000, TP
1206, satish p, grp des, 20000, GR

다음 명령은 수정되거나 새로 추가 된 행을 확인하는 데 사용됩니다. emp 표.

$ $HADOOP_HOME/bin/hadoop fs -cat /emp/part-m-*1

새로 추가 된 행을 emp 쉼표 (,)로 구분 된 필드가있는 테이블.

1206, satish p, grp des, 20000, GR

이 장에서는 RDBMS 데이터베이스 서버에서 HDFS로 모든 테이블을 가져 오는 방법에 대해 설명합니다. 각 테이블 데이터는 별도의 디렉터리에 저장되며 디렉터리 이름은 테이블 이름과 동일합니다.

통사론

다음 구문은 모든 테이블을 가져 오는 데 사용됩니다.

$ sqoop import-all-tables (generic-args) (import-args) 
$ sqoop-import-all-tables (generic-args) (import-args)

에서 모든 테이블을 가져 오는 예를 살펴 보겠습니다. userdb데이터 베이스. 데이터베이스가 테이블 목록userdb 포함은 다음과 같습니다.

+--------------------+
 |      Tables        |
 +--------------------+
 |      emp           |
 |      emp_add       |
 |      emp_contact   |
 +--------------------+

다음 명령은에서 모든 테이블을 가져 오는 데 사용됩니다. userdb 데이터 베이스.

$ sqoop import-all-tables \
--connect jdbc:mysql://localhost/userdb \
--username root

Note − 모든 테이블 가져 오기를 사용하는 경우 해당 데이터베이스의 모든 테이블에 기본 키 필드가 있어야합니다.

다음 명령은 HDFS의 userdb 데이터베이스에 대한 모든 테이블 데이터를 확인하는 데 사용됩니다.

$ $HADOOP_HOME/bin/hadoop fs -ls

userdb 데이터베이스의 테이블 이름 목록이 디렉토리로 표시됩니다.

산출

drwxr-xr-x - hadoop supergroup 0 2014-12-22 22:50 _sqoop
drwxr-xr-x - hadoop supergroup 0 2014-12-23 01:46 emp
drwxr-xr-x - hadoop supergroup 0 2014-12-23 01:50 emp_add
drwxr-xr-x - hadoop supergroup 0 2014-12-23 01:52 emp_contact

이 장에서는 HDFS에서 RDBMS 데이터베이스로 데이터를 다시 내보내는 방법에 대해 설명합니다. 대상 테이블은 대상 데이터베이스에 있어야합니다. Sqoop에 입력으로 제공되는 파일에는 테이블의 행이라고하는 레코드가 포함됩니다. 이를 읽고 레코드 세트로 구문 분석하고 사용자 지정 구분 기호로 구분합니다.

기본 작업은 INSERT 문을 사용하여 입력 파일의 모든 레코드를 데이터베이스 테이블에 삽입하는 것입니다. 업데이트 모드에서 Sqoop은 기존 레코드를 데이터베이스로 대체하는 UPDATE 문을 생성합니다.

통사론

다음은 내보내기 명령 구문입니다.

$ sqoop export (generic-args) (export-args) 
$ sqoop-export (generic-args) (export-args)

HDFS의 파일에있는 직원 데이터의 예를 들어 보겠습니다. 직원 데이터는emp_dataHDFS의 'emp /'디렉토리에있는 파일. 그만큼emp_data 다음과 같다.

1201, gopal,     manager, 50000, TP
1202, manisha,   preader, 50000, TP
1203, kalil,     php dev, 30000, AC
1204, prasanth,  php dev, 30000, AC
1205, kranthi,   admin,   20000, TP
1206, satish p,  grp des, 20000, GR

내보낼 테이블을 수동으로 작성하고 내 보내야하는 데이터베이스에 있어야합니다.

다음 쿼리는 mysql 명령 줄에서 'employee'테이블을 만드는 데 사용됩니다.

$ mysql
mysql> USE db;
mysql> CREATE TABLE employee ( 
   id INT NOT NULL PRIMARY KEY, 
   name VARCHAR(20), 
   deg VARCHAR(20),
   salary INT,
   dept VARCHAR(10));

다음 명령은 테이블 데이터를 내보내는 데 사용됩니다. emp_data 파일)을 Mysql 데이터베이스 서버의 db 데이터베이스에있는 employee 테이블에 추가합니다.

$ sqoop export \
--connect jdbc:mysql://localhost/db \
--username root \
--table employee \ 
--export-dir /emp/emp_data

다음 명령은 mysql 명령 줄에서 테이블을 확인하는 데 사용됩니다.

mysql>select * from employee;

주어진 데이터가 성공적으로 저장되면 주어진 직원 데이터에 대한 다음 표를 찾을 수 있습니다.

+------+--------------+-------------+-------------------+--------+
| Id   | Name         | Designation | Salary            | Dept   |
+------+--------------+-------------+-------------------+--------+
| 1201 | gopal        | manager     | 50000             | TP     |
| 1202 | manisha      | preader     | 50000             | TP     |
| 1203 | kalil        | php dev     | 30000             | AC     |
| 1204 | prasanth     | php dev     | 30000             | AC     |
| 1205 | kranthi      | admin       | 20000             | TP     |
| 1206 | satish p     | grp des     | 20000             | GR     |
+------+--------------+-------------+-------------------+--------+

이 장에서는 Sqoop 작업을 만들고 유지하는 방법에 대해 설명합니다. Sqoop 작업은 가져 오기 및 내보내기 명령을 생성하고 저장합니다. 저장된 작업을 식별하고 호출하기위한 매개 변수를 지정합니다. 이 재 호출 또는 재실행은 RDBMS 테이블에서 HDFS로 업데이트 된 행을 가져올 수있는 증분 가져 오기에 사용됩니다.

통사론

다음은 Sqoop 작업을 생성하는 구문입니다.

$ sqoop job (generic-args) (job-args)
   [-- [subtool-name] (subtool-args)]

$ sqoop-job (generic-args) (job-args)
   [-- [subtool-name] (subtool-args)]

작업 생성 (--create)

여기서 우리는 myjob, RDBMS 테이블에서 HDFS로 테이블 데이터를 가져올 수 있습니다. 다음 명령은에서 데이터를 가져 오는 작업을 만드는 데 사용됩니다.employee 테이블에 db HDFS 파일에 데이터베이스.

$ sqoop job --create myjob \
-- import \
--connect jdbc:mysql://localhost/db \
--username root \
--table employee --m 1

작업 확인 (--list)

‘--list’인수는 저장된 작업을 확인하는 데 사용됩니다. 다음 명령은 저장된 Sqoop 작업 목록을 확인하는 데 사용됩니다.

$ sqoop job --list

저장된 작업 목록을 보여줍니다.

Available jobs: 
   myjob

작업 검사 (--show)

‘--show’인수는 특정 작업 및 세부 정보를 검사하거나 확인하는 데 사용됩니다. 다음 명령 및 샘플 출력은 다음과 같은 작업을 확인하는 데 사용됩니다.myjob.

$ sqoop job --show myjob

다음에서 사용되는 도구와 해당 옵션을 보여줍니다. myjob.

Job: myjob 
 Tool: import Options:
 ---------------------------- 
 direct.import = true
 codegen.input.delimiters.record = 0
 hdfs.append.dir = false 
 db.table = employee
 ...
 incremental.last.value = 1206
 ...

작업 실행 (--exec)

‘--exec’옵션은 저장된 작업을 실행하는 데 사용됩니다. 다음 명령은 저장된 작업을 실행하는 데 사용됩니다.myjob.

$ sqoop job --exec myjob

다음 출력을 보여줍니다.

10/08/19 13:08:45 INFO tool.CodeGenTool: Beginning code generation 
...

이 장에서는 'codegen'도구의 중요성에 대해 설명합니다. 객체 지향 응용 프로그램의 관점에서 모든 데이터베이스 테이블에는 객체를 초기화하는 'getter'및 'setter'메서드를 포함하는 하나의 DAO 클래스가 있습니다. 이 도구 (-codegen)는 DAO 클래스를 자동으로 생성합니다.

Table Schema 구조를 기반으로 Java에서 DAO 클래스를 생성합니다. Java 정의는 가져 오기 프로세스의 일부로 인스턴스화됩니다. 이 도구의 주요 용도는 Java가 Java 코드를 분실했는지 확인하는 것입니다. 그렇다면 필드 사이의 기본 구분 기호를 사용하여 새 버전의 Java를 만듭니다.

통사론

다음은 Sqoop codegen 명령 구문입니다.

$ sqoop codegen (generic-args) (codegen-args) 
$ sqoop-codegen (generic-args) (codegen-args)

Java 코드를 생성하는 예를 들어 보겠습니다. emp 테이블에 userdb 데이터 베이스.

다음 명령은 주어진 예제를 실행하는 데 사용됩니다.

$ sqoop codegen \
--connect jdbc:mysql://localhost/userdb \
--username root \ 
--table emp

명령이 성공적으로 실행되면 터미널에 다음과 같은 출력이 생성됩니다.

14/12/23 02:34:40 INFO sqoop.Sqoop: Running Sqoop version: 1.4.5
14/12/23 02:34:41 INFO tool.CodeGenTool: Beginning code generation
……………….
14/12/23 02:34:42 INFO orm.CompilationManager: HADOOP_MAPRED_HOME is /usr/local/hadoop
Note: /tmp/sqoop-hadoop/compile/9a300a1f94899df4a9b10f9935ed9f91/emp.java uses or 
   overrides a deprecated API.
Note: Recompile with -Xlint:deprecation for details.

14/12/23 02:34:47 INFO orm.CompilationManager: Writing jar file: 
   /tmp/sqoop-hadoop/compile/9a300a1f94899df4a9b10f9935ed9f91/emp.jar

확인

출력을 살펴 보겠습니다. 굵게 표시된 경로는 Java 코드가emp테이블 생성 및 저장. 다음 명령을 사용하여 해당 위치의 파일을 확인하겠습니다.

$ cd /tmp/sqoop-hadoop/compile/9a300a1f94899df4a9b10f9935ed9f91/
$ ls
emp.class
emp.jar
emp.java

심층적으로 확인하려면 emp 테이블에 userdb 데이터베이스 및 emp.java 다음 디렉토리에

/ tmp / sqoop-hadoop / compile / 9a300a1f94899df4a9b10f9935ed9f91 /.

이 장에서는 Sqoop 'eval'도구를 사용하는 방법을 설명합니다. 사용자가 각 데이터베이스 서버에 대해 사용자 정의 쿼리를 실행하고 콘솔에서 결과를 미리 볼 수 있습니다. 따라서 사용자는 결과 테이블 데이터를 가져올 것으로 예상 할 수 있습니다. eval을 사용하여 DDL 또는 DML 문이 될 수있는 모든 유형의 SQL 쿼리를 평가할 수 있습니다.

통사론

다음 구문은 Sqoop eval 명령에 사용됩니다.

$ sqoop eval (generic-args) (eval-args) 
$ sqoop-eval (generic-args) (eval-args)

쿼리 평가 선택

eval 도구를 사용하면 모든 유형의 SQL 쿼리를 평가할 수 있습니다. 제한된 행을 선택하는 예를 들어 보겠습니다.employee 테이블 db데이터 베이스. 다음 명령은 SQL 쿼리를 사용하여 주어진 예제를 평가하는 데 사용됩니다.

$ sqoop eval \
--connect jdbc:mysql://localhost/db \
--username root \ 
--query “SELECT * FROM employee LIMIT 3”

명령이 성공적으로 실행되면 터미널에 다음과 같은 출력이 생성됩니다.

+------+--------------+-------------+-------------------+--------+
| Id   | Name         | Designation | Salary            | Dept   |
+------+--------------+-------------+-------------------+--------+
| 1201 | gopal        | manager     | 50000             | TP     |
| 1202 | manisha      | preader     | 50000             | TP     |
| 1203 | khalil       | php dev     | 30000             | AC     |
+------+--------------+-------------+-------------------+--------+

쿼리 평가 삽입

Sqoop 평가 도구는 SQL 문을 모델링하고 정의하는 데 모두 적용 할 수 있습니다. 즉, insert 문에도 eval을 사용할 수 있습니다. 다음 명령은 새 행을 삽입하는 데 사용됩니다.employee 테이블 db 데이터 베이스.

$ sqoop eval \
--connect jdbc:mysql://localhost/db \
--username root \ 
-e “INSERT INTO employee VALUES(1207,‘Raju’,‘UI dev’,15000,‘TP’)”

명령이 성공적으로 실행되면 업데이트 된 행의 상태가 콘솔에 표시됩니다.

또는 MySQL 콘솔에서 직원 테이블을 확인할 수 있습니다. 다음 명령은 행을 확인하는 데 사용됩니다.employee 테이블 db 선택 쿼리를 사용하는 데이터베이스.

mysql>
mysql> use db;
mysql> SELECT * FROM employee;
+------+--------------+-------------+-------------------+--------+
| Id   | Name         | Designation | Salary            | Dept   |
+------+--------------+-------------+-------------------+--------+
| 1201 | gopal        | manager     | 50000             | TP     |
| 1202 | manisha      | preader     | 50000             | TP     |
| 1203 | khalil       | php dev     | 30000             | AC     |
| 1204 | prasanth     | php dev     | 30000             | AC     |
| 1205 | kranthi      | admin       | 20000             | TP     |
| 1206 | satish p     | grp des     | 20000             | GR     |
| 1207 | Raju         | UI dev      | 15000             | TP     |
+------+--------------+-------------+-------------------+--------+

이 장에서는 Sqoop을 사용하여 데이터베이스를 나열하는 방법을 설명합니다. Sqoop 목록-데이터베이스 도구는 데이터베이스 서버에 대해 'SHOW DATABASES'쿼리를 구문 분석하고 실행합니다. 그 후 서버에있는 현재 데이터베이스를 나열합니다.

통사론

다음 구문은 Sqoop list-databases 명령에 사용됩니다.

$ sqoop list-databases (generic-args) (list-databases-args) 
$ sqoop-list-databases (generic-args) (list-databases-args)

샘플 쿼리

다음 명령은 MySQL 데이터베이스 서버의 모든 데이터베이스를 나열하는 데 사용됩니다.

$ sqoop list-databases \
--connect jdbc:mysql://localhost/ \
--username root

명령이 성공적으로 실행되면 다음과 같이 MySQL 데이터베이스 서버의 데이터베이스 목록이 표시됩니다.

...
13/05/31 16:45:58 INFO manager.MySQLManager: Preparing to use a MySQL streaming resultset.

mysql
test
userdb
db

이 장에서는 Sqoop을 사용하여 MySQL 데이터베이스 서버에서 특정 데이터베이스의 테이블을 나열하는 방법을 설명합니다. Sqoop 목록 테이블 도구는 특정 데이터베이스에 대해 'SHOW TABLES'쿼리를 구문 분석하고 실행합니다. 그 후 데이터베이스에있는 현재 테이블을 나열합니다.

통사론

다음 구문은 Sqoop list-tables 명령에 사용됩니다.

$ sqoop list-tables (generic-args) (list-tables-args) 
$ sqoop-list-tables (generic-args) (list-tables-args)

샘플 쿼리

다음 명령은 모든 테이블을 나열하는 데 사용됩니다. userdb MySQL 데이터베이스 서버의 데이터베이스.

$ sqoop list-tables \
--connect jdbc:mysql://localhost/userdb \
--username root

명령이 성공적으로 실행되면 테이블 목록이 userdb 다음과 같이 데이터베이스.

...
13/05/31 16:45:58 INFO manager.MySQLManager: Preparing to use a MySQL streaming resultset.

emp
emp_add
emp_contact

이 장에서는 Sqoop을 사용하여 MySQL 데이터베이스 서버에서 특정 데이터베이스의 테이블을 나열하는 방법을 설명합니다. Sqoop 목록 테이블 도구는 특정 데이터베이스에 대해 'SHOW TABLES'쿼리를 구문 분석하고 실행합니다. 그 후 데이터베이스에있는 현재 테이블을 나열합니다.

통사론

다음 구문은 Sqoop list-tables 명령에 사용됩니다.

$ sqoop list-tables (generic-args) (list-tables-args) 
$ sqoop-list-tables (generic-args) (list-tables-args)

샘플 쿼리

다음 명령은 모든 테이블을 나열하는 데 사용됩니다. userdb MySQL 데이터베이스 서버의 데이터베이스.

$ sqoop list-tables \
--connect jdbc:mysql://localhost/userdb \
--username root

명령이 성공적으로 실행되면 테이블 목록이 userdb 다음과 같이 데이터베이스.

...
13/05/31 16:45:58 INFO manager.MySQLManager: Preparing to use a MySQL streaming resultset.

emp
emp_add
emp_contact