Sqoop - Kurulum

Sqoop, Hadoop'un bir alt projesi olduğu için sadece Linux işletim sistemi üzerinde çalışabilir. Sqoop'u sisteminize kurmak için aşağıdaki adımları izleyin.

Adım 1: JAVA Kurulumunu Doğrulama

Sqoop'u kurmadan önce sisteminizde Java'nın kurulu olması gerekir. Aşağıdaki komutu kullanarak Java kurulumunu doğrulayalım -

$ java –version

Java sisteminizde zaten yüklüyse, aşağıdaki yanıtı görürsünüz -

java version "1.7.0_71"
Java(TM) SE Runtime Environment (build 1.7.0_71-b13)
Java HotSpot(TM) Client VM (build 25.0-b02, mixed mode)

Sisteminizde Java kurulu değilse, aşağıda verilen adımları izleyin.

Java yükleme

Sisteminize Java yüklemek için aşağıda verilen basit adımları izleyin.

Aşama 1

Aşağıdaki bağlantıyı ziyaret ederek Java'yı (JDK <en son sürüm> - X64.tar.gz) indirin .

Daha sonra jdk-7u71-linux-x64.tar.gz sisteminize indirilecektir.

Adım 2

Genel olarak, indirilen Java dosyasını İndirilenler klasöründe bulabilirsiniz. Doğrulayın ve aşağıdaki komutları kullanarak jdk-7u71-linux-x64.gz dosyasını çıkarın.

$ cd Downloads/
$ ls
jdk-7u71-linux-x64.gz
$ tar zxf jdk-7u71-linux-x64.gz
$ ls
jdk1.7.0_71 jdk-7u71-linux-x64.gz

Aşama 3

Java'yı tüm kullanıcılar için kullanılabilir hale getirmek için, onu "/ usr / local /" konumuna taşımalısınız. Kökü açın ve aşağıdaki komutları yazın.

$ su
password:

# mv jdk1.7.0_71 /usr/local/java
# exitStep IV:

4. adım

PATH ve JAVA_HOME değişkenlerini ayarlamak için aşağıdaki komutları ~ / .bashrc dosyasına ekleyin.

export JAVA_HOME=/usr/local/java
export PATH=$PATH:$JAVA_HOME/bin

Şimdi tüm değişiklikleri mevcut çalışan sisteme uygulayın.

$ source ~/.bashrc

Adım 5

Java alternatiflerini yapılandırmak için aşağıdaki komutları kullanın -

# alternatives --install /usr/bin/java java usr/local/java/bin/java 2
# alternatives --install /usr/bin/javac javac usr/local/java/bin/javac 2
# alternatives --install /usr/bin/jar jar usr/local/java/bin/jar 2

# alternatives --set java usr/local/java/bin/java
# alternatives --set javac usr/local/java/bin/javac
# alternatives --set jar usr/local/java/bin/jar

Şimdi komutu kullanarak kurulumu doğrulayın java -version terminalden yukarıda açıklandığı gibi.

Adım 2: Hadoop Kurulumunu Doğrulama

Sqoop'u kurmadan önce sisteminize Hadoop kurulmalıdır. Aşağıdaki komutu kullanarak Hadoop kurulumunu doğrulayalım -

$ hadoop version

Hadoop sisteminize zaten yüklüyse, aşağıdaki yanıtı alırsınız -

Hadoop 2.4.1
--
Subversion https://svn.apache.org/repos/asf/hadoop/common -r 1529768
Compiled by hortonmu on 2013-10-07T06:28Z
Compiled with protoc 2.5.0
From source with checksum 79e53ce7994d1628b240f09af91e1af4

Sisteminizde Hadoop yüklü değilse, aşağıdaki adımlarla devam edin -

Hadoop'u indirme

Aşağıdaki komutları kullanarak Apache Software Foundation'dan Hadoop 2.4.1'i indirin ve çıkarın.

$ su
password:

# cd /usr/local
# wget http://apache.claz.org/hadoop/common/hadoop-2.4.1/
hadoop-2.4.1.tar.gz
# tar xzf hadoop-2.4.1.tar.gz
# mv hadoop-2.4.1/* to hadoop/
# exit

Hadoop'u Sözde Dağıtılmış Modda Yükleme

Hadoop 2.4.1'i sözde dağıtılmış modda kurmak için aşağıdaki adımları izleyin.

1. Adım: Hadoop'u Kurma

Aşağıdaki komutları ~ / .bashrc dosyasına ekleyerek Hadoop ortam değişkenlerini ayarlayabilirsiniz.

export HADOOP_HOME=/usr/local/hadoop
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

Şimdi, tüm değişiklikleri mevcut çalışan sisteme uygulayın.

$ source ~/.bashrc

2. Adım: Hadoop Yapılandırması

Tüm Hadoop yapılandırma dosyalarını “$ HADOOP_HOME / etc / hadoop” konumunda bulabilirsiniz. Bu konfigürasyon dosyalarında Hadoop altyapınıza göre uygun değişiklikleri yapmanız gerekir.

$ cd $HADOOP_HOME/etc/hadoop

Java kullanarak Hadoop programları geliştirmek için, java ortam değişkenlerini sıfırlamanız gerekir. hadoop-env.sh JAVA_HOME değerini java'nın sisteminizdeki konumu ile değiştirerek.

export JAVA_HOME=/usr/local/java

Aşağıda, Hadoop'u yapılandırmak için düzenlemeniz gereken dosyaların listesi verilmiştir.

core-site.xml

Core-site.xml dosyası, Hadoop örneği için kullanılan bağlantı noktası numarası, dosya sistemi için ayrılan bellek, verileri depolamak için bellek sınırı ve Okuma / Yazma arabelleklerinin boyutu gibi bilgileri içerir.

Core-site.xml dosyasını açın ve aşağıdaki özellikleri <configuration> ve </configuration> etiketleri arasına ekleyin.

<configuration>
   <property>
      <name>fs.default.name</name>
      <value>hdfs://localhost:9000 </value>
   </property>
</configuration>

hdfs-site.xml

Hdfs-site.xml dosyası, yerel dosya sistemlerinizin çoğaltma verilerinin değeri, ad kodu yolu ve datanode yolu gibi bilgileri içerir. Hadoop altyapısını depolamak istediğiniz yer anlamına gelir.

Aşağıdaki verileri varsayalım.

dfs.replication (data replication value) = 1

(In the following path /hadoop/ is the user name.
hadoopinfra/hdfs/namenode is the directory created by hdfs file system.)
namenode path = //home/hadoop/hadoopinfra/hdfs/namenode

(hadoopinfra/hdfs/datanode is the directory created by hdfs file system.)
datanode path = //home/hadoop/hadoopinfra/hdfs/datanode

Bu dosyayı açın ve bu dosyadaki <configuration>, </configuration> etiketleri arasına aşağıdaki özellikleri ekleyin.

<configuration>
   <property>
      <name>dfs.replication</name>
      <value>1</value>
   </property>
   
   <property>
      <name>dfs.name.dir</name>
      <value>file:///home/hadoop/hadoopinfra/hdfs/namenode </value>
   </property>
   
   <property>
      <name>dfs.data.dir</name>
      <value>file:///home/hadoop/hadoopinfra/hdfs/datanode </value>
   </property>
</configuration>

Note - Yukarıdaki dosyada tüm özellik değerleri kullanıcı tanımlıdır ve Hadoop altyapınıza göre değişiklik yapabilirsiniz.

yarn-site.xml

Bu dosya, ipliği Hadoop'ta yapılandırmak için kullanılır. İplik-site.xml dosyasını açın ve bu dosyadaki <configuration>, </configuration> etiketleri arasına aşağıdaki özellikleri ekleyin.

<configuration>
   <property>
      <name>yarn.nodemanager.aux-services</name>
      <value>mapreduce_shuffle</value>
   </property>
</configuration>

mapred-site.xml

Bu dosya hangi MapReduce çerçevesini kullandığımızı belirtmek için kullanılır. Varsayılan olarak, Hadoop bir iplik-site.xml şablonu içerir. Öncelikle, aşağıdaki komutu kullanarak dosyayı mapred-site.xml.template'den mapred-site.xml dosyasına kopyalamanız gerekir.

$ cp mapred-site.xml.template mapred-site.xml

Mapred-site.xml dosyasını açın ve bu dosyadaki <configuration>, </configuration> etiketleri arasına aşağıdaki özellikleri ekleyin.

<configuration>
   <property>
      <name>mapreduce.framework.name</name>
      <value>yarn</value>
   </property>
</configuration>

Hadoop Kurulumunu Doğrulama

Aşağıdaki adımlar Hadoop kurulumunu doğrulamak için kullanılır.

Adım 1: Düğüm Kurulumu Adlandırın

“Hdfs namenode -format” komutunu kullanarak ad kodunu aşağıdaki gibi ayarlayın.

$ cd ~
$ hdfs namenode -format

Beklenen sonuç aşağıdaki gibidir.

10/24/14 21:30:55 INFO namenode.NameNode: STARTUP_MSG:
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG: host = localhost/192.168.1.11
STARTUP_MSG: args = [-format]
STARTUP_MSG: version = 2.4.1
...
...
10/24/14 21:30:56 INFO common.Storage: Storage directory
/home/hadoop/hadoopinfra/hdfs/namenode has been successfully formatted.
10/24/14 21:30:56 INFO namenode.NNStorageRetentionManager: Going to
retain 1 images with txid >= 0
10/24/14 21:30:56 INFO util.ExitUtil: Exiting with status 0
10/24/14 21:30:56 INFO namenode.NameNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at localhost/192.168.1.11
************************************************************/

2. Adım: Hadoop dfs'yi doğrulama

Aşağıdaki komut dfs'yi başlatmak için kullanılır. Bu komutu çalıştırmak Hadoop dosya sisteminizi başlatacaktır.

$ start-dfs.sh

Beklenen çıktı aşağıdaki gibidir -

10/24/14 21:37:56
Starting namenodes on [localhost]
localhost: starting namenode, logging to /home/hadoop/hadoop-
2.4.1/logs/hadoop-hadoop-namenode-localhost.out
localhost: starting datanode, logging to /home/hadoop/hadoop-
2.4.1/logs/hadoop-hadoop-datanode-localhost.out
Starting secondary namenodes [0.0.0.0]

Adım 3: İplik Komut Dosyasını Doğrulama

İplik betiğini başlatmak için aşağıdaki komut kullanılır. Bu komutun yürütülmesi iplik daemonlarınızı başlatacaktır.

$ start-yarn.sh

Beklenen çıktı aşağıdaki gibidir -

starting yarn daemons
starting resourcemanager, logging to /home/hadoop/hadoop-
2.4.1/logs/yarn-hadoop-resourcemanager-localhost.out
localhost: starting node manager, logging to /home/hadoop/hadoop-
2.4.1/logs/yarn-hadoop-nodemanager-localhost.out

4. Adım: Tarayıcıda Hadoop'a Erişim

Hadoop'a erişmek için varsayılan bağlantı noktası numarası 50070'tir. Tarayıcınızda Hadoop hizmetlerini almak için aşağıdaki URL'yi kullanın.

http://localhost:50070/

Aşağıdaki görüntü bir Hadoop tarayıcısını göstermektedir.

5. Adım: Küme için Tüm Uygulamaları Doğrulayın

Kümenin tüm uygulamalarına erişmek için varsayılan bağlantı noktası numarası 8088'dir. Bu hizmeti ziyaret etmek için aşağıdaki url'yi kullanın.

http://localhost:8088/

Aşağıdaki görüntü Hadoop küme tarayıcısını göstermektedir.

3. Adım: Sqoop'u İndirme

Sqoop'un en son sürümünü aşağıdaki bağlantıdan indirebiliriz Bu eğitim için 1.4.5 sürümünü kullanıyoruz, yani,sqoop-1.4.5.bin__hadoop-2.0.4-alpha.tar.gz.

Adım 4: Sqoop'u Kurma

Aşağıdaki komutlar Sqoop tar topunu çıkartmak ve onu "/ usr / lib / sqoop" dizinine taşımak için kullanılır.

$tar -xvf sqoop-1.4.4.bin__hadoop-2.0.4-alpha.tar.gz
$ su
password:

# mv sqoop-1.4.4.bin__hadoop-2.0.4-alpha /usr/lib/sqoop
#exit

Adım 5: bashrc'yi yapılandırma

Aşağıdaki satırları ~ / satırına ekleyerek Sqoop ortamını kurmanız gerekir..bashrc dosya -

#Sqoop
export SQOOP_HOME=/usr/lib/sqoop export PATH=$PATH:$SQOOP_HOME/bin

Aşağıdaki komut ~ / yürütmek için kullanılır.bashrc dosya.

$ source ~/.bashrc

Adım 6: Sqoop'u Yapılandırma

Sqoop'u Hadoop ile yapılandırmak için, sqoop-env.sh yerleştirilen dosya $SQOOP_HOME/confdizin. Her şeyden önce, Sqoop yapılandırma dizinine yönlendirin ve aşağıdaki komutu kullanarak şablon dosyasını kopyalayın -

$ cd $SQOOP_HOME/conf
$ mv sqoop-env-template.sh sqoop-env.sh

Açık sqoop-env.sh ve aşağıdaki satırları düzenleyin -

export HADOOP_COMMON_HOME=/usr/local/hadoop 
export HADOOP_MAPRED_HOME=/usr/local/hadoop

7. Adım: mysql-connector-java'yı indirin ve yapılandırın

İndirebiliriz mysql-connector-java-5.1.30.tar.gzaşağıdaki bağlantıdan dosya .

Aşağıdaki komutlar mysql-connector-java tarball'ı ayıklamak ve taşımak için kullanılır mysql-connector-java-5.1.30-bin.jar / usr / lib / sqoop / lib dizinine.

$ tar -zxf mysql-connector-java-5.1.30.tar.gz
$ su
password:

# cd mysql-connector-java-5.1.30
# mv mysql-connector-java-5.1.30-bin.jar /usr/lib/sqoop/lib

8. Adım: Sqoop'u doğrulama

Aşağıdaki komut Sqoop sürümünü doğrulamak için kullanılır.

$ cd $SQOOP_HOME/bin
$ sqoop-version

Beklenen çıktı -

14/12/17 14:52:32 INFO sqoop.Sqoop: Running Sqoop version: 1.4.5
Sqoop 1.4.5 git commit id 5b34accaca7de251fc91161733f906af2eddbe83
Compiled by abe on Fri Aug 1 11:19:26 PDT 2014

Sqoop kurulumu tamamlandı.