Hive - Kurulum
Hive, Pig ve HBase gibi tüm Hadoop alt projeleri Linux işletim sistemini destekler. Bu nedenle, herhangi bir Linux aromalı işletim sistemi kurmanız gerekir. Hive kurulumu için aşağıdaki basit adımlar uygulanır:
Adım 1: JAVA Kurulumunu Doğrulama
Hive'ı kurmadan önce sisteminize Java yüklenmiş olmalıdır. Aşağıdaki komutu kullanarak java kurulumunu doğrulayalım:
$ java –version
Java sisteminizde zaten yüklüyse, aşağıdaki yanıtı görürsünüz:
java version "1.7.0_71"
Java(TM) SE Runtime Environment (build 1.7.0_71-b13)
Java HotSpot(TM) Client VM (build 25.0-b02, mixed mode)
Sisteminizde java kurulu değilse, java yüklemek için aşağıda verilen adımları izleyin.
Java yükleme
Adım I:
Aşağıdaki bağlantıyı ziyaret ederek java'yı (JDK <en son sürüm> - X64.tar.gz) indirin http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html.
Daha sonra jdk-7u71-linux-x64.tar.gz sisteminize indirilecektir.
Adım II:
Genellikle indirilen java dosyasını İndirilenler klasöründe bulacaksınız. Doğrulayın ve aşağıdaki komutları kullanarak jdk-7u71-linux-x64.gz dosyasını çıkarın.
$ cd Downloads/
$ ls
jdk-7u71-linux-x64.gz
$ tar zxf jdk-7u71-linux-x64.gz
$ ls
jdk1.7.0_71 jdk-7u71-linux-x64.gz
Adım III:
Java'yı tüm kullanıcıların kullanımına açmak için, onu "/ usr / local /" konumuna taşımalısınız. Kökü açın ve aşağıdaki komutları yazın.
$ su
password:
# mv jdk1.7.0_71 /usr/local/
# exit
Adım IV:
PATH ve JAVA_HOME değişkenlerini ayarlamak için aşağıdaki komutları ~ / .bashrc dosyasına ekleyin.
export JAVA_HOME=/usr/local/jdk1.7.0_71
export PATH=$PATH:$JAVA_HOME/bin
Şimdi tüm değişiklikleri mevcut çalışan sisteme uygulayın.
$ source ~/.bashrc
Adım V:
Java alternatiflerini yapılandırmak için aşağıdaki komutları kullanın:
# alternatives --install /usr/bin/java/java/usr/local/java/bin/java 2
# alternatives --install /usr/bin/javac/javac/usr/local/java/bin/javac 2
# alternatives --install /usr/bin/jar/jar/usr/local/java/bin/jar 2
# alternatives --set java/usr/local/java/bin/java
# alternatives --set javac/usr/local/java/bin/javac
# alternatives --set jar/usr/local/java/bin/jar
Şimdi, yukarıda açıklandığı gibi terminalden java -version komutunu kullanarak kurulumu doğrulayın.
Adım 2: Hadoop Kurulumunu Doğrulama
Hive'ı kurmadan önce sisteminize Hadoop'un yüklenmesi gerekir. Aşağıdaki komutu kullanarak Hadoop kurulumunu doğrulayalım:
$ hadoop version
Hadoop sisteminizde zaten kuruluysa, aşağıdaki yanıtı alırsınız:
Hadoop 2.4.1 Subversion https://svn.apache.org/repos/asf/hadoop/common -r 1529768
Compiled by hortonmu on 2013-10-07T06:28Z
Compiled with protoc 2.5.0
From source with checksum 79e53ce7994d1628b240f09af91e1af4
Sisteminizde Hadoop yüklü değilse, aşağıdaki adımlarla devam edin:
Hadoop'u indirme
Aşağıdaki komutları kullanarak Apache Software Foundation'dan Hadoop 2.4.1'i indirin ve çıkarın.
$ su
password:
# cd /usr/local
# wget http://apache.claz.org/hadoop/common/hadoop-2.4.1/
hadoop-2.4.1.tar.gz
# tar xzf hadoop-2.4.1.tar.gz
# mv hadoop-2.4.1/* to hadoop/
# exit
Hadoop'u Sözde Dağıtılmış Modda Yükleme
Aşağıdaki adımlar Hadoop 2.4.1'i sözde dağıtılmış modda kurmak için kullanılır.
Adım I: Hadoop'u Kurma
Aşağıdaki komutları ekleyerek Hadoop ortam değişkenlerini ayarlayabilirsiniz. ~/.bashrc dosya.
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export
PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
Şimdi tüm değişiklikleri mevcut çalışan sisteme uygulayın.
$ source ~/.bashrc
Adım II: Hadoop Yapılandırması
Tüm Hadoop yapılandırma dosyalarını “$ HADOOP_HOME / etc / hadoop” konumunda bulabilirsiniz. Bu konfigürasyon dosyalarında Hadoop altyapınıza göre uygun değişiklikleri yapmanız gerekir.
$ cd $HADOOP_HOME/etc/hadoop
Java kullanarak Hadoop programları geliştirmek için, java ortam değişkenlerini sıfırlamanız gerekir. hadoop-env.sh değiştirerek dosya JAVA_HOME java'nın sisteminizdeki konumu ile değer.
export JAVA_HOME=/usr/local/jdk1.7.0_71
Aşağıda, Hadoop'u yapılandırmak için düzenlemeniz gereken dosyaların listesi verilmiştir.
core-site.xml
core-site.xml dosyası, Hadoop örneği için kullanılan bağlantı noktası numarası, dosya sistemi için ayrılan bellek, verilerin depolanması için bellek sınırı ve Okuma / Yazma arabelleklerinin boyutu gibi bilgileri içerir.
Core-site.xml dosyasını açın ve aşağıdaki özellikleri <configuration> ve </configuration> etiketleri arasına ekleyin.
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
hdfs-site.xml
hdfs-site.xmldosyası, çoğaltma verilerinin değeri, ad kodu yolu ve yerel dosya sistemlerinizin veri düğümü yolu gibi bilgileri içerir. Hadoop infra'sını saklamak istediğiniz yer anlamına gelir.
Aşağıdaki verileri varsayalım.
dfs.replication (data replication value) = 1
(In the following path /hadoop/ is the user name.
hadoopinfra/hdfs/namenode is the directory created by hdfs file system.)
namenode path = //home/hadoop/hadoopinfra/hdfs/namenode
(hadoopinfra/hdfs/datanode is the directory created by hdfs file system.)
datanode path = //home/hadoop/hadoopinfra/hdfs/datanode
Bu dosyayı açın ve bu dosyadaki <configuration>, </configuration> etiketleri arasına aşağıdaki özellikleri ekleyin.
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>file:///home/hadoop/hadoopinfra/hdfs/namenode </value>
</property>
<property>
<name>dfs.data.dir</name>
<value>file:///home/hadoop/hadoopinfra/hdfs/datanode </value >
</property>
</configuration>
Note: Yukarıdaki dosyada tüm özellik değerleri kullanıcı tanımlıdır ve Hadoop altyapınıza göre değişiklikler yapabilirsiniz.
yarn-site.xml
Bu dosya, ipliği Hadoop'ta yapılandırmak için kullanılır. İplik-site.xml dosyasını açın ve bu dosyadaki <configuration>, </configuration> etiketleri arasına aşağıdaki özellikleri ekleyin.
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
mapred-site.xml
Bu dosya hangi MapReduce çerçevesini kullandığımızı belirtmek için kullanılır. Varsayılan olarak, Hadoop bir iplik-site.xml şablonu içerir. Öncelikle, aşağıdaki komutu kullanarak dosyayı mapred-site, xml.template'den mapred-site.xml dosyasına kopyalamanız gerekir.
$ cp mapred-site.xml.template mapred-site.xml
Açık mapred-site.xml dosyasını açın ve bu dosyadaki <configuration>, </configuration> etiketleri arasına aşağıdaki özellikleri ekleyin.
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
Hadoop Kurulumunu Doğrulama
Aşağıdaki adımlar Hadoop kurulumunu doğrulamak için kullanılır.
Adım I: Ad Düğümü Kurulumu
“Hdfs namenode -format” komutunu kullanarak ad kodunu aşağıdaki gibi ayarlayın.
$ cd ~
$ hdfs namenode -format
Beklenen sonuç aşağıdaki gibidir.
10/24/14 21:30:55 INFO namenode.NameNode: STARTUP_MSG:
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG: host = localhost/192.168.1.11
STARTUP_MSG: args = [-format]
STARTUP_MSG: version = 2.4.1
...
...
10/24/14 21:30:56 INFO common.Storage: Storage directory
/home/hadoop/hadoopinfra/hdfs/namenode has been successfully formatted.
10/24/14 21:30:56 INFO namenode.NNStorageRetentionManager: Going to
retain 1 images with txid >= 0
10/24/14 21:30:56 INFO util.ExitUtil: Exiting with status 0
10/24/14 21:30:56 INFO namenode.NameNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at localhost/192.168.1.11
************************************************************/
Adım II: Hadoop dfs'yi doğrulama
Aşağıdaki komut dfs'yi başlatmak için kullanılır. Bu komutu çalıştırmak Hadoop dosya sisteminizi başlatacaktır.
$ start-dfs.sh
Beklenen çıktı aşağıdaki gibidir:
10/24/14 21:37:56
Starting namenodes on [localhost]
localhost: starting namenode, logging to /home/hadoop/hadoop-2.4.1/logs/hadoop-hadoop-namenode-localhost.out
localhost: starting datanode, logging to /home/hadoop/hadoop-2.4.1/logs/hadoop-hadoop-datanode-localhost.out
Starting secondary namenodes [0.0.0.0]
Adım III: İplik Komut Dosyasını Doğrulama
İplik betiğini başlatmak için aşağıdaki komut kullanılır. Bu komutun yürütülmesi iplik daemonlarınızı başlatacaktır.
$ start-yarn.sh
Beklenen çıktı aşağıdaki gibidir:
starting yarn daemons
starting resourcemanager, logging to /home/hadoop/hadoop-2.4.1/logs/yarn-hadoop-resourcemanager-localhost.out
localhost: starting nodemanager, logging to /home/hadoop/hadoop-2.4.1/logs/yarn-hadoop-nodemanager-localhost.out
Adım IV: Tarayıcıda Hadoop'a Erişim
Hadoop'a erişmek için varsayılan bağlantı noktası numarası 50070'tir. Tarayıcınızda Hadoop hizmetlerini almak için aşağıdaki url'yi kullanın.
http://localhost:50070/
Adım V: Küme için tüm uygulamaları doğrulayın
Kümenin tüm uygulamalarına erişmek için varsayılan bağlantı noktası numarası 8088'dir. Bu hizmeti ziyaret etmek için aşağıdaki url'yi kullanın.
http://localhost:8088/
3. Adım: Hive'ı İndirme
Bu eğitimde hive-0.14.0 kullanıyoruz. Aşağıdaki bağlantıyı ziyaret ederek indirebilirsinizhttp://apache.petsads.us/hive/hive-0.14.0/./ Downloads dizinine indirildiğini varsayalım. Burada, bu eğitim için "apache-hive-0.14.0-bin.tar.gz" adlı Hive arşivini indiriyoruz. İndirmeyi doğrulamak için aşağıdaki komut kullanılır:
$ cd Downloads
$ ls
Başarılı bir indirme işleminde aşağıdaki yanıtı göreceksiniz:
apache-hive-0.14.0-bin.tar.gz
Adım 4: Hive'ı Yükleme
Hive'ı sisteminize kurmak için aşağıdaki adımlar gereklidir. Hive arşivinin / Downloads dizinine indirildiğini varsayalım.
Hive Arşivini Çıkarma ve Doğrulama
Aşağıdaki komut, indirmeyi doğrulamak ve kovan arşivini çıkarmak için kullanılır:
$ tar zxvf apache-hive-0.14.0-bin.tar.gz
$ ls
Başarılı bir indirme işleminde aşağıdaki yanıtı göreceksiniz:
apache-hive-0.14.0-bin apache-hive-0.14.0-bin.tar.gz
Dosyaları / usr / local / hive dizinine kopyalama
Dosyaları süper kullanıcı “su -” dan kopyalamamız gerekiyor. Aşağıdaki komutlar, dosyaları çıkarılan dizinden / usr / local / hive ”dizinine kopyalamak için kullanılır.
$ su -
passwd:
# cd /home/user/Download
# mv apache-hive-0.14.0-bin /usr/local/hive
# exit
Hive için ortam kurma
Aşağıdaki satırları ekleyerek Hive ortamını kurabilirsiniz. ~/.bashrc dosya:
export HIVE_HOME=/usr/local/hive
export PATH=$PATH:$HIVE_HOME/bin
export CLASSPATH=$CLASSPATH:/usr/local/Hadoop/lib/*:.
export CLASSPATH=$CLASSPATH:/usr/local/hive/lib/*:.
Aşağıdaki komut ~ / .bashrc dosyasını çalıştırmak için kullanılır.
$ source ~/.bashrc
Adım 5: Hive'ı Yapılandırma
Hive'ı Hadoop ile yapılandırmak için, hive-env.sh yerleştirilen dosya $HIVE_HOME/confdizin. Aşağıdaki komutlar Hive'a yönlendirilirconfig klasörünü açın ve şablon dosyasını kopyalayın:
$ cd $HIVE_HOME/conf
$ cp hive-env.sh.template hive-env.sh
Düzenleyin hive-env.sh aşağıdaki satırı ekleyerek dosya:
export HADOOP_HOME=/usr/local/hadoop
Kovan kurulumu başarıyla tamamlandı. Artık Metastore'u yapılandırmak için harici bir veritabanı sunucusuna ihtiyacınız var. Apache Derby veritabanını kullanıyoruz.
Adım 6: Apache Derby'yi İndirme ve Kurma
Apache Derby'yi indirmek ve yüklemek için aşağıdaki adımları izleyin:
Apache Derby'yi İndirme
Apache Derby'yi indirmek için aşağıdaki komut kullanılır. İndirmek biraz zaman alıyor.
$ cd ~
$ wget http://archive.apache.org/dist/db/derby/db-derby-10.4.2.0/db-derby-10.4.2.0-bin.tar.gz
İndirmeyi doğrulamak için aşağıdaki komut kullanılır:
$ ls
Başarılı bir indirme işleminde aşağıdaki yanıtı göreceksiniz:
db-derby-10.4.2.0-bin.tar.gz
Derby arşivini çıkarma ve doğrulama
Derby arşivini çıkarmak ve doğrulamak için aşağıdaki komutlar kullanılır:
$ tar zxvf db-derby-10.4.2.0-bin.tar.gz
$ ls
Başarılı bir indirme işleminde aşağıdaki yanıtı göreceksiniz:
db-derby-10.4.2.0-bin db-derby-10.4.2.0-bin.tar.gz
Dosyaları / usr / local / derby dizinine kopyalama
Süper kullanıcı “su -” dan kopyalamamız gerekiyor. Dosyaları ayıklanan dizinden / usr / local / derby dizinine kopyalamak için aşağıdaki komutlar kullanılır:
$ su -
passwd:
# cd /home/user
# mv db-derby-10.4.2.0-bin /usr/local/derby
# exit
Derby için ortam kurma
Derbi ortamını aşağıdaki satırları ekleyerek kurabilirsiniz. ~/.bashrc dosya:
export DERBY_HOME=/usr/local/derby
export PATH=$PATH:$DERBY_HOME/bin
Apache Hive
18
export CLASSPATH=$CLASSPATH:$DERBY_HOME/lib/derby.jar:$DERBY_HOME/lib/derbytools.jar
Aşağıdaki komut çalıştırmak için kullanılır ~/.bashrc dosya:
$ source ~/.bashrc
Metastore'u depolamak için bir dizin oluşturun
Metastore verilerini depolamak için $ DERBY_HOME dizininde veri adlı bir dizin oluşturun.
$ mkdir $DERBY_HOME/data
Derby kurulumu ve çevre kurulumu artık tamamlandı.
7. Adım: Metastore of Hive'ı Yapılandırma
Metastore'u yapılandırmak, veritabanının nerede depolandığını Hive'a belirtmek anlamına gelir. Bunu, $ HIVE_HOME / conf dizininde bulunan hive-site.xml dosyasını düzenleyerek yapabilirsiniz. Her şeyden önce, aşağıdaki komutu kullanarak şablon dosyasını kopyalayın:
$ cd $HIVE_HOME/conf
$ cp hive-default.xml.template hive-site.xml
Düzenle hive-site.xml ve <configuration> ve </configuration> etiketleri arasına aşağıdaki satırları ekleyin:
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:derby://localhost:1527/metastore_db;create=true </value>
<description>JDBC connect string for a JDBC metastore </description>
</property>
Jpox.properties adlı bir dosya oluşturun ve aşağıdaki satırları buna ekleyin:
javax.jdo.PersistenceManagerFactoryClass =
org.jpox.PersistenceManagerFactoryImpl
org.jpox.autoCreateSchema = false
org.jpox.validateTables = false
org.jpox.validateColumns = false
org.jpox.validateConstraints = false
org.jpox.storeManagerType = rdbms
org.jpox.autoCreateSchema = true
org.jpox.autoStartMechanismMode = checked
org.jpox.transactionIsolation = read_committed
javax.jdo.option.DetachAllOnCommit = true
javax.jdo.option.NontransactionalRead = true
javax.jdo.option.ConnectionDriverName = org.apache.derby.jdbc.ClientDriver
javax.jdo.option.ConnectionURL = jdbc:derby://hadoop1:1527/metastore_db;create = true
javax.jdo.option.ConnectionUserName = APP
javax.jdo.option.ConnectionPassword = mine
8. Adım: Kovan Kurulumunu Doğrulama
Hive'ı çalıştırmadan önce, /tmpklasör ve HDFS'de ayrı bir Hive klasörü. Burada kullanıyoruz/user/hive/warehouseKlasör. Bu yeni oluşturulan klasörler için aşağıda gösterildiği gibi yazma iznini ayarlamanız gerekir:
chmod g+w
Şimdi Hive'ı doğrulamadan önce bunları HDFS'ye ayarlayın. Aşağıdaki komutları kullanın:
$ $HADOOP_HOME/bin/hadoop fs -mkdir /tmp
$ $HADOOP_HOME/bin/hadoop fs -mkdir /user/hive/warehouse
$ $HADOOP_HOME/bin/hadoop fs -chmod g+w /tmp
$ $HADOOP_HOME/bin/hadoop fs -chmod g+w /user/hive/warehouse
Hive kurulumunu doğrulamak için aşağıdaki komutlar kullanılır:
$ cd $HIVE_HOME
$ bin/hive
Başarılı bir Hive kurulumunda aşağıdaki yanıtı göreceksiniz:
Logging initialized using configuration in jar:file:/home/hadoop/hive-0.9.0/lib/hive-common-0.9.0.jar!/hive-log4j.properties
Hive history file=/tmp/hadoop/hive_job_log_hadoop_201312121621_1494929084.txt
………………….
hive>
Aşağıdaki örnek komut, tüm tabloları görüntülemek için yürütülür:
hive> show tables;
OK
Time taken: 2.798 seconds
hive>