HBase - Installation

Ce chapitre explique comment HBase est installé et configuré initialement. Java et Hadoop sont nécessaires pour continuer avec HBase, vous devez donc télécharger et installer java et Hadoop sur votre système.

Configuration avant l'installation

Avant d'installer Hadoop dans un environnement Linux, nous devons configurer Linux en utilisant ssh(Enveloppe de protection). Suivez les étapes ci-dessous pour configurer l'environnement Linux.

Créer un utilisateur

Tout d'abord, il est recommandé de créer un utilisateur distinct pour Hadoop afin d'isoler le système de fichiers Hadoop du système de fichiers Unix. Suivez les étapes ci-dessous pour créer un utilisateur.

  • Ouvrez la racine en utilisant la commande «su».
  • Créez un utilisateur à partir du compte root en utilisant la commande «useradd username».
  • Vous pouvez maintenant ouvrir un compte utilisateur existant en utilisant la commande «su username».

Ouvrez le terminal Linux et tapez les commandes suivantes pour créer un utilisateur.

$ su
password:
# useradd hadoop
# passwd hadoop
New passwd:
Retype new passwd

Configuration SSH et génération de clé

La configuration SSH est requise pour effectuer différentes opérations sur le cluster, telles que les opérations de démarrage, d'arrêt et de shell du démon distribué. Pour authentifier différents utilisateurs de Hadoop, il est nécessaire de fournir une paire de clés publique / privée pour un utilisateur Hadoop et de la partager avec différents utilisateurs.

Les commandes suivantes sont utilisées pour générer une paire clé / valeur à l'aide de SSH. Copiez le formulaire de clés publiques id_rsa.pub dans allowed_keys et fournissez respectivement les autorisations de propriétaire, de lecture et d'écriture sur le fichier allowed_keys.

$ ssh-keygen -t rsa
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
$ chmod 0600 ~/.ssh/authorized_keys

Vérifier ssh

ssh localhost

Installer Java

Java est le prérequis principal pour Hadoop et HBase. Tout d'abord, vous devez vérifier l'existence de java dans votre système en utilisant «java -version». La syntaxe de la commande java version est donnée ci-dessous.

$ java -version

Si tout fonctionne correctement, il vous donnera la sortie suivante.

java version "1.7.0_71"
Java(TM) SE Runtime Environment (build 1.7.0_71-b13)
Java HotSpot(TM) Client VM (build 25.0-b02, mixed mode)

Si java n'est pas installé sur votre système, suivez les étapes ci-dessous pour installer java.

Étape 1

Téléchargez java (JDK <dernière version> - X64.tar.gz) en visitant le lien suivant Oracle Java .

ensuite jdk-7u71-linux-x64.tar.gz sera téléchargé dans votre système.

Étape 2

En général, vous trouverez le fichier java téléchargé dans le dossier Téléchargements. Vérifiez-le et extrayez lejdk-7u71-linux-x64.gz fichier à l'aide des commandes suivantes.

$ cd Downloads/
$ ls
jdk-7u71-linux-x64.gz

$ tar zxf jdk-7u71-linux-x64.gz
$ ls
jdk1.7.0_71 jdk-7u71-linux-x64.gz

Étape 3

Pour rendre java disponible à tous les utilisateurs, vous devez le déplacer vers l'emplacement «/ usr / local /». Ouvrez root et saisissez les commandes suivantes.

$ su
password:
# mv jdk1.7.0_71 /usr/local/
# exit

Étape 4

Pour la mise en place PATH et JAVA_HOME variables, ajoutez les commandes suivantes à ~/.bashrc fichier.

export JAVA_HOME=/usr/local/jdk1.7.0_71
export PATH= $PATH:$JAVA_HOME/bin

Appliquez maintenant toutes les modifications dans le système en cours d'exécution.

$ source ~/.bashrc

Étape 5

Utilisez les commandes suivantes pour configurer les alternatives Java:

# alternatives --install /usr/bin/java java usr/local/java/bin/java 2

# alternatives --install /usr/bin/javac javac usr/local/java/bin/javac 2

# alternatives --install /usr/bin/jar jar usr/local/java/bin/jar 2


# alternatives --set java usr/local/java/bin/java

# alternatives --set javac usr/local/java/bin/javac

# alternatives --set jar usr/local/java/bin/jar

Vérifiez maintenant le java -version commande depuis le terminal comme expliqué ci-dessus.

Téléchargement de Hadoop

Après avoir installé java, vous devez installer Hadoop. Tout d'abord, vérifiez l'existence de Hadoop à l'aide de la commande «Hadoop version» comme indiqué ci-dessous.

hadoop version

Si tout fonctionne correctement, il vous donnera la sortie suivante.

Hadoop 2.6.0
Compiled by jenkins on 2014-11-13T21:10Z
Compiled with protoc 2.5.0
From source with checksum 18e43357c8f927c0695f1e9522859d6a
This command was run using
/home/hadoop/hadoop/share/hadoop/common/hadoop-common-2.6.0.jar

Si votre système ne parvient pas à localiser Hadoop, téléchargez Hadoop dans votre système. Suivez les commandes ci-dessous pour ce faire.

Téléchargez et extrayez hadoop-2.6.0 depuis Apache Software Foundation à l'aide des commandes suivantes.

$ su
password:
# cd /usr/local
# wget http://mirrors.advancedhosters.com/apache/hadoop/common/hadoop-
2.6.0/hadoop-2.6.0-src.tar.gz
# tar xzf hadoop-2.6.0-src.tar.gz
# mv hadoop-2.6.0/* hadoop/
# exit

Installer Hadoop

Installez Hadoop dans l'un des modes requis. Ici, nous démontrons les fonctionnalités HBase en mode pseudo distribué, donc installons Hadoop en mode pseudo distribué.

Les étapes suivantes sont utilisées pour l'installation Hadoop 2.4.1.

Étape 1 - Configuration de Hadoop

Vous pouvez définir des variables d'environnement Hadoop en ajoutant les commandes suivantes à ~/.bashrc fichier.

export HADOOP_HOME=/usr/local/hadoop
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_INSTALL=$HADOOP_HOME

Appliquez maintenant toutes les modifications dans le système en cours d'exécution.

$ source ~/.bashrc

Étape 2 - Configuration Hadoop

Vous pouvez trouver tous les fichiers de configuration Hadoop à l'emplacement «$ HADOOP_HOME / etc / hadoop». Vous devez apporter des modifications à ces fichiers de configuration en fonction de votre infrastructure Hadoop.

$ cd $HADOOP_HOME/etc/hadoop

Afin de développer des programmes Hadoop en java, vous devez réinitialiser la variable d'environnement java dans hadoop-env.sh fichier en remplaçant JAVA_HOME value avec l'emplacement de java dans votre système.

export JAVA_HOME=/usr/local/jdk1.7.0_71

Vous devrez éditer les fichiers suivants pour configurer Hadoop.

core-site.xml

le core-site.xml Le fichier contient des informations telles que le numéro de port utilisé pour l'instance Hadoop, la mémoire allouée au système de fichiers, la limite de mémoire pour le stockage des données et la taille des tampons de lecture / écriture.

Ouvrez core-site.xml et ajoutez les propriétés suivantes entre les balises <configuration> et </configuration>.

<configuration>
   <property>
      <name>fs.default.name</name>
      <value>hdfs://localhost:9000</value>
   </property>
</configuration>

hdfs-site.xml

le hdfs-site.xml fichier contient des informations telles que la valeur des données de réplication, le chemin du namenode et le chemin du datanode de vos systèmes de fichiers locaux, où vous souhaitez stocker l'infrastructure Hadoop.

Supposons les données suivantes.

dfs.replication (data replication value) = 1
(In the below given path /hadoop/ is the user name.
hadoopinfra/hdfs/namenode is the directory created by hdfs file system.)

namenode path = //home/hadoop/hadoopinfra/hdfs/namenode
(hadoopinfra/hdfs/datanode is the directory created by hdfs file system.)

datanode path = //home/hadoop/hadoopinfra/hdfs/datanode

Ouvrez ce fichier et ajoutez les propriétés suivantes entre les balises <configuration>, </configuration>.

<configuration>
   <property>
      <name>dfs.replication</name >
      <value>1</value>
   </property>
	
   <property>
      <name>dfs.name.dir</name>
      <value>file:///home/hadoop/hadoopinfra/hdfs/namenode</value>
   </property>
	
   <property>
      <name>dfs.data.dir</name>
      <value>file:///home/hadoop/hadoopinfra/hdfs/datanode</value>
   </property>
</configuration>

Note: Dans le fichier ci-dessus, toutes les valeurs de propriété sont définies par l'utilisateur et vous pouvez apporter des modifications en fonction de votre infrastructure Hadoop.

yarn-site.xml

Ce fichier est utilisé pour configurer le fil dans Hadoop. Ouvrez le fichier yarn-site.xml et ajoutez la propriété suivante entre les <configuration $ gt ;, </ configuration $ gt; balises dans ce fichier.

<configuration>
   <property>
      <name>yarn.nodemanager.aux-services</name>
      <value>mapreduce_shuffle</value>
   </property>
</configuration>

mapred-site.xml

Ce fichier est utilisé pour spécifier le framework MapReduce que nous utilisons. Par défaut, Hadoop contient un modèle de yarn-site.xml. Tout d'abord, il est nécessaire de copier le fichier à partir demapred-site.xml.template à mapred-site.xml fichier à l'aide de la commande suivante.

$ cp mapred-site.xml.template mapred-site.xml

Ouvert mapred-site.xml et ajoutez les propriétés suivantes entre les balises <configuration> et </configuration>.

<configuration>
   <property>
      <name>mapreduce.framework.name</name>
      <value>yarn</value>
   </property>
</configuration>

Vérification de l'installation de Hadoop

Les étapes suivantes sont utilisées pour vérifier l'installation de Hadoop.

Étape 1 - Configuration du nœud de nom

Configurez le namenode en utilisant la commande «hdfs namenode -format» comme suit.

$ cd ~
$ hdfs namenode -format

Le résultat attendu est le suivant.

10/24/14 21:30:55 INFO namenode.NameNode: STARTUP_MSG:
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG: host = localhost/192.168.1.11
STARTUP_MSG: args = [-format]
STARTUP_MSG: version = 2.4.1
...
...
10/24/14 21:30:56 INFO common.Storage: Storage directory
/home/hadoop/hadoopinfra/hdfs/namenode has been successfully formatted.
10/24/14 21:30:56 INFO namenode.NNStorageRetentionManager: Going to
retain 1 images with txid >= 0
10/24/14 21:30:56 INFO util.ExitUtil: Exiting with status 0
10/24/14 21:30:56 INFO namenode.NameNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at localhost/192.168.1.11
************************************************************/

Étape 2 - Vérification des fichiers DFS Hadoop

La commande suivante est utilisée pour démarrer dfs. L'exécution de cette commande démarrera votre système de fichiers Hadoop.

$ start-dfs.sh

Le résultat attendu est le suivant.

10/24/14 21:37:56
Starting namenodes on [localhost]
localhost: starting namenode, logging to /home/hadoop/hadoop-
2.4.1/logs/hadoop-hadoop-namenode-localhost.out
localhost: starting datanode, logging to /home/hadoop/hadoop-
2.4.1/logs/hadoop-hadoop-datanode-localhost.out
Starting secondary namenodes [0.0.0.0]

Étape 3 - Vérification du script de fil

La commande suivante est utilisée pour démarrer le script de fil. L'exécution de cette commande démarrera vos démons yarn.

$ start-yarn.sh

Le résultat attendu est le suivant.

starting yarn daemons
starting resourcemanager, logging to /home/hadoop/hadoop-
2.4.1/logs/yarn-hadoop-resourcemanager-localhost.out
localhost: starting nodemanager, logging to /home/hadoop/hadoop-
2.4.1/logs/yarn-hadoop-nodemanager-localhost.out

Étape 4 - Accéder à Hadoop sur le navigateur

Le numéro de port par défaut pour accéder à Hadoop est 50070. Utilisez l'URL suivante pour obtenir les services Hadoop sur votre navigateur.

http://localhost:50070

Étape 5 - Vérifiez toutes les applications du cluster

Le numéro de port par défaut pour accéder à toutes les applications du cluster est 8088. Utilisez l'url suivante pour visiter ce service.

http://localhost:8088/

Installation de HBase

Nous pouvons installer HBase dans l'un des trois modes: mode autonome, mode pseudo-distribué et mode entièrement distribué.

Installation de HBase en mode autonome

Téléchargez la dernière version stable du formulaire HBase http://www.interior-dsgn.com/apache/hbase/stable/à l'aide de la commande «wget» et extrayez-la à l'aide de la commande tar «zxvf». Voir la commande suivante.

$cd usr/local/
$wget http://www.interior-dsgn.com/apache/hbase/stable/hbase-0.98.8-
hadoop2-bin.tar.gz
$tar -zxvf hbase-0.98.8-hadoop2-bin.tar.gz

Passez en mode super utilisateur et déplacez le dossier HBase vers / usr / local comme indiqué ci-dessous.

$su
$password: enter your password here
mv hbase-0.99.1/* Hbase/

Configuration de HBase en mode autonome

Avant de continuer avec HBase, vous devez éditer les fichiers suivants et configurer HBase.

hbase-env.sh

Définissez java Home pour HBase et ouvrez hbase-env.shfichier du dossier conf. Modifiez la variable d'environnement JAVA_HOME et modifiez le chemin existant vers votre variable JAVA_HOME actuelle comme indiqué ci-dessous.

cd /usr/local/Hbase/conf
gedit hbase-env.sh

Cela ouvrira le fichier env.sh de HBase. Maintenant, remplacez l'existantJAVA_HOME valeur avec votre valeur actuelle comme indiqué ci-dessous.

export JAVA_HOME=/usr/lib/jvm/java-1.7.0

hbase-site.xml

Il s'agit du fichier de configuration principal de HBase. Définissez le répertoire de données à un emplacement approprié en ouvrant le dossier de base HBase dans / usr / local / HBase. Dans le dossier conf, vous trouverez plusieurs fichiers, ouvrez lehbase-site.xml fichier comme indiqué ci-dessous.

#cd /usr/local/HBase/
#cd conf
# gedit hbase-site.xml

À l'intérieur de hbase-site.xmlfichier, vous trouverez les balises <configuration> et </configuration>. Dans ceux-ci, définissez le répertoire HBase sous la clé de propriété avec le nom «hbase.rootdir» comme indiqué ci-dessous.

<configuration>
   //Here you have to set the path where you want HBase to store its files.
   <property>
      <name>hbase.rootdir</name>
      <value>file:/home/hadoop/HBase/HFiles</value>
   </property>
	
   //Here you have to set the path where you want HBase to store its built in zookeeper  files.
   <property>
      <name>hbase.zookeeper.property.dataDir</name>
      <value>/home/hadoop/zookeeper</value>
   </property>
</configuration>

Avec cela, la partie installation et configuration de HBase est terminée avec succès. Nous pouvons démarrer HBase en utilisantstart-hbase.shscript fourni dans le dossier bin de HBase. Pour cela, ouvrez le dossier d'accueil HBase et exécutez le script de démarrage HBase comme indiqué ci-dessous.

$cd /usr/local/HBase/bin
$./start-hbase.sh

Si tout se passe bien, lorsque vous essayez d'exécuter le script de démarrage HBase, un message s'affiche indiquant que HBase a démarré.

starting master, logging to /usr/local/HBase/bin/../logs/hbase-tpmaster-localhost.localdomain.out

Installation de HBase en mode pseudo-distribué

Voyons maintenant comment HBase est installé en mode pseudo-distribué.

Configurer HBase

Avant de continuer avec HBase, configurez Hadoop et HDFS sur votre système local ou sur un système distant et assurez-vous qu'ils fonctionnent. Arrêtez HBase s'il est en cours d'exécution.

hbase-site.xml

Modifiez le fichier hbase-site.xml pour ajouter les propriétés suivantes.

<property>
   <name>hbase.cluster.distributed</name>
   <value>true</value>
</property>

Il mentionnera dans quel mode HBase doit être exécuté. Dans le même fichier du système de fichiers local, modifiez le hbase.rootdir, l'adresse de votre instance HDFS, à l'aide de la syntaxe URI hdfs: ////. Nous exécutons HDFS sur l'hôte local au port 8030.

<property>
   <name>hbase.rootdir</name>
   <value>hdfs://localhost:8030/hbase</value>
</property>

Démarrer HBase

Une fois la configuration terminée, accédez au dossier d'accueil HBase et démarrez HBase à l'aide de la commande suivante.

$cd /usr/local/HBase
$bin/start-hbase.sh

Note: Avant de démarrer HBase, assurez-vous que Hadoop est en cours d'exécution.

Vérification du répertoire HBase dans HDFS

HBase crée son répertoire dans HDFS. Pour voir le répertoire créé, accédez à Hadoop bin et tapez la commande suivante.

$ ./bin/hadoop fs -ls /hbase

Si tout se passe bien, il vous donnera la sortie suivante.

Found 7 items
drwxr-xr-x - hbase users 0 2014-06-25 18:58 /hbase/.tmp
drwxr-xr-x - hbase users 0 2014-06-25 21:49 /hbase/WALs
drwxr-xr-x - hbase users 0 2014-06-25 18:48 /hbase/corrupt
drwxr-xr-x - hbase users 0 2014-06-25 18:58 /hbase/data
-rw-r--r-- 3 hbase users 42 2014-06-25 18:41 /hbase/hbase.id
-rw-r--r-- 3 hbase users 7 2014-06-25 18:41 /hbase/hbase.version
drwxr-xr-x - hbase users 0 2014-06-25 21:49 /hbase/oldWALs

Démarrer et arrêter un maître

En utilisant «local-master-backup.sh», vous pouvez démarrer jusqu'à 10 serveurs. Ouvrez le dossier de base de HBase, master et exécutez la commande suivante pour le démarrer.

$ ./bin/local-master-backup.sh 2 4

Pour tuer un maître de sauvegarde, vous avez besoin de son identifiant de processus, qui sera stocké dans un fichier nommé “/tmp/hbase-USER-X-master.pid.” vous pouvez tuer le maître de sauvegarde à l'aide de la commande suivante.

$ cat /tmp/hbase-user-1-master.pid |xargs kill -9

Démarrage et arrêt des RegionServers

Vous pouvez exécuter plusieurs serveurs de région à partir d'un seul système à l'aide de la commande suivante.

$ .bin/local-regionservers.sh start 2 3

Pour arrêter un serveur de région, utilisez la commande suivante.

$ .bin/local-regionservers.sh stop 3

 

Démarrage de HBaseShell

Après avoir installé HBase avec succès, vous pouvez démarrer HBase Shell. Vous trouverez ci-dessous la séquence des étapes à suivre pour démarrer le shell HBase. Ouvrez le terminal et connectez-vous en tant que super utilisateur.

Démarrer le système de fichiers Hadoop

Parcourez le dossier sbin de la maison Hadoop et démarrez le système de fichiers Hadoop comme indiqué ci-dessous.

$cd $HADOOP_HOME/sbin
$start-all.sh

Démarrez HBase

Parcourez le dossier bin du répertoire racine HBase et démarrez HBase.

$cd /usr/local/HBase
$./bin/start-hbase.sh

Démarrez HBase Master Server

Ce sera le même répertoire. Démarrez-le comme indiqué ci-dessous.

$./bin/local-master-backup.sh start 2 (number signifies specific
server.)

Région de départ

Démarrez le serveur de région comme indiqué ci-dessous.

$./bin/./local-regionservers.sh start 3

Démarrez HBase Shell

Vous pouvez démarrer le shell HBase à l'aide de la commande suivante.

$cd bin
$./hbase shell

Cela vous donnera l'invite HBase Shell comme indiqué ci-dessous.

2014-12-09 14:24:27,526 INFO [main] Configuration.deprecation:
hadoop.native.lib is deprecated. Instead, use io.native.lib.available
HBase Shell; enter 'help<RETURN>' for list of supported commands.
Type "exit<RETURN>" to leave the HBase Shell
Version 0.98.8-hadoop2, r6cfc8d064754251365e070a10a82eb169956d5fe, Fri
Nov 14 18:26:29 PST 2014

hbase(main):001:0>

Interface Web HBase

Pour accéder à l'interface Web de HBase, saisissez l'url suivante dans le navigateur.

http://localhost:60010

Cette interface répertorie vos serveurs de région, vos maîtres de sauvegarde et vos tables HBase en cours d'exécution.

Serveurs de la région HBase et maîtres de sauvegarde

Tables HBase

Définition de l'environnement Java

Nous pouvons également communiquer avec HBase à l'aide de bibliothèques Java, mais avant d'accéder à HBase à l'aide de l'API Java, vous devez définir le chemin de classe pour ces bibliothèques.

Définition du chemin de classe

Avant de procéder à la programmation, définissez le chemin de classe sur les bibliothèques HBase dans .bashrcfichier. Ouvert.bashrc dans l'un des éditeurs comme indiqué ci-dessous.

$ gedit ~/.bashrc

Définissez le chemin de classe pour les bibliothèques HBase (dossier lib dans HBase) comme indiqué ci-dessous.

export CLASSPATH = $CLASSPATH://home/hadoop/hbase/lib/*

Cela permet d'éviter l'exception «classe non trouvée» lors de l'accès à HBase à l'aide de l'API java.