Mahout - Lingkungan

Bab ini mengajarkan Anda cara mengatur mahout. Java dan Hadoop adalah prasyarat mahout. Di bawah ini diberikan langkah-langkah untuk mengunduh dan menginstal Java, Hadoop, dan Mahout.

Pengaturan Pra-Instalasi

Sebelum menginstal Hadoop ke lingkungan Linux, kita perlu mengatur Linux menggunakan ssh(Secure Shell). Ikuti langkah-langkah yang disebutkan di bawah ini untuk menyiapkan lingkungan Linux.

Membuat Pengguna

Direkomendasikan untuk membuat pengguna terpisah untuk Hadoop guna mengisolasi sistem file Hadoop dari sistem file Unix. Ikuti langkah-langkah yang diberikan di bawah ini untuk membuat pengguna:

  • Buka root menggunakan perintah "su".

  • Buat pengguna dari akun root menggunakan perintah “useradd username”.

  • Sekarang Anda dapat membuka akun pengguna yang ada menggunakan perintah “su username”.

  • Buka terminal Linux dan ketik perintah berikut untuk membuat pengguna.

$ su
password:
# useradd hadoop
# passwd hadoop
New passwd:
Retype new passwd

Penyiapan SSH dan Pembuatan Kunci

Penyiapan SSH diperlukan untuk melakukan operasi yang berbeda pada cluster seperti memulai, menghentikan, dan mendistribusikan operasi shell daemon. Untuk mengautentikasi pengguna Hadoop yang berbeda, diperlukan pasangan kunci publik / pribadi untuk pengguna Hadoop dan membagikannya dengan pengguna yang berbeda.

Perintah berikut digunakan untuk membuat pasangan nilai kunci menggunakan SSH, salin formulir kunci publik id_rsa.pub ke authorized_keys, dan berikan izin pemilik, baca dan tulis ke file authorized_keys.

$ ssh-keygen -t rsa
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
$ chmod 0600 ~/.ssh/authorized_keys

Memverifikasi ssh

ssh localhost

Menginstal Java

Jawa adalah prasyarat utama Hadoop dan HBase. Pertama-tama, Anda harus memverifikasi keberadaan Java di sistem Anda menggunakan "java -version". Sintaks perintah versi Java diberikan di bawah ini.

$ java -version

Ini harus menghasilkan keluaran sebagai berikut.

java version "1.7.0_71"
Java(TM) SE Runtime Environment (build 1.7.0_71-b13)
Java HotSpot(TM) Client VM (build 25.0-b02, mixed mode)

Jika Anda belum menginstal Java di sistem Anda, ikuti langkah-langkah yang diberikan di bawah ini untuk menginstal Java.

Step 1

Unduh java (JDK <latest version> - X64.tar.gz) dengan mengunjungi tautan berikut: Oracle

Kemudian jdk-7u71-linux-x64.tar.gz is downloaded ke sistem Anda.

Step 2

Umumnya, Anda menemukan file Java yang diunduh di folder Unduhan. Verifikasi dan ekstrak filejdk-7u71-linux-x64.gz file menggunakan perintah berikut.

$ cd Downloads/
$ ls
jdk-7u71-linux-x64.gz
$ tar zxf jdk-7u71-linux-x64.gz
$ ls
jdk1.7.0_71 jdk-7u71-linux-x64.gz

Step 3

Agar Java tersedia untuk semua pengguna, Anda perlu memindahkannya ke lokasi "/ usr / local /". Buka root, dan ketik perintah berikut.

$ su
password:
# mv jdk1.7.0_71 /usr/local/
# exit

Step 4

Untuk menyiapkan PATH dan JAVA_HOME variabel, tambahkan perintah berikut ke ~/.bashrc file.

export JAVA_HOME=/usr/local/jdk1.7.0_71
export PATH= $PATH:$JAVA_HOME/bin

Sekarang, verifikasi java -version perintah dari terminal seperti dijelaskan di atas.

Mendownload Hadoop

Setelah menginstal Java, Anda perlu menginstal Hadoop terlebih dahulu. Verifikasi keberadaan Hadoop menggunakan perintah “Versi Hadoop” seperti yang ditunjukkan di bawah ini.

hadoop version

Ini harus menghasilkan keluaran berikut:

Hadoop 2.6.0
Compiled by jenkins on 2014-11-13T21:10Z
Compiled with protoc 2.5.0
From source with checksum 18e43357c8f927c0695f1e9522859d6a
This command was run using /home/hadoop/hadoop/share/hadoop/common/hadoopcommon-2.6.0.jar

Jika sistem Anda tidak dapat menemukan Hadoop, unduh Hadoop dan instal di sistem Anda. Ikuti perintah yang diberikan di bawah ini untuk melakukannya.

Unduh dan ekstrak hadoop-2.6.0 dari fondasi perangkat lunak apache menggunakan perintah berikut.

$ su
password:
# cd /usr/local
# wget http://mirrors.advancedhosters.com/apache/hadoop/common/hadoop-
2.6.0/hadoop-2.6.0-src.tar.gz
# tar xzf hadoop-2.6.0-src.tar.gz
# mv hadoop-2.6.0/* hadoop/
# exit

Memasang Hadoop

Instal Hadoop di salah satu mode yang diperlukan. Di sini, kami mendemonstrasikan fungsionalitas HBase dalam mode pseudo-didistribusikan, oleh karena itu instal Hadoop dalam mode pseudo-didistribusikan.

Ikuti langkah-langkah yang diberikan di bawah ini untuk menginstal Hadoop 2.4.1 di sistem Anda.

Langkah 1: Menyiapkan Hadoop

Anda dapat menyetel variabel lingkungan Hadoop dengan menambahkan perintah berikut ke ~/.bashrc mengajukan.

export HADOOP_HOME=/usr/local/hadoop
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME

export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_INSTALL=$HADOOP_HOME

Sekarang, terapkan semua perubahan ke dalam sistem yang sedang berjalan.

$ source ~/.bashrc

Langkah 2: Konfigurasi Hadoop

Anda dapat menemukan semua file konfigurasi Hadoop di lokasi "$ HADOOP_HOME / etc / hadoop". Diperlukan untuk membuat perubahan pada file konfigurasi tersebut sesuai dengan infrastruktur Hadoop Anda.

$ cd $HADOOP_HOME/etc/hadoop

Untuk mengembangkan program Hadoop di Java, Anda perlu mengatur ulang variabel lingkungan Java di hadoop-env.sh mengajukan dengan mengganti JAVA_HOME nilai dengan lokasi Java di sistem Anda.

export JAVA_HOME=/usr/local/jdk1.7.0_71

Diberikan di bawah ini adalah daftar file yang harus Anda edit untuk mengkonfigurasi Hadoop.

core-site.xml

Itu core-site.xml file berisi informasi seperti nomor port yang digunakan untuk instance Hadoop, memori yang dialokasikan untuk sistem file, batas memori untuk menyimpan data, dan ukuran buffer Baca / Tulis.

Buka core-site.xml dan tambahkan properti berikut di antara tag <configuration>, </configuration>:

<configuration>
   <property>
      <name>fs.default.name</name>
      <value>hdfs://localhost:9000</value>
   </property>
</configuration>

hdfs-site.xm

Itu hdfs-site.xmlfile berisi informasi seperti nilai data replikasi, jalur kode nama, dan jalur datanode sistem file lokal Anda. Artinya tempat di mana Anda ingin menyimpan infrastruktur Hadoop.

Mari kita asumsikan data berikut:

dfs.replication (data replication value) = 1

(In the below given path /hadoop/ is the user name.
hadoopinfra/hdfs/namenode is the directory created by hdfs file system.)
namenode path = //home/hadoop/hadoopinfra/hdfs/namenode

(hadoopinfra/hdfs/datanode is the directory created by hdfs file system.)
datanode path = //home/hadoop/hadoopinfra/hdfs/datanode

Buka file ini dan tambahkan properti berikut di antara tag <configuration>, </configuration> di file ini.

<configuration>
   <property>
      <name>dfs.replication</name>
      <value>1</value>
   </property>
	
   <property>
      <name>dfs.name.dir</name>
      <value>file:///home/hadoop/hadoopinfra/hdfs/namenode</value>
   </property>
	
   <property>
      <name>dfs.data.dir</name>
      <value>file:///home/hadoop/hadoopinfra/hdfs/datanode</value>
   </property>
</configuration>

Note:Dalam file di atas, semua nilai properti ditentukan oleh pengguna. Anda dapat membuat perubahan sesuai dengan infrastruktur Hadoop Anda.

mapred-site.xml

File ini digunakan untuk mengkonfigurasi benang menjadi Hadoop. Buka file mapred-site.xml dan tambahkan properti berikut di antara tag <configuration>, </configuration> di file ini.

<configuration>
   <property>
      <name>yarn.nodemanager.aux-services</name>
      <value>mapreduce_shuffle</value>
   </property>
</configuration>

mapred-site.xml

File ini digunakan untuk menentukan kerangka MapReduce mana yang kita gunakan. Secara default, Hadoop berisi template mapred-site.xml. Pertama-tama, Anda harus menyalin file darimapred-site.xml.template untuk mapred-site.xml file menggunakan perintah berikut.

$ cp mapred-site.xml.template mapred-site.xml

Buka mapred-site.xml file dan tambahkan properti berikut di antara tag <configuration>, </configuration> di file ini.

<configuration>
   <property>
      <name>mapreduce.framework.name</name>
      <value>yarn</value>
   </property>
</configuration>

Memverifikasi Instalasi Hadoop

Langkah-langkah berikut digunakan untuk memverifikasi penginstalan Hadoop.

Langkah 1: Penyiapan Node Nama

Siapkan namenode menggunakan perintah “hdfs namenode -format” sebagai berikut:

$ cd ~
$ hdfs namenode -format

Hasil yang diharapkan adalah sebagai berikut:

10/24/14 21:30:55 INFO namenode.NameNode: STARTUP_MSG:
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG: host = localhost/192.168.1.11
STARTUP_MSG: args = [-format]
STARTUP_MSG: version = 2.4.1
...
...
10/24/14 21:30:56 INFO common.Storage: Storage directory
/home/hadoop/hadoopinfra/hdfs/namenode has been successfully formatted.
10/24/14 21:30:56 INFO namenode.NNStorageRetentionManager: Going to retain
1 images with txid >= 0
10/24/14 21:30:56 INFO util.ExitUtil: Exiting with status 0
10/24/14 21:30:56 INFO namenode.NameNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at localhost/192.168.1.11
************************************************************/

Langkah 2: Memverifikasi Hadoop dfs

Perintah berikut digunakan untuk memulai dfs. Perintah ini memulai sistem file Hadoop Anda.

$ start-dfs.sh

Output yang diharapkan adalah sebagai berikut:

10/24/14 21:37:56
Starting namenodes on [localhost]
localhost: starting namenode, logging to /home/hadoop/hadoop-
2.4.1/logs/hadoop-hadoop-namenode-localhost.out
localhost: starting datanode, logging to /home/hadoop/hadoop-
2.4.1/logs/hadoop-hadoop-datanode-localhost.out
Starting secondary namenodes [0.0.0.0]

Langkah 3: Memverifikasi Skrip Benang

Perintah berikut digunakan untuk memulai skrip benang. Melaksanakan perintah ini akan memulai setan benang Anda.

$ start-yarn.sh

Output yang diharapkan adalah sebagai berikut:

starting yarn daemons
starting resource manager, logging to /home/hadoop/hadoop-2.4.1/logs/yarn-
hadoop-resourcemanager-localhost.out
localhost: starting node manager, logging to /home/hadoop/hadoop-
2.4.1/logs/yarn-hadoop-nodemanager-localhost.out

Langkah 4: Mengakses Hadoop di Browser

Nomor port default untuk mengakses hadoop adalah 50070. Gunakan URL berikut untuk mendapatkan layanan Hadoop di browser Anda.

http://localhost:50070/

Langkah 5: Verifikasi Semua Aplikasi untuk Cluster

Nomor port default untuk mengakses semua aplikasi cluster adalah 8088. Gunakan URL berikut untuk mengunjungi layanan ini.

http://localhost:8088/

Mengunduh Mahout

Mahout tersedia di situs web Mahout . Unduh Mahout dari tautan yang disediakan di situs web. Berikut adalah tangkapan layar dari situs web tersebut.

Langkah 1

Unduh Apache mahout dari tautan http://mirror.nexcess.net/apache/mahout/ menggunakan perintah berikut.

[Hadoop@localhost ~]$ wget
http://mirror.nexcess.net/apache/mahout/0.9/mahout-distribution-0.9.tar.gz

Kemudian mahout-distribution-0.9.tar.gz akan diunduh ke sistem Anda.

Langkah 2

Jelajahi folder tempat mahout-distribution-0.9.tar.gz disimpan dan ekstrak file jar yang diunduh seperti yang ditunjukkan di bawah ini.

[Hadoop@localhost ~]$ tar zxvf mahout-distribution-0.9.tar.gz

Repositori Maven

Diberikan di bawah ini adalah pom.xml untuk membangun Apache Mahout menggunakan Eclipse.

<dependency>
   <groupId>org.apache.mahout</groupId>
   <artifactId>mahout-core</artifactId>
   <version>0.9</version>
</dependency>

<dependency>
   <groupId>org.apache.mahout</groupId>
   <artifactId>mahout-math</artifactId>
   <version>${mahout.version}</version>
</dependency>

<dependency>
   <groupId>org.apache.mahout</groupId>
   <artifactId>mahout-integration</artifactId>
   <version>${mahout.version}</version>
</dependency>