Apache Solr - Auf Hadoop
Solr kann zusammen mit Hadoop verwendet werden. Da Hadoop eine große Datenmenge verarbeitet, hilft uns Solr dabei, die erforderlichen Informationen aus einer so großen Quelle zu finden. Lassen Sie uns in diesem Abschnitt verstehen, wie Sie Hadoop auf Ihrem System installieren können.
Hadoop herunterladen
Im Folgenden sind die Schritte aufgeführt, die zum Herunterladen von Hadoop auf Ihr System ausgeführt werden müssen.
Step 1- Gehen Sie zur Homepage von Hadoop. Sie können den Link verwenden - www.hadoop.apache.org/ . Klicken Sie auf den LinkReleases, wie im folgenden Screenshot hervorgehoben.
Es wird Sie zu weiterleiten Apache Hadoop Releases Seite, die Links für Spiegel von Quell- und Binärdateien verschiedener Versionen von Hadoop wie folgt enthält:
Step 2 - Wählen Sie die neueste Version von Hadoop aus (in unserem Tutorial ist es 2.6.4) und klicken Sie auf binary link. Sie werden zu einer Seite weitergeleitet, auf der Spiegel für Hadoop-Binärdateien verfügbar sind. Klicken Sie auf einen dieser Spiegel, um Hadoop herunterzuladen.
Laden Sie Hadoop von der Eingabeaufforderung herunter
Öffnen Sie das Linux-Terminal und melden Sie sich als Superuser an.
$ su
password:
Wechseln Sie in das Verzeichnis, in dem Sie Hadoop installieren müssen, und speichern Sie die Datei dort über den zuvor kopierten Link, wie im folgenden Codeblock gezeigt.
# cd /usr/local
# wget http://redrockdigimark.com/apachemirror/hadoop/common/hadoop-
2.6.4/hadoop-2.6.4.tar.gz
Extrahieren Sie Hadoop nach dem Herunterladen mit den folgenden Befehlen.
# tar zxvf hadoop-2.6.4.tar.gz
# mkdir hadoop
# mv hadoop-2.6.4/* to hadoop/
# exit
Hadoop installieren
Befolgen Sie zur Installation die folgenden Schritte Hadoop im pseudoverteilten Modus.
Schritt 1: Einrichten von Hadoop
Sie können die Hadoop-Umgebungsvariablen festlegen, indem Sie die folgenden Befehle an anhängen ~/.bashrc Datei.
export HADOOP_HOME = /usr/local/hadoop export
HADOOP_MAPRED_HOME = $HADOOP_HOME export
HADOOP_COMMON_HOME = $HADOOP_HOME export
HADOOP_HDFS_HOME = $HADOOP_HOME export
YARN_HOME = $HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR = $HADOOP_HOME/lib/native
export PATH = $PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_INSTALL = $HADOOP_HOME
Übernehmen Sie als Nächstes alle Änderungen in das aktuell ausgeführte System.
$ source ~/.bashrc
Schritt 2: Hadoop-Konfiguration
Sie finden alle Hadoop-Konfigurationsdateien unter dem Speicherort "$ HADOOP_HOME / etc / hadoop". Es ist erforderlich, Änderungen an diesen Konfigurationsdateien entsprechend Ihrer Hadoop-Infrastruktur vorzunehmen.
$ cd $HADOOP_HOME/etc/hadoop
Um Hadoop-Programme in Java zu entwickeln, müssen Sie die Java-Umgebungsvariablen in zurücksetzen hadoop-env.sh Datei durch Ersetzen JAVA_HOME Wert mit dem Speicherort von Java in Ihrem System.
export JAVA_HOME = /usr/local/jdk1.7.0_71
Im Folgenden finden Sie eine Liste der Dateien, die Sie bearbeiten müssen, um Hadoop zu konfigurieren.
- core-site.xml
- hdfs-site.xml
- yarn-site.xml
- mapred-site.xml
core-site.xml
Das core-site.xml Die Datei enthält Informationen wie die für die Hadoop-Instanz verwendete Portnummer, den für das Dateisystem zugewiesenen Speicher, das Speicherlimit zum Speichern der Daten und die Größe der Lese- / Schreibpuffer.
Öffnen Sie die Datei core-site.xml und fügen Sie die folgenden Eigenschaften in die Tags <configuration>, </ configuration> ein.
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
hdfs-site.xml
Das hdfs-site.xml Datei enthält Informationen wie den Wert der Replikationsdaten, namenode Pfad und datanodePfade Ihrer lokalen Dateisysteme. Dies ist der Ort, an dem Sie die Hadoop-Infrastruktur speichern möchten.
Nehmen wir die folgenden Daten an.
dfs.replication (data replication value) = 1
(In the below given path /hadoop/ is the user name.
hadoopinfra/hdfs/namenode is the directory created by hdfs file system.)
namenode path = //home/hadoop/hadoopinfra/hdfs/namenode
(hadoopinfra/hdfs/datanode is the directory created by hdfs file system.)
datanode path = //home/hadoop/hadoopinfra/hdfs/datanode
Öffnen Sie diese Datei und fügen Sie die folgenden Eigenschaften in die Tags <configuration>, </ configuration> ein.
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>file:///home/hadoop/hadoopinfra/hdfs/namenode</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>file:///home/hadoop/hadoopinfra/hdfs/datanode</value>
</property>
</configuration>
Note - In der obigen Datei sind alle Eigenschaftswerte benutzerdefiniert und Sie können Änderungen entsprechend Ihrer Hadoop-Infrastruktur vornehmen.
yarn-site.xml
Diese Datei wird verwendet, um Garn in Hadoop zu konfigurieren. Öffnen Sie die Datei yarn-site.xml und fügen Sie die folgenden Eigenschaften zwischen den Tags <configuration>, </ configuration> in dieser Datei hinzu.
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
mapred-site.xml
Diese Datei wird verwendet, um anzugeben, welches MapReduce-Framework wir verwenden. Standardmäßig enthält Hadoop eine Vorlage von yarn-site.xml. Zunächst muss die Datei von kopiert werdenmapred-site,xml.template zu mapred-site.xml Datei mit dem folgenden Befehl.
$ cp mapred-site.xml.template mapred-site.xml
Öffnen mapred-site.xml Datei und fügen Sie die folgenden Eigenschaften in die Tags <configuration>, </ configuration> ein.
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
Überprüfen der Hadoop-Installation
Die folgenden Schritte werden verwendet, um die Hadoop-Installation zu überprüfen.
Schritt 1: Namensknoten-Setup
Richten Sie den Namensknoten mit dem Befehl "hdfs namenode –format" wie folgt ein.
$ cd ~
$ hdfs namenode -format
Das erwartete Ergebnis ist wie folgt.
10/24/14 21:30:55 INFO namenode.NameNode: STARTUP_MSG:
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG: host = localhost/192.168.1.11
STARTUP_MSG: args = [-format] STARTUP_MSG: version = 2.6.4
...
...
10/24/14 21:30:56 INFO common.Storage: Storage directory
/home/hadoop/hadoopinfra/hdfs/namenode has been successfully formatted.
10/24/14 21:30:56 INFO namenode.NNStorageRetentionManager: Going to retain 1
images with txid >= 0
10/24/14 21:30:56 INFO util.ExitUtil: Exiting with status 0
10/24/14 21:30:56 INFO namenode.NameNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at localhost/192.168.1.11
************************************************************/
Schritt 2: Überprüfen des Hadoop-dfs
Der folgende Befehl wird verwendet, um das Hadoop-dfs zu starten. Durch Ausführen dieses Befehls wird Ihr Hadoop-Dateisystem gestartet.
$ start-dfs.sh
Die erwartete Ausgabe ist wie folgt:
10/24/14 21:37:56
Starting namenodes on [localhost]
localhost: starting namenode, logging to /home/hadoop/hadoop-2.6.4/logs/hadoop-
hadoop-namenode-localhost.out
localhost: starting datanode, logging to /home/hadoop/hadoop-2.6.4/logs/hadoop-
hadoop-datanode-localhost.out
Starting secondary namenodes [0.0.0.0]
Schritt 3: Überprüfen des Garnskripts
Der folgende Befehl wird verwendet, um das Garn-Skript zu starten. Wenn Sie diesen Befehl ausführen, werden Ihre Garn-Dämonen gestartet.
$ start-yarn.sh
Die erwartete Ausgabe wie folgt -
starting yarn daemons
starting resourcemanager, logging to /home/hadoop/hadoop-2.6.4/logs/yarn-
hadoop-resourcemanager-localhost.out
localhost: starting nodemanager, logging to /home/hadoop/hadoop-
2.6.4/logs/yarn-hadoop-nodemanager-localhost.out
Schritt 4: Zugriff auf Hadoop über den Browser
Die Standardportnummer für den Zugriff auf Hadoop ist 50070. Verwenden Sie die folgende URL, um Hadoop-Dienste im Browser abzurufen.
http://localhost:50070/
Solr auf Hadoop installieren
Führen Sie die folgenden Schritte aus, um Solr herunterzuladen und zu installieren.
Schritt 1
Öffnen Sie die Homepage von Apache Solr, indem Sie auf den folgenden Link klicken - https://lucene.apache.org/solr/
Schritt 2
Drücke den download button(im obigen Screenshot hervorgehoben). Beim Klicken werden Sie zu der Seite weitergeleitet, auf der Sie verschiedene Spiegel von Apache Solr haben. Wählen Sie einen Spiegel aus und klicken Sie darauf. Dadurch werden Sie zu einer Seite weitergeleitet, auf der Sie die Quell- und Binärdateien von Apache Solr herunterladen können (siehe folgenden Screenshot).
Schritt 3
Beim Klicken wird ein Ordner mit dem Namen Solr-6.2.0.tqzwird im Download-Ordner Ihres Systems heruntergeladen. Extrahieren Sie den Inhalt des heruntergeladenen Ordners.
Schritt 4
Erstellen Sie einen Ordner mit dem Namen Solr im Hadoop-Ausgangsverzeichnis und verschieben Sie den Inhalt des extrahierten Ordners in den Ordner, wie unten gezeigt.
$ mkdir Solr
$ cd Downloads
$ mv Solr-6.2.0 /home/Hadoop/
Überprüfung
Durchsuchen Sie die bin Ordner des Solr Home-Verzeichnisses und überprüfen Sie die Installation mit dem version Option, wie im folgenden Codeblock gezeigt.
$ cd bin/
$ ./Solr version
6.2.0
Heimat und Weg setzen
Öffne das .bashrc Datei mit dem folgenden Befehl -
[Hadoop@localhost ~]$ source ~/.bashrc
Stellen Sie nun die Home- und Pfadverzeichnisse für Apache Solr wie folgt ein:
export SOLR_HOME = /home/Hadoop/Solr
export PATH = $PATH:/$SOLR_HOME/bin/
Öffnen Sie das Terminal und führen Sie den folgenden Befehl aus:
[Hadoop@localhost Solr]$ source ~/.bashrc
Jetzt können Sie die Befehle von Solr aus jedem Verzeichnis ausführen.