Apache Spark: instalación
Spark es el subproyecto de Hadoop. Por lo tanto, es mejor instalar Spark en un sistema basado en Linux. Los siguientes pasos muestran cómo instalar Apache Spark.
Paso 1: verificar la instalación de Java
La instalación de Java es una de las cosas obligatorias al instalar Spark. Pruebe el siguiente comando para verificar la versión de JAVA.
$java -version 
    Si Java ya está instalado en su sistema, verá la siguiente respuesta:
java version "1.7.0_71" 
Java(TM) SE Runtime Environment (build 1.7.0_71-b13) 
Java HotSpot(TM) Client VM (build 25.0-b02, mixed mode) 
    En caso de que no tenga Java instalado en su sistema, instale Java antes de continuar con el siguiente paso.
Paso 2: verificar la instalación de Scala
Debe utilizar el lenguaje Scala para implementar Spark. Entonces, verifiquemos la instalación de Scala usando el siguiente comando.
$scala -version 
    Si Scala ya está instalado en su sistema, verá la siguiente respuesta:
Scala code runner version 2.11.6 -- Copyright 2002-2013, LAMP/EPFL 
    En caso de que no tenga Scala instalado en su sistema, continúe con el siguiente paso para la instalación de Scala.
Paso 3: descarga de Scala
Descargue la última versión de Scala visitando el siguiente enlace Descargar Scala . Para este tutorial, usamos la versión scala-2.11.6. Después de la descarga, encontrará el archivo tar de Scala en la carpeta de descarga.
Paso 4: Instalar Scala
Siga los pasos que se indican a continuación para instalar Scala.
Extraiga el archivo tar de Scala
Escriba el siguiente comando para extraer el archivo tar de Scala.
$ tar xvf scala-2.11.6.tgz 
    Mover archivos de software Scala
Utilice los siguientes comandos para mover los archivos del software Scala al directorio respectivo (/usr/local/scala).
$ su – 
Password: 
# cd /home/Hadoop/Downloads/ 
# mv scala-2.11.6 /usr/local/scala 
# exit 
    Establecer PATH para Scala
Utilice el siguiente comando para configurar PATH para Scala.
$ export PATH = $PATH:/usr/local/scala/bin 
    Verificación de la instalación de Scala
Después de la instalación, es mejor verificarlo. Utilice el siguiente comando para verificar la instalación de Scala.
$scala -version 
    Si Scala ya está instalado en su sistema, verá la siguiente respuesta:
Scala code runner version 2.11.6 -- Copyright 2002-2013, LAMP/EPFL 
    Paso 5: descarga de Apache Spark
Descargue la última versión de Spark visitando el siguiente enlace Descargar Spark . Para este tutorial, estamos usandospark-1.3.1-bin-hadoop2.6versión. Después de descargarlo, encontrará el archivo tar de Spark en la carpeta de descarga.
Paso 6: Instalar Spark
Siga los pasos que se indican a continuación para instalar Spark.
Extracción de alquitrán de chispa
El siguiente comando para extraer el archivo tar de Spark.
$ tar xvf spark-1.3.1-bin-hadoop2.6.tgz 
    Mover archivos de software Spark
Los siguientes comandos para mover los archivos de software Spark al directorio respectivo (/usr/local/spark).
$ su – 
Password:  
# cd /home/Hadoop/Downloads/ 
# mv spark-1.3.1-bin-hadoop2.6 /usr/local/spark 
# exit 
    Configurar el entorno para Spark
Agregue la siguiente línea a ~/.bashrcarchivo. Significa agregar la ubicación, donde se encuentra el archivo de software Spark a la variable PATH.
export PATH=$PATH:/usr/local/spark/bin 
    Utilice el siguiente comando para obtener el archivo ~ / .bashrc.
$ source ~/.bashrc 
    Paso 7: Verificación de la instalación de Spark
Escriba el siguiente comando para abrir Spark shell.
$spark-shell 
    Si Spark se instaló correctamente, encontrará el siguiente resultado.
Spark assembly has been built with Hive, including Datanucleus jars on classpath 
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties 
15/06/04 15:25:22 INFO SecurityManager: Changing view acls to: hadoop 
15/06/04 15:25:22 INFO SecurityManager: Changing modify acls to: hadoop
15/06/04 15:25:22 INFO SecurityManager: SecurityManager: authentication disabled;
   ui acls disabled; users with view permissions: Set(hadoop); users with modify permissions: Set(hadoop) 
15/06/04 15:25:22 INFO HttpServer: Starting HTTP Server 
15/06/04 15:25:23 INFO Utils: Successfully started service 'HTTP class server' on port 43292. 
Welcome to 
      ____              __ 
     / __/__  ___ _____/ /__ 
    _\ \/ _ \/ _ `/ __/  '_/ 
   /___/ .__/\_,_/_/ /_/\_\   version 1.4.0 
      /_/  
		
Using Scala version 2.10.4 (Java HotSpot(TM) 64-Bit Server VM, Java 1.7.0_71) 
Type in expressions to have them evaluated. 
Spark context available as sc  
scala>