Apache Spark - Guía rápida

Las industrias están usando Hadoop de manera extensiva para analizar sus conjuntos de datos. La razón es que el marco de trabajo de Hadoop se basa en un modelo de programación simple (MapReduce) y permite una solución informática que es escalable, flexible, tolerante a fallas y rentable. Aquí, la principal preocupación es mantener la velocidad en el procesamiento de grandes conjuntos de datos en términos de tiempo de espera entre consultas y tiempo de espera para ejecutar el programa.

Spark fue presentado por Apache Software Foundation para acelerar el proceso de software de computación computacional Hadoop.

En contra de una creencia común, Spark is not a modified version of Hadoopy no depende, en realidad, de Hadoop porque tiene su propia gestión de clústeres. Hadoop es solo una de las formas de implementar Spark.

Spark usa Hadoop de dos formas: una es storage y el segundo es processing. Dado que Spark tiene su propio cálculo de administración de clústeres, usa Hadoop solo con fines de almacenamiento.

Apache Spark

Apache Spark es una tecnología de computación en clúster ultrarrápida, diseñada para una computación rápida. Se basa en Hadoop MapReduce y extiende el modelo MapReduce para usarlo de manera eficiente para más tipos de cálculos, que incluyen consultas interactivas y procesamiento de flujo. La característica principal de Spark es suin-memory cluster computing que aumenta la velocidad de procesamiento de una aplicación.

Spark está diseñado para cubrir una amplia gama de cargas de trabajo, como aplicaciones por lotes, algoritmos iterativos, consultas interactivas y transmisión. Además de admitir todas estas cargas de trabajo en un sistema respectivo, reduce la carga administrativa de mantener herramientas separadas.

Evolución de Apache Spark

Spark es uno de los subproyectos de Hadoop desarrollado en 2009 en el AMPLab de UC Berkeley por Matei Zaharia. Fue de código abierto en 2010 bajo una licencia BSD. Fue donado a la fundación de software Apache en 2013, y ahora Apache Spark se ha convertido en un proyecto de Apache de alto nivel desde febrero de 2014.

Características de Apache Spark

Apache Spark tiene las siguientes características.

  • Speed- Spark ayuda a ejecutar una aplicación en el clúster de Hadoop, hasta 100 veces más rápido en memoria y 10 veces más rápido cuando se ejecuta en disco. Esto es posible reduciendo el número de operaciones de lectura / escritura en el disco. Almacena los datos de procesamiento intermedio en la memoria.

  • Supports multiple languages- Spark proporciona API integradas en Java, Scala o Python. Por lo tanto, puede escribir aplicaciones en diferentes idiomas. Spark presenta 80 operadores de alto nivel para consultas interactivas.

  • Advanced Analytics- Spark no solo es compatible con 'Map' y 'reduce'. También admite consultas SQL, transmisión de datos, aprendizaje automático (ML) y algoritmos de gráficos.

Spark construido en Hadoop

El siguiente diagrama muestra tres formas de construir Spark con componentes de Hadoop.

Hay tres formas de implementación de Spark, como se explica a continuación.

  • Standalone- La implementación independiente de Spark significa que Spark ocupa el lugar en la parte superior de HDFS (sistema de archivos distribuido de Hadoop) y el espacio se asigna para HDFS, explícitamente. Aquí, Spark y MapReduce se ejecutarán uno al lado del otro para cubrir todos los trabajos de Spark en el clúster.

  • Hadoop Yarn- La implementación de Hadoop Yarn significa, simplemente, Spark se ejecuta en Yarn sin necesidad de preinstalación o acceso de root. Ayuda a integrar Spark en el ecosistema de Hadoop o la pila de Hadoop. Permite que otros componentes se ejecuten en la parte superior de la pila.

  • Spark in MapReduce (SIMR)- Spark en MapReduce se usa para iniciar el trabajo de Spark además de la implementación independiente. Con SIMR, el usuario puede iniciar Spark y usar su shell sin ningún acceso administrativo.

Componentes de Spark

La siguiente ilustración muestra los diferentes componentes de Spark.

Apache Spark Core

Spark Core es el motor de ejecución general subyacente para la plataforma Spark sobre el que se basan todas las demás funciones. Proporciona computación en memoria y conjuntos de datos de referencia en sistemas de almacenamiento externos.

Spark SQL

Spark SQL es un componente en la parte superior de Spark Core que presenta una nueva abstracción de datos llamada SchemaRDD, que brinda soporte para datos estructurados y semiestructurados.

Spark Streaming

Spark Streaming aprovecha la capacidad de programación rápida de Spark Core para realizar análisis de transmisión. Ingesta datos en mini lotes y realiza transformaciones RDD (Conjuntos de datos distribuidos resistentes) en esos mini lotes de datos.

MLlib (biblioteca de aprendizaje automático)

MLlib es un marco de aprendizaje automático distribuido por encima de Spark debido a la arquitectura Spark basada en memoria distribuida. Según los puntos de referencia, los desarrolladores de MLlib lo hacen frente a las implementaciones de los mínimos cuadrados alternos (ALS). Spark MLlib es nueve veces más rápido que la versión basada en disco de Hadoop deApache Mahout (antes de que Mahout obtuviera una interfaz Spark).

GraphX

GraphX ​​es un marco de procesamiento de gráficos distribuido sobre Spark. Proporciona una API para expresar el cálculo de gráficos que puede modelar los gráficos definidos por el usuario mediante la API de abstracción de Pregel. También proporciona un tiempo de ejecución optimizado para esta abstracción.

Conjuntos de datos distribuidos resistentes

Los conjuntos de datos distribuidos resistentes (RDD) son una estructura de datos fundamental de Spark. Es una colección distribuida inmutable de objetos. Cada conjunto de datos en RDD se divide en particiones lógicas, que se pueden calcular en diferentes nodos del clúster. Los RDD pueden contener cualquier tipo de objetos Python, Java o Scala, incluidas las clases definidas por el usuario.

Formalmente, un RDD es una colección de registros particionada de solo lectura. Los RDD se pueden crear mediante operaciones deterministas en datos en almacenamiento estable u otros RDD. RDD es una colección de elementos tolerantes a fallas que se pueden operar en paralelo.

Hay dos formas de crear RDD: parallelizing una colección existente en su programa de conductor, o referencing a dataset en un sistema de almacenamiento externo, como un sistema de archivos compartidos, HDFS, HBase o cualquier fuente de datos que ofrezca un formato de entrada Hadoop.

Spark hace uso del concepto de RDD para lograr operaciones MapReduce más rápidas y eficientes. Primero, analicemos cómo se llevan a cabo las operaciones de MapReduce y por qué no son tan eficientes.

El intercambio de datos es lento en MapReduce

MapReduce se adopta ampliamente para procesar y generar grandes conjuntos de datos con un algoritmo distribuido paralelo en un clúster. Permite a los usuarios escribir cálculos en paralelo, utilizando un conjunto de operadores de alto nivel, sin tener que preocuparse por la distribución del trabajo y la tolerancia a fallas.

Desafortunadamente, en la mayoría de los marcos actuales, la única forma de reutilizar datos entre cálculos (Ex - entre dos trabajos de MapReduce) es escribirlos en un sistema de almacenamiento estable externo (Ex - HDFS). Aunque este marco proporciona numerosas abstracciones para acceder a los recursos computacionales de un clúster, los usuarios aún quieren más.

Ambos Iterative y Interactivelas aplicaciones requieren un intercambio de datos más rápido en trabajos paralelos. El intercambio de datos es lento en MapReduce debido areplication, serializationy disk IO. En cuanto al sistema de almacenamiento, la mayoría de las aplicaciones de Hadoop pasan más del 90% del tiempo realizando operaciones de lectura y escritura HDFS.

Operaciones iterativas en MapReduce

Reutilice resultados intermedios en varios cálculos en aplicaciones de varias etapas. La siguiente ilustración explica cómo funciona el marco actual, mientras se realizan las operaciones iterativas en MapReduce. Esto genera gastos generales sustanciales debido a la replicación de datos, E / S de disco y serialización, lo que hace que el sistema sea lento.

Operaciones interactivas en MapReduce

El usuario ejecuta consultas ad-hoc en el mismo subconjunto de datos. Cada consulta realizará la E / S del disco en el almacenamiento estable, lo que puede dominar el tiempo de ejecución de la aplicación.

La siguiente ilustración explica cómo funciona el marco actual al realizar las consultas interactivas en MapReduce.

Uso compartido de datos con Spark RDD

El intercambio de datos es lento en MapReduce debido a replication, serializationy disk IO. La mayoría de las aplicaciones de Hadoop pasan más del 90% del tiempo realizando operaciones de lectura y escritura HDFS.

Al reconocer este problema, los investigadores desarrollaron un marco especializado llamado Apache Spark. La idea clave de la chispa esResiliente Datribuido Datasets (RDD); admite el cálculo de procesamiento en memoria. Esto significa que almacena el estado de la memoria como un objeto en los trabajos y el objeto se puede compartir entre esos trabajos. El intercambio de datos en la memoria es de 10 a 100 veces más rápido que la red y el disco.

Intentemos ahora descubrir cómo se llevan a cabo las operaciones iterativas e interactivas en Spark RDD.

Operaciones iterativas en Spark RDD

La ilustración que se muestra a continuación muestra las operaciones iterativas en Spark RDD. Almacenará los resultados intermedios en una memoria distribuida en lugar de almacenamiento estable (disco) y hará que el sistema sea más rápido.

Note - Si la memoria distribuida (RAM) es suficiente para almacenar resultados intermedios (estado del trabajo), entonces almacenará esos resultados en el disco.

Operaciones interactivas en Spark RDD

Esta ilustración muestra operaciones interactivas en Spark RDD. Si se ejecutan diferentes consultas en el mismo conjunto de datos repetidamente, estos datos en particular se pueden mantener en la memoria para mejorar los tiempos de ejecución.

De forma predeterminada, cada RDD transformado se puede volver a calcular cada vez que ejecuta una acción en él. Sin embargo, también puedepersistun RDD en la memoria, en cuyo caso Spark mantendrá los elementos en el clúster para un acceso mucho más rápido, la próxima vez que lo consulte. También es compatible con RDD persistentes en disco o replicados en varios nodos.

Spark es el subproyecto de Hadoop. Por lo tanto, es mejor instalar Spark en un sistema basado en Linux. Los siguientes pasos muestran cómo instalar Apache Spark.

Paso 1: verificar la instalación de Java

La instalación de Java es una de las cosas obligatorias al instalar Spark. Pruebe el siguiente comando para verificar la versión de JAVA.

$java -version

Si Java ya está instalado en su sistema, verá la siguiente respuesta:

java version "1.7.0_71" 
Java(TM) SE Runtime Environment (build 1.7.0_71-b13) 
Java HotSpot(TM) Client VM (build 25.0-b02, mixed mode)

En caso de que no tenga Java instalado en su sistema, instale Java antes de continuar con el siguiente paso.

Paso 2: verificar la instalación de Scala

Debe utilizar el lenguaje Scala para implementar Spark. Entonces, verifiquemos la instalación de Scala usando el siguiente comando.

$scala -version

Si Scala ya está instalado en su sistema, verá la siguiente respuesta:

Scala code runner version 2.11.6 -- Copyright 2002-2013, LAMP/EPFL

En caso de que no tenga Scala instalado en su sistema, continúe con el siguiente paso para la instalación de Scala.

Paso 3: descarga de Scala

Descargue la última versión de Scala visitando el siguiente enlace Descargar Scala . Para este tutorial, usamos la versión scala-2.11.6. Después de la descarga, encontrará el archivo tar de Scala en la carpeta de descarga.

Paso 4: Instalar Scala

Siga los pasos que se indican a continuación para instalar Scala.

Extraiga el archivo tar de Scala

Escriba el siguiente comando para extraer el archivo tar de Scala.

$ tar xvf scala-2.11.6.tgz

Mover archivos de software Scala

Utilice los siguientes comandos para mover los archivos del software Scala al directorio respectivo (/usr/local/scala).

$ su – 
Password: 
# cd /home/Hadoop/Downloads/ 
# mv scala-2.11.6 /usr/local/scala 
# exit

Establecer PATH para Scala

Utilice el siguiente comando para configurar PATH para Scala.

$ export PATH = $PATH:/usr/local/scala/bin

Verificación de la instalación de Scala

Después de la instalación, es mejor verificarlo. Utilice el siguiente comando para verificar la instalación de Scala.

$scala -version

Si Scala ya está instalado en su sistema, verá la siguiente respuesta:

Scala code runner version 2.11.6 -- Copyright 2002-2013, LAMP/EPFL

Paso 5: descarga de Apache Spark

Descargue la última versión de Spark visitando el siguiente enlace Descargar Spark . Para este tutorial, estamos usandospark-1.3.1-bin-hadoop2.6versión. Después de descargarlo, encontrará el archivo tar de Spark en la carpeta de descarga.

Paso 6: Instalar Spark

Siga los pasos que se indican a continuación para instalar Spark.

Extracción de alquitrán de chispa

El siguiente comando para extraer el archivo tar de Spark.

$ tar xvf spark-1.3.1-bin-hadoop2.6.tgz

Mover archivos de software Spark

Los siguientes comandos para mover los archivos de software Spark al directorio respectivo (/usr/local/spark).

$ su – 
Password:  

# cd /home/Hadoop/Downloads/ 
# mv spark-1.3.1-bin-hadoop2.6 /usr/local/spark 
# exit

Configurar el entorno para Spark

Agregue la siguiente línea a ~/.bashrcarchivo. Significa agregar la ubicación, donde se encuentra el archivo de software Spark a la variable PATH.

export PATH=$PATH:/usr/local/spark/bin

Utilice el siguiente comando para obtener el archivo ~ / .bashrc.

$ source ~/.bashrc

Paso 7: Verificación de la instalación de Spark

Escriba el siguiente comando para abrir Spark shell.

$spark-shell

Si Spark se instaló correctamente, encontrará el siguiente resultado.

Spark assembly has been built with Hive, including Datanucleus jars on classpath 
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties 
15/06/04 15:25:22 INFO SecurityManager: Changing view acls to: hadoop 
15/06/04 15:25:22 INFO SecurityManager: Changing modify acls to: hadoop
15/06/04 15:25:22 INFO SecurityManager: SecurityManager: authentication disabled;
   ui acls disabled; users with view permissions: Set(hadoop); users with modify permissions: Set(hadoop) 
15/06/04 15:25:22 INFO HttpServer: Starting HTTP Server 
15/06/04 15:25:23 INFO Utils: Successfully started service 'HTTP class server' on port 43292. 
Welcome to 
      ____              __ 
     / __/__  ___ _____/ /__ 
    _\ \/ _ \/ _ `/ __/  '_/ 
   /___/ .__/\_,_/_/ /_/\_\   version 1.4.0 
      /_/  
		
Using Scala version 2.10.4 (Java HotSpot(TM) 64-Bit Server VM, Java 1.7.0_71) 
Type in expressions to have them evaluated. 
Spark context available as sc  
scala>

Spark Core es la base de todo el proyecto. Proporciona despacho de tareas distribuidas, programación y funcionalidades básicas de E / S. Spark utiliza una estructura de datos fundamental especializada conocida como RDD (Conjuntos de datos distribuidos resistentes) que es una colección lógica de datos particionados entre máquinas. Los RDD se pueden crear de dos formas; una es hacer referencia a conjuntos de datos en sistemas de almacenamiento externos y la segunda es aplicar transformaciones (por ejemplo, mapa, filtro, reductor, unión) en los RDD existentes.

La abstracción RDD se expone a través de una API integrada en el lenguaje. Esto simplifica la complejidad de la programación porque la forma en que las aplicaciones manipulan los RDD es similar a la manipulación de colecciones locales de datos.

Spark Shell

Spark proporciona un shell interactivo, una poderosa herramienta para analizar datos de forma interactiva. Está disponible en lenguaje Scala o Python. La abstracción principal de Spark es una colección distribuida de elementos denominada Resilient Distributed Dataset (RDD). Los RDD se pueden crear a partir de formatos de entrada de Hadoop (como archivos HDFS) o transformando otros RDD.

Abrir Spark Shell

El siguiente comando se usa para abrir Spark shell.

$ spark-shell

Crear RDD simple

Creemos un RDD simple a partir del archivo de texto. Utilice el siguiente comando para crear un RDD simple.

scala> val inputfile = sc.textFile(“input.txt”)

La salida para el comando anterior es

inputfile: org.apache.spark.rdd.RDD[String] = input.txt MappedRDD[1] at textFile at <console>:12

La API Spark RDD presenta algunas Transformations y pocos Actions manipular RDD.

Transformaciones RDD

Las transformaciones RDD devuelven el puntero a un RDD nuevo y le permiten crear dependencias entre RDD. Cada RDD en la cadena de dependencia (String of Dependencies) tiene una función para calcular sus datos y tiene un puntero (dependencia) a su RDD principal.

Spark es perezoso, por lo que no se ejecutará nada a menos que llame a alguna transformación o acción que desencadene la creación y ejecución de trabajos. Mire el siguiente fragmento del ejemplo de recuento de palabras.

Por lo tanto, la transformación RDD no es un conjunto de datos, sino un paso en un programa (podría ser el único paso) que le dice a Spark cómo obtener datos y qué hacer con ellos.

S. No Transformaciones y significado
1

map(func)

Devuelve un nuevo conjunto de datos distribuido, formado al pasar cada elemento de la fuente a través de una función. func.

2

filter(func)

Devuelve un nuevo conjunto de datos formado seleccionando aquellos elementos de la fuente en los que func devuelve verdadero.

3

flatMap(func)

Similar al mapa, pero cada elemento de entrada se puede asignar a 0 o más elementos de salida (por lo que func debería devolver una secuencia en lugar de un solo elemento).

4

mapPartitions(func)

Similar al mapa, pero se ejecuta por separado en cada partición (bloque) del RDD, por lo que func debe ser de tipo Iterator <T> ⇒ Iterator <U> cuando se ejecuta en un RDD de tipo T.

5

mapPartitionsWithIndex(func)

Similar a las particiones de mapa, pero también proporciona func con un valor entero que representa el índice de la partición, entonces func debe ser de tipo (Int, Iterator <T>) ⇒ Iterator <U> cuando se ejecuta en un RDD de tipo T.

6

sample(withReplacement, fraction, seed)

Muestra un fraction de los datos, con o sin reemplazo, utilizando una semilla generadora de números aleatorios dada.

7

union(otherDataset)

Devuelve un nuevo conjunto de datos que contiene la unión de los elementos del conjunto de datos de origen y el argumento.

8

intersection(otherDataset)

Devuelve un nuevo RDD que contiene la intersección de elementos en el conjunto de datos de origen y el argumento.

9

distinct([numTasks])

Devuelve un nuevo conjunto de datos que contiene los distintos elementos del conjunto de datos de origen.

10

groupByKey([numTasks])

Cuando se llama a un conjunto de datos de pares (K, V), devuelve un conjunto de datos de pares (K, Iterable <V>).

Note - Si está agrupando para realizar una agregación (como una suma o promedio) sobre cada clave, el uso de reduceByKey o aggregateByKey producirá un rendimiento mucho mejor.

11

reduceByKey(func, [numTasks])

Cuando se llama en un conjunto de datos de pares (K, V), devuelve un conjunto de datos de pares (K, V), donde los valores para cada tecla se agregan utilizando la función dada reducir func , que debe ser de tipo (V, V) ⇒ V Como en groupByKey, la cantidad de tareas de reducción se puede configurar mediante un segundo argumento opcional.

12

aggregateByKey(zeroValue)(seqOp, combOp, [numTasks])

Cuando se llama a un conjunto de datos de pares (K, V), devuelve un conjunto de datos de pares (K, U) donde los valores de cada clave se agregan utilizando las funciones combinadas dadas y un valor "cero" neutral. Permite un tipo de valor agregado que es diferente del tipo de valor de entrada, al tiempo que evita asignaciones innecesarias. Como en groupByKey, el número de tareas de reducción se puede configurar a través de un segundo argumento opcional.

13

sortByKey([ascending], [numTasks])

Cuando se llama a un conjunto de datos de pares (K, V) donde K implementa Ordered, devuelve un conjunto de datos de pares (K, V) ordenados por claves en orden ascendente o descendente, como se especifica en el argumento ascendente booleano.

14

join(otherDataset, [numTasks])

Cuando se invoca en conjuntos de datos de tipo (K, V) y (K, W), devuelve un conjunto de datos de (K, (V, W)) pares con todos los pares de elementos para cada clave. Las combinaciones externas se admiten a través de leftOuterJoin, rightOuterJoin y fullOuterJoin.

15

cogroup(otherDataset, [numTasks])

Cuando se invoca en conjuntos de datos de tipo (K, V) y (K, W), devuelve un conjunto de datos de (K, (Iterable <V>, Iterable <W>)) tuplas. Esta operación también se denomina grupo con.

dieciséis

cartesian(otherDataset)

Cuando se invoca en conjuntos de datos de tipos T y U, devuelve un conjunto de datos de pares (T, U) (todos los pares de elementos).

17

pipe(command, [envVars])

Canalice cada partición del RDD a través de un comando de shell, por ejemplo, un script en Perl o bash. Los elementos RDD se escriben en el stdin del proceso y las líneas de salida a su stdout se devuelven como un RDD de cadenas.

18

coalesce(numPartitions)

Disminuya el número de particiones en el RDD a numPartitions. Útil para ejecutar operaciones de manera más eficiente después de filtrar un gran conjunto de datos.

19

repartition(numPartitions)

Reorganice los datos en el RDD de forma aleatoria para crear más o menos particiones y equilibrarlas entre ellas. Esto siempre baraja todos los datos de la red.

20

repartitionAndSortWithinPartitions(partitioner)

Reparta el RDD de acuerdo con el particionador dado y, dentro de cada partición resultante, ordena los registros por sus claves. Esto es más eficiente que llamar a repartición y luego ordenar dentro de cada partición porque puede empujar la ordenación hacia abajo en la maquinaria de reproducción aleatoria.

Comportamiento

S. No Acción y significado
1

reduce(func)

Agregue los elementos del conjunto de datos usando una función func(que toma dos argumentos y devuelve uno). La función debe ser conmutativa y asociativa para que se pueda calcular correctamente en paralelo.

2

collect()

Devuelve todos los elementos del conjunto de datos como una matriz en el programa controlador. Esto suele ser útil después de un filtro u otra operación que devuelve un subconjunto suficientemente pequeño de datos.

3

count()

Devuelve el número de elementos del conjunto de datos.

4

first()

Devuelve el primer elemento del conjunto de datos (similar a take (1)).

5

take(n)

Devuelve una matriz con la primera n elementos del conjunto de datos.

6

takeSample (withReplacement,num, [seed])

Devuelve una matriz con una muestra aleatoria de num elementos del conjunto de datos, con o sin reemplazo, opcionalmente pre-especificando una semilla generadora de números aleatorios.

7

takeOrdered(n, [ordering])

Devuelve el primero n elementos del RDD utilizando su orden natural o un comparador personalizado.

8

saveAsTextFile(path)

Escribe los elementos del conjunto de datos como un archivo de texto (o un conjunto de archivos de texto) en un directorio dado en el sistema de archivos local, HDFS o cualquier otro sistema de archivos compatible con Hadoop. Spark llama a toString en cada elemento para convertirlo en una línea de texto en el archivo.

9

saveAsSequenceFile(path) (Java and Scala)

Escribe los elementos del conjunto de datos como un archivo de secuencia de Hadoop en una ruta determinada en el sistema de archivos local, HDFS o cualquier otro sistema de archivos compatible con Hadoop. Está disponible en RDD de pares clave-valor que implementan la interfaz de escritura de Hadoop. En Scala, también está disponible en tipos que son implícitamente convertibles a Writable (Spark incluye conversiones para tipos básicos como Int, Double, String, etc.).

10

saveAsObjectFile(path) (Java and Scala)

Escribe los elementos del conjunto de datos en un formato simple usando la serialización de Java, que luego se puede cargar usando SparkContext.objectFile ().

11

countByKey()

Solo disponible en RDD de tipo (K, V). Devuelve un mapa hash de pares (K, Int) con el recuento de cada clave.

12

foreach(func)

Ejecuta una función funcen cada elemento del conjunto de datos. Por lo general, esto se hace por efectos secundarios como actualizar un acumulador o interactuar con sistemas de almacenamiento externos.

Note- La modificación de variables distintas de los acumuladores fuera de foreach () puede dar como resultado un comportamiento indefinido. Consulte Comprensión de los cierres para obtener más detalles.

Programando con RDD

Veamos las implementaciones de algunas transformaciones y acciones de RDD en la programación de RDD con la ayuda de un ejemplo.

Ejemplo

Considere un ejemplo de recuento de palabras: cuenta cada palabra que aparece en un documento. Considere el siguiente texto como entrada y se guarda comoinput.txt archivo en un directorio de inicio.

input.txt - archivo de entrada.

people are not as beautiful as they look, 
as they walk or as they talk.
they are only as beautiful  as they love, 
as they care as they share.

Siga el procedimiento que se indica a continuación para ejecutar el ejemplo dado.

Abrir Spark-Shell

El siguiente comando se usa para abrir Spark Shell. Generalmente, Spark se construye con Scala. Por lo tanto, un programa Spark se ejecuta en un entorno Scala.

$ spark-shell

Si Spark shell se abre correctamente, encontrará el siguiente resultado. Mire la última línea de la salida "Spark context available as sc" significa que el contenedor Spark se crea automáticamente como objeto de contexto Spark con el nombresc. Antes de comenzar el primer paso de un programa, se debe crear el objeto SparkContext.

Spark assembly has been built with Hive, including Datanucleus jars on classpath 
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties 
15/06/04 15:25:22 INFO SecurityManager: Changing view acls to: hadoop 
15/06/04 15:25:22 INFO SecurityManager: Changing modify acls to: hadoop 
15/06/04 15:25:22 INFO SecurityManager: SecurityManager: authentication disabled;
   ui acls disabled; users with view permissions: Set(hadoop); users with modify permissions: Set(hadoop) 
15/06/04 15:25:22 INFO HttpServer: Starting HTTP Server 
15/06/04 15:25:23 INFO Utils: Successfully started service 'HTTP class server' on port 43292. 
Welcome to 
      ____              __ 
     / __/__  ___ _____/ /__ 
    _\ \/ _ \/ _ `/ __/  '_/ 
   /___/ .__/\_,_/_/ /_/\_\   version 1.4.0 
      /_/  
		
Using Scala version 2.10.4 (Java HotSpot(TM) 64-Bit Server VM, Java 1.7.0_71) 
Type in expressions to have them evaluated. 
Spark context available as sc 
scala>

Crea un RDD

Primero, tenemos que leer el archivo de entrada usando Spark-Scala API y crear un RDD.

El siguiente comando se utiliza para leer un archivo desde una ubicación determinada. Aquí, se crea un nuevo RDD con el nombre de inputfile. La cadena que se proporciona como argumento en el método textFile (“”) es la ruta absoluta para el nombre del archivo de entrada. Sin embargo, si solo se proporciona el nombre del archivo, significa que el archivo de entrada está en la ubicación actual.

scala> val inputfile = sc.textFile("input.txt")

Ejecutar transformación de recuento de palabras

Nuestro objetivo es contar las palabras de un archivo. Cree un mapa plano para dividir cada línea en palabras (flatMap(line ⇒ line.split(“ ”)).

A continuación, lea cada palabra como una clave con un valor ‘1’ (<clave, valor> = <palabra, 1>) usando la función de mapa (map(word ⇒ (word, 1)).

Finalmente, reduzca esas claves agregando valores de claves similares (reduceByKey(_+_)).

El siguiente comando se utiliza para ejecutar la lógica de recuento de palabras. Después de ejecutar esto, no encontrará ninguna salida porque esto no es una acción, es una transformación; apuntando un nuevo RDD o decirle a Spark qué hacer con los datos dados)

scala> val counts = inputfile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_+_);

RDD actual

Mientras trabaja con el RDD, si desea conocer el RDD actual, utilice el siguiente comando. Le mostrará la descripción sobre RDD actual y sus dependencias para la depuración.

scala> counts.toDebugString

Almacenamiento en caché de las transformaciones

Puede marcar un RDD para que se conserve utilizando los métodos persist () o cache () en él. La primera vez que se calcula en una acción, se mantendrá en la memoria de los nodos. Utilice el siguiente comando para almacenar las transformaciones intermedias en la memoria.

scala> counts.cache()

Aplicar la acción

La aplicación de una acción, como almacenar todas las transformaciones, da como resultado un archivo de texto. El argumento String para el método saveAsTextFile (“”) es la ruta absoluta de la carpeta de salida. Pruebe el siguiente comando para guardar la salida en un archivo de texto. En el siguiente ejemplo, la carpeta 'salida' está en la ubicación actual.

scala> counts.saveAsTextFile("output")

Comprobación de la salida

Abra otra terminal para ir al directorio de inicio (donde se ejecuta Spark en la otra terminal). Utilice los siguientes comandos para verificar el directorio de salida.

[hadoop@localhost ~]$ cd output/ 
[hadoop@localhost output]$ ls -1 
 
part-00000 
part-00001 
_SUCCESS

El siguiente comando se usa para ver la salida de Part-00000 archivos.

[hadoop@localhost output]$ cat part-00000

Salida

(people,1) 
(are,2) 
(not,1) 
(as,8) 
(beautiful,2) 
(they, 7) 
(look,1)

El siguiente comando se usa para ver la salida de Part-00001 archivos.

[hadoop@localhost output]$ cat part-00001

Salida

(walk, 1) 
(or, 1) 
(talk, 1) 
(only, 1) 
(love, 1) 
(care, 1) 
(share, 1)

ONU persiste el almacenamiento

Antes de UN-persistente, si desea ver el espacio de almacenamiento que se utiliza para esta aplicación, utilice la siguiente URL en su navegador.

http://localhost:4040

Verá la siguiente pantalla, que muestra el espacio de almacenamiento utilizado para la aplicación, que se ejecuta en el shell Spark.

Si desea anular la persistencia del espacio de almacenamiento de un RDD en particular, utilice el siguiente comando.

Scala> counts.unpersist()

Verá la salida de la siguiente manera:

15/06/27 00:57:33 INFO ShuffledRDD: Removing RDD 9 from persistence list 
15/06/27 00:57:33 INFO BlockManager: Removing RDD 9 
15/06/27 00:57:33 INFO BlockManager: Removing block rdd_9_1 
15/06/27 00:57:33 INFO MemoryStore: Block rdd_9_1 of size 480 dropped from memory (free 280061810) 
15/06/27 00:57:33 INFO BlockManager: Removing block rdd_9_0 
15/06/27 00:57:33 INFO MemoryStore: Block rdd_9_0 of size 296 dropped from memory (free 280062106) 
res7: cou.type = ShuffledRDD[9] at reduceByKey at <console>:14

Para verificar el espacio de almacenamiento en el navegador, use la siguiente URL.

http://localhost:4040/

Verá la siguiente pantalla. Muestra el espacio de almacenamiento utilizado para la aplicación, que se ejecuta en el shell Spark.

La aplicación Spark, que usa spark-submit, es un comando de shell que se usa para implementar la aplicación Spark en un clúster. Utiliza todos los administradores de clústeres respectivos a través de una interfaz uniforme. Por tanto, no es necesario que configure su aplicación para cada uno.

Ejemplo

Tomemos el mismo ejemplo de recuento de palabras que usamos antes, usando comandos de shell. Aquí, consideramos el mismo ejemplo como una aplicación de chispa.

Entrada de muestra

El siguiente texto son los datos de entrada y el archivo nombrado es in.txt.

people are not as beautiful as they look, 
as they walk or as they talk. 
they are only as beautiful  as they love, 
as they care as they share.

Mira el siguiente programa:

SparkWordCount.scala

import org.apache.spark.SparkContext 
import org.apache.spark.SparkContext._ 
import org.apache.spark._  

object SparkWordCount { 
   def main(args: Array[String]) { 

      val sc = new SparkContext( "local", "Word Count", "/usr/local/spark", Nil, Map(), Map()) 
		
      /* local = master URL; Word Count = application name; */  
      /* /usr/local/spark = Spark Home; Nil = jars; Map = environment */ 
      /* Map = variables to work nodes */ 
      /*creating an inputRDD to read text file (in.txt) through Spark context*/ 
      val input = sc.textFile("in.txt") 
      /* Transform the inputRDD into countRDD */ 
		
      val count = input.flatMap(line ⇒ line.split(" ")) 
      .map(word ⇒ (word, 1)) 
      .reduceByKey(_ + _) 
       
      /* saveAsTextFile method is an action that effects on the RDD */  
      count.saveAsTextFile("outfile") 
      System.out.println("OK"); 
   } 
}

Guarde el programa anterior en un archivo llamado SparkWordCount.scala y colocarlo en un directorio definido por el usuario llamado spark-application.

Note - Mientras transformamos inputRDD en countRDD, usamos flatMap () para convertir las líneas (del archivo de texto) en palabras, el método map () para contar la frecuencia de palabras y el método reduceByKey () para contar cada repetición de palabras.

Siga los siguientes pasos para enviar esta solicitud. Ejecute todos los pasos delspark-application directorio a través de la terminal.

Paso 1: Descarga Spark Ja

Spark core jar es necesario para la compilación, por lo tanto, descargue spark-core_2.10-1.3.0.jar desde el siguiente enlace Spark core jar y mueva el archivo jar del directorio de descarga aspark-application directorio.

Paso 2: compilar el programa

Compile el programa anterior utilizando el comando que se proporciona a continuación. Este comando debe ejecutarse desde el directorio Spark-application. Aquí,/usr/local/spark/lib/spark-assembly-1.4.0-hadoop2.6.0.jar es un jar de soporte de Hadoop tomado de la biblioteca Spark.

$ scalac -classpath "spark-core_2.10-1.3.0.jar:/usr/local/spark/lib/spark-assembly-1.4.0-hadoop2.6.0.jar" SparkPi.scala

Paso 3: crea un JAR

Cree un archivo jar de la aplicación Spark usando el siguiente comando. Aquí,wordcount es el nombre del archivo jar.

jar -cvf wordcount.jar SparkWordCount*.class spark-core_2.10-1.3.0.jar/usr/local/spark/lib/spark-assembly-1.4.0-hadoop2.6.0.jar

Paso 4: envíe la solicitud de Spark

Envíe la aplicación Spark usando el siguiente comando:

spark-submit --class SparkWordCount --master local wordcount.jar

Si se ejecuta correctamente, encontrará el resultado que se muestra a continuación. losOKdejar entrar la siguiente salida es para la identificación del usuario y esa es la última línea del programa. Si lee detenidamente el siguiente resultado, encontrará diferentes cosas, como:

  • inició con éxito el servicio 'SparkDriver' en el puerto 42954
  • MemoryStore se inició con una capacidad de 267,3 MB
  • Comenzó SparkUI en http://192.168.1.217:4040
  • Archivo JAR agregado: /home/hadoop/piapplication/count.jar
  • ResultStage 1 (saveAsTextFile en SparkPi.scala: 11) terminó en 0.566 s
  • Se detuvo la interfaz de usuario web de Spark en http://192.168.1.217:4040
  • MemoryStore borrado
15/07/08 13:56:04 INFO Slf4jLogger: Slf4jLogger started 
15/07/08 13:56:04 INFO Utils: Successfully started service 'sparkDriver' on port 42954. 
15/07/08 13:56:04 INFO Remoting: Remoting started; listening on addresses :[akka.tcp://[email protected]:42954] 
15/07/08 13:56:04 INFO MemoryStore: MemoryStore started with capacity 267.3 MB 
15/07/08 13:56:05 INFO HttpServer: Starting HTTP Server 
15/07/08 13:56:05 INFO Utils: Successfully started service 'HTTP file server' on port 56707. 
15/07/08 13:56:06 INFO SparkUI: Started SparkUI at http://192.168.1.217:4040 
15/07/08 13:56:07 INFO SparkContext: Added JAR file:/home/hadoop/piapplication/count.jar at http://192.168.1.217:56707/jars/count.jar with timestamp 1436343967029 
15/07/08 13:56:11 INFO Executor: Adding file:/tmp/spark-45a07b83-42ed-42b3b2c2-823d8d99c5af/userFiles-df4f4c20-a368-4cdd-a2a7-39ed45eb30cf/count.jar to class loader 
15/07/08 13:56:11 INFO HadoopRDD: Input split: file:/home/hadoop/piapplication/in.txt:0+54 
15/07/08 13:56:12 INFO Executor: Finished task 0.0 in stage 0.0 (TID 0). 2001 bytes result sent to driver 
 (MapPartitionsRDD[5] at saveAsTextFile at SparkPi.scala:11), which is now runnable 
15/07/08 13:56:12 INFO DAGScheduler: Submitting 1 missing tasks from ResultStage 1 (MapPartitionsRDD[5] at saveAsTextFile at SparkPi.scala:11) 
15/07/08 13:56:13 INFO DAGScheduler: ResultStage 1 (saveAsTextFile at SparkPi.scala:11) finished in 0.566 s 
15/07/08 13:56:13 INFO DAGScheduler: Job 0 finished: saveAsTextFile at SparkPi.scala:11, took 2.892996 s
OK 
15/07/08 13:56:13 INFO SparkContext: Invoking stop() from shutdown hook 
15/07/08 13:56:13 INFO SparkUI: Stopped Spark web UI at http://192.168.1.217:4040 
15/07/08 13:56:13 INFO DAGScheduler: Stopping DAGScheduler 
15/07/08 13:56:14 INFO MapOutputTrackerMasterEndpoint: MapOutputTrackerMasterEndpoint stopped! 
15/07/08 13:56:14 INFO Utils: path = /tmp/spark-45a07b83-42ed-42b3-b2c2823d8d99c5af/blockmgr-ccdda9e3-24f6-491b-b509-3d15a9e05818, already present as root for deletion. 
15/07/08 13:56:14 INFO MemoryStore: MemoryStore cleared 
15/07/08 13:56:14 INFO BlockManager: BlockManager stopped 
15/07/08 13:56:14 INFO BlockManagerMaster: BlockManagerMaster stopped 
15/07/08 13:56:14 INFO SparkContext: Successfully stopped SparkContext 
15/07/08 13:56:14 INFO Utils: Shutdown hook called 
15/07/08 13:56:14 INFO Utils: Deleting directory /tmp/spark-45a07b83-42ed-42b3b2c2-823d8d99c5af 
15/07/08 13:56:14 INFO OutputCommitCoordinator$OutputCommitCoordinatorEndpoint: OutputCommitCoordinator stopped!

Paso 5: Verificación de la salida

Después de la ejecución exitosa del programa, encontrará el directorio llamado outfile en el directorio Spark-application.

Los siguientes comandos se utilizan para abrir y verificar la lista de archivos en el directorio de archivos de salida.

$ cd outfile 
$ ls 
Part-00000 part-00001 _SUCCESS

Los comandos para verificar la salida en part-00000 archivo son -

$ cat part-00000 
(people,1) 
(are,2) 
(not,1) 
(as,8) 
(beautiful,2) 
(they, 7) 
(look,1)

Los comandos para verificar la salida en el archivo part-00001 son:

$ cat part-00001 
(walk, 1) 
(or, 1) 
(talk, 1) 
(only, 1) 
(love, 1) 
(care, 1) 
(share, 1)

Consulte la siguiente sección para obtener más información sobre el comando 'spark-submit'.

Sintaxis de Spark-submit

spark-submit [options] <app jar | python file> [app arguments]

Opciones

S. No Opción Descripción
1 --Maestro spark: // host: puerto, mesos: // host: puerto, hilo o local.
2 --modo de implementación Ya sea para iniciar el programa del controlador localmente ("cliente") o en una de las máquinas trabajadoras dentro del clúster ("clúster") (predeterminado: cliente).
3 --clase La clase principal de su aplicación (para aplicaciones Java / Scala).
4 --nombre Un nombre de su aplicación.
5 --frascos Lista separada por comas de archivos jar locales para incluir en las rutas de clase del controlador y del ejecutor.
6 --paquetes Lista separada por comas de coordenadas maven de jar para incluir en las rutas de clase del controlador y del ejecutor.
7 - repositorios Lista separada por comas de repositorios remotos adicionales para buscar las coordenadas de maven dadas con --packages.
8 --py-archivos Lista separada por comas de archivos .zip, .egg o .py para colocar en PYTHON PATH para aplicaciones Python.
9 --archivos Lista de archivos separados por comas que se colocarán en el directorio de trabajo de cada ejecutor.
10 --conf (prop = val) Propiedad de configuración de Spark arbitraria.
11 --archivo-de-propiedades Ruta a un archivo desde el que cargar propiedades adicionales. Si no se especifica, buscará conf / spark-defaults.
12 --controlador-memoria Memoria para el controlador (por ejemplo, 1000M, 2G) (predeterminado: 512M).
13 --driver-java-options Opciones adicionales de Java para pasar al controlador.
14 - ruta-biblioteca-controlador Entradas de ruta de biblioteca adicionales para pasar al controlador.
15 - ruta de clase de controlador

Entradas de ruta de clase adicionales para pasar al conductor.

Tenga en cuenta que los archivos jar agregados con --jars se incluyen automáticamente en la ruta de clases.

dieciséis --ejecutor-memoria Memoria por ejecutor (por ejemplo, 1000M, 2G) (predeterminado: 1G).
17 --usuario-proxy Usuario para suplantar al enviar la solicitud.
18 --ayuda, -h Muestre este mensaje de ayuda y salga.
19 --verbose, -v Imprima resultados de depuración adicionales.
20 --versión Imprime la versión de Spark actual.
21 --driver-cores NUM Núcleos para el controlador (predeterminado: 1).
22 --supervisar Si se proporciona, reinicia el controlador en caso de falla.
23 --matar Si se da, mata al conductor especificado.
24 --estado Si se proporciona, solicita el estado del controlador especificado.
25 --total-ejecutor-núcleos Núcleos totales para todos los ejecutores.
26 - núcleos de ejecutor Número de núcleos por ejecutor. (Predeterminado: 1 en el modo YARN o todos los núcleos disponibles en el trabajador en modo independiente).

Spark contiene dos tipos diferentes de variables compartidas: una es broadcast variables y el segundo es accumulators.

  • Broadcast variables - utilizado para distribuir de manera eficiente valores grandes.

  • Accumulators - utilizado para agregar la información de una colección particular.

Variables de transmisión

Las variables de difusión permiten al programador mantener una variable de solo lectura almacenada en caché en cada máquina en lugar de enviar una copia de ella con tareas. Se pueden usar, por ejemplo, para dar a cada nodo, una copia de un gran conjunto de datos de entrada, de una manera eficiente. Spark también intenta distribuir variables de transmisión utilizando algoritmos de transmisión eficientes para reducir el costo de comunicación.

Las acciones de Spark se ejecutan a través de un conjunto de etapas, separadas por operaciones distribuidas "shuffle". Spark transmite automáticamente los datos comunes que necesitan las tareas dentro de cada etapa.

Los datos difundidos de esta manera se almacenan en caché en forma serializada y se deserializan antes de ejecutar cada tarea. Esto significa que la creación explícita de variables de difusión solo es útil cuando las tareas en varias etapas necesitan los mismos datos o cuando es importante almacenar en caché los datos en forma deserializada.

Las variables de difusión se crean a partir de una variable v llamando SparkContext.broadcast(v). La variable de difusión es un envoltoriov, y se puede acceder a su valor llamando al valuemétodo. El código que se proporciona a continuación muestra esto:

scala> val broadcastVar = sc.broadcast(Array(1, 2, 3))

Output -

broadcastVar: org.apache.spark.broadcast.Broadcast[Array[Int]] = Broadcast(0)

Una vez creada la variable de difusión, debe utilizarse en lugar del valor v en cualquier función que se ejecute en el clúster, de modo que vno se envía a los nodos más de una vez. Además, el objetov no debe modificarse después de su difusión, para garantizar que todos los nodos obtengan el mismo valor de la variable de difusión.

Acumuladores

Los acumuladores son variables que solo se “agregan” a través de una operación asociativa y, por lo tanto, pueden ser soportadas eficientemente en paralelo. Se pueden usar para implementar contadores (como en MapReduce) o sumas. Spark admite de forma nativa acumuladores de tipos numéricos y los programadores pueden agregar soporte para nuevos tipos. Si los acumuladores se crean con un nombre, se mostrarán enSpark’s UI. Esto puede resultar útil para comprender el progreso de las etapas de ejecución (NOTA: aún no es compatible con Python).

Se crea un acumulador a partir de un valor inicial v llamando SparkContext.accumulator(v). Las tareas que se ejecutan en el clúster se pueden agregar mediante eladdo el operador + = (en Scala y Python). Sin embargo, no pueden leer su valor. Solo el programa controlador puede leer el valor del acumulador, utilizando suvalue método.

El código que se proporciona a continuación muestra un acumulador que se utiliza para sumar los elementos de una matriz:

scala> val accum = sc.accumulator(0) 
 
scala> sc.parallelize(Array(1, 2, 3, 4)).foreach(x => accum += x)

Si desea ver la salida del código anterior, use el siguiente comando:

scala> accum.value

Salida

res2: Int = 10

Operaciones de RDD numéricas

Spark le permite realizar diferentes operaciones con datos numéricos, utilizando uno de los métodos API predefinidos. Las operaciones numéricas de Spark se implementan con un algoritmo de transmisión que permite construir el modelo, un elemento a la vez.

Estas operaciones se calculan y devuelven como StatusCounter objeto llamando status() método.

S. No Métodos y significado
1

count()

Número de elementos del RDD.

2

Mean()

Promedio de los elementos del RDD.

3

Sum()

Valor total de los elementos del RDD.

4

Max()

Valor máximo entre todos los elementos del RDD.

5

Min()

Valor mínimo entre todos los elementos del RDD.

6

Variance()

Varianza de los elementos.

7

Stdev()

Desviación Estándar.

Si desea utilizar solo uno de estos métodos, puede llamar al método correspondiente directamente en RDD.