Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Introducción A Spark
Introducción A Spark
transferencia
Unos 6GB/s
DDR4: desde 17GB/s
Datos indexados
Operaciones rápidas de acceso
Los DataFrames están en la RAM
Pandas Cuando hablamos de BigData: no cabe en la RAM Pandas
casca.
Cuando es muy grande, la capacidad de cómputo de una única
máquina se ve limitada.
Añadir más RAM.
Caro y limitado para un mismo equipo.
RAID 3, 4 o 5.
Aumenta la velocidad de transferencia utilizando HDDs.
Posibles Clusters.
soluciones Escalable.
Aumenta la velocidad de transferencia con los HDDs.
Permite distribuir las tareas de computación (paralelización
distribuida).
A diferencia de Hadoop, está orientado al procesamiento
distribuido y no tanto al almacenamiento/acceso de los datos
Datos en RAM, en DataFrames, de forma análoga a Pandas.
Maestro-esclavo
Spark Al ejecutar una aplicación de Spark:
Se crea un contexto
El cluster manager distribuye el trabajo
Tarea 1 Caché
Contexto Worker 2
Spark Master
Cluster manager
Tarea 1 Caché
Worker 1
Disco
Sesión: una conexión con el cluster a través de la que se
realizarán tareas.
Contexto: es el punto de entrada, con las pecularidades
concretas de la sesión, a la aplicación de Spark.
Conceptos RDD: es una colección de elementos particionados que se
distribuyen entre los nodos del cluster para procesarlos en
paralelo.
Desde PySpark, se generan con la función .parallelize()
Práctica 0:
arquitectura
Map: aplica una función a cada uno de los datos de entrada y los
devuelve.
Filter: permite llegar a la salida solo los datos de entrada que
cumplan una condición.
Transformaciones FlatMap: similar a map, pero aplana la salida para que sea una
1:1 de los RDDs única colección.
Distinct: deja salir una sola copia de cada dato de entrada, es decir,
sin duplicados.
ReduceByKey: agrupa por clave, aplica una función de reducción a
cada grupo y devuelve una colección de clave:valores-reducidos.
GroupByKey: agrupa por clave y devuelve una colacción de
Transformaciones clave:colección-de-valores.