Está en la página 1de 8

RDD

Resilient Distributed Datasets


1.
¿Qué es un RDD?

Es una colección de elementos
tolerante a fallos que es capaz
de operar en paralelo.
Características principales:

▸ Es la principal abstracción de datos en


Spark.
▸ Los RDDs están particionados en los
nodos del cluster.
▸ Se suelen crear a partir de un fichero del
HDFS.
▸ Usan la evaluación perezosa.
Evaluación perezosa

▸ Los RDDs usan evaluación perezosa en


sus transformaciones.
▸ Mantiene todas las transformaciones en
un DAG.
▸ Cuando se lanza una acción, se resuelve
el grafo.
2.
SparkConf y
SparkContext
SparkConf y SparkContext

▸ El objeto SparkContext especifica como


vamos a acceder a nuestro cluster.
▸ El objeto SparkConf contiene la
información sobre nuestra aplicación.
¡GRACIAS!
¿Preguntas?
@AbrahamReqMes

También podría gustarte