0 calificaciones0% encontró este documento útil (0 votos)
10 vistas8 páginas
Un RDD es una colección de datos tolerante a fallos que puede operar en paralelo. Los RDDs son la principal abstracción de datos en Spark y se suelen crear a partir de archivos HDFS. Usan evaluación perezosa, manteniendo transformaciones en un DAG que se resuelve cuando se lanza una acción. SparkContext especifica el acceso al cluster y SparkConf contiene información sobre la aplicación.
Un RDD es una colección de datos tolerante a fallos que puede operar en paralelo. Los RDDs son la principal abstracción de datos en Spark y se suelen crear a partir de archivos HDFS. Usan evaluación perezosa, manteniendo transformaciones en un DAG que se resuelve cuando se lanza una acción. SparkContext especifica el acceso al cluster y SparkConf contiene información sobre la aplicación.
Un RDD es una colección de datos tolerante a fallos que puede operar en paralelo. Los RDDs son la principal abstracción de datos en Spark y se suelen crear a partir de archivos HDFS. Usan evaluación perezosa, manteniendo transformaciones en un DAG que se resuelve cuando se lanza una acción. SparkContext especifica el acceso al cluster y SparkConf contiene información sobre la aplicación.
1. ¿Qué es un RDD? “ Es una colección de elementos tolerante a fallos que es capaz de operar en paralelo. Características principales:
▸ Es la principal abstracción de datos en
Spark. ▸ Los RDDs están particionados en los nodos del cluster. ▸ Se suelen crear a partir de un fichero del HDFS. ▸ Usan la evaluación perezosa. Evaluación perezosa
▸ Los RDDs usan evaluación perezosa en
sus transformaciones. ▸ Mantiene todas las transformaciones en un DAG. ▸ Cuando se lanza una acción, se resuelve el grafo. 2. SparkConf y SparkContext SparkConf y SparkContext
▸ El objeto SparkContext especifica como
vamos a acceder a nuestro cluster. ▸ El objeto SparkConf contiene la información sobre nuestra aplicación. ¡GRACIAS! ¿Preguntas? @AbrahamReqMes