Está en la página 1de 6

Spark vs MapReduce

¿Qué es Apache Spark?


Apache Spark es un sistema distribuido de código abierto para
manejar cargas de trabajo de Big Data .

¿Qué es Hadoop MapReduce?


MapReduce es un modelo de programación informática
distribuida basado en Java dentro del marco de Hadoop. Se
utiliza para acceder a grandes cantidades de datos en el
sistema de archivos Hadoop (HDFS).
Spark Map Reduce
Fácil de usar y admite modo interactivo Difícil de usar sin modo interactivo
Facilidad de uso
Puede manejar todos los requisitos de Es ideal para el procesamiento por lotes
procesamiento de datos (por lotes, en tiempo Procesamiento de datos
real, gráficos, etc)
Se ejecuta 100 veces más rápido en memoria Más rápido que el sistema tradicional
y 10 veces mas rápido en disco que Hadoop Actuación
Empezar de nuevo desde el principio cuando Reanudar donde lo dejó cuando se reinicia
se reinicie Recuperación de
Menos segura ya que la seguridad esta fallas
Más seguro ya que utiliza todas las
establecida en “OFF ” por defecto Seguridad capacidades de seguridad Hadoop
Caro debido a su potencia de procesamiento
en memoria y requisitos de RAM MapReduce es una opción más económica en
Costo términos de costo
Puede programar todas sus tareas por sí
mismo Dependiente de un programador de trabajos
Programador externo como Oozie
DAG Gráfico Acíclico Dirigido
Un Directed Acyclic Graph o Grafo Acíclico Dirigido (DAG), es un tipo de grafo por el cual se puede representar una
serie de datos relacionados entre sí. Estos datos se presentan visualmente como un conjunto de círculos o nodos.

Cada círculo se conoce como un "vértice" y cada línea se conoce como un "borde". En este punto entra en juego el
nombre de "Dirigido", que significa que cada borde tiene una dirección definida. Por lo que cada borde
necesariamente representa un flujo de datos direccional único de un vértice a otro. Por otra parte, el término
"Acíclico" significa que no hay bucles o ciclos en el gráfico.
¿Cómo funciona un DAG?
Básicamente un DAG lo que hace es organizar datos en una serie de vértices que luego son conectados de forma
única con otros vértices gracias a los bordes. Esta organización origina un grafo con dos cualidades únicas. En
primer lugar, la conexión entre los vértices gracias a los bordes es dirigida. Es decir, solo va en un sentido. Esto te
asegura de que, si empiezas en un vértice A, sin importar que camino tomes en el grafo, nunca volverás al punto de
inicio.

En segundo lugar, es acíclico. Esto significa que la estructura del grafo no crea bucles. En todo momento, el grafo
mantendrá una linealidad, sin importar las ramificaciones que puedan originarse en el mismo. Esto significa que el
flujo de datos dentro del grafo siempre irá en un solo sentido, ayudando a un diseño y procesamiento de datos
eficiente.
Propiedades de los DAG
Entre las propiedades de los DAG podemos mencionar

• Están conformados por nodos, que son los lugares donde se almacenan los datos.

• Los bordes o línea de conexión entre nodos son dirigidos y van en una sola dirección.

• Cuentan con un nodo ancestral. Este es un nodo especial que no tiene padres o nodos que le
anteceden.

• Su estructura contiene nodos que no tienen hijos, llamadas hojas.

• Su organización de datos es distinta a los árboles. Ya que en una estructura en forma de árbol,
esta debe tener una ruta única entre cada dos nodos. Sin embargo, en los DAG, un nodo puede
tener dos nodos principales.

• La naturaleza matemática de los DAG les otorga una serie de propiedades matemáticas que son:
el ordenamiento topológico, la enumeración combinatoria, la accesibilidad, el cierre transitivo y la
reducción transitiva. Todas estas características son esenciales dentro del marco matemático
descrito por la Teoría de Grafos para los DAG.
Uso de los DAG en la actualidad
Muy útil en computación y en otras ramas de las ciencias como la epidemiología, la inteligencia artificial y la física
cuántica. En cada uno de estos casos, los DAG han demostrado una gran utilidad no solo para representar datos,
sino también para interpretarlos y entender el funcionamiento de fenómenos dentro de cada unas de las ciencias
nombradas.

También podría gustarte