Spark Mapereduce

UNIVERSIDAD NACIONAL DEL ALTIPLANO - PUNO
Facultad de Ingeniería Mecánica Eléctrica, Electrónica y Sistemas

Escuela Profesional de Ingeniería de Sistemas
TRABAJO DE: PARALELISMO, CONCURRENCIA Y

SISTEMAS DISTRIBUIDOS
INTEGRANTES:
Cotrado Montalico Juan Joel
Ticona Gutierrez Jean Carlos
Frores Teves Jim Meru
Herrera Villanueva Walker Alexander
Chipana Ramos Carlos Enrique
DOCENTE:
Ing. Donia Alizandra Ruelas Acero
SEMESTRE:
VIII
PUNO – PERÚ
2021
CASO DE ESTUDIO
1. ACERCA DE NETFLIX
Netflix es una plataforma de streaming donde miles de usuarios ven series y

películas proporcionadas por la plataforma con una suscripción mensual o anual
con diversos métodos de pago.
Con el pasar del tiempo el número de usuarios de la plataforma aumentó y con ello
la aplicación realizó cambios para adaptarse a los datos de los nuevos usuarios
suscritos. Entonces el modo de interacción de la App con el usuario cambio para
brindar un mejor servicio con ayuda de diversos softwares de análisis de datos la
experiencia que la plataforma brinda es única.
1.1. Datos de streaming
Cuál es su necesidad (por qué utilizan spark)
Muchas recomendaciones para los casos de uso, se calculan previamente en forma
de procesamiento por lotes, pero es posible que eso no sea lo suficientemente
rápido para casos de uso urgentes, como es el caso de Netflix que deben tener en
cuenta las interacciones de los miembros, la popularidad de las tendencias y las
promociones de lanzamiento de nuevos programas.
Para esto, Netflix ha construido una infraestructura en Spark Streaming la cual
trabaja en tiempo real, esto para proporcionar el aprendizaje automático casi en
línea.
1.2. Cómo lo utiliza
Figura 1 [Infraestructura de uso para video]

Figura 2 [Arquitectura basada en presión]
Figura 3 [Arquitectura de recomendaciones en tiempo casi real]
Figura 4 [Infraestructura de spark-streaming]

Figura 5 [Infraestructura de spark-streaming]
1.3. Volumen
La cantidad de datos manejados por la plataforma de streaming de video “Netflix”

cuenta con un gran tamaño y lo describiremos a continuación:
 125 millones de usuarios activos
 Disponible en más de 190 países.
 Cada trimestre añade más de 5 millones de usuarios.
 Más de 450 billones de eventos únicos por día.
 Más de 700 Kafka topics.
Para alrededor de 125 millones de miembros y cada uno de sus perfiles activos, se
necesita personalizar el contenido razonablemente rápido para que sea relevante y
oportuno.
1.4. Variedad
Lo que hace Spark Streaming almacena los datos utilizando una gran variedad de
algoritmos y funciones como reduce, join, window o map y los procesa como una
secuencia de RDDs, que es la unidad de información que consume el Spark Core.
De esta forma, el core procesa los datos de una forma normal y liviana, liberando
así al Spark Streaming para que sólo tenga que encargarse de crear y coordinar los
RDDs. De esta forma consigue que el procesamiento del streaming sea casi en
tiempo real.
Algunos ejemplos son:

 Uber
Todos los días, esta empresa multinacional de reserva de VTC (vehículo de
transporte con conductor) online recopila terabytes de datos de eventos de
sus usuarios. Al usar Kafka, Spark Streaming y HDFS, para construir una
ETL continua, Uber puede convertir datos de eventos no estructurados sin
procesar en datos estructurados a medida que se recopilan, y luego usarlos
para análisis adicionales y más complejos.
 Pinterest
A través de una ETL similar, Pinterest puede aprovechar Spark Streaming
para obtener una visión inmediata de cómo los usuarios de todo el mundo
están interactuando con los Pines, en tiempo real. Como resultado, Pinterest
puede hacer recomendaciones más relevantes a medida que las personas
navegan por el sitio y ven Pines relacionados para ayudarlos a seleccionar
recetas, determinar qué productos comprar o planificar viajes a varios
destinos.
1.5. Velocidad
Para ser una plataforma de código abierto, tiene una gran velocidad la cual permite
a los programadores realizar operaciones sobre un gran volumen de datos en
clústeres de forma rápida, con tolerancia a fallos y en tiempo real. El
almacenamiento de datos en memoria caché hace que la iteración de los algoritmos
de machine learning con los datos sea más eficiente, trabajar en memoria y no en
disco mejora el rendimiento (BBVA, 2015).
2. CUADRO COMPARATIVO ENTRE SPARK Y HADOOP MAPREDUCE

MapReduce es lo que constituye el
Es un marco de big data de código núcleo de Apache Hadoop, que es un
abierto y ultrarrápido que está marco de código abierto. MapReduce
diseñado para mejorar la velocidad permite que Hadoop primero almacene
computacional. y luego procese big data en un entorno
informático distribuido.
SPARK HADOOP MAPREDUCE
Es un motor de análisis de Es un motor de procesamiento

FUNCIÓN datos, por lo tanto, una opción de datos.
para los científicos de datos .
Mejora el rendimiento del No admite el almacenamiento
USO DE MEMORIA sistema almacenando los en caché de datos.
datos en la memoria caché.
PROCESAMIENTO Memoria Disco
100 veces más rápido Más rapido que el Sistema
VELOCIDAD
tradicional
Fácil de programar, tiene Dificil de programar, codificar
DIFICULTAD toneladas de operadores de manualmente todas y cada
alto nivel una de las operaciones
 Procesamiento de datos  Procesamiento lineal de
rápido. grandes conjuntos de
 Procesamiento iterativo. datos.
 Procesamiento casi en  Solución económica , si no
TAREAS
tiempo real. se esperan resultados
 Procesamiento de inmediatos.
gráficos.
 Aprendizaje automático.
MACHINE Tiene su propio conjunto de Requiere una herramienta de
LEARNING aprendizaje automático aprendizaje automático.
En una velocidad de millones Falla cuando se trata de
ANALISIS EN
de eventos por segundo. procesamiento de datos en
TIEMPO REAL
tiempo real.
Proporciona una informática Tiene un marco informático de
LATENCIA
de baja latencia. alta latencia.
Scala, también viene con API Java, también se puede
LENGUAJE DE
para Java, Python, R y SQL. utilizar con Python si es
PROGRAMACIÓN
necesario.
Requiere un cluster que Requiere un cluster que
cuente con mucha memoria cuente con más discos y que
COSTE
RAM sean más rápidos para el
procesamiento.
Requiere una configuración Se puede ejecutar en
REQUISITO DE de hardware de nivel medio a hardware básico.
HARDWARE alto para funcionar de manera
eficiente.
No es necesario reiniciar la También es tolerante a fallas,
TOLERANCIA A aplicación desde cero en caso por lo que no es necesario
FALLOS de falla. reiniciar la aplicación desde
cero en caso de alguna falla.
SEGURIDAD Desactivada Activada
Hardware de nivel medio a Productos básicos de
INFRAESTRUCTURA
alto hardware
Referencias
BBVA. (25 de Septiembre de 2015). BBVA Api_Market. Obtenido de
https://www.bbvaapimarket.com/es/mundo-api/apache-spark-las-ventajas-de-usar-al-
nuevo-rey-de-big-data/
Bekker, A. (14 de Septiembre de 2017). SCNSOFT. Obtenido de

https://www.scnsoft.com/blog/spark-vs-hadoop-
mapreduce#:~:text=In%20fact%2C%20the%20key%20difference,up%20to%20100%20time
s%20faster.
Chanda, B. (21 de Abril de 2020). HACKR.IO. Obtenido de https://hackr.io/blog/hadoop-

mapreduce-vs-apache-spark
DATAFLAIR. (s.f.). DATA FLAIR. Obtenido de https://data-flair.training/blogs/spark-vs-hadoop-

mapreduce/
EDUCBA. (s.f.). educba.com. Obtenido de https://www.educba.com/mapreduce-vs-apache-spark/
Netflix. (21 de Junio de 2018). Netflixtechblog. Obtenido de https://netflixtechblog.com/netflix-at-

spark-ai-summit-2018-5304749ed7fa
SCHOOL, E. B. (Julio de 2019). ESIC. Obtenido de https://www.esic.edu/rethink/tecnologia/spark-
vs-hadoop-cual-es-mejor
Tobin, D. (25 de Mayo de 2020). XPLENTY. Obtenido de https://www.xplenty.com/blog/apache-

spark-vs-hadoop-mapreduce/

Spark Mapereduce

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Spark Mapereduce

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD NACIONAL DEL ALTIPLANO - PUNO

Facultad de Ingeniería Mecánica Eléctrica, Electrónica y Sistemas

TRABAJO DE: PARALELISMO, CONCURRENCIA Y

Netflix es una plataforma de streaming donde miles de usuarios ven series y

Figura 1 [Infraestructura de uso para video]

Figura 3 [Arquitectura de recomendaciones en tiempo casi real]

Figura 4 [Infraestructura de spark-streaming]

La cantidad de datos manejados por la plataforma de streaming de video “Netflix”

Algunos ejemplos son:

2. CUADRO COMPARATIVO ENTRE SPARK Y HADOOP MAPREDUCE

SPARK HADOOP MAPREDUCE

Es un motor de análisis de Es un motor de procesamiento

Bekker, A. (14 de Septiembre de 2017). SCNSOFT. Obtenido de

Chanda, B. (21 de Abril de 2020). HACKR.IO. Obtenido de https://hackr.io/blog/hadoop-

DATAFLAIR. (s.f.). DATA FLAIR. Obtenido de https://data-flair.training/blogs/spark-vs-hadoop-

EDUCBA. (s.f.). educba.com. Obtenido de https://www.educba.com/mapreduce-vs-apache-spark/

Netflix. (21 de Junio de 2018). Netflixtechblog. Obtenido de https://netflixtechblog.com/netflix-at-

Tobin, D. (25 de Mayo de 2020). XPLENTY. Obtenido de https://www.xplenty.com/blog/apache-

También podría gustarte