Apache Spark en Ebay

UNIVERSIDAD NACIONAL DEL ALTIPLANO
FACULTAD DE INGENIERÍA MECÁNICA

ELECTRICA, ELECTRÓNICA Y SISTEMAS
ESCUELA PROFESIONAL DE INGENIERÍA DE SISTEMAS
“USO DE APACHE SPARK EN LA EMPRESA EBAY”
CASO DE ESTUDIO
CURSO: PARALELISMO, CONCURRENCIA Y SISTEMAS DISTRIBUIDOS.
PRESENTADO POR: NESTOR ARMANDO QUISPE QUISPE
EMERSON EDWARD VILLALTA QUISPE
MILAGROS YESENIA QUISPE CONDORI
JUAN CARLOS MULLUNI GONZALES
JOEL MARCOS YANCAPALLO MANUEL
DONCENTE: ING. DONIA ALIZANDRA RUELAS ACERO
PUNO-PERU
2021
Contenido
INTRODUCCION......................................................................................................1
¿Cuál es su necesidad?.........................................................................................2
¿Cómo lo utiliza?....................................................................................................2
Volumen................................................................................................................... 5
Variedad................................................................................................................... 5
Velocidad................................................................................................................. 6
Conclusión..............................................................................................................6
Cuadro comparativo entre Spark y Hadoop Mapreduce......................................7
Referencias............................................................................................................ 10
Tabla de Figuras
Figura 1 Spark en Hadoop a través de Yarn.............................................................5
Figura 2 Código 1......................................................................................................6
Figura 3 Código 2......................................................................................................7

INTRODUCCION
eBay nació en los años 90; por lo que más de dos décadas lo respaldan como el sitio para
conectar vendedores y compradores en un mercado abierto y honesto. Actualmente cuenta
con más de 1,100 millones de artículos y miles de millones de operaciones anuales en todo
el mundo, haciendo de eBay uno de los Marketplace más grandes y conocidos del mundo.
Según la empresa de multimedios Milenio, ayudada por el aumento de las ventas a través de
internet como consecuencia de la pandemia, eBay anunció unos beneficios netos de mil 356
millones de dólares en los primeros seis meses del año, un alza del 47.3 por ciento con
respecto al mismo periodo del año anterior. La empresa con sede en San José (California,
EU) facturó durante el primer semestre 5 mil 239 millones de dólares, frente a los 4 mil 836
millones que había facturado entre enero y junio de 2019, según indicó en un comunicado.
En el segundo trimestre, datos a los que más atención prestaban los mercados, eBay tuvo
una facturación de 2 mil 865 millones de dólares, un 18 por ciento más, y un beneficio neto
de 770 millones, un alza del 34 por ciento en términos interanuales.
El portal añadió aproximadamente 8 millones de compradores durante el trimestre, para un

total de 182 millones de compradores activos en todo el mundo, mientras que sus
vendedores ingresaron en total más de 27 mil millones de dólares [ CITATION EFE20 \l
2058 ].
Siendo los siguientes las formas de adquirir un artículo de esta tienda online:
 Subasta: es la transacción más común en el sitio. El vendedor pone un precio de

salida y una duración determinada para el anuncio y mientras dure ese período de
tiempo, los compradores pujarán por ella. El pagador más alto se lleva el artículo,
bajo las condiciones de entrega y devoluciones impuestas por el vendedor.
 ¡Cómpralo ya!: el vendedor establece un precio fijo y, si el demandante está
dispuesto a pagarlo, será suyo.
“En eBay queremos que nuestros clientes tengan la mejor experiencia posible. Utilizamos el
análisis de datos para mejorar la experiencia de los usuarios, brindar ofertas relevantes,
optimizar el rendimiento y crear muchos, muchos otros tipos de valor. Una forma en que
eBay respalda esta creación de valor es mediante la utilización de marcos de procesamiento
1
de datos que permiten, aceleran o simplifican el análisis de datos. Uno de esos marcos es
Apache Spark”
¿Cuál es su necesidad?
eBay, el gigante del comercio electrónico, crea una gran cantidad de datos. Con
muchos miembros nuevos y existentes, eBay está creciendo. Entonces, ¿cuál es el activo
más importante para eBay? ¿Es el vendedor o el comprador? No, el activo más importante
son los datos. La empresa no tiene un inventario como sus competidores. Simplemente
conectan a compradores y vendedores. Entonces, los datos se convierten en el activo más
importante.
La mayoría de los almacenes de datos de eBay se han construido antes con el sistema
de almacén de datos comercial Teradata. 2017 inicialmente, la decisión de eBay se basó
únicamente en la plataforma Hadoop de construir un almacén de datos, pero este ya no es
suficiente.
eBay necesita un análisis escalable y eficaz para el desarrollo de productos. Esto solo
es posible con Apache Spark, ya que tiene la capacidad única de unificar numerosos casos
de uso de análisis en una sola API, es que es 100 veces más rápido que Apache Hadoop. Se
basa en el concepto de facilidad.
El resultado es que Apache Spark es rápido, simple y versátil.
¿Cómo lo utiliza?
Hoy en día, Spark se aprovecha más comúnmente en eBay a través de Hadoop a

través de Yarn. Yarn administra los recursos del clúster de Hadoop y permite que Hadoop se
extienda más allá del mapa tradicional y reduzca los trabajos mediante el empleo de
contenedores de Yarn para ejecutar tareas genéricas. A través del marco de Hadoop Yarn,
los usuarios de Spark de eBay pueden aprovechar los clústeres que se acercan al rango de
2000 nodos, 100 TB de RAM y 20,000 núcleos.
2
El siguiente ejemplo ilustra Spark en Hadoop a través de Yarn.
Figura 1 Spark en Hadoop a través de Yarn
El usuario envía el trabajo de Spark a Hadoop. El maestro de la aplicación Spark

comienza dentro de un solo contenedor de Yarn, luego comienza a trabajar con el
administrador de recursos de Yarn para generar ejecutores de Spark, tantos como el usuario
solicite. Estos ejecutores de Spark ejecutarán la aplicación Spark utilizando la cantidad
especificada de memoria y el número de núcleos de CPU. En este caso, la aplicación Spark
puede leer y escribir en los datos del clúster que residen en HDFS. Este modelo de ejecución
de Spark en Hadoop ilustra la creciente capacidad de Hadoop para proporcionar una
plataforma única y fundamental para el procesamiento de datos sobre datos compartidos.
La comunidad de analistas de eBay incluye un fuerte contingente de usuarios de

Scala. En consecuencia, muchos de los usuarios de Spark de eBay están escribiendo sus
trabajos en Scala. Estos trabajos apoyan el descubrimiento a través de la interrogación de
datos complejos, modelado de datos y puntuación de datos, entre otros casos de uso. A
continuación, se muestra un fragmento de código de una aplicación Spark Scala. Esta
aplicación utiliza la biblioteca de aprendizaje automático de Spark, MLlib , para agrupar a
3
los vendedores de eBay a través de KMeans. Los datos de los atributos del vendedor se
almacenan en HDFS [ CITATION Sch14 \l 2058 ].
Figura 2 Código 1
4
Figura 3 Código 2
Además de los usuarios de Spark Scala, varias personas de eBay han comenzado a
utilizar Spark con Shark para acelerar su rendimiento de Hadoop SQL. Muchas de estas
consultas de Shark se ejecutan fácilmente 5 veces más rápido que sus contrapartes de Hive.
Si bien Spark en eBay aún se encuentra en sus primeras etapas, el uso está en medio de una
expansión de experimental a cotidiano a medida que el número de usuarios de Spark en
eBay continúa acelerándose.
Volumen
Los datos son el activo más importante de eBay. eBay gestiona aproximadamente
mil millones de anuncios en vivo y 164 millones de compradores activos al día. De estos,
eBay recibe 10 millones de anuncios nuevos a través de dispositivos móviles cada
semana. Claramente, la empresa tiene grandes volúmenes de datos, pero la clave de su
éxito futuro será la rapidez con la que pueda convertir los datos en una experiencia
personalizada que impulse las ventas.
5
Variedad
El primer desafío con el que luchó eBay fue encontrar una plataforma, además de
su almacén de datos tradicional, que fuera capaz de almacenar una enorme cantidad de
datos que variaban según el tipo. Adunuthula afirmó que el tipo de datos, la estructura de
los datos y la velocidad de análisis requerida significaban que la empresa tenía que
evolucionar de una estructura de almacenamiento de datos tradicional a lo que llama lagos
de datos. Por ejemplo, la empresa necesita mantener aproximadamente nueve trimestres
de los datos de tendencias históricas para proporcionar información sobre elementos como
el crecimiento año tras año. También necesita analizar datos en tiempo real para ayudar a
los compradores durante todo el ciclo de ventas [ CITATION Lop16 \l 2058 ].
Velocidad
Para eBay en Apache Spark, puede realizar análisis rápidos y complejos de los datos de
eBay, combinando el poder y la utilidad de spark con sus datos.
Apache Spark, es ampliamente utilizado, la razón que es 100 veces más rápido que Apache
Hadoop. Se basa en la facilidad, ya que Apache Spark es rápido, simple y versátil. Los clusters de
Hadoop son aprovechados por usuarios de eBay, Spark que van desde 2000 nodos hasta 20.000
núcleos y 100TB de RAM a través de YARM [ CITATION Tao17 \l 2058 ].
Conclusión
1. Apache Spark en eBay ayuda en el desarrollo empresarial y ofrecer servicios óptimos

al cliente, y tiene un futuro prometedor.
2. eBay, quiere que sus clientes tengan una mejor experiencia posible, en especial para
optimizar el rendimiento que aceleran el análisis de datos.
6
Cuadro comparativo entre Spark y Hadoop Mapreduce
DIFERENCIAS ENTRE SPARK Y HADOOP

SPARK HADOOP
Rendimiento
 Spark, se ejecuta 100 veces más  Hadoop, es generalmente lento ya
rápido en memoria y 10 veces más que realiza operaciones en el disco
rápido en disco. y no puede entregar análisis casi
 Si Spark se ejecuta en YARN con en tiempo real de los datos.
otros recursos que demandan
servicios, podría haber una
degradación importante.
Costo
 Spark realiza el procesamiento de  Hadoop es menos costoso ya que

datos por lotes, en tiempo real y de es un software de código abierto.
requiere más memoria en el disco,
gráficos. lee datos del clúster,
lo que es un bien relativamente
realiza su operación en los datos y económico.
luego los vuelve a escribir en el
clúster.
Tolerancia a Fallas
7
 Spark usa Conjuntos de datos  Hadoop es altamente tolerante a
distribuidos resistentes (RDD), que fallas porque fue diseñado para
son colecciones de elementos replicar datos en muchos nodos.
tolerantes a fallas que se pueden  Cada archivo se divide en bloques
operar en paralelo. y se replica varias veces en
muchas máquinas.
Procesamiento de Datos
 Sparks realiza el procesamiento de  Hadoop procesa datos en lotes.
datos por lotes, en tiempo real y de  MapReduce opera en pasos
gráficos. secuenciales leyendo datos del
 Lee datos del clúster, realiza su clúster, realizando sus operaciones
operación en los datos y luego los en los datos y escribiendo los
vuelve a escribir en el clúster. resultados en el clúster.
Facilidad de Uso
 Spark admite API fáciles de usar
 MapReduce de Hadoop no tiene
para diferentes idiomas.
modo interactivo y es complejo.
 Tiene un modo interactivo y
 Necesita manejar API de bajo nivel
proporciona retroalimentación
para procesar los datos, lo que
intermedia para consultas y
requiere mucha codificación.
acciones.
Soporte de Lenguajes
 El framework Hadoop está
desarrollado en lenguaje de
 Apache Spark está desarrollado en
programación Java.
lenguaje Scala y es compatible con
 Mientras que, las aplicaciones
otros lenguajes de programación
MapReduce se pueden escribir en
como Python, R y Java.
Python, R y C ++.
Escalabilidad
 El clúster Spark tiene 8.000 nodos.
 Pero a medida que crece el big
 Hadoop es altamente escalable ya
data, se espera que el tamaño de
que podemos agregar una cantidad
los clústeres aumente para
n de nodos en el clúster.
mantener las expectativas de
rendimiento.
Seguridad
 La seguridad de Spark es un poco  Hadoop admite Kerberos y LDAP
escasa, ya que admite la para la autenticación.
autenticación mediante  También admite listas de control de
contraseñas. acceso (ACL) y un modelo
 Si ejecuta Spark en HDFS, puede tradicional de permisos de
usar ACL de HDFS y permisos de archivos.
nivel de archivo.
8
 Además, Spark puede ejecutarse
en YARN, lo que le da la capacidad
de usar la autenticación Kerberos.
Aprendizaje Automático
Hadoop usa Mahout para procesar
 Spark tiene una biblioteca de
datos y construir modelos.
aprendizaje automático
Además, Samsara, un lenguaje
incorporada que se puede usar
DSL respaldado por Scala, se
para clasificación y regresión.
puede utilizar para operaciones
 También puede construir pipelines
algebraicas en memoria y permite
de aprendizaje automático con
a los usuarios escribir sus propios
ajuste de hiperparámetros.
algoritmos.
Programador
 Apache Spark tiene su propio  Hadoop MapReduce depende de
programador Programador. un programador externo.
CONCLUSION
 Spark sin duda es perfecto si queremos emplear un framework para programar

Big Data, sin embargo, no cuenta con su propio sistema de ficheros distribuido y
es donde se apoya en el sistema de Hadoop, HDFS.
 Cada uno domina al otro en distintas áreas. Por ejemplo, Hadoop sería la
elección acertada cuando el tamaño de la memoria es significativamente menor
que el tamaño de los datos; pero, si se busca rapidez, no cabría plantearse otra
opción que Spark.
[ CITATION ESI19 \l 2058 ]
9
Referencias
EFE. (28 de julio de 2020). milenio. Obtenido de https://www.milenio.com/negocios/ebay-
aumenta-ventas-47-3-semestre-ano
Lopez, M. (04 de octubre de 2016). forbes. Obtenido de
https://www.forbes.com/sites/maribellopez/2016/10/04/how-ebay-uses-big-data-and-
machine-learning-to-drive-business-value/?sh=26aaa2de1f35
Scheibmeir, J. (28 de mayo de 2014). tech ebayinc. Obtenido de
https://tech.ebayinc.com/engineering/using-spark-to-ignite-data-analytics/
SCHOOL, E. B. (julio de 2019). ESIC . Obtenido de
https://www.esic.edu/rethink/tecnologia/spark-vs-hadoop-cual-es-mejor
Tao. (17 de Diciembre de 2017). Level Up. Obtenido de https://www.level-up.one/big-
companies-using-apache-spark/
10

Apache Spark en Ebay

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Apache Spark en Ebay

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD NACIONAL DEL ALTIPLANO

FACULTAD DE INGENIERÍA MECÁNICA

“USO DE APACHE SPARK EN LA EMPRESA EBAY”

CURSO: PARALELISMO, CONCURRENCIA Y SISTEMAS DISTRIBUIDOS.

PRESENTADO POR: NESTOR ARMANDO QUISPE QUISPE

EMERSON EDWARD VILLALTA QUISPE

MILAGROS YESENIA QUISPE CONDORI

JUAN CARLOS MULLUNI GONZALES

JOEL MARCOS YANCAPALLO MANUEL

DONCENTE: ING. DONIA ALIZANDRA RUELAS ACERO

Cuadro comparativo entre Spark y Hadoop Mapreduce......................................7

Figura 1 Spark en Hadoop a través de Yarn.............................................................5

Figura 2 Código 1......................................................................................................6

Figura 3 Código 2......................................................................................................7

El portal añadió aproximadamente 8 millones de compradores durante el trimestre, para un

 Subasta: es la transacción más común en el sitio. El vendedor pone un precio de

El resultado es que Apache Spark es rápido, simple y versátil.

Hoy en día, Spark se aprovecha más comúnmente en eBay a través de Hadoop a

Figura 1 Spark en Hadoop a través de Yarn

El usuario envía el trabajo de Spark a Hadoop. El maestro de la aplicación Spark

La comunidad de analistas de eBay incluye un fuerte contingente de usuarios de

eBay recibe 10 millones de anuncios nuevos a través de dispositivos móviles cada

semana. Claramente, la empresa tiene grandes volúmenes de datos, pero la clave de su

personalizada que impulse las ventas.

evolucionar de una estructura de almacenamiento de datos tradicional a lo que llama lagos

de datos. Por ejemplo, la empresa necesita mantener aproximadamente nueve trimestres

los compradores durante todo el ciclo de ventas [ CITATION Lop16 \l 2058 ].

1. Apache Spark en eBay ayuda en el desarrollo empresarial y ofrecer servicios óptimos

DIFERENCIAS ENTRE SPARK Y HADOOP

 Spark realiza el procesamiento de  Hadoop es menos costoso ya que

 Spark sin duda es perfecto si queremos emplear un framework para programar

[ CITATION ESI19 \l 2058 ]

EFE. (28 de julio de 2020). milenio. Obtenido de https://www.milenio.com/negocios/ebay-

Lopez, M. (04 de octubre de 2016). forbes. Obtenido de

Scheibmeir, J. (28 de mayo de 2014). tech ebayinc. Obtenido de

SCHOOL, E. B. (julio de 2019). ESIC . Obtenido de

Tao. (17 de Diciembre de 2017). Level Up. Obtenido de https://www.level-up.one/big-

También podría gustarte