Documentos de Académico
Documentos de Profesional
Documentos de Cultura
CASO DE ESTUDIO
PUNO-PERU
2021
Contenido
INTRODUCCION......................................................................................................1
¿Cuál es su necesidad?.........................................................................................2
¿Cómo lo utiliza?....................................................................................................2
Volumen................................................................................................................... 5
Variedad................................................................................................................... 5
Velocidad................................................................................................................. 6
Conclusión..............................................................................................................6
Referencias............................................................................................................ 10
Tabla de Figuras
eBay nació en los años 90; por lo que más de dos décadas lo respaldan como el sitio para
conectar vendedores y compradores en un mercado abierto y honesto. Actualmente cuenta
con más de 1,100 millones de artículos y miles de millones de operaciones anuales en todo
el mundo, haciendo de eBay uno de los Marketplace más grandes y conocidos del mundo.
Según la empresa de multimedios Milenio, ayudada por el aumento de las ventas a través de
internet como consecuencia de la pandemia, eBay anunció unos beneficios netos de mil 356
millones de dólares en los primeros seis meses del año, un alza del 47.3 por ciento con
respecto al mismo periodo del año anterior. La empresa con sede en San José (California,
EU) facturó durante el primer semestre 5 mil 239 millones de dólares, frente a los 4 mil 836
millones que había facturado entre enero y junio de 2019, según indicó en un comunicado.
En el segundo trimestre, datos a los que más atención prestaban los mercados, eBay tuvo
una facturación de 2 mil 865 millones de dólares, un 18 por ciento más, y un beneficio neto
de 770 millones, un alza del 34 por ciento en términos interanuales.
Siendo los siguientes las formas de adquirir un artículo de esta tienda online:
“En eBay queremos que nuestros clientes tengan la mejor experiencia posible. Utilizamos el
análisis de datos para mejorar la experiencia de los usuarios, brindar ofertas relevantes,
optimizar el rendimiento y crear muchos, muchos otros tipos de valor. Una forma en que
eBay respalda esta creación de valor es mediante la utilización de marcos de procesamiento
1
de datos que permiten, aceleran o simplifican el análisis de datos. Uno de esos marcos es
Apache Spark”
¿Cuál es su necesidad?
eBay, el gigante del comercio electrónico, crea una gran cantidad de datos. Con
muchos miembros nuevos y existentes, eBay está creciendo. Entonces, ¿cuál es el activo
más importante para eBay? ¿Es el vendedor o el comprador? No, el activo más importante
son los datos. La empresa no tiene un inventario como sus competidores. Simplemente
conectan a compradores y vendedores. Entonces, los datos se convierten en el activo más
importante.
La mayoría de los almacenes de datos de eBay se han construido antes con el sistema
de almacén de datos comercial Teradata. 2017 inicialmente, la decisión de eBay se basó
únicamente en la plataforma Hadoop de construir un almacén de datos, pero este ya no es
suficiente.
eBay necesita un análisis escalable y eficaz para el desarrollo de productos. Esto solo
es posible con Apache Spark, ya que tiene la capacidad única de unificar numerosos casos
de uso de análisis en una sola API, es que es 100 veces más rápido que Apache Hadoop. Se
basa en el concepto de facilidad.
¿Cómo lo utiliza?
2
El siguiente ejemplo ilustra Spark en Hadoop a través de Yarn.
3
los vendedores de eBay a través de KMeans. Los datos de los atributos del vendedor se
almacenan en HDFS [ CITATION Sch14 \l 2058 ].
Figura 2 Código 1
4
Figura 3 Código 2
Además de los usuarios de Spark Scala, varias personas de eBay han comenzado a
utilizar Spark con Shark para acelerar su rendimiento de Hadoop SQL. Muchas de estas
consultas de Shark se ejecutan fácilmente 5 veces más rápido que sus contrapartes de Hive.
Si bien Spark en eBay aún se encuentra en sus primeras etapas, el uso está en medio de una
expansión de experimental a cotidiano a medida que el número de usuarios de Spark en
eBay continúa acelerándose.
Volumen
Los datos son el activo más importante de eBay. eBay gestiona aproximadamente
mil millones de anuncios en vivo y 164 millones de compradores activos al día. De estos,
éxito futuro será la rapidez con la que pueda convertir los datos en una experiencia
5
Variedad
El primer desafío con el que luchó eBay fue encontrar una plataforma, además de
su almacén de datos tradicional, que fuera capaz de almacenar una enorme cantidad de
datos que variaban según el tipo. Adunuthula afirmó que el tipo de datos, la estructura de
los datos y la velocidad de análisis requerida significaban que la empresa tenía que
de los datos de tendencias históricas para proporcionar información sobre elementos como
el crecimiento año tras año. También necesita analizar datos en tiempo real para ayudar a
Velocidad
Para eBay en Apache Spark, puede realizar análisis rápidos y complejos de los datos de
eBay, combinando el poder y la utilidad de spark con sus datos.
Apache Spark, es ampliamente utilizado, la razón que es 100 veces más rápido que Apache
Hadoop. Se basa en la facilidad, ya que Apache Spark es rápido, simple y versátil. Los clusters de
Hadoop son aprovechados por usuarios de eBay, Spark que van desde 2000 nodos hasta 20.000
núcleos y 100TB de RAM a través de YARM [ CITATION Tao17 \l 2058 ].
Conclusión
6
Cuadro comparativo entre Spark y Hadoop Mapreduce
7
Spark usa Conjuntos de datos Hadoop es altamente tolerante a
distribuidos resistentes (RDD), que fallas porque fue diseñado para
son colecciones de elementos replicar datos en muchos nodos.
tolerantes a fallas que se pueden Cada archivo se divide en bloques
operar en paralelo. y se replica varias veces en
muchas máquinas.
Procesamiento de Datos
Sparks realiza el procesamiento de Hadoop procesa datos en lotes.
datos por lotes, en tiempo real y de MapReduce opera en pasos
gráficos. secuenciales leyendo datos del
Lee datos del clúster, realiza su clúster, realizando sus operaciones
operación en los datos y luego los en los datos y escribiendo los
vuelve a escribir en el clúster. resultados en el clúster.
Facilidad de Uso
Spark admite API fáciles de usar
MapReduce de Hadoop no tiene
para diferentes idiomas.
modo interactivo y es complejo.
Tiene un modo interactivo y
Necesita manejar API de bajo nivel
proporciona retroalimentación
para procesar los datos, lo que
intermedia para consultas y
requiere mucha codificación.
acciones.
Soporte de Lenguajes
El framework Hadoop está
desarrollado en lenguaje de
Apache Spark está desarrollado en
programación Java.
lenguaje Scala y es compatible con
Mientras que, las aplicaciones
otros lenguajes de programación
MapReduce se pueden escribir en
como Python, R y Java.
Python, R y C ++.
Escalabilidad
El clúster Spark tiene 8.000 nodos.
Pero a medida que crece el big
Hadoop es altamente escalable ya
data, se espera que el tamaño de
que podemos agregar una cantidad
los clústeres aumente para
n de nodos en el clúster.
mantener las expectativas de
rendimiento.
Seguridad
La seguridad de Spark es un poco Hadoop admite Kerberos y LDAP
escasa, ya que admite la para la autenticación.
autenticación mediante También admite listas de control de
contraseñas. acceso (ACL) y un modelo
Si ejecuta Spark en HDFS, puede tradicional de permisos de
usar ACL de HDFS y permisos de archivos.
nivel de archivo.
8
Además, Spark puede ejecutarse
en YARN, lo que le da la capacidad
de usar la autenticación Kerberos.
Aprendizaje Automático
Hadoop usa Mahout para procesar
Spark tiene una biblioteca de
datos y construir modelos.
aprendizaje automático
Además, Samsara, un lenguaje
incorporada que se puede usar
DSL respaldado por Scala, se
para clasificación y regresión.
puede utilizar para operaciones
También puede construir pipelines
algebraicas en memoria y permite
de aprendizaje automático con
a los usuarios escribir sus propios
ajuste de hiperparámetros.
algoritmos.
Programador
Apache Spark tiene su propio Hadoop MapReduce depende de
programador Programador. un programador externo.
CONCLUSION
9
Referencias
aumenta-ventas-47-3-semestre-ano
https://www.forbes.com/sites/maribellopez/2016/10/04/how-ebay-uses-big-data-and-
machine-learning-to-drive-business-value/?sh=26aaa2de1f35
https://tech.ebayinc.com/engineering/using-spark-to-ignite-data-analytics/
https://www.esic.edu/rethink/tecnologia/spark-vs-hadoop-cual-es-mejor
companies-using-apache-spark/
10