Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Introducción al Big Data
Índice
Introducción y objetivos
Resumen
Introducción al Big Data
INTRODUCCIÓN Y OBJETIVOS
E. Edwards Deming
Importante
Objetivos:
1944:
Introducción al Big Data
1949:
1961:
1971:
Arthur R. Miller, autor del libro "The Assault on Privacy", identificó que
"demasiados manejadores de información parecen medir a un hombre por
el número de bits de capacidad de almacenamiento que su expediente
ocupará".
1975:
1981:
1983:
1996:
Introducción al Big Data
1997:
El término "big data" se usó por primera vez cuando los investigadores M.
Cox y D. Ellsworth escribieron un artículo que identifica que el aumento de
datos se está convirtiendo en un problema para los sistemas informáticos
actuales. En otras palabras, el "problema de los grandes datos".
2000:
2001:
2005:
"Qué es la Web 2.0" fue publicado por el escritor Tim O'Reilly, en él afirmó
que "los datos son la próxima inteligencia interna y SQL es el nuevo HTML.
La administración de bases de datos es una competencia central de las
compañías Web 2.0, tanto que, a veces, se han referido a estas aplicaciones
como ‘infoware’ en lugar de simplemente software".
2008:
2009:
2011:
Introducción al Big Data
2013:
Nota
Estas son las Vs originales, pero con el paso del tiempo se ha ido viendo
que… ¡hacían falta más!
Tal y como dice SAS, calificada como líder por Gartner Group en 2016 y por
Forrester en 2017:
Introducción al Big Data
CARACTERÍSTICAS:
• Distribuido.
• Escalable.
• Tolerante a fallos.
• OpenSource.
Introducción al Big Data
Ejemplo
Más información
Introducción al Big Data
5. SPARK
5.1. ¿El sustituto de MapReduce?
Está diseñado para ejecutarse por defecto en memoria, por lo que los
desarrolladores pueden escribir algoritmos iterativos sin escribir un conjunto
de resultados después de cada pasada. Esto permite un alto rendimiento en
la analítica avanzada mediante técnicas como la regresión logística.
CARACTERÍSTICAS:
Introducción al Big Data
1. Rapidez.
2. Real-Time.
3. Alta tolerancia.
4. Facilidad de uso.
5. Conectividad.
Esquema
Más información
Esquema-ejemplo
Introducción al Big Data
5. SPARK
5.2. Componentes de Spark
Introducción al Big Data
Spark Core es el motor de ejecución sobre el que todos los demás ejecutan
sus algoritmos. Soporta en memoria conjuntos de datos que hacen
referencia a la informática y en sistemas de almacenamiento externo.
5. SPARK
5.3. Formas de implementar Spark
Diagrama
SIMR. Lanza los trabajos de Spark dentro de MapReduce. Con SIMR, los
usuarios pueden comenzar a experimentar con Spark y utilizar su Shell
después de descargarlo. Esto reduce enormemente la barrera de despliegue
y permite que, prácticamente, todos jueguen con Spark.
Introducción al Big Data
6. MAPREDUCE VS SPARK
MapReduce Spark
- Cada “Map Taks” vuelca los
datos en un par de clave-
valor. - La salida del Map es almacena
- La salida se almacena en un en la caché del buffer del SO.
buffer circular en vez de - El sistema operativo decidirá
escribir en el disco. si los datos pueden
- El tamaño del buffer circular permanecer en la caché del
ronda los 100 MB. Si el buffer buffer o, en caso de overflow,
circular ocupa un 80% de su pasarían a disco.
capacidad, los datos se pasan - Cada “map task” crea tantos
a disco, que se llaman “spill archivos “Spill Files” como el
files” (archivos derrame de número de reductores.
reproducción aleatoria). - Spark no fusiona y parte los
- En un nodo en particular, archivos “Spill Files” en un
cuando se ejecutan muchas gran archivo.
“Map Task” se crean muchos - Hasta 100x más rápido que
“Spill Files”. Hadoop fusiona MapR.
todos esos “Spill Files”, en un - Se ejecuta con datos de
nodo en particular, en un gran Hadoop y en sus clústeres
archivo que procede a ser existentes.
ordenado y particionado en
función del número de
reductores.
Introducción al Big Data
Arquitectura explicativa
B. Los datos de Golden Gate se inyectan en Kafka una única vez, con
una única configuración multipropósito y agnóstica del caso de uso y
tecnología de procesamiento posterior. Estos nodos necesitan
conectividad con los entornos del cliente para el tráfico GG, estimada
en 20 Mbps sostenidos, con picos de hasta 50 Mbps.
Introducción al Big Data
Introducción al Big Data
RESUMEN