Está en la página 1de 38

Pontificia Universidad Católica de Chile

Escuela de Ingeniería
Departamento de Ciencia de la Computación

Ecosistema Hadoop
Clase 1: Introducción a Hadoop

Profesor: Hans Löbel


Big Data requiere un paradigma distinto: SW y HW

↑ Procesamiento

↑ Almacenamiento

¡Enfoques tradicionales ya no sirven!


2
Big Data requiere un paradigma distinto: SW y HW

3
¿Cómo era un supercomputador hace 30 años?

• Procesamiento centralizado.
• Pocas CPUs.
• Procesamiento paralelo a costa
de hardware especializado y
caro.
• Foco en alto throughput.
• Problemas requerían pocos
datos: almacenamiento y
transferencia no eran problema.

4
¿Cómo era un supercomputador hace 30 años?

• Cray-2: lanzado en 1995.


• Fue el supercomputador más
rápido del mundo hasta 1990.
• 8 CPUs.
• Máx. throughput: 1.9 GigaFlops.

5
¿Cómo son los supercomputadores en la actualidad?

6
¿Cómo son los supercomputadores en la actualidad?

• Procesamiento distribuido (clusters)


basado en hardware de menor costo
(commodity hardware).
• Miles de nodos, CPUS y núcleos.
• Procesamiento altamente paralelo.
• Foco en alto throughput, escalabilidad
y robustez.
• Problemas requieren muchos datos:
almacenamiento y transferencia son
un problema.

7
¿Cómo son los supercomputadores en la actualidad?

• Tianhe-2: lanzado en 2013.


• Más rápido del mundo hasta
mediados de 2016.
• Máx. throughput: 33.86 PetaFlops.
• 16K nodos, 88 GB RAM cada uno.
• Más de 3M de núcleos y 1375 TB
de RAM.

8
Tendencia los últimos años parece clara

• Cambiar procesamiento centralizado por


distribuido.
• Cambiar hardware caro y especializado por
commodity hardware.

9
Este cambio genera 2 grandes “problemas”

• Almacenamiento y comunicación: cómo almacenar


y procesar grandes volúmenes de datos a la mayor
velocidad posible.
• Escalabilidad y robustez: como aumentar la
capacidad de un sistema de manera barata, sin
sufrir pérdidas de información.

10
El problema de Big Data resumido

Procesamiento Almacenamiento Comunicación

Commodity hardware altamente distribuido

11
12
¿Cuáles son entonces las condiciones actuales?

Procesamiento
• Clusters construidos de commodity hardware barato y poderoso.
• Problemas con la confiabilidad del hardware: ¿si un computador falla
una vez cada 3 años, qué pasa con 50K?

Almacenamiento
• Clusters permiten disponer de gran capacidad de almacenamiento,
incrementable de manera lineal.
• Almacenamiento de datos no puede ser relacional.
• Confiabilidad del hardware es más importante aún.

Comunicación
• Limitante física infranqueable en la actualidad.
• Además de lentas, las redes pueden saturarse fácilmente.

13
La solución: Apache Hadoop

Hadoop es una plataforma de software open source para el


almacenamiento y procesamiento de grandes volúmenes de
datos, en cluster construidos a partir de commodity
hardware.

14
La solución: Apache Hadoop

Hadoop tiene dos componentes principales:


• Sistema de archivos distribuido Hadoop Distributed File
System (HDFS).
• Modelo de programación y procesamiento distribuido
MapReduce.

15
La solución: Apache Hadoop

Hadoop entrega 3 grandes beneficios:


• Eficiencia: Permite el procesamiento de grandes volúmenes de
datos en tiempos razonables.
• Escalabilidad: para aumentar la capacidad, basta con agregar
más máquinas.
• Confiabilidad: tolerancia a fallas está integrada desde la base.
16
¿Cómo genera Hadoop estos beneficios?

17
18
19
20
21
22
¿Cómo genera Hadoop estos beneficios?

• Hadoop se aprovecha del concepto de localidad de


los datos.
• HDFS y MapReduce colaboran para replicar los
datos y permitir la ejecución de las tareas en la
misma máquina donde se ubican estos.
• Esto permite evitar demora en la transferencia, la
congestión en las redes y ser resistente a las fallas.

23
Además…

• Dado que no la escalabilidad y eficiencia son altas,


podemos guardar todos los datos sin sufrir por el
espacio o tiempo de proceso.
• Esto abre nuevas posibilidades para el
procesamiento de datos sin filtrar o no
estructurados (Schema on read).
• Intuición principal: es mejor tener más datos con
modelos simples que pocos datos con modelos más
complejos.

24
Es mejor tener más datos con modelos simples,
que pocos datos con modelos complejos.

25
26
27
28
29
30
31
32
33
¿Quién usa Hadoop?

34
35
36
¿Qué sigue ahora en adelante?

• Tarea 1: Instalación de máquina virtual de Cloudera.


• Próximo miércoles 12/10: HDFS.
• Lunes 17/10: MapReduce.

37
Pontificia Universidad Católica de Chile
Escuela de Ingeniería
Departamento de Ciencia de la Computación

Ecosistema Hadoop
Introducción a Hadoop

Profesor: Hans Löbel