Está en la página 1de 16

Ingeniería para el Procesado Masivo de Datos

Alicia Rodríguez Carrión

Tema 1. Introducción a Hadoop

Universidad Internacional de La Rioja


Índice

► Hadoop… ¿para qué queremos otra tecnología más?


► ¿Qué es Hadoop?
► ¿Qué aporta Hadoop?
► Breve historia de Hadoop
► Componentes de Hadoop
► ¿Qué es una distribución de Hadoop?
► Desplegando Hadoop

2
Hadoop… ¿para qué queremos
otra tecnología más?
► Datos, datos datos…

► ¿De dónde vienen estos datos?


► Web

► Transacciones

► Redes sociales

► Media

► IoT

► …

► Ya es un gran problema, pero se agravará en el futuro cercano


► IoT

► Smart Cities

3
Hadoop… ¿para qué queremos
otra tecnología más?
► Datos, datos datos…

► ¿De dónde vienen estos datos? Diferentes clasificaciones:

► Datos estructurados: bases de datos, tráfico en red…


► Datos no estructurados: fotos, vídeos, mensajes…

► Interacción entre humanos: correos electrónicos, fotos…


► Interacción humano-máquina: compras por internet, trasacciones
con el banco…
► Interacción máquina-máquina (M2M): redes de sensores,
monitorización…

4
Hadoop… ¿para qué queremos
otra tecnología más?
► Ya hay muchos datos… pero podemos incrementar el tamaño de
discos duros y unidades de almacenamiento…. ¿por qué esta solución
no funciona?

► Capacidad aumenta mucho más rápido que la velocidad de lectura, y


sobre todo, escritura:

► Disco 1990:
► capacidad 1370MB, velocidad lectura 4.4MB/s

► Tiempo en leer el disco entero: 5 minutos aprox.

► Disco 2019:
► Capacidad 1TB, velocidad lectura 100MB/s

► Tiempo en leer el disco entero: 2.5 horas aprox!!!

5
¿Qué es Hadoop?

► Plataforma software de código libre

► Colección de tecnologías

► Proporciona:
► Almacenamiento distribuido

► Procesado distribuido (divide y vencerás)

► Manejo de GRANDES cantidades de datos

► Gestión de la información en clústers de máquinas ‘normales’:


► Se pueden añadir más y más máquinas à escalable

► Hadoop se encarga de que todo funcione como una única máquina:


aprovecha los recursos, los gestiona, se encarga de gestionar caída
de nodos...

6
¿Qué es Hadoop?

► ¿Qué entendemos por clúster?

Datacenter1
Rack1 Rack2
Nodo1 Nodo1

Nodo2 Nodo2

Nodo3 Nodo3

Nodo4 Nodo4

Nodo5 Nodo5

7
¿Qué es Hadoop?

► ¿Qué entendemos por clúster?

Foto tomada de en.wikipedia.org

8
¿Qué es Hadoop?

► ¿Qué clústers tienen algunas empresas conocidas?


Empresa Tamaño clúster
(número de nodos)
A9 - Amazon De 1 a 100
Alibaba 15
Ebay 532
Facebook 1100 nodos y 300 nodos
Last.fm 100
Linkedin 800 nodos, 1900 nodos,
1400 nodos
Mercadolibre 20
Spotify 1650
Yahoo 4500
Datos tomados de
https://cwiki.apache.org/confluence/display/HADOOP2/PoweredBy

9
¿Qué aporta Hadoop que no
aporten otros sistemas?
► Escalabilidad
► Si se rompe un nodo, se reemplaza (no es una catástrofe)

► Si se necesita más capacidad de procesado o almacenamiento, no

hay que reemplazar LA máquina, sino añadir un nodo más

► Almacenamiento de datos estructurados y no estructurados

► Mucho más que procesado en bloque (batch):

► Peticiones SQL

► Peticiones iterativas

► Procesado de flujos (streams) de datos

► Convive con apps web, integrarse con AWS… à es mucho más que
una base de datos
► …
10
Breve historia de Hadoop

► Apache Nutch à proyecto de software libre


para motor de búsqueda web à las primeras
versiones funcionaban… pero no escalaban!

► Google publicó artículos sobre GFS (Google


File System) en 2003 à es la base de
ALMACENAMIENTO DISTRIBUIDO à
Apache Nutch lo adaptó a sus necesidades à
NDFS à HDFS

► Google publicó artículo MapReduce en 2004


à base del PROCESADO DISTRIBUIDO à
Apache Nutch lo adaptó a sus necesidades Doug Cutting y el elefante Hadoop
Foto tomada de https://www.cnbc.com/id/100769719

► Hadoop arrancó en 2006 (proyecto de Yahoo!)


haciendo de NDFS y MapReduce un proyecto
propio

11
¿De qué está compuesto Hadoop?
► Tiene elementos para:
► Almacenamiento distribuido

► Procesamiento distribuido

► Estructura
Ambari

Foto tomada de
intellipaat.com

12
¿Qué es una distribución de
Hadoop?
► Hadoop puede integrar una miríada de componentes

► Habría que descargar cada uno, instalar, configurar, integrar unos con
otros… à proceso tedioso

► Una distribución de Hadoop nos facilita la vida: colección de


elementos de almacenamiento y procesado distribuido, con las
versiones para una correcta integración, y una configuración ya hecha.

► Tres (ahora dos) principales:


► Cloudera

► Hortonworks à A principios de 2019 se unieron con Cloudera

► MapR

13
Despliegue de Hadoop

► (demo)

14
Cierre

► Hadoop… ¿para qué queremos otra tecnología más?


► ¿Qué es Hadoop?
► ¿Qué aporta Hadoop?
► Breve historia de Hadoop
► Componentes de Hadoop
► ¿Qué es una distribución de Hadoop?
► Desplegando Hadoop

► Próxima semana:
► HDFS
► Vuestro turno de desplegar y utilizar Hadoop (laboratorio)
15
www.unir.net

También podría gustarte