Documentos de Académico
Documentos de Profesional
Documentos de Cultura
VOLÚMENES DE DATOS EN
ENTORNOS CLOUD
COMPUTING UTILIZANDO
HADOOP MAPREDUCE
Autor:
Carlos Gómez Martínez
Directores:
UNIVERSIDAD DE ALMERÍA
Nicolás Padilla Soriano
Ingeniero en Informática
Julio Gómez López
ÍNDICE
Introducción.
Entorno de trabajo.
Cloud Computing, Configuración de una Nube OpenStack.
Programación MapReduce.
Librería Hadoop Image Processing Interface.
Aumento de
Mejora en las
velocidad y del
comunicaciones
volumen de
de Red
tráfico soportado
Sistema de
Aparición del Desarrollo de
Computación
Paradigma de los Sistemas de
Distribuido de Alto
Computación Computación
Rendimiento en un
Cloud Distribuidos
entorno Cloud
Computing
Computing
Nace
¿Es posible
Apache
Integrarlos?
Hadoop
3
ÍNDICE
Introducción.
Entorno de trabajo.
Cloud Computing, Configuración de una Nube OpenStack.
Programación MapReduce.
Librería Hadoop Image Processing Interface.
5
CLOUD COMPUTING
VENTAJAS Y DESVENTAJAS
Recuperación
ante Desastres Degradación
del Servicio
Alta
Disponibilidad
Dependencia
Conexión a
Internet
Nodo(s) de
Procesamiento
7
ÍNDICE
Introducción.
Entorno de trabajo.
Cloud Computing, Configuración de una Nube OpenStack.
Programación MapReduce.
Librería Hadoop Image Processing Interface.
Sistemas con
miles de nodos.
Aplicaciones
sobre grandes
volúmenes de
datos de Alta flexiblidad y
manera escalabilidad.
distribuida. Clústeres con
distintas
topologías.
9
CLOUD COMPUTING
C O MP UTA CI Ó N D I S TRI B UI D A A PA C HE HA D O O P
MAESTRO ESCLAVO(S)
TASKTRACKER TASKTRACKER
Capa JOBTRACKER
MapReduce
Capa
HDFS NAMENODE
DATANODE DATANODE
10
CLOUD COMPUTING
HADOOP DISTRIBUTED FILE SYSTEM
Diseño específico
para Apache No posee Alta
Hadoop Disponibilidad
Posibilidad de
Réplica de Nodos
Tolerancia a Fallos
No indicado para
Mínimas sistemas con de
Posibilidad
Escrituras – múltiples
agrupar archivos de en
los datos
Múltiples poco tamaño
contenedores
Lecturas
11
CLOUD COMPUTING
HADOOP DISTRIBUTED FILE SYSTEM
Op.
Op. Datos Sincronización
NAME NAMENODE
NODE SECUNDARIO
Red de
Sincronización
Op. sobre
Bloque
DATANODE DATANODE
Réplica de
Datos
12
ÍNDICE
Introducción.
Entorno de trabajo.
Cloud Computing, Configuración de una Nube OpenStack.
Programación MapReduce.
Librería Hadoop Image Processing Interface.
Configuramos Almacenamos la
Hadoop instancia como
Multinode patrón
Desplegamos tantas
instancias como
nuestros recursos
nos permitan
14
INTEGRACIÓN CLOUD
COMPUTING – APACHE
HADOOP
Seleccionamos un tipo de instancia.
15
INTEGRACIÓN CLOUD
COMPUTING – APACHE
HADOOP
Nos conectamos vía SSH a la instancia.
16
INTEGRACIÓN CLOUD
COMPUTING – APACHE
HADOOP
Almacenamos esta máquina virtual configurada con
Hadoop SingleNode como patrón de instancias.
17
INTEGRACIÓN CLOUD
COMPUTING – APACHE
HADOOP
Finalmente
Primero el HDFS.
Configuramosla capa MapReduce.
Hadoop Multinode.
18
ÍNDICE
Introducción.
Entorno de trabajo.
Cloud Computing, Configuración de una Nube OpenStack.
Programación MapReduce.
Librería Hadoop Image Processing Interface.
Programación
Programación Paralela Balanceado
Funcional
de Carga
(Map – Reduce)
Licencia Amplio
Libre Soporte
Control de Errores
Orientado a Grandes
en Nodos. Tolerancia
Cantidades de Datos
a Fallos
20
PROGRAMACIÓN MAPREDUCE
FUNCIONAMIENTO
21
PROGRAMACIÓN MAPREDUCE
FUNCIONAMIENTO
Formato de
Formato de Salida
Entrada
No hay un ningún tipo de archivo para trabajar con Imágenes
22
ÍNDICE
Introducción.
Entorno de trabajo.
Cloud Computing, Configuración de una Nube OpenStack.
Programación MapReduce.
Librería Hadoop Image Processing Interface.
Librería creada por la University of Virginia que aporta una API para
el procesamiento de imágenes
HipiImageBundle HipiJob
FloatImage CullMapper
24
PROGRAMACIÓN MAPREDUCE
LIBRERÍA HIPI
25
ÍNDICE
Introducción.
Entorno de trabajo.
Cloud Computing, Configuración de una Nube OpenStack.
Programación MapReduce.
Librería Hadoop Image Processing Interface.
27
PRUEBAS DE RENDIMIENTO
Y EJEMPLOS DE
APLICACIÓN HIPI
Resultados obtenidos:
Test WordCount (Libros) Incluir Archivos en HDFS (mm:ss,d) Ejecución (mm:ss,d)
10 00:03,2 00:45,3
50 00:13,1 01:12,4
100 00:25,2 01:41,0
150 00:42,6 02:18,8
200 01:04,6 03:02,9
300 01:50,8 03:58,1
400 02:25,5 05:04,7
500 02:53,8 05:54,7
600 02:59,8 06:46,5
700 03:21,6 07:43,7
800 03:27,1 08:18,0
900 03:48,3 09:44,7
1000 04:12,4 10:29,9
28
PRUEBAS DE RENDIMIENTO
Y EJEMPLOS DE
APLICACIÓN HIPI
Incluir Archivos en HDFS
04:19.2
03:36.0
Tiempo (mm:ss,d)
02:52.8
02:09.6
01:26.4
00:43.2
00:00.0
10 50 100 150 200 300 400 500 600 700 800 900 1000
Biblioteca de Entrada
07:12.0
05:45.6
04:19.2
02:52.8
01:26.4
00:00.0
10 50 100 150 200 300 400 500 600 700 800 900 1000
Biblioteca de Entrada
Tiempo (segundos)
3
200 183” 0,91” 2.5
300 238” 0,79” 2
400 305” 0,76” 1.5
1
500 355” 0,71” 0.5
600 407” 0,68” 0
10 50 100 150 200 300 400 500 600 700 800 900 1000
700 464” 0,66”
Biblioteca de Entrada
800 498” 0,62”
900 585” 0,65”
1000 630” 0,63”
31
PRUEBAS DE RENDIMIENTO
Y EJEMPLOS DE
APLICACIÓN HIPI
Descarga de
Ejemplo de
imágenes de la red
Aplicación HIPI
social Flickr
33
PRUEBAS DE RENDIMIENTO
Y EJEMPLOS DE
APLICACIÓN HIPI
Ejecución Downloader
34
PRUEBAS DE RENDIMIENTO
Y EJEMPLOS DE
APLICACIÓN HIPI
Ejecución DumpHIB
35
ÍNDICE
Introducción.
Entorno de trabajo.
Cloud Computing, Configuración de una Nube OpenStack.
Programación MapReduce.
Librería Hadoop Image Processing Interface.
La librería Hadoop Image Processing Interface proporciona una API que permite
trabajar directamente sobre imágenes en Apache Hadoop
37
TRABAJO FUTURO
Optimizar el entorno de
computación Apache
Integrar un Sistema de
Hadoop implantando alta
Gestión de Bases de Datos
disponibilidad y utilizando
en este entorno.
al máximo los recursos del
clúster.
39
PROCESAMIENTO DE GRANDES
VOLÚMENES DE DATOS EN
ENTORNOS CLOUD
COMPUTING UTILIZANDO
HADOOP MAPREDUCE
Autor:
Carlos Gómez Martínez
Directores:
UNIVERSIDAD DE ALMERÍA
Ingeniero en Informática
Nicolás Padilla Soriano
Julio Gómez López