Apache Hadoop Herramientas BIG DATA

Big Data
Luis Felipe Rueda Rodríguez

• Introducción
• Hadoop
• Visión Actual
• MapReduce
• HDFS
• Arquitectura
• Funcionamiento
• Modos de Ejecución
• Ejemplos de Uso
• Desventajas
• Alternativas
• Introducción
• Hadoop
• Visión Actual
• MapReduce
• HDFS
• Arquitectura
• Funcionamiento
• Ejemplos de Uso
• Desventajas
• Alternativas
INTRODUCCIÓN
Actualmente el crecimiento exponencial de datos como las

nuevas las nuevas tecnologías de almacenamiento de ellas,
están cambiando la arquitectura de los nuevos sistemas y el
modo con el cual se está acelerando el proceso de esta
información.
Motivo a esto, es la aparición de varias herramientas de código

libre que permiten manejar enormes cantidades de datos en
sistemas distribuidos.
• Introducción
• Hadoop
• Visión Actual
• MapReduce
• HDFS
• Arquitectura
• Funcionamiento
• Ejemplos de Uso
• Desventajas
• Alternativas
HADOOP
Hadoop es un framework de software basado en Java y está

orientado a aplicaciones distribuidas con un uso extensivo de
datos y de alta escalabilidad.
Se presenta como una solución para los programadores sin

experiencia en el desarrollo de aplicaciones para entornos
distribuidos, dado que oculta la implementación de detalles
propios de estos sistemas: paralelización de tareas,
administración de procesos, balanceo de carga y tolerancia a
fallos.
• Introducción
• Hadoop
• Visión Actual
• MapReduce
• HDFS
• Arquitectura
• Funcionamiento
• Ejemplos de Uso
• Desventajas
• Alternativas
VISIÓN ACTUAL
Hoy en día, el análisis de estos enormes volúmenes de datos de

distintos formatos, se están extendiendo paulatinamente en el
mundo de las Empresas, Redes Sociales y Weblogs.
Este fenómeno ha creado una nueva

organización sin fronteras a la que llamamos
…
“Big Mc Data”
• Introducción
• Hadoop
• Visión Actual
• MapReduce
• HDFS
• Arquitectura
• Funcionamiento
• Ejemplos de Uso
• Desventajas
• Alternativas
MAPREDUCE
Hadoop proporciona un entorno de ejecución orientado para apps
desarrolladas bajo el modelo de programación MapReduce. Bajo
este modelo, la ejecución de una aplicación presenta dos etapas:
• Map: donde se realiza la ingestión y la transformación de los
datos de entrada, en la cual los registros de entrada pueden
ser son procesados en paralelo.
• Reduce: fase de agregación o resumen, donde todos los
registros asociados entre sí deben ser procesados juntos
por una misma entidad.
• Introducción
• Hadoop
• Visión Actual
• MapReduce
• HDFS
• Arquitectura
• Funcionamiento
• Ejemplos de Uso
• Desventajas
• Alternativas
HDFS
Hadoop Distributed File System (HDFS) es un sistema de archivos
distribuido, escalable y portátil escrito en Java para el framework
Hadoop, pensado para almacenar grandes cantidades de
información, del orden Terabytes o Petabytes tolerante a fallos y
diseñado para ser instalado en máquinas de bajo costo.
• Introducción
• Hadoop
• Visión Actual
• MapReduce
• HDFS
• Arquitectura
• Funcionamiento
• Ejemplos de Uso
• Desventajas
• Alternativas
ARQUITECTURA
La arquitectura de Hadoop se sustenta sobre 3 pilares

fundamentales:
• Sistema de Archivos : Denominado HDFS.
• Hadoop MapReduce : Planificador de trabajos, así como
una serie de nodos encargados para llevarlos a cabo.
• Hadoop Common : Conjunto de utilidades que posibiliten
la integración de subproyectos de Hadoop.
• Introducción
• Hadoop
• Visión Actual
• MapReduce
• HDFS
• Arquitectura
• Funcionamiento
• Ejemplos de Uso
• Desventajas
• Alternativas
FUNCIONAMIENTO
Sobre el sistema de archivos se ubica el motor de MapReduce, que

consiste en un planificador de trabajos denominado JobTracker, a
través del que las aplicaciones cliente envían trabajos MapReduce.
Este planificador envía el flujo de trabajo entrante a los nodos
TaskTracker disponibles en el clúster, que se ocuparán de ejecutar
las funciones map y reduce en cada nodo.
• Introducción
• Hadoop
• Visión Actual
• MapReduce
• HDFS
• Arquitectura
• Funcionamiento
• Ejemplos de Uso
• Desventajas
• Alternativas
MODOS DE EJECUCIÓN
Hadoop se puede ejecutar de tres formas distintas:
• Modo Local / Standalone : Por
defecto,
configurado para ejecutarse en este modo como un proceso de Java

aislado. Esto es útil para depuración.
• Modo Pseudo-distribuido : Hadoop puede ejecutarse en este
modo, en donde cada tarea se ejecuta en proceso Java diferente.
• Modo Distribuido : Esta es la forma de aprovechar
toda la potencia de Hadoop, ya que se maximiza el paralelismo de
procesos y se utilizan todos los recursos disponibles del clúster en el
que se va a configurar Hadoop.
• Introducción
• Hadoop
• Visión Actual
• MapReduce
• HDFS
• Arquitectura
• Funcionamiento
• Ejemplos de Uso
• Desventajas
• Alternativas
EJEMPLOS DE USO
Existe un gran número de aplicaciones y empresas que utilizan
Hadoop en sus clústers. Entre los más relevantes podemos
mencionar los siguientes:
• Facebook
• Google
• Twitter
• Yahoo!
• Introducción
• Hadoop
• Visión Actual
• MapReduce
• HDFS
• Arquitectura
• Funcionamiento
• Ejemplos de Uso
• Desventajas
• Alternativas
DESVENTAJAS
• La curva de aprendizaje de Hadoop es Alta

• Hadoop no permite hacer lookups
• Hadoop reprocesa todo siempre
• Latencia
• Introducción
• Hadoop
• Visión Actual
• MapReduce
• HDFS
• Arquitectura
• Funcionamiento
• Ejemplos de Uso
• Desventajas
• Alternativas
ALTERNATIVAS

Apache Hadoop Herramientas BIG DATA

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Apache Hadoop Herramientas BIG DATA

Cargado por

Copyright:

Formatos disponibles

Big Data

Luis Felipe Rueda Rodríguez

Actualmente el crecimiento exponencial de datos como las

Motivo a esto, es la aparición de varias herramientas de código

Hadoop es un framework de software basado en Java y está

Se presenta como una solución para los programadores sin

Hoy en día, el análisis de estos enormes volúmenes de datos de

Este fenómeno ha creado una nueva

La arquitectura de Hadoop se sustenta sobre 3 pilares

Sobre el sistema de archivos se ubica el motor de MapReduce, que

configurado para ejecutarse en este modo como un proceso de Java

• La curva de aprendizaje de Hadoop es Alta

También podría gustarte