Hadoop

Hadoop
Santiago Tovar
Gustavo Montero Guarín.
Contents
Hadoop................................................................................................................................... 1
Historia de Hadoop................................................................................................................. 3
Software:................................................................................................................................ 4
Microsoft Azure. (Hadoop en Azure) Es un servicio que nos proporciona Microsoft que nos
permite tener nuestras máquinas en la nube y solo pagaremos por la cantidad de
máquinas que tengamos y sus características. Click en su enlace:
https://azure.microsoft.com/es-es/......................................................................................4
Hortonworks. Es la última distribución que ha salido acerca de Hadoop, con Hortonworks
podrás descargar una máquina virtual que puedes abrir con un cliente de virtualización y
tendremos todos nuestro sistema Hadoop instalado con todos los servicios que
necesitaremos. Click en su enlace: https://es.cloudera.com/..............................................4
Cloudera. Fue la primera distribución acerca de Hadoop que de igual forma nos permite
descargar una máquina virtual que abrimos con un cliente de virtualización y allí tenemos
todo Hadoop instalado y también tenemos la Cloudera manager que es un asistente para
poder gestionar todo el cluster de máquina. Esta es la plataforma de Hadoop que
utilizaremos en el curso. Click en su enlace: https://www.cloudera.com/downloads.html.. .4
Base de datos:....................................................................................................................... 4
Apache HBase.................................................................................................................... 4
Arquitectura:....................................................................................................................... 5
Hadoop
como en su definición lo indica es un Framework que permite el procesamiento distribuido
de grandes cantidades de datos, la distribución de datos consiste en paralelizar el
tratamiento de los datos de forma que cada nodo de los cluster de máquina procese cada
lote de datos con esto logramos procesar más rápido los datos haciéndolo
simultáneamente.
este Framework permite escalabilidad de manera horizontal esto quiere decir que cuando
nuestro sistema de datos distribuidos se quede corto en procesamiento se puede añadir
otro nodo para contribuir el balanceo de carga de datos, hadoop tolera fallos de tal forma
que siempre tiene disponibilidad de datos, en caso de caer un nodo el procesamiento de la
unidad de un dato este dato no se pierde por que le dato se distribuye en los demás nodos
de esta forma no hay pérdida de información e integridad de los datos. una característica a
destacar es que hadoop es un proyecto Open Source de código abierto esto quiere decir
que hay una comunidad muy grande de desarrolladores y empresas que soportan este
proyecto.
el common utilities: estas son las librerías jar que permiten

ejecutar hadoop.
el YARN: es el gestor de recursos de hadoop.
el HDFS: este es el sistema de archivos distribuido de hadoop.
el MapReduce: es la manera de implementar el software que nos
permite paralelizar los datos.
con esto se puede entender que tenemos que crear unos

procesos map y otros view de tal forma que primero agrupamos
los datos y luego se haría el cálculo con esos grupos de datos.
la funcionalidad clave para la programación efectiva del trabajo es que cada sistema de
archivos debe conocer y proporcionar su ubicación, el nombre de rack donde están los
nodos, Hadoop puede usar esta información para ejecutar el trabajo en el nodo donde estan
los datos, logrando así reducir el tráfico de red troncal “backbone traffic”, el mismo sistema
de archivos HDFS usa cada nodo como réplica de datos, el objetivo de esto es tener
siempre un backup de los datos y en caso de cualquier evento no deseado no se puedan
perder los datos.
en cuanto al sistema de archivos HDFS permite ser escalable, un cluster de datos forma un
cluster HDFS esto quiere decir que cada nodo no requiere otro nodo de datos presente en
conjunto cada nodo sirve bloques de datos usando un protocolo de bloqueo específico del
sistema de archivos HDFS, hace uso la la capa TCP/IP y los clientes usan RPC para
comunicarse entre ellos. el HDFS almacena archivos grandes consigue partirlo en 128 MB,
y réplica datos a través de múltiples host este no requiere un RAID un arreglo de disco, los
datos se almacenan en 3 nodos, 2 en el mismo rack y otro en un rack distinto tienen la
capacidad para equilibrar datos, mover copias y conservar la alta replicación de datos.un
defecto que este sistema de archivos tiene es que no proporciona alta disponibilidad
hadoop amplió su lista de sistemas de archivos soportados en los cuales como por ejemplo
se encuentra Amazon S3, CloudStore, FTP, HTTP Y HTTPS.
hadoop tiene un motor que se llama MapReduce que consiste en “Job Tracker” rastreador
de trabajo este impulsa el trabajo fuera de los nodos Task Tracker disponibles en el cluster,
intentando estar muy cerca de los datos para su más corto recorrido, este mismo sabe que
nodo contiene la información y que otras maquinas estan
cerca. como condición si el trabajo no puede ser almacenado
en el nodo actual, se dará la prioridad a los nodos del mismo
rack y en si reduciría el tráfico de la red backbone.
en caso de que un Task Traker falla o no llega a tiempo, la

parte de trabajo se reprograma. este mismo en cada nodo
genera un proceso separado separado JVM para evitar que
este mismo falle, TaskTraker envía a Job Tracker cada pocos
minutos para comprobar su estado.
las limitaciones que se tienen a la asignación de trabajo es que no considera ninguna carga
activa actual de la máquina actual asignada, y esto hace que no exista su disponibilidad
real, existe otra en referente a las tareas cuando una tarea en seguimiento es muy lenta
puede retrasar toda la operación del motor MapReduce.
Hadoop utiliza un método llamado FIFO que significa primero en entrar y primero en salir
para hacer colas de trabajo pero este también puede ser refactorizado para dar la habilidad
de usar un programador alternativo.
el Fair Scheduler fue una colaboración de Facebook este planificador proporciona una
respuesta rápida para trabajos pequeños y calidad de servicio QOS para trabajos de
producción, este está basado en 3 conceptos muy esenciales el primero es que los trabajos
se agrupan en pools el segundo cada pool tiene asignada una porción mínima garantizada
y tercera el exceso de capacidad se distribuye entre trabajos, los trabajos que están por
defecto y que están sin categorizar van aún pool predeterminadamente, los pools deben
especificar el número mínimo de slots de mapa y los reduce slots y un límite de número de
trabajos ejecutándose.
existe una característica que yahoo desarrollo para el mismo funcionamiento de hadoop y
es la de programar las capcidad que son similares a Fair Scheduler, los trabajos son
presentados en las colas, y a las colas se les asigna una fracción de la capacidad total de
recursos, los resultados libres se asignan a las colas más allá de su capacidad total, en una
cola un trabajo de alto nivel con prioridad tendrá acceso a los recursos de la cola no es
posible la expropiación de los recursos propios cuando se está ejecutando un trabajo.
aparte de yahoo existen diversas organizaciones que usan y contribuyen a la tecnología de

hadoop como podemos ver tendremos ejemplos grandes como:
Facebook
eBay
IBM
Linkedin
Poweset
Twitter
Meebo
MercadoLibre
The New York Times
Last.fm
entre Otras…
La configuración Habitual de hadoop es tenerlo en un cluster de máquina con esto se

dividen en dos respecto a una máquina maestra y una esclava, la máquina maestra se
ocupa de gestionar todas las tareas y las enviara a las máquinas esclavas, despues de que
las esclavas procesan todos los datos estas terminaran informando de nuevo a la máquina
maestra.
Historia de Hadoop
A medida que la World Wide Web creció a finales de los 1900 y principios de los 2000, se
crearon buscadores (o motores de búsqueda) e índices para ayudar a localizar información
relevante dentro de contenido basado en texto. En sus primeros años, los resultados de las
búsquedas eran entregados por humanos. Pero a medida que la Web creció de docenas a
millones de páginas, se requirió de la automatización. Se crearon los rastreadores Web,
muchos como proyectos dirigidos por universidades, y entonces se iniciaron las primeras
compañías de buscadores (Yahoo, AltaVista, etc.).
Software:
Tenemos tres opciones:
Microsoft Azure. (Hadoop en Azure)

Es un servicio que nos proporciona Microsoft que nos permite tener nuestras máquinas en
la nube y solo pagaremos por la cantidad de máquinas que tengamos y sus características.
Click en su enlace: https://azure.microsoft.com/es-es/
Hortonworks.
Es la última distribución que ha salido acerca de Hadoop, con Hortonworks podrás
descargar una máquina virtual que puedes abrir con un cliente de virtualización y tendremos
todos nuestro sistema Hadoop instalado con todos los servicios que necesitaremos. Click en
su enlace: https://es.cloudera.com/
Cloudera.
Fue la primera distribución acerca de Hadoop que de igual forma nos permite descargar una
máquina virtual que abrimos con un cliente de virtualización y allí tenemos todo Hadoop
instalado y también tenemos la Cloudera manager que es un asistente para poder gestionar
todo el cluster de máquina. Esta es la plataforma de Hadoop que utilizaremos en el curso.
Click en su enlace: https://www.cloudera.com/downloads.html
Esto es todo en esta breve introducción, te animo a que entres en nuestro curso de Big Data
en Openwebinars en donde aprenderemos a crear procesos de Big data y crear procesos
de MapReduce.
Base de datos:
Apache HBase
HBase es una base de datos distribuida no relacional de código abierto modelada a partir de
Google BigTable y escrita en Java. Su desarrollo forma parte del proyecto Hadoop de la
Fundación de Software Apache y se ejecuta sobre HDFS (el sistema de archivos
distribuidos de Hadoop), proporcionando capacidades al estilos de BigTable para Hadoop.
HBase incluye operaciones de compresión en memoria, y filtro de Bloom sobre la base de
cada columna como se propone en el artículo original sobre BigTable. Las tablas en HBase
pueden servir como entrada o salida para tareas MapReduce en Hadoop, y se puede
acceder a través del API en Java, como servicio REST, o con los API de conexión Avro y
Thrift. Hbase es un almacén de datos orientado a columnas de tipo clave-valor y basado en
Hadoop y HDFS. HBase se ejecuta sobre HDFS y es adecuado para acelerar operaciones
de lectura y escritura en los grandes conjuntos de datos con un alto rendimiento y una baja
latencia de entrada/salida.
Arquitectura:

Hadoop

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Hadoop

Cargado por

Copyright:

Formatos disponibles

Hadoop

el common utilities: estas son las librerías jar que permiten

con esto se puede entender que tenemos que crear unos

en caso de que un Task Traker falla o no llega a tiempo, la

aparte de yahoo existen diversas organizaciones que usan y contribuyen a la tecnología de

La configuración Habitual de hadoop es tenerlo en un cluster de máquina con esto se

Microsoft Azure. (Hadoop en Azure)

También podría gustarte