Documentos de Académico
Documentos de Profesional
Documentos de Cultura
2014
ndice
1.
2.
3.
4.
5.
6.
7.
PROBLEMA
TRABAJOS ANTERIORES
REVISION DE LITERATURA
SOLUCIN
RESULTADOS
CONCLUSIONES
BIBLIOGRAFA
1. PROBLEMA
Debido al desarrollo exponencial de usuarios del internet 2 billones de usuarios
con tendencia a un crecimiento, as como los celulares activos en una cantidad
cercano a los 7.3 billones y los datos procesados diariamente en Twitter
cercano a 7 TB, como en Facebook los datos procesados diariamente cercano
a 500 TB; se tiene que los datos procesados son no estructurados en
aproximadamente 80 %, esta informacin se necesita procesar para obtener
informacin que permita la toma de decisiones.
2. TRABAJOS ANTERIORES
Al igual que HDFS, existen sistemas de archivos distribuidos, que almacenan
los archivos de metadata del sistema y los datos de aplicacin separadamente:
PVFS: Un sistema de archivos paralelo para clsteres en Linux
Sistema de archivo Lustre
GFS: Evolucin en avance rpido
Pero HDFS no utiliza mecanismo de proteccin de datos como Lustre y PVFS,
como tambin si utiliza replicacin de datos como GFS.
3. REVISION DE LITERATURA
La implementacin distribuida del namespace tiene o estn intentando en los
siguientes sistemas:
4. SOLUCIN
Hadoop tiene como sistema de archivos distribuidos al Hadoop Distributed
Filesystem (HDFS).
4.1 Diseo de HDFS.- Tiene las siguientes caractersticas:
Soporta Archivos muy grandes.- Donde archivos muy grandes son
cientos de megabytes, gigabytes, terabytes de tamao. Actualmente
tenemos clsteres de Hadoop ejecutando que almacenan peta bytes.
Acceso de datos inmediatamente.- Cumple con la idea que el patrn de
procesamiento de datos ms eficiente es grabar una vez y leer muchas
veces. Lo que importa es la lectura de todos los datos.
Hardware estndares.- Su diseo contempla la ejecucin en hardware
disponible comnmente por muchos distribuidores, y en el caso de fallas
continuar funcionando sin interrupcin.
4.2 Arquitectura HDFS.- Tiene los siguientes componentes:
Figura 1
Figura 2
o El diseo actual considera un NameNode por cada clster. El
clster puede tener cientos de DataNodes y cientos de HDFS
clientes por clster, porque cada DataNode puede ejecutar
mltiples aplicaciones concurrentemente. Ver figura 3
Figura 3
o HDFS mantiene todo el namespace en RAM
o Los datos inodo y la lista de bloques que pertenecen a cada
archivo comprenden los metadatos del sistema de nombres
llamado la imagen.
o En el sistema de archivos nativo del host local se almacenan:
Los registros permanentes de la imagen se llaman
checkpoint.
Figura 4
A diferencia de los sistemas convencionales, en HDFS se tiene un API, que
permite la ubicacin de los bloques de datos, mediante esquemas como el
MapReduce que planifica la tarea de ubicacin de los datos, lo cual mejora
el rendimiento.
Tambin se puede configurar el factor de replicacin, que por defecto es
tres, donde para archivos crticos archivos que son ledos
frecuentemente, si tienen un factor de replicacin mayor mejorara la
tolerancia a fallas e incrementara su lectura.
Imagen y Journal.o Imagen es el namespace de la metadata del sistema de archivos,
que describe la organizacin de los datos como directorios y
archivos
Checkpoint es una Imagen grabado en el disco de forma
permanente, nunca es cambiado por el NameNode, se
remplaza enteramente cuando
se crea un nuevo
Checkpoint durante el reinicio, a solicitud del
administrador o por CheckpointNode.
o El Journal es una grabacin del log de los cambios al sistema de
archivos que no se modificaran.
Por cada transaccin realizada por un cliente, los cambios
son grabados en Journal y el archivo Journal
es
sincronizado antes que el cambio sea efectivo en el
cliente HDFS.
o Durante el
reinicio el NameNode inicializa la imagen del
namespace desde el Checkpoint y repone los cambios desde el
Actualizacin, Instantneas del sistema de archivos.En el proceso de actualizacin existe un incremento de la probabilidad
de corrupcin del sistema por los errores del software o los errores
humanos, mediante las instantneas es posible realizar una cancelacin
de la actualizacin y regresar al estado en el cual se tom las
instantneas.
Cuando se requiere una instantnea, el NameNode primero lee el
checkpoint y el archivo journal, ambos son fusionados en memoria,
entonces se graba un nuevo checkpoint y el journal vaco a una nueva
ubicacin, de tal forma que el antiguo checkpoint y el journal
permanecen sin cambiar.
Las instantneas locales en el DataNode no se pueden crear replicando
los directorios de archivos de datos, porque sera necesario duplicar la
capacidad de almacenamiento de cada DataNode en el cluster, para lo
cual cada DataNode crea una copia del almacenamiento del directorio y
los vnculos existentes en el bloque de archivos.
Figura 5
Existe un verificador numrico de que los datos estn correctos, este
verificador lo crea el cliente HDFS, est en funcin de los datos que
enva al DataNode, este lo graba en un archivo separado de los datos.
Cuando un HDFS lee un archivo, tiene los datos y el verificador
numrico, en caso que el verificador no corresponda, el cliente notifica al
DataNode, quin enva una rplica de los datos de otra DataNode, la
ubicacin de las rplicas est en funcin de la distancia del lector y en
caso falle la lectura, el cliente intenta la prxima rplica
secuencialmente.
Al momento de leer se considera la longitud de la ltima longitud del dato
a leer antes de empezar el proceso.
Este diseo est optimizado para un procesamiento en lotes, que
realiza el MapReduce, como tambin la mejora del tiempo de la
lectura/grabacin, para soportar aplicaciones como Scribe, que provee
.
La distancia de un nodo a su padre se asume como uno, la distancia entre
nodos es la suma de las distancias a su ancestro comn.
El administrador puede obtener la identificacin del rack de un nodo, dado
la direccin de un nodo, el NameNode permite ubicar la ubicacin de un
rack de cada DataNode, porque al registrarse un DataNode el NameNode
indica a que rack pertenece.
La ubicacin mediante una buena poltica de las rplicas permite mejorar la
disponibilidad, confiabilidad y la utilizacin del ancho de banda de la red.
HDFS provee una poltica de ubicacin configurable, para que los usuarios
e investigadores puedan experimentar y testear.
Existe una poltica por defecto de la ubicacin de los bloques del HDFS,
que considera lo siguiente:
o La primera rplica se ubica en el nodo donde el que graba est
ubicado.
o La segunda y tercera en nodos diferentes en un diferente rack, y
el resto de forma aleatoria con la restriccin de que no ms de
una rplica es ubicado en un nodo y no ms de dos rplicas en
6. CONCLUSIONES
El HDFS soluciona en parte las necesidades actuales de procesamiento de
grandes volmenes de informacin que cumple las siguientes
caractersticas:
o Soporta Archivos muy grandes.