Documentos de Académico
Documentos de Profesional
Documentos de Cultura
PROFESOR
Alberto Oikawa
alberto.oikawa.lucas@gmail.com
Índice
1. HDFS .......................................................................... 3
1.1. HDFS .......................................................................... 3
1.2. Arquitectura HDFS ......................................................... 4
1.3. Replicación de datos ....................................................... 6
1.4. Nodo secundario ............................................................ 7
1.5. Comandos básicos HDFS ................................................... 7
1. HDFS
1.1. HDFS
HDFS es un sistema de archivos diseñado para grandes sistemas de datos distribuidos sobre
frameworks como MapReduce. HDFS abstrae al usuario del modo en el que los datos están
disponibles y distribuidos sobre múltiples máquinas, de modo que se tiene la ilusión de estar
trabajando con un único archivo.
Características:
HDFS tiene una arquitectura maestro/esclavo. Un cluster HDFS consta de un solo NameNode
que es un servidor maestro que gestiona el espacio de nombres del sistema de archivos y
regula el acceso a los archivos de los clientes. Además, hay una serie de DataNodes, por lo
general uno en cada nodo del cluster, que gestionan el almacenamiento asociado a cada uno
de los nodos que se ejecutan en el cluster. HDFS proporciona un espacio de nombres del
sistema de archivos y permite que los datos de usuario se almacenan en ficheros.
El NameNode toma todas las decisiones con respecto a la replicación de bloques. Se recibe
periódicamente un mensaje de confirmación de actividad y un informe de los bloques de
cada uno de los DataNodes del clúster. La recepción del mensaje de confirmación implica
que el DataNode está funcionando correctamente. Cada informe de sobre los bloques
contiene una lista de todos los bloques en un DataNode.
Para el caso común cuando el factor de replicación es tres, la política de replicación de HDFS
consiste en poner una réplica en un nodo del rack local, otro en un nodo diferente del mismo
rack, y el último en un nodo diferente en un otro rack. La probabilidad de fallo de rack es
mucho menor que la de fallo de un nodo. Con esta política, las réplicas de un archivo no se
distribuyen uniformemente a través de los racks. Un tercio de las réplicas están en un nodo,
dos tercios de las réplicas están en un mismo rack, y el otro tercio se distribuye
uniformemente a través de los racks restantes. De este modo se mejora el rendimiento de
escritura sin comprometer la fiabilidad de los datos o el rendimiento de lectura frente a
otras soluciones de otros sistemas distribuidos.
El inicio del proceso de los puntos de control en el nodo secundario se controla mediante
dos parámetros de configuración:
Comandos de usuario
o test
o text
o touchz
• hdfs fsck [GENERIC_OPTIONS] <path> [-list-corruptfileblocks | [-move | -delete | -
openforwrite] [-files [-blocks [-locations | -racks]]]] [-includeSnapshots]: ejecuta la
comprobación de disco.
• hdfs version: muestra la versión.
Comandos de administrador