Documentos de Académico
Documentos de Profesional
Documentos de Cultura
HDFS
Al crear un clúster Hadoop hay un nodo que actúa como maestro de datos.
Solo tienen metadatos, el resto de nodos son esclavos
Por el momento solo se trabajara con los dos primeros ficheros “core-site.xml” y
“hdfs-site.xml”.
Aquí es donde se agrega las propiedades con la siguiente información que será
necesaria con los siguientes datos que se van a utilizar.
Esas son las únicas propiedades que se necesitan para montar el clúster.
Formatear HDFS
Una vez que ya se han modificado los dos ficheros básicos para poder arrancar
el clúster Hadoop se tiene que preparar el sistema de ficheros HDFS.
Esto es debido a que estamos logueados como usuario Hadoop (en este caso
sería de acuerdo al usuario que hayamos puesto al instalar nuestro sistema
operativo).
Ahora si podremos crear los directorios con los comandos que se muestran en
la siguiente imagen. Después de cada comando se tiene que teclear la tecla
enter.
Hasta este punto ya no habrá problema al crear los directorios que vamos a
utilizar.
Después de esto nos regresamos un paso con el comando “cd ..” y escribimos
los siguientes comandos como se muestran en la imagen para continuar con la
configuración.
Aquí podemos ver que el directorio “datos” ya pertenece a Hadoop.
Aquí tenemos la primera parte echa, la parte de los directorios donde se tiene
que crear toda la estructura de ficheros.
Ahora seguimos haciendo los ficheros hdfs. Nos ubicamos en la primera solapa
de nuestra consola y utilizaremos el comando “hadoop namenode -format” que
nos permite invocar opciones del maestro namenode y el más importante -
format, este comando lo que hará es irse al directorio correspondiente y crear
un sistema de ficheros los cuales son los metadatos, así conforme vayamos
creando nodos él va creando los bloques dentro de cada uno de estos.
Y si todo si se han seguido bien los pasos al presionar enter nos mostrar lo
siguiente:
Aquí es donde crea un sistema de ficheros.
Ahora queda arrancar el HDFS que se encuentra dentro del directorio “cd
/opt/Hadoop/sbin” estando ubicados dentro de la carpeta datos desde la
consola como se muestra en la siguiente imagen.
Básicamente lo que hará será arrancar todos los ficheros de configuración que
se han hecho, los cuales son el que gestiona el namenode el cual es el que
trabaja con los metadatos y luego el datanode y el ultimo es el secundarynode.
En caso de haber reiniciado el centOS o haber cerrado la ventana de
comandos nos preguntara establecer el localhost, para lo cual en cada
pregunta que nos arroje tendremos que escribir “yes” en consola, de lo
contrario si no hace la pregunta y si todo está bien configurado arrancaran los
tres ficheros en automático
Dentro de las JDK de java hay un comando que es muy útil “jps” ya que nos
permite ver que procesos java tenemos en la maquina:
Y si hacemos un “jps -l” nos da un poco mas de información sobre la clase java
que se esta ejecutando y si hacemos “ps -ef | grep java” podemos observar que
hay un conjunto de procesos java lanzados
En esta parte podemos probar que nuestro entorno Hadoop está funcionando.
Por ahora lo que se ha hecho ha sido arrancar los datos. Para ver que está
funcionando de manera correcta existe una herramienta. Abriendo el
navegador, que por defecto centOS trae preinstalado Firefox, al estar dentro
del navegador abrimos el localhost con el nombre de usuario, que en este caso
es nodo1, entonces iniciaríamos el localhost con nodo1:50070 como se
muestra en la imagen.
Como podemos darnos cuenta nos dice que tenemos algo activo
Luego está el application manager, es recurso que hace que una vez que
alguien solicita una aplicación va a arrancar una application master dentro de
los nodos para que se encargue de esa aplicación y el security que se encarga
de medios de seguridad.
Lo que se hará ahora será montar el primer clúster con yarn, hasta ahora solo
se han arrancado solo la parte de los datos.
Antes que nada tendremos que evitar los Warnings al intentar poner el
comando hdfs dfs -ls /datos como se muestra en la imagen.
Para ello hacemos usamos los siguientes comandos para eliminar esos
warnings
Básicamente son variables de entorno que suprimen los warinig del log
Ahora aplicamos de nuevo el comando “hdfs dfs -ls /datos” veremos que ya no
nos aparece el warning que salía anteriormente.
Lo que ahora haremos será detener el cluster con el comando stop-dfs.sh asi
como se había mencionado anteriormente
Para ahora poder arrancar la parte de HDFS y la parte del yarn tendremos que
modificar los ficheros de configuración los cuales se encuentran en el directorio
“cd /opt/hadoop/etc/hadoop/”
Para poder montar el yarn tendremos que modificar dos ficheros más, el mismo
yarn y el del map-reduce.
Y de nuevo nos abrirá el gedit para modificar algunos parámetros del fichero.
Y modificamos en la etiqueta de configuración como se muestra en la siguiente
imagen, posteriormente guardamos los cambios.
De la misma manera que tenemos una página web donde podemos ver la
configuración del HDFS también disponemos de una página donde podemos
ver la configuración del yarn y la podemos lanzar abriendo el puerto en el
navegador de la misma manera que con HDFS, nombre del equipo, en este
caso nodo1, esto dependerá del nombre de la maquina en la que se ha
instalado, solo que esta vez cambiara el número del puerto, el cual en esta
ocasión seria 8088, quedando nodo1:8088 (la parte de /cluster aparecerá por
defecto)