Está en la página 1de 18

Instalando Hadoop

en Ubuntu

Cristian ARM
Contenido
Instalación de Hadoop en Ubuntu ..................................................................................2
Instalación de JAVA....................................................................................................2
Validar funcionamiento de SSH ..................................................................................3
Creación de un usuario para Hadoop .........................................................................3
Descarga de Hadoop .................................................................................................4
Configuración de Variables de Ambiente ..................................................................7
Configuración de Hadoop ..........................................................................................8
Formatear namenode ............................................................................................... 10
Arrancar el cluster de Hadoop ................................................................................. 10
Comandos desde consola con HDFS ........................................................................ 12
Test hadoop ............................................................................................................. 14
Instalación de Hadoop en Ubuntu

Instalación de JAVA
Debemos instalar java 8 ya que esta es la versión soportada por Hadoop 3.x.x.

Instalación por repositorio


Actualización del índice de paquetes
sudo apt-get update

Instalación del entorno de dasarrollo JDK


sudo apt install -y openjdk-8-jdk

Comprobar la versión instalada


java -version

Nota: tener en cuenta la ruta de instalación para la declaración del JAVA_HOME


Usualmente es: /usr/lib/jvm/java-8-openjdk-amd64

Instalación por descarga de pagina oficial

Si no funciono de manera automática realizar este proceso


Descargar desde el siguiente link java archive
Descomprimir y mover a una ruta adecuada
Validar funcionamiento de SSH
Para validar la instalación correcta de ssh ejecutar el siguiente comando
sudo apt install ssh -y
sudo apt install pdsh -y

Creación de un usuario para Hadoop


Ejecutar el siguiente comando para crear el usuario
sudo adduser hadoop

Después de esto creamos un juego de llaves para la conexión por ssh


su - hadoop
ssh-keygen -t rsa -P ''
cat $HOME/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys
Para validar el correcto funcionamiento realizamos el siguiente comando
ssh localhost
exit

Descarga de Hadoop
Ingresar con el usuario hadoop previamente creado
Descargar Hadoop de la página oficial Apache Hadoop o del archivo de Apache Hadoop
O del archivo la versión estable
Para este ejemplo se descargó la versión 3.3.0 desde un servidor espejo.
Nota puede que se demore en arrancar la descarga

wget https://downloads.apache.org/hadoop/common/stable/hadoop-3.3.0.tar.gz
Procedemos a descomprimirlo y renombrar el directorio

tar xzf hadoop-3.2.1.tar.gz


mv hadoop-3.2.1 hadoop

Configuración de Variables de Ambiente


Adicionamos la rutas de Hadoop y Java al path en el archivo .bashrc, por medio del siguiente
comando
nano .bashrc

Adiciona los siguientes valores la final del archivo


# Variable para Hadoop
export HADOOP_HOME=/home/hadoop/hadoop
export HADOOP_CONFIG_DIR=$HADOOP_HOME/etc/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export YARN_HOME=$HADOOP_HOME
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

# varialbes para JAVA


export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export JAVA_LIBRARY_PATH=$HADOOP_HOME/lib/native:$JAVA_LIBRARY_PATH
export PATH=$PATH:$JAVA_HOME/bin

Para recargar los valores realizamos el siguiente comando


source ~/.bashrc

Ahora le indicamos a Hadoop donde está localizado Java editando el archivo


“$HADOOP_HOME/etc/hadoop/hadoop-env.sh”
Comando

nano $HADOOP_HOME/etc/hadoop/hadoop-env.sh

Cambio

Validar que versión de Hadoop está funcionando

Validando la versión de hdfs

Configuración de Hadoop
Para este caso se configurará Hadoop para que funcione como single Node, los archivos de
configuración se localizan en la ruta ‘$HADOOP_HOME/etc/hadoop/’, a continuación, se indicara el
contenido de cada archivo.

Edit core-site.xml
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
Edit hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>

<property>
<name>dfs.name.dir</name>
<value>file:///home/hadoop/hadoopdata/hdfs/namenode</value>
</property>

<property>
<name>dfs.data.dir</name>
<value>file:///home/hadoop/hadoopdata/hdfs/datanode</value>
</property>

<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
</configuration>

Edit mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>yarn.app.mapreduce.am.env</name>
<value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value>
</property>
<property>
<name>mapreduce.map.env</name>
<value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value>
</property>
<property>
<name>mapreduce.reduce.env</name>
<value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value>
</property>
</configuration>

Edit yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>

Formatear namenode
Esta actividad solo se debe realizar la primera vez, formaterar el sistema de archivos significa
inicializar un directorio especificado en la variable dfs.name.dir
Nota. Nunca formatear cuando se encuentra arriba el sistema de archivos de hadoop, puede
perder toda la data almacenada en el HDFS.
Comando
hdfs namenode -format

Ejemplo de resultado de ejecución del comando

Arrancar el cluster de Hadoop


Los comando para arrancar Hadoop son proporcionado en la aplicación en la ruta
$HADOOP_HOME/sbin
El comando ./start-all.sh, es la combinación de los comandos start-dfs.sh, start-yarn.sh y mr-
jobhistory-daemon.sh

start-all.sh

Posible resultado de start-all.sh


Validar que este arriba los demonios
Comandos desde consola con HDFS
A continuación, se muestra un ejemplo de cómo de crean y listas unos directorios

Accediendo a hadoop desde el navegador


El puerto por default para acceder al namenode inicializado es el 9870, el cual se puede consultar
desde cualquier navegador url
http://localhost:9870

Para lograr obtener información sobre el cluster y todas las aplicaciones el puerto es el 8042 url
http://localhost:8042
Para obtener detalles del nodo de Hadoop el puerto a consultar es el 9864 url
http://localhost:9864
Test hadoop
Se crea una carpeta y se introduce un archivo, luego validamos su contenido
$ hdfs dfs -mkdir -p /user/hadoop
o
$ hadoop fs -mkdir -p /user/hadoop

Copia archivo

Validación
$ hdfs dfs -ls /user/hadoop
o
$ hadoop fs -ls /user/hadoop

Validando desde el navegador


Referencias
Instalación Java 8
https://computingforgeeks.com/how-to-install-java-8-on-ubuntu/

https://comoinstalar.me/como-instalar-java-en-ubuntu-20-04-lts/

https://linuxconfig.org/how-to-install-java-on-ubuntu-20-04-lts-focal-fossa-linux

hadoop
https://www.edureka.co/blog/install-hadoop-single-node-hadoop-cluster
https://tecadmin.net/setup-hadoop-single-node-cluster-on-centos-redhat/
https://linuxconfig.org/how-to-install-hadoop-on-ubuntu-18-04-bionic-beaver-linux
https://www.guru99.com/create-your-first-hadoop-program.html
Anexos

Paso recomendados como previos a realizar antes de la actividad:


Pre requisitos Hadoop

Dado que los recursos para la realización de la actividad de instalación de Hadoop son pesados se
recomienda realizar las siguientes actividades antes de la clase

Actualización del índice de repositorios e instalación de Java


sudo apt-get update

sudo apt install -y openjdk-8-jdk

validar la instalación correcta del herramients del sistema

sudo apt install ssh -y


sudo apt install pdsh -y

creación del usuario 'hadoop' con el cual se instalara Hadoop

sudo adduser hadoop

ingresar con el usuario creado

su - hadoop

Para este ejemplo se descargara la versión 3.3.0 desde un servidor espejo.

Nota puede que se demore en arrancar la descarga

wget https://downloads.apache.org/hadoop/common/stable/hadoop-3.3.0.tar.gz

También podría gustarte