Instalando Hadoop Ubuntu

Instalando Hadoop
en Ubuntu
Cristian ARM
Contenido
Instalación de Hadoop en Ubuntu ..................................................................................2
Instalación de JAVA....................................................................................................2
Validar funcionamiento de SSH ..................................................................................3
Creación de un usuario para Hadoop .........................................................................3
Descarga de Hadoop .................................................................................................4
Configuración de Variables de Ambiente ..................................................................7
Configuración de Hadoop ..........................................................................................8
Formatear namenode ............................................................................................... 10
Arrancar el cluster de Hadoop ................................................................................. 10
Comandos desde consola con HDFS ........................................................................ 12
Test hadoop ............................................................................................................. 14
Instalación de Hadoop en Ubuntu
Instalación de JAVA
Debemos instalar java 8 ya que esta es la versión soportada por Hadoop 3.x.x.
Instalación por repositorio

Actualización del índice de paquetes
sudo apt-get update
Instalación del entorno de dasarrollo JDK

sudo apt install -y openjdk-8-jdk
Comprobar la versión instalada

java -version
Nota: tener en cuenta la ruta de instalación para la declaración del JAVA_HOME

Usualmente es: /usr/lib/jvm/java-8-openjdk-amd64
Instalación por descarga de pagina oficial
Si no funciono de manera automática realizar este proceso

Descargar desde el siguiente link java archive
Descomprimir y mover a una ruta adecuada
Validar funcionamiento de SSH
Para validar la instalación correcta de ssh ejecutar el siguiente comando
sudo apt install ssh -y
sudo apt install pdsh -y
Creación de un usuario para Hadoop

Ejecutar el siguiente comando para crear el usuario
sudo adduser hadoop
Después de esto creamos un juego de llaves para la conexión por ssh

su - hadoop
ssh-keygen -t rsa -P ''
cat $HOME/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys
Para validar el correcto funcionamiento realizamos el siguiente comando
ssh localhost
exit
Descarga de Hadoop
Ingresar con el usuario hadoop previamente creado
Descargar Hadoop de la página oficial Apache Hadoop o del archivo de Apache Hadoop
O del archivo la versión estable
Para este ejemplo se descargó la versión 3.3.0 desde un servidor espejo.
Nota puede que se demore en arrancar la descarga
wget https://downloads.apache.org/hadoop/common/stable/hadoop-3.3.0.tar.gz
Procedemos a descomprimirlo y renombrar el directorio
tar xzf hadoop-3.2.1.tar.gz

mv hadoop-3.2.1 hadoop
Configuración de Variables de Ambiente

Adicionamos la rutas de Hadoop y Java al path en el archivo .bashrc, por medio del siguiente
comando
nano .bashrc
Adiciona los siguientes valores la final del archivo

# Variable para Hadoop
export HADOOP_HOME=/home/hadoop/hadoop
export HADOOP_CONFIG_DIR=$HADOOP_HOME/etc/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export YARN_HOME=$HADOOP_HOME
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
# varialbes para JAVA

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export JAVA_LIBRARY_PATH=$HADOOP_HOME/lib/native:$JAVA_LIBRARY_PATH
export PATH=$PATH:$JAVA_HOME/bin
Para recargar los valores realizamos el siguiente comando

source ~/.bashrc
Ahora le indicamos a Hadoop donde está localizado Java editando el archivo

“$HADOOP_HOME/etc/hadoop/hadoop-env.sh”
Comando
nano $HADOOP_HOME/etc/hadoop/hadoop-env.sh
Cambio
Validar que versión de Hadoop está funcionando
Validando la versión de hdfs
Configuración de Hadoop
Para este caso se configurará Hadoop para que funcione como single Node, los archivos de
configuración se localizan en la ruta ‘$HADOOP_HOME/etc/hadoop/’, a continuación, se indicara el
contenido de cada archivo.
Edit core-site.xml
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
Edit hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>file:///home/hadoop/hadoopdata/hdfs/namenode</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>file:///home/hadoop/hadoopdata/hdfs/datanode</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
</configuration>
Edit mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>yarn.app.mapreduce.am.env</name>
<value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value>
</property>
<property>
<name>mapreduce.map.env</name>
</property>
<property>
<name>mapreduce.reduce.env</name>
</property>
</configuration>
Edit yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>
Formatear namenode
Esta actividad solo se debe realizar la primera vez, formaterar el sistema de archivos significa
inicializar un directorio especificado en la variable dfs.name.dir
Nota. Nunca formatear cuando se encuentra arriba el sistema de archivos de hadoop, puede
perder toda la data almacenada en el HDFS.
Comando
hdfs namenode -format
Ejemplo de resultado de ejecución del comando
Arrancar el cluster de Hadoop

Los comando para arrancar Hadoop son proporcionado en la aplicación en la ruta
$HADOOP_HOME/sbin
El comando ./start-all.sh, es la combinación de los comandos start-dfs.sh, start-yarn.sh y mr-
jobhistory-daemon.sh
start-all.sh
Posible resultado de start-all.sh

Validar que este arriba los demonios
Comandos desde consola con HDFS
A continuación, se muestra un ejemplo de cómo de crean y listas unos directorios
Accediendo a hadoop desde el navegador

El puerto por default para acceder al namenode inicializado es el 9870, el cual se puede consultar
desde cualquier navegador url
http://localhost:9870
Para lograr obtener información sobre el cluster y todas las aplicaciones el puerto es el 8042 url
Para obtener detalles del nodo de Hadoop el puerto a consultar es el 9864 url
Test hadoop
Se crea una carpeta y se introduce un archivo, luego validamos su contenido
$ hdfs dfs -mkdir -p /user/hadoop
o
$ hadoop fs -mkdir -p /user/hadoop
Copia archivo
Validación
$ hdfs dfs -ls /user/hadoop
o
$ hadoop fs -ls /user/hadoop
Validando desde el navegador

Referencias
Instalación Java 8
https://computingforgeeks.com/how-to-install-java-8-on-ubuntu/
https://comoinstalar.me/como-instalar-java-en-ubuntu-20-04-lts/
https://linuxconfig.org/how-to-install-java-on-ubuntu-20-04-lts-focal-fossa-linux
hadoop
https://www.edureka.co/blog/install-hadoop-single-node-hadoop-cluster
https://tecadmin.net/setup-hadoop-single-node-cluster-on-centos-redhat/
https://linuxconfig.org/how-to-install-hadoop-on-ubuntu-18-04-bionic-beaver-linux
https://www.guru99.com/create-your-first-hadoop-program.html
Anexos
Paso recomendados como previos a realizar antes de la actividad:

Pre requisitos Hadoop
Dado que los recursos para la realización de la actividad de instalación de Hadoop son pesados se
recomienda realizar las siguientes actividades antes de la clase
Actualización del índice de repositorios e instalación de Java

sudo apt-get update
sudo apt install -y openjdk-8-jdk
validar la instalación correcta del herramients del sistema
sudo apt install ssh -y

sudo apt install pdsh -y
creación del usuario 'hadoop' con el cual se instalara Hadoop
sudo adduser hadoop
ingresar con el usuario creado
su - hadoop
Para este ejemplo se descargara la versión 3.3.0 desde un servidor espejo.
Nota puede que se demore en arrancar la descarga
wget https://downloads.apache.org/hadoop/common/stable/hadoop-3.3.0.tar.gz

Instalando Hadoop Ubuntu

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Instalando Hadoop Ubuntu

Cargado por

Copyright:

Formatos disponibles

Instalando Hadoop

Instalación por repositorio

Instalación del entorno de dasarrollo JDK

Comprobar la versión instalada

Nota: tener en cuenta la ruta de instalación para la declaración del JAVA_HOME

Instalación por descarga de pagina oficial

Si no funciono de manera automática realizar este proceso

Creación de un usuario para Hadoop

Después de esto creamos un juego de llaves para la conexión por ssh

tar xzf hadoop-3.2.1.tar.gz

Configuración de Variables de Ambiente

Adiciona los siguientes valores la final del archivo

# varialbes para JAVA

Para recargar los valores realizamos el siguiente comando

Ahora le indicamos a Hadoop donde está localizado Java editando el archivo

Validar que versión de Hadoop está funcionando

Validando la versión de hdfs

Ejemplo de resultado de ejecución del comando

Arrancar el cluster de Hadoop

Posible resultado de start-all.sh

Accediendo a hadoop desde el navegador

Validando desde el navegador

Paso recomendados como previos a realizar antes de la actividad:

Actualización del índice de repositorios e instalación de Java

sudo apt install -y openjdk-8-jdk

validar la instalación correcta del herramients del sistema

sudo apt install ssh -y

creación del usuario 'hadoop' con el cual se instalara Hadoop

sudo adduser hadoop

ingresar con el usuario creado

Para este ejemplo se descargara la versión 3.3.0 desde un servidor espejo.

Nota puede que se demore en arrancar la descarga

También podría gustarte