Documentos de Académico
Documentos de Profesional
Documentos de Cultura
en Ubuntu
Cristian ARM
Contenido
Instalación de Hadoop en Ubuntu ..................................................................................2
Instalación de JAVA....................................................................................................2
Validar funcionamiento de SSH ..................................................................................3
Creación de un usuario para Hadoop .........................................................................3
Descarga de Hadoop .................................................................................................4
Configuración de Variables de Ambiente ..................................................................7
Configuración de Hadoop ..........................................................................................8
Formatear namenode ............................................................................................... 10
Arrancar el cluster de Hadoop ................................................................................. 10
Comandos desde consola con HDFS ........................................................................ 12
Test hadoop ............................................................................................................. 14
Instalación de Hadoop en Ubuntu
Instalación de JAVA
Debemos instalar java 8 ya que esta es la versión soportada por Hadoop 3.x.x.
Descarga de Hadoop
Ingresar con el usuario hadoop previamente creado
Descargar Hadoop de la página oficial Apache Hadoop o del archivo de Apache Hadoop
O del archivo la versión estable
Para este ejemplo se descargó la versión 3.3.0 desde un servidor espejo.
Nota puede que se demore en arrancar la descarga
wget https://downloads.apache.org/hadoop/common/stable/hadoop-3.3.0.tar.gz
Procedemos a descomprimirlo y renombrar el directorio
nano $HADOOP_HOME/etc/hadoop/hadoop-env.sh
Cambio
Configuración de Hadoop
Para este caso se configurará Hadoop para que funcione como single Node, los archivos de
configuración se localizan en la ruta ‘$HADOOP_HOME/etc/hadoop/’, a continuación, se indicara el
contenido de cada archivo.
Edit core-site.xml
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
Edit hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>file:///home/hadoop/hadoopdata/hdfs/namenode</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>file:///home/hadoop/hadoopdata/hdfs/datanode</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
</configuration>
Edit mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>yarn.app.mapreduce.am.env</name>
<value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value>
</property>
<property>
<name>mapreduce.map.env</name>
<value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value>
</property>
<property>
<name>mapreduce.reduce.env</name>
<value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value>
</property>
</configuration>
Edit yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>
Formatear namenode
Esta actividad solo se debe realizar la primera vez, formaterar el sistema de archivos significa
inicializar un directorio especificado en la variable dfs.name.dir
Nota. Nunca formatear cuando se encuentra arriba el sistema de archivos de hadoop, puede
perder toda la data almacenada en el HDFS.
Comando
hdfs namenode -format
start-all.sh
Para lograr obtener información sobre el cluster y todas las aplicaciones el puerto es el 8042 url
http://localhost:8042
Para obtener detalles del nodo de Hadoop el puerto a consultar es el 9864 url
http://localhost:9864
Test hadoop
Se crea una carpeta y se introduce un archivo, luego validamos su contenido
$ hdfs dfs -mkdir -p /user/hadoop
o
$ hadoop fs -mkdir -p /user/hadoop
Copia archivo
Validación
$ hdfs dfs -ls /user/hadoop
o
$ hadoop fs -ls /user/hadoop
https://comoinstalar.me/como-instalar-java-en-ubuntu-20-04-lts/
https://linuxconfig.org/how-to-install-java-on-ubuntu-20-04-lts-focal-fossa-linux
hadoop
https://www.edureka.co/blog/install-hadoop-single-node-hadoop-cluster
https://tecadmin.net/setup-hadoop-single-node-cluster-on-centos-redhat/
https://linuxconfig.org/how-to-install-hadoop-on-ubuntu-18-04-bionic-beaver-linux
https://www.guru99.com/create-your-first-hadoop-program.html
Anexos
Dado que los recursos para la realización de la actividad de instalación de Hadoop son pesados se
recomienda realizar las siguientes actividades antes de la clase
su - hadoop
wget https://downloads.apache.org/hadoop/common/stable/hadoop-3.3.0.tar.gz