Está en la página 1de 44

Big Data

BDY7101
Uso de HDFS
sobre un
contenedor Docker

2
Uso de HDFS

Visión General
En esta sección se mostrará como instalar “paso a
paso” el sistema de archivo HDFS en un contenedor
Docker.

CREANDO UNA MÁQUINA LINUX EN AWS E INSTALANDO


DOCKER

3
Instalación de Hadoop

Paso 1: Ingresar a la plataforma AWS y


seleccionar EC2

4
Instalación de Hadoop

Paso 2: Lanzar la instancia

5
Instalación de Hadoop

Paso 3: Seleccionar UBUNTU Server 20.04

6
Instalación de Hadoop

Paso 3: Seleccionar 04 CPU y 16 GB De


memoria principal (Memory)

7
Instalación de Hadoop

Paso 4: No hacer cambios

8
Instalación de Hadoop

Paso 5: Aumentar espacio de disco a 30 GB

9
Instalación de Hadoop

Paso 6: Agregar etiqueta Name y valor


Hadoop

10
Instalación de Hadoop

Paso 7: Agregar grupo de seguridad con


nombre Hadoop. Además, agregar regla
All TCP, en source seleccionar Anywhere

11
Instalación de Hadoop

Paso 8: Luego de Launch Instance. Crear


en ventana emergente un nuevo Key pair.
Asigne como nombre Hadoop.
Posteriormente, descargue la nueva Key
Pair y Seleccione Launch Instance

12
Instalación de Hadoop

Paso 9: Una vez que la instancia este en


EJECUCION ( color verde), seleccione
Conectar

13
Instalación de Hadoop

Paso 10: Con los datos que se muestran,


abra una ventana CMD, ingrese a la
carpeta donde se descargó el archivo PEM
( Key Pair), luego ejecute el comando de
conexión SSH.

14
Instalación de Hadoop

Paso 11: Para este ejemplo es : ssh -i


"Hadoop.amazonaws. .pem"
ubuntu@ec2-54-152-5-223.compute-
1com

15
Instalación de Hadoop

Paso 12: Primero preparamos nuestra


nueva instancia para instalar Docker. El
primer paso es actualizar los paquetes de
instalación de UBUNTU.

16
Instalación de Hadoop

Paso 13: Una vez dentro de la instancia,


ejecute el comando: sudo apt update

17
Instalación de Hadoop

Paso 14: Luego proceda a ejecutar el


comando : sudo apt upgrade

18
Instalación de Hadoop

Paso 15: Ahora instalaremos Docker


Ejecute el siguiente comando para instalar
Docker en la nueva instancia
sudo apt-get install curl apt-transport-
https ca-certificates software-properties-
common

19
Instalación de Hadoop

Paso 16: resultado del comando.

20
Instalación de Hadoop

Paso 17: Luego ingrese : curl -fsSL


https://download.docker.com/linux/ubunt
u/gpg | sudo apt-key add –
Y a continuación ingresamos : sudo add-
apt-repository "deb [arch=amd64]
https://download.docker.com/linux/ubunt
u $(lsb_release -cs) stable"

21
Instalación de Hadoop

Paso 18: resultado del comando

22
Instalación de Hadoop

Paso 19: Nuevamente actualizamos: sudo


apt update
Y finalmente instalamos Docker con : sudo
apt install docker-ce

23
Instalación de Hadoop

Paso 20: Ejecutando el siguiente comando


se podrá visualizar que la instalación fue
correcta: sudo systemctl status Docker

Para salir de
esta vista
ejecute dos
puntos y luego
q.

24
Instalación de Hadoop

Paso 21: Ahora instalaremos Docker-


Compose
Para instalar Docker-Compose solo
debemos ejecutar el siguiente comando:
sudo curl -L
"https://github.com/docker/compose/rele
ases/download/1.26.0/docker-compose-$
(uname -s)-$(uname -m)" -o
/usr/local/bin/docker-compose
25
Instalación de Hadoop

Paso 22: Resultado del comando

26
Instalación de Hadoop

Paso 23: Luego otorgamos los permisos


necesario a Docker-compose con el
siguiente comando : sudo chmod +x
/usr/local/bin/docker-compose

27
Instalación de Hadoop

Paso 24: Instalando GIT

28
Instalación de Hadoop

Paso 25: Verificamos nuestra versión de git


instalada con el siguiente comando:
git –version

29
Uso de HDFS

30
Uso de HDFS

Visión General
En esta sección se mostrará como usar las opciones
básicas de los archivos en Hadoop.

Se va a utilizar Hadoop a través de la línea de comando que


proporciona Windows.

• Se va a formatear el nodo donde se trabajará con HDFS.


• Se van a levantar los servicios de Hadoop y específicamente Yarn.
• Se va a usar la interfaz Web de Hadoop para ver las aplicaciones
activas.
• Se va a crear una carpeta y un archivo usando comandos directos.
• Finalmente se va revisar lo creado usando un utilitario de Hadoop.
31
Uso de HDFS

Paso 1: Instalando Hadoop (Hadoop-Hive-


HDFS-Spark) Prime ro creamos un
directorio en nuestra instancia, dentro del
clonaremos un repositorio donde esta
almacenado un contenedor Docker que
nos proveerá de HDFS y otras cosas más.
Crear directorio con : mkdir hadoop
Luego ingresar a dicho directorio con:
cd hadoop
32
Uso de HDFS

Paso 1: resultado de los comandos

33
Uso de Hadoop

Paso 2: Una vez dentro, clonamos el contendor Docker


con el siguiente comando: git clone
https://github.com/m-semnani/bd-infra.git

34
Uso de Hadoop

Paso 3: Ingresamos al directorio bd-infra


con el comando cd

35
Uso de Hadoop

Paso 4: Finalmente ejecutamos el contenedor de


Hadoop con el siguiente comando:
docker-compose up -d

Con esto completamos


la instalación de Hadoop
– HDFS -Spark -Hive

36
Uso de Hadoop

Paso 5: Podemos comprobar la correcta ejecución de la


siguiente forma. En un browser ingresar a
http://localhots: <número de puerto>
Donde <número de puerto> puede ser:
50070 ( con esto visualizara el namenode)
8080 (Spark Master)
8081 (Spark Worker)
8888 (Hue. Se solicitará la creación de una cuenta. Ingrese
admin como usuario y admin como password)
18630 (StreamSets. Utilice admin / admin)
19090 (zeppelin)
37
Uso de Hadoop

Paso 6: Para Hive: Este producto no cuenta


con una interfaz web, para su ejecución
deberá ejecutar los siguientes comando en la
consola:
sudo docker exec -it hive-server bash

38
Uso de Hadoop

Paso 7: Luego ingrese al directorio donde


está alojado Hive, para esto deberá
ejecutar el comando:
cd /opt/hive/bin

39
Uso de Hadoop

Paso 8: Una vez dentro de dicho


directorio, ejecute Hive con el siguiente
comando: ./hive

40
Uso de Hadoop

Paso 9: Recuerde, si usted utilizó una


instancia AWS, deberá verificar cual es la
IP Pública de su máquina. Así deberá
reemplazar localhost por dicho número.

41
Uso de Hadoop

Paso 10: Para trabajar con HDFS, lo


primero que realizamos es la conexión con
el namenode. Para hacer esto deberá
ejecutar el siguiente comando en la
consola de su instancia:
sudo docker exec -it namenode bash

42
Uso de Hadoop

Paso 11: Luego podrá ejecutar su primer


comando en HDFS.
Para visualizar el contenido del namenode
escriba: hdfs dfs -ls /
Para crear un directorio
hdfs dfs -mkdir /prueba

43
Entonces … en resumen

¿Qué hemos aprendido?


¿Qué dudas quedaron?
¿Qué viene ahora?

44

También podría gustarte