2 2 2 PPT Uso HDFS en Docker

Big Data
BDY7101
Uso de HDFS
sobre un
contenedor Docker
2
Uso de HDFS
Visión General
En esta sección se mostrará como instalar “paso a
paso” el sistema de archivo HDFS en un contenedor
Docker.
CREANDO UNA MÁQUINA LINUX EN AWS E INSTALANDO

DOCKER
3
Instalación de Hadoop
Paso 1: Ingresar a la plataforma AWS y

seleccionar EC2
4
Paso 2: Lanzar la instancia
5
Paso 3: Seleccionar UBUNTU Server 20.04
6
Paso 3: Seleccionar 04 CPU y 16 GB De

memoria principal (Memory)
7
Paso 4: No hacer cambios
8
Paso 5: Aumentar espacio de disco a 30 GB
9
Paso 6: Agregar etiqueta Name y valor

Hadoop
10
Paso 7: Agregar grupo de seguridad con

nombre Hadoop. Además, agregar regla
All TCP, en source seleccionar Anywhere
11
Paso 8: Luego de Launch Instance. Crear

en ventana emergente un nuevo Key pair.
Asigne como nombre Hadoop.
Posteriormente, descargue la nueva Key
Pair y Seleccione Launch Instance
12
Paso 9: Una vez que la instancia este en

EJECUCION ( color verde), seleccione
Conectar
13
Paso 10: Con los datos que se muestran,

abra una ventana CMD, ingrese a la
carpeta donde se descargó el archivo PEM
( Key Pair), luego ejecute el comando de
conexión SSH.
14
Paso 11: Para este ejemplo es : ssh -i

"Hadoop.amazonaws. .pem"
ubuntu@ec2-54-152-5-223.compute-
1com
15
Paso 12: Primero preparamos nuestra

nueva instancia para instalar Docker. El
primer paso es actualizar los paquetes de
instalación de UBUNTU.
16
Paso 13: Una vez dentro de la instancia,

ejecute el comando: sudo apt update
17
Paso 14: Luego proceda a ejecutar el

comando : sudo apt upgrade
18
Paso 15: Ahora instalaremos Docker

Ejecute el siguiente comando para instalar
Docker en la nueva instancia
sudo apt-get install curl apt-transport-
https ca-certificates software-properties-
common
19
Paso 16: resultado del comando.
20
Paso 17: Luego ingrese : curl -fsSL

https://download.docker.com/linux/ubunt
u/gpg | sudo apt-key add –
Y a continuación ingresamos : sudo add-
apt-repository "deb [arch=amd64]
https://download.docker.com/linux/ubunt
u $(lsb_release -cs) stable"
21
Paso 18: resultado del comando
22
Paso 19: Nuevamente actualizamos: sudo

apt update
Y finalmente instalamos Docker con : sudo
apt install docker-ce
23
Paso 20: Ejecutando el siguiente comando

se podrá visualizar que la instalación fue
correcta: sudo systemctl status Docker
Para salir de
esta vista
ejecute dos
puntos y luego
q.
24
Paso 21: Ahora instalaremos Docker-

Compose
Para instalar Docker-Compose solo
debemos ejecutar el siguiente comando:
sudo curl -L
"https://github.com/docker/compose/rele
ases/download/1.26.0/docker-compose-$
(uname -s)-$(uname -m)" -o
/usr/local/bin/docker-compose
25
Paso 22: Resultado del comando
26
Paso 23: Luego otorgamos los permisos

necesario a Docker-compose con el
siguiente comando : sudo chmod +x
/usr/local/bin/docker-compose
27
Paso 24: Instalando GIT
28
Paso 25: Verificamos nuestra versión de git

instalada con el siguiente comando:
git –version
29
Uso de HDFS
30
Uso de HDFS
Visión General
En esta sección se mostrará como usar las opciones
básicas de los archivos en Hadoop.
Se va a utilizar Hadoop a través de la línea de comando que

proporciona Windows.
• Se va a formatear el nodo donde se trabajará con HDFS.

• Se van a levantar los servicios de Hadoop y específicamente Yarn.
• Se va a usar la interfaz Web de Hadoop para ver las aplicaciones
activas.
• Se va a crear una carpeta y un archivo usando comandos directos.
• Finalmente se va revisar lo creado usando un utilitario de Hadoop.
31
Uso de HDFS
Paso 1: Instalando Hadoop (Hadoop-Hive-

HDFS-Spark) Prime ro creamos un
directorio en nuestra instancia, dentro del
clonaremos un repositorio donde esta
almacenado un contenedor Docker que
nos proveerá de HDFS y otras cosas más.
Crear directorio con : mkdir hadoop
Luego ingresar a dicho directorio con:
cd hadoop
32
Uso de HDFS
Paso 1: resultado de los comandos
33
Uso de Hadoop
Paso 2: Una vez dentro, clonamos el contendor Docker

con el siguiente comando: git clone
https://github.com/m-semnani/bd-infra.git
34
Uso de Hadoop
Paso 3: Ingresamos al directorio bd-infra

con el comando cd
35
Uso de Hadoop
Paso 4: Finalmente ejecutamos el contenedor de

Hadoop con el siguiente comando:
docker-compose up -d
Con esto completamos

la instalación de Hadoop
– HDFS -Spark -Hive
36
Uso de Hadoop
Paso 5: Podemos comprobar la correcta ejecución de la

siguiente forma. En un browser ingresar a
http://localhots: <número de puerto>
Donde <número de puerto> puede ser:
50070 ( con esto visualizara el namenode)
8080 (Spark Master)
8081 (Spark Worker)
8888 (Hue. Se solicitará la creación de una cuenta. Ingrese
admin como usuario y admin como password)
18630 (StreamSets. Utilice admin / admin)
19090 (zeppelin)
37
Uso de Hadoop
Paso 6: Para Hive: Este producto no cuenta

con una interfaz web, para su ejecución
deberá ejecutar los siguientes comando en la
consola:
sudo docker exec -it hive-server bash
38
Uso de Hadoop
Paso 7: Luego ingrese al directorio donde

está alojado Hive, para esto deberá
ejecutar el comando:
cd /opt/hive/bin
39
Uso de Hadoop
Paso 8: Una vez dentro de dicho

directorio, ejecute Hive con el siguiente
comando: ./hive
40
Uso de Hadoop
Paso 9: Recuerde, si usted utilizó una

instancia AWS, deberá verificar cual es la
IP Pública de su máquina. Así deberá
reemplazar localhost por dicho número.
41
Uso de Hadoop
Paso 10: Para trabajar con HDFS, lo

primero que realizamos es la conexión con
el namenode. Para hacer esto deberá
ejecutar el siguiente comando en la
consola de su instancia:
sudo docker exec -it namenode bash
42
Uso de Hadoop
Paso 11: Luego podrá ejecutar su primer

comando en HDFS.
Para visualizar el contenido del namenode
escriba: hdfs dfs -ls /
Para crear un directorio
hdfs dfs -mkdir /prueba
43
Entonces … en resumen
¿Qué hemos aprendido?

¿Qué dudas quedaron?
¿Qué viene ahora?
44

2 2 2 PPT Uso HDFS en Docker

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

2 2 2 PPT Uso HDFS en Docker

Cargado por

Copyright:

Formatos disponibles

Big Data

CREANDO UNA MÁQUINA LINUX EN AWS E INSTALANDO

Paso 1: Ingresar a la plataforma AWS y

Paso 2: Lanzar la instancia

Paso 3: Seleccionar UBUNTU Server 20.04

Paso 3: Seleccionar 04 CPU y 16 GB De

Paso 4: No hacer cambios

Paso 5: Aumentar espacio de disco a 30 GB

Paso 6: Agregar etiqueta Name y valor

Paso 7: Agregar grupo de seguridad con

Paso 8: Luego de Launch Instance. Crear

Paso 9: Una vez que la instancia este en

Paso 10: Con los datos que se muestran,

Paso 11: Para este ejemplo es : ssh -i

Paso 12: Primero preparamos nuestra

Paso 13: Una vez dentro de la instancia,

Paso 14: Luego proceda a ejecutar el

Paso 15: Ahora instalaremos Docker

Paso 16: resultado del comando.

Paso 17: Luego ingrese : curl -fsSL

Paso 18: resultado del comando

Paso 19: Nuevamente actualizamos: sudo

Paso 20: Ejecutando el siguiente comando

Paso 21: Ahora instalaremos Docker-

Paso 22: Resultado del comando

Paso 23: Luego otorgamos los permisos

Paso 24: Instalando GIT

Paso 25: Verificamos nuestra versión de git

Se va a utilizar Hadoop a través de la línea de comando que

• Se va a formatear el nodo donde se trabajará con HDFS.

Paso 1: Instalando Hadoop (Hadoop-Hive-

Paso 1: resultado de los comandos

Paso 2: Una vez dentro, clonamos el contendor Docker

Paso 3: Ingresamos al directorio bd-infra

Paso 4: Finalmente ejecutamos el contenedor de

Con esto completamos

Paso 5: Podemos comprobar la correcta ejecución de la

Paso 6: Para Hive: Este producto no cuenta

Paso 7: Luego ingrese al directorio donde

Paso 8: Una vez dentro de dicho

Paso 9: Recuerde, si usted utilizó una

Paso 10: Para trabajar con HDFS, lo

Paso 11: Luego podrá ejecutar su primer

¿Qué hemos aprendido?

También podría gustarte