0% encontró este documento útil (0 votos)
86 vistas79 páginas

ApacheSpark-Virtualbox Ubuntu Docker

Este documento describe los pasos para configurar un clúster de Apache Spark usando contenedores Docker en Ubuntu. Explica cómo instalar Ubuntu, Docker y Apache Spark, y cómo crear nodos maestro y esclavos para formar un clúster distribuido de Spark capaz de ejecutar código Python.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
86 vistas79 páginas

ApacheSpark-Virtualbox Ubuntu Docker

Este documento describe los pasos para configurar un clúster de Apache Spark usando contenedores Docker en Ubuntu. Explica cómo instalar Ubuntu, Docker y Apache Spark, y cómo crear nodos maestro y esclavos para formar un clúster distribuido de Spark capaz de ejecutar código Python.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Apache Spark

[VirtualBox+Ubuntu+Docker]
Guillermo Pizarro, gpizarro@ieee.org
Contenido
• Configuración de la máquina virtual VirtualBox.
• Instalación de Ubuntu Desktop 22.04.
• Instalación y configuración de Docker.
• Instalación y configuración del Apache Spark – Clúster.
• Ejercicio práctico.
Configuración de la
Máquina Virtual VirtualBox
Apache Spark
https://ubuntu.com/download/desktop
Configuración de la
Máquina Virtual
Apache Spark
Instalación y configuración de
Docker
Apache Spark
Instalación y configuración de
Apache Spark - Clúster
Apache Spark
Se crea el contenedor en Docker con el S.O. en
GNU/Linux en la distribución de Ubuntu, con
los siguientes parámetros:
-it → modo interactivo para trabajar con la
consola directamente.
--rm → para que se elimine el contenedor una
vez que se pare.
--memory → la memoria RAM máxima
asignada.
--cpus → número de procesadores a trabajar
con el contenedor.
Se crea una variable de entorno para que no
permita interacción; es decir, no pregunte a
cada momento al usuario que utilice el S.O. por
cada acción a realizar.
Se actualizan los paquetes del S.O.
Se instala el JDK de Java.
Se instala Python.
Se instala el editor de texto en consola nano.
Se crea otro contenedor con el S.O. GNU/Linux
en su distribución de Ubuntu.
Luego, se debe instalar los
siguientes paquetes (como en el
anterior contenedor):

apt install -y openjdk-8-jre


apt install -y python3
apt install -y nano
Desde el S.O. principal, donde se están
creando los contenedores se deben descargar
los archivos listenings.csv y genre.csv.
Descargar los archivos desde el Google Drive,
proporcionado en clases.
https://spark.apache.org/downloads.html
Copiar los archivos genre.csv, listenings.csv y
el directorio spark-3.3.0-bin-hadoop3 en los
contenedores recientemente creados, en la
carpeta /opt
Se verifica en el contenedor los archivos
copiados.
Se verifica en el contenedor los archivos
copiados.
Se levanta un servicio de Apache Spark como
Nodo maestro, en uno de los contenedores.
Se puede acceder http://172.17.0.3:8080/ para
verificar que el servicio se encuentra
levantado.
Se levanta un servicio de Apache Spark como
nodo esclavo, en uno de los contenedores,
direccionándolo hacia el nodo maestro.
Se puede visualizar el nodo esclavo que tiene
trabajando el nodo maestro.
Apache Spark – Clúster
Ejercicio
Apache Spark
Se puede ejecutar código en Python desde un
nodo esclavo.
Desde consola
• Se puede trabajar
desde consola, pero
en el nodo esclavo;
como ya se ha
hecho en otras
ocasiones (en una
instalación tipo
standalone).
Referencias Bibliográficas
• https://www.albertcoronado.com/2021/05/19/formacion-apache-
spark-como-montar-un-cluster-de-apache-spark/
• https://cloudcone.com/docs/article/how-to-install-docker-on-
ubuntu-22-04-20-04/
• https://www.youtube.com/watch?v=zm_bNxATuH0&t=270s

También podría gustarte