Está en la página 1de 48

Desafío – Ecosistema Hadoop – Screenshots - LGB

Data Science G12

Luis González Bannura

Julio 13, 2020


Inicialización de ambiente de trabajo

new_micro_putty started and running, clúster clonado y creado, máquinas EMR running ok

Nota: In inicié con una instancia , trabajé con instancias intermedias y terminé con otra, debido a que tuve varias sesiones de trabajo. En cada una de
ellas inicié y terminé el clúster, y realicé start y stop del new_micro_putty en la secuencia correcta.
Inicialización de ambiente de trabajo

Clúster ok

Nota: In inicié con una instancia , trabajé con instancias intermedias y terminé con otra, debido a que tuve varias sesiones de trabajo. En cada una de
ellas inicié y terminé el clúster, y realicé start y stop del new_micro_putty en la secuencia correcta.
Inicialización de ambiente de trabajo

Instancia EMR creada y todos los sistemas localizados


Inicialización de ambiente de trabajo

Carga de los mapper_x.py y reducer_x.py desde mi pc al bucket s3://lagb56/mapreduce_d5


Ejercicio 1 - Carga de archivos en HDFS

Creación de directorio movielens-20m en HDFS, y carga de archivos desde bucket s3://bigdata-desafio/challenges/u3lec1/


a la carpeta /movielens-20m usando el comando s3-dist-cp
Ejercicio 1 - Carga de archivos en HDFS

Muestra término ok de la copia de archivos desde bucket s3://bigdata-desafio/challenges/u3lec1/ a la carpeta


/movielens-20m usando el comando s3-dist-cp
Ejercicio 1 - Carga de archivos en HDFS

Muestra el contenido de la carpeta /movielens-20m , listando los nombres de los archivos


Ejercicio 1 - Carga de archivos en HDFS

Identifica el jar de streaming en mi máquina


Ejercicio 2 - Utilizando el archivo genome-scores.csv

Script mapper_1.py
Ejercicio 2 - Utilizando el archivo genome-scores.csv

Script reducer_1.py
Ejercicio 2 - Utilizando el archivo genome-scores.csv

Ejemplo de Implementación del mapper_1.py y reducer_1.py con una muestra pequeña del archivo genoma-scores.csv
Ejercicio 2 - Utilizando el archivo genome-scores.csv

Ejecución del streaming usando mapper_1.py y reducer_1.py con archivo genoma-scores.csv ubicado en la
carpeta /movielens-20m en HDFS
Ejercicio 2 - Utilizando el archivo genome-scores.csv

Término de la ejecución del streaming usando mapper_1.py y reducer_1.py con archivo genoma-scores.csv ubicado en
la carpeta /movielens-20m en HDFS
Ejercicio 2 - Utilizando el archivo genome-scores.csv

Muestra el rescate de los resultados desde la carpeta /result1 en HDFS creando archivo result1.txt en la carpeta /results en hadoop EMR
Ejercicio 3 - Utilizando el archivo ratings.csv

Script mapper_2.py
Ejercicio 3 - Utilizando el archivo ratings.csv

Script reducer_2.py
Ejercicio 3 - Utilizando el archivo ratings.csv

Ejemplo de Implementación del mapper_2.py y reducer_2.py con una muestra pequeña del archivo ratings.csv
Ejercicio 3 - Utilizando el archivo ratings.csv

Ejecución del streaming usando mapper_2.py y reducer_2.py con archivo ratings.csv ubicado en la
carpeta /movielens-20m en HDFS
Ejercicio 3 - Utilizando el archivo ratings.csv

Término de la ejecución del streaming usando mapper_2.py y reducer_2.py con archivo ratings.csv ubicado en
la carpeta /movielens-20m en HDFS
Ejercicio 3 - Utilizando el archivo ratings.csv

Muestra el rescate de los resultados desde la carpeta /result2 en HDFS creando archivo result2.txt en la carpeta /results en hadoop EMR
Ejercicio 4 - Utilizando el archivo ratings.csv

Script mapper_3.py
Ejercicio 4 - Utilizando el archivo ratings.csv

Script reducer_3.py
Ejercicio 4 - Utilizando el archivo ratings.csv

Ejemplo de Implementación del mapper_3.py y reducer_3.py con una muestra pequeña del archivo ratings.csv
Ejercicio 4 - Utilizando el archivo ratings.csv

Ejecución del streaming usando mapper_3.py y reducer_3.py con archivo ratings.csv ubicado en la
carpeta /movielens-20m en HDFS
Ejercicio 4 - Utilizando el archivo ratings.csv

Término de la ejecución del streaming usando mapper_3.py y reducer_3.py con archivo ratings.csv ubicado en
la carpeta /movielens-20m en HDFS
Ejercicio 4 - Utilizando el archivo ratings.csv

Muestra el rescate de los resultados desde la carpeta /result3 en HDFS creando archivo result3.txt en la carpeta /results en hadoop EMR
Ejercicio 5 - Utilizando el archivo movies.csv

Script mapper_4.py
Ejercicio 5 - Utilizando el archivo movies.csv

Script reducer_4.py
Ejercicio 5 - Utilizando el archivo movies.csv

Ejemplo de Implementación del mapper_4.py y reducer_4.py con una muestra pequeña del archivo movies.csv
Ejercicio 5 - Utilizando el archivo movies.csv

Ejecución del streaming usando mapper_4.py y reducer_4.py con archivo movies.csv ubicado en la
carpeta /movielens-20m en HDFS
Ejercicio 5 - Utilizando el archivo movies.csv

Término de la ejecución del streaming usando mapper_4.py y reducer_4.py con archivo movies.csv ubicado en
la carpeta /movielens-20m en HDFS
Ejercicio 5 - Utilizando el archivo movies.csv

Muestra el rescate de los resultados desde la carpeta /result4 en HDFS creando archivo result4.txt en la carpeta /results en hadoop EMR
(Opcional) Ejercicio 7 - Utilizando el archivo movies.csv

Script mapper_5.py
(Opcional) Ejercicio 7 - Utilizando el archivo movies.csv

Script reducer_5.py
(Opcional) Ejercicio 7 - Utilizando el archivo movies.csv

Ejemplo de Implementación del mapper_5.py y reducer_5.py con una muestra pequeña del archivo movies.csv
(Opcional) Ejercicio 7 - Utilizando el archivo movies.csv

Ejecución del streaming usando mapper_5.py y reducer_5.py con archivo movies.csv ubicado en la
carpeta /movielens-20m en HDFS
(Opcional) Ejercicio 7 - Utilizando el archivo movies.csv

Término de la ejecución del streaming usando mapper_5.py y reducer_5.py con archivo movies.csv ubicado en
la carpeta /movielens-20m en HDFS
(Opcional) Ejercicio 7 - Utilizando el archivo movies.csv

Muestra el rescate de los resultados desde la carpeta /result5 en HDFS creando archivo result5.txt en la carpeta /results en hadoop EMR
Ejercicio 6 - Descarga de resultados y eliminación de Instancia

Backup de archivos cargados en /movielens-20m

Contiene mapper_1.py, reducer_1.py, mapper_2.py, reducer_2.py, mapper_3.py, reducer_3.py, mapper_4.py, reducer_4.py, mapper_5.py y reducer_5.py
Contiene resultados provenientes de: m cat archivo.csv | Python mapper_x.py | sort –k1,1 | Python reducer_x.py > outx.txt
Contiene resultados de streaming provenientes de: hadoop jar /usr/lib/hadoop-mapreduce/hadoop-streaming-2.8.5-amzn-6.jar \
-file ./mapper_x.py -mapper ./mapper_x.py \
-file ./reducer_x.py -reducer ./reducer_x.py \
-input hdfs:///movielens-20m/archivo.csv \
-output /resultx
Ejercicio 6 - Descarga de resultados y eliminación de Instancia

Carga de los resultados recuperados de streaming en la carpeta /results_d5 del bucket s3://lagb56

Nota: Los archivos .txt.crc los eliminé desde AWS Console


Ejercicio 6 - Descarga de resultados y eliminación de Instancia

Generación de los outputs de aplicación directa en los ejercicios previos


Ejercicio 6 - Descarga de resultados y eliminación de Instancia

Carga de los outputs de aplicación directa en la carpeta /outs_d5 del bucket s3://lagb56
Ejercicio 6 - Descarga de resultados y eliminación de Instancia

Hechos públicas las carpetas data_d5, mapreduce_d5, outs_d5 y results_d5 en el bucket s3://lagb56 para este desafío
Ejercicio 6 - Descarga de resultados y eliminación de Instancia

término del clúster AWS EMR

Nota: In inicié con una instancia , trabajé con instancias intermedias y terminé con otra, debido a que tuve varias sesiones de trabajo. En cada una de
ellas inicié y terminé el clúster, y realicé start y stop del new_micro_putty en la secuencia correcta.
Ejercicio 6 - Descarga de resultados y eliminación de Instancia
Terminadas las máquinas de AWS EMR y stopped new_micro_putty

Nota: In inicié con una instancia , trabajé con instancias intermedias y terminé con otra, debido a que tuve varias sesiones de trabajo. En cada una de ellas inicié y terminé el
clúster, y realicé start y stop del new_micro_putty en la secuencia correcta.
Ejercicio 6 - Descarga de resultados y eliminación de Instancia

Cierre de sesión

Nota: In inicié con una instancia , trabajé con instancias intermedias y terminé con otra, debido a que tuve varias sesiones de trabajo. En cada una de ellas inicié y
terminé el clúster, y realicé start y stop del new_micro_putty en la secuencia correcta.
Ejercicio 6 - Descarga de resultados y eliminación de Instancia

Sesión cerrada

También podría gustarte