Screenshots Desafío Ecosistema Hadoop LGB VF

Desafío – Ecosistema Hadoop – Screenshots - LGB
Data Science G12
Luis González Bannura
Julio 13, 2020

Inicialización de ambiente de trabajo
new_micro_putty started and running, clúster clonado y creado, máquinas EMR running ok
Nota: In inicié con una instancia , trabajé con instancias intermedias y terminé con otra, debido a que tuve varias sesiones de trabajo. En cada una de
ellas inicié y terminé el clúster, y realicé start y stop del new_micro_putty en la secuencia correcta.
Clúster ok
Instancia EMR creada y todos los sistemas localizados

Carga de los mapper_x.py y reducer_x.py desde mi pc al bucket s3://lagb56/mapreduce_d5

Ejercicio 1 - Carga de archivos en HDFS
Creación de directorio movielens-20m en HDFS, y carga de archivos desde bucket s3://bigdata-desafio/challenges/u3lec1/

a la carpeta /movielens-20m usando el comando s3-dist-cp
Muestra término ok de la copia de archivos desde bucket s3://bigdata-desafio/challenges/u3lec1/ a la carpeta

/movielens-20m usando el comando s3-dist-cp
Muestra el contenido de la carpeta /movielens-20m , listando los nombres de los archivos

Identifica el jar de streaming en mi máquina

Ejercicio 2 - Utilizando el archivo genome-scores.csv
Script mapper_1.py
Script reducer_1.py
Ejemplo de Implementación del mapper_1.py y reducer_1.py con una muestra pequeña del archivo genoma-scores.csv
Ejecución del streaming usando mapper_1.py y reducer_1.py con archivo genoma-scores.csv ubicado en la
carpeta /movielens-20m en HDFS
Término de la ejecución del streaming usando mapper_1.py y reducer_1.py con archivo genoma-scores.csv ubicado en
la carpeta /movielens-20m en HDFS
Muestra el rescate de los resultados desde la carpeta /result1 en HDFS creando archivo result1.txt en la carpeta /results en hadoop EMR
Ejercicio 3 - Utilizando el archivo ratings.csv
Script mapper_2.py
Script reducer_2.py
Ejemplo de Implementación del mapper_2.py y reducer_2.py con una muestra pequeña del archivo ratings.csv
Ejecución del streaming usando mapper_2.py y reducer_2.py con archivo ratings.csv ubicado en la
Término de la ejecución del streaming usando mapper_2.py y reducer_2.py con archivo ratings.csv ubicado en
Script mapper_3.py
Script reducer_3.py
Ejemplo de Implementación del mapper_3.py y reducer_3.py con una muestra pequeña del archivo ratings.csv
Ejecución del streaming usando mapper_3.py y reducer_3.py con archivo ratings.csv ubicado en la
Término de la ejecución del streaming usando mapper_3.py y reducer_3.py con archivo ratings.csv ubicado en
Ejercicio 5 - Utilizando el archivo movies.csv
Script mapper_4.py
Script reducer_4.py
Ejemplo de Implementación del mapper_4.py y reducer_4.py con una muestra pequeña del archivo movies.csv
Ejecución del streaming usando mapper_4.py y reducer_4.py con archivo movies.csv ubicado en la
Término de la ejecución del streaming usando mapper_4.py y reducer_4.py con archivo movies.csv ubicado en
(Opcional) Ejercicio 7 - Utilizando el archivo movies.csv
Script mapper_5.py
Script reducer_5.py
Ejemplo de Implementación del mapper_5.py y reducer_5.py con una muestra pequeña del archivo movies.csv
Ejecución del streaming usando mapper_5.py y reducer_5.py con archivo movies.csv ubicado en la
Término de la ejecución del streaming usando mapper_5.py y reducer_5.py con archivo movies.csv ubicado en
Ejercicio 6 - Descarga de resultados y eliminación de Instancia
Backup de archivos cargados en /movielens-20m
Contiene mapper_1.py, reducer_1.py, mapper_2.py, reducer_2.py, mapper_3.py, reducer_3.py, mapper_4.py, reducer_4.py, mapper_5.py y reducer_5.py
Contiene resultados provenientes de: m cat archivo.csv | Python mapper_x.py | sort –k1,1 | Python reducer_x.py > outx.txt
Contiene resultados de streaming provenientes de: hadoop jar /usr/lib/hadoop-mapreduce/hadoop-streaming-2.8.5-amzn-6.jar \
-file ./mapper_x.py -mapper ./mapper_x.py \
-file ./reducer_x.py -reducer ./reducer_x.py \
-input hdfs:///movielens-20m/archivo.csv \
-output /resultx
Carga de los resultados recuperados de streaming en la carpeta /results_d5 del bucket s3://lagb56
Nota: Los archivos .txt.crc los eliminé desde AWS Console

Generación de los outputs de aplicación directa en los ejercicios previos

Carga de los outputs de aplicación directa en la carpeta /outs_d5 del bucket s3://lagb56
Hechos públicas las carpetas data_d5, mapreduce_d5, outs_d5 y results_d5 en el bucket s3://lagb56 para este desafío
término del clúster AWS EMR
Terminadas las máquinas de AWS EMR y stopped new_micro_putty
Nota: In inicié con una instancia , trabajé con instancias intermedias y terminé con otra, debido a que tuve varias sesiones de trabajo. En cada una de ellas inicié y terminé el
clúster, y realicé start y stop del new_micro_putty en la secuencia correcta.
Cierre de sesión
Nota: In inicié con una instancia , trabajé con instancias intermedias y terminé con otra, debido a que tuve varias sesiones de trabajo. En cada una de ellas inicié y
terminé el clúster, y realicé start y stop del new_micro_putty en la secuencia correcta.
Sesión cerrada

Screenshots Desafío Ecosistema Hadoop LGB VF

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Screenshots Desafío Ecosistema Hadoop LGB VF

Cargado por

Copyright:

Formatos disponibles

Desafío – Ecosistema Hadoop – Screenshots - LGB

Data Science G12

Luis González Bannura

Julio 13, 2020

Instancia EMR creada y todos los sistemas localizados

Carga de los mapper_x.py y reducer_x.py desde mi pc al bucket s3://lagb56/mapreduce_d5

Creación de directorio movielens-20m en HDFS, y carga de archivos desde bucket s3://bigdata-desafio/challenges/u3lec1/

Muestra término ok de la copia de archivos desde bucket s3://bigdata-desafio/challenges/u3lec1/ a la carpeta

Muestra el contenido de la carpeta /movielens-20m , listando los nombres de los archivos

Identifica el jar de streaming en mi máquina

Backup de archivos cargados en /movielens-20m

Nota: Los archivos .txt.crc los eliminé desde AWS Console

Generación de los outputs de aplicación directa en los ejercicios previos

término del clúster AWS EMR

También podría gustarte