¡Te damos la bienvenida a Scribd!

Saltar el carrusel

Lab Cloud Dataproc - Submit Spark Job - Conexión Con Google Cloud Storage

Cargado por

Angie Montero

0% encontró este documento útil (0 votos)

5 vistas6 páginas

Derechos de autor

Formatos disponibles

PDF, TXT o lea en línea desde Scribd

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Denunciar este documento

Copyright:

Formatos disponibles

Descargue como PDF, TXT o lea en línea desde Scribd

Marcar por contenido inapropiado

0% encontró este documento útil (0 votos)

5 vistas6 páginas

Lab Cloud Dataproc - Submit Spark Job - Conexión Con Google Cloud Storage

Cargado por

Angie Montero

Copyright:

Formatos disponibles

Descargue como PDF, TXT o lea en línea desde Scribd

Marcar por contenido inapropiado

Saltar a página

Está en la página 1de 6

Buscar dentro del documento

Laboratorio # 2 GCP

Laren Osorio Toribio

losoriot@uni.pe

Objetivo
El objetivo de este laboratorio es lanzar un job en Spark empleando PySpark con línea de
comando en Cloud Shell sobre el cluster creado en Cloud Dataproc. Se emplea Cloud Storage
en lugar de HDFS como servicio de almacenamiento.

Requerimientos
● GCP Project
● Cloud Console
● Cloud Shell y Editor para realizar el submit del Pyspark Job
● Texto de Project Gutenberg

Procedimiento
1. Ir al servicio Cloud Storage

2. Crear un bucket en Cloud Storage. Como sugerencia utilizar el siguiente nombre:

cs_user_<nap>_tg

(*) Imagen referencial

Observación:
- Location Type: Region
- Location: Utilizar una región cercana al espacio geográfico en el que te
encuentras.
- Tipo de storage para tus datos: Utilizar el Storage del tipo Standard, el cual
es utilizado para almacenamiento de corta duración con mucha frecuencia de
uso

3. Ingresar al bucket y crear la carpeta llamada input . Hacer click en CREATE FOLDER
4. Ingresar a la carpeta input, click en UPLOAD FILES y subir el archivo
text_gutenberg.txt

5. Ir al servicio de Cloud Dataproc

6. Hacer click sobre el cluster creado en el Lab 1:

cluster-dp-<nombre_grupo>-<extension>

7. Hacer click en el botón Activar Cloud Shell

8. Cargará una pantalla en la parte inferior. Click en continuar

9. Al cargar click en el botón Abrir Editor

10. Cargará una pantalla en la parte superior.

11. Click en New Folder

12. Click en File → New File → Coloca el siguiente nombre: user_<nap>_word-count.py

13. Codificar lo siguiente:

#!/usr/bin/env python

'''
Cuenta la cantidad de palabras en un texto determinado usando Spark con
procesamiento
'''

import pyspark
import sys

if len(sys.argv) !=3:
raise Exception("2 argumentos son requeridos: <inputUri> <outputUri>")

inputUri=sys.argv[1]
outputUri=sys.argv[2]

sc=pyspark.SparkContext()
lines = sc.textFile(sys.argv[1])
words = lines.flatMap(lambda line: line.split())
wordCounts=words.map(lambda word:(word,1)).reduceByKey(lambda count1,count2:
count1+count2)
wordCounts.saveAsTextFile(sys.argv[2])
14. Click en File. Click en Save

15. Introducir el siguiente comando en la ventana negra de Cloud Shell

$ gcloud dataproc jobs submit pyspark user_<nap>_word-count.py
--cluster=cluster-dp-<nombre_grupo>_<extension> --region=<region> --
gs://cs_user_<nap>_tg/input/text_gutenberg.txt gs://cs_user_<nap>_tg/output/

$ gcloud dataproc jobs submit pyspark user_lot_word-count.py

--cluster=cluster-dp-g1-2 --region=us-east1 --
gs://cs_user_lot_tg/input/text_gutenberg.txt gs://cs_user_lot_tg/output/

(*) Guiarse de la imagen

16. Se puede revisar el estado de cada job. Hacer click en “Jobs” o Tareas. El color verde
indica que el proceso terminó con éxito.

17. Validar si los datos se encuentran en la carpeta output de Cloud Storage

cs_user_<nap>_tg/output
18. Se puede revisar en la misma consola de Cloud Shell con el comando gsutil seguido
de ls gs://
$ gsutil ls gs://cs_user_<nap>_tg/output

$ gsutil ls gs://cs_user_lot_tg/output

Observación:
Como se observa el resultado se encuentra particionado en dos archivos

19. Se puede unificar ambos archivos con los siguientes comandos:

$ gsutil cp gs://cs_user_<nap>_tg/output/* .

$ gsutil cp gs://cs_user_lot_tg/output/* .

$ cat part-00000 >> part-00001

20. Finalmente para ver el contenido del archivo unificado (part-00000) ingresar el
siguiente comando
$ cat part-00000 | sort -k 2

También podría gustarte

Entregable 2 Arquitectura de Lnformacion
Documento3 páginas
Entregable 2 Arquitectura de Lnformacion
MIGUEL GARCIA
Aún no hay calificaciones
Evaluación 00090
Documento3 páginas
Evaluación 00090
Javier Cerna
Aún no hay calificaciones
Academia BI Unidad 4
Documento15 páginas
Academia BI Unidad 4
Samuu González
25% (4)
Tutorial de Pentaho - Proceso ETL Con Spoon
Documento22 páginas
Tutorial de Pentaho - Proceso ETL Con Spoon
anoriaroca
Aún no hay calificaciones
Practica 8. Consultas en SQL F
Documento3 páginas
Practica 8. Consultas en SQL F
Ittza PeRez IbaÑez
Aún no hay calificaciones
Examen Capítulo 7 (RT)
Documento10 páginas
Examen Capítulo 7 (RT)
Santiago de la Esperanza
Aún no hay calificaciones
Taller Unidad No 2 Comunicaciones de Datos
Documento2 páginas
Taller Unidad No 2 Comunicaciones de Datos
Brandaca
Aún no hay calificaciones
Google GCP - Laboratorio DataProc PDF
Documento10 páginas
Google GCP - Laboratorio DataProc PDF
CHRISTIANALDABE
Aún no hay calificaciones
Lab Cloud Dataproc - Hadoop - Hive
Documento13 páginas
Lab Cloud Dataproc - Hadoop - Hive
Wilmer Cruz Torres
Aún no hay calificaciones
Analisis de Un Caso Ejemplo - Hermeco
Documento8 páginas
Analisis de Un Caso Ejemplo - Hermeco
Sonia Montero
Aún no hay calificaciones
Cronograma de Actividades Tic
Documento2 páginas
Cronograma de Actividades Tic
Chiquinquira Brizuela
Aún no hay calificaciones
Sistema de Gestion de Un Almacen
Documento3 páginas
Sistema de Gestion de Un Almacen
Gustavo Cardozo
Aún no hay calificaciones
Guía Programación Poo
Documento5 páginas
Guía Programación Poo
CARLOS EDUARDO CONTRERAS MENDOZA
Aún no hay calificaciones
Chat Con WebSocket
Documento3 páginas
Chat Con WebSocket
Cesar Guadalupe Milla
Aún no hay calificaciones
Ejercicios Pentahoo Resueltos
Documento4 páginas
Ejercicios Pentahoo Resueltos
ojsegura2
Aún no hay calificaciones
Cloud GCP
Documento5 páginas
Cloud GCP
Gustavo Jimenez
Aún no hay calificaciones
Taller Poo
Documento12 páginas
Taller Poo
Geovanna Melendez
Aún no hay calificaciones
1 Reglas para Administrar El Product Backlog en Scrum
Documento2 páginas
1 Reglas para Administrar El Product Backlog en Scrum
Daniel Odella
Aún no hay calificaciones
Cognos - Dashboard - Embedded TAREA1
Documento6 páginas
Cognos - Dashboard - Embedded TAREA1
Cristhian Orellana
Aún no hay calificaciones
Configuracion Hadoop Con Virtualbox
Documento9 páginas
Configuracion Hadoop Con Virtualbox
ESTEFANIA URIBE GAVIRIA
Aún no hay calificaciones
Data Science Platzi 3
Documento6 páginas
Data Science Platzi 3
Nicolás Vrancovich
Aún no hay calificaciones
Project - Encuentro Final
Documento21 páginas
Project - Encuentro Final
Monica Rodriguez
Aún no hay calificaciones
Laboratorio 05
Documento5 páginas
Laboratorio 05
Andrea Fernandez
Aún no hay calificaciones
04 Modelo de Procesos de Inteligencia de Negocios
Documento7 páginas
04 Modelo de Procesos de Inteligencia de Negocios
Ochoa Martinez Juan C
Aún no hay calificaciones
Proyecto Final Elpidio Presentacion Videos
Documento18 páginas
Proyecto Final Elpidio Presentacion Videos
Chema Delgado
Aún no hay calificaciones
LECCION 1 SSIS Tutorial - By: Alva Acosta Hardy Andy
Documento85 páginas
LECCION 1 SSIS Tutorial - By: Alva Acosta Hardy Andy
Andy Alva Acosta
Aún no hay calificaciones
Cómo Construir Un Datawarehouse
Documento20 páginas
Cómo Construir Un Datawarehouse
ssamael
Aún no hay calificaciones
Proyecto Profesionalización de Infraestructura de Sistemas
Documento21 páginas
Proyecto Profesionalización de Infraestructura de Sistemas
Erick Salvatore Hernandez
Aún no hay calificaciones
S e M A N A 7
Documento8 páginas
S e M A N A 7
Luis Antonio Diaz Rosales
Aún no hay calificaciones
TRabajo Final - Big Data y Machine Learning
Documento6 páginas
TRabajo Final - Big Data y Machine Learning
Paolo Villanueva
0% (1)
Propuesta Comercial GCP - 2018 G1924 SETSA
Documento9 páginas
Propuesta Comercial GCP - 2018 G1924 SETSA
nohecastellanos
100% (1)
Eliminar Tarjetas de RED Linux
Documento3 páginas
Eliminar Tarjetas de RED Linux
Walter Cisneros Enciso
Aún no hay calificaciones
Introd Flexsim 1
Documento4 páginas
Introd Flexsim 1
cacarrascal8
Aún no hay calificaciones
Guia09 Laravel PrimeraAplicación
Documento8 páginas
Guia09 Laravel PrimeraAplicación
Nohemi Salce
Aún no hay calificaciones
Guia Practicas PowerDesigner
Documento0 páginas
Guia Practicas PowerDesigner
Max Santiago
Aún no hay calificaciones
Vázquez, Gabriel Clasificador Con Redes Neuronales para El Pronostico de La Enfermedad Renal Cronica
Documento105 páginas
Vázquez, Gabriel Clasificador Con Redes Neuronales para El Pronostico de La Enfermedad Renal Cronica
Mario Guillèn
Aún no hay calificaciones
Proceso Etl
Documento16 páginas
Proceso Etl
Franklin Antolin Ricaldi Castro
Aún no hay calificaciones
Jaspersoft Análisis
Documento10 páginas
Jaspersoft Análisis
Lixbeth Chan
Aún no hay calificaciones
Ev3 - Abd - Egg
Documento21 páginas
Ev3 - Abd - Egg
edgar gonzalez
Aún no hay calificaciones
Data Driven, Data Goverment and Data Science
Documento44 páginas
Data Driven, Data Goverment and Data Science
Santiago Herrera Acosta
Aún no hay calificaciones
Metodologias Agiles para El Desarrollo de Software
Documento61 páginas
Metodologias Agiles para El Desarrollo de Software
Jhonatan Cerna Valverde
Aún no hay calificaciones
Formato Cronograma Del Proyecto Actualizacion Modulo de Caja
Documento4 páginas
Formato Cronograma Del Proyecto Actualizacion Modulo de Caja
Shirly Jaimes
Aún no hay calificaciones
Taller de Busqueda Bibliografica Con Google Academico Busqueda de Libros de Google y CiteSeer
Documento6 páginas
Taller de Busqueda Bibliografica Con Google Academico Busqueda de Libros de Google y CiteSeer
kaferpima2526
Aún no hay calificaciones
Seeder y Query Builder
Documento7 páginas
Seeder y Query Builder
David Mueses
Aún no hay calificaciones
Prueba Parcial N°1 - PBD3301
Documento4 páginas
Prueba Parcial N°1 - PBD3301
Couzy Ness
100% (1)
Trabajo Final Big Data
Documento15 páginas
Trabajo Final Big Data
Angie Montero
Aún no hay calificaciones
Buenasprcticas 120207123334 Phpapp02
Documento74 páginas
Buenasprcticas 120207123334 Phpapp02
Marco Antonio Letelier
Aún no hay calificaciones
Tema 3 Funciones Almacenadas
Documento14 páginas
Tema 3 Funciones Almacenadas
Cristopher Sanzana
Aún no hay calificaciones
Alimex
Documento10 páginas
Alimex
Jose Luis Bermudez Torrado
Aún no hay calificaciones
Proyecto Metodologia Crisp
Documento30 páginas
Proyecto Metodologia Crisp
AlexitoPakMasAlvaradoCastillo
Aún no hay calificaciones
Cotizacion Servidor
Documento2 páginas
Cotizacion Servidor
john ovalle
Aún no hay calificaciones
Backups y Su Restauración en SQL Server
Documento17 páginas
Backups y Su Restauración en SQL Server
Elias Rivera
Aún no hay calificaciones
Class 02. Intelligent - Agents
Documento69 páginas
Class 02. Intelligent - Agents
Samir Harry Huamán Patricio
Aún no hay calificaciones
Modelado de Negocio
Documento15 páginas
Modelado de Negocio
Juditte Perez
Aún no hay calificaciones
Anexo 2 Actividades de Aprendizaje 4 Analisis y Diseno de Sistema de Informacion
Documento7 páginas
Anexo 2 Actividades de Aprendizaje 4 Analisis y Diseno de Sistema de Informacion
ERIKA PULIDO
Aún no hay calificaciones
Sistema de Informacion para Empresa Alquiler de Vehiculo Rentacar
Documento15 páginas
Sistema de Informacion para Empresa Alquiler de Vehiculo Rentacar
jvtoro
Aún no hay calificaciones
Metodologia Del Rad
Documento4 páginas
Metodologia Del Rad
Poulsen Guerrero
Aún no hay calificaciones
Solemne N°1
Documento3 páginas
Solemne N°1
Cok3_93
Aún no hay calificaciones
Limpieza de Datos Con Open Refine PDF
Documento40 páginas
Limpieza de Datos Con Open Refine PDF
Rodrigo Córdova
Aún no hay calificaciones
Ejercicios Operaciones II
Documento4 páginas
Ejercicios Operaciones II
AnthonyChilán
50% (2)
Ejercicios Spark Ejercicios BIT - SOLUCIONES
Documento24 páginas
Ejercicios Spark Ejercicios BIT - SOLUCIONES
Deogracias Plaud
Aún no hay calificaciones
Practica de Openldap
Documento4 páginas
Practica de Openldap
Daniel Amador Diego
Aún no hay calificaciones
Sesion 1 - Conceptos Previos de Big Data
Documento43 páginas
Sesion 1 - Conceptos Previos de Big Data
Angie Montero
Aún no hay calificaciones
Trabajo Final Big Data
Documento15 páginas
Trabajo Final Big Data
Angie Montero
Aún no hay calificaciones
Lectura Crítica - Millennial II (García Pimentel, 2016)
Documento2 páginas
Lectura Crítica - Millennial II (García Pimentel, 2016)
Angie Montero
Aún no hay calificaciones
Taf - Equilibrio y Elasticidad
Documento2 páginas
Taf - Equilibrio y Elasticidad
Angie Montero
Aún no hay calificaciones
Revista Moneda 133 - China VS India BCRP
Documento6 páginas
Revista Moneda 133 - China VS India BCRP
Angie Montero
Aún no hay calificaciones
Grupo 9 - Caso Lejias Peach
Documento8 páginas
Grupo 9 - Caso Lejias Peach
Angie Montero
Aún no hay calificaciones
La Corrup Desde Una Mente Joven Un Enfoque Diferente
Documento82 páginas
La Corrup Desde Una Mente Joven Un Enfoque Diferente
Pedro Cristhian Ramirez Sacedo
Aún no hay calificaciones
Caso Kodak
Documento2 páginas
Caso Kodak
Angie Montero
100% (2)
Corrupcion PB
Documento15 páginas
Corrupcion PB
Angie Montero
Aún no hay calificaciones
Sunil Gupta: Liderar en La Era de La Disrupción
Documento6 páginas
Sunil Gupta: Liderar en La Era de La Disrupción
Angie Montero
Aún no hay calificaciones
Grupo 9 - Caso Chinchero
Documento4 páginas
Grupo 9 - Caso Chinchero
Angie Montero
Aún no hay calificaciones
Datasheet GRP2616 Spanish
Documento2 páginas
Datasheet GRP2616 Spanish
nineteam
Aún no hay calificaciones
Proyecto Cloud
Documento19 páginas
Proyecto Cloud
sergio luyo
Aún no hay calificaciones
Protocolo OSPF
Documento27 páginas
Protocolo OSPF
Alias Rober
Aún no hay calificaciones
Taller 17. Packet Tracer - Design and Implement A VLSM Addressing Scheme
Documento2 páginas
Taller 17. Packet Tracer - Design and Implement A VLSM Addressing Scheme
Jose David Martinez Guayabo
Aún no hay calificaciones
Procesos: ¿Qué Es Un Proceso?
Documento27 páginas
Procesos: ¿Qué Es Un Proceso?
David Abdala
Aún no hay calificaciones
EWAN Lab 3 5 1
Documento25 páginas
EWAN Lab 3 5 1
Raul Gomez
Aún no hay calificaciones
NAT para IPv4
Documento34 páginas
NAT para IPv4
Tony Ordoñez
Aún no hay calificaciones
VOIP GATEWAY Modelo Roip-102 T.en - Es
Documento21 páginas
VOIP GATEWAY Modelo Roip-102 T.en - Es
Roque Leon
Aún no hay calificaciones
Calidad de Servicio
Documento31 páginas
Calidad de Servicio
mcajasii mcajasii
Aún no hay calificaciones
Presentación Grupo UMG
Documento5 páginas
Presentación Grupo UMG
Julio Nicolas Lopez Aldana
Aún no hay calificaciones
LABO5-91G-Telemática-Alumnos-Olortegui Manzur - y - Loayza Diaz
Documento6 páginas
LABO5-91G-Telemática-Alumnos-Olortegui Manzur - y - Loayza Diaz
Oskar Olortegui
Aún no hay calificaciones
6.2.3.8 Lab - Configuring Multiarea OSPFv2.
Documento14 páginas
6.2.3.8 Lab - Configuring Multiarea OSPFv2.
Aide Yasmin Daza Dorado
Aún no hay calificaciones
Redes Clase TCP Udp 2010-I I
Documento150 páginas
Redes Clase TCP Udp 2010-I I
Robert Puican Gutierrez
100% (1)
Como Detectar y Bloquear Un Intruso de Wifi TP Link Adsl TD
Documento1 página
Como Detectar y Bloquear Un Intruso de Wifi TP Link Adsl TD
juanjo47
Aún no hay calificaciones
Formato Solicitud VPN SiteToSite
Documento4 páginas
Formato Solicitud VPN SiteToSite
Luis Enrique Reyes
Aún no hay calificaciones
Ipv4 Calculadora Vs Metodo Maual
Documento3 páginas
Ipv4 Calculadora Vs Metodo Maual
Lizandra Flores
Aún no hay calificaciones
Práctica#2 Repaso-De-Enrutamiento-Estático PDF
Documento18 páginas
Práctica#2 Repaso-De-Enrutamiento-Estático PDF
LuisChacon
Aún no hay calificaciones
Dnssec Nicbo Descripcion Final
Documento37 páginas
Dnssec Nicbo Descripcion Final
jdka suburbio
Aún no hay calificaciones
Enrutamiento Jerárquico
Documento11 páginas
Enrutamiento Jerárquico
Israel Jmp
Aún no hay calificaciones
Usb AmigoCa85 Manual
Documento17 páginas
Usb AmigoCa85 Manual
Ignacio Rodriguez
Aún no hay calificaciones
Cloud Computing Presentacion
Documento31 páginas
Cloud Computing Presentacion
Manuel Gonzales Fernandez
Aún no hay calificaciones
Certificación Punto de Control Examen #2 (Capítulos 5 - 6)
Documento15 páginas
Certificación Punto de Control Examen #2 (Capítulos 5 - 6)
Jesus Espada Flores
Aún no hay calificaciones
Configuración de Un Servidor de Alta Disponibilidad Con Ubuntu Server
Documento36 páginas
Configuración de Un Servidor de Alta Disponibilidad Con Ubuntu Server
Fabián Acosta
Aún no hay calificaciones
Calidad de Servicios en Redes IP
Documento5 páginas
Calidad de Servicios en Redes IP
Cesar Muro
Aún no hay calificaciones
14.3.5 Packet Tracer - Basic Router Configuration Review
Documento11 páginas
14.3.5 Packet Tracer - Basic Router Configuration Review
engellenin31
Aún no hay calificaciones
Manual DHCP PDF
Documento10 páginas
Manual DHCP PDF
eduard_perdomo_1
Aún no hay calificaciones
7.4.1.2 Packet Tracer - Skills Integration Challenge Instructions
Documento2 páginas
7.4.1.2 Packet Tracer - Skills Integration Challenge Instructions
Charlis Rolos
Aún no hay calificaciones
Esquemas y Componentes de Una Red IPV6
Documento2 páginas
Esquemas y Componentes de Una Red IPV6
Leonardo Mg
Aún no hay calificaciones