Está en la página 1de 26

Transporte público

Big Data

Alumnos:
Mirko Rozas
Jodan castañeda
Docente:
Guillermo pinto
Ramo:
Big data
28-06-2023
Contexto:
Trabajo a realizar:
Herramientas a utilizar:
Arquitectura del proyecto:
Modelo de base de datos:
Modelo de los datos históricos:
Modelo de los datos diarios
Desarrollo
Cuentas del servicio:
Permisos del proyecto:
Bucket:
Carpetas y objetos dentro del bucket:
Carga de archivos(ZIP):
Función activada:
Código de la función:
Permisos de la función:
Función activada:
Código de la función:
Permisos de la función:
Bigquery
Loocker
Cierre del trabajo:
Lecciones aprendidas:
Bibliografía:

1
Introducción
A continuación realizaremos el informe de big data donde daremos a conocer conocer
mediante este documento el paso a paso del trabajo realizado con los datos entregados al
equipo de trabajo, donde se verán documentados procesos como la arquitectura del trabajo
su modelo de base de datos y todo lo trabajo en google skills para la carga y transformación
y visualización de los datos trabajados.

Contexto:
El transporte público es esencial para permitir la movilidad de las personas en una ciudad.
Con el fin de planificar adecuadamente los viajes, es necesario tener conocimiento de los
recorridos, paradas, horarios y duración de los trayectos.
Se está desarrollando una plataforma de datos para recopilar información histórica sobre los
viajes. El objetivo es identificar la cantidad de transportes disponibles en cada uno de los
medios de transporte (autobuses, metro), determinar los horarios con mayor disponibilidad
de transporte en una zona específica y analizar las zonas que han experimentado la mayor
variabilidad en los recorridos, ya sea agregando o eliminando trayectos.

Trabajo a realizar:
El trabajo que realizaremos es obtener los datos del transporte público, que son datos
históricos así como diarios, los debemos cargar en la plataforma, luego realizar las
transformaciones necesarias a los datos, hacer un análisis para luego finalmente poder
visualizar estos datos ya trabajados.
En otras palabras los datos del transporte público ya sean los históricos que son tipo Zip y
los diarios que son datos estilo jason serán cargados en data storage, luego se hará un
procedimiento en data flow para luego trabajarlos con bigquery para por último poder
visualizarlos con looker.

Herramientas a utilizar:
Todo el trabajo realizado será a través de google skills, donde en esta herramienta
realizaremos todo el procedimiento y la visualización de los datos del transporte público ya
que esta herramienta nos ofrece todo lo necesario para el trabajo, bigquery , data storage,
data flow looker y demás.

2
Arquitectura del proyecto:
Esta es la arquitectura del trabajo realizado donde se puede ver el paso a paso de cómo
será el procedimiento que tendrán los datos a trabajar.

Modelo de base de datos:


Aquí podemos visualizar los modelos de base de datos que están presente en el trabajo a
que se realizó.

Modelo de los datos históricos:


A continuación podemos observar el modelo de base de datos de los datos históricos del
transporte público.

3
Modelo de los datos diarios:
Podemos observar el modelo de base de datos de los datos diarios del transporte público.

Desarrollo
En esta sección se dará a conocer el trabajo realizado en la plataforma google skills con el
paso a paso de lo realizado mediante screenshots y lo que se hizo en cada proceso para la
visualización del trabajo y corrección de ser necesario del trabajo realizado.

4
Cuenta de trabajo y permisos del proyecto:
En esta sección se visualizará el trabajo de la creación de la cuenta donde se llevará a cabo
el trabajo solicitado y los permisos presentes en el desarrollo del trabajo.

Cuentas del servicio:


Se muestra la creación de la cuenta de servicio que se usará para la realización del
proceso, se visualizará una comprobación de la cuenta creada con su respectiva clave.

Permisos del proyecto:


Aquí se dará a conocer los permisos que están presentes en el trabajo.

5
Creación del bucket del trabajo:
En esta sección se podrá visualizar el proceso de la creación del bucket donde se cargaran
todos los archivos entregados por el transporte público y se mostrará como se visualizaron
dentro de nuestro backet

Bucket:
Como se puede observar aquí está nuestro bucket creado que lleva por nombre
buckettransito y este es el bucket donde serán cargados todos los archivos a trabajar.

Carpetas y objetos dentro del bucket:


Así se podrán visualizar las carpetas dentro del bucket, esta pestaña muestra todas las
carpetas que son necesarias para el trabajo.

6
Carga de los archivos históricos:
Aquí se da a conocer el proceso de la carga de los archivos históricos del transporte
público, donde se mostrará cómo fueron cargados los archivos zip a una carpeta dentro del
bucket.

Comprimidos:
Los archivos zip que utilizaremos están comprimidos en una carpeta llamada comprimidos
dentro de nuestro bucket como se muestra a continuación.

Código de la función:
A continuación podemos apreciar el código utilizado dentro de la función con el cual
estamos trabajando la carga de los datos zip..

7
Descomprimidos:
Luego de que el proceso con la función es finalizado los archivos quedan en una nueva
carpeta llamada descomprimidos listos para usar en las consultas en bigquery.

8
Carga y trabajo de los archivos diarios:
Aquí se mostrará todo el proceso realizado para la carga de los archivos diarios(Json) y
cómo se trabajaron.

Código de la función:
A continuación podemos apreciar el código utilizado dentro de la función con el cual
estamos trabajando la carga de los datos diarios.

9
Descomprimidos Json:
Como se puede observar asi quedaron los documentos luego de finalizada la función,
quedaron todos sus archivos descomprimidos en su carpeta correspondiente.

10
Bigquery:
A continuación se podrá observar el trabajo realizado en bigquery para realizar las consultas
que luego serán visualizadas en loocker.

Tablas en bigquery:
Como se puede apreciar, así se ven las tablas que nosotros creamos en bigquery con los
datos zip históricos para luego hacer las consultas.

Consultas SQL:
Dejamos en evidencias las consultas que realizamos dentro de bigquery para responder las
preguntas dadas para investigar que se mostraran con su consulta correspondiente más
adelante.

11
Las consultas realizadas son en respuesta a las siguientes preguntas dadas las cuales son:
- Proporción de los días de la semana con más servicio:
Esta es la consulta realizada para poder responder esta pregunta.

12
- Ranking de los 10 servicios con mayor número de paradas:
Esta es la consulta realizada para poder responder esta pregunta.

13
- Identificar con nombre al menos 10 paradas con “subidas para sillas de
ruedas”:
Esta es la consulta realizada para poder responder esta pregunta.

14
- Servicios que realizan más viajes de ida:
Esta es la consulta realizada para poder responder esta pregunta.

15
- Servicios que realizan más viajes de vuelta:
Esta es la consulta realizada para poder responder esta pregunta.

16
- Identificar por mes, los 3 recorridos con más número de shape:
Esta es la consulta realizada para poder responder esta pregunta.

17
18
- Nombre-largo de al menos 3 rutas que realizaron viajes los días domingo del
mes de Enero del 2023:
Esta es la consulta realizada para poder responder esta pregunta.

19
Loocker:
A continuación se pueden ver las visualizaciones de las consultas realizadas en bigquery,
aquí se puede observar las visualizaciones que obtuvimos en loocker de las preguntas
trabajadas mencionadas anteriormente:
- Proporción de los días de la semana con más servicio:
Así es como se visualiza la consulta anteriormente realizada en looker.

20
- Ranking de los 10 servicios con mayor número de paradas:
Así es como se visualiza la consulta anteriormente realizada en looker.

- Identificar con nombre al menos 10 paradas con “subidas para sillas de


ruedas”:
Así es como se visualiza la consulta anteriormente realizada en looker.

21
- Servicios que realizan más viajes de ida:
Así es como se visualiza la consulta anteriormente realizada en looker.

- Servicios que realizan más viajes de vuelta:


Así es como se visualiza la consulta anteriormente realizada en looker.

22
- Identificar por mes, los 3 recorridos con más número de shape:
Así es como se visualiza la consulta anteriormente realizada en looker.

- Nombre-largo de al menos 3 rutas que realizaron viajes los días domingo del
mes de Enero del 2023:
Esta visualización no se puede mostrar ya que el mes de enero no presenta viaja los días
domingos por ende no se puede visualizar la respuesta a esta consulta.

- 1 Gráfico en Google Maps de los datos que estimen convenientes:

23
Así es como se visualiza la consulta anteriormente realizada en looker.

Conclusión:

Cierre del trabajo:


Como pudimos observar anteriormente todo lo realizado fue mediante códigos o comandos
en google skills, podemos concluir que este servicio que nos ofrece google es de mucha
ayuda y nos permite hacer todo de manera rápida y sin tanta dificultad, con esto ponemos
fin a nuestro desarrollo de este trabajo dejando pruebas de todo lo realizado.

Lecciones aprendidas:
Como grupo de trabajo llegamos a la conclusión que las lecciones aprendidas mediante
este trabajo es saber utilizar y manejar correctamente google skills para el trabajo de big
data, aprendimos a crear instancias y pudimos cargar los datos que luego debemos seguir
trabajando sin tanta dificultad.

Bibliografía:
- Para realizar la arquitectura
https://diagrams.mingrammer.com/docs/getting-started/examples

24
- Google skills
- Collab

25

También podría gustarte