Está en la página 1de 15

ENTREGA DE PROYECTO FINAL

Data Analytics – Camada 18545

Grupo:
▪ Pamela Santillán
▪ Pablo Sebastián Calello
Profesora:
▪ Rebeca Figueroa Soriano
Tutor:
▪ Norberto Leonel González

ÍNDICE
Descripción de la temática de los datos alineada con objetivos SMART________________________Pág. 2

Diagrama entidad-relación de las tablas seleccionadas con PK y FK _________________________Pág. 3

Listado de tablas, con definición de clave primaria y/o clave foránea, según corresponda___________Pág.4

Listado de columnas por tablas, con definiciones de tipos de datos con límites de caracteres_________Pág.5

Transformación de datos_______________________________________________________________Pág. 6

Análisis Funcional del tablero_____________________________________________________Pág. 7

Medidas Calculadas____________________________________________________________Pág. 10

Armado del Mockup_____________________________________________________________Pág. 12

pág. 1
Descripción de la temática de los datos alineada con objetivos
SMART.

El presente trabajo, parte integrante de la segunda entrega del proyecto final para el curso “Data
Analytics” de Coder House, se basa en datos obtenidos de la página del Gobierno de la Ciudad
de Buenos Aires sobre encuestas realizadas a habitantes del distrito, divididos en las comunas
que forman parte de dicho territorio. El objetivo principal de esta base de datos es conocer y
analizar la situación socioeconómica, demográfica y educacional de la población mayor de 16 años
de la ciudad para los años 2015, 2017 y 2019.

Tras una depuración de los datos obtenidos, seleccionamos los que, a nuestro parecer, resultan
más interesantes para este análisis. Las variables de Ingresos (tanto laborales cómo no laborales)
de los más de 35.000 encuestados nos permitirá ver el nivel económico de dicha población. Y
otras variables, como la edad, sexo, situación laboral, nivel de educación y si cuentan o no con
una cobertura de salud privada, nos ayudará a conocer y fragmentar la realidad social de los
distintos grupos. Por último, con las variables de comuna y de lugar de nacimiento, podremos tener
una visualización geográfica aplicada al trabajo desarrollado.

El hecho de contar con 3 períodos obtenidos, de 3 encuestas diferentes, acerca de los temas
mencionados en el párrafo anterior nos permitirá comparar períodos de 2 años, comprendidos
entre el año 2015 y el 2019.

Los objetivos de aprendizaje propuestos por nuestro equipo de profesores y tutores, es:

● Reconocer el modelo Relacional en base a los datos obtenidos, reconociendo tablas y relaciones
entre ellas
● Diseñar el modelo relacional con PK y FK,
● Identificar los tipos de datos de las tablas,
● Organizar los datos para poder manipularlos,
● Diseñar el mockup del dashboard y entregarlo conjuntamente con la base de datos en formato
xls.

pág. 2
Diagrama entidad-relación de las tablas seleccionadas con PK y
FK.

pág. 3
Listado de tablas y definición de clave primaria y/o clave foránea.

Tabla ENCUESTADOS_CABA:
PK: ID_encuestado
FKs: ID_comuna
ID_lugar_nacimiento
ID_nivel_educacion
ID_situacion_laboral
ID_sexo

Tabla COMUNA:
PK: ID_comuna

Tabla LUGAR_NACIMIENTO:
PK: ID_lugar_nacimiento

Tabla NIVEL_EDUCACION:
PK: ID_nivel_educacion

Tabla SITUACION_LABORAL:
PK: ID_situacion_laboral

Tabla SEXO:
PK: ID_sexo

pág. 4
Listado de columnas por tablas, con definiciones de tipos de datos
con límites de caracteres.

Tabla ENCUESTADOS_CABA:

ID_encuestado int
año int
ID_comuna int
ID_lugar_nacimiento int
ID_nivel_educacion int
ID_situacion_laboral int
ID_sexo int
edad int
ingresos_laborales decimal (10,2)
ingresos_no_laborales decimal (10,2)
afiliado_salud_privada bit

Tabla COMUNA:

ID_comuna int
nombre_comuna varchar (20)
domicilio_comuna varchar (50)
tel_comuna varchar (20)

Tabla LUGAR_NACIMIENTO:

ID_lugar_nacimiento int
lugar_nacimiento varchar (30)

Tabla NIVEL_EDUCACION:

ID_nivel_educacion int
nivel_educacion varchar (30)

Tabla SITUACION_LABORAL:

ID_situacion_laboral int
situacion_laboral varchar (30)

Tabla SEXO:

ID_sexo int
sexo varchar (30)

pág. 5
Transformación de datos

En referencia a este punto, no fue necesario renombrar ninguna tabla ni campos, ya que este
trabajo lo realizamos sobre la propia base de dato, antes de conectar los datos a Power BI. Los
nombres de ambos conceptos nos resultaron claros identificadores tanto de tablas cómo de
campos. Lo mismo sucedió con los tipos de datos. Salvando lo explicado en el tercer párrafo, los
tipos de datos fueron perfectamente reconocibles por Power BI.

Tampoco fue necesario eliminar relaciones ni utilizar tablas puentes: al igual que lo explicado en
el párrafo anterior, el archivo Excel utilizado cómo base de nuestros datos, fue modificado con las
tablas necesarias para evitar la redundancia de datos, y Power BI reconoció las mismas, siendo
todas del tipo 1-N.

Las modificaciones que hicimos, principalmente, fueron los siguientes campos (todos de la tabla
“ENCUESTADOS_CABA”), que Power ID reconoció como medidas (Σ) y no lo eran:

afiliado_salud_privada: Este es un campo de tipo boolean (bit), en dónde el 1 indica que el valor
es TRUE y el 0 que es FALSE. No es de medida y procedimos a desmarcar esta característica.

Año: Este es el campo que indica a que año calendario pertenece la fila del encuestado. No es de
medida y procedimos a desmarcar esta característica.

ID_encuestado: Este campo pertenece a la clave primaria de la tabla, por lo que no es un dato
que nos sirva de medida.

Se adjunta DER procedente de Power BI:

pág. 6
Análisis Funcional del tablero

Se incluyeron en una tabla “Medidas” lo siguientes datos:

 “CantidadEncuestados”: Valor de la cantidad de encuestados.

 “EdadPromedio”: Valor con el promedio de edades de personas encuestadas.

 “IngresosTotales”: Valor de la suma de ingresos totales (columna calculada, ver siguiente


apartado)

 “PromediosIngTotales”: valor del promedio de los ingresos totales.

También, en la tabla “ENCUESTADOS_CABA” agregamos dos columnas calculadas:

 “ingresos_totales”: columna para calcular la suma de los ingresos laborales más los no
laborales de la tabla.

 “RangoEdad”: columna calculada con “IF” anidados para segmentar la edad de los
encuestados en 5 tramos (de 16 a 30 años, de 31 a 45 años, de 46 a 60 años, de 61 a 75
años, y mayores de 75 años).

Respecto al informe, el mismo se presenta en 4 páginas:

 La primera página contiene la portada, donde se detalla la información del equipo e


incorporamos botones para redirigir a quien lo analice, a las páginas siguientes del informe.

pág. 7
 La segunda página, contiene datos estáticos de la encuesta. Permite ver datos en tarjeta (Total
de encuestados, Promedio de ingresos y Edad promedio de los encuestados). Además, cuenta
con 3 gráficos, para:

 Ver la cantidad de encuestados por comuna: esta información sirve para tener el dato de
la cantidad de población encuestada.

 Ver su rango etario de acuerdo con la segmentación mencionada anteriormente: esta


información nos sirve para tomar dimensión de las personas encuestadas, agrupadas de
acuerdo con su edad.

 Ver su segmentación por sexo: al igual que el anterior, esta información nos sirve para ver
la conformación de la población encuestada, de acuerdo a su sexo.

 En la tercera página, los datos se pueden filtrar por “Año”, “Comuna”, “Género” y “Rango
etario”. De acuerdo con dichos filtros, se diagraman:

 El nivel de educación: esta información sirve para ver hasta qué nivel educativo lograron
completar las personas encuestadas.

 Los ingresos laborales y no laborales: gráficamente, podemos observar la relación que


existe entre el total de los ingresos laborales obtenidos por los encuestados versus el total
de ingresos no laborales.

 La cantidad de encuestados por año: segmenta al total de encuestados por cada una de
las tres encuestas anuales. Nos sirve para ver, entre otras cosas, si hay heterogeneidad
en la población tomada cada año.
 La cantidad de encuestados afiliados a la salud privada: esta información puede dar una
idea de la cantidad de encuestados afiliados a algún plan de salud privada, dato que
permite concluir, también, cantidad que no lo hace y utiliza el sistema público de salud.

pág. 8
 La cuarta página, nos muestra las medidas calculadas avanzadas que detallamos en el punto
siguiente, donde encontramos el siguiente análisis:

 Ingresos máximos y promedios: de esto podemos observar los datos máximos y promedios
obtenidos de acuerdo a la situación laboral de cada persona encuestada.

 Variación Salarial Interanual: en este gráfico se puede analizar la variación salarial a través
de los períodos analizados por la cuenta, lo cual nos permitió agruparlo en períodos cortos
de dos años.

 Incremento Salarial: este punto nos permite ver la variación en cuanto al incremento salarial
y nos permite detectar cómo esto impacta en los demás datos de la página.

 Proyección de Ingresos Totales según Incremento Salarial: esto nos permite realizar
visualizar el flujo de variación de las dos variables de acuerdo a los períodos de tiempo
analizados, ya comentados anteriormente.

pág. 9
Medidas Calculadas

Las medidas calculadas del Dashboard, son las siguientes:

CantidadEncuestados

CantidadEncuestados = COUNT(ENCUESTADOS_CABA[ID_encuestado])

Esta medida involucra el recuento de encuestados. Su finalidad es mostrar el universo de la


población sujeta a la encuesta.

EdadPromedio

EdadPromedio = AVERAGE(ENCUESTADOS_CABA[edad])

Esta medida involucra el campo “edad” de la tabla de encuestados, y calcula para saber el
promedio de edad de los encuestados, dato que puede resultar interesante para este informe.

IncrementoSalarial

IncrementoSalarial = [IngresosTotales]*(1+Incremento_Salarial[Valor Incremento_Salarial])

Esta medida utiliza la medida “IngresosTotales” y un parámetro “Incremento_Salarial” para que el


usuario interactúe moviendo este porcentaje presunto y pueda simular y ver gráficamente el
impacto de este en cada uno de los años en los que se desarrolló la encuesta.

IngresosTotales

IngresosTotales = sum(ENCUESTADOS_CABA[ingresos_totales])

Esta medida suma los ingresos totales obtenidos por la población encuestada. Sirve cómo dato
para mostrar en el dashboard, y como medida que luego será utilizada por otras medidas
calculadas.

IngrMaxSitLaboral

IngrMaxSitLaboral =
VAR IngresoMax = Max(ENCUESTADOS_CABA[ingresos_totales])
RETURN
CALCULATE(IngresoMax, SITUACION_LABORAL[situacion_laboral])

Esta medida sirve para mostrar el ingreso máximo por cada una de las situaciones laborales de
los encuestados. Se usa el campo “ingresos_Totales” de la tabla ENCUESTADOS_CABA para
pág. 10
obtener los máximos y guardarlos en la variable IngresoMax. Luego, en la cláusula de retorno
(RETURN), se filtran estos máximos de acuerdo con la situación laboral y se devuelve ese número
calculado.

PromedioIngTotales

IngrPromSitLaboral =
VAR IngresoProm = AVERAGE(ENCUESTADOS_CABA[ingresos_totales])
RETURN
CALCULATE(IngresoProm, SITUACION_LABORAL[situacion_laboral])

Es similar a IngrMaxSitLaboral, pero en lugar de buscar los máximos, se buscan los promedios
por situación laboral. Estos datos serán mostrados en una tabla.

VariacionInteranualIngresos

VariacionInteranualIngresos =
VAR IngresosAnioAnterior = CALCULATE([IngresosTotales],PARALLELPERIOD(ENCUESTADOS_CABA[AnioDate],-
2,YEAR))
VAR Numerador = [IngresosTotales]-IngresosAnioAnterior
RETURN
DIVIDE (Numerador, IngresosAnioAnterior)

Esta medida recoge los ingresos de esta encuesta y de la anterior (utilizando la función
PARALLELPERIOD) para hacer una comparativa porcentual de crecimiento (o decrecimiento) de
los ingresos entre las encuestas 2015-2017 y 2017-2019.

pág. 11
Armado del Mockup

La paleta de colores definitiva que utilizamos para el mockup y para desarrollar el dashboard va
desde una gama clara a una gama oscura, dentro de tonos similares pastels. Esto mismo va a ser
utilizado dentro de cada página tanto para títulos, subtítulos, reseñas, datos, gráficos y demás
componentes del dashboard.

Datos de la paleta de colores:

#DCE5E9
#A8BFC7
#ABAEB7
#AE9DA7
#B18D97
#B37A87
#9A4C57
#8C3047
#592D2D

pág. 12
Avance del armado del Dashboard

Desde el inicio del curso, el mockup sufrió diversas transformaciones. Desde la paleta de colores
inicial hasta el propio armado por páginas y distribución de los gráficos. En una primera instancia
realizamos un bosquejo preliminar de cómo queríamos que sea la visualización, la cual esa básica
y sin demasiadas especificaciones. Esto luego fue mutando al correr del curso, debido a la
complejidad de los gráficos y el espacio que cada uno necesitaba para una correcta visualización
y análisis.

Vista del primer bosquejo y armado inicial

Portada

Página principal

pág. 13
Vista preliminar del Dashboard:

Se agregaron botones de regreso a la portada y a las páginas para obtener un mejor flujo de navegación.
Se puede avanzar o retroceder en cada una de las hojas que componen el dashboard.

Portada Principal – Hoja 1

Información General – Hoja 2

pág. 14
Información Específica – Hoja 3

Análisis de Ingresos – Hoja 4

pág. 15

También podría gustarte