Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Grupo:
▪ Pamela Santillán
▪ Pablo Sebastián Calello
Profesora:
▪ Rebeca Figueroa Soriano
Tutor:
▪ Norberto Leonel González
ÍNDICE
Descripción de la temática de los datos alineada con objetivos SMART________________________Pág. 2
Listado de tablas, con definición de clave primaria y/o clave foránea, según corresponda___________Pág.4
Listado de columnas por tablas, con definiciones de tipos de datos con límites de caracteres_________Pág.5
Transformación de datos_______________________________________________________________Pág. 6
Medidas Calculadas____________________________________________________________Pág. 10
pág. 1
Descripción de la temática de los datos alineada con objetivos
SMART.
El presente trabajo, parte integrante de la segunda entrega del proyecto final para el curso “Data
Analytics” de Coder House, se basa en datos obtenidos de la página del Gobierno de la Ciudad
de Buenos Aires sobre encuestas realizadas a habitantes del distrito, divididos en las comunas
que forman parte de dicho territorio. El objetivo principal de esta base de datos es conocer y
analizar la situación socioeconómica, demográfica y educacional de la población mayor de 16 años
de la ciudad para los años 2015, 2017 y 2019.
Tras una depuración de los datos obtenidos, seleccionamos los que, a nuestro parecer, resultan
más interesantes para este análisis. Las variables de Ingresos (tanto laborales cómo no laborales)
de los más de 35.000 encuestados nos permitirá ver el nivel económico de dicha población. Y
otras variables, como la edad, sexo, situación laboral, nivel de educación y si cuentan o no con
una cobertura de salud privada, nos ayudará a conocer y fragmentar la realidad social de los
distintos grupos. Por último, con las variables de comuna y de lugar de nacimiento, podremos tener
una visualización geográfica aplicada al trabajo desarrollado.
El hecho de contar con 3 períodos obtenidos, de 3 encuestas diferentes, acerca de los temas
mencionados en el párrafo anterior nos permitirá comparar períodos de 2 años, comprendidos
entre el año 2015 y el 2019.
Los objetivos de aprendizaje propuestos por nuestro equipo de profesores y tutores, es:
● Reconocer el modelo Relacional en base a los datos obtenidos, reconociendo tablas y relaciones
entre ellas
● Diseñar el modelo relacional con PK y FK,
● Identificar los tipos de datos de las tablas,
● Organizar los datos para poder manipularlos,
● Diseñar el mockup del dashboard y entregarlo conjuntamente con la base de datos en formato
xls.
pág. 2
Diagrama entidad-relación de las tablas seleccionadas con PK y
FK.
pág. 3
Listado de tablas y definición de clave primaria y/o clave foránea.
Tabla ENCUESTADOS_CABA:
PK: ID_encuestado
FKs: ID_comuna
ID_lugar_nacimiento
ID_nivel_educacion
ID_situacion_laboral
ID_sexo
Tabla COMUNA:
PK: ID_comuna
Tabla LUGAR_NACIMIENTO:
PK: ID_lugar_nacimiento
Tabla NIVEL_EDUCACION:
PK: ID_nivel_educacion
Tabla SITUACION_LABORAL:
PK: ID_situacion_laboral
Tabla SEXO:
PK: ID_sexo
pág. 4
Listado de columnas por tablas, con definiciones de tipos de datos
con límites de caracteres.
Tabla ENCUESTADOS_CABA:
ID_encuestado int
año int
ID_comuna int
ID_lugar_nacimiento int
ID_nivel_educacion int
ID_situacion_laboral int
ID_sexo int
edad int
ingresos_laborales decimal (10,2)
ingresos_no_laborales decimal (10,2)
afiliado_salud_privada bit
Tabla COMUNA:
ID_comuna int
nombre_comuna varchar (20)
domicilio_comuna varchar (50)
tel_comuna varchar (20)
Tabla LUGAR_NACIMIENTO:
ID_lugar_nacimiento int
lugar_nacimiento varchar (30)
Tabla NIVEL_EDUCACION:
ID_nivel_educacion int
nivel_educacion varchar (30)
Tabla SITUACION_LABORAL:
ID_situacion_laboral int
situacion_laboral varchar (30)
Tabla SEXO:
ID_sexo int
sexo varchar (30)
pág. 5
Transformación de datos
En referencia a este punto, no fue necesario renombrar ninguna tabla ni campos, ya que este
trabajo lo realizamos sobre la propia base de dato, antes de conectar los datos a Power BI. Los
nombres de ambos conceptos nos resultaron claros identificadores tanto de tablas cómo de
campos. Lo mismo sucedió con los tipos de datos. Salvando lo explicado en el tercer párrafo, los
tipos de datos fueron perfectamente reconocibles por Power BI.
Tampoco fue necesario eliminar relaciones ni utilizar tablas puentes: al igual que lo explicado en
el párrafo anterior, el archivo Excel utilizado cómo base de nuestros datos, fue modificado con las
tablas necesarias para evitar la redundancia de datos, y Power BI reconoció las mismas, siendo
todas del tipo 1-N.
Las modificaciones que hicimos, principalmente, fueron los siguientes campos (todos de la tabla
“ENCUESTADOS_CABA”), que Power ID reconoció como medidas (Σ) y no lo eran:
afiliado_salud_privada: Este es un campo de tipo boolean (bit), en dónde el 1 indica que el valor
es TRUE y el 0 que es FALSE. No es de medida y procedimos a desmarcar esta característica.
Año: Este es el campo que indica a que año calendario pertenece la fila del encuestado. No es de
medida y procedimos a desmarcar esta característica.
ID_encuestado: Este campo pertenece a la clave primaria de la tabla, por lo que no es un dato
que nos sirva de medida.
pág. 6
Análisis Funcional del tablero
“ingresos_totales”: columna para calcular la suma de los ingresos laborales más los no
laborales de la tabla.
“RangoEdad”: columna calculada con “IF” anidados para segmentar la edad de los
encuestados en 5 tramos (de 16 a 30 años, de 31 a 45 años, de 46 a 60 años, de 61 a 75
años, y mayores de 75 años).
pág. 7
La segunda página, contiene datos estáticos de la encuesta. Permite ver datos en tarjeta (Total
de encuestados, Promedio de ingresos y Edad promedio de los encuestados). Además, cuenta
con 3 gráficos, para:
Ver la cantidad de encuestados por comuna: esta información sirve para tener el dato de
la cantidad de población encuestada.
Ver su segmentación por sexo: al igual que el anterior, esta información nos sirve para ver
la conformación de la población encuestada, de acuerdo a su sexo.
En la tercera página, los datos se pueden filtrar por “Año”, “Comuna”, “Género” y “Rango
etario”. De acuerdo con dichos filtros, se diagraman:
El nivel de educación: esta información sirve para ver hasta qué nivel educativo lograron
completar las personas encuestadas.
La cantidad de encuestados por año: segmenta al total de encuestados por cada una de
las tres encuestas anuales. Nos sirve para ver, entre otras cosas, si hay heterogeneidad
en la población tomada cada año.
La cantidad de encuestados afiliados a la salud privada: esta información puede dar una
idea de la cantidad de encuestados afiliados a algún plan de salud privada, dato que
permite concluir, también, cantidad que no lo hace y utiliza el sistema público de salud.
pág. 8
La cuarta página, nos muestra las medidas calculadas avanzadas que detallamos en el punto
siguiente, donde encontramos el siguiente análisis:
Ingresos máximos y promedios: de esto podemos observar los datos máximos y promedios
obtenidos de acuerdo a la situación laboral de cada persona encuestada.
Variación Salarial Interanual: en este gráfico se puede analizar la variación salarial a través
de los períodos analizados por la cuenta, lo cual nos permitió agruparlo en períodos cortos
de dos años.
Incremento Salarial: este punto nos permite ver la variación en cuanto al incremento salarial
y nos permite detectar cómo esto impacta en los demás datos de la página.
Proyección de Ingresos Totales según Incremento Salarial: esto nos permite realizar
visualizar el flujo de variación de las dos variables de acuerdo a los períodos de tiempo
analizados, ya comentados anteriormente.
pág. 9
Medidas Calculadas
CantidadEncuestados
CantidadEncuestados = COUNT(ENCUESTADOS_CABA[ID_encuestado])
EdadPromedio
EdadPromedio = AVERAGE(ENCUESTADOS_CABA[edad])
Esta medida involucra el campo “edad” de la tabla de encuestados, y calcula para saber el
promedio de edad de los encuestados, dato que puede resultar interesante para este informe.
IncrementoSalarial
IngresosTotales
IngresosTotales = sum(ENCUESTADOS_CABA[ingresos_totales])
Esta medida suma los ingresos totales obtenidos por la población encuestada. Sirve cómo dato
para mostrar en el dashboard, y como medida que luego será utilizada por otras medidas
calculadas.
IngrMaxSitLaboral
IngrMaxSitLaboral =
VAR IngresoMax = Max(ENCUESTADOS_CABA[ingresos_totales])
RETURN
CALCULATE(IngresoMax, SITUACION_LABORAL[situacion_laboral])
Esta medida sirve para mostrar el ingreso máximo por cada una de las situaciones laborales de
los encuestados. Se usa el campo “ingresos_Totales” de la tabla ENCUESTADOS_CABA para
pág. 10
obtener los máximos y guardarlos en la variable IngresoMax. Luego, en la cláusula de retorno
(RETURN), se filtran estos máximos de acuerdo con la situación laboral y se devuelve ese número
calculado.
PromedioIngTotales
IngrPromSitLaboral =
VAR IngresoProm = AVERAGE(ENCUESTADOS_CABA[ingresos_totales])
RETURN
CALCULATE(IngresoProm, SITUACION_LABORAL[situacion_laboral])
Es similar a IngrMaxSitLaboral, pero en lugar de buscar los máximos, se buscan los promedios
por situación laboral. Estos datos serán mostrados en una tabla.
VariacionInteranualIngresos
VariacionInteranualIngresos =
VAR IngresosAnioAnterior = CALCULATE([IngresosTotales],PARALLELPERIOD(ENCUESTADOS_CABA[AnioDate],-
2,YEAR))
VAR Numerador = [IngresosTotales]-IngresosAnioAnterior
RETURN
DIVIDE (Numerador, IngresosAnioAnterior)
Esta medida recoge los ingresos de esta encuesta y de la anterior (utilizando la función
PARALLELPERIOD) para hacer una comparativa porcentual de crecimiento (o decrecimiento) de
los ingresos entre las encuestas 2015-2017 y 2017-2019.
pág. 11
Armado del Mockup
La paleta de colores definitiva que utilizamos para el mockup y para desarrollar el dashboard va
desde una gama clara a una gama oscura, dentro de tonos similares pastels. Esto mismo va a ser
utilizado dentro de cada página tanto para títulos, subtítulos, reseñas, datos, gráficos y demás
componentes del dashboard.
#DCE5E9
#A8BFC7
#ABAEB7
#AE9DA7
#B18D97
#B37A87
#9A4C57
#8C3047
#592D2D
pág. 12
Avance del armado del Dashboard
Desde el inicio del curso, el mockup sufrió diversas transformaciones. Desde la paleta de colores
inicial hasta el propio armado por páginas y distribución de los gráficos. En una primera instancia
realizamos un bosquejo preliminar de cómo queríamos que sea la visualización, la cual esa básica
y sin demasiadas especificaciones. Esto luego fue mutando al correr del curso, debido a la
complejidad de los gráficos y el espacio que cada uno necesitaba para una correcta visualización
y análisis.
Portada
Página principal
pág. 13
Vista preliminar del Dashboard:
Se agregaron botones de regreso a la portada y a las páginas para obtener un mejor flujo de navegación.
Se puede avanzar o retroceder en cada una de las hojas que componen el dashboard.
pág. 14
Información Específica – Hoja 3
pág. 15