Está en la página 1de 21

Data Warehouse, Data Warehouse Para el Análisis Poblacional Del Ecuador, agosto 2~2020

Data Warehouse
Para el Análisis Poblacional Del Ecuador.

Molina Orellana, Kamila Nicole. Quizhpi Peralta, Estuardo Mateo,​ Estudiantes.


Carrera de Ingeniería en Sistemas, Facultad de Ingeniería
Universidad de Cuenca, Cuenca, Ecuador
kamila.molina@ucuenca.edu.ec, mateo.quizhpi@ucuemca.edu.ec

Abstract -- ​Actualmente la información ha evolucionado hasta convertirse en un elemento necesario para el surgimiento de un
negocio. Sea cual sea el ambiente en el que se desarrolle dicho negocio, necesita tener un conocimiento sobre el mercado en el que se
va a desenvolver. Por este motivo es tan importante tener una idea clara sobre los datos históricos y la información operacional sobre
los Data Sources usados en el mismo. Esto se realiza con el fin que la estructuración de dicha información utilizada, y después de
darle el proceso adecuado, se convierta en un Data Warehouse que a su vez se transforme en una herramienta colaborativa a nivel de
toma de decisiones.
Conociendo el desarrollo básico de un Data Warehouse, confirma que en la actualidad la importancia de una buena organización
de la información dentro de las diferentes actividades de una empresa es de suma importancia. Por lo tanto es indispensable contar con
datos debidamente ordenados y que mantengan relación con la toma de decisiones. Es por ello que a más de tomar los datos
históricos, también es recomendable realizar predicciones, para conocer futuros impactos que se podrían dar en el negocio.

Index Terms:
​ ata Warehouse. D
DW: D ​ ata Sources. Dimensiones. Hechos.​ ​Data-Mining: M
​ inería de Datos​.

I. INTRODUCCIÓN

Debido a un gran volumen de datos y con el fin de estructurar estos datos en una colección orientada al negocio se implementa un
Data Warehouse [1]. Como su término lo indica, un Data Warehouse es una base de datos con una estructura multidimensional que
ayuda a almacenar y procesar grandes cantidades de información [2]. Por otra parte, en el marco ecuatoriano, el Instituto Nacional de
Estadística y Censos (INEC), señala que la población del país se acerca a los 17,5 millones de personas a inicio del año 2020 [3]. Esta
información está almacenada en datos históricos, y son una medición con base al número de personas que viven hasta la actualidad en
el país, más el número de nacimientos registrados menos la cifra de fallecidos, que se contabilizan a diario.
Dicho esto, se plantea la realización de un Data Warehouse sobre un área específica del Ecuador, el análisis poblacional. Con este
desarrollo se plantea no solo conocer el número de habitantes en las distintas provincias, cantones y parroquias, sino también su
calidad de vida, además de una predicción referente al número de habitantes para los siguientes años y agrupaciones en términos
socioeconómicos. Para llegar a este tipo de razonamiento, se emplearán las diferentes fuentes de datos provistas por el INEC. En este
sentido se pueden identificar del Censo de Población y Vivienda 2010, información poblacional referente a vivienda, servicios
básicos, densidad, nivel de instrucción, etnia, capacidades especiales y género, en primera mirada como datos socio económicos. Por
otra parte también se puede obtener conjuntos de datos en relación a las proyecciones poblacionales con lo que es posible determinar
escenarios y prever acciones a un nivel de género y edades.
Si bien es cierto, un Data Warehouse, no es solo la creación y población de una base de datos para crear cubos
multidimensionales, sino también implementar una forma de visualizar esa información. Por lo tanto cabe mencionar que para este
trabajo también se implementará una Dashboard, el cual hace más fácil e intuitiva la visualización de los datos para responder
preguntas de mercado relacionadas con el ámbito en que se desarrolla el negocio. A su vez, teniendo en cuenta que existen tantos
datos y por lo tanto una gran cantidad de decisiones que tomar, se aplica la analítica predictiva que ayudará a evaluar lo que va a
suceder a futuro. Con esta idea, y teniendo en cuenta que el Data Mining busca patrones ocultos en los en los datos que pueden
utilizarse para predecir comportamiento futuros [4], se utiliza este enfoque en este proyecto con la finalidad de transformar los datos
en conocimientos proactivos.
El resto de este documento tiene la siguiente estructura. La sección II, detalla la metodología hefesto y el desarrollo de sus pasos
para la construcción de un Data Warehouse. La sección III, identifica la construcción y publicación de los cubos OLAP y su
visualización en el servidor de Business Intelligence. La sección IV, contempla el análisis de minería de datos realizados a los datos.
La sección V, muestra la publicación de los datos recopilados en un Dashboard. Finalmente, la sección VI presenta las conclusiones
de este proyecto.

II. METODOLOGÍA HEFESTO

Este proceso metodológico se basa en 4 pasos. El primer paso inicia con la recolección de los requisitos de información de los
usuarios y de esta manera se obtienen las preguntas claves del negocio. Además, se deben identificar los indicadores resultantes de las
interrogantes realizadas, con sus respectivas Perspectivas de análisis, a través de las cuales se construirá el modelo conceptual de
datos del Data Warehouse. Como segundo paso, se analizarán los Data Sources, con el fin de determinar cómo se construirán los
Indicadores, señalando el mapeo correspondiente y seleccionando los campos de estudio de cada Perspectiva. Una vez realizado esto,
como tercer paso, se pasará a la construcción del Modelo Lógico del Data Warehouse, en donde se definirá cuál será el tipo de
esquema que se implementará. Seguidamente, se confeccionarán las tablas de Dimensiones y las tablas de Hechos, para luego efectuar
Data Warehouse, Data Warehouse Para el Análisis Poblacional Del Ecuador, agosto 2~2020

sus respectivas uniones. Finalmente como paso 4, utilizando técnicas de limpieza y calidad de datos y procesos ETL, se definirán
políticas y estrategias para la Carga Inicial del Data Warehouse y su respectiva Actualización [1].

1. Análisis de requerimientos:
Se identifican los requerimientos de los usuarios a través de preguntas que expliquen los objetivos de su organización. Luego, se
analizarán estas preguntas a fin de identificar cuáles serán los Indicadores y Perspectivas que serán tomadas en cuenta para la
construcción del Data Warehouse. Finalmente se confeccionará un Modelo Conceptual en donde se podrá visualizar el resultado
obtenido en este primer paso [1].

a. Identificar preguntas.
Comienza con el acopio de las necesidades de información. El análisis de los requerimientos de los diferentes usuarios, es el punto
de partida de esta metodología, ya que guía la investigación hacia un desarrollo que refleje claramente lo que se espera del DW, en
relación a sus funciones y cualidades [2]:
Las preguntas planteadas para este caso de estudio, están enfocadas en datos socioeconómicos, calidad de vida con referencia al
lugar de residencia, grupos étnicos y grupos de edad, por lo que surgen las siguientes incógnitas:

i. Se desea conocer la ​población​ en una ​provincia​ delimitada por el ​género​ (femenino y masculino) en un ​año ​determinado.
ii. Se desea conocer el tipo de ​vivienda​ de la ​población​ del ​país​ (provincia, cantón).
iii. Se desea conocer qué parte de la ​población del ​país (provincia, cantón) tiene acceso a los ​servicios básicos (como agua
potable).
iv. Se desea conocer los rangos de ​edad​ de la ​población​ del ​país​ (provincia, cantón).
v. Se desea conocer ​el número de viviendas particulares​ según ​provincia​, ​cantón​ y ​parroquia​ de empadronamiento.
vi. Se desea conocer ​el número de hogares por disponibilidad de teléfono convencional, según ​provincia​, ​cantón y ​parroquia de
empadronamiento.
vii. Se desea conocer la ​densidad poblacional​ (km​2​) a nivel ​parroquial​.
viii. Se desea conocer el ​número de personas​ por ​etnia​ en un determinado ​año​ a nivel ​provincial​, ​cantonal​ y ​parroquial​.
ix. Se desea conocer el ​número de personas que mantengan ​capacidades especiales ​según ​provincia​, ​cantón y ​parroquia de
empadronamiento.

b. Identificar indicadores y perspectivas.


Una vez que se han establecido las preguntas de negocio, se debe proceder a su descomposición para descubrir los Indicadores que
se utilizarán y las Perspectivas de análisis que intervendrán [2].
Los Indicadores son valores numéricos y las Perspectivas se refieren a las entidades mediante las cuales se quieren examinar los
Indicadores. En el presente documento se subrayan en el literal a con color verde a los ​Indicadores y con color salmón a las
Perspectivas​.

c. Modelo Conceptual.
Se construirá un Modelo Conceptual a partir de los Indicadores y Perspectivas obtenidas en el paso anterior. Como se puede ver en
las Figuras 1, 2 y 3 para los datos analizados, un Modelo Conceptual se vuelve una descripción de alto nivel de la estructura de la base
de datos, en la cual la información es representada a través de Objetos, Relaciones y Atributos.

Fig 1: Modelo Conceptual (parte 1)


Data Warehouse, Data Warehouse Para el Análisis Poblacional Del Ecuador, agosto 2~2020

Fig 2: Modelo Conceptual (parte 2)

Fig 3: Modelo Conceptual (parte 3)

2. Análisis de los OLTP:


Se analizan los Data Sources para determinar cómo serán calculados los Indicadores y para establecer el mapeo entre el Modelo
Conceptual creado establecido en la ​sección (1) y los datos de la fuente de datos inicial [1]. Se definirán qué campos se incluirán en
cada Perspectiva. Y se ampliará el modelo conceptual con la información obtenida en este paso.

a. Conformar indicadores.
En este paso se explican cómo se calculan los Indicadores que se determinaron en el paso anterior, en la ​sección (1.A)​, de la
siguiente manera:
Detallando el nombre del indicador, su función de sumarización que puede ser ya sea suma, promedio, entre otros, y la aclaración
de lo que va a representar dicho indicador dentro del modelo multidimensional.

Total Viviendas
● Hechos:​ Total viviendas
● Función de sumarización:​ Sum
● El indicador representa:​ La sumatoria de las viviendas en una parroquia en particular.
Total Hogares
● Hechos:​ Total hogares
● Función de sumarización:​ Sum
● El indicador representa:​ La sumatoria de los hogares en una parroquia en particular.
Poblacion
● Hechos:​ Poblacion
● Función de sumarización:​ Sum
● El indicador representa:​ La sumatoria de la población en una parroquia en particular.
Superficie
● Hechos:​ Superficie
● Función de sumarización:​ Sum
● El indicador representa:​ La sumatoria del área por kilómetro cuadrado de una parroquia en particular.
Densidad Poblacional
● Hechos:​ DensidadPoblacional
● Función de sumarización: ​Sum
● El indicador representa: La sumatoria de la densidad poblacional de cada parroquia y que se obtiene al dividir la población
sobre la superficie de la parroquia.

b. Establecer correspondencias
En este paso se examinan los Data Sources e identifican sus características propias, y asegurarnos que los Data Sources
disponibles contengan los datos requeridos. Luego, se debe establecer cómo serán obtenidos los elementos que se han definido en el
Data Warehouse, Data Warehouse Para el Análisis Poblacional Del Ecuador, agosto 2~2020

Modelo Conceptual, estableciendo de esta manera una correspondencia directa entre los elementos del Modelo Conceptual y los Data
Sources.
Esto se logra debido a que los conjuntos de datos base, permiten obtener ciertas correspondencias las cuales estarán
fundamentadas por la denominación del campo y el archivo (Fuente INEC) en formato ​.xls y su relación con la perspectiva o
indicador adecuado, tal como se detalla en la Tabla I. Donde se coloca el nombre del archivo fuente, y la descripción, es decir, la
funcionalidad que se le da dentro del modelo multidimensional.

TABLA I: Correspondencias entre los archivos fuente (Data Sources) contra los definidos en el Modelo Conceptual.
N° Nombre de Fuente de Datos (Archivo .XLS) Descripción

1 22_VIV_PROV_CANT_PARROQ_AREA_TIPOVIV.xl El campo ​Tipo de la vivienda​ d​ e la hoja ​TIP_VIV ​se relaciona


s con ​la perspectiva ​Vivienda​.

2 22_VIV_PROV_CANT_PARROQ_AREA_TIPOVIV.xl El campo ​Total​ d​ e las hoja anteriormente mencionada​ s​ e relaciona


s con​ ​el indicador ​TotalViviendas​ ​para el campo establecido.

3 23_Servicios Basicos_PROV_CANT_PARROQ.xls El campo ​Procedencia de luz eléctrica​ d​ e la hoja


SERVICIO_ELÉCTRICO ​se relaciona con ​la perspectiva
ServicioElectrico.​

4 23_Servicios Basicos_PROV_CANT_PARROQ.xls El campo ​Eliminación de la basura​ d​ e la hoja


ELIMIN_BASURA​ se relaciona con ​la perspectiva
EliminacionBasura.​

5 23_Servicios Basicos_PROV_CANT_PARROQ.xls El campo​ ​Tipo de servicio higiénico o escusado ​de la hoja


SERV_HIGIÉNICO​ se relaciona con ​la perspectiva
ServicioHigienico.​

6 23_Servicios Basicos_PROV_CANT_PARROQ.xls El campo ​Procedencia principal del agua recibida​ ​de la hoja
PROCEDEN_AGUA​ se relaciona con l​ a perspectiva
ProcedenciaAgua.​

7 23_Servicios Basicos_PROV_CANT_PARROQ.xls El campo ​Total​ d​ e las hojas anteriormente mencionadas se


relaciona con​ ​el indicador ​TotalViviendas​ ​para cada uno de los
campos establecidos.

8 14_HOGA_PROV_CANT_PARR_TENENCIAVIV_AR El campo ​Tenencia o propiedad de la vivienda​ ​de la hoja


EA.xls ABSOLUTOS s​ e relaciona con ​la perspectiva ​TenenciaHogar​.

9 14_HOGA_PROV_CANT_PARR_TENENCIAVIV_AR El campo ​Total​ d​ e las hoja anteriormente mencionada​ s​ e relaciona


EA.xls con​ ​el indicador ​TotalHogares​ p​ ara el campo establecido.

10 33_PENETRACION_HOGARES_PROV_CANT_PAR El campo ​Disponibilidad de telefono convencional​ ​de la hoja


R.xls FONO_ABSOLUTO ​se relaciona con l​ a perspectiva
ServicioTelefonico​.

11 33_PENETRACION_HOGARES_PROV_CANT_PAR El campo ​Total​ d​ e las hoja anteriormente mencionada​ s​ e relaciona


R.xls con​ ​el indicador ​TotalHogares​ p​ ara el campo establecido.

12 15_POBLA_PROV_CANT_PARR_AREA_GEDAD.xls El campo ​Grupos de edad​ ​de la hoja ​POB_EDAD​ se relaciona


con ​la perspectiva ​Edad​.

13 15_POBLA_PROV_CANT_PARR_AREA_GEDAD.xls El campo ​Total​ d​ e las hoja anteriormente mencionada​ s​ e relaciona


con​ ​el indicador ​Poblacion​ ​para el campo establecido.

14 15_POBLA_PROV_CANT_PARR_AREA_GEDAD.xls El campo ​Total​ d​ e las hoja anteriormente mencionada​ s​ e divide


& para el campo ​Superficie​ ​y su resultado se relaciona con​ ​el
2_Densidad_Pobla_Nac_Prov_Cant_Parr.XLSX indicador ​DensidadPoblacional​.

15 24_GETNIAS_PROV_CANT_PARROQ_AREA.xls El campo ​GRUPOS ÉTNICOS 1 d​ e la hoja ​GETNIAS​ se


relaciona con ​la perspectiva ​Etnia.​

16 24_GETNIAS_PROV_CANT_PARROQ_AREA.xls El campo ​Total​ d​ e las hoja anteriormente mencionada​ s​ e relaciona


Data Warehouse, Data Warehouse Para el Análisis Poblacional Del Ecuador, agosto 2~2020

con​ ​el indicador ​Poblacion​ ​para el campo establecido.

17 24_GETNIAS_PROV_CANT_PARROQ_AREA.xls El campo ​Total​ d​ e las hoja anteriormente mencionada​ s​ e divide


& para el campo ​Superficie​ ​y su resultado se relaciona con​ ​el
2_Densidad_Pobla_Nac_Prov_Cant_Parr.XLSX indicador ​DensidadPoblacional.​

18 17_POBLA_PROV_CANT_PARR_DISCAPACIDAD.x En los campos​ ​Discapacidad permanente por más de un año​,


ls Discapacidad Intelectual​, ​Discapacidad Físico-Motora,​
Discapacidad Visual​, ​Discapacidad Auditiva​, D
​ iscapacidad
Mental​ de las hojas ​CONDI_DISCAPA​,
DISCA_INTELECTUAL​, ​DISCA_FÍSICO-MOTORA​,
DISCA_VISUAL, DISCA_AUDITIVA,​ ​DISCA_MENTAL​ se
relaciona con ​la perspectiva ​Discapacidad​.

19 17_POBLA_PROV_CANT_PARR_DISCAPACIDAD.x El campo ​Total​ d​ e las hojas anteriormente mencionadas​ s​ e


ls relaciona con​ ​el indicador ​Poblacion​ ​para el campo establecido

20 17_POBLA_PROV_CANT_PARR_DISCAPACIDAD.x El campo ​Total​ d​ e las hoja anteriormente mencionada​ s​ e divide


ls & para el campo ​Superficie​ ​y su resultado se relaciona con​ ​el
2_Densidad_Pobla_Nac_Prov_Cant_Parr.xls indicador ​DensidadPoblacional.​

21 13_POBL_PROV_CANT_PARR_SEXO.xls El campo ​Sexo​ ​de la hoja ​POBLA_SEXO​ se relaciona con ​la


perspectiva ​Sexo​.

22 13_POBL_PROV_CANT_PARR_SEXO.xls El campo ​Total​ d​ e las hojas anteriormente mencionadas​ s​ e


relaciona con​ ​el indicador ​Poblacion​ ​para el campo establecido

23 13_POBL_PROV_CANT_PARR_SEXO.xls El campo ​Total​ d​ e las hoja anteriormente mencionada​ s​ e divide


para el campo ​Superficie​ ​y su resultado se relaciona con​ ​el
indicador ​DensidadPoblacional.​

24 PROYECCION_POR_EDADES_PROVINCIAS_2010- El documeto ​proyeccion_cantonal_total_2010-2020.xls c​ ontiene


2020.xls & las proyecciones poblacionales de los últimos diez años referentes
PROYECCION_PROVINCIAS_SEXOS_2010-2020. xls al indicador ​Población​.
& proyeccion_cantonal_total_2010-2020.xls

c. Nivel de granularidad.
Una vez que se ha establecido el Mapeo con los Data Sources, se debe seleccionar los campos que contendrá cada Perspectiva, ya
que a través de estos se analizarán los Indicadores.
Con respecto a la Perspectiva Tiempo, es muy importante definir los periodos mediante los cuales se agregaron los datos. En este
trabajo, el tiempo solo se trabajo con el campo de fecha año, debido a las limitaciones del Data Source, pues solo brindan datos de
forma anual.
A continuación, como se puede ver en la Tabla II, se da detalle de los campos a considerar por cada perspectiva perteneciente al
modelo conceptual. Así como se muestran aquellos campos de cada perspectiva que son omitidos.

TABLA II: Nivel de granularidad de los campos en el modelo.


Perspectiva Campos a Considerar Campos No Relevantes

Ubicacion Provincia: ​Nombre.​ Cantón:​ Nombre.​ Parroquia:​ Nombre.

Tiempo Año

Vivienda Tipo de la vivienda: ​Casa, Departamento/Edificio, Cuarto, Provincia: Nombre. Cantón: Nombre.
Mediagua, Rancho, Covacha, Choza. Parroquia: Nombre. Área: Urbana, Rural

ProcedenciaAgua Procedencia principal del agua recibida:​ De red pública, Provincia: Nombre. Cantón: Nombre.
De pozo, De río, vertiente, acequia o canal, De carro Parroquia: Nombre.
repartidor, Otro (Agua lluvia/albarrada)

ServicioHigienico Tipo de servicio higiénico o escusado:​ Conectado a red Provincia: Nombre. Cantón: Nombre.
pública de alcantarillado, Conectado a pozo séptico, Parroquia: Nombre.
Conectado a pozo ciego, Con descarga directa al mar, río,
lago o quebrada, Letrina, No tiene
Data Warehouse, Data Warehouse Para el Análisis Poblacional Del Ecuador, agosto 2~2020

EliminacionBasura Eliminación de la basura:​ Por carro recolector, La arrojan Provincia: Nombre. Cantón: Nombre.
en terreno baldío o quebrada, La queman, La entierran, La Parroquia: Nombre.
arrojan al río, acequia o canal, De otra forma.

ServicioElectrico Procedencia de la luz eléctrica: ​Red de empresa eléctrica Provincia: Nombre. Cantón: Nombre.
de servicio público, Panel Solar, Generador de luz (Planta Parroquia: Nombre.
eléctrica), Otro, No tiene

TenenciaHogar Tenencia o propiedad de la vivienda:​ Propia y totalmente Provincia: Nombre. Cantón: Nombre.
pagada, Propia y la está pagando, Propia (regalada, donada, Parroquia: Nombre. Área: Urbana, Rural
heredada o por posesión), Prestada o cedida (no pagada), Por
servicios, Arrendada, Anticresis

ServicioTelefonico Disponibilidad de teléfono convencional: ​Si. Provincia: Nombre. Cantón: Nombre.


Parroquia: Nombre. Disponibilidad de teléfono
convencional: No.

Edad Grupos de edad:​ Menor de 1 año, De 1 a 4 años, De 5 a 9 Provincia: Nombre. Cantón: Nombre.
años, De 10 a 14 años, De 15 a 19 años, De 20 a 24 años, De Parroquia: Nombre. Área: Urbana, Rural
25 a 29 años, De 30 a 34 años, De 35 a 39 años, De 40 a 44
años, De 45 a 49 años, De 50 a 54 años, De 55 a 59 años, De
60 a 64 años, De 65 a 69 años, De 70 a 74 años, De 75 a 79
años, De 80 a 84 años, De 85 a 89 años, De 90 a 94 años, De
95 a 99 años, De 100 años y más.

Etnia Grupos étnicos 1:​ Indígena, Afroecuatoriano/a, Montubio/a, Provincia: Nombre. Cantón: Nombre.
Mestizo/a, Blanco/a, Otro/a Parroquia: Nombre. Área: Urbana, Rural

Discapacidad Discapacidad permanente por más de un año:​ Si. Provincia: Nombre. Cantón: Nombre.
Discapacidad Intelectual:​ Si. ​Discapacidad Parroquia: Nombre. Área: Urbana, Rural.
Físico-Motora:​ Si. ​Discapacidad Visual:​ Si. ​Discapacidad Discapacidad permanente por más de un
Auditiva:​ Si. ​Discapacidad Mental:​ Si. año:No, No responde. Discapacidad
Intelectual: Se ignora. Discapacidad
Físico-Motora: Se ignora. Discapacidad
Visual: Se ignora Discapacidad Auditiva: Se
ignora. Discapacidad Mental: Se ignora.

Sexo Sexo:​ Hombre, Mujer Provincia: Nombre. Cantón: Nombre.


Parroquia: Nombre.

d. Modelo Conceptual Ampliado.


En este paso, y con el fin de graficar los resultados obtenidos en los pasos anteriores, se ampliará el Modelo Conceptual.
Este proceso se logra, como se puede apreciar en las Figuras 4, 5 y 6, al colocar debajo de cada Perspectiva los campos
seleccionados y debajo de cada Indicador su respectiva fórmula de cálculo.

Fig 4: Modelo Conceptual Ampliado (parte 1)


Data Warehouse, Data Warehouse Para el Análisis Poblacional Del Ecuador, agosto 2~2020

Fig 5: Modelo Conceptual Ampliado (parte 2)

Fig 6: Modelo Conceptual Ampliado (parte 3)

3. Modelo lógico del DW:


Se confecciona el Modelo Lógico de la estructura del Data Warehouse, teniendo como base el Modelo Conceptual del paso 2, en la
sección (2) que ya había sido establecido. Un Modelo Lógico es la representación de una estructura de datos, que puede procesarse y
almacenarse en algún Sistema Gestor de Base de Datos. Inicialmente, se define el tipo de Modelo Lógico que se utilizará y luego se
diseñarán las tablas de Dimensiones y de Hechos con sus respectivas relaciones [1].

a. Tipología:
Se selecciona el tipo de Esquema que mejor se adapta a los requerimientos y necesidades de los usuarios [1]. Por tal motivo, el
Modelo Lógico que seguirá esta implementación es de un esquema de tipo estrella.

b. Tablas de dimensiones:
Se diseñan las tablas de Dimensiones que formarán parte del Data Warehouse como se puede ver en la Figura 7. Cada Perspectiva
definida en el Modelo Conceptual se constituirá en una tabla de Dimensión. Tomando en cuenta que cuando existan jerarquías dentro
de una tabla de Dimensión, esta tabla deberá ser normalizada.
Esta condición surge al momento de formar la tabla de ​Ubicación,​ donde se da el caso de las parroquias. Como se puede ver a la
derecha de la Figura 7, surge la necesidad de una jerarquía debido a que las parroquias dependen de los cantones, y a su vez éstos
dependen de las provincias.

Fig 7: Dimensiones del modelo conceptual.

c. Tablas de hechos:
Data Warehouse, Data Warehouse Para el Análisis Poblacional Del Ecuador, agosto 2~2020

Se definen las tablas de Hechos. Cada hecho conformado deberá seguir dos pasos: Como paso i) deberá asignarse un nombre a la
tabla de Hechos que represente la información que contiene, área de investigación, negocio enfocado, o lo que se crea pertinente.
Luego, como paso ii) se definirá su clave primaria, que se compone de la combinación de las claves primarias de cada tabla de
Dimensión relacionada.
Cabe mencionar que como se puede en la Figura 8 se crearán tantos campos de Hechos como Indicadores se hayan definido en el
modelo conceptual y se les asignará un nombre.

Fig 8: Hechos del modelo conceptual.

d. Uniones:
Se realizan las uniones correspondientes como se puede ver en las Figuras 9, 10, 11, 12, 13 y 14, entre las tablas de Dimensiones y
las tablas de Hechos formadas en los dos pasos anteriores, en la ​sección (3.b)​ y en la ​sección (3.c).​

(a) Unión viviendas. (b) Unión servicio higiénico.


Fig 9: Uniones (parte 1).

(a) Unión procedencia agua. (b) Unión eliminación basura.


Fig 10: Uniones (parte 2).

(a) Unión servicio eléctrico. (b) Unión hogares.


Fig 11: Uniones (parte 3).
Data Warehouse, Data Warehouse Para el Análisis Poblacional Del Ecuador, agosto 2~2020

(a) Unión servicio telefónico. (b) Unión tipos de discapacidades..


Fig 12: Uniones (parte 4).

(a) Unión grupos étnicos. (b) Unión sexo.


Fig 13: Uniones (parte 5).

(a) Unión grupos de edad.


Fig 14: Uniones (parte 6).

4. Integración de datos:
Una vez construido el Modelo Lógico, se debe proceder a poblarlo con datos, utilizando técnicas de limpieza y calidad de datos,
procesos ETL, entre otros. Luego se definirán las reglas y políticas de actualización, así como también los procesos que la llevarán a
cabo [1].

a. Carga inicial:
En este paso se realiza la Carga Inicial del DW, poblando el modelo construido en pasos anteriores. Para lo cual se debe llevar
adelante una serie de tareas básicas, tales como asegurar la limpieza y calidad de los datos y diferentes procesos ETL.
Para este trabajo, como se pudo notar con el detalle de los pasos anteriores, se trabaja con varios documentos, por lo cual se detalla
el proceso realizado a algunos de ellos. Como se puede ver la Figura 15a, es el formato de los documentos tal y como se ven después
de descargados, por lo tanto deben atravesar por un proceso de limpieza. En este proceso se eliminan las cabeceras y se rellenan los
espacios en blanco correspondientes a los nombres de provincias, cantones y parroquias tal como se puede ver en la Figura 15b.
Cabe mencionar que este proceso de la Figura 15, se realizó para todos los documentos con los cuales se trabajó.
Data Warehouse, Data Warehouse Para el Análisis Poblacional Del Ecuador, agosto 2~2020

(a) Ejemplo de uno de los documentos originales.. (b) Después de borrar la cabecera y de rellenar los campos vacíos de
los nombres de provincias, cantones y parroquias.
Fig 15:Limpieza inicial de los datos.

Ahora en cuanto a los procesos de ETL, se toma en cuenta que primero se deben crear las tablas de dimensiones y poblarlas. Por lo
tanto, como se puede ver en la Figura 16, se consideran los documentos pertinentes que cuenten con los campos adecuados de cada
tabla como se definió en la ​sección (3.c).​ Dicho esto, el proceso ETL funciona de la siguiente manera:

Fig 16: Proceso ETL para conformar las dimensiones y cargar los datos.

Se lee el documento adecuado que contiene los campos por los cuales estarán estructuradas las dimensiones, como se ve el la
Figura 17.a. Los campos al aparecer como títulos de columnas, se les debe normalizar para asignar un nombre común a la única
columna que será trabajada y que albergará los diferentes nombres como se ve el la Figura 17.b. A partir de ahí se puede crear la tabla
de dimensión en la Base de Datos, como se ve a la derecha de la Figura 16, pues ya contamos con los atributos necesarios para cada
tabla y sus respectivos datos, al seleccionar el campo normalizado como se ve el la Figura 17.c, y se procede a poblarlos.

(a) Selecciona las columnas (b) Normaliza las columnas a filas y les asigna una (c) Selecciona la columna destino
del archivo. columna destino. que será almacenada en la BD.
Fig 17: Ejemplo de cómo están estructurados los ETL para crear las dimensiones.

Al realizar este proceso para todas las dimensiones, la Base de Datos quedará poblada y con las diferentes tablas como se puede
ver en la Figura 18, que son las tablas de dimensiones y para este caso, se están mostrando los dos primeros campos de cada tabla
dimensión.

(b) Tabla dim_discapacidad (c) Tabla dim_ubicacion

(d) Tabla (e) Tabla dim_elim_basura (f) Tabla dim_vivienda


dim_edad
Data Warehouse, Data Warehouse Para el Análisis Poblacional Del Ecuador, agosto 2~2020

(a) Esquema de la Base (g) Tabla dim_hogar (h) Tabla dim_proced_agua (i) Tabla dim_tiempo
de Datos

(j) Tabla dim_srv_electrico (k) Tabla dim_srv_telefonico

(l) Tabla dim_sexo (m) Tabla dim_srv_higienico (n) Tabla dim_etnia


Fig 18: Esquema de la Base de Datos con las tablas de dimensiones pobladas.

Después de tener las dimensiones listas, se procede a hacer la construcción de las diferentes tablas de hechos, para esto se inicia
con los procesos ETL como se ve en la figura 19 y 20. Es esta sección, de la misma forma se mostrará dos ejemplo de proceso, que
abarca a las demás construcciones de los hechos restantes.
El proceso inicia leyendo el archivo del Data Source en donde están los datos para cada hecho, luego se procede a organizar los
elementos y a hacer un join con la tabla ​dim_ubicacion​, con el fin de trabajar con los ​idUbicacion ​únicos de dicha tabla, tal como se
puede ver en la parte superior izquierda de la Figura 19 (paso 1). Una vez se logra este proceso, según sea necesario para cada hecho,
se debe hacer un join entre el Data Source que almacena los datos de superficie y de densidad poblacional, para cruzarla con los datos
de la tabla de ​dim_ubicacion​, y así conseguir los códigos de cada parroquia con cada valor, como se puede ver en la parte inferior
izquierda de la Figura 19 (paso 2). A continuación se procede a hacer un join entre los códigos obtenido con anterioridad en los pasos
1 y 2, como se puede ver en la parte inferior central de la Figura 19 (paso 3). El siguiente paso (paso 4), como se mencionó con
antelación de deben normalizar las columnas de los datos ya cruzados hasta el paso 3, para poder realizar un join con la tabla de la
dim_ ​que corresponda para cada hecho, en este ejemplo, con la ​dim_etnia como se puede ver en la parte superior central de la Figura
19. Antes de examinar el siguiente join (paso 5), como se puede ver en la parte superior derecha de la Figura 19, se debe agregar una
constante, en este caso, para el año, debido a que solo se trabajara en un año con la mayoría de los datos, a excepción de dos hechos
que tienen datos en todos los años, y por consiguiente se procede a hacer el join con la ​dim_tiempo.​ Finalmente (paso 6), se procede a
crear la tabla de hecho ​fact_ c​ on los ids de cada dimensión correspondiente y con las que se trabajó durante todo el proceso ETL.

Fig 19: Ejemplo de cómo están estructurados los ETL para crear los hechos.

En el caso de la Figura 20, se dan múltiples pasos de join con la tabla ​dim_ubicacion​, debido a que los datos están almacenados en
diferentes pestañas del Data Source, por lo tanto se decidió realizar este proceso de join, pestaña por pestaña. Luego desde los pasos 2
hasta el 6 se realizan con la similitud a lo mencionado anteriormente.
Data Warehouse, Data Warehouse Para el Análisis Poblacional Del Ecuador, agosto 2~2020

Fig 20: Ejemplo de cómo están estructurados los ETL para crear los hechos.

Al realizar este proceso para todas los hechos, la Base de Datos quedará poblada y con las diferentes tablas como se puede ver en
la Figura 21, que son las tablas de hechos y para este caso, se están mostrando los dos primeros campos de cada tabla hecho.

(b) Tabla fact_discapacidades (c) Tabla fact_electricidad

(d) Tabla fact_edad (e) Tabla fact_elimin_basura


(a) Esquema de la
Base de Datos

(f) Tabla fact_etnia (g) Tabla fact_hogares

(h) Tabla fact_sexo (i) Tabla fact_proced_agua

(j) Tabla fact_servicio_higienico (k) Tabla fact_telefonia (l) Tabla fact_viviendas


Fig 22: Esquema de la Base de Datos con las tablas de hechos pobladas.

b. Actualización:
Cuando se haya ejecutado la carga inicial del Data Warehouse, se deben establecer las políticas y estrategias de actualización
periódica.
Las políticas de actualización, en este caso están determinadas por la realización de un censo poblacional a nivel nacional, el
último realizado fue en el año 2010, por lo tanto las actualizaciones se realizarán cada que exista un nuevo censo. Sin embargo es
necesario mencionar que los datos de las proyecciones poblacionales se presentan anualmente en el sitio web del INEC.

III. CUBOS MULTIDIMENSIONALES

Continuando con la implementación, se creará un Cubo Multidimensional que estará basado en el modelo lógico diseñado en el
caso práctico de la metodología Hefesto y serán publicados en el Servidor para que sea posible visualizar sus datos.

1. Schema Workbench
Data Warehouse, Data Warehouse Para el Análisis Poblacional Del Ecuador, agosto 2~2020

Esta herramienta de por sí lleva instalada otro software denominado Mondrian que es el que permitirá realizar los cubos OLAP.
Esta herramienta nos permitirá crear nuestro cubo OLAP proveniente de las tablas ​fact_;​ así como las Dimensiones, Jerarquías y
Métricas necesarias, que previamente ya están definidas en el Modelo Dimensional.
Algo muy importante aquí es que para trabajar con Schema Workbench es que se debe conectar a la fuente de Base de Datos
donde se tienen almacenadas las tablas del Modelo Dimensional previamente definido mediante los procesos ETL.
Como se puede ver en las Figuras 23, 24 y 25, la creación de los cubos en el Schema Workbench se da de manera muy fácil e
intuitiva, siempre y cuando se sigan los pasos correctos para su implementación.

(a) Cubo viviendas (b) Cubo eliminación basura (c) Cubo procedencia agua (d) Cubo servicio eléctrico
Fig 23: Cubos en el Schema Workbench (parte 1).

(a) Cubo servicio higiénico (b) Cubo hogares (c) Cubo servicio telefónico
Fig 24: Cubos en el Schema Workbench (parte 2).

(a) Cubo grupos de edad (b) Cubo tipos de (c) Cubo grupos étnicos (d) Cubo sexo
discapacidad
Data Warehouse, Data Warehouse Para el Análisis Poblacional Del Ecuador, agosto 2~2020

Fig 25: Cubos en el Schema Workbench (parte 3).

2. BI Server
El motivo principal por el cual se emplea el uso del Business Intelligence Server, es porque transforma los datos en información, y
esta información en conocimiento [5], de forma que sea útil para investigar los eventos de este análisis poblacional. Otra utilidad que
brinda el uso de esta plataforma, es que a partir de los cubos OLAP implementados y publicados en la sección, su visualización se
hace por este medio. Es decir, como se puede ver en la Figura 26.a, están publicados los cubos y listos para arrastrar campos y realizar
consultas sobre ellos, tal como se puede ver desde la Figura 26.b, hasta la Figura 26.l.

(b) Saiku Analytics del (c) Saiku Analytics del (d) Saiku Analytics del
cubo de discapacidades. cubo de grupos de edad. cubo de grupos étnicos.

(e) Saiku Analytics del (g) Saiku Analytics del


(a) Cubos publicados en el BI Server. cubo de hogares. cubo de servicio telefónico.
(f) Saiku Analytics del
cubo de sexo.

(h)​ Saiku Analytics del (i) Saiku Analytics del (j) Saiku Analytics del (k) Saiku Analytics del (l) Saiku Analytics del
cubo de eliminación de cubo de procedencia de cubo de servicio eléctrico. cubo de servicio cubo de viviendas.
basura. agua. higiénico.

Fig 26: Cubos publicados en el BI Server.

Dentro de los procesos que se pueden realizar en BI Server, a los cubos ya publicados, se les puede hacer las consultas arrastrando
los campos como se puede ver en la Figura 27, que se tiene una consulta realizada dentro del Saiku Analytics sobre el cubo de
discapacidades. Dentro de esta consulta también es posible escoger el diferente tipo de granularidad que se desea buscar, como se
puede ver en las Figuras 28 o 29, que llegan hasta cantón y parroquia respectivamente. Además se puede filtrar por una o varias
discapacidades así como por una o varias ubicaciones que dependen del nivel de granularidad con las que se trabajen.
Data Warehouse, Data Warehouse Para el Análisis Poblacional Del Ecuador, agosto 2~2020

Fig 27: Consulta realizada por medio del Saiku Analytics en el BI Server.
A la izquierda se ven los parámetros de entrada y a la derecha está la tabla que muestra los resultados de
todas las discapacidades por las provincias del Ecuador.

Fig 28: Consulta realizada por medio del Saiku Analytics en el BI Server.
A la izquierda se ven los parámetros de entrada que cambian de granularidad en la dimensión ubicación, hasta
cantón y a la derecha está la tabla que muestra los resultados.

Fig 28: Consulta realizada por medio del Saiku Analytics en el BI Server.
A la izquierda se ven los parámetros de entrada que cambian de granularidad en la dimensión ubicación, hasta
parroquia y a la derecha está la tabla que muestra los resultados.
Data Warehouse, Data Warehouse Para el Análisis Poblacional Del Ecuador, agosto 2~2020

Además se menciona que es posible realizar filtraciones en los datos de tal forma que los resultados se muestran según sea
necesario para responder las preguntas. Como se puede ver en la Figura 29, la misma consulta de las Figuras pasadas, se está filtrando
por nivel más bajo de granularidad en la dimensión ubicación, específicamente por la parroquia Cuenca, y se están mostrando todos
los valores de las distintas discapacidades. Pero como se puede ver en la Figura 30, en este caso se está filtrando por el nivel más alto
de la granularidad de la dimensión ubicación, específicamente por la provincia Azuay, y por solo un tipo de discapacidad, la
discapacidad permanente. En el caso de la Figura 30.b, se está mostrando por medio de un gráfico de líneas las respuesta a la consulta
filtrada previamente.

Fig 29: Consulta realizada por medio del Saiku Analytics en el BI Server.
Muestra los resultados de los diferentes tipos de discapacidades pero filtrado por la dimensión ubicación sobre la única parroquia Cuenca.

(a) Tabla que muestra el resultado con las


(b) Gráfica de línea que representa los picos en los valores. El más alto representa la suma total de la
primeras filas 27 de la consulta.
provincia. Los picos que también están pronunciados representan la suma total de cada cantón.
Figura 30: ​Consulta realizada por medio del Saiku Analytics en el BI Server. Los datos han sido filtrados a solo la provincia
del Azuay y a solo un tipo de discapacidad.

Cabe mencionar, que las consultas realizadas en este apartado, son solo un pequeño ejemplo de lo que se puede lograr cuando se
trabaja dentro del BI Server, pues se pueden realizar muchas más variaciones en las consultas y en la forma de visualizar los datos, ya
sea en tabla o en diferentes formatos de gráficas, como de barras, líneas, circulares, entre otros.

IV. MINERÍA DE DATOS

A continuación el análisis de información estará determinado por la utilización de la metodología CRISP-DM que es actualmente
la guía de referencia más utilizada en el desarrollo de proyectos de minería de datos por su completitud de descripción en sus
fases [6]. En este contexto se desarrolla la metodología mencionada anteriormente con las siguientes etapas:

1. Comprensión del Negocio


En esta fase se identifica desde un perspectiva del negocio los siguientes objetivos demarcados en la propuesta de valor inicial de
la investigación:
i)​ predecir las proyecciones poblacionales de los tres años posteriores.
ii) ​agrupamiento de viviendas de acuerdo a ciertas variables socioeconómicas a nivel nacional.
Entonces la meta es otorgar datos que puedan describir el flujo de crecimiento esperado de generaciones futuras y a través del
agrupamiento por viviendas contextualizar la realidad nacional con el fin de preveer o sanear situaciones futuras con políticas
econmóicas adecuadas según​ provincia, grupo de edad y sexo.​
Por otro parte es importante identificar los objetivos en términos de minería de datos como se describen a continuación:
i) P​ redecir el número de personas por sexo y grupo de edad que se proyectan como habitantes de cada provincia para los
siguientes tres años.
ii) ​Identificar una agrupación que determine características socioeconómicas referentes a viviendas que determinen
particularidades compartidas por grupos sociales de cada provincia.

2. Comprensión de los Datos


Data Warehouse, Data Warehouse Para el Análisis Poblacional Del Ecuador, agosto 2~2020

Los datos que se han empleado en el desarrollo de la metodología provienen como información resultante de la sección anterior
Cubos Multidimensionales.​ En efecto, para una mayor comprensión de manera más específica se describen la semántica y ubicación
de cada estructuras de información que se ha utilizado para el análisis de información en la TABLA III.

TABLA III: Estructuras de información utilizadas para el proceso de minería de datos.

Nombre de la tabla en el Descripción


Modelo Multidimensional

fact_sexo Información referente al número de personas bifurcadas por sexo que habitan una provincia
determinada, estos datos cubrieron el objetivo ​i)​ de la fase inicial.

fact_edad Información referente al número de personas bifurcadas por grupos de edad que habitan una
provincia determinada, estos datos cubrieron el objetivo ​i)​ de la fase inicial.

fact_viviendas Información referente a la cantidad de viviendas bifurcadas por su tipo de edificación que existen en
una provincia determinada, estos datos cubrieron el objetivo ​ii)​ de la fase inicial.

fact_higene Información referente a la cantidad de viviendas bifurcadas por su tipo de servicio higiénico que
existen en una provincia determinada, estos datos cubrieron el objetivo ​ii)​ de la fase inicial.

fact_aguas Información referente a la cantidad de viviendas bifurcadas por su tipo de procedencia de agua que
existen en una provincia determinada, estos datos cubrieron el objetivo ​ii)​ de la fase inicial.

fact_electricidad Información referente a la cantidad de viviendas bifurcadas por su tipo de servicio eléctrico que
existen en una provincia determinada, estos datos cubrieron el objetivo ​ii)​ de la fase inicial.

fact_basura Información referente a la cantidad de viviendas bifurcadas por su tipo de eliminación de basura que
existen en una provincia determinada, estos datos cubrieron el objetivo ​ii)​ de la fase inicial.

3. Preparación de los Datos


Inicialmente la preparación de datos no es una tarea compleja debido a que ya tenemos esquematizada la información en un
Modelo Multidimensional por lo que solamente es necesario realizar consultas directas sobre el SGBD. En este sentido obtendremos
archivos en formato CSV como se observa en la Figura 31.a, en donde se usa esta información para el análisis predictivo de las
proyecciones poblacionales. Por otro parte, en la Figura 31.b se puede identificar una de las variables socioeconómicas, tipo de
edificación,para el agrupamiento de tipo de viviendas por cada provincia.

(a) Información referente al número de personas bifurcadas (b) Información referente a la cantidad de viviendas bifurcadas por
por grupos de edad que habitan en este caso la provincia del Azuay. su tipo de edificación que existe en este caso la provincia del Azuay.
Figura 31: Documento CSV referente al proceso de selección y preparación de los datos.

4. Modelado
Continuando con el desarrollo de la presente metodología abarcamos el modelado del documento en el software Weka donde se
procede a utilizar un algoritmo de predicción para estimar el número de personas por sexo y grupo de edad que se proyectan como
habitantes de cada provincia para los siguientes tres años como se obsvera en la Figura 32.
Data Warehouse, Data Warehouse Para el Análisis Poblacional Del Ecuador, agosto 2~2020

Figura 32: Configuración básica del algoritmo de predicción (Time series forecasting en Weka) en donde
los parámetros más relevantes son marcar el variable objetivo, señalar el número de unidades
de tiempo a predecir, el time stamp y finalmente su periodicidad.

Además el software dedicado mencionado anteriormente permite la visualización idónea por el uso de su paquete destinado para
series de tiempo. De manera más específica se puede observar la no correlación de la tendencia en la Figura 33.a con respecto de los
datos históricos. Por otra parte la Figura 33.b se observa claramente que mantiene la tendencia de estimación del número de personas
por sexo que se proyectan como habitantes en este caso particular de la provincia del Azuay. En este contexto en la siguiente sección
Evaluación s​ e analizarán estos resultados.

(a) Gráfica de salida referente a la predicción otorgada por el (b) Gráfica de salida referente a la predicción otorgada por el
algoritmo de ​Linear Regression ​para estimar el número de personas algoritmo de ​Multilayer Perceptron ​para estimar el número de
por sexo que se proyectan como habitantes en este caso de la personas por sexo que se proyectan como habitantes en este caso
provincia del Azuay. de la provincia del Azuay.
Figura 33: Salida del software Weka en dos algoritmos de predicción utilizando el paquete de Time Series Forecasting.

5. Evaluación
En esta etapa se procede a la evaluación del algoritmo de predicción utilizado la configuración avanzada en Weka a través del
error absoluto medio, error cuadrático medio y error medio cuadrado​. En este sentido obtuvimos en donde los resultados reflejados
en la Figura 34 avalan la utilización del algoritmo de ​Multilayer Perceptron ​debido a que las métricas anteriormente analizadas son inferiores
en comparación con el uso del algoritmo de ​Linear Regression.

(a) Métricas parael algoritmo de ​Multilayer Perceptron ​para (b) Métricas para el algoritmo de ​Linear Regression ​para estimar
estimar el número de personas por sexo que se proyectan como el número de personas por sexo que se proyectan como habitantes
habitantes en este caso de la provincia del Azuay. en este caso de la provincia del Azuay.

Figura 34: Análisis comparativo de dos algoritmos de predicción que contiene el paquete de Time Series Forecasting en Weka

6. Despliegue
Finalmente en esta última sección se procede a visualizar los resultados referentes al caso particular de predicción del número de
personas por sexo que se proyectan como habitantes de cada provincia para los siguientes tres años como se obsvera en la Figura 32.

V. DASHBOARD

Un dashboard es un panel de datos en donde se visualiza la información más importante, es decir, una representación gráfica de las
principales consultas, permitiendo la optimización de la estrategia de la empresa. El dashboard transforma los datos en información y
facilita a los trabajadores la toma de decisiones.
Data Warehouse, Data Warehouse Para el Análisis Poblacional Del Ecuador, agosto 2~2020

Para la creación del Dashboard se decide realizar este proceso en el software Grafana, el cual facilita mucho el proceso de dar
respuesta a las preguntas que se plantearon al inicio de este trabajo. A continuación se adjunta algunas Figuras que hacen referencia al
Dashboard implementado, y como se ve desplegado con ciertas preguntas.

Fig ___: Captura de pantalla del Dashboard que muestra algunas de las variables utilizadas en la parte superior. En la parte inferior izquierda se
encuentra un panel que muestra la población ecuatoriana en el año de la consulta de la variable: 2010. Y en la parte inferior derecha se encuentra un
panel que muestra la densidad poblacional de cierta parroquia, respondiendo la pregunta​ vii)​ de la ​sección II.1.a.

Fig ___: Captura de pantalla del Dashboard que muestra la población de la provincia del Azuay con distintinción de Sexo.
Responde la pregunta​ i)​ de la ​sección II.1.a.

Fig ___: Captura de pantalla del Dashboard, enfocado a los grupos de edad por la provincia del Azuay en el año 2010.
Responde la pregunta​ iv)​ de la ​sección II.1.a.
Data Warehouse, Data Warehouse Para el Análisis Poblacional Del Ecuador, agosto 2~2020

Fig ___: Captura de pantalla del Dashboard, enfocado a tenencia del hogar en la parroquia Cuenca, cantón Cuenca,
provincia del Azuay en el año 2010. Responde la pregunta​ v)​ de la ​sección II.1.a.

Fig ___: Captura de pantalla del Dashboard, enfocado a los grupos étnicos de la parroquia Cuenca, cantón Cuenca,
provincia Azuay, en el año 2010. Responde la pregunta ​viii)​ de la ​sección II.1.a.

VI. CONCLUSIONES

El Data Warehouse en definitiva permite desarrollar el proyecto al crear bases de datos operativas que alberguen la información
que es realmente importante, logrando conciliar los resultados de las consultas de una forma más rápida e inductiva. El proceso de
construcción de un Data Warehouse es muy extenso y toma un tiempo considerable para obtener información bien estructurada y
valiosa que pueda ser utilizada de forma precisa acorde con las preguntas identificadas en el proceso de análisis de requerimientos.
Cabe mencionar que la limpieza y transformación de los datos provenientes de la fuente de datos, es un proceso sumamente
importante que influirá profundamente en los resultados que se quieren obtener.
Indiscutiblemente la generación de cubos multidimensionales es facilitada por el uso de herramientas que permiten realizar esta
tarea de una forma más eficiente siempre y cuando el diseño del Data Warehouse ha sido elaborado minuciosamente, ya que de ello
depende que los resultados que buscamos sean consistentes y de hecho faciliten y ayuden realmente al análisis de la información.
Finalmente, los resultados mostrados en este proyecto, reflejan una visión global del conjunto de preguntas seleccionadas que se
pueden responder con la información obtenida, lo que corresponde a las interrogantes establecidas e incluso a nuevas variantes, es que
el usuario final podrá averiguar más manipulando más a fondo el Data Warehouse.

REFERENCIAS

[1] Bernabeu, D. ​Capítulo 5: Metodología HEFESTO.​ [En línea]. Disponible en:


http://troyanx.com/Hefesto/captulo_5_metodologa_hefesto.html​. [Accedido: 15-jul-2020].
[2] Saquicela, V. Metodología de Creación de un Data Warehouse Hefesto. 27-sep-2015. [Accedido: 08-jul-2020]
Data Warehouse, Data Warehouse Para el Análisis Poblacional Del Ecuador, agosto 2~2020

[3] INEC. Instituto Nacional de Estadisticas y Censos. [En línea]. Disponible en:
https://www.ecuadorencifras.gob.ec/censo-de-poblacion-y-vivienda/.​ ​ [Accedido: 26-jun-2020].
[4] La Minería de Datos de la A a la Z: Cómo Descubrir Conocimientos y Crear Mejores Oportunidades. [En línea]. Disponible en:
https://www.sas.com/es_co/campaigns/analytics/data-mining-from-a-z-104937.html?gclid=EAIaIQobChMIy73q9Nr96gIVOv3jBx
05DAjEEAAYASAAEgJn1vD_BwE​. [Accedido: 30-jul-2020].
[5] Montoya, J. Qué es Pentaho BI Server. 13-nov-2019. [En línea]. Disponible en:
https://openwebinars.net/blog/que-es-pentaho-bi-server​. [Accedido: 22-jul-2020].
[6] Moine, J. Gordillo, S. Haedo, A. Análisis comparativo de metodologías para la gestión de proyectos de minería de datos. oct-2011.
[Accedido: 30-jul-2020]

Kamila N. Molina Orellana. Estudiante de la carrera de Ingeniería en Sistemas


en la Facultad de Ingeniería de la Universidad de Cuenca, décimo ciclo.
Bachiller en Ciencias Básicas, graduada en el colegio "La Asunción".

E. Mateo Quizhpi Peralta. Estudiante de la carrera de Ingeniería en Sistemas


en la Facultad de Ingeniería de la Universidad de Cuenca, décimo ciclo.
Bachiller con especialización en Aplicaciones Informáticas, graduado en la
Unidad Educativa "Técnico Salesiano".

También podría gustarte