Está en la página 1de 15

UNIVERSIDAD NACIONAL DE SAN AGUSTIN DE AREQUIPA

FACULTAD DE INGENIERIA DE PRODUCCION Y SERVICIOS

ESCUELA PROFESIONAL DE INGENIERÍA DE SISTEMAS

Curso : ​Inteligencia de Negocios

Docente : ​Perez Vera, Yasiel

Metodologías para el diseño de almacenes de datos

Elaborado por :​ Layme Aviega, Maryure Rotbel


Mejia Manzanares, Bryan Walter
Montoya Muñoz, Solansh
Núñez Ccahuaya, Gary Farid
Rojas Huarhua, Renzo Eduardo

Septiembre 2020

Arequipa -Perú
Metodologías para el diseño de
almacenes de datos
Maryure Layme, Solansh Montoya, Bryan Mejia, Gary Nuñez, Renzo Rojas
Ingeniería de Sistemas, Universidad Nacional San Agustín de Arequipa
Arequipa - Perú
mlaymea@unsa.edu.pe​, ​smontoya@unsa.edu.pe​, ​bmejia@unsa.edu.pe​,
gnunezc@unsa.edu.pe​, ​rrojash@unsa.edu.pe

INTRODUCCIÓN
Los almacenes de datos (data warehouses) son colecciones de datos orientadas a un
determinado ámbito, que integra y depura información de una o varias fuentes para luego
procesarlas y analizarlas, siendo de utilidad para una determinada entidad.
La ventaja de estos almacenes de datos radica en su estructura que puede ser en estrella,
en copo de nieve, cubos relacionales, entre otros. En el presente informe se presentan las
distintas metodologías para el diseño de almacenes de datos.

DESARROLLO
Kimball
Los almacenes de datos (data warehouses en inglés) toman cada día mayor importancia, a
medida que las organizaciones pasan de esquemas de sólo recolección de datos a
esquemas de análisis de los mismos.[1]
Antes de empezar veamos el mismo Kimball define su metodología y la propone de la
siguiente manera la define como “una copia de los datos transaccionales estructurados
específicamente para consultas y análisis”[1]. Actualmente uno de los mayores
impedimentos para construir este tipo de almacenes de datos es la falta de conocimiento de
metodologías adecuadas para su implementación, y la disciplina para cumplirlas.
La metodología se basa en lo que Kimball denomina Ciclo de Vida Dimensional del Negocio
(Business Dimensional Lifecycle) [2].
Podemos ver los cuatro principios básicos de la metodología que Kimball nos plantea y los 4
ejes en los que se mueve este, a continuación:
● Centrarse en el negocio​: Hay que concentrarse en la identificación de los
requerimientos del negocio y su valor asociado, y usar estos esfuerzos para
desarrollar relaciones sólidas con el negocio, agudizando el análisis del mismo y la
competencia consultiva de los implementadores.[3]
● Construir una infraestructura de información adecuada​: Diseñar una base de
información única, integrada, fácil de usar, de alto rendimiento donde se refleja la
amplia gama de requerimientos de negocio identificados en la empresa.[3]
● Realizar entregas en incrementos significativos: Esto significa crear el almacén
de datos en incrementos entregables en plazos de 6 a 12 meses. Hay que usar el
valor de negocio de cada elemento identificado para determinar el orden de
aplicación de los incrementos. [3]
● Ofrecer la solución completa​: proporcionar todos los elementos necesarios para
entregar valor a los usuarios de negocios. Para comenzar, esto significa tener un
almacén de datos sólido, bien diseñado, con calidad probada, y accesible.[3]
La metodología de Kimball proporciona una base empírica y metodológica adecuada para
las implementaciones de almacenes de datos pequeños y medianos, dada su gran
versatilidad y su enfoque ascendente, que permite construir los almacenes en forma
escalonada. Además presenta una serie de herramientas, tales como planillas, gráficos y
documentos, que proporcionan una gran ayuda para iniciarse en el ámbito de la
construcción de un Datawarehouse.[5]
Ventajas del enfoque de Kimball
Algunos de los principales beneficios del enfoque de diseño de Kimball incluyen:[5]
● El modelo dimensional es rápido de construir ya que no hay normalización
involucrada, lo que significa una ejecución rápida de la fase inicial de
almacenamiento de datos diseño de procesos.
● La mayoría de los operadores de datos pueden comprender fácilmente el esquema
en estrella y, debido a su estructura desnormalizada, simplifica las consultas y el
análisis.
● La huella del sistema de almacenamiento de datos es trivial porque se centra en
áreas y procesos comerciales individuales en lugar de en toda la empresa. Por lo
tanto, ocupa menos espacio en la base de datos, lo que simplifica la administración
del sistema.
● Permite la recuperación rápida de datos desde el almacén de datos; ya que los
datos se segregan en tablas de hechos y dimensiones.
● Un equipo más pequeño de diseñadores y planificadores es suficiente para la
gestión del almacén de datos porque los sistemas de origen de datos son bastante
estables y el almacén de datos está orientado a los procesos. Además, la
optimización de consultas es sencilla, predecible y controlable.
● Usando dimensiones conformadas, una herramienta de inteligencia de negocios
puede atravesar varios esquemas en estrella para la generación de informes.
Desventajas del enfoque de Kimball
Algunos de los inconvenientes del enfoque de diseño de Kimball incluyen:[5]
● Como los datos no están completamente integrados antes de informar, se pierde la
idea de una 'única fuente de verdad'.
● Las irregularidades pueden ocurrir cuando se actualizan los datos. Esto se debe a
que en la desnormalización, se agregan datos redundantes a las tablas de la base
de datos.
● Pueden producirse problemas de rendimiento debido a la adición de columnas en la
tabla de hechos; ya que estas tablas son bastante profundas. La adición de nuevas
columnas puede expandir las dimensiones de la tabla de hechos, afectando su
rendimiento.
● Como el modelo está orientado a los procesos empresariales, en lugar de centrarse
en la empresa en su conjunto, este enfoque no puede manejar todos los requisitos
de informes de BI.
● El proceso de incorporar una gran cantidad de datos heredados en el almacén de
datos es complejo.

CRISP-DM
Cross Industry Standard Process for Data Mining (CRISP-DM) es una metodología usada
generalmente en minería de datos. Es descrita como un modelo jerárquico de procesos,
formado por un conjunto de tareas organizadas en niveles de abstracción [13].
Entidades o autores de la metodología
CRoss-Industry Standard Process for Data Mining (CRISP-DM) fue desarrollado por Daimler
Chrysler, SPSS y NCR en el año 1999 creando la primera versión del mismo [15].
Características
Dentro de las características mostradas por [13] podemos encontrar:
● Posee cuatro niveles de abstracción: fase, tarea genérica, tarea especializada e
instancia de procesos.
● El procedimiento es entendible y altamente aplicable
● Las tareas son en general completas y estables
● Posee una descripción de pasos en fases y tareas
Fases
Esta metodología consta de 6 fases principales:
● Comprensión del negocio: Cuyo enfoque es poder entender los objetivos del
proyecto y las exigencias desde un punto de vista de negocio, es decir a alto nivel.
Luego, este conocimiento de los datos es definido en un problema de minería de
datos y en un plan preliminar diseñado para alcanzar los objetivos [13]. Según [14]
esta sería la fase fundamental para un proyecto de minería de datos exitoso.
● Comprensión de los datos: Fase en donde el analista o analistas realizan una
colección inicial de data (tomando en consideración la calidad de esta) y se
familiarizan con la misma [14]. Asimismo, [13] indica que en esta fase se reconocen
datos, se identifican los diversos problemas de calidad que se puedan tener, se
descubren los primeros conocimientos ocultos en ellos y con ello se inicia con el
descubrimiento de subconjuntos interesantes para formular hipótesis.
● Preparación de datos: En esta fase se cubren todas las actividades necesarias
para construir un conjunto de datos final basado en los datos en bruto iniciales.
Dichas actividades incluyen la selección de tablas, registros y atributos; la
transformación; y la limpieza de datos para las herramientas encargadas del
modelado [13]. Aquí las pruebas preliminares estadísticas pueden ser útiles para
observar posibles acciones en cuanto a calidad de datos se refieren [14].
● Modelado: En esta fase [13] nos indica que se seleccionan y aplican varias técnicas
de modelado y se calibran sus parámetros a valores óptimos. Es por ello que [14]
hace referencia a la alta complejidad que puede existir en esta fase debido a la gran
variedad de técnicas y algoritmos.
● Evaluación: Previo al despliegue final del modelo, es de suma importancia evaluarlo
y revisar los pasos ejecutados para su creación, esto con la finalidad de comparar el
modelo correctamente obtenido con los objetivos de negocio [13]. [14] menciona que
en la evaluación se debe tomar en cuenta los objetivos del proyecto, los modelos
usados y la relación costo-beneficio.
● Desarrollo y control: La complejidad de esta fase puede variar de ser tan simple
como la generación de un informe a ser compleja como la realización repetida de un
proceso cruzado de minería de datos a lo largo de la empresa [13]. En esta fase
todos los lineamientos organizacionales y estratégicos son direccionados y
monitoreados basados en un plan de implementación [14].
Fig. 1. Ciclo de la Metodología CRISP-DM [13].

Ventajas
[13], [14] y [15] nos mencionan las siguientes ventajas:
● Ayuda a los usuarios a realizar sus primeras progresiones en la minería de datos
● Provee un marco de trabajo uniforme y guiado para mineros de datos
● Si los pasos mencionados en la guía se realizan en un orden específico puede
representar una secuencia ideal de eventos
● Las fases están bien estructuradas y definidas
Desventajas
[13] y [14] hacen énfasis en las siguientes desventajas:
● Varios autores plantean el problema de la informalidad en sus primeras etapas por lo
que el analista debe intuir y realizar un análisis para fundamentar el proceso
● En la práctica, muchas de las tareas se llegan a realizar en un orden diferente y, por
ello, en general se debe volver a hacer tareas y acciones anteriores repetidamente.
● Existe un manejo débil en cuanto a la gestión del conocimiento para asegurar la
sostenibilidad a largo plazo del conocimiento generado.
Herramientas que usan CRISP-DM
SPSS Modeler de IBM presenta una extensión dedicada a proyectos CRISP-DM
proporcionando un método estructurado de minería de datos. Ofrece también varias
facilidades para integrar las Clases creadas con el Modelador y ver la organización de rutas
y resultados en base a las fases de CRISP-DM.
CMIN es una herramienta CASE (Computer Aided Software Engineering) basada en
CRISP-DM para proyectos de minería de datos ya que existe un módulo de gestión de
procesos en el cual se pueden definir los pasos, tareas, estados y campos de cada fase de
un proceso. De esta forma se puede fácilmente registrar CRISP-DM en CMIN [16].
Tipos de almacenes de datos que se pueden diseñar con CRISP-DM
Un campo de aplicación para esta metodología es el sector bancario, ya que se ha
observado un trabajo en esta área en donde el desarrollo de las primeras fases se ha
realizado de manera intuitiva y no se propusieron modificaciones adicionales al modelo
original [13].
Otro estudio en donde se usó la metodología y se comprobó su eficiencia en la práctica fue
en el sector agrario, donde se necesitaba determinar por medio de índices de vegetación si
un campo en términos de cobertura es mejor que otro o no. La metodología pudo ser
fácilmente implementada garantizando calidad, validez y confiabilidad en los datos del
estudio [17].

Rapid Warehousing Methodology


Es un conjunto de mejores prácticas, cuyo objetivo es el desarrollo rápido de proyectos de
data warehouse, el cual está basado en procesos iterativos e incrementales, que divide un
proyecto potencialmente grande en varios más pequeños, llamados entregables. Cada
entregable incluye documentación técnica, administración del proyecto y procesos de
aseguramiento de calidad, dentro de cada una de sus etapas.[7]
Características
Define responsabilidades, recursos asignados y metas claras para cada fase del proyecto.
Fases
1. Evaluación:
Esta fase consiste en evaluar si la organización está lista para crear un proyecto de
data warehouse.[9] Está compuesto por dos etapas:
1.1 Definición del proyecto: ​Define las áreas de la organización que podrían
beneficiarse del datawarehouse.
1.2 Evaluación de la infraestructura IT: ​En está etapa se valida la
capacidad de la infraestructura tecnológica de la organización para alojar las
demandas y requerimientos del data warehouse.
2. Requerimientos:
Esta fase se lleva a cabo cuando se ha tomado la decisión de construir el data
warehouse, y encamina las necesidad de alto nivel al medio ambiente del data
warehouse.Los requerimientos del negocio y técnicos son reunidos durante esta
fase.[8]
2.1 Reunión de requerimientos: Donde se toma las necesidades de
información de las unidades organizativas a través de varios métodos de
recolección de requerimientos.
2.2 Análisis: ​Se realiza un análisis entre los requerimientos de los usuarios
de la organización y la capacidad de la infraestructura de IT.
3. Diseño:
Esta fase toma como entrada el documento de definición de requerimientos, se
enfoca en la construcción del proyecto a tiempo.[9]
● Diseño lógico y físico para el modelo de datos del data warehouse.
● Especificación detallada del modelo del proceso para extracción,
transformación y carga.
● Creación del modelo de la aplicación o herramientas de explotación.
● Diseño de aspectos adicionales tales como: modelos de los metadatos y la
seguridad.
4. Construcción
Durante esta fase se construye el modelo físico de datos en base al modelo lógico
diseñado. [9]Esto se lleva a cabo dentro de tres etapas:
4.1 Administración: Donde los datos transaccionales son extraídos y
transformados en los datos que se cargarán al data warehouse esto está
compuesto por algunos subproceso: validación, depuración e integración.
4.2 Organización:​En esta etapa los datos son cargados al data warehouse,
las estructuras de datos son indexadas, y las vistas a ellos son creados , los
metadatos son capturados y creados.
4.3 Explotación: ​En esta etapa se encarga de construir mecanismos de
acceso al data warehouse(GUIs )para el análisis, reportes y gráficas.
5. Pruebas finales
En esta fase un equipo de aseguramiento de calidad, prueba el sistema antes de ser
entregado al cliente verificando que el sistema incluya todos los requerimientos
funcionales basados en casos de prueba.[9]
6. Despliegue
Tiene que ver con la instalación, puesta en marcha, entrenamiento de los usuarios,
uso del data warehouse[9].
7. Revisión
Durante esta fase se realiza una evaluación del data warehouse planteando
preguntas que permitan mejorar o potenciar la utilización que se haga del nuevo
sistema.[9]
Ventajas:
● Despliegue rápido de los entregables a los usuarios del negocio.[10]
● Retorno rápido de la inversión.
● Reducción de riesgos.
● Procesos iterativos.
● Realiza un análisis de riesgos enfocado a identificar posibles problemas y mitigar
riesgos en el desarrollo del proyecto.
Desventajas:
● Los sistemas que facilitan la rápida producción de estructuras para su uso, esto
produce que el análisis de información a través de toda la estructura de datos sea
complejo.[11]
● Las consultas analíticas que resumen grandes volúmenes de datos afectan
negativamente la capacidad del sistema para responder a las transacciones en
línea, limitando su mayor beneficio.[11]

Hefesto
Según [17] nos menciona que Hefesto se ha convertido con el paso de los años en una
metodología robusta para la creación de Data Warehouse (DW) desde cero, su
pragmatismo facilita la adaptación con cualquier ciclo de vida al enfocarse en el análisis de
requerimientos, análisis de fuentes de datos para la elaboración e implementación de DW.
La metodología Hefesto se encuentra fundamentada por una amplia investigación y
comparativa entre diferentes metodología existentes, además de por las expectativas
propias del autor, las cuales continúan en una constante evolución teniendo así como valor
agregado todas aportaciones de la gran comunidad que usa Hefesto como metodología de
desarrollo de almacenes de datos.
Entidades o autores de la metodología
Hefesto es una metodología creada por el Ing. Bernabeu Ricardo Dario, Ingeniero de
Sistemas por el Instituto Universitario Aeronáutico (IUA). La primera versión de Hefesto se
remonta al año 2007 y con el paso del tiempo se tiene como más reciente actualización es
Hefesto versión 3 publicada en 2018 con colaboración del Ing. Fernández Carlos y el Ing.
Mattio Garcia Mariano.
Características
En [17], [18] y [19] nos mencionan las siguientes características:
● Los objetivos y resultados esperados en cada fase se distinguen fácilmente y son
sencillos de comprender.
● La piedra fundamental la constituyen los requerimientos de los usuarios, por lo cual,
su estructura es capaz de adaptarse con facilidad y rapidez a los cambios del
negocio.
● Reduce drásticamente la resistencia al cambio ya que involucra a los usuarios
finales en cada etapa para que tomen decisiones respecto al comportamiento y
funciones del DW, y además que expone resultados inmediatos.
● Los modelos conceptuales y lógicos que se implementan son de sencilla
comprensión y análisis.
● Es independiente del software/hardware que se utilicen para su implementación.
● La metodología es independiente de las estructuras físicas que contengan el
almacén de datos y de su respectiva distribución.
● Cuando se culmina con una fase, los resultados obtenidos se constituyen en la
entrada de la fase siguientes.
● Se aplica tanto para almacenes de datos como para Data Mart.
Fases
Según [17], [18] y [19] Hefesto se encuentra compuesto por las siguientes fases
1. Análisis de requerimientos: Lo primero que se debe de hacer es reconocer los
requerimientos de los usuarios a través de preguntas que revelen los objetivos de la
organización, haciendo uso de técnicas y herramientas como las entrevistas,
encuestas, cuestionarios, observación, diagrama de flujo y el diccionario de datos,
las cuales deben ser analizadas con el fin de establecer cuáles serán los indicadores
y perspectivas que se deben de tomar en cuenta para la construcción del almacén
de datos.
1.1. Preguntas del negocio: La idea central en esta etapa es el de formular
preguntas complejas sobre el negocio, enfocadas a las necesidades de
información en los procesos principales que desarrolle la empresa en
cuestión, se debe de corroborar que el resultado de estas preguntas haga
explícitos los objetivos estratégicos planteados por la empresa en cuestión.
1.2. Indicadores y Perspectivas: Los indicadores son valores numéricos como el
saldo, importes, promedios, etc. que representa lo que se debe de analizar
concretamente, mientras que, las perspectivas hacen referencia a las
entidades mediante las cuales se examinarán los indicadores, que pueden
ser por ejemplo los clientes, proveedores, sucursales, etc.
1.3. Modelo Conceptual: En esta etapa se construye el modelo conceptual a partir
de los indicadores y perspectivas que se obtuvieron un paso antes. El
modelo conceptual es la descripción a alto nivel de la estructura de la base
de datos, donde la información se representa a través de objetos, relaciones
y atributos. Es gracias a este modelo que se puede observar con claridad los
alcances del proyecto para poder trabajar sobre ellos, además que, puede
ser presentada a los usuarios y explicado con facilidad.
2. Análisis de data sources: El análisis de las fuentes de datos permite establecer cómo
se obtendrán los indicadores de acuerdo al modelo conceptual formulado en la fase
anterior, luego se incluirán en los campos para cada perspectiva y finalmente se
ampliará el modelo conceptual ya definido.
2.1. Hechos e Indicadores: Llegada a esta etapa se debe explicitar cómo se
calcularán los indicadores definiendo los hechos que lo componen, con su
respectiva fórmula de cálculo y la función de agregación que se ira a utilizar.
2.2. Mapeo: El mapeo se busca examinar los Data Sources e identificar
características propias asegurándose de que los data source disponibles
contengan los datos requeridos, tras esto se debe establecer cómo serán
obtenidos los elementos definidos en el modelo conceptual, estableciendo asi
una correspondencia directa entre el Modelo Conceptual y los Data Sources.
2.3. Granularidad: Basado en el Mapeo establecido un paso atrás es importante
conocer en detalle el significado de cada campo y/o valor de los datos
encontrados, por lo cual es conveniente investigar su significado, bien a
través de diccionarios de datos, reuniones con los encargados del sistema,
análisis de datos. Los usuarios son quienes deben decidir cuales son los que
se consideran relevantes para consultar los indicadores y cuáles no, por lo
cual, es necesario exponer los datos existentes frente a los usuarios.
2.4. Modelo Conceptual Ampliado: En este paso se amplía el Modelo Conceptual
concebido una fase antes, graficando los resultados obtenidos en esta fase,
en esta ampliación del modelo conceptual se coloca debajo de cada
perspectiva los campos seleccionados y debajo de cada indicador su
respectiva fórmula de cálculo.
3. Modelo lógico del DW: En esta fase se busca confeccionar el modelo lógico de la
estructura del DW, teniendo como base al modelo conceptual. El modelo Lógico es
la representación de la estructura de datos que puede procesarse y almacenarse en
algún SGBD.
3.1. Tipología: En este paso se selecciona el tipo de esquema que el modelo
lógico seguirá, es necesario seleccionar el modelo que mejor se adapte a los
requerimientos de los usuarios. Entre las opciones de esquema que se tiene
son esquema estrella, copo de nieve y constelación, la elección de un
esquema afecta considerablemente la elaboración del modelo lógico.
3.2. Tablas de dimensiones: En este paso se diseñan las tablas de dimensiones
que conforman el DW, correspondientemente cada perspectiva representada
en el modelo conceptual junto a sus campos se a de construir en una tabla
de dimensión, para esto se debe elegir un nombre que la identifique la tabla,
añadirle un campo que represente su clave principal y definir los nombres de
los campos si no son de fácil entendimiento.
3.3. Tablas de Hechos: En cuanto a las tablas de hechos estas varían según el
esquema que se haya decidido seguir, de esta forma tenemos que si se ha
optado por esquemas estrella o copo de nieve se tiene una secuencia
reducida de pasos para su elaboración, pero sí en cambio se hace uso del
esquema constelación su secuencia de pasos es más compleja por los
distintos casos que se pueden presentar, pero a su vez es más ajustada a la
realidad del modelo conceptual. Las tablas de hechos representan aquellas
tablas que muestran la interacción entre los indicadores identificados.
3.4. Uniones: Las uniones se realizan correspondientemente entre las tablas de
dimensiones y las tablas de hechos para los tres tipos de esquemas.
4. Integración de Datos: Una vez ya se cuenta con el Modelo Lógico, resultado de la
fase anterior, se procede a poblar dicho modelo con los datos respectivos, haciendo
uso de técnicas de limpieza y calidad de datos, procesos ETL, etc. Estas tareas
mencionadas tienen una lógica compleja. Pero, Afortunadamente en la actualidad
existen muchas herramientas que se emplean para facilitar en gran parte la carga de
trabajo que estas representan.
4.1. Carga Inicial: En este paso se debe poblar el modelo construido en pasos
anteriores asegurando de haber llevado adelante las tareas básicas como la
limpieza y calidad de datos, procesos ETL, etc. Se debe evitar que el DW sea
cargado con Missing Values, Datos anómalos o faltos de integridad, para lo
cual se deben establecer condiciones y restricciones que aseguren que los
datos a utilizar son los de interés.
4.2. Actualización: En este paso se establecen las políticas y estrategias de
actualización periódica, donde se llevan a cabo las acciones como:
Determinar el proceso de limpieza y calidad de datos, los procesos ETL, etc.
que se realizarán al momento de actualizar los datos del DW. Especificar las
acciones que realizarán cada Software anexado.
Ventajas
● Puede ser utilizado en cualquier ciclo de vida que no requiera de fases extensas de
requerimientos y análisis, con el fin de entregar una implementación que cumpla con
parte de las necesidades proporcionadas por el usuario. [18]
● Especifica al detalle los pasos que se deben seguir al momento de seguir la
metodología en cada una de sus fases a diferencia de otras metodologías que
mencionan los procesos pero no explican o no ahondan en el cómo realizarlos. [18]
● En una comparativa realizada sobre las metodologías Kimball, Hefesto y SAS se
observó que la metodología Hefesto cumple con la mayoría de los índices tomados
en cuenta de cada uno de los indicadores que el análisis expuso, esto debido a que
Hefesto brinda una mayor cohesión en la construcción del Data Warehouse logrando
así cumplir con la mayor cantidad de los indicadores establecidos. [17]
● Hefesto se encuentra en constante feedback de sus usuarios lo que le permite ir
puliendo las ideas y argumentos que se ven reflejados en las distintas versiones de
la metodología que se han presentado. Ello ha posibilitado una escritura y un
abordaje de los conceptos más accesible que sin invalidar la complejidad y solidez
conceptual que el tema requiere. [19]
Desventajas
● Una de sus principales desventajas que se señala comúnmente como un elemento
negativo es que la última fase de la metodología Hefesto es el proceso ETL en sí por
lo que no permite la obtención del modelo conceptual, logico y fisico.[17]
● En [17], [18] y [19], se detallan que durante todo el proceso de desarrollo siguiendo
esta metodología, los usuarios finales, encargados, expertos, etc. cumplen un papel
importante dentro del proceso, ya que son ellos quienes hacen la toma de
decisiones y guían el desarrollo del almacén de datos, para lo cual la metodología
hefesto crea una dependencia de que estos individuos dispongan del tiempo y la
capacidad de interactuar en el proyecto, esto a comparación de otras metodologías
en las cuales no es tanta la dependencia hacia contar con la disposición de tiempo
de los usuarios.
● La fase de Integración de datos donde se contemplan las etapas de carga inicial y
actualización requieren de la integración de herramientas necesarios para asegurar
la limpieza y la calidad de los datos además de adoptar un proceso ETL para
asegurar el correcto funcionamiento e integridad de la información que se ingresa al
DW, esto le agrega un mayor costo al desarrollo de esta metodología además que la
hace más compleja ya en sus instancias finales en comparación con otras opciones.
CONCLUSIONES
Los almacenes de datos son un conjunto de datos que al procesarlos y analizarlos
devuelven información valiosa para la entidad que los usan. La investigación de los
principios teóricos de las metodologías como lo son Kimball, Hefestos , SAS, etc. Se han
convertido en el sustento para el desarrollo de soluciones Data Warehouse, gracias a la
rapidez y sencillez en la obtención de reportes.
Elegir una u otra metodología de entre las expuestas en esta investigación o alguna otra de
las existentes a la hora de desarrollar un almacén de datos dependerá en gran medida de
las características propias de cada metodología y del almacén de datos que se busca
implementar. Cada metodología cuenta con distintas fases con sus propios objetivos,
además que cada metodología puede contemplar el ciclo de vida de diferentes formas

REFERENCIAS
[1] Imhoff & Galemmo, Mastering Data Warehouse Design: Relational and Dimensional
Techniques, Wiley Publishing, 2003
[2] Inmon, Building the Data Warehouse, (Third Edition). John Wiley & Sons, 2002
[3] Kimball & Caserta, The Data Warehouse ETL Toolkit, Indianapolis, Wiley, 2004.
[4] Kimball & Merz, The Data Webhouse Toolkit: Building the WebEnabled Data
Warehouse, Wiley, 2000.
[5] Kimball & Ross, The Data Warehouse Toolkit: The Complete Guide to Dimensional
Modeling (Second Edition), New York, Wiley, 2002.
[6] Kimball & Ross, The Kimball Group Reader; Relentlessly Practical Tools for Data
Warehousing and Business Intelligence, Indianapolis, Wiley, 2010.
[7] “Data Warehousing Implementation with the SAS System”;SAS institute Inc;Paper
132.​https://support.sas.com/resources/papers/proceedings/proceedings/sugi22/DAT
AWARE/PAPER132.pdf
[8] “SAS Rapid Warehousing Methodology”; SAS e-intelligence;Paper sas43093_0501
http://www.rrc.si/papers/sas43093_0501.pdf
[9] HUGHES, Ralph. Agile Data Warehousing: Delivering world-class business
intelligence systems using Scrum and XP. IUniverse, 2008.
[10] WIDOM, Jennifer. Research problems in data warehousing. En Proceedings of
the fourth international conference on Information and knowledge management.
1995. p. 25-30.
[11] EDWARDS, K. SAS Rapid Warehousing Methodology. SAS Institute, White
Paper, 1998.
[12] J. C. M. Zapata and N. Gil, “Incorporation of both pre-conceptual schemas and
goal diagrams in CRISP-DM,” ​2011 6th Colomb. Comput. Congr. CCC 2011​, pp.
1–6, 2011, doi: 10.1109/COLOMCC.2011.5936284.
[13] F. Schafer, C. Zeiselmair, J. Becker, and H. Otten, “Synthesizing CRISP-DM and
Quality Management: A Data Mining Approach for Production Processes,” in ​2018
IEEE International Conference on Technology Management, Operations and
Decisions (ICTMOD)​, Nov. 2018, pp. 190–195, doi: 10.1109/ITMC.2018.8691266.
[14] U. Shafique and H. Qaiser, “A Comparative Study of Data Mining Process Models
( KDD , CRISP-DM and SEMMA ),” ​Int. J. Innov. Sci. Res.,​ vol. 12, no. 1, pp.
217–222, 2014, [Online]. Available: ​http://www.ijisr.issr-journals.org/​.
[15] A. Nadali, E. N. Kakhky, and H. E. Nosratabadi, “Evaluating the success level of
data mining projects based on CRISP-DM methodology by a Fuzzy expert system,”
ICECT 2011 - 2011 3rd Int. Conf. Electron. Comput. Technol.,​ vol. 6, pp. 161–165,
2011, doi: 10.1109/ICECTECH.2011.5942073.
[16] H. J. G. Palacios, G. A. H. Pantoja, A. A. M. Navarro, I. M. A. Puetaman, and R.
A. J. Toledo, “Comparativa entre CRISP-DMy SEMMA para la limpieza de datos en
productos MODIS en un estudio de cambio de cobertura y uso del suelo:,” ​2016
IEEE 11th Colomb. Comput. Conf. CCC 2016 - Conf. Proc.​, 2016, doi:
10.1109/ColumbianCC.2016.7750789.
[17] SILVA PEÑAFIEL, Geovanny Euclides. Análisis de metodologías para la
implementación de un data warehouse aplicado a la toma de decisiones del Instituto
Nacional de Patrimonio Cultural Regional 3. 2018. Tesis de Maestría. Pontificia
Universidad Católica del Ecuador.
[18] BRIZUELA, Eric Ismael Leonard; BLANCO, Yudi Castro. Metodologías para
desarrollar Almacén de Datos. Revista de arquitectura e Ingeniería, 2013, vol. 7, no
3, p. 1-12.
[19] HEFESTO DATA WAREHOUSING Guia completa de aplicación teórico-práctica;
metodología Data Warehouse, disponible en:
https://sourceforge.net/projects/bihefesto/files/Hefesto/

También podría gustarte