Está en la página 1de 36

Borrador Tesis V0.

LA INTELIGENCIA DE NEGOCIOS BASADA EN EL PROCESO UNIFICADO

EDWAR JAVIER HERRERA OSORIO

UNIVERSIDAD NACIONAL DE COLOMBIA


FACULTAD DE INGENIERIA
DEPARTAMENTO DE INGENIERÍA E INDUSTRIAL
BOGOTÁ D.C.
2009
Borrador Tesis V0.2

LA INTELIGENCIA DE NEGOCIOS BASADA EN EL PROCESO UNIFICADO

EDWAR JAVIER HERRERA OSORIO

Tesis de grado para optar el título de


Magíster en Ingeniería de sistemas y Computación

Director
ELIZABETH LEÓN GUZMÁN
Ph. D. en Ciencias de la Computación

UNIVERSIDAD NACIONAL DE COLOMBIA


FACULTAD DE INGENIERIA
DEPARTAMENTO DE INGENIERÍA E INDUSTRIAL
BOGOTÁ D.C.
2009
Borrador Tesis V0.2

UNIVERSIDAD NACIONAL DE COLOMBIA


Facultad de Ingeniería
Coordinación Curricular
Ingeniería de Sistemas e Industrial
Sede Bogotá

DIRECTOR: Ph. D. Elizabeth León Guzmán

REALIZADO POR: Edwar Javier Herrera Osorio Cód. 299775

LA INTELIGENCIA DE NEGOCIOS BASADA EN EL PROCESO UNIFICADO.

BUSINESS INTELLIGENCE WITH UNIFIED PROCESS.

RESUMEN

El presente proyecto presenta como se le puede aplicar al proceso de inteligencia


de negocios la metodología para el desarrollo software “proceso unificado”. El
proceso unificado es conocido como un estándar adoptado la OMG y tiene como
principal objetivo realizar el desarrollo por medio de fases y flujos de trabajo.…..

ABSTRACT

This project as it may apply to the business intelligence methodology for software
development "unified process". The unified process is known as standard adopted
by the OMG and its main objective is to perform through the development phases
and workflows…..
Borrador Tesis V0.2

Palabras Claves: Proceso unificado, Bodega de datos, Minería de datos,


inteligencia de negocios, Proceso de ingeniería en bodega de datos, proceso de
ingeniería en minería de datos, Proceso de ingeniería en inteligencia de negocios.

KEY WORDS: unified process (UP), data warehouse (DW), data mining (DM),
business intelligence (BI), Data Warehouse Engineering Process (DWEP), Data
Mining Engineering Process (DMEP), Business Intelligence Engineering Process
(BIEP).

___________________________
Ph. D. Elizabeth León Guzmán
Director Proyecto de Grado
Borrador Tesis V0.2

TABLA DE CONTENIDO

CAPÍTULO I ............................................................................................................ 9
INTRODUCCIÓN ................................................................................................. 9
MOTIVACIÓN .................................................................................................... 10
OBJETIVOS ....................................................................................................... 10
APORTES .......................................................................................................... 11
ORGANIZACIÓN DEL DOCUMENTO ............................................................... 11
CAPITULO II ......................................................................................................... 12
PROCESO DE INTELIGENCIA DE NEGOCIOS. .............................................. 12
EL PROBLEMA DE LA INTELIGENCIA DE NEGOCIOS. ................................. 14
BODEGA DE DATOS. ....................................................................................... 15
Componentes de la bodega de datos............................................................. 15
Modelo de datos............................................................................................. 16
MINERÍA DE DATOS......................................................................................... 17
Definición de KDD .......................................................................................... 17
CRISP-DM ..................................................................................................... 18
FASES DEL DWEP Y PROCESO UNIFICADO ................................................ 20
Fase de inicio: ................................................................................................ 20
Fase de elaboración: ...................................................................................... 20
Fase de construcción: .................................................................................... 21
Fase de transición: ......................................................................................... 21
CAPITULO III ........................................................................................................ 22
BODEGA DE DATOS CON UML 2.1 ................................................................. 22
Flujos de Trabajo de DWEP 2.1.1 .................................................................. 22
MINERIA DE DATOS CON UML 2.0 ................................................................. 30
Desarrollo del proceso de la minería de datos. .............................................. 30
Proceso de ingeniería a la minería de datos. ................................................. 30
INTELIGENCIA NEGOCIOS BASADA EN UML 2.0 .......................................... 30
Integración del proceso de ingeniería de la bodega de datos y la minería de
datos. ............................................................................................................. 30
CAPITULO IV ........................................................................................................ 31
Borrador Tesis V0.2

VALIDACIÓN DEL MODELO DE PROCESO DE INGENIERIA A LA


INTELIGENCIA DE NEGOCIOS ........................................................................ 31
Problema de la vida real: Supermercado ....................................................... 31
Selección y pre-procesamiento de datos ....................................................... 31
Análisis exploratorio ....................................................................................... 31
Generación de la bodega de datos. ............................................................... 31
Generación del proceso de minería de datos. ................................................ 31
Generación de reglas ..................................................................................... 31
Evaluación calidad las reglas ......................................................................... 31
CONCLUSIONES Y TRABAJO A FUTURO.......................................................... 32
BIBLIOGRAFIA ..................................................................................................... 33
ANEXO A GLOSARIO ........................................................................................... 36
Borrador Tesis V0.2

LISTA DE FIGURAS

Ilustración 1 cadena de datos CRM ..................................................................... 17


Ilustración 2 Tipos de conocimiento ..................................................................... 19
Ilustración 3 Etapas del proceso KDD .................................................................. 21
Borrador Tesis V0.2

LISTA DE TABLAS
Borrador Tesis V0.2

CAPÍTULO I

En este capítulo se realiza una introducción, motivación, objetivos y aportes


presentes por el desarrollo de este proyecto.

INTRODUCCIÓN

El objetivo de esta tesis es la construcción de una metodología para el proceso de


inteligencia basada en el proceso unificado (BIEP en ingles Business Intelligence
Engineering Process). Un sistema de inteligencia de negocios se compone por dos
elementos, la bodega de datos (DW en ingles Data Warehouse), el análisis de los
datos que se realiza mediante técnicas OLAP (Online Analytical Processing,) o por
técnica de minería de datos (DM en ingles Data Mining). La BIEP integra la
metodología proceso de ingeniería para el desarrollo de bodegas de datos (DWEP
en ingles Data Warehouse Engineering Process) y la metodología para el proceso
de ingeniería para minería de datos (DMEP en ingles Data Mining Engineering
Process).

Se desarrollo un prototipo de software basado en BIEP para validarlo, el cual sirve


como base para la investigación y aplicación de esta metodología para el
desarrollo de soluciones orientadas a las pequeñas y medianas empresas del
entorno nacional (PYMES).
Borrador Tesis V0.2

MOTIVACIÓN

Los problemas más frecuente donde fallan de los proyectos de inteligencia de


negocios son: la recolección de requerimientos, el análisis y diseño [11], debido
especialmente a que no se encuentra una metodología estándar para su
desarrollo.

Se ha realizado una metodología denominada proceso de ingeniería para la


bodega de datos (DWEP) basada en el proceso unificado (UP), la cual abarca los
flujos de trabajo de requerimientos, análisis, diseño, pruebas, mantenimiento y
revisiones posteriores al desarrollo. En el componente del proceso de minería de
datos la comunidad europea ha propuesto el desarrollo del modelo Cross-Industry
Standard Process for Data Mining “CRISP-DM”, el cual da un conjunto de fases
pero no se especifica los artefactos para su publicación.

OBJETIVOS

General:
Desarrollar una metodología para el proceso de la inteligencia de negocios
basada en la metodología del proceso unificado.
Específicos:
 Actualizar la metodología proceso de ingeniería para la bodega de datos
(PIBD), a UML versión 2.0
 Crear una metodología para el proceso de ingeniería para minería de datos
en los flujos de trabajo de requerimientos, análisis y diseño.
 Integrar la metodología del proceso de ingeniería para la bodega de datos y
el proceso de ingeniería para minería de datos. (Proceso de ingeniería de la
inteligencia de negocios BIEP).
 Validar la metodología del proceso de ingeniería de inteligencia de negocios
(PIIN) a un ejemplo de la vida real.
Borrador Tesis V0.2

APORTES

ORGANIZACIÓN DEL DOCUMENTO


Esta tesis esta ordena así capítulo II observamos los antecedes (Estado del arte),
capítulo III la actualización del DWEP a la versión UML 2.0, el planteamiento de la
metodología DMEP y BIEP y en el capítulo IV la validación del modelo BIEP.
Borrador Tesis V0.2

CAPITULO II

En este capítulo se establecen las bases teóricas del proyecto al igual que el
conocimiento previo que hay que tener en cuenta para el desarrollo de este y con
el fin de hacer más compresible su lectura en el anexo A se presenta un glosario
para aclarar conceptos.

PROCESO DE INTELIGENCIA DE NEGOCIOS.

El término “inteligencia de negocios” (en inglés se conoce como “Business


Intelligence”) describe un tipo de procesos orientados a la toma de decisiones más
acertadas y estratégicas para el desarrollo de un negocio. Howard Dresner, en el
año de 1989, la definió como “… un conjunto de conceptos y métodos para
mejorar el proceso de decisión utilizando un sistema de soporte basado en
hechos...” [1]. En este contexto, la inteligencia de negocios se define como el
proceso de análisis de los bienes o datos acumulados en la empresa, con el fin de
extraer una “cierta inteligencia” o conocimiento de ello.

Un sistema de inteligencia de negocios se compone por dos elementos, ver figura


1: (i) la bodega de datos (DW en ingles Data Warehouse) cuyas partes son: las
fuentes de datos, los procesos de extracción, carga y transformación (ETL), y la
zona de almacenamiento; y (ii) el análisis de los datos, que puede darse por dos
Borrador Tesis V0.2

procedimientos diferentes, el primero, conformados por medio de consultas


simples y reportes, caracterizados por informes predefinidos y análisis de
información mediante técnicas OLAP (Online Analytical Processing,) y, el
segundo, mediante técnicas de minería de datos (DM en ingles Data Mining) que
permiten encontrar comportamientos en conjuntos de datos analizados, para
realizar clasificaciones o predicciones, o generar información para los EIS
(Executive Information Systems), DSS (Decision Support Systems, Sistemas de
ayuda a la toma de decisiones) ó el BSC (cuadro de mandos integral).

Figura 1.
Componentes del entorno de Inteligencia de negocios

El proceso de inteligencia de negocios viene creciendo a una tasa anual del


11.5%, y gastos de inversión de más de 7 billones de dólares [2, 3], ver figura 2,
lo que evidencia su potencialidad y el papel que está asumiendo en el desarrollo
económico en las organizaciones, de allí que sea importante profundizar en su
estudio en los entes académicos e industriales.

Figura 2.
Crecimiento e inversiones en herramientas de inteligencia de Negocios
Borrador Tesis V0.2

EL PROBLEMA DE LA INTELIGENCIA DE NEGOCIOS.

En diversos informes indican que entre el 40% y el 50% [16, 17] de los procesos
de inteligencia de negocios fallan o son abandonados. Según lo observado por
parte Larry Poole [18] estos fallan por: (i) Carencia de un líder que entienda el
valor del proyecto y esté dispuesto a apoyarlo asignando los recursos apropiados
y a enfocarse de modo que el proyecto tenga éxito. (ii) Los requisitos son pobres
ya que no se involucran a los usuarios en las discusiones para adquirirlos para
asegurar que se está planeando construir realmente algo que se necesita y que va
a utilizar. (iii) Los diseños son pobre debido a que los requisitos son deficientes y
el tiempo de modelado es limitado. (iv) Carencia del entrenamiento a usuarios
finales para el uso adecuado de la solución para llevar a buen término la
implantación del proyecto. (v) En las organizaciones se cree a menudo que con la
solución inicial se termina el proyecto descuidando su mantenimiento o
crecimiento, ya que ella puede involucrar más partes de la organización, y esto se
puede hacer por medio de diversos datamart hasta generar una única bodega de
datos [5]. (vi) Otro de los problemas escoger inadecuadamente la herramientas a
utilizar, en el mercado hay un gran número de ellas y sus características y precios
varían, hay que realizar una adecuada valoración para saber escoger cual se
ajusta más en la implementación. “… Es importante entender las necesidades de
usuarios y seleccionar la herramienta que faciliten el desarrollo de las aplicaciones
previstas…” [18], (vii) Muchos proyectos arranca pensando en una solución final
pero sin saber el tiempo y trabajo consuma, o si su solución es compleja. (viii)
Después de la utilización de la solución por parte de los usuarios, ocurre los
siguientes casos: que la solución no cumpla con sus objetivos y la dejen de usarla
o pueden cumplir ampliamente y querer que sus funcionalidades crezcan. En
ambos casos, se necesita estar en constante revisión, mirando los logros, llevando
así a cabo las modificaciones y mejoras necesarias de modo que todos sus
usuarios quieran utilizarlo.
Borrador Tesis V0.2

BODEGA DE DATOS.

Es uno de los componentes del proceso de inteligencia de negocios, Bill Inmon lo


define: “… Una Bodega de Datos es una colección de datos integrados orientados
a temas, integrados, no-volátiles y variables en el tiempo, organizados para
soportar necesidades empresariales…” [4] y para Ralph Kimball “... la Bodega de
Datos es un colección de datos en forma de una base de datos que guarda y
ordena información que se extrae directamente de los sistemas operacionales
(ventas, producción, finanzas, marketing, etc.) y de datos externos…” [5].

Componentes de la bodega de datos

En las bodegas de datos se presentan el desarrollo de cinco etapas[5]: sistemas

fuente operaciones (Source) en donde se almacenan las transacciones del

negocio, área de depuración de datos (Integration) en donde se encuentran los

datos que forman la parte transaccional que pueden ser usados en la bodega de

datos, área de presentación de datos (Data Warehouse) en donde se ubica los

datos en un espacio de almacenamiento de la bodega de datos, Adaptación

(Customization) define el mapeo entre el almacén de datos y las estructuras

empleadas por el cliente, herramienta de acceso de datos (Client) en donde el

usuario puede tomar y realizar las diversas consultas por medio de técnicas OLAP

o por procesos de minería de datos. Ver figura 3.


Borrador Tesis V0.2

Figura 3. Componentes básicos de una Bodega de Datos.

Modelo de datos

En las DW se definen los siguiente niveles de abstracción [6]: Conceptual, lógico y


el físico.

a. Modelo Conceptual de datos: Representa las interacciones entre las


entidades y relaciones. Este modelo está más cerca de los problemas del
mundo real que a la solución. Se destacan los siguientes modelos en las
DW: modelo Multidimensional/ER (Sapia) [7], modelo Estrella/ER (Tryfona)
[8], modelo GOLD (Trujillo) [9, 10], modelo Husemann [11], modelo YAM2
[12].

b. Modelo Lógico de datos: El objetivo del modelo lógico de datos es describir


en el máximo detalle posible, sin tener en cuenta cómo van a ser
físicamente en la base de datos. Es este modelo esta incluido las
entidades, las relaciones y su interacción, los tipos de datos de todos los
atributos de cada entidad, definición de la llaves primarias y foráneas,
definición del proceso extracción, transformación y carga (E.T.L), entre
otras actividades.

c. Modelo Físico de datos: En el modelo de datos físicos, incluyen toda la


especificación de todas las tablas y columnas, siguiendo las reglas del
negocio, para determinar el diseño de la bodega de datos. En este modelo
Borrador Tesis V0.2

se escribe el código para crear tablas, vistas, reglas de integridad,


consultas multidimensiones.

MINERÍA DE DATOS

Fayyad [13] definió la minería de datos como: “… Un proceso no trivial de


identificación válida, novedosa, potencialmente útil y entendible de patrones
comprensibles que se encuentran ocultos en los datos…”.

Definición de KDD

El término ‘KDD’ es empleado para describir el proceso total de descubrimiento y


extracción de conocimiento nuevo, no obvio a partir de un conjunto de datos, el
cual está conformado por relaciones y patrones entre los elementos que
conforman los datos [17], [18].

Figura 4.
Pasos en el búsqueda de conocimiento en la bases de datos
U. Fayyad, G. Piatetsky-Shapiro, and P. Smyth, “From Data Mining to Knowledge Discovery in Databases”[11].

La Minería de Datos es un proceso completo de descubrimiento de conocimiento


que involucra varios pasos [12]:
Borrador Tesis V0.2

1. Entendimiento del dominio de aplicación, el conocimiento relevante a utilizar


y las metas del usuario.
2. Selección de un conjunto de datos en donde realizar el proceso de
descubrimiento.
3. Limpieza y preprocesamiento de los datos, diseñando una estrategia
adecuada para manejar ruido, valores incompletos, valores fuera de rango,
valores inconsistentes.
4. Selección de la tarea de descubrimiento a realizar, por ejemplo,
clasificación, agrupamiento o clustering, reglas de asociación, etc.
5. Selección de los algoritmos que serán aplicados.
6. Transformación de los datos al formato requerido por el algoritmo especifico
de explotación de datos, hallando los atributos útiles, reduciendo las
dimensiones de los datos, entre otros.
7. Encontrar patrones interesantes.
8. Evaluación de los patrones descubiertos y presentación de los mismos
mediante técnicas de visualización. Quizás sea necesario eliminar patrones
redundantes o no interesantes, o se necesite repetir algún paso anterior con
otros datos, con otros algoritmos, con otras metas o con otras estrategias.
9. Utilización del conocimiento descubierto, ya sea incorporándolo dentro de
un sistema o simplemente para almacenarlo y reportarlo a las personas
interesadas.

Las Fases para el desarrollo de un proceso de minería de datos son cuatro a


saber:
• Filtrado de datos
• Selección de variables
• Extracción de conocimiento
• Interpretación y evaluación

CRISP-DM
Borrador Tesis V0.2

La comunidad europea ha propuesto el desarrollo del modelo Cross-Industry


Standard Process for Data Mining “CRISP-DM” [14 y 15], cuyo objetivo es
fomentar la interoperabilidad de las herramientas utilizadas en el proceso de
minería de datos para reducir sus costos, tiempo y aprendizaje.

Sus principales propiedades son:


• No es propietario.
• Independiente de la aplicación o la industria.
• Neutral con respecto a herramientas.
• Enfocado en problemas de negocios así como en el análisis técnico.
• Plataforma guía
• Experiencia Base

El proceso para su desarrollo se basa en un proceso cíclico, con


retroalimentaciones en sus diversas fases. Ver Figura 4.

Figura 5.
Modelo CRISP-DM

Fase 1: Comprensión del negocio


• Entendimiento de los objetivos y requerimientos del proyecto.
• Definición del problema de Minería de Datos
Fase 2: Comprensión de los datos
• Obtención de un conjunto inicial de datos.
Borrador Tesis V0.2

• Exploración del conjunto de datos.


• Identificación de las características de calidad de los datos
• Identificación de los resultados iníciales obvios.
Fase 3: Preparación de Datos
• Selección de datos.
• Limpieza de datos.
Fase 4: Modelamiento
• Implementación en herramientas de Minería de Datos.
Fase 5: Evaluación
• Determinar las coincidencias entre los objetivos del negocio y los resultados
de la compresión, preparación y modelamiento de los datos.
• Identificar los temas de negocio que deberían haberse abordado
Fase 6: Despliegue
• Colocar los modelos resultantes en la práctica
• Configuración para minería de datos de forma repetida ó continua

Recientemente se ha plantado un dilema en el proceso de inteligencia de


negocios, por cuanto se está buscando pasar e integrar de los modelos orientados
a los datos al paradigma orientado a objetos.

FASES DEL DWEP Y PROCESO UNIFICADO

Fase de inicio: El objetivo de esta fase es desarrollar el análisis del proyecto para
justificar su puesta en marcha. Para lograrlo se realiza una descripción general del
proyecto, una planeación basada en interacciones de las fases subsiguientes, se
detectan los riesgos críticos y se establecen la funcionalidad básica del software
con una descripción de la arquitectura candidata.

Fase de elaboración: Una vez finalizada la fase de inicio, se pretende formar una
arquitectura sólida para la construcción del software. Esta fase se busca
Borrador Tesis V0.2

establecer la base lógica de la aplicación con los casos de uso definitivos y los
artefactos del sistema que lo componen, además de mitigar el riesgo tecnológico
de la exploración del lenguaje de programación en cuanto a interfaz de usuario se
refiere. Para esto, se finalizó la primera iteración con un prototipo funcional para la
realización de pruebas de software y la definición del modelo para la
implementación de la interfaz de usuario.

Figura 6
El Proceso Unificado [21] y Proceso de Ingeniería de la bodega de datos [10]

Fase de construcción: Se inicia a partir de la línea base de arquitectura que se


especifico en la fase de elaboración, y su finalidad es desarrollar un producto listo
para la operación inicial en el entorno del usuario final.

Fase de transición: Una vez que el proyecto entra en la fase de transición, el


sistema ha alcanzado la capacidad operativa inicial. Esta fase busca implantar el
producto en su entorno de operación.
Borrador Tesis V0.2

CAPITULO III

BODEGA DE DATOS CON UML 2.1

Diagramas: cada etapa o nivel necesita formalismos de modelado diferentes. Por

lo tanto, DWEP en su versión 2.1.1 se compone de 20 diagramas (5 etapas y 3

niveles). En la tabla 1 se observan los diferentes diagramas.

Source (S) Integration Data Warehouse (DW) Customization Client (c)

SCS (Class) DM (Class)


SCOS (Object) DWSS (Sequence)
Conceptual DW CS (Class) DM (Class) CCS (Class)
DWSMS (State Machine)
DWAS (Activity)
SLS (Class)
Logical ETL (Class) DW LS (Class) Exporting Process (Class) CLS (Class)
SLCS (Communication)

Transportation Diagram Transportation Diagram


Physical SPS (Comp & Deployment) DW PS (Comp & Deployment) CPS (Comp & Deployment)
(Deployment) (Deployment)

Tabla 1 Diagramas Aplicados al DWEP

Estos 20 diagramas se aplican de acuerdo DWEP en los diferentes flujos de trabajo siguiendo las

mismas fases del proceso unificado

Flujos de Trabajo de DWEP 2.1.1

Requerimiento.

Durante este flujo de trabajo, los usuarios finales especifican las medidas y

agregaciones más interesantes, el análisis dimensional, consultas usadas para la

generación de reportes periódicos y frecuencia de la actualización de los datos. El

proceso unificado plantea la utilización del modelo de casos de uso. En la figura 7

se observa el diagrama de casos de uso aplicado a un requerimiento dado por un

usuario (Sales Manager). En la figura 4 se observa el lado izquierdo los diferentes


Borrador Tesis V0.2

casos de uso para la generación del requerimiento, en la parte derecha se observa

el caso de uso en formato Extendido.

Figura 7 Casos de Uso

Análisis.

El objetivo de este flujo de trabajo es mejorar la estructura y los requisitos

obtenidos en la etapa de requerimientos. En esta etapa se documenta los

sistemas operaciones preexistentes que alimentan la bodega de datos. El proceso

unificado propone el uso del diagrama de diagramas de clase, objetos,

comunicación y despliegue. [10 y 22]. DWEP siguiere el uso de los diagramas

Source Conceptual Schema (SCS, ver figura 8), Source Conceptual Object

Schema (SCOS, ver figura 9), Source Logical Schema (SLS, ver figura 10),

Source Logical Comunications Schema (SLCS, ver figura 11) y Source Physical

Schema (SPS, Ver figura 12).


Borrador Tesis V0.2

Figura 8
Diagrama SCS

T V:Products

Miami :Ci ties 001:Orders


Sony:Customer

Radio:Products

Play Statio

TV2:Products

002:Orders

Radi o2:Products

Figura 9
Diagrama SCOS

Figura 10
Diagrama SLS
Borrador Tesis V0.2

:Cities

1: Read_table

:Customer
2: Read_table

Job System

3: Read_table

4: Read T able :Orders

:Products

Figura 11
Diagrama SLCS

Figura 12
Diagrama SPS

Diseño.

Al final de este flujo de trabajo, está definida la estructura de la bodega de datos.

El principal resultado de este flujo de trabajo es el modelo conceptual de la

bodega de datos. El proceso unificado propone el uso clases estructuradas en

paquetes, diseños de subsistemas con interfaces definidas (componentes) y la


Borrador Tesis V0.2

forma de colaboración entre las clases. DWEP propone el uso de los diagramas

Data Warehouse Conceptual Schema (DWCS ver figura 13), Client Conceptual

Schema (CCS),el Data Mapping (DM ver figura 14), Data Warehouse State

Machine Schema (DWMSS, ver figura 15) y el Data Warehouse Activity Schema

(DWAS, ver figura 16). El DM muestra la relación entre SCS y DWCS adema

entre DWCS y el CCS

Figura 13
Diagrama DWCS

Figura 14
Diagrama DM
Borrador Tesis V0.2

DWSD
Open Source Customer

Read and extract data to rel ational data base

Transform and load in temporal Space in DW Load to temporal Space DW to DW

Figura 15
Diagrama DWSMS

Figura 16
Diagrama DWAS

Implementación.

Durante este flujo de trabajo, la bodega de datos se construye: La estructura física

de la bodega de datos se construyen, empiezan a recibir datos de los sistemas

operaciones, se afina para un funcionamiento optimizado, entre otras tareas. El

proceso unificado propone como artefacto el diagrama de componentes. El DWEP

utiliza los siguientes artefactos Data Warehouse Logical Schema (DWLS Ver

figura 17), Data Warehouse Physical Schema (DWPS, ver figura 18), Client

Logical Schema (CLS), Client Physical Schema (CPS), ETL Process (Ver figura

19), Data Warehouse Secuence Schema (DWSS, ver figura 20),


Borrador Tesis V0.2

Figura 17
Diagrama DWLS [10]

Figura 18
Diagrama DWPS [10]

Figura 19
Diagrama ETL [10]
Borrador Tesis V0.2

Relacional DB:Customer DWT emporalSpace:Customer DW:Customer

Sales m anager

extract(Parameter)

T ransform (Parameter)

Load(Parameter)

Figura 20
Diagrama DWSS

Pruebas.

El objetivo de este trabajo es verificar que la aplicación funcione correctamente. Más


concretamente, los efectos de las pruebas son los siguientes: Planificar las pruebas necesarias,
diseñar y aplicar las pruebas mediante la creación de casos de prueba y realizar las pruebas y
analizar los resultados de cada prueba.

Mantenimiento.

A diferencia de la mayoría de los sistemas, la bodega de datos es un proceso que se retroalimenta


constantemente. El objetivo de este flujo de trabajo es definir la actualización y carga de los
procesos necesarios para mantener la bodega de datos. Este flujo de trabajo comienza cuando se
construye la bodega de datos y es entregado a los usuarios finales, pero no tiene una fecha de
finalización. Durante este trabajo, los usuarios finales pueden tener nuevas necesidades, tales
como las nuevas consultas, lo que desencadena el comienzo de una nueva iteración con los
requisitos de flujo de trabajo.

Revisiones post desarrollo.

Esto no es un flujo de trabajo de las actividades de desarrollo, sino un proceso de revisión para la
mejora de proyectos a futuro. Si hacemos un seguimiento del tiempo y esfuerzo invertido en cada
fase es útil en la estimación de tiempo y de las necesidades para generar los requisitos para
desarrollos futuros.
Borrador Tesis V0.2

MINERIA DE DATOS CON UML 2.0

Desarrollo del proceso de la minería de datos.

Proceso de ingeniería a la minería de datos.

INTELIGENCIA NEGOCIOS BASADA EN UML 2.0

Integración del proceso de ingeniería de la bodega de datos y la minería de


datos.
Borrador Tesis V0.2

CAPITULO IV

VALIDACIÓN DEL MODELO DE PROCESO DE INGENIERIA A LA


INTELIGENCIA DE NEGOCIOS

Problema de la vida real: Supermercado

Selección y pre-procesamiento de datos

Análisis exploratorio

Generación de la bodega de datos.

Generación del proceso de minería de datos.

Generación de reglas

Evaluación calidad las reglas


Borrador Tesis V0.2

CONCLUSIONES Y TRABAJO A FUTURO


Borrador Tesis V0.2

BIBLIOGRAFIA

[1] Gartner Group, Howard Dresner Biography, disponible en


http://www.gartner.com/research/fellows/asset_79427_1175.jsp
[2] Nigel Pendse, “The dramatic consolidation in 2007 makes market shares
much harder to calculate”, Consultado en internet
http://www.olapreport.com/market.htm.
[3] Dan Vesset, “World wide Business Intelligence Tools 2007 Vendor
Shares”, Consultado en Internet http://download.microsoft.com/download/
0/5/1/051389A2-FB6E-4AF0-B844-1FDAE6060514/WW-BI-Tools-2005-
vendor-Shares.pdf
[4] W. Inmon, Building the data warehouse. Wiley, 2002.
[5] R. Kimball and M. Ross, The Data Warehouse Toolkit: The Complete Guide
to Dimensional Modeling. Wiley, 2002.
[6] Steel,T.B.,Jr. (Chairman): ANSI/X3/SPARC Study Group on Data Base
Management Systems Interim Report; ACM SIGMOD FDT, Vol. 7, No. 2,
1975.
[7] C. Sapia, M. Blaschka, G. Hofling, and B. Dinter. Extending the E/R Model
for the Multidimensional Paradigm. In Proceeding of the 1ST International
Workshop on Data Warehouse and Data Mining (DWDM’98), volumen 1552
of Lecture Notes in computer Science, pages 105-116, Singapore,
November 19- 20 199. Springer- Velang.
[8] N. Tryfona. F. Busborg, and J.G. Christiansen. starER: A Conceptual Model
for Data Warehouse Desing. In proceedings of the ACM 2nd international
Workshop on Data Warehousing and OLAP (DOLAP`99), pages 3-8,
Kansas City, USA, November 6 1999. ACM.
[9] J. Trujillo. The GOLD model: An Object Oriented multidimensional data
model for multidimensional database, Symposium on Applied Computing
Proceedings of the 2000 ACM, symposium on Applied computing- Volume
1, Italy, pages 346-350, 2000. ACM.
Borrador Tesis V0.2

[10] J. Trujillo, Data WareHouse Desig with UML, PHD. Thesis, Universidad de
Alicante, 2005.
[11] B. Husemann, J. Lechtenborger, G. Vossen, Conceptual Data Warehouse
Desing, Proceeding of the International Workshop on Design and
Management of Data Warehouses (DMDW’2000), StockHolm, Sweden.
[12] A. Abello, J. Samos, and F. Saltor. YAM2 (Yet Another Multidimensionañ
Model): An extension of UML. In International database Engineering
applications Symposium (IDEAS’02), pages 172-181, Edmoton Canada,
July 17-19 2002. IEEE Computer Society.
[13] U. Fayyad, G. Piatetsky-Shapiro, and P. Smyth, From Data Mining to
Knowledge Discovery in Databases, American Association for Artificial
Intelligence pag 37 -54. 1996.
[14] Colin Shearer, “The CRISP-DM Model: The New Blueprint for DataMining”,
JOURNAL of Data Warehousing, Volume 5, Number 4, p. 13-22, 2000.
[15] P. Chapman et al., “CRISP-DM 1.0: Step-by-step data mining guide,” SPSS
Inc (2000), http://www.crisp-dm.org/CRISPWP-0800.pdf.
[16] Custer consortiwn, “41% HAVE EXPERIENCED DATA WAREHOUSE
PROJECT FAILURES”, Consultado en Internet http://www.cutter.com/
research/2003/edge030218.html.
[17] Mark Madsen, “A 50% Data Warehouse Failure Rate is Nothing New”,
Consultado en Internet http://it.toolbox.com/blogs/bounded-rationality/a-50-
data-warehouse-failure-rate-is-nothing-new-4669.
[18] Larry Poole, “8 Reasons Why Business Intelligence Initiatives Fail!”,
XyberNet, Inc., consultado 20 de marzo de 2008 en Internet:
www.xyber.net/8Reasons.doc.
[19] Booch Grady, Rumbaugh Jim, Jacobson Ivar, “UML, El lenguaje unificado
de modelado”, consultado en internet http://www.itescam.edu.mx/
principal/sylabus/ fpdb/recursos/r25380.PDF
[20] Fuentes Lidia, Vallecillo Antonio. “Una Introducción a los Perfiles UML,
Consultado en Internet” http://www.lcc.uma.es/~av/Publicaciones/04/
UMLProfiles-Novatica04.pdf.
Borrador Tesis V0.2

[21] Object Management Group (OMG). Unifie Modeling Language (UML),


version 2.0, consultado marzo de 2008 Internet: http://www.uml.org/
[22] Jacobson, Ivar; Booch, Grady; Rumbaugh, James. “El proceso unificado de
desarrollo de software.”, Addison Wesley. Madrid, ES. 2000. 438 p
[23] Y. Cui and J. Widom. Lineage Tracing for General Data Warehouse
Transformations. In Proceedings of the 27th International Conference on
Very Large Data Bases (VLDB’01), pages 471– 480, Rome, Italy,
September 11 - 14 2001.
Borrador Tesis V0.2

ANEXO A GLOSARIO