Está en la página 1de 190

METODOLOGA PARA EL DESARROLLO DE UN SISTEMA DE INTELIGENCIA DE NEGOCIOS BASADA EN EL PROCESO UNIFICADO

EDWAR JAVIER HERRERA OSORIO

Universidad Nacional de Colombia Facultad de ingeniera, Departamento de ingeniera de sistemas e industrial Bogot, Colombia 2011

METODOLOGA PARA EL DESARROLLO DE UN SISTEMA DE INTELIGENCIA DE NEGOCIOS BASADA EN EL PROCESO UNIFICADO

EDWAR JAVIER HERRERA OSORIO

Tesis o trabajo de investigacin presentada(o) como requisito parcial para optar al ttulo de: Magster en Ingeniera de sistemas y Computacin

Directora: Elizabeth Len Guzmn Ph. D. en Ciencias de la Computacin

Lnea de Investigacin: Sistemas de informacin Grupo de Investigacin: MIDAS: Grupo de Investigacin en Minera de Datos

Universidad Nacional de Colombia Facultad de ingeniera, Departamento de ingeniera de sistemas e industrial Bogot, Colombia Ao

Agradecimientos a Dios, a mi esposa y a mi familia en especial a mi madre y hermano. Tambin a la Universidad Nacional de Colombia y a la Universidad Antonio Nario por su apoyo para el desarrollo y exposicin de esta metodologa a nivel nacional e internacional. A la profesora Elizabeth Len por su dedicacin y motivacin permanente para desarrollo de esta tesis.

Resumen y Abstract

VII

Resumen
Todo sistema de inteligencia de negocios se compone por dos procesos [13], la integracin (bodega de datos) y el anlisis de los datos (OLAP o tcnicas de minera de datos).

En la integracin de datos se desarrolla el modelo conceptual, lgico y fsico de la bodega de datos. Estos se logran siguiendo varias metodologas [1, 5, 7, 44 y 45]. Una de estas es el proceso de ingeniera para la bodega de datos [24] (en ingls: Data Warehouse Engineering Process DWEP), la cual se basa en el proceso unificado de desarrollo de software, su objetivo es acometer el diseo de todas las fases y aspectos relevantes de la bodega de datos, incluyendo el anlisis de las fuentes de datos, los procesos ETL y sus propios esquemas.

Dado que la bodega de datos es un repositorio de datos histricos libre de errores, la idea es realizar su anlisis. Esto permite proponer una metodologa para el desarrollo de los sistemas de inteligencia de negocios denominada BIEP (en ingles Business Intelligence Engineering Process).

Como parte del proceso de control y verificacin de los resultados, se desarroll un prototipo de software CASE basado en la metodologa BIEP. Su entorno de desarrollo fue Eclipse Galileo 2010 por medio de perfiles UML y de sus paquetes de modelamiento: Eclipse Modeling Framework (EMF) y Graphical Modeling Framework (GMF), que permite disear de manera integrada la bodega y el anlisis de datos.

Para la validacin de la metodologa se llev a cabo un caso de estudio en el prstamo de libros de la biblioteca central de la universidad Antonio Nario.

Palabras clave: Proceso unificado, Bodega de datos, Minera de datos, inteligencia de negocios, Proceso de ingeniera en inteligencia de negocios, perfiles UML.

VIII

Ttulo de la tesis o trabajo de investigacin

Abstract
A business intelligence system is composed of two process [13], integration (data warehouse) and analysis of data (OLAP or data mining technique (DM)).

In the data integration model is developed conceptual, logical and physical data warehouse. These are achieved by following various methodologies [1, 5, 7, 44 and 45]. One of these is data warehouse engineering process (DWEP) [24], which is based on the unified process for software development, its objective is to undertake the design of all phases and relevant aspects of the data warehouse, including analysis of the data sources, ETL processes and their own schemes.

Since the data warehouse is a repository of historical data free of errors, the idea is to perform analysis. This allows us to propose a methodology development of business intelligence process engineering (BIEP).

As part of process control and verification of the results, we developed a software prototype based on the methodology BIEP. This development environment was Eclipse Galileo 2010 through UML profiles and their modeling packages: Eclipse Modeling Framework (EMF) and Graphical Modeling Framework (GMF), which allows an integrated design the winery and the data analysis. In addition, implement the profile data warehouse conceptual scheme (DWCS) in the software "Visual Paradigm for UML 8.1 Enterprise Edition", validating that this can be used on tools that support MOF.

To validate the methodology, development a case study in the loan books of the central library of the University Antonio Nario.

Keywords: unified process (UP), data warehouse (DW), data mining (DM), business intelligence (BI), Data Warehouse Engineering Process (DWEP), Business Intelligence Engineering Process (BIEP), UML profile.

Contenido

IX

Contenido
Pg. Resumen ........................................................................................................................ VII Lista de figuras .............................................................................................................. XII Lista de tablas .............................................................................................................. XV Introduccin .................................................................................................................... 1 1. Captulo 1 (Estado del Arte) ..................................................................................... 7 1.1 Proceso de Inteligencia de Negocios ............................................................... 7 1.1.1 Integracin de fuentes de datos. ........................................................... 9 1.1.2 Anlisis de datos. ................................................................................ 11 1.1.3 Problemas en el proceso de inteligencia de negocios ......................... 14 1.2 Lenguaje de Modelado Unificado U.M.L. ....................................................... 16 1.3 Metodologas para el modelamiento de bodegas de datos basada en el proceso unificado. .................................................................................................... 17 1.3.1 Fases de la metodologa DWEP y UP. ................................................ 19 1.3.2 Flujos de trabajo aplicados al proceso DWEP ..................................... 20 1.3.3 Impacto del DWEP. ............................................................................. 22 1.4 Metodologas para el proceso de anlisis de datos. ....................................... 23 1.4.1 Metodologa aplicada a OLAP ............................................................. 23 1.4.2 Metodologa para la aplicacin en Minera de Datos ........................... 24 1.5 Minera de datos sobre DW basada en UML ................................................. 25 1.5.1 Reglas de Asociacin .......................................................................... 26 1.5.2 Clasificacin ........................................................................................ 27 1.5.3 Agrupamiento ...................................................................................... 28 1.5.4 Anlisis de Tiempo .............................................................................. 29 1.6 2.6 RESUMEN DEL CAPITULO .................................................................... 30

2. Captulo 2 (Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP))............................................................................................................ 31 2.1 Elementos de una metodologa de inteligencia negocios. .............................. 32 2.2 Desarrollo de la metodologa ......................................................................... 33 2.2.1 Fases y flujos de trabajo de BIEP........................................................ 34 2.2.2 Modelos de BIEP ................................................................................ 35 2.2.3 Diagramas de BIEP ............................................................................. 37 2.2.4 Perfiles de UML aplicados a la metodologa BIEP ............................... 38 2.2.5 Pasos para aplicar BIEP ..................................................................... 38 2.3 Perfiles de UML aplicados a BIEP ................................................................. 40

Ttulo de la tesis o trabajo de investigacin 2.3.1 Perfil UML para la bodega de datos .....................................................40 2.3.2 Perfil UML para el proceso ETL ...........................................................42 2.3.3 Perfil UML despliegue ..........................................................................43 2.3.4 Perfil UML para el proceso de anlisis, seleccin y transformacin de datos. 44 2.3.5 Perfil UML de reglas de asociacin ......................................................45 2.3.6 Perfil UML de Clasificacin ..................................................................46 2.3.7 Perfil UML para Agrupamiento .............................................................48 2.3.8 Perfil UML de Serie de Tiempo ............................................................49 2.3.9 Perfil UML de Caso de uso ..................................................................50 2.3.10 Perfil UML Cubo Dimensional ..............................................................50 2.4 Flujos de trabajo de BIEP ...............................................................................51 2.4.1 Requerimientos....................................................................................53 2.4.2 Anlisis ................................................................................................55 2.4.3 Diseo .................................................................................................60 2.4.4 Implementacin ...................................................................................65 2.4.5 Preparacin, Modelado y evaluacin ...................................................71 2.4.6 Despliegue...........................................................................................79 2.4.7 Pruebas ...............................................................................................81 2.4.8 Mantenimiento .....................................................................................82 2.4.9 Revisin post-desarrollo ......................................................................82 2.5 VENTAJAS DE BIEP ......................................................................................83 2.6 RESUMEN DEL CAPITULO ...........................................................................83

3.

Captulo 3 (APLICACIN Y VALIDACIN DE LA METODOLOGA BIEP) .........85 3.1 Prototipo de Software CASE BIEP .................................................................85 3.1.1 Implementacin de los Perfiles ............................................................86 3.1.2 Generacin del Modelo de Objetos ......................................................88 3.1.3 Elementos bsicos para aplicar diagramas de BIEP ............................89 3.2 Caso de estudio: Biblioteca central de la universidad Antonio Nario U.A.N. 89 3.2.1 Descripcin de la Universidad Antonio Nario y de la Biblioteca ..........89 3.2.2 Flujos de trabajo ..................................................................................90 3.2.2.1 Requerimiento ...............................................................................................90 3.2.2.2 Anlisis .........................................................................................................92 3.2.2.3 Diseo...........................................................................................................95 3.2.2.4 Implementacin .............................................................................................99 3.2.2.5 Preparacin, modelado, evaluacin y despliegue........................................102 3.2.2.5.1 Modelo OLAP ...........................................................................................103 3.2.2.5.2 Preparacin de los datos para el proceso de minera de datos ................105 3.2.2.5.3 Regla de Asociacin.................................................................................106 3.2.1.5.4 Clasificacin .............................................................................................109 4.2.2.5.3 Agrupamiento ...........................................................................................114 3.2.1.6 Pruebas ......................................................................................................118 3.2.1.7 Mantenimiento ............................................................................................120 3.3 Implementacin de BIEP en otras herramientas UML ..................................120 3.4 Resumen Captulo ........................................................................................122 Conclusiones y recomendaciones ......................................................................125 4.1 Conclusiones ................................................................................................125 4.2 Recomendaciones........................................................................................126

4.

Contenido

XI

Anexo A: Casos de uso en formato extendido del caso de estudio ........................ 129 A1. Casos de Uso .................................................................................................. 129 A2. Documento visin ............................................................................................ 137 Anexo B: Manual de usuario del prototipo de SW BIEP ........................................... 147 B.1 Proceso General .............................................................................................. 147 B2. Diagrama de casos de uso............................................................................... 151 B3. Diagrama: SCS Y SLS ..................................................................................... 151 B4.Diagramas: SLOS y DWOS .............................................................................. 152 B5. Diagramas: SPS y DWSP ................................................................................ 153 B6. Diagramas: DWCS y DWLS ............................................................................. 154 B7.Diagrama DATA MAPING ................................................................................. 154 B8. Diagrama de anlisis, seleccin y transformacin de datos en el proceso de minera de datos .................................................................................................... 155 B9. Diagrama de agrupamiento en el proceso de minera de datos ....................... 156 B10. Diagrama de reglas de asociacin en el proceso de minera de datos ........... 156 B11. Diagrama de clasificacin en el proceso de minera de datos ........................ 157 B12. Diagrama DWAS ............................................................................................ 158 B13. Diagrama ETL ................................................................................................ 159 B14. IMPLEMENTACION DEL PROTOTIPO DE SW BIEP .................................... 160 B15. Perfil de tcnica de minera de datos de reglas de asociacin (MDRA).......... 160 B16. Perfil de tcnica de minera de datos de clasificacin (MDCL) ....................... 162 B17. Perfil de anlisis, seleccin y transformacin de datos para minera de datos (DMSEL) ................................................................................................................ 162 B18. Perfil de tcnica de minera de datos de agrupamiento (DMCLUS) ................ 163 B19. Perfil para tcnica OLAP (OLAPACT) ............................................................ 164 B20. Perfil proceso ETL (ETLPROCESS) .............................................................. 165 B21. Perfil secuencia en la bodega de datos (DWSS) ............................................ 165 B22. Perfil modelo conceptual y lgico de la bodega de datos (DWCS) ................. 166 B23. Perfil diseo del cubo dimensional (DATACUBE) .......................................... 167 B24. Perfil diseo fsico de la bodega de datos (SPS_DWPS) ............................... 167 B25. Perfil diseo de los casos de uso (DWEPCASEUSE) .................................... 168 Bibliografa .................................................................................................................. 169

Contenido

XII

Lista de figuras
Figura 1-1: Figura 1-2: Figura 1-3: Figura 1-4: Figura 1-5: Figura 1-6: Figura 1-7: Figura 1-8: Figura 1-9: Figura 1-10: Figura 1-11: Figura 1-12: Figura 1-13: Figura 2-1: Pg. Crecimiento e inversiones en herramientas de BI..................................... 8 Proceso de inteligencia de Negocios ........................................................ 9 Proceso de inteligencia de Negocios ...................................................... 13 Proceso descubrimiento de conocimiento en BD ................................... 14 Diagrama de UML 2.3 ............................................................................ 17 (a) Proceso Unificado y (b) DWEP ........................................................ 18 Sistema OLAP........................................................................................ 23 Metodologa para minera de datos a) CRISP-DM b)SEMMA ................ 25 Modelos CWM para el proceso de Minera de Datos. ............................. 26 Modelos CWM para reglas de asociacin.............................................. 27 Metamodelo CWM para reglas de Clasificacin .................................... 28 Metamodelo CWM para Agrupamiento.................................................. 28 Perfil UML serie de tiempo ..................................................................... 29 Elementos para el desarrollo de un sistema de inteligencia de

negocios. ....................................................................................................... 32 Figura 2-2: Figura 2-3: Figura 2-4: Figura 2-5: Figura 2-6: Figura 2-7: Figura 2-8: Figura 2-9: Figura 2-10: Figura 2-11: Figura 2-12: Figura 2-13: Fases y flujos de trabajo de la metodologa propuesta (BIEP) ............... 34 Modelos (BIEP) ...................................................................................... 37 Diagrama de actividades con los principales pasos de BIEP .................. 39 Perfil UML DW ....................................................................................... 41 Perfil UML ETL ....................................................................................... 42 Perfil UML despliegue ........................................................................... 43 Perfil UML proceso de anlisis, seleccin y transformacin de datos. ... 45 Perfil UML Regla de Asociacin ............................................................ 46 Perfil UML Clasificacin......................................................................... 47 Perfil UML agrupamiento ....................................................................... 48 Perfil UML anlisis de serie temporales.................................................. 49 Perfil UML caso de usos........................................................................ 50

Contenido Figura 2-14: Figura 2-15: Figura 2-16: Figura 2-17: Figura 2-18: Figura 2-19: Figura 2-20: Figura 2-21: Figura 2-22:

XIII Perfil UML cubo dimensional ................................................................. 51 Diagramas de casos de Uso DWEP ...................................................... 55 Diagramas Esquema conceptual de fuente............................................ 56 Esquema conceptual de objetos en origen de datos .............................. 57 Esquema Lgico de fuente de datos ...................................................... 58 Esquema Lgico de comunicacin de la fuente de datos...................... 59 Esquema fsico de las fuentes de datos................................................. 60 Niveles del esquema conceptual de la bodega de datos ....................... 61 Esquema de mapeo nivel 3 ................................................................... 63

Figura 2-23. Esquema de estados de mquina en la bodega de datos ......................... 64 Figura 2-24: Figura 2-25: Figura 2-26: Figura 2-27: Figura 2-28: Figura 2-29: Figura 2-30: Figura 2-31: Figura 2-32: Figura 2-33: Esquema de actividades de la bodega de datos .................................... 65 Esquema lgico de la bodega de datos ................................................. 66 Esquema lgico de objeto de la bodega de datos .................................. 66 Esquema fsico de la bodega de datos .................................................. 67 Proceso ETL .......................................................................................... 68 Esquema de secuencia de la bodega de datos ...................................... 69 Diagrama de transporte de integracin .................................................. 70 Diagrama de transporte de optimizado .................................................. 70 Diagrama del Cubo OLAP ..................................................................... 71 Esquema de paquetes de anlisis, seleccin y transformacin............. 72

Figura 2-34. Esquema de minera de datos con reglas de asociacin ........................... 75 Figura 2-35: Figura 2-36: Figura 2-37: Figura 2-38: Figura 3-1: Figura 3-2: Figura 3-3: Figura 3-4: Figura 3-5: Figura 3-6: Figura 3-7: Esquema de minera de datos con clasificacin .................................... 76 Esquema de minera de datos por agrupamiento .................................. 78 Esquema de minera de datos por series de tiempo .............................. 79 Esquema fsico del cliente ..................................................................... 81 Modelo de objetos ................................................................................. 88 Modelo de Casos de Uso del prstamo de la biblioteca ............................ 92 SCS del prstamo de la biblioteca............................................................. 93 SCOS del prstamo de la biblioteca .......................................................... 93 SLS del prstamo de la biblioteca ............................................................. 94 Esquema fsico del servidor para el prstamo de la biblioteca .................. 94 Esquema conceptual de la bodega de datos del prstamo de la biblioteca 95 Diagrama de Mapeo del prstamo de la biblioteca ............................. 96

lustracin 3-8:

XIV Figura 3-9:

Ttulo de la tesis o trabajo de investigacin Esquema de secuencia de la bodega de datos para el prstamo de la

biblioteca....98 Figura 3-10: Figura 3-11: Figura 3-12: Figura 3-13: Figura 3-14: Figura 3-15: Figura 3-16: DWSMS del prstamo de la biblioteca ................................................... 98 DWAS del prstamo de la biblioteca ...................................................... 99 Esquema lgico de la DW para el prstamo de libro ............................ 100 DWLOS del prstamo de la biblioteca .................................................. 101 Esquema fsico de la bodega de datos. ................................................ 101 Proceso ETL ........................................................................................ 102 Servicio de integracin de SQL SERVER 2005 aplicado a la

biblioteca ..................................................................................................... 103 Figura 3-17: Figura 3-18: Figura 3-19: Servicio de anlisis de SQL SERVER 2005 aplicado a la biblioteca. .... 103 Indicadores claves de gestin dados al proceso de prstamo de libros 104 Diseo de los reportes basada en cada KPI al proceso de prstamo de

libros..104 Figura 3-20: libros Figura 3-21: Despliegue Reportes basada en cada KPI al proceso de prstamo de 105 Esquema de paquetes de anlisis, seleccin y transformacin aplicados

al proceso de prstamo de libros. ................................................................................. 106 Figura 3-22: Figura 3-23: Figura 3-24: Figura 3-25: Figura 3-26: Figura 3-27: DMRA del prstamo de la biblioteca .................................................... 107 DMCLS del prstamo de la biblioteca................................................... 110 DMCLU del prstamo de la biblioteca .................................................. 114 Grfico de codo .................................................................................... 115 Perfil UML para bodega de datos en Visual Paradigm ....................... 121 Diagrama DWCS del caso de estudio de la biblioteca en Visual

Paradigm ................................................................................................ 121

Contenido

XV

Lista de tablas
Pg. Tabla 1-1: Modelos Multidimensionales. ......................................................................... 11 Tabla 1-2: Tabla 2-1: Tabla 2-2: Diagramas empleados en DWEP ............................................................. 20 Diagramas empleados en BIEP ............................................................... 52 Estereotipos proceso ETL ......................................................................... 68

Tabla 2-3: Estereotipos de atributos para el anlisis, seleccin transformacin de datos 73 Tabla 2-4: Tabla 2-5: Tabla 2-6: Tabla 2-7: Tabla 3-1: Tabla 3-2: Tabla 3-3: Tabla 3-4: Tabla 3-5: Tabla 3-6: Tabla 3-7: Tabla 3-8: Tabla 3-9: Estereotipos de atributos reglas de asociacin.......................................... 74 Estereotipos de atributos clasificacin ...................................................... 76 Estereotipos de atributos por agrupamiento .............................................. 77 Formato de pruebas BIEP ......................................................................... 82 Matriz de confucin ..................................................................................110 Matriz de confusin por las salas Generales ............................................111 Matriz de confusin por las salas Especializadas .....................................111 Matriz de confusin por das de prstamo con rboles. ............................112 Matriz de confusin Naive Bayes sala general y especializada. ...............112 Matriz de confusin Naive Bayes por sala general ...................................112 Matriz de confusin Naive Bayes por sala especializada .........................113 Matriz de confusin Naive Bayes por das prestados ...............................113 Agrupamiento por medio del algoritmo K medoids ...................................115

Tabla 3-10: Cluster por medio de asociacin de atributos ...........................................118 Tabla 3-11: asos de pruebas biblioteca central uan .................................................119

Introduccin
Un sistema de inteligencia de negocios se compone por dos elementos [28], la integracin y el anlisis de los datos. El anlisis se puede dar por dos procedimientos diferentes, el primero, conformados por medio de consultas simples y reportes, caracterizados por informes predefinidos y anlisis de informacin mediante tcnicas procesamiento analtico en lnea (en ingls: Online Analytical Processing OLAP) y, el segundo, mediante tcnicas de minera de datos (en ingls: Data Mining) que permiten encontrar comportamientos en conjuntos de datos analizados, para realizar

clasificaciones o predicciones, generar informacin para los EIS (Executive Information Systems), DSS (Decision Support Systems, Sistemas de ayuda a la toma de decisiones) BSC (cuadro de mandos integral).

Los problemas ms frecuente donde fallan los proyectos de inteligencia de negocios son: la recoleccin de requerimientos, el anlisis y diseo [34], debido a que no se encuentra una metodologa estndar para su desarrollo.

Se ha realizado una metodologa denominada proceso de ingeniera para la bodega de datos (DWEP) basada en el proceso unificado (UP) [24], la cual abarca los flujos de trabajo de requerimientos, anlisis, diseo, pruebas, mantenimiento y revisiones posteriores al desarrollo, para la integracin de datos. En el componente del proceso de minera de datos la comunidad europea ha propuesto el desarrollo del modelo CrossIndustry Standard Process for Data Mining CRISP-DM [11], el cual da un conjunto de fases, pero no se especifica los diagramas para su modelamiento.

El objetivo principal de este trabajo de investigacin es la construccin de una metodologa para el desarrollo de sistemas de inteligencia de negocios basada en el proceso unificado, la cual se denominar: Proceso de Ingeniera a la Inteligencia de Negocios (en ingls: Business Intelligence Engineering Process BIEP).

Introduccin

BIEP ser una metodologa de diseo global que integra todas las fases de diseo en un sistema de inteligencia de negocios, inicia en el anlisis de las fuentes de datos operacionales hasta la implementacin, incluyendo la definicin de los procesos ETL, los requisitos de usuario y el anlisis de datos por medio de tcnicas de minera de datos y OLAP.

MOTIVACIN

Dada la importancia de los sistemas de inteligencia de negocios, se han creado diversas soluciones a los problemas de recoleccin, anlisis, diseo y construccin. En el proceso de integracin de datos se han desarrollado diversos modelos [1, 5, 7, 20, 24, 44 y 45], que presentan un gran nivel de expresividad (estructural, dinmico y grfico), sin embargo, en la gran mayora no se realizan el anlisis de datos [44]. La metodologa DWEP [24 y 44] es uno de los trabajos que presentan la integracin de datos por medio de proceso unificado, dando un estndar para el desarrollo de la bodega de datos y el anlisis de datos por medio de OLAP.

De otro lado, encontramos otros trabajos de investigacin que han propuesto otras metodologas para el anlisis de datos basadas en: OLAP [19 y 36], CRISP-DM [11 y 39] y SEMMA [37], no obstante, ests no toman en cuenta la integracin de datos, dejando los sistemas de inteligencia de negocios fragmentados en diversas soluciones. Recientemente se desarroll un trabajo doctoral titulado Un conjunto de perfiles de UML para el modelado conceptual de tcnicas de minera de datos sobre almacenes de datos [47] que rene el modelado conceptual de las siguientes tcnicas de minera: clasificacin, agrupamiento, reglas de asociacin y series de tiempo. Dando una aproximacin al desarrollo de un sistema de inteligencia de negocios.

Considerando los anteriores problemas y consciente de la importancia de los sistemas de inteligencia de negocios, en el presente trabajo de investigacin se defini: disear una metodologa que abarque el desarrollo de los sistemas de inteligencia de negocios, comenzando con la integracin de datos y termina con el anlisis de datos por medio de OLAP y minera de datos basada en el proceso unificado de software.

Introduccin

OBJETIVO GENERAL Y OBJETIVOS ESPECFICOS

Objetivo General:

Desarrollar una metodologa para el desarrollo de un proceso de negocios basada en el proceso unificado. Objetivos especficos:

inteligencia de

Actualizar la metodologa DWEP a la versin ms reciente del UML.

Crear y/o adaptar una metodologa para el proceso de ingeniera en la aplicacin de minera de datos y extender la de OLAP dada en el DWEP.

Integrar la metodologa del proceso de ingeniera para la bodega de datos, OLAP y minera de datos en un prototipo de software.

Validar la metodologa del proceso de ingeniera de inteligencia de negocios a un caso real.

METODOLOGA

La propuesta metodolgica para el desarrollo de esta tesis esta soportada en la realizacin de cuatro etapas que sern ejecutadas en estricto orden.

En la primera etapa se realizar la actualizacin del DWEP a la versin UML 2.1.1, la segunda etapa se crear y/o adaptar una metodologa para el proceso de minera de datos (DMEP), en la tercera etapa se har la unin de la DWEP y DMEP para generar la metodologa del proceso de inteligencia de negocios (BIEP). Finalmente en la cuarta etapa se encuentra la validacin de la metodologa BIEP.

Introduccin

Etapa 1: Actualizacin de DWEP a versin UML 2.1.1: DWEP se basa en el proceso unificado y en UML versin 1.4. La versin UML 2.3 ha proporcionado una mayor cantidad de artefactos para un mejor modelamiento, los cuales resultan tiles para una mejor funcionalidad de DWEP. En esta etapa se har una inspeccin al estndar UML versin 2.3 donde se planea la actualizacin de los diagramas de clases, casos de uso y de despliegue, y la utilizacin de los diagrama de estados, componentes, interactivos, acciones y composicin de estructura.

Etapa 2: Generacin y/o adaptacin de una metodologa para el proceso de anlisis minera de datos (DMEP) en versin UML 2.3: Dado que se ha planteado la metodologa CRISP-DM [14 - 15] como un estndar para el proceso de minera de datos en esta etapa se planea la adaptacin de esta metodologa al proceso unificado, generando los artefactos necesarios basados en UML versin 2.3.

Etapa 3: Integracin de la metodologa DWEP y DMEP: Para cumplir esta integracin se debe realizar previamente la etapa 1 y 2, pues el resultado de cada una de ellas permitir contar con la generacin de la metodologa DWEP y DMEP, las cuales deben cumplir las misma fases y flujos de trabajo, bajo el supuesto basado en el proceso unificado, con lo cual podrn integrarse en una nica metodologa basada en el proceso de inteligencia de negocios (BIEP).

Etapa 4: Validacin del BIEP: Una vez obtenida la metodologa BIEP se pretende validar por medio de un caso de la vida real, para esta etapa, se realizar, tomando el prstamo de libros en la biblioteca central de la universidad Antonio Nario.

APORTES

Se han obtenido avances parciales en desarrollo de esta tesis, los cuales fueron presentados en las siguientes conferencias: (i) DWEP with UML 2.1.1, Encuentro Nacional de investigadores de Postgrado ENIP 2009, Universidad Nacional de Colombia, Bogot (Colombia), ISBN 978958-719-374-9.

Introduccin

(ii) Data Warehouse Engineering Process (DWEP) with UML 2.1.1. A Case Study: Central library of UAN, The 5th Conference of the Euro-American Association on Telematics and Information Systems EATIS 2010. Artculo invitado. Ciudad de Panam (Panam), ISBN 978-958-44-7280-9.

ORGANIZACIN DEL DOCUMENTO

El presente documento aborda de manera inicial en el captulo I los antecedentes y conceptos bsicos sobre los que se basaron las presentes investigaciones; de manera subsiguiente en el captulo II se hablar sobre la metodologa para el desarrollo de sistemas de inteligencia de negocios (BIEP) y finalmente en el captulo III se demostrar la validacin del de la metodologa BIEP con un caso de estudio aplicado a la biblioteca central de la universidad Antonio Nario.

1. Captulo 1 (Estado del Arte)


Este captulo presenta el estado actual en el desarrollo de los sistemas de inteligencia de negocios. Se describe que es un sistema de inteligencia de negocios, su crecimiento desde 1993 al 2007, los componentes del sistema de inteligencia de negocios: integracin de las fuentes y anlisis de datos mediante tcnicas OLAP y de minera de datos, y se revisan los principales problemas en la ejecucin en el desarrollo de los sistemas de inteligencia de negocios.

Se revisan las metodologas propuestas actualmente para cada unos de los componentes. Iniciando por el UML como lenguaje de unificado de modelamiento, un lenguaje grfico para construir, documentar, visualizar y especificar un sistema de software. Luego se estudia la metodologa para el desarrollo de la integracin de las fuentes de datos basada en el proceso unificado DWEP. Se analizan sus fases, flujos de trabajo e impacto. Adems se examinan las metodologas para OLAP y minera de datos basadas en el proceso unificado, las que se destacan una extensin del DWEP para los cubos dimensionales y los diagramas de tcnicas de minera de datos basadas en el Common Warehouse Metamodel (CWM). Por ltimo se presenta el resumen del captulo.

1.1 Proceso de Inteligencia de Negocios


El trmino inteligencia de negocios (en ingls Business Intelligence B.I.) segn Howard Dresner, en el ao de 1989, la defini como: un conjunto de conceptos y mtodos para mejorar el proceso de decisin utilizando un sistema de soporte basado en hechos...
1

[13], Por ende describe un grupo de procesos orientados a la toma de

decisiones ms acertadas y estratgicas para el desarrollo de un negocio, partiendo para ello del anlisis de la informacin que se produce al interior del ente econmico.

DRESNER, Howard. Gartner Group, Howard Dresner Biography. {En lnea}, {8 de marzo de 2009} disponible en: (http://www.gartner.com/ research/fellows/asset_79427_1175.jsp).

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

En este contexto, la inteligencia de negocios se define como el proceso de anlisis de los bienes o datos acumulados en la empresa, con el fin de extraer cierta inteligencia o conocimiento de estos. Segn Data Warehouse Institute, la inteligencia de negocios es la combinacin de tecnologa, herramientas y procesos que me permiten transformar mis datos almacenados en informacin, esta informacin en conocimiento y este conocimiento dirigido a un plan o una estrategia comercial. La inteligencia de negocios debe ser parte de la estrategia empresarial, esta le permite optimizar la utilizacin de recursos, monitorear el cumplimiento de los objetivos de la empresa y la capacidad de tomar buenas decisiones para as obtener mejores resultados... 2 [12].

Las herramientas de inteligencia de negocios crecen a una tasa anual del 11.5%, y gastos de inversin a ms de 7 billones de dlares [26, 34]. En la figura 1-1, se observa el crecimiento e inversin en herramientas de inteligencia de negocios, lo que evidencia su potencialidad y el papel que est asumiendo en el desarrollo econmico en las organizaciones, De all la importancia de profundizar en su estudio ya sea desde la academia misma o directamente por los industriales. Figura 1-1: Crecimiento e inversiones en herramientas de BI

Fuente Nigel Pendse: The dramatic consolidation in 2007 makes market shares much harder to 3 calculate

Data Warehousing Institute. {En lnea}, {8 de marzo de 2009} disponible en: (http://www.tdwi.org/. 2002). 3 PENDSE, Nigel, The dramatic consolidation in 2007 makes market shares much harder to calculate. {En lnea}, {8 de marzo de 2009} disponible en: (http://www.olapreport.com/market.htm).

Captulo 1

La implementacin de un sistema de inteligencia de negocios requiere de dos (2) procesos: integracin de fuentes de datos y anlisis de datos [12, 23, 28 y 38]. En la figura 1-2, se pueden observar estos procesos y sus componentes.

Figura 1-2:

Proceso de inteligencia de Negocios

Fuente. Ralph Kimball y Margy RossNigel Pendse. The Data Warehouse Toolkit

1.1.1 Integracin de fuentes de datos.


Es el proceso donde se pretende realizar la combinacin de las diferentes fuentes de datos de una organizacin por medio del proceso de extraccin, transformacin y carga (ETL) [23], cuyo resultado es una bodega de datos (en ingls: Data Warehouse DW). Cuando la bodega es especfica de un departamento o dependencia de la organizacin, se denomina Data Mart [23]. Para Kimball [23], el proceso de integracin de fuentes de datos es sinnimo a todos los componentes que conforman una bodega de datos.

Bodegas de datos: Bill Inmon defini bodega de datos como: una coleccin de datos integrados orientados a temas, integrados, no-voltiles y variables en el tiempo, organizados para soportar necesidades empresariales5 [21] y para Ralph Kimball: ...una coleccin de datos en forma de una base de datos que guarda y ordena

KIMBALL, Ralf y ROSS, Margy. Kimball and M. Ross, The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling. Wiley, 2002. ISBN: 978-0-471-20024-6. Pag 7. 5 INMON, William Harvey, Building the data warehouse. Wiley, quinta edicin, 2005., paginas 576. ISBN: 978-0-7645-9944-6 Pag. 15

10

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

informacin que se extrae directamente de los sistemas operacionales (ventas, produccin, finanzas, marketing, etc.) y de datos externos6 [23].

La bodega de datos se puede interpretar como una base de datos que organiza y almacena una coleccin de informacin derivada directamente de los sistemas operacionales y de algunos datos externos [23]. Esta informacin se estructura siguiendo el paradigma multidimensional (MD) [23]: hechos y dimensiones. Un hecho representa medidas interesantes del proceso de negocio que se pretende analizar, mientras que las dimensiones representan un contexto para analizar dichas medidas.

Modelos multidimensionales.

En la actualidad, se han presentado varios modelos multidimensionales. Por su amplio uso se destaca los modelos: Kimball [23], Multidimensional/ER (Sapia) [5], Estrella/ER (Tryfona) [7], GOLD (Trujillo) [24, 44 y 45], Husemann [20] y YAM2 [1].

Los modelos multidimensionales de la bodega de datos [20] al igual que en el desarrollo de bases de datos [4], se estructura en una serie de pasos que incluyen los tres niveles: conceptual, lgico y fsico.

Nivel Conceptual: Se representa las interacciones entre las entidades y relaciones o por medio del lenguaje de definicin de objetos (en ingls: Object Definition Language ODL). Este nivel est ms cerca de los problemas del mundo real que a la solucin, en este es donde el usuario representa sus ideas.

Nivel Lgico: Es este nivel se utiliza el modelo relacional para el diseo de las tablas de hechos, dimensiones y su interaccin, definicin del proceso extraccin, transformacin y carga (E.T.L) y el proceso de mapeo entre la fuente de datos y la bodega de datos.

KIMBALL, Ralf y ROSS, Margy. Kimball and M. Ross, The Data Warehouse Toolkit: The complete Guide to Dimensional Modeling. Wiley, 2002. ISBN: 978-0-471-20024-6 pag. 28

Captulo 1

11

Nivel Fsico: En este modelo se escribe el cdigo para la generacin de las tablas de hechos, dimensiones, definicin de las reglas de integridad y consultas Modelo Dimensional [23].

Para realizar una comparacin de los modelos multidimensionales se tuvo en cuenta los siguientes niveles: (i) Nivel general: donde se revisa si el modelo es conceptual (C), lgico (L) y/o fsico (F). (ii) Nivel estructura: donde se revisa el comportamiento detallado de las dimensiones y las tablas de hecho. (iii) Nivel dinmico: donde se revisa la facilidad de realizar de la generacin de los requerimientos de usuario, operaciones OLAP y el modelado del sistema. Y (iv) Nivel de notacin grafica: donde se aprecia si se implementacin sobre herramientas comerciales. Como se observa en la tabla 1-1. Tabla 1-1: Modelos Multidimensionales.

1.1.2 Anlisis de datos.


Es el proceso que permite habilitar componentes, administrar consultas, monitorear procesos, clculos, mtricas, entre otros. Se realiza por medio de dos procesos

12

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

diferentes: (i) el primero, conformado por consultas simples y reportes, las cuales se caracterizan porque presentan informes predefinidos y anlisis de informacin mediante tcnicas OLAP (en ingls Online Analytical Processing) y, (ii) el segundo, mediante tcnicas de minera de datos (DM en ingls Data Mining) que permiten encontrar comportamientos en conjuntos de datos analizados, para realizar clasificaciones o predicciones, o generar informacin para los EIS (Executive Information Systems), DSS (Decision Support Systems, Sistemas de ayuda a la toma de decisiones) el BSC (cuadro de mandos integral). Procesamiento analtico en lnea OLAP Codd [9] 1993, defini: OLAP es un tipo de procesamiento de datos que se caracteriza, entre otras cosas, por permitir el anlisis multidimensional de datos7. Dicho anlisis se basa en modelar la informacin en forma de medidas, hechos y dimensiones [2]. Las medidas son los valores de un dato en particular, las dimensiones son las descripciones de las caractersticas que definen dicho dato y los hechos son la definicin de una o ms medidas para una combinacin particular de dimensiones [2 y 8]. El modelo se representa vectorialmente: los hechos se ubican lgicamente en una celda que queda en la interseccin de ciertas coordenadas segn el modelo de coordenadas (x, y, z,...), donde cada una de las coordenadas de la celda representa una dimensin. Esto es conocido como anlisis multidimensional y para materializarlo en una base de datos, se usa la correspondencia entre los elementos del modelo (hechos y coordenadas) en la bodega de datos (tabla de hechos y las dimensiones).

En la figura 1-3, se observa un cubo dimensional, donde las dimensiones se representan por medio de coordenadas. El cruce de las uniones de estas dimensiones simboliza los hechos y cada hechos est compuesto por medidas. Para poder realizar OLAP, se hace necesario realizar las siguientes funcionalidades: declaracin de dimensiones y jerarquas, ptima indexacin de los datos y definicin de operaciones predefinidas de navegacin en las dimensiones y de agrupacin de medidas.

CODD, Edgar et al. Providing OLAP to user-analysts: An IT mandate. E.F. Codd and Associates, 1993. . {En lnea}, {8 de marzo de 2009} disponible en: (http://www.minet.uni-jena.de/dbis/lehre/ ss2005/sem_dwh/lit/Cod93.pdf).

Captulo 1

13

Las principales operaciones definidas en OLAP son: slice, dice, rotation, drill-down, drillup, roll-up, drill-across y drill-through[20].

Figura 1-3:

Proceso de inteligencia de Negocios

Minera de datos:

La minera de datos (en Ingls: data mining DM) es un proceso que consigue conocimiento partiendo de un conjunto amplio de datos, a los cuales se le aplica mtodos para obtener patrones o tendencia nuevas, generando nuevos conocimientos. DM rene varias reas: estadstica, inteligencia artificial, computacin grfica, bases de datos, y el procesamiento masivo. Fayyad [16] defini minera de datos como: un proceso no trivial de identificacin vlida, novedosa, potencialmente til y entendible de patrones comprensibles que se encuentran ocultos en los datos8.

La Minera de Datos es un proceso completo de descubrimiento de conocimiento que involucra varios pasos [27]. En la figura 1-4, se observa las diferentes tareas: (i) Entendimiento del dominio de aplicacin, el conocimiento relevante a utilizar y las metas del usuario. (ii) Seleccin de un conjunto de datos en donde realizar el proceso de descubrimiento. (iii) Limpieza y reprocesamiento y limpieza de los datos, diseando una estrategia adecuada para manejar ruido, valores incompletos, valores fuera de rango y

FAYYAD, Usama, PIATESTSKY-SHAPIRO, Gregory, y SMYTH Padhraic, From Data Mining to Knowledge Discovery in Databases, American Association for Artificial Intelligence pag 37 -54. 1996. Pag. 38

14

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

valores inconsistentes. (iv) Seleccin de la tarea de descubrimiento a realizar: clasificacin, agrupamiento, reglas de asociacin, entre otras. Adems la seleccin de algoritmos a aplicar. (v) Transformacin de los datos al formato requerido por el algoritmo especifico de explotacin de datos (vi) Encontrar patrones y modelos interesantes. (vii) Evaluacin de los patrones descubiertos y presentacin de los mismos mediante tcnicas de visualizacin. (viii) Utilizacin del conocimiento descubierto, ya sea incorporndolo dentro de un sistema o simplemente para almacenarlo y reportarlo a las personas interesadas. Figura 1-4: Proceso descubrimiento de conocimiento en BD

Fuente. Morales, Eduardo, Descubrimiento de Conocimiento en Bases de Datos

1.1.3 Problemas en el proceso de inteligencia de negocios

En diversos informes indican [25, 35] que entre el 40% y el 50% de los procesos de inteligencia de negocios fallan o son abandonados. Segn lo observado por parte de Larry Poole [35] esta situacin se presenta por:

MORALES, Eduardo, Descubrimiento de Conocimiento en Bases de Datos. {En lnea}, {9 de junio de 2008} disponible en: (http://dns1.mor.itesm.mx/ ~emorales/Cursos/KDD03/principal.html).

Captulo 1

15

(i) Carencia de un lder que entienda el valor del proyecto y est dispuesto a apoyarlo asignando los recursos apropiados y a enfocarse de modo que tenga xito.

(ii) Los requisitos son pobres ya que no se involucran a los usuarios en las discusiones para asegurar que se est planeando construir realmente algo que se necesita y que va a utilizar.

(iii) Los diseos son pobres debido a que los requisitos son deficientes y el tiempo de modelado es limitado.

(iv) Carencia del entrenamiento a usuarios finales para el uso adecuado de la solucin para llevar a buen trmino la implantacin del proyecto.

(v) En las organizaciones se cree a menudo que con la solucin inicial se termina el proyecto descuidando su mantenimiento o crecimiento, ya que ella puede involucrar ms partes de la organizacin, y esto se puede hacer por medio de diversos data mart hasta generar una nica bodega de datos [23].

(vi) Otro de los problemas escoger inadecuadamente la herramientas a utilizar, en el mercado hay un gran nmero de ellas y sus caractersticas y precios varan, lo que hace necesario realizar una adecuada valoracin para saber escoger cul se ajusta ms en la implementacin. Es importante entender las necesidades de usuarios y seleccionar la herramienta que faciliten el desarrollo de las aplicaciones previstas10 [10].

(vii) Muchos proyectos arrancan pensando en una solucin final pero sin saber la cantidad de tiempo y trabajo que requieran, o si su solucin es compleja.

10

Custer consortiwn, 41% HAVE EXPERIENCED DATA WAREHOUSE PROJECT FAILURES. {En lnea}, {8 de marzo de 2009} disponible en: (http://www.cutter.com/research/2003/ edge030218.html)

16

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

Despus de la utilizacin de la solucin por parte de los usuarios, puede ocurrir que la solucin no cumple con sus objetivos y se deje de usar o puede cumplir las expectativas y querer que sus funcionalidades aumente. En ambos casos, se necesita de constante revisiones de los logros, realizando las modificaciones y mejoras necesarias de modo que todos sus usuarios quieran utilizarlo.

1.2 Lenguaje de Modelado Unificado U.M.L.


UML es un lenguaje grfico para construir, documentar, visualizar y especificar un sistema de software. En la actualidad la versin ms reciente del UML es 2.3 [30] publicada en mayo de 2010. UML 2.3 est dividido en dos especificaciones: Seccinestructura y Superestructura. La especificacin de la Seccinestructura define el lenguaje de construcciones bsicas (core y profile), y se complementa con la superestructura, esta es la definicin formal de los elementos del UML, es utilizada por los desarrolladores de aplicacin.

UML 2.3 posee dos grupos de diagramas: diagrama de estructura y diagramas de comportamiento.

Diagramas de estructura: Muestran la estructura esttica del sistema, sus partes de abstraccin y los diferentes niveles de implementacin, adems la interrelacin entre s. Los elementos de un diagrama de la estructura representan los conceptos significativos de un sistema, y pueden incluir niveles de abstraccin del mundo real y los conceptos de aplicacin. Los diagramas propuestos son: Diagrama de clases, diagramas de objetos, diagramas de paquetes, diagramas de componentes, diagrama de estructuras compuestas, diagrama de perfiles y diagrama de despliegue.

Diagramas de comportamiento: En estos diagramas se observa el comportamiento dinmico de los objetos en un sistema, que puede ser descrito como una serie de cambios en el sistema a lo largo de la lnea de tiempo. Los diagramas propuestos son: Diagrama de casos de uso, diagrama de actividad, diagrama de estados de mquina, y diagramas de interaccin.

Captulo 1

17

En la figura 1-5 se observan todos los diagramas de estructura y de comportamiento aplicados al UML 2.3 Figura 1-5: Diagrama de UML 2.3

1.3 Metodologas para el modelamiento de bodegas de datos basada en el proceso unificado.


Lujan en su tesis doctoral [24] presenta un proceso de ingeniera para el desarrollo de bodegas de datos (en ingls: Data Warehouse Engineering Process DWEP). DWEP es una metodologa que permite modelar todos los aspectos fundamentales en los modelos de datos (lgico conceptual y fsico) de las DW. DWEP est basado en el proceso unificado (en ingls: Unified Process UP).

18

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

El proceso unificado [22] es un estndar aceptado en el mbito cientfico e industrial para el desarrollo de software y sus principales caractersticas son:

Es iterativo e incremental, Se basa en cuatro fases de desarrollo y cinco flujos de trabajo.

Est basado en componentes.

Utiliza el UML para expresar grficamente todos los esquemas de un sistema software [3, 6 y 30].

Est dirigido por casos de uso, es centrado en la arquitectura.

El DWEP mantiene las cuatro fases del proceso unificado (UP) [22, 24 y 44]: Inicio, elaboracin, construccin y transicin. En la figura 1-6, se presentan grficamente la relacin existente entre los flujos de trabajo y las fases tanto del UP y del DWEP. Figura 1-6: (a) Proceso Unificado y (b) DWEP

Captulo 1

19

Fuente. Jacobson, Ivar; Booch, Grady; Rumbaugh, James. El proceso unificado de desarrollo de 11 12 software. / S. Lujan, Data WareHouse Desig with UML, PHD. Thesis .

1.3.1 Fases de la metodologa DWEP y UP.

Fase de inicio: El objetivo de esta fase es desarrollar el anlisis del proyecto para justificar su puesta en marcha. Para lograrlo se realiza una descripcin general del proyecto, una planeacin basada en interacciones de las fases subsiguientes, en la que se detectan los riesgos crticos y se establece la funcionalidad bsica del software con una descripcin de la arquitectura propuesta.

Fase de elaboracin: Una vez finalizada la fase de inicio, se forma una arquitectura slida para la construccin del software, para lo cual se establece la base lgica de la aplicacin con los casos de uso definitivos y los artefactos del sistema que lo componen, mitigando el riesgo tecnolgico de la exploracin del lenguaje de programacin en cuanto a interfaz de usuario se refiere. Para esto, se efecta la primera iteracin con un prototipo funcional para la realizacin de pruebas de software y la definicin del modelo para la implementacin de la interfaz de usuario.

Fase de construccin: Se inicia a partir de la lnea base de arquitectura que se especific en la fase de elaboracin, y su finalidad es desarrollar un producto listo para la operacin inicial en el entorno del usuario final.

Fase de transicin: Una vez que el proyecto entra en la fase de transicin, el sistema ha alcanzado la capacidad operativa inicial. En la fase de transicin se busca implantar el producto en su entorno de operacin.

11

JACOBSON, Ivan; BOOCH, Grady; RUMBAUGH, James. El proceso unificado de desarrollo de software., Addison Wesley. Madrid, ES. 2000. 438 p. Pag 43 12 LUJAN, Sergio. Data WareHouse Desig with UML, Tesis Doctoral., Universidad de Alicante, 2005.Departamento de software y sistemas computacionales. Pag 37

20

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

1.3.2 Flujos de trabajo aplicados al proceso DWEP


En trminos generales para el UP y el DWEP un flujo de trabajo es un conjunto de actividades realizadas en un rea determinada cuyo resultado es la construccin de artefactos (un texto, un diagrama, una pgina Web, cdigo en lenguaje de programacin, etc.). En el caso de DWEP, como se ve en la tabla 1-2, se emplean 15 artefactos basados en los diagrama de casos de uso, diagrama de clases, diagrama de componentes, y diagrama de despliegue.

Tabla 1-2:

Diagramas empleados en DWEP

Fuente.S. Lujan, Data WareHouse Desig with UML, PHD. Thesis

13

Requerimiento: Durante este flujo de trabajo, los usuarios finales especifican las medidas y agregaciones ms interesantes, el anlisis dimensional, consultas usadas para la generacin de reportes peridicos y frecuencia de la actualizacin de los datos. El DWEP plantea la utilizacin del modelo de casos de uso.

Anlisis: El objetivo de este flujo de trabajo es mejorar la estructura y los requisitos obtenidos en la etapa de requerimientos. En esta etapa se documentan los sistemas operaciones preexistentes que alimentan la bodega de datos. DWEP propone el uso esquema conceptual de orgenes de datos (en ingls Source Conceptual Schema SCS), esquema lgico de orgenes de datos (en ingls Source Logical Schema SLS), y el esquema fsico de orgenes de datos (en ingls Source Physical Schema SPS).

13

LUJAN, Sergio. Data WareHouse Desig with UML, Tesis Doctoral., Universidad de Alicante, 2005.Departamento de software y sistemas computacionales. Pag 35

Captulo 1

21

Diseo: Al final de este flujo de trabajo, se define la estructura de la bodega de datos, esto es, su modelo conceptual. DWEP propone el uso de los diagramas Esquema conceptual de la bodega de datos (en ingls Data Warehouse Conceptual Schema DWCS), El esquema cliente conceptual (en ingls Client Conceptual Schema CCS), y el mapeo de datos (en ingls Data Mapping DM). El DM muestra la relacin entre SCS y DWCS adems entre DWCS y el CCS. Implementacin: Durante este flujo de trabajo, la bodega de datos se construye: Se desarrolla su estructura fsica, empieza el proceso de recepcin de datos por parte de los sistemas de operaciones, se afina para un funcionamiento optimizado, entre otras tareas. El DWEP utiliza los siguientes artefactos: El esquema lgico de la bodega de datos (en ingls Data Warehouse Logical Schema DWLS), el esquema fsico de la bodega de datos (en ingls Data Warehouse Physical Schema DWPS), el esquema lgico del cliente (en ingls Client Logical Schema CLS), el esquema fsico del cliente (en ingls Client Physical Schema CPS), y el proceso extraccin, transformacin y carga de datos (ETL). Pruebas: El objetivo de este trabajo es verificar que la aplicacin funcione correctamente. Concretamente, los efectos de las pruebas son los siguientes: Planificar las pruebas necesarias, disear y aplicar las pruebas mediante la creacin de casos de prueba y realizar las pruebas y analizar los resultados de cada prueba. Mantenimiento: A diferencia de la mayora de los sistemas, la bodega de datos es un proceso que se retroalimenta constantemente. El objetivo de este flujo de trabajo es definir la actualizacin y carga de los procesos necesarios para mantener la bodega de datos. Este flujo de trabajo comienza cuando se construye la bodega de datos y es entregada a los usuarios finales, pero no tiene una fecha de finalizacin. Durante este trabajo, los usuarios finales pueden tener nuevas necesidades, lo que desencadena el comienzo de una nueva iteracin con los requisitos de flujo de trabajo.

Revisiones post desarrollo: Esto no es un flujo de trabajo de las actividades de desarrollo, sino un proceso de revisin para la mejora de proyectos a futuro. Si hacemos un seguimiento del tiempo y esfuerzo invertido en cada fase es til en la estimacin de tiempo y en las necesidades para generar desarrollos futuros.

22

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

1.3.3 Impacto del DWEP.


El DWEP se implement como un mecanismo para resolver el siguiente problema: Se requiere construir un DW en el sistema de venta al por menor de una empresa. Se consider una pequea parte de la DW, donde el objetivo tabla de hechos debe contener slo las ventas trimestrales de los productos pertenecientes a la categora de equipo, mientras que el resto de los productos que se descartan...14 [24]. Al aplicar esta metodologa se encontraron las siguientes ventajas:

Integridad del diseo de la bodega de datos, al abarcar una serie de modelos basados en los paquetes de UML.

Trazabilidad del diseo de la bodega de datos, desde el modelo conceptual hasta el fsico.

El aprendizaje se simplifica gracias al empleo de un lenguaje de modelado estndar como es UML.

Reduccin de los costos de desarrollo, abordando en fases inciales aspectos de la implementacin que pueden incurrir en un aumento de los costos del proyecto de bodegas de datos si se modifican en fases posteriores.

Diferentes niveles de abstraccin, al proporcionar varios niveles de detalles sobre el mismo diagrama.

Se puede analizar que las ventajas obtenidas de aplicar el DWEP subsanan algunas problemticas en la construccin de la bodega de datos como las presentadas en la seccin 2.1.3, en el proceso de integracin de datos.

14

LUJAN, Sergio. Data WareHouse Desig with UML, Tesis Doctoral., Universidad de Alicante, 2005.Departamento de software y sistemas computacionales. Pag. 101.

Captulo 1

23

1.4 Metodologas para el proceso de anlisis de datos.


El proceso de anlisis de datos se puede realizar por medio de procesos OLAP y/o minera de datos. En la actualidad la mayora de organizaciones finalizan su proceso en OLAP debido al tiempo, consecucin de expertos para el anlisis de datos y los costos que generan el proceso de minera de datos.

1.4.1 Metodologa aplicada a OLAP

Los sistemas OLAP se divide en tres mdulos operacionales [36]: interface grfica de usuario (GUI), procesamiento lgico analtico y procesamiento lgico del dato. En la figura 1-7 se observa que bodega de datos es independiente al sistema OLAP.

De lo anterior se colige que los sistemas OLAP son un modelo para el desarrollo de software que cumplen con las fases de anlisis, diseo, construccin e implementacin.

Figura 1-7:

Sistema OLAP

Fuente. Coronel Crockett Rob, Database Systems, Cengage Learning EMEA.

15

15

ROB, Peter y CORONEL, Carlos, Database Systems: Design, Implementation and Management, Cengage Learning EMEA, 2008. Quinta edicin, ISBN: 0-169-06269-x. Pag 18.

24

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

En la etapa de anlisis se definen las necesidades del usuario para la generacin de los diversos reportes basado en el cubo dimensional. En la etapa de diseo se realiza la transformacin y consolidacin de los datos para la generacin del reporte. En la etapa de construccin se genera el cdigo fuente del reporte por medio del lenguaje SQL o en su extensin (MDX). En la etapa de implementacin; el programa se ejecuta en un ambiente de un servidor OLAP para la generacin del reporte.

1.4.2 Metodologa para la aplicacin en Minera de Datos

La minera de datos constituye un paso ms en el anlisis de los datos de la organizacin para apoyar la toma de decisiones. No se trata de una tcnica que sustituya el anlisis OLAP sino que lo complementa, permitiendo realizar estudios ms avanzados de los datos y extraer ms informacin de ellos.

La metodologa ms utilizada en la minera de datos es la propuesta por la comunidad europea Cross-Industry Standard Process for Data Mining (CRISP-DM) [11 y 39], cuyo objetivo es fomentar la interoperabilidad de las herramientas utilizadas en el proceso de minera de datos para reducir sus costos, tiempo y aprendizaje.

En la figura 1-8 a, se observa este proceso el cual se desarrolla en forma cclica con retroalimentaciones en seis (6) fases: comprensin del negocio, comprensin de los datos, preparacin de datos, modelamiento, evaluacin y despliegue.

Otra metodologa que ha tenido gran aceptacin en el proceso de minera de datos es SEMMA desarrollada por SAS Institute [37], siendo definida como el proceso de seleccin, exploracin y modelado de grandes cantidades de datos para descubrir patrones de negocio desconocidos. En figura 1-8b se observa las cinco (5) fases de esta metodologa: muestreo, exploracin, modificacin, modelizacin y estimacin.

Captulo 1

25

Figura 1-8:

Metodologa para minera de datos a) CRISP-DM b)SEMMA

Fuente. P. Chapman et al., CRISP-DM 1.0: Step-by-step data mining guide / SAS Enterprise Miner.

1.5 Minera de datos sobre DW basada en UML


Zubcoff en el 2009 [47] en su tesis doctoral presenta cmo se pueden desarrollar perfiles de UML [17 y 18] al proceso de bodega de datos basado en el Common Warehouse Metamodel (CWM) [29].

La especificacin del Common Warehouse Metamodel (CWM) [29] contiene las directivas necesarias para poder almacenar la meta-informacin de cualquier modelo

multidimensional y OLAP mediante un formato estndar y fcilmente intercambiable. CWM fue concebido por la OMG como un estndar demasiado general que asegura un amplio consenso para su utilizacin por la comunidad cientfica e industrial. Por lo tanto todos los elementos representados adolecen algunas caractersticas bsicas en el modelado multidimensional.

Cualquier extensin del CWM se puede representar mediante el XMI Metadata Interchange (XMI) [32] para obtener finalmente documentos XML. As, dichas extensiones nos permitirn asegurar la interoperabilidad con el resto de soluciones informticas.

26

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

CWM [29] ofrece adems un meta modelo para el proceso de minera de datos el cual brinda cinco meta modelos aplicados a las diversas tcnicas de minera de datos: Reglas de asociacin, agrupamiento, importancia del atributo, clasificacin y aproximacin, en la figura 1-9 observamos el core de minera de datos y las asociaciones con los paquetes de reglas de asociacin, agrupamiento, clasificacin, atributo importante y aproximacin. Figura 1-9: Modelos CWM para el proceso de Minera de Datos.

Fuente. Common Warehouse Metamodel (CWM) Specification, OMG, 2003.16

1.5.1 Reglas de Asociacin


Este paquete contiene el meta modelo que representa las construcciones para los conjuntos de tems frecuentes, reglas de asociacin y los algoritmos de secuencia. Este meta modelo se observa en la figura 1-10 la clase FrequentItemSetFunction-Settings donde se coloca el soporte mnimo y el tamao mximo del conjunto, en la clase AssociationRulesFunctionsSetting se afina el modelo donde se puede ajustar la confianza mnima y la longitud mxima de la regla. La clase MiningFunctionSettings se especializa en el anlisis de los datos.

16

Object Management Group (OMG). Common Warehouse Metamodel (CWM) Specification vertions 1.1. {En lnea}, {5 de marzo de 2010} disponible en: (http://www.cwm.org).

Captulo 1

27

Figura 1-10: Modelos CWM para reglas de asociacin.

Fuente. Common Warehouse Metamodel (CWM) Specification, OMG, 2003.17

1.5.2 Clasificacin
El CWM se ofrece un conjunto de estndares para este modelo, donde se representa la funcin de clasificacin, modelos y configuraciones. En la figura 1-11 se puede ver una clase principal (ClassificationFunctionSettings) con un nico atributo definido como costMatrix (matriz de coste) que permite almacenar los valores de significacin y probabilidad para dicha matriz. CWM no define especficamente ningn otro atributo para modelar parmetros de minera con clasificacin. La propuesta CWM est enfocada al modelado de los resultados de la tarea de clasificacin dado que la matriz de costo hace referencia solo a resultados de clasificacin.

17

Object Management Group (OMG). Common Warehouse Metamodel (CWM) Specification vertions 1.1. {En lnea}, {5 de marzo de 2010} disponible en: (http://www.cwm.org).

28

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

Figura

1-11:

Metamodelo CWM para reglas de Clasificacin

Fuente. Common Warehouse Metamodel (CWM) Specification, OMG, 2003.18

1.5.3 Agrupamiento
Respecto a las tcnicas de agrupamiento, CWM propone un meta modelo con ms nivel de detalle que en el resto de la norma tcnicas. En la figura 1-12 se pueden observar las clases que definen los ajustes para realizar el agrupamiento el cual se basa de funciones de agregacin y el atributo de agrupamiento.

Figura 1-12: Metamodelo CWM para Agrupamiento

18

Object Management Group (OMG). Common Warehouse Metamodel (CWM) Specification vertions 1.1. {En lnea}, {5 de marzo de 2010} disponible en: (http://www.cwm.org).

Captulo 1

29

Fuente. Common Warehouse Metamodel (CWM) Specification, OMG, 2003.19

1.5.4 Anlisis de Tiempo


CWM no propone ninguna herramienta para modelar el anlisis de series temporales especficamente. Zubcoff en el 2009 [47] propuso un modelo el cual incluye los siguientes parmetros para evaluarla: perodo, nmero de perodos, ventana bajo anlisis, soporte mnimo, tratamiento de valores ausentes y restriccin de valores. En la figura 1-13 el perfil UML aplicado a las series de tiempo. Figura 1-13: Perfil UML serie de tiempo

Fuente. Zubcoff Vallejo, Un conjunto de perfiles de UML para el Modelado conceptual de tcnicas de minera de datos sobre almacenes de datos, 2009.20

19 20

Ibid., ZUBCOFF, Jos. Un conjunto de perfiles de UML para el Modelado conceptual de tcnicas de minera de datos sobre almacenes de datos, 2009, pginas: 226. Universidad de Alicante. Departamento de Lenguajes y Sistemas Informticos. Pag 126.

30

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

1.6 2.6 RESUMEN DEL CAPITULO


En este captulo se present el estado actual de los sistemas de inteligencia de negocios. Estos se componen de dos elementos: la integracin de datos y el anlisis de datos. En el componente de integracin de datos se construye la bodega de datos o los data mart y para el anlisis de datos se realizan por medio de tcnica de minera de datos y OLAP.

Se encuentran una cantidad de metodologas de para el diseo conceptual de la bodega de datos como son: modelo Multidimensional/ER (Sapia) [5], modelo Estrella/ER (Tryfona) [7], modelo GOLD (Trujillo) [45], modelo Husemann [20], modelo YAM2 [1] y DWEP [24 y 44].

De estas se destaca el DWEP ya que es una metodologa basada en el proceso unificado y en lenguaje unificado de modelamiento (UML). DWEP aplica las cuatro (4) las fases del proceso unificado y siete (7) flujos del trabajo. Cada flujo de trabajo tiene un modelo de artefactos asociados (diagramas del UML). Por ende esta metodologa ofrece quince (15) diagramas para el anlisis, diseo, construccin, implementacin, pruebas y anlisis de post desarrollo de la bodega de datos.

En el componente de anlisis de datos por medio de OLAP se divide en tres mdulos operacionales [36]: interface grafica de usuario (GUI), procesamiento lgico analtico y procesamiento lgico del dato.

Por ltimo en las tcnicas de minera de datos se destacan: Cross-Industry Standard Process for Data Mining (CRISP-DM) [11 y 39], proceso de minera de datos es SEMMA desarrollada por SAS Institute [37] y por ltimo encontramos una propuesta dada por el doctor Zubcoff en el 2009 [47] en donde se presenta como se pueden desarrollar perfiles de UML al proceso de bodega de datos basado en el Common Warehouse Metamodel (CWM).

2. Captulo 2 (Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP))


En este captulo se propone una metodologa para el desarrollo de un sistema de inteligencia de negocios en el que confluya la integracin y el anlisis de datos. Esta metodologa llamada proceso de ingeniera de inteligencia de negocios (en ingls: Business Intelligence Engineering Process - BIEP -) est compuesta por dos elementos: (i) fases y (ii) flujos de trabajo, transversales a los elementos que componen un sistema de inteligencia de negocios.

BIEP se basa en el proceso unificado, en la metodologa DWEP [24 y 44], en el diagrama de cubo dimensional [33] y en los diagramas propuestos de Zubcoff [47] sobre el proceso de descubrimiento (o extraccin) de conocimiento en bases de datos (en ingls: Knowledge Discovery in Databases KDD)[16] en modelos multidimensionales y bodegas de datos

El presente captulo se aborda de manera inicial los elementos de una metodologa de inteligencia de negocios ( Seccin 2.1.); de manera subsiguiente se expondr la metodologa de inteligencia de negocios basada en el proceso unificado, la cual se componen por flujos de trabajo y fases, modelos, diagramas y perfiles de UML ( Seccin 2.2.); luego se discutir todos los perfiles UML asociados al BIEP ( Seccin 2.3.); en seguida se presentarn los flujos de trabajo del BIEP ( Seccin 2.4.); por ltimo se efectuar un resumen del captulo ( Seccin 2.5.).

32

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

2.1 Elementos de una metodologa negocios.

de inteligencia

A travs de la presente metodologa se busca el desarrollo un sistema de inteligencia de negocios basada en el proceso unificado de software (UP) denominada: proceso de ingeniera de inteligencia de negocio (BIEP). Esta nueva metodologa tiene un enfoque estructurado para el desarrollo de cada uno de los elementos de integracin, anlisis y despliegue de datos, cuyo propsito ser facilitar la produccin de sistemas de inteligencia de negocios, incluyendo: modelo del sistema, notaciones, reglas de sugerencia de diseo y guas de proceso. Estos elementos se presentan en la figura 2-1.

Figura 2-1: negocios.

Elementos para el desarrollo de un sistema de inteligencia de

En el elemento de integracin de los datos se desarrollan los modelos conceptual, lgico y fsico de la bodega de datos. Para estos fines, BIEP toma como base la metodologa de proceso de ingeniera para el desarrollo de bodegas de datos (en ingls: Data Warehouse Engineering Process DWEP) [24 y 44] la cual se basa en el proceso unificado (UP) [22], considerando que se trata de unos de los ms modernos e importantes desarrollos en la materia.

Captulo 2

33

El anlisis de datos se realiza por medio de tcnicas OLAP y/o de minera de datos (en ingls: data mining DM). Respecto a OLAP, en orden a modelar los cubos dimensionales, se utilizar una metodologa extendida del DWEP, [33] basada en perfiles de UML. Para la tcnica de minera de datos se adicionaron dos flujos de trabajo basados en la metodologa CRISP-DM 1.0 [11 y 39] y se incorporan los diagramas conceptuales propuestos de Zubcoff [47].

El despliegue se basa en los diagramas CCS, CLS y CPS de DWEP, los cuales, tambin son perfiles de UML basados en los diagramas de clases y de despliegue. Es de advertir que este componente depende del entorno final de uso del sistema de inteligencia de negocios, razn por la cual, los diagramas estn ntimamente vinculados con la herramienta de despliegue que se utilice en cada caso.

2.2 Desarrollo de la metodologa


Para el desarrollo de un sistema de inteligencia de negocios su metodologa puede ser considerada una instancia del proceso unificado (UP), como la metodologa DWEP es para la bodega de datos. Por esta razn, BIEP se basa en el proceso unificado, heredando de ste las siguientes caractersticas: se basa en casos de usos, su arquitectura es centralizada, y sus procesos son iterativos e incrementales.

El proceso unificado (UP) [22] es un estndar en la industria en el procesos de ingeniera de software, el cual se componen de fases y flujos de trabajo. Cada flujo de trabajo referencia uno o varios modelos y cada modelo proviene de un diagrama UML. Este rasgo tambin ser heredado por BIEP, contando con cuatro (4) fases, nueve (9) flujos de trabajo, diez (10) modelos y veintisiete (27) diagramas, los cuales se basan en nueve (9) perfiles de UML, como se explicar a continuacin.

34

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

2.2.1 Fases y flujos de trabajo de BIEP

Las fases de BIEP parten del inicio del proceso de desarrollo del sistema de inteligencia de negocios y concluye con la transaccin, esto es, la entrega de dicho sistema. A su vez, los flujos de trabajos buscan describir las actividades a desarrollar para alcanzar el citado desarrollo. En la figura 2-2, se presenta las fases y flujos de trabajo de la metodologa BIEP. En la parte superior se observa las cuatros (4) fases y en la parte izquierda se observan los nueve (9) flujos de trabajo.

Figura 2-2:

Fases y flujos de trabajo de la metodologa propuesta (BIEP)

Se tiene, entonces, que BIEP sigue las mismas fases desarrolladas en el proceso unificado [28] y en DWEP [24 y 44], a saber:

Fase de Inicio: se define cules sern los lmites y alcances del proyecto de inteligencia de negocios y se desarrolla el caso del negocio. Su finalidad es la generacin de una visin global del proyecto.

Fase de elaboracin: se pretende realizar el plan del proyecto, el rasgo especfico y la lnea base de arquitectura, cuya suma dar lugar a la arquitectura base.

Fase de construccin: se desarrolla el proyecto y su meta es dar un producto inicial.

Captulo 2

35

Fase de transicin: busca implantar el proyecto en su entorno de operacin con todos los usuarios y su propsito es entregar la versin final a los usuarios.

BIEP contiene nueve (9) flujos de trabajo, cinco (5) provienen del proceso unificado: requerimiento, anlisis, diseo, implementacin y pruebas. Dos (2) del DWEP [23 y 44]: mantenimiento y revisiones post desarrollo. Adicionalmente, se proponen dos (2) nuevos flujos de trabajo basados en la metodologa CRISP-DM: Preparacin modelado y evaluacin y despliegue. Cada uno de esto flujos de trabajo se estudiarn en la seccin 2.4.

2.2.2 Modelos de BIEP

BIEP aplica diez (10) modelos, cada uno basado en flujos de trabajo, los cuales son:

Modelos de casos de uso: describe la funcionalidad propuesta del nuevo sistema de inteligencia de negocios. Un caso de uso representa una unidad discreta de interaccin entre un usuario (humano o mquina) y el sistema, siendo una unidad de trabajo significativo.

Modelo de anlisis: consiste en una jerarqua de paquetes, que son abstracciones de subsistemas o capas de diseo. Los paquetes contienen clases del anlisis de las fuentes de datos que poblarn las tablas en la bodega de datos y realizaciones de casos de uso.

Modelo de diseo: describe como los casos de uso influyen en el sistema de inteligencia de negocios. Se realiza el modelo conceptual de la bodega de datos. Cada parte de la bodega representa una abstraccin con una correspondencia en la implementacin.

Modelo de implementacin: realiza los modelos lgicos y fsicos de la bodega de datos y la organizacin de los componentes. Se compone de un sistema de implementacin (constelaciones), el que a su vez consta de varios subsistemas

36

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

(estrellas o copos de nieve). Cada sistema o subsistema consta de tablas de hechos y dimensiones. Modelo OLAP: permite el anlisis multidimensional de la bodega de datos y, a travs de ellos, se revisan los requerimientos del usuario para la generacin de los reportes que sean requeridos. Modelo de minera de datos: describe el anlisis de los datos almacenados en la bodega. Para estos fines, a los datos se les aplica una seleccin y se transforman de acuerdo a las necesidades de las tcnicas de minera de datos a aplicar. Modelo de despliegue: describe como se reparte la funcionalidad entre los nodos fsicos. Los nodos pueden ser de dos clases: (i) procesadores o recursos de hardware, o (ii) de comunicacin, cuya finalidad es permitir la relacin entre los primeros y describir la configuracin de la red (intranet, bus, entre otros). La funcionalidad de un nodo depende de los componentes que en l estn. Modelo de pruebas: especfica cmo son las pruebas de integracin y de sistema para los elementos desplegados. Pueden probarse tambin componentes como manuales de usuario o tcnicos. Modelo de mantenimiento: define la periodicidad de actualizacin de la tabla de hecho y dimensiones de la bodega de datos. As mismo, realiza el anlisis de los informes obtenidos en el modelo OLAP y de minera de datos. Modelo de revisin post desarrollo: sirve para establecer la revisin del proyecto para implementaciones o ampliaciones del sistema de inteligencia de negocios.

En la figura 2-3, se presenta los modelos de la metodologa BIEP con respecto a las fases y flujos de trabajo. La ubicacin de cada modelo indica la fase y el flujo de trabajo donde se desarrolla.

Captulo 2

37

Figura 2-3:

Modelos (BIEP)
Fases / Flujos de trabajo Requerimientos Inicio Modelos de casos de uso Modelos de anlisis Modelos de diseo Modelos de implementacin Modelos OLAP Modelo de minera de datos Modelos de despliegue Modelos de prueba Modelos de mantenimiento Modelos post desarrollo Elaboracin Construccin Transicin

Anlisis

Diseo

Implementacin Preparacion, modelado y evaluacion Despliegue

Pruebas

Manteniento Revisin post Desarrollo

2.2.3 Diagramas de BIEP


Los modelos de BIEP son asociados a veintisiete (27) diagramas distribuidos de la siguiente forma:

Integracin: Doce (12) diagramas provenientes de la metodologa de DWEP.

Seis (6) nuevos diagramas generados por la ltima versin del UML 2.3.

Anlisis de datos:

Un (1) diagrama para el modelamiento del cubo.

Un (1) diagrama para la preparacin, seleccin y transformacin de datos del proceso de minera de datos.

Cuatro (4) diagramas conceptuales para las tcnicas de minera de datos: reglas de asociacin, clasificacin, agrupamiento y series de tiempo.

38

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

Despliegue: Tres (3) diagramas de despliegue de datos provenientes de DWEP.

Cada uno de estos diagramas se explican en detalle en la seccin: 2.4.

2.2.4 Perfiles de UML aplicados a la metodologa BIEP

La semntica de UML 2.x viene descrita por su meta-modelo, que es expresado en MOF [42]. Para disear los diagramas de la metodologa BIEP no se quiere modificar la semntica de UML, sino particularizar algunos de sus conceptos. De hecho, UML incluye un mecanismo de extensin en el propio lenguaje que permite definir lenguajes de modelado que son derivados de UML.

De forma ms precisa, el paquete de profile de UML 2.x define una serie de mecanismos para extender y adaptar las meta-clases de otro metamodelo a las necesidades concretas de dominio del proyecto. En la siguiente seccin profundizamos sobre los perfiles que se desarrollan en BIEP.

2.2.5 Pasos para aplicar BIEP

Los principales pasos de la metodologa BIEP se pueden observar por medio un diagrama de actividades de UML 2.3. En la figura 2-4, se observa que el diagrama se ha dividido verticalmente en dos partes (swimlanes) de acuerdo a quin gua las actividades descritas:

Usuarios finales del BIEP (los usuarios finales orientan el trabajo de los diseadores y administradores del proceso de inteligencia de negocios).

Captulo 2

39

Figura 2-4:

Diagrama de actividades con los principales pasos de BIEP


Diseadores y administradores

Usuarios Finales

Definir los objetivos del Negocio

Definir los objectivos de Minera de datos

Determinar los requerimientos iniciales (Casos de Uso)

Requerimiento

Identificacin de las fuente de datos(SCS, SCOS )

Anlisis
Revisin del esquema lgico de las fuentes de datos (SLS y SLCS)

Mapeo de datos Diseo conceptual de la bodega de datos (DWCS y DWOCS)

Diseo secuencias de la bodega de datos (DWSS)

Proceso ETL

Diseo

Diseo estado de maquinas de la bodega de datos (DWSMS)

Diseo actividades de la bodega de datos (DWAS)

Diseo logico de la bodega de datos (DWLS)

Desarollo fsico de la bodega de datos (DWPS)

Implementacin
Generacin reporte OLAP Anlisis, seleccin y transformacin de datos

Preparado, modelado y evaluacin


Tcnica de Minera de datos (DMAR, DWCLS, DMCS, DMTSS)

Informes de despliegue conceptuales (CCS)

Proceso de exportacion (Exporting)

Despliegue
Diseo lgico del despliegue(CLS)

Despliegue del informe (CPS)

40

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

Diseadores y administradores del BIEP (no necesitan de la participacin de los usuarios finales, ya que disponen de toda la informacin necesaria para realizar su labor).

Las actividades se han dividido en seis (6) grupos, considerando el flujo de trabajo del BIEP: requerimiento, anlisis, diseo, implementacin, modelado y despliegue. Cada actividad se explica en detalle la seccin 3.4.

Por ltimo, las transiciones de cada grupo definen el orden secuencial de las actividades a considerar en el desarrollo de un sistema de inteligencia de negocios y tambin indican el empleo de informacin procedente de otra.

2.3 Perfiles de UML aplicados a BIEP


Como se mencion en la seccin 3.2.4, los perfiles de UML nos ayudan a particularizar algunos de sus conceptos de acuerdo a las necesidades concretas del dominio del proyecto.

Los diagramas de BIEP provienen de particularizar los diagramas de clases, despliegue, objetos, casos de uso, secuencia, comunicacin y estados de mquinas de la versin del UML 2.3.

2.3.1 Perfil UML para la bodega de datos


Este perfil sirve para el modelo conceptual y lgico de la bodega de datos. En la figura 25 se ve el modelo1 es importado de la metaclase paquetes y de l se extienden los elementos del diagrama estrella y copo de nieve. En el modelo2 es importado de la metaclase class y de l se extienden las dimensiones, las tablas de hechos y la base de todos los atributos de todas las tablas.

Captulo 2

41

La metaclase Association es importado de la metaclase Association y en ella se extiende el estereotipo Rollup. El Property es importado de la metaclase Property y de l se extienden las propiedades de los atributos: medida, descriptor, estereotipo, elemento de una tabla de hechos o elemento de las dimensiones.

Figura 2-5:

Perfil UML DW

42

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

2.3.2 Perfil UML para el proceso ETL

Este perfil sirve al desarrollo del proceso de carga, extraccin y transformacin de datos entre la bodega de datos y las fuentes de datos. Este perfil, se realiza mediante metaclase ETLProcess la cual es importada de la metaclase Class y de ste se extienden los elementos del proceso ETL: carga, enlace (JOIN), datos incorrectos, filtros, conversiones, tablas de hecho, bases de datos, archivos, dimensiones, espacios temporales y envolturas.

La figura 2-6 representa el mapeo al lenguaje UML de los elementos del proceso de extraccin, transformacin y carga desde las fuentes de datos hasta la bodega de datos.

Figura 2-6:

Perfil UML ETL

Captulo 2

43

2.3.3 Perfil UML despliegue

Este perfil se utiliza para el despliegue fsico de la bodega de datos y de las fuentes de datos, as como para el proceso de transporte de informacin entre ambos. Se realiza mediante la metaclase device la cual es importada de la metaclase device, a partir de ella, se extiende al estereotipo del tipo fsico de equipo: servidor, cliente y discos duros.

En el servidor encontramos los atributos de: sistema operativo, software, unidad central de procesamiento (CPU), memoria y en el tamao de los discos duros. Adems en el cliente de los datos del servidor se adiciona el navegador. Mediante la metaclase artifact la cual se importa de la metaclase artifact, de esta se extiende los estereotipos que posee un equipo como son sistema operativo, espacio de tabla y si es servidor de base de datos.

En la figura 2-7, representa el mapeo al lenguaje UML de los elementos del dominio descritos en el despliegue para las bases de datos y bodegas de datos con todos sus elementos. Figura 2-7: Perfil UML despliegue

44

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

2.3.4 Perfil UML para el proceso de anlisis, seleccin y transformacin de datos.


Este perfil se utiliza para desarrollar todos los procesos de anlisis, seleccin y transformacin de atributos previos a realizar el modelo de minera de datos. Se realiza mediante la metaclase Property importado de la metaclase property, de la metaclase se extiende los siguientes elementos: anlisis y exploracin, seleccin y transformacin de datos.

Cada uno de estos elementos tiene un conjunto de estereotipos heredados para realizar su realiza su tarea as:

El anlisis y exploracin de datos tienen: histogramas, dispersin y grficos de bloques.

En la seleccin se encuentran datos con: ruido, completos, incompleto e inconsistentes.

En la transformacin se encuentran: normalizacin (minmax, decimal, z-score) y reduccin de datos (agrupamiento y discretizacin).

En la figura 2-8 representa el mapeo al lenguaje UML de los elementos del proceso de anlisis, seleccin y transformacin de datos aplicado desde la bodega de datos hasta la tcnica de minera de datos.

Captulo 2

45

Figura 2-8:

Perfil UML proceso de anlisis, seleccin y transformacin de datos.

2.3.5 Perfil UML de reglas de asociacin

Este perfil sirve para la generacin del modelo de las reglas de asociacin aplicado a la bodega de datos. Se realiza mediante la metaclase class importado de la metaclase class, de ella se extiende los siguientes elementos: Modelo de reglas de asociacin, configuracin del modelo y resultados del modelo.

En el estereotipo de configuracin reglas de asociacin se debe considerar los parmetros que los ajustan. Los parmetros especficos que controlan el conjunto de tems frecuentes son el soporte mnimo (MinSupport) y la confianza mnima (MinConf) que la regla debe satisfacer, el mximo nmero de registros del conjunto de datos (MaxItemSetSize - MISS) y el nmero mximo de predicados o el nmero mximo de apariciones de un atributo en el cuerpo de una regla (MaxNumberOfPredicates - MNOP).

46

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

La figura 2-9, muestra el mapeo de los elementos previamente descritos para reglas de asociacin al lenguaje UML. Los atributos Caso, Entrada y Prediccin son elementos que especifican el estereotipo llamada ModeloRA. Todos los parmetros utilizados para controlar el proceso de bsqueda de reglas de asociacin especifican la clase configRA de la Figura. Las reglas de asociacin tienen un antecedente (cuerpo o parte izquierda de la regla) especificado como (cuerpo) y un consecuente (cabecera o parte derecha de la regla) especificado como (cabeza). El primero contiene el/los atributo/s de entrada, el segundo contiene el/los atributos de prediccin observados en el conjunto agrupado de datos. Cada regla tiene un (soporte) y una (confianza). De esta manera definimos una clase que contiene los patrones que definen las reglas de asociacin, esta clase definida como (ResultadosRA) contiene los cuatro atributos previamente mencionados.

Figura 2-9:

Perfil UML Regla de Asociacin

2.3.6 Perfil UML de Clasificacin

Este perfil se utiliza para la aplicacin del modelo de clasificacin aplicado a la bodega de datos. En las tcnicas de clasificacin el analista debe seleccionar los atributos que

Captulo 2

47

formarn parte del anlisis. Estos atributos pueden tener bsicamente dos roles: de Entrada y de Prediccin.

El modelo multidimensional presenta de una manera cercana al analista todos los atributos disponibles, sus relaciones y su estructura jerrquica. Dado que el algoritmo usar cada elemento seleccionado como entrada como un candidato para fragmentar el atributo a predecir se debe tener en cuenta por ejemplo los atributos que estn correlacionados. Esto, en un modelo multidimensional es un proceso muy intuitivo dado que los atributos que estn dentro de una misma dimensin pero a distinto nivel jerrquico estarn correlacionados. El resultado ser que estos atributos correlacionados estarn presentes en las primeras ramas del rbol de clasificacin y pierde inters el patrn encontrado. Por tanto se debe evitar utilizar atributos de una misma dimensin como Entrada y como Prediccin.

La figura 2-10, representa el mapeo al lenguaje UML de los elementos del dominio descritos para minera de datos con clasificacin. El proceso de poda del rbol es el que, en definitiva, da forma al rbol. Este proceso se lleva a cabo automticamente ajustando algunos parmetros del algoritmo.

Figura 2-10: Perfil UML Clasificacin

48

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

2.3.7 Perfil UML para Agrupamiento


Este sirve para la aplicacin del modelo de agrupamiento aplicado a la bodega de datos. Para el dominio especfico de minera con agrupamiento, se han definido cuatro estereotipos: Agrupamiento (la generalizacin de los algoritmos de agrupamiento incluidos sus parmetros), Entrada (atributos de entrada de la tcnica de minera que referencian datos multidimensionales), Caso (los atributos utilizados como caso) y el Atributo abstracto (atributos de minera de datos que hacen referencia a datos multidimensionales).

Los atributos de entrada y caso son implementados en el perfil especializando el estereotipo Atributo y utilizando la definicin etiquetada referencia para enlazar con los datos multidimensionales asociados.

El algoritmo se ha definido por medio del estereotipo agrupamiento extendiendo la metaclase de UML InstanceSpecification y el estereotipo de la metaclase class configrationSetting que modela los parmetros de agrupamiento.

En la figura 2-11 representa el mapeo al lenguaje UML de los elementos del dominio descritos para minera de datos con agrupacin.

Figura 2-11: Perfil UML agrupamiento

Captulo 2

49

2.3.8 Perfil UML de Serie de Tiempo


Este perfil sirve para la aplicacin del modelo de serie de tiempo aplicado a la bodega de datos. La Figura 2-12 define los estereotipos y las metaclases extendidas para el modelado multidimensional de un modo visual como cajas etiquetadas con estereotipo y metaclase, respectivamente. Los conceptos multidimensionales como hechos,

dimensiones y jerarquas de agregacin son traducidos a la metaclase de UML Class definiendo los estereotipos Fact, Dimension y Base. En este caso, la metaclase Class es el concepto ms cercano para el modelado de estos elementos dado que especifica objetos como abstracciones estructurales de las entidades del dominio.

Adems, este perfil tambin permite representar datos multidimensionales como las medidas (estereotipo FactAttribute) o descripciones de los niveles de jerarqua, como son los atributos de dimensin (DimensionAttribute) o los identificadores de los objetos (OID). Estos elementos se traducen a la metaclase de UML Property que tpicamente modela atributos de otras metaclases.

Figura 2-12: Perfil UML anlisis de serie temporales

Fuente. Jos Jacobo Zubcoff Vallejo, Un conjunto de perfiles de UML para el Modelado conceptual de tcnicas de minera de datos sobre almacenes de datos, 2009, Universidad de 21 Alicante.

21

ZUBCOFF, Jos. Un conjunto de perfiles de UML para el Modelado conceptual de tcnicas de minera de datos sobre almacenes de datos, 2009, pginas: 226. Universidad de Alicante. Departamento de Lenguajes y Sistemas Informticos.

50

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

2.3.9 Perfil UML de Caso de uso

Este perfil se utiliza para la aplicacin del proceso de requerimientos. La Figura 2-13 define los estereotipos y las metaclases extendidas para el proceso de requerimientos. Este perfil permite representar los actores que se involucran en el los sistemas de inteligencia de negocios: Usuarios finales y diseadores y administradores. Figura 2-13: Perfil UML caso de usos.

2.3.10

Perfil UML Cubo Dimensional

Este perfil se utiliza para la aplicacin del proceso de la generacin del cubo dimensional. La Figura 2-14, define la metaclase Action extendida de la clase Opaque Action y en los estereotipos se definen todas las operaciones que se realizan en el cubo: Slice, push, dice, pull, roll up, drill down, query, set, dril across y dril anyway.

Captulo 2

51

Figura 2-14: Perfil UML cubo dimensional

2.4 Flujos de trabajo de BIEP


Como se indic en precedencia, BIEP tiene nueve (9) flujos de trabajos, los cuales utilizan veintisiete (27) diagramas para desarrollar el sistema de inteligencia de negocios. Para estos fines, la mayora de los referidos flujos toman los perfiles explicados en la seccin anterior para sus esquemas o diagramas.

En la tabla 2-1, se observan todos los diagramas que componen la metodologa BIEP, a saber:

52

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

Tabla 2-1:

Diagramas empleados en BIEP 22


Fuente (S) Integracin Bodega de Datos(DW) DWCS (Clases) SCS (Clases) DWSS (Secuencia) DM (Clases) DWSMS estados) (Mquina de DM (Clases) Personalizacin M odelado DMASTS(Clases) DMARS(Clases) DMTSS (Clases) DMCLS(Clases) DMCLUS(Clases)) Exporting (Clases) Transportation (Dspliegue) Process CWM CLS (Clases) CCS (Clases) Cliente (c)

Conceptual SCOS (Objetos)

DWLOS (Objectos) DWAS (Actividad) SLS (Clases) Lgico SLCS (Com unicacin) Fsico DWLS (Clases) ETL (Clases) Data Cube (Actividad)

Transportation SPS (Comp & Despliegue) Diagram DWPS (Comp & Depliegue) (Despliegue)

Diagram

DMX- JDM- SQL/MM

CPS (Comp & Depliegue)

Los esquemas que estn en negrilla son adicionados al DWEP, con la finalidad de incorporarlo a la metodologa BIEP:

Esquema conceptual de objetos en origen de datos (en ingls: Source Conceptual Object Schema SCOS)

Esquema de comunicacin de la fuente de datos (en ingls: Source Logical Communications Schema SLCS).

Esquema de secuencia de la bodega de datos (en ingls: Data Warehouse sequence Schema DWSS).

Esquema de estados de mquinas de la bodega de datos (DWSMS).

Esquema de actividad de la bodega de datos (DWAS).

Esquema lgico de objetos de la bodega de datos (DWLOS).

Esquema de cubo de datos (Data Cube).

22

En negrilla los diagramas adicionados al DWEP

Captulo 2

53

Esquema de anlisis, seleccin y transformacin del proceso de minera de datos (DMASTS).

Esquema de minera de datos con reglas de asociacin.

Esquema de minera de datos con clasificacin (DMCS).

Esquema de minera de datos por agrupacin (DMCLS).

Esquema de minera de datos por serie de tiempo (DMTSS).

Los anteriores diagramas se aplican de acuerdo con el diagrama de actividades del BIEP (Figura 17) y nos ofrecen las siguientes ventajas:

Mejor nivel de expresin en el modelamiento conceptual, lgico y fsico del proceso de inteligencia de negocios.

Permite capturar un comportamiento del sistema ms grande.

Cuenta con ms elementos de expresin, en tanto proviene del MOF [31]. Hace ms fcil la extensin.

2.4.1 Requerimientos
El resultado final de este flujo de trabajo es conocer los requerimientos del proceso de Inteligencia de negocios. Para el efecto, los usuarios finales deben especificar las medidas ms interesantes y agregaciones, las dimensiones de anlisis, las consultas para generar informes peridicos, la frecuencia de actualizacin de los datos, entre otros factores.

54

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

Para este flujo, BIEP, utiliza del modelo de casos de uso, el cual brinda una forma ms rpida de obtenerlas siguientes actividades, como se indic en la figura 2-4: Establecer los objetivos del negocio. Consiste en entender completamente lo que el cliente realmente quiere lograr, desde el punto de vista del negocio en funcin de las necesidades y expectativas. Dejar de hacer esta tarea significa hacer un gran esfuerzo para producir una respuesta correcta a preguntas equivocadas.

Comprender el sistema de funciones existente.

Definir los requisitos y las funciones deseadas para el sistema de inteligencia de negocios que se est creando.

Definir en trminos tcnicos los objetivos del proyecto de minera de datos a partir de los objetivos del negocio. Consiste en convertir preguntas de negocio en objetivos de minera de datos especificando el tipo de problema de minera de datos.

Una vez que se conoce el objetivo del negocio, la informacin que genera y los procesos involucrados, se selecciona las variables o datos que nos permitirn tomar las

decisiones adecuadas. Se debe tener claro si los datos nos permitirn evaluar a la organizacin y tomar decisiones para mejorar la competitividad del negocio, la mayora de las variables seleccionadas permiten evaluar la productividad, costos y desempeo de las operaciones internas del negocio. Las variables e indicadores seleccionados (Key Performace Indicator) deben permitir tomar decisiones a nivel operativo, a nivel gerencial y a nivel directivo. La frecuencia de obtencin de los indicadores e informacin operativa es mucho mayor que la frecuencia de informacin de tipo gerencial o directiva.

Para fines prcticos, en la figura 2-15, se observa el diagrama de casos de uso aplicado a un caso hipottico (Sales Manager), basado en el perfil de UML de casos de uso. En la parte izquierda se visualiza el diagrama de caso de uso, en la parte derecha se observa el formato de caso de uso extendido. Es de advertir que los requerimientos que permitieron llegar al diagrama estn enunciados en el numeral 1.3.3 del Captulo 1. En el captulo III se mostrar un caso de estudio con la aplicacin de la metodologa. Los

Captulo 2

55

elementos para este diagrama son: el actor, el caso de uso y las relaciones entre ellos. Al final sale un caso de uso en formato extendido.

Figura 2-15: Diagramas de casos de Uso DWEP

2.4.2 Anlisis

El objetivo de este flujo de trabajo es el refinamiento y estructuracin de los requerimientos dados en la etapa anterior.

El refinamiento se logra siguiendo las lneas que deben tener los casos de uso obtenidos (independencia de entre los casos de uso, descripcin por medio del lenguaje del cliente y la funcionalidad intuitiva) [22]. En el anlisis se puede estructurar los requisitos de manera que facilite la compresin, preparacin y modificacin. En ste flujo de trabajo se realiza las siguientes tareas:

Recopilacin inicial de datos y revisin de las fuentes de datos.

Descripcin de los datos.

56

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

Exploracin de los datos.

Verificacin de calidad de datos.

En esta etapa se documentan los sistemas de operaciones preexistentes que van a alimentan la bodega de datos. diagramas: Para esto BIEP sugiere el uso de los siguientes

Esquema conceptual de origen de datos (en ingls: Source Conceptual Schema SCS): Este diagrama proviene del DWEP, utiliza el perfil UML para el modelo conceptual y lgico de la Bodega de datos, y su objetivo es conocer que datos estn disponibles para alimentar la bodega de datos. Constituye una extensin del diagrama de clases y da una visin del modelo Entidad - Relacin (E-R) del origen de fuentes de datos. Adicionalmente, en este esquema se observan las entidades como clases y las relaciones como asociaciones entre clases.

En la figura 2-16, se observa la aplicacin de este diagrama a un almacn, compuesto por cuatro (4) clases provenientes de cuatro (4) tablas, siguiendo las lneas con las cuales se construy el ejemplo en la figura 2-15.

Figura 2-16: Diagramas Esquema conceptual de fuente

Fuente.S. Lujan, Data WareHouse Desig with UML, PHD. Thesis

23

23

LUJAN, Sergio. Data WareHouse Desig with UML, Tesis Doctoral., Universidad de Alicante, 2005.Departamento de software y sistemas computacionales. Pg. 102

Captulo 2

57

Esquema conceptual de objetos en origen de datos (en ingls: Source Conceptual Object Schema SCOS): este diagrama est basado en el diagrama de objetos y es una instancia del esquema conceptual de orgenes de datos (SCS). Su funcin es facilitar la exploracin de ejemplos del "mundo real" por medios de objetos y las relaciones entre ellos.

Continuando con el ejemplo, en la figura 2-17, se observa una instancia aplicada al esquema conceptual de origen de datos, en la cual se visualizan dos rdenes de compra (001 y 002) provenientes del mismos consumidor, con los productos adquiridos.

Figura 2-17: Esquema conceptual de objetos en origen de datos


TV:Products

Miami:Cities

Sony:Customer

001:Orders

Radio:Products

Play Statio

TV2:Products

002:Orders

Radio2:Products

Esquema Lgico de fuente de datos (en ingls: Source Logical Schema SLS): este diagrama proviene del DWEP, utiliza el perfil UML para el modelo conceptual y lgico de la bodega de datos, da una la estructura de la fuentes de datos con base del modelo relacional, en donde se representa las tablas y vistas como una clase y las relaciones como asociaciones.

58

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

Siguiendo con el ejemplo del almacn, en la figura 2-18, se observa este esquema cada entidad se representa por medio de una clase y cada relacin por medio de una asociacin, la multiplicidad se especifica por medio de la asociacin entre clases. Figura 2-18: Esquema Lgico de fuente de datos

Fuente.S. Lujan, Data WareHouse Desig with UML, PHD. Thesis

24

Esquema de comunicacin de la fuente de datos (en ingls: Source Logical Communications Schema SLCS): este diagrama es una extensin del diagrama de comunicaciones del UML. Se utiliza para explorar la naturaleza dinmica de la fuente de datos. Este diagrama da la visin del flujo de mensajes entre los objetos de la fuente de datos, y tambin implica a las asociaciones de base (relaciones) entre las tablas y vistas. Este diagrama nos brinda las siguientes caractersticas:

Proporciona una visin panormica de una coleccin de objetos de colaborar, en particular en un entorno de tiempo real.

24

LUJAN, Sergio. Data WareHouse Desig with UML, Tesis Doctoral., Universidad de Alicante, 2005.Departamento de software y sistemas computacionales. Pg. 44

Captulo 2

59

En la asignacin de tareas que se deben realizar en la fuente de datos mediante la exploracin de los aspectos del comportamiento del sistema.

Modelo de lgico de la fuente de datos, en particular una que interacta con un gran nmero de otros objetos.

Explorar el papel que los objetos toman dentro de un sistema, as como las distintas relaciones en las que participan.

Frente al caso enunciado anteriormente, en la figura 2-19, observamos las actividades que realiza entre los diferentes objetos en las diversas tablas de las fuentes de datos.

Figura 2-19: Esquema Lgico de comunicacin de la fuente de datos


1.: Realizar compra Carlos Perez:Customers 4: Compra Realizada 001:Invoice

2.: Seleccionar Productos

3: Producto Disponible

TV:Products

Esquema fsico de las fuentes de datos (en ingls: Source Physical Schema SPS): este diagrama proviene del DWEP. Utiliza el perfil UML despliegue, define la estructura fsica de las fuentes de datos que van a alimentan la bodega de datos. Siguiendo el supuesto fctico, en la figura 2-20, se observa cmo se encuentra fsicamente la base de datos transaccional de la fuente de datos en un almacn.

60

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

Figura 2-20: Esquema fsico de las fuentes de datos

Fuente. S. Lujan, Data WareHouse Desig with UML, PHD. Thesis

25

Una vez realizado el anlisis de las fuentes de datos, se procede a seleccionar las tablas candidatas con los respectivos campos que deben alimentar la bodega de datos, dando una visin clara para el logro del objetivo del proceso de inteligencia de negocios.

2.4.3 Diseo

El objetivo principal de este flujo es el diseo conceptual de la bodega de datos adems se realiza un primer proceso de seleccin, limpieza, construccin, integracin y formateo de datos de los datos que se deben mapear entre la bodega de datos y la fuente de datos.

Para lograr estas actividades BIEP sugiere en este flujo, los siguientes diagramas:

Esquema conceptual de la bodega de datos (en ingls: Data Warehouse Conceptual Schema DWCS): este diagrama proviene del DWEP, utiliza el perfil UML

25

LUJAN, Sergio. Data WareHouse Desig with UML, Tesis Doctoral., Universidad de Alicante, 2005. Departamento de software y sistemas computacionales. Pg. 44

Captulo 2

61

para el modelo conceptual y lgico de la bodega de datos, permite representar las principales propiedades multidimensionales a un nivel conceptual, como son las relaciones muchos-a-muchos entre hechos y dimensiones, las dimensiones

degeneradas, las jerarquas mltiples y de camino alternativo, entre otras. Con el uso de los paquetes de UML se permite modelar bodegas de datos grandes y complejas. Adems en este diagrama se especifica que tipo implementacin que debe ser la bodega de datos (ROLAP, MOLAP, HOLAP). Figura 2-21: Niveles del esquema conceptual de la bodega de datos

Fuente. S. Lujan, Data WareHouse Desig with UML, PHD. Thesis

26

Este diagrama propone el uso de tres niveles: Nivel 1: Definicin del modelo: un paquete representa un esquema estrella de un modelo multidimensional. En este nivel, una dependencia entre dos paquetes indica que los esquemas estrella comparten al menos una dimensin y conforman una constelacin.

26

LUJAN, Sergio. Data WareHouse Desig with UML, Tesis Doctoral., Universidad de Alicante, 2005.Departamento de software y sistemas computacionales. Pg. 102

62

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

Nivel 2: Definicin de un esquema estrella: Un paquete representa un hecho o una dimensin de un esquema estrella. En este nivel, una dependencia entre dos paquetes de dimensin indica que las dimensiones comparten al menos un nivel en sus correspondientes jerarquas.

Nivel 3: Definicin de un hecho o dimensin. Se compone de un conjunto de clases que representan los niveles jerrquicos en un paquete de dimensin o el esquema estrella completo en el caso de un paquete de hecho.

Frente al caso enunciado en la seccin 1.3.3 en la figura 2-21, se observa los tres niveles del diagrama de diseo conceptual de la bodega de datos y su aplicacin a un almacn.

Esquema de mapeo de datos (en ingls: Data Mapping DM): este diagrama proviene del DWEP, utiliza el perfil UML para el proceso ETL. Este diagrama es adaptado para representar el flujo de datos, con varios niveles de detalle en la bodega de datos.

Para capturar las interconexiones entre los distintos elementos de diseo, en trminos de los datos, empleamos la nocin de mapeo. Un mapeo se define mediante tres elementos lgicos:

El proveedor: una entidad (esquema, tabla o atributo) responsable de generar los datos que posteriormente se propagan.

El consumidor: que recibe los datos del proveedor.

El emparejamiento: que define la forma en la cual el mapeo se realiza, incluyendo cualquier tipo de transformacin o filtrado.

Siguiendo con el ejemplo del almacn, en la figura 2-22, se observa el mapeo nivel 3, entre la tabla de la fuente de datos y el espacio intermedio de la bodega de datos.

Captulo 2

63

Figura 2-22: Esquema de mapeo nivel 3

Fuente. S. Lujan, Data WareHouse Desig with UML, PHD. Thesis

27

Este diagrama propone el uso de cuatro niveles:

Nivel de base de datos (o Nivel 0). En este nivel, cada esquema de la bodega de datos se representa mediante un paquete. Los mapeos entre los diferentes esquemas se modelan en un nico paquete de mapeo, que encapsula todos los detalles.

Nivel de flujo de datos (o Nivel 1). Este nivel describe las relaciones de datos a nivel individual entre las fuentes de datos hacia los respectivos destinos de la bodega de datos mediante un nico paquete.

Nivel de tabla (o Nivel 2). Este nivel describe las relaciones de datos en el nivel de tablas tanto de la fuente de datos, espacio temporal y la bodega de datos, se detalla todas las transformaciones intermedias que tienen lugar durante ese flujo.

27

LUJAN, Sergio. Data WareHouse Desig with UML, Tesis Doctoral., Universidad de Alicante, 2005. Departamento de software y sistemas computacionales. Pg. 108

64

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

Nivel de atributo (o Nivel 3). En este nivel, el diagrama de mapeo de datos captura los mapeos existentes a nivel de atributo.

Esquema de estados de mquina en la bodega de datos (en ingls: Data Warehouse State Machine Schema DWMSS), es basado del diagrama de estados de mquina, representan al comportamiento dinmico de una entidad en base a su respuesta a los acontecimientos, mostrando cmo la entidad reacciona ante los eventos diversos en funcin de su estado actual.

De acuerdo con el ejemplo de la seccin 1.3.3, en la figura 2-23, se presenta los estados para hacer el proceso de mapeo del espacio temporal con la tabla proveedor, pasando por el espacio temporal de la bodega de datos.

Figura 2-23. Esquema de estados de mquina en la bodega de datos


TranformarDatos ExtraerDatos do do do do / / / / Conectarse a la BD1 Conectarse a la BD2 Conectarse a los archivos Extraer datos de acuerdos a criterios do do do do do do / / / / / / Agregacion Mezclas Join filtros errores Subrogar CargarDatos do do do do / / / / RevisarDatoTDW Insertar Actualizar Borrar

Esquema de actividades de la bodega de datos (en ingls: Data Warehouse Activity Schema DWAS) [41] Es basado en el diagrama de actividades, este diagrama es el equivalente de diagramas de flujo de datos en el desarrollo estructurado de la bodega de datos.

Siguiendo con el ejemplo, en la figura 2-24, se ve las actividades que se deben realizar en el efecto de las promociones en las ventas.

Captulo 2

65

Figura 2-24: Esquema de actividades de la bodega de datos

Fuente. Veronika Stefanov, Beate List, Birgit Korherr. Extending UML 2 Activity Diagrams with 28 Business Intelligence Objects

2.4.4 Implementacin
Durante este flujo de trabajo, la bodega de datos se construye: La estructura fsica de la bodega de datos se construyen, empiezan a recibir datos de los sistemas operaciones, se afina para un funcionamiento optimizado, entre otras tareas.

Para cumplir estas tareas, BIEP utiliza los siguientes artefactos: Esquema lgico de la bodega de datos (en ingls: Data Warehouse Logical Schema DWLS): este diagrama proviene del DWEP, utiliza el perfil UML para el modelo conceptual y lgico de la bodega de datos. Este describe los tipos de datos fsicos a disear en la bodega de datos tanto en las tablas de hecho como en las dimensiones. Siguiendo el supuesto fctico, en la figura 2-25, se observa el diagrama lgico de la bodega de datos de ventas adems se puede expresar las operaciones y de arquitectura ROLAP.

28

STEFANOV, Veronika, LIST Beate y KORHERR List, Extending UML 2 Activity Diagrams withc Business Intelligence Objects. {En lnea}, {5 mayo de 2008} disponible en: (www.wit.at/people/korherr/publications/dawak2005.pdf). Pg. 9

66

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

Figura 2-25: Esquema lgico de la bodega de datos

Fuente. S. Lujan, Data WareHouse Desig with UML, PHD. Thesis

29

Esquema lgico de objetos la bodega de datos (en ingls: Data Warehouse Logical Object Schema DWLOS), basado en el diagrama de objetos, Este diagrama es una instancia del DWLS, el cual facilita la exploracin de ejemplos del "mundo real" por medios de objetos y las relaciones entre ellos. De acuerdo con el ejemplo anterior, en la figura 2-26, se observa una instancia aplicada a la bodega de datos del almacn. Figura 2-26: Esquema lgico de objeto de la bodega de datos
Jorge:SalesPerson

1:AutoSale

27022010:Time

IBC:Customers

29

LUJAN, Sergio. Data WareHouse Desig with UML, Tesis Doctoral., Universidad de Alicante, 2005.Departamento de software y sistemas computacionales. Pg.165

Captulo 2

67

Esquema fsico de la bodega de datos (en ingls: Data Warehouse Physical Schema DWPS), este diagrama proviene del DWEP, utiliza el perfil UML despliegue. Define la estructura fsica de la bodega de datos.

Siguiendo el supuesto fctico de la seccin 1.3.3, en la figura 2-27, se observa el despliegue de la bodega de datos de ventas. Figura 2-27: Esquema fsico de la bodega de datos

Fuente.S. Lujan, Data WareHouse Desig with UML, PHD. Thesis

30

Proceso de ETL (en ingls: ETL Process), este diagrama proviene del DWEP, utiliza el perfil UML para el proceso ETL. Este proporciona los mecanismos necesarios para especificar las operaciones tpicas de los procesos ETL de acuerdo a la tabla 2-2. Un proceso ETL se define combinando los distintos mecanismos. De acuerdo del ejemplo del almacn, en la figura 2-28, se observa el proceso ETL de entre la fuente de datos y las tablas de la bodega de datos (dimensiones y tabla de hecho).

30

LUJAN, Sergio. Data WareHouse Desig with UML, Tesis Doctoral., Universidad de Alicante, 2005.Departamento de software y sistemas computacionales. Pg.170.

68

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

Tabla 2-2:

Estereotipos proceso ETL Estereotipos aplicados al proceso ETL

Filtro Datos Incorrectos Join Log Mezcla Llave Subrogada Conversin Agregacin Envoltura Carga Espacio Temporal Base de datos Archivo Tabla de Hecho Dimensin Figura 2-28: Proceso ETL

Fuente. S. Lujan, Data WareHouse Desig with UML, PHD. Thesis

31

31

LUJAN, Sergio. Data WareHouse Desig with UML, Tesis Doctoral., Universidad de Alicante, 2005.Departamento de software y sistemas computacionales. Pg.140.

Captulo 2

69

Esquema de secuencia de la bodega de datos (en ingls: Data Warehouse sequence Schema DWSS): se basa en el diagrama de secuencias, permite validar y dar contenido a la lgica y la integridad de un escenario de uso. Adems Explorar su diseo debido a que proporcionan un camino para que den un paso visualmente a travs de la invocacin de las operaciones definidas en la bodega de datos. Nos permite modelar en el tiempo los diversos procesos de la bodega de datos.

Siguiendo de acuerdo con el ejemplo, en la figura 2-29, podemos observar el diagrama de secuencia del administrador del sistema con la carga de la fuente de datos de la tabla proveedor a la dimensin de proveedor de la bodega de datos, pasando por el espacio temporal de almacenamiento. Este diagrama es nuevo para el DWEP.

Figura 2-29: Esquema de secuencia de la bodega de datos

Diagramas de transporte de integracin (en ingls: Integration Transportation Diagrams ITD), este diagrama proviene del DWEP. Se basa de los perfiles UML para el proceso ETL y el despliegue. Define la estructura fsica de los procesos ETL empleados en la carga de datos en la bodega de datos desde las fuentes de origen de datos. Se emplea para establecer la relacin entre el diagrama anterior y el siguiente.

De acuerdo con el ejemplo anterior, en la figura 2-30, se observa el diagrama de transporte de integracin desde las fuentes de datos al servidor que realiza el proceso ETL.

70

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

Figura 2-30: Diagrama de transporte de integracin

Fuente. S. Lujan, Data WareHouse Desig with UML, PHD. Thesis

32

Diagrama de transporte de optimizado (en ingls: Customization Transportation Diagram CTD): proviene del DWEP, se basa de los perfiles UML para el proceso ETL y el despliegue. Define los procesos de exportacin fsicos desde el almacn de datos hacia las estructuras empleadas por los clientes. Se emplea para establecer la relacin entre el diagrama anterior y el siguiente. Siguiendo el supuesto fctico, en la figura 44, se muestra el diagrama de transporte personalizado, en este se da la salida desde la bodega de datos a los clientes. Figura 2-31: Diagrama de transporte de optimizado

Fuente. S. Lujan, Data WareHouse Desig with UML, PHD. Thesis

33

32

LUJAN, Sergio. Data WareHouse Desig with UML, Tesis Doctoral., Universidad de Alicante, 2005.Departamento de software y sistemas computacionales. Pg. 169. 33 Ibd., Pg. 170.

Captulo 2

71

2.4.5 Preparacin, Modelado y evaluacin

En este flujo se retroalimenta de la bodega de datos y se da el inicio a la generacin de una tcnica de anlisis de datos por medio de tcnicas OLAP o tcnicas de minera de datos.

Para logara estas tareas, BIEP recomienda para el anlisis por medio de tcnicas OLAP el siguiente diagrama:

Diagrama de cubo dimensional (en ingls: Data cube diagrams DCD) [33] est basado del en el diagrama de actividades, este permite desarrollar todas las operaciones que se realizan en el cubo dimensional aplicando los indicadores encontrados en el flujo de trabajo de requerimientos. Frente al caso enunciado con anterioridad, en la figura 2-32, se ve las actividades que se deben realizar en el almacn para realizar las operaciones en el cubo como son drill, unin y roll up.

Figura 2-32: Diagrama del Cubo OLAP

Fuente. J Pardillo, Mo Golfarelli, S Rizzi y J Trujillo, Visial Modelling of data warehosing flows with 34 UML Profile

Para el proceso de minera de datos la metodologa BIEP recomienda los siguientes diagramas:

34

PARDILLO, Jess, GOLFARELLI, Matteo, RIZZI, Stefano y TRUJILLO, Juan, Visual Modelling of data warehosing flows with UML Profile. Pg. 3

72

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

Diagrama de minera de datos para el anlisis, seleccin transformacin de datos (en ingls: Data Mining Analysis, selection, Transform schema DMASTS): utiliza el perfil UML para el proceso de anlisis, seleccin y transformacin de datos. Es el encargado de revisa los datos provenientes de la bodega de datos realizando las etapas de: seleccin, limpieza, transformacin y reduccin de datos.

Con el uso de los paquetes de UML se permite modelar cada etapa por separado permitiendo tener dos niveles de expresin de este diagrama:

Nivel 1: Definicin de la etapas: un paquete representa una etapa previa a cada tcnica de minera de datos.

Nivel 2: Definicin del anlisis de datos: se importa el diagrama lgico de la bodega de datos (DWLS) y segn la tcnica de minera de datos se les aplica a los datos la diferentes tareas.

En la figura 2-33, se observa los paquetes aplicados al proceso del prstamo de un libro en una biblioteca, en la parte inferior se encuentra el nivel 2 donde se observa cmo estn los datos en la tabla de hechos en el paquete de seleccin. Figura 2-33: Esquema de paquetes de anlisis, seleccin y transformacin.

Captulo 2

73

En cada paquete (nivel 1) se puede realizar las tareas en el paquete de anlisis se selecciona al atributo: histogramas, grfico de cajas y dispersin. En el paquete de seleccin se puede ala atributo colocar como proviene de la bodega de datos: completo, incompleto, con ruido, e inconsistente. En el paquete de transformacin al atributo se le puede seleccionar: normalizacin o reduccin.

En este diagrama los estereotipos aplicados a cada atributo se observa de acuerdo tabla 6.

Tabla 2-3: Estereotipos de atributos para el anlisis, seleccin transformacin de datos Estereotipos de Atributos para el anlisis Histogramas Dispersin Grafico de cajas Estereotipos de Atributos para la seleccin Datos Completos Datos Ruido Datos incompletos Datos inconsistentes Estereotipos de Atributos para Transformacin (Reduccin de datos) Agrupamiento Discretizacin Seleccin Estereotipos de Atributos para Transformacin (Normalizacin) Min Max Decimal Z store

El modelamiento de datos es un proceso iterativo donde se puede dar en forma descriptiva (reglas de asociacin y agrupamiento) o predictiva (clasificacin y series de tiempo), para esto se incorpora al BIEP los modelos planteados de minera de datos por el doctor Zubcoff basados en el CWM.

74

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

Esquema de minera de datos con reglas de asociacin (en ingls: Data Mining association rule schema DMARS), utiliza el perfil UML de reglas de asociacin. En la tcnica de reglas de asociacin se busca las relaciones entre tems en un conjunto de datos. El objetivo de las reglas de asociacin es encontrar asociaciones o correlaciones entre los elementos u objetos de bases de datos transaccionales, relacionales o bodegas de datos.

Las reglas de asociacin se miden en trminos de soporte y confianza. El soporte determina como es aplicable la regla y la confianza determina la frecuencia de del tem en Y aparece en la transaccin que contiene X. Un caso es el permite saber cmo se van a agrupar los datos bajo anlisis. Desde el punto de vista multidimensional el caso puede ser cualquier atributo de una dimensin dado que estos agrupan las medidas de la tabla de hechos. Los atributos de entrada al algoritmo permiten la generacin del conjunto de tems frecuentes. Adems sirven para el estudio de las relaciones con el atributo seleccionado como prediccin [47].

En la figura 2-34, se observa la aplicacin de reglas de asociacin al caso del almacn, de acuerdo al enunciado de la seccin 1.3.3. En el diagrama lgico de la bodega de datos se selecciona el caso, y los atributos de entrada y prediccin de acuerdo al algoritmo. Este esquema utiliza los estereotipos mostrados en la tabla 2.4.

Tabla 2-4:

Estereotipos de atributos reglas de asociacin

Estereotipos de Atributos para reglas de asociacin Entrada Caso Prediccin

Captulo 2

75

Figura 2-34. Esquema de minera de datos con reglas de asociacin

Fuente. Jos Jacobo Zubcoff Vallejo, Un conjunto de perfiles de UML para el Modelado conceptual de tcnicas de minera de datos sobre almacenes de datos, 2009, Universidad de 35 Alicante.

Esquema de minera de datos con clasificacin (en ingls: Data Mining classification schema DMCS): utiliza el perfil UML de clasificacin. En la tcnica de clasificacin el analista de los datos debe seleccionar los atributos. Estos atributos pueden tener bsicamente dos roles: de entrada y de prediccin. El modelo multidimensional presenta de una manera cercana al analista todos los atributos disponibles, sus relaciones y su estructura jerrquica. Dado que el algoritmo usar cada elemento seleccionado como entrada como un candidato para particionar el atributo a predecir se debe tener en cuenta que los atributos que estn correlacionados.

Si se escoge atributos de una de misma dimensin como entrada y prediccin el resultado ser que estos atributos correlacionados estarn presentes en las primeras ramas del rbol de clasificacin y pierde inters el patrn encontrado.

El analista debe tener en cuenta cul es el atributo por el que se agrupar el conjunto de datos [47].

35

ZUBCOFF, Jos. Un conjunto de perfiles de UML para el Modelado conceptual de tcnicas de minera de datos sobre almacenes de datos, 2009, pginas: 226. Universidad de Alicante. Departamento de Lenguajes y Sistemas Informticos. Pg. 68.

76

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

En la figura 2-35, observamos la aplicacin clasificacin en un caso enunciado en por Zubcoff 36 sobre la captura de peces. Figura 2-35: Esquema de minera de datos con clasificacin

Fuente. Jos Jacobo Zubcoff Vallejo, Un conjunto de perfiles de UML para el Modelado conceptual de tcnicas de minera de datos sobre almacenes de datos, 2009, Universidad de 37 Alicante

Este esquema utiliza los estereotipos mostrados en la tabla 2-5.

Tabla 2-5:

Estereotipos de atributos clasificacin

Estereotipos de Atributos para reglas de asociacin Entrada Caso Prediccin

36

ZUBCOFF, Jos. Un conjunto de perfiles de UML para el Modelado conceptual de tcnicas de minera de datos sobre almacenes de datos, 2009, pginas: 226. Universidad de Alicante. Departamento de Lenguajes y Sistemas Informticos. Pg. 96. 37 Ibd. Pg. 98.

Captulo 2

77

Esquema de minera de datos por agrupamiento (en ingls: Data Mining clustering schema DMCLS), utiliza el perfil UML para Agrupamiento. Las tcnicas de minera de datos con agrupamiento pueden ser fcilmente aplicadas para descubrir grupos con comportamientos similares en base al hecho bajo estudio, a lo largo de las distintas dimensiones y a cualquier nivel de sus jerarquas.

Dadas las caractersticas de las tcnicas de agrupamiento, cuyos atributos son todos de entrada, no requieren que exista un atributo de prediccin como en otras tcnicas de minera de datos. Por tanto, los elementos que definen un modelo conceptual de agrupamiento pueden ser de dos tipos: Caso o Entrada. El primero sirve para definir el nivel de detalle en el anlisis, y el segundo simplemente define los atributos que participan en el proceso de agrupamiento [47].

En la figura 2-36 observamos la aplicacin de la tcnica de agrupamiento al caso del almacn de acuerdo con lo enunciado por Zubcoff38.

Este esquema utiliza los estereotipos mostrados en la tabla 2-6.

Tabla 2-6:

Estereotipos de atributos por agrupamiento

Estereotipos de Atributos para reglas de asociacin Entrada Caso

38

ZUBCOFF, Jos. Un conjunto de perfiles de UML para el Modelado conceptual de tcnicas de minera de datos sobre almacenes de datos, 2009, pginas: 226. Universidad de Alicante. Departamento de Lenguajes y Sistemas Informticos. Pg. 116.

78

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

Figura 2-36: Esquema de minera de datos por agrupamiento

Fuente. Jos Jacobo Zubcoff Vallejo, Un conjunto de perfiles de UML para el Modelado conceptual de tcnicas de minera de datos sobre almacenes de datos, 2009, Universidad de 39 Alicante

Esquema de minera de datos por series de tiempo (en ingls: Data Mining time series schema DMTSS), es basado en el diagrama de clases. Esta tcnica permite descubrir patrones o tendencias a lo largo del tiempo y as proporcionar conocimiento del sistema subyacente, utilizndose ampliamente en distintos campos de la ciencia y tambin en la empresa cuando se necesita anticipar o predecir los valores futuros de una variable. Los objetivos de este tipo de anlisis son: (i) identificar la naturaleza del fenmeno representado por la serie temporal y (ii) predecir los valores futuros de la variable temporal. Ambos requieren la identificacin de patrones de la serie temporal observada. Por ello, el tiempo es un atributo presente en cada modelo de anlisis, identificando la serie temporal incluso a diferentes escalas (das, semanas, meses, etc.).[47]

39

ZUBCOFF, Jos. Un conjunto de perfiles de UML para el Modelado conceptual de tcnicas de minera de datos sobre almacenes de datos, 2009, pginas: 226. Universidad de Alicante. Departamento de Lenguajes y Sistemas Informticos. Pg. 116.

Captulo 2

79

En la figura 2-37, observamos la aplicacin de series de tiempo al de captura de peces de acuerdo con el problema dado por Zubcoff40.

Figura 2-37: Esquema de minera de datos por series de tiempo

Fuente. Jos Jacobo Zubcoff Vallejo, Un conjunto de perfiles de UML para el Modelado conceptual de tcnicas de minera de datos sobre almacenes de datos, 2009, Universidad de 41 Alicante

2.4.6 Despliegue

En este flujo de trabajo se determina la forma en que los resultados deben ser utilizados. En esta actividad se obtiene:

Planificacin de despliegue.

Planificacin de la monitorizacin y del mantenimiento.

40

ZUBCOFF, Jos. Un conjunto de perfiles de UML para el Modelado conceptual de tcnicas de minera de datos sobre almacenes de datos, 2009, pginas: 226. Universidad de Alicante. Departamento de Lenguajes y Sistemas Informticos. Pg. 134. 41 Ibd. Pg. 135.

80

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

Generacin de informe final.

Revisin del proyecto.

BIEP propone para este flujo de trabajo los siguientes diagramas: Esquema conceptual del cliente (en ingls: Client Conceptual Schema CCS), este diagrama proviene del DWEP, este diagrama es una extensin del diagrama de clase. Representa la forma visual dada por el cliente para visualizar los datos, este proceso se desarrolla por parte del desarrollador del proceso de inteligencia de negocios y el usuario final, en la actualidad las herramientas case permiten que el usuario final modele estos informes con diversas formas. Esquema lgico del cliente (en ingls: Client Logical Schema CLS), este diagrama proviene del DWEP, se basa en el diagrama de clases, este selecciona los datos lgicos a modelar y se da los diversos parmetros que se deben entregar los reportes o informes que deben arrojar del proceso de anlisis de los datos al usuario final.

Esquema fsico del cliente (en ingls: Client Physical Schema CPS), este diagrama proviene del DWEP, utiliza el perfil UML despliegue. Define la estructura fsica de las estructuras concretas que son empleadas por los clientes para acceder a la bodega de datos de datos.

Frente al caso enunciado en la seccin 1.3.3, en la figura 2-38, se observa el entorno del cliente donde se va a visualizar los reportes dados por la tcnica de anlisis de datos.

Captulo 2

81

Figura 2-38: Esquema fsico del cliente

Fuente. S. Lujan, Data WareHouse Desig with UML, PHD. Thesis

42

2.4.7 Pruebas

El objetivo de este trabajo es verificar que la aplicacin funcione correctamente. Ms concretamente, los efectos de las pruebas son los siguientes:

Planificar las pruebas necesarias.

Disear e implementar las pruebas mediante la creacin de casos de prueba.

Realizar las pruebas y analizar los resultados de cada prueba.

Revisar el proceso.

Establecimiento de los siguientes pasos o acciones.

Para este flujo BIEP sugiere el uso del formato de la tabla 2-7 donde se observe el nombre del caso de uso, el responsable, el propsito y la historia del seguimiento del caso y el nmero de ciclos.

42

LUJAN, Sergio. Data WareHouse Desig with UML, Tesis Doctoral., Universidad de Alicante, 2005.Departamento de software y sistemas computacionales. Pg.170.

82

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

Tabla 2-7:

Formato de pruebas BIEP


FORMATO DE PRUEBAS BIEP V 1.0 Nombre de la bodega de datos Responsable Proposito

Nombre del caso uso

DISEO DE PUEBA ID PRUEBA FECHA PRECONDICIONES ESCENARIO PASOS POSCONDICIONES

EJECUCION CICLO FECHA RESULTADO

2.4.8 Mantenimiento
A diferencia de la mayora de los sistemas, el proceso de inteligencia de negocios es un proceso que se retroalimenta constantemente. El objetivo de este flujo de trabajo es definir la actualizacin y carga de los procesos necesarios para mantener este proceso. Este flujo de trabajo comienza cuando se construye la el proceso de inteligencia de negocios y es entregado a los usuarios finales, pero no tiene una fecha de finalizacin. Durante este trabajo, los usuarios finales pueden tener nuevas necesidades, tales como las nuevas consultas, lo que desencadena el comienzo de una nueva iteracin con los requisitos de flujo de trabajo.

2.4.9 Revisin post-desarrollo


Esto no es un flujo de trabajo del esfuerzo de desarrollo, sino un proceso de revisin para mejorar los proyectos futuros. Miramos hacia atrs en el desarrollo del BI, revisar la documentacin, y tratar de identificar oportunidades de mejora y los xitos ms importantes que deben tenerse en cuenta. Si hacemos un seguimiento del tiempo y el esfuerzo empleados en cada fase, esta informacin puede ser til en la estimacin de tiempo y las necesidades de personal para proyectos futuros.

Captulo 2

83

2.5 VENTAJAS DE BIEP


Esta metodologa da unas ventajas sobre las metodologas expuesta en la tabla 1. Estas son:

Definicin del proceso de inteligencia de negocios en los niveles conceptual, lgico y fsico.

Definicin una notacin grfica basada en un leguaje de modelado unificado (UML 2.3).

Definicin de multi-estrellas, esto permite el uso compartido de dimensiones.

Definicin de tabla de hecho. En este permite la definicin de las medidas atmicas, derivadas y aditivas. Adems permite la degeneracin de ella

Definicin de dimensiones. En ellas se permite desarrollar las jerarquas y su categorizacin.

Por ltimo BIEP permite el manejo de la tcnica de anlisis de datos por medio de tcnicas de minera de datos y tcnicas OLAP.

2.6 RESUMEN DEL CAPITULO


En este captulo se propuso y present BIEP una metodologa para el desarrollo de sistemas de inteligencia de negocios basada en el proceso unificado de software. Llamada BIEP, esta metodologa se compone de cuatro (4) fases y nueve (9) flujos de trabajo.

Las cuatro (4) fases de esta metodologa son: inicio, elaboracin, construccin y transicin, stas se ejecutan en forma iterativa e incremental. En las fases inicio y

84

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

elaboracin se realizan las actividades de desarrollo, y en las fases construccin y transicin se comete la construccin y el paso a la produccin del proyecto.

Los nueve (9) flujos de trabajo de BIEP son: requerimientos, anlisis, diseo, implementacin, preparacin, modelado y evaluacin, despliegue, pruebas,

mantenimiento y revisin post desarrollo. Los cuales se despliegan en una o en varias fases.

El cruce entre las fases y los flujos de trabajo generan los siguientes diez (10) modelos (figura 16): casos de uso, anlisis, diseo, implementacin, OLAP, minera de datos, despliegue, pruebas, mantenimiento y revisiones post desarrollo.

Esta metodologa se observa como un diagrama de actividades de UML (figura 17), lo cual le da una ventaja, ya que se siguen los pasos de ejecucin. En cada actividad se observa los diagramas que se deben usar.

Cada modelo se representa por perfiles de UML, los cuales son particularizacin de los diagramas de UML. Esta metodologa desarroll nueve (9) perfiles basados en los diagramas de clases, objetos, despliegue, casos de uso, secuencia y maquina de estado. Estos son: casos de uso, bodega de datos, proceso ETL, despliegue, proceso de anlisis, seleccin y transformacin de datos, reglas de asociacin, clasificacin, agrupamiento y anlisis de serie de tiempo. De stos se extiende los veintisiete (27) diagramas, que estn distribuidos de la siguiente forma: integracin: dieciocho (18) diagramas, anlisis de datos: seis (6) diagramas y despliegue: tres (3) diagramas.

Esta metodologa nos brinda apoyo en la definicin clara de las dimisiones y tabla de hechos, por medio de una notacin grfica basada lenguaje de modelado unificado (UML).

3. Captulo 3 (APLICACIN Y VALIDACIN DE LA METODOLOGA BIEP)


En este captulo se mostrar la metodologa BIEP aplicada a un caso, en orden a validarla, para lo cual se escogi la biblioteca central de la universidad Antonio Nario. Para la aplicacin de BIEP fue necesario desarrollar un prototipo de software CASE, siguiendo los pasos enunciados en la figura 2-4 supra, el cual permite implementar todos los modelos, perfiles y diagramas de la metodologa. Lo anterior permitir mostrar que, el sistema de inteligencia de negocios, puede ser desarrollado a partir del prototipo aplicado al caso.

3.1 Prototipo de Software CASE BIEP


En primer lugar, para la aplicacin de la metodologa BIEP se desarroll un prototipo de software basado en perfiles de UML y en diagramas propuestos en las secciones 3.3 y 3.4. Para estos fines, BIEP se bas en UML 2.3, el cual permite implementar cualquier herramienta CASE que soporte el metamodelo MOF [31].

Para el efecto, se utiliz la herramienta Eclipse Galileo 2010 [15], en su versin de modelamiento, en cuanto sta ofrece las siguientes caractersticas:

Construccin de entornos de desarrollo integrados (En Ingls: integrated development environment IDE), desarrollado en cdigo abierto, el cual permite el desarrollo de aplicaciones en Java (en ingls: Java Development Tools). Adems ofrece mecanismos para integrar otras aplicaciones, esto es, tiene el atributo denominado plug-ins.

Cuenta con la herramienta Eclipse Modeling Framework (EMF) [42], la cual soporta el modelamiento estructurado y facilita la generacin de cdigo para la

86

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

construccin de otras aplicaciones basadas en modelos de datos estructurales. Desde la especificacin del modelo en XML, EMF da las herramientas y soporte en tiempo de ejecucin, produciendo el conjunto de clases de Java del modelo. Este conjunto de clases adaptadas permite una vista y edicin de comandos basados en modelo. EMF es una implementacin en Eclipse del meta modelo Meta-Object Facility MOF.

Permite la utilizacin de la herramienta Graphical Modeling Framework (GMF) [14], la cual genera el modelo en un editor grfico basado en EMF y GEF.

Un rasgo importante de GMF es la definicin de diferentes dominios y aplicaciones, permitiendo modelar separadamente los componentes grficos que corresponde a cada uno de los elementos del dominio y definir la herramienta de paleta, donde cada herramienta corresponde a una primitiva. Para completar el proceso para la generacin grafica del editor del dominio, GMF da una definicin para el mapeo de cada primitiva asociada con el componente de modelo, con el editor grfico y ste genera automticamente el modelo.

Facilita la definicin de perfiles UML, especificndose de forma ms clara las relaciones que pueden darse entre los elementos del modelo y el uso de las meta clases de un metamodelo dentro del perfil.

Por las anteriores razones, se determin hacer la validacin en ECLIPSE Galileo 2010, para lo cual se le implementaron los perfiles y los modelos de la metodologa BIEP. Es de aclarar que se puede implementar BIEP desde la versin ECLIPSE Ganymede o superior, debido a que tiene implementado las herramientas de modelado basado en UML 2.

3.1.1 Implementacin de los Perfiles

Como parte fundamental del prototipo de software, es menester que los perfiles de la metodologa BIEP, definidos en la seccin 3.3, se encuentren implementados. Esto se

Captulo 3

87

logra en Eclipse, teniendo cargados los mdulos UML2 y sus dependencias, labor que se hace marcando las opciones adecuadas en Software Update del men Ayuda. A continuacin se debe crear un proyecto de modelado y en l se crean los diagramas de definicin de perfiles.

Los siguientes diagramas son los creados basados en los perfiles de la metodologa BIEP:

DMCLUS.umlprofile: Perfil UML para la tcnica de minera de datos de agrupamiento.

DMSEL.umlprofile: Perfil UML para el proceso de anlisis, seleccin y transformacin de datos

DWCS.umlprofile: Perfil UML de la bodega de datos.

DWEPCasoUso.umlprofile: Perfil UML para los casos de uso.

DWSTS.umlprofile: Perfil UML para la tcnica de minera de datos de serie de tiempo.

ETLProcess.umlprofile: Perfil UML para el proceso de extraccin, carga y transformacin de datos (ETL)

MDCl.umlprofile: Perfil UML para la tcnica de minera de datos de clasificacin.

MDRA.umlprofile: Perfil UML para la tcnica de minera de datos para las reglas de asociacin.

SPS_DWPS.umlprofile: Perfil UML para el despliegue fsico de la bodega de datos, las fuentes de datos y el cliente.

88

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

OLAPACT.umlprofile: Perfil UML para el manejo del cubo dimensional.

DATACUBE.umlprofile: Perfil UML para el manejo de Las operaciones en el cubo dimensional.

Estos perfiles se pueden importar y ser usados sin necesidad de volverlos a definir en cualquier herramienta CASE que soporte MOF.

En los anexos B y D de este documento, se encuentra el manual de usuario para la utilizacin de estos perfiles y se explica cmo se realizo la implementacin de cada uno, respectivamente.

3.1.2 Generacin del Modelo de Objetos


Sea lo primero indicar que, como el programa Eclipse Galileo 2010 no tiene implementado el diagrama de objetos de UML, este modelo se desarroll por medio de EMF y GMF. En la figura 52 se observa el modelo basado en MOF, para lo cual deben darse los elementos que son aplicables al diagrama de de objetos: la relacin, los atributos, y el vnculo entre ellos. Para ver detalle de la generacin consultar el anexo B14. infra.

Figura 3-1:

Modelo de objetos

Captulo 3

89

3.1.3 Elementos bsicos para aplicar diagramas de BIEP

Para aplicar la metodologa en Eclipse Galileo 2010, se debe crear un proyecto de modelado, en el se establecen los diagrama de UML 2.3 que se desea utilizar, por ejemplo, para la creacin del esquema lgico de la bodega de datos se crea un diagrama de clase. Luego se adicionan las diferentes clases que representan las dimensiones y las tablas de hecho. Posteriormente se incorpora el perfil al diagrama de clases y se le aplica el estereotipo a la clase segn corresponda (dimensin o tabla de hecho). Esto se puede ver en el anexo B para todos los diagramas de la metodologa.

3.2 Caso de estudio: Biblioteca central de la universidad Antonio Nario U.A.N.


3.2.1 Descripcin de la Universidad Antonio Nario y de la Biblioteca
La Universidad Antonio Nario tiene ms de 32 aos en el pas y fue fundada con el fin de ofrecer un espacio educativo profesional para el desarrollo integral de los estudiantes y contribuir al bienestar social de la comunidad.

Con ms de treinta y sietes (37) sedes a nivel nacional, es una de las universidades con ms estudiantes en Colombia, por ende sus bibliotecas deben contar con un gran volumen de libros, revistas, diarios y publicaciones que estn a disposicin de sus usuarios.

La biblioteca central se encuentra ubicada en la sede principal de la Universidad y ofrece varios servicios para el bienestar de los estudiantes y del pblico en general, tales como el prstamo de libros, servicio de hemeroteca y acceso a bases de datos de otras

90

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

instituciones gracias a los acuerdos firmados por las directivas, el primero de los servicios el ms importante.

El volumen de los prstamos es cercano a los 100.000 registros por ao, considerando a todos los usuarios y sedes. Sin embargo, los datos que se tendrn en cuenta para la presente validacin, sern aproximadamente 50.000 registros, correspondientes a los prstamos efectuados en el primer semestre del ao 2008 y todo el ao del 2007, en la sede central de la biblioteca.

3.2.2 Flujos de trabajo


El objetivo del sistema de inteligencia de negocios para la biblioteca central de la universidad Antonio Nario, es obtener el diseo conceptual, lgico y fsico de la bodega de datos. Adems realizar el diseo conceptual del anlisis de datos OLAP y de minera de datos para el proceso prstamo de libros.

3.2.2.1 Requerimiento
Con el objeto de lograr un flujo de trabajo que nos muestre la visin para la construccin de la bodega de datos y las tcnicas de anlisis de datos para la biblioteca central de la universidad Antonio Nario, se realizaron las siguientes actividades:

Visitas a la biblioteca central de la Universidad Antonio Nario.

Generacin de los diagramas de casos de uso con base a la informacin suministrada por los encargados y usuario de la biblioteca (Figura 3-2).

Generacin del formato extendido de los casos de uso (Anexo A).

De este anlisis, se desprende la necesidad de realizar el sistema de inteligencia de negocios asociado al proceso de prstamo de libros, cuyo documento final se incluye como Anexo A, en donde se encuentra: posicionamiento, descripcin de participantes en

Captulo 3

91

el proyecto y usuarios, descripcin global del producto, otros requisitos del producto y la documentacin requerida, lo cual permiti la definicin del objetivo del negocio y de los requisitos y las funciones deseadas para el sistema de inteligencia de negocios.

Para el este proyecto se tuvieron en cuenta los siguientes indicadores claves del negocio (KPI):

Superacin del prstamo diario de material bibliogrfico. Formula: Se realiza por proyeccin un prstamo mayor a 200 elementos de material bibliogrfico diario.

Superacin del prstamo mensual de material bibliogrfico. Formula: Se realiza por proyeccin un prstamo mayor a 3000 elementos de material bibliogrfico al mes.

Prstamo por cada material bibliogrfico al ao. Formula: Das de prstamos del material bibliogrfico > 100 al ao.

Valor de la multa por periodo mes. Formula: Suma de las multa por mes <$100000.

Se traz como objetivo de la minera de de datos la aplicacin de las siguientes tcnicas: reglas de asociacin, agrupamiento y clasificacin sobre toda la tabla de hechos, para la generacin de nuevo conocimiento.

En la figura 3-2 se observan los casos de usos aplicados al prstamo de libros en la biblioteca central. En la parte izquierda se encuentra el usuario final y en la parte derecha el caso de uso de prstamo de libros. A partir del mismo se extiende el prstamo de sala, fecha, ISBN, ttulo, departamento y combinacin de los diferentes prestamos.

92

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

Figura 3-2:

Modelo de Casos de Uso del prstamo de la biblioteca

3.2.2.2 Anlisis
En este flujo de trabajo se realiz el anlisis de las fuentes de datos que poblarn la bodega de datos de la biblioteca para lo cual se realizaron los siguientes diagramas: SCS, SCOS, SLS y SPS.

En las fuentes de datos se encontraron dos bases de datos cuyo sistema manejador es MySQL, las cuales estn compuestas de 70 tablas y 6 vistas. Siguiendo con los requerimientos sobre el prstamo de libros, se consideran las tablas de este proceso para el diseo de la bodega de datos, a saber: prestamo, det_prestamo, tipo_prestamo, libro, sala, editorial, usuario, programa, descripcion_pretamo, descripcion_editorial, descripcion_autor y facultad, obteniendo las siguientes estadsticas: Total de Registros 50922. Tamao de los datos en disco duro 101 MB.

En la figura 3-3 se observa el diagrama conceptual de las fuentes de datos SCS, el cual es una representacin del diagrama E-R de las fuentes de datos en un diagrama de clases. As se expresan las ocho entidades (prestamo, det_prestamo, tipo_prestamo, libro, sala, editorial, usuario, programa y facultad.): ocho clases y sus relaciones como asociaciones, lo que explica la multiplicidad entre las entidades en el caso de estudio Prstamos de libros.

Captulo 3

93

Figura 3-3:

SCS del prstamo de la biblioteca

En la figura 3-4 se observa el diagrama conceptual de objetos de las fuentes de datos SCOS, el cual es una instancia del SCS. A ttulo de ejemplo, en el prstamo nmero 1000, del da 5/5/2010, se muestra el detalle del prstamo: libro The data Warehouse Toolkitt, con sus respectivos autores y editorial.

Figura 3-4:

SCOS del prstamo de la biblioteca

94

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

En la figura 3-5 se observa el diagrama lgico de la fuente de datos SLS, el cual representa el diagrama relacional de la fuente de datos de la biblioteca central. Se encuentran once (11) tablas, las cuales representan en once (11) clases y la relacin de asociacin entre las entidades. Figura 3-5: SLS del prstamo de la biblioteca

En la figura 3-6 se muestra el diagrama fsico de la fuente de datos SPS, incluyendo los elementos fsicos de la biblioteca central, en particular, que cada servidor contiene en hardware un procesador Core Dual de 2 GHZ, memoria 4 GHZ, sistema operativo Windows 2003 server, 2 discos duros de 250 GB cada uno. En el primero se encuentra instalado el sistema operativo, y en el segundo almacena la estructura de la base de datos en un motor de bases de datos MySQL 5.0. Figura 3-6: Esquema fsico del servidor para el prstamo de la biblioteca

Captulo 3

95

3.2.2.3 Diseo
El Objetivo de este flujo de trabajo es dar una visin y revisar los requerimientos para entender y desarrollar apropiadamente la bodega de datos de la biblioteca central de la universidad Antonio Nario. Para estos fines, se desarrollaron los siguientes diagramas: esquema conceptual de la bodega de datos (DWCS), diagrama de mapeo de datos (DM), esquema de secuencias de la bodega Datos (DWSS), esquema de estados de mquinas de la bodega de datos (DWSMS) y esquema de actividad de la bodega de datos (DWAS). En la figura 3-7 se muestra el esquema conceptual de la bodega de datos (DWCS), dividido en varios niveles. En el nivel 0 est el diagrama estrella del prstamo de libros de la biblioteca. En el nivel 1 se tienen los elementos bsicos de la estrella tabla de hecho (prstamo) y las diferentes dimensiones (tiempo, usuario, libro, facultad, sala y programa). En el nivel 2 se adicionan los elementos bases de cada dimensin y de la tabla de hecho. Figura 3-7: biblioteca Esquema conceptual de la bodega de datos del prstamo de la

Nivel 0

Nivel 1

96

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

Nivel 2

En la figura 3-8 se observa el diagrama de mapeo (Data Mapping), el cual contiene diversos niveles: lustracin 3-8: Diagrama de Mapeo del prstamo de la biblioteca

Nivel 0

Nivel 1

Nivel 2

Captulo 3

97

En el nivel 0 est una visin general del mapeo de los diferentes atributos que se extrajeron desde la fuente de datos hasta la carga de la bodega de datos. En la metodologa de Kimball se propone el uso de espacios temporales de almacenamiento, para realizar todo el proceso de transformacin de los datos, recomendacin que fue acatada en el caso de la biblioteca, por mostrar resultados benficos para el mapeo.

En el nivel 1 se tienen todos los mapeos y elementos disponibles, los cuales, en el caso en estudio fueron las fuentes de datos, el espacio de almacenamiento temporal y la bodega de datos.

En el nivel 2 encontramos el mapeo de cada atributo entre la fuente de datos y el espacio temporal, lo cual brind una visin sobre las posibles transformaciones que se deben dar para su correcta carga.

En la figura 3-9 se observa el esquema de secuencia de la bodega de datos (DWSS), Este nos brinda los pasos que se realizaran entre la fuente de datos de la biblioteca y la bodega de datos del prstamo del libro. Adems, presenta las secuencias que se deben seguir en el proceso ETL, basado en el anlisis del diagrama de mapeo de datos.

De acuerdo a lo anterior, en el caso en estudio, la tabla autor de la fuente de datos pasa al espacio temporal y, a partir de ste, a la dimensin autor. Cada mensaje tiene su respuesta para saber si se realizo adecuadamente el proceso, en caso de fallo enva el mensaje al archivo de eventos.

98

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

Figura 3-9: biblioteca

Esquema de secuencia de la bodega de datos para el prstamo de la

En la figura 3-10 se muestra el esquema de diagrama de estados de mquinas para la bodega de datos (DWSMS), que, en el caso de estudio, modela el comportamiento que se debe seguir en el proceso ETL en todas las dimensiones, especificando la secuencia de eventos que atraviesa durante este proceso. Para el efecto, primero se debe realizar la apertura de la fuente de datos de la biblioteca y, con posterioridad, leer y extraer los datos de la base de datos de cada tabla. Estos datos hay que transformarlos de acuerdo con el diagrama de mapeo y cargarlos en el espacio temporal, concluyendo con la extraccin de los datos y cargndolos en la bodega de datos.

Figura 3-10: DWSMS del prstamo de la biblioteca


TranformarDatos ExtraerDatos do do do do / / / / Conectarse a la BD1 Conectarse a la BD2 Conectarse a los archivos Extraer datos de acuerdos a criterios do do do do do do / / / / / / Agregacion Mezclas Join filtros errores Subrogar CargarDatos do do do do / / / / RevisarDatoTDW Insertar Actualizar Borrar

En la figura 3-11 se utiliza el esquema de actividades de la bodega de datos (DWAS) para mostrar el flujo de trabajo desde el punto de inicio hasta el punto final, detallando las

Captulo 3

99

rutas de decisiones que existen en el progreso de eventos contenidos en la actividad. En el prstamo de la biblioteca se evidencian las actividades que deben realizarse para la generacin del cubo OLAP: primero se debe realizar el anlisis del prstamo, luego realizar la seleccin por medio del libro o del usuario y por ltimo se realiza el anlisis OLAP. Figura 3-11: DWAS del prstamo de la biblioteca

3.2.2.4 Implementacin
Para este flujo de trabajo se plane y se ejecut: El modelo lgico y fsico de la bodega de datos para la biblioteca central de la universidad Antonio Nario, siguiendo el modelo conceptual planteado en el flujo de trabajo anterior.

El proceso de extraccin, transformacin y carga de datos (ETL) desde las fuentes hasta la bodega.

Se desarrollaron para el caso de estudio los siguientes diagramas: esquema lgico de la bodega de datos (DWLS), esquema lgico de objetos de la bodega de datos (DWLOS), esquema fsico de la bodega de datos, proceso ETL, diagramas de transporte y esquema fsico del cliente.

100

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

En la figura 3-12 se presenta el modelo lgico de la bodega de datos (DWLS), el cual ensea el diagrama estrella para la biblioteca central basado del diagrama conceptual de la bodega de datos. Para el caso de estudio se representa las dimensiones (tiempo, usuario, facultad, autor y sala) y tablas de hechos (prstamo del libro). Cada tabla de hecho y las diferentes dimensiones se representan por medio de clases con sus respectivos atributos y con el tipo de dato que almacena en la bodega de datos. Las relaciones se representan como asociaciones entre las dimisiones y la tabla de hecho.

Figura 3-12: Esquema lgico de la DW para el prstamo de libro

En la figura 3-13 se observa el esquema lgico de objetos de la bodega de datos (DWLOS), el cual constituye una instancia del esquema lgico de la bodega de datos para el prstamo de libros. A ttulo de ejemplo, se toma el prstamo No. 1000 en la bodega de datos, mostrando en la tabla de hechos el nmero de das del prstamo, los das del prstamo, la cantidad de libros y las multas. As mismo, en las dimensiones, se encuentran los diferentes objetos.

Captulo 3

101

Figura 3-13: DWLOS del prstamo de la biblioteca

En la figura 3-14 se muestra el diagrama fsico para la bodega de datos para el prstamo de libros (DWPS), evidenciando, en la parte izquierda, el servidor que va soportar la bodega datos, el cual cuenta con un procesador Core Duo de 2 GHZ, 4GB en memoria RAM y dos (2) discos duros cada uno con 250 GB de capacidad de almacenamiento. En disco uno almacena el sistema operativo y el software SQL SERVER 2008, y en el disco dos almacena los datos fsico de la bodega de datos. En la parte derecha encontramos los diagramas fsicos de los clientes (CPS), representando las diferentes conexiones con la bodega de datos (diagramas de transporte), las cuales, en el caso de estudio, se realizaron con la conexin directa de SQL Server. Figura 3-14: Esquema fsico de la bodega de datos.

102

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

Para realizar la extraccin, transformacin y carga de datos desde las fuentes de datos y la bodega de datos, se tom el diagrama de ETL, logrando, de esta forma, ampliar el diagrama de mapeo (figura 38). Este diagrama, como se observa en la figura 3-15, permite colocar los elementos necesarios para realizar los pasos necesarios para especificar las operaciones tpicas de acuerdo a la tabla 2-2. Figura 3-15: Proceso ETL

3.2.2.5 Preparacin, modelado, evaluacin y despliegue


En este flujo de trabajo se realiz, en primer lugar, el modelo OLAP, en orden a obtener los indicadores claves del negocio. En segundo lugar, se realiz la preparacin, modelo y evaluacin, de acuerdo al modelo de minera de datos a utilizar. As mismo, se efectu el despliegue de acuerdo con los servidores y la arquitectura que el cliente tena disponible para la biblioteca central.

Para el efecto, se realizaron los siguientes diagramas: esquema de paquetes de anlisis seleccin y transformacin, minera de datos para el anlisis, cubo dimensional, minera de datos de reglas de asociacin DMRAS, minera de datos de clasificacin DMCLS y minera de datos de agrupamiento DMCLUS.

Captulo 3

103

3.2.2.5.1 Modelo OLAP


El modelo de cubos dimensionales se implemento sobre SQL Server 2005, obteniendo el diagrama del proceso ETL que se muestra en la figura 66, el cual permiti la extraccin, carga y transformacin, desde la fuente de datos a la bodega de datos, como se puede observa en la figura 3-16.

Figura 3-16: Servicio de integracin de SQL SERVER 2005 aplicado a la biblioteca.

Para el modelado del cubo se implement el esquema lgico obtenido de la figura 3-12, empleando para ello el servicio de anlisis del SQL Server 2005, como se observa en la figura 3-17, donde se observa el origen de datos y la conformacin del cubo dimensional con sus dimensiones y tabla de hecho. Figura 3-17: Servicio de anlisis de SQL SERVER 2005 aplicado a la biblioteca.

104

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

En la figura 3-18 se observa el cubo implementado en SQL Server 2005, con los cuatros (4) indicadores obtenidos en la etapa de requerimientos y especificando cada uno de ellos. Figura 3-18: Indicadores claves de gestin dados al proceso de prstamo de libros

El desarrollo de los reporte se realiz por medio del servicio de reportes de SQL 2005, el cual permite generar repites asociados a cada KPI implementados en el cubo dimensional, como se observa en la figura 3-19. En este se especifica la fuente de datos y el diseo de cada reporte. Figura 3-19: Diseo de los reportes basada en cada KPI al proceso de prstamo de libros

Captulo 3

105

Para su despliegue se utiliza el componente que se le instala al servidor Web de Microsoft (IIS), permitiendo la carga de cada reporte en ambiente Web. En la figura 3-20 se evidencian dos (2) de los reportes aplicados a cada KPI. Figura 3-20: Despliegue Reportes basada en cada KPI al proceso de prstamo de libros

3.2.2.5.2 Preparacin de los datos para el proceso de minera de datos


Para el proceso de minera de datos se requiriere el anlisis, seleccin y transformacin proveniente de la bodega de datos y de acuerdo con el algoritmo seleccionado. En la figura 3-21 se presenta, en el nivel 1, el esquema de paquetes desde la bodega de datos realizando el anlisis, seleccin y transformacin para luego aplicar la tcnica de minera de datos del caso de estudio; y en el nivel 2 el proceso de DMSELECCION de la tabla de hecho de prstamo, esto es, la forma en que se encuentran los datos (completos, incompletos, con ruido entre otros).

106

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

Figura 3-21: Esquema de paquetes de anlisis, seleccin y transformacin aplicados al proceso de prstamo de libros.

Nivel 1

Nivel 2

3.2.2.5.3 Regla de Asociacin


Las reglas de asociacin permiten descubrir relaciones o correlaciones interesantes en grandes cantidades de datos, con la finalidad de establecer patrones en forma de regla que representen las asociaciones encontradas.

En la figura 3-22 se observa el esquema de minera de datos de reglas de asociacin (DMRA) y la clase configuracin, en la cual se realizan los ajustes del modelo de minera de datos, a saber: el mximo soporte, mnima confianza, nmero mximo de tems en un conjunto frecuente, entre otros. Es de mencionar que, la seleccin de los atributos, se realiza de acuerdo con los parmetros requeridos de acuerdo al algoritmo en la clase seleccin DW.

Para el despliegue y evaluacin de resultados se utiliz el motor de bases de bases MS SQL Server 2005, y para su anlisis y modelado WEKA, aplicando los siguientes pasos: (i) por medio de un soporte del 20% y una confianza > 80% para obtener las reglas ms fuertes; y (ii) con un soporte del 10% y una confianza > 60% para determinar la totalidad de las reglas aplicadas a este proceso.

Captulo 3

107

Figura 3-22: DMRA del prstamo de la biblioteca

Para aplicar el algoritmo a priori se necesita que todos los atributos sean de tipo nominal, razn por la cual al subconjunto hay que aplicarle un filtro para convertir el atributo ubicacin. En atencin a la cantidad de registros de la bodega de datos (aproximadamente de 50000), el tiempo de anlisis es cercano a las cuatro horas para cada proceso y permiti obtener las siguientes reglas:

(i)

El proceso de Soporte del 20% y confianza del 80% permiti obtener un total de 11 reglas:

Si la ubicacin es 2 ==> la descripcin del tipo Prstamo es Domicilio conf:(1).

Si el nombre del programa es Derecho ==> la descripcin tipo Prstamo es Domicilio conf:(1)

108

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

Si la ubicacin es 2 y el nombre del programa es derecho ==> la descripcin del tipo de prstamo es domicilio conf:(1).

Si la facultad es derecho ==> la descripcin de tipo prstamo es domicilio conf:(0.99).

Si la ubicacin es 9 ==> descripcin de tipo prstamo es domicilio conf:(0.99).

Ubicacin es 8 ==>la descripcin de tipo prstamo es domicilio conf:(0.97).

Si la ubicacin es 2 ==> el nombre de programa es derecho conf:(0.93).

Si la ubicacin =2 ==> la descripcin de tipo prstamo es Domicilio nombre del programa es derecho conf:(0.93).

Si el nombre de programa es derecho ==> su ubicacin es 2 conf:(0.92).

Si la descripcin de tipo prstamo es domicilio y el nombre del programa es derecho ==> ubicacin es 2 conf:(0.92).

Si el nombre programa es derecho ==> la descripcin del tipo prstamo es domicilio y su ubicacin es 2(0.92)

(ii)

En el proceso de Soporte del 10% y confianza del 60% se obtuvieron un total de 50 reglas, de las cuales las ms importantes son:

Si la asignatura del libro es democracia==> Nombre del programa del libro es derecho [Conf 100%].

Si el mes del prstamo es mayo ==> Tipo de prstamo = domicilio [Conf 100%].

Captulo 3

109

Si nombre del programa del alumno es derecho y Mes de Prstamo = Febrero ==> Nombre del programa del libro = derecho [Conf 87%].

Si nombre del programa de libro es economa ==> Tipo de prstamo es domicilio [Conf 99%].

Si la ubicacin del libro es 2 ==> Tipo de prstamo = domicilio [Conf 99%].

3.2.1.5.4 Clasificacin
La minera de datos con la tcnica de clasificacin permite describir el comportamiento de una variable dependiente y predecir su estado en funcin de otras caractersticas. En general esta tcnica se utiliza para conocer cmo pueden clasificarse los datos, que atributos son los que tienen mayor influencia en la variable dependiente y cules son las clases correspondientes.

En la figura 3-23 se observa el esquema de minera de datos aplicado al proceso de clasificacin (DMCLS), al igual que el de reglas de asociacin, teniendo en cuenta el mdulo de configuracin que permite seleccionar el algoritmo de clasificacin, nmero mximo de hojas, nmero mximo de entrada, entre otros.

Para su despliegue se trabajaron varios algoritmos de clasificacin, estos fueron: los rboles de decisin (J48), Naive Bayes, Redes Neuronales y NBTrees probados sobre la herramienta WEKA, todos ellos se con una muestra de 6000 registros y evaluados a travs de la tcnica de cross validation con 10 folds.

Se realiz la clasificacin jerrquica dado la poca cantidad de ejemplos que contenan las salas diferentes a la 2, 8 y 9, para lo cual se consideraron las salas de consulta general (G) que contienen las salas 7, 8, 9 y de consulta especializada (E) que contienen las

110

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

salas 2, 4, 6, 19, 18, luego se procedi a aplicar tcnicas de clasificacin detallando cada una de las clases. Figura 3-23: DMCLS del prstamo de la biblioteca

Adems se tomaron como atributo de clasificacin: los das de prstamo y la asignatura.

Para el algoritmo J48 se seleccion por clase el atributo de ubicacin y despus de realizado el entrenamiento se obtuvo la matriz de confusin, como se aprecia en la tabla 3-1, con un nmero de valores correctamente clasificados correspondiente al 92.76%, y un porcentaje error del 7.23%.

Tabla 3-1:

Matriz de confucin

En el caso ms especfico primero se analizan todas las salas generales y se encuentran la matriz de confusin de la tabla 3-2. Con posterioridad, se consideran las salas especializadas como se muestra en la tabla 3-3.

Captulo 3

111

Tabla 3-2:

Matriz de confusin por las salas Generales

Tabla 3-3:

Matriz de confusin por las salas Especializadas

Analizando este atributo, a la luz del nmero de das prestados, nos muestra el resultado que se incluye en la tabla 3-4, donde el J48 solo clasifica los resultados en una sola clase. Es de mencionar que el incorrectamente 10.9167%. algoritmo clasific correctamente el 89.0833% e

Analizando este atributo con la asignatura, se observa que el sistema no permite generar el rbol, sino que muestra un error de memoria en tanto efectu un subconjunto de 600 registros y arroj un rbol con 12000, lo que permite concluir que este atributo no se puede usar para la clasificacin.

Al aplicar el algoritmo Naive Bayes, el cual, valga decirlo, es un clasificador de tipo probabilstico y basado en el teorema de Bayes, se mostr una alta eficiencia clasificatoria, como se ve en la tabla 15.

112

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

Tabla 3-4:

Matriz de confusin por das de prstamo con rboles.


classified as a=0 b=1 c=2 d=6 e =7 f =8 g=9 h = 10 i = 11 j = 12 k = 13 l = 14 m = 15 n = 16 o = 17 p = 18 q = 19 r = 20 s = 21 t = 26 u = 28 v = 373 w = 381 a b c d e f g h i j k l m n o p q r s t u v w 0 0 0 119 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 5345 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 156 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 43 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 13 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 7 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 7 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 13 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 6 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 91 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 23 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 18 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 33 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 27 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 22 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 32 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 21 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 15 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Tabla 3-5:

Matriz de confusin Naive Bayes sala general y especializada.

Es el clasificador computacional ms rpido y arroj un correcta clasificacin del 92.63%, con un error del 7.37%, por lo que es muy prximo al rbol de decisin. En las tablas 3-6 y 3-7 se visualiza la distribucin por sala general y especifica.

Tabla 3-6:

Matriz de confusin Naive Bayes por sala general

Captulo 3

113

Tabla 3-7:

Matriz de confusin Naive Bayes por sala especializada

Realizando el anlisis por el atributo das prestados da como resultado lo mostrado en la tabla 3-8, el sistema clasific correctamente el 89.7667% e incorrectamente el 10.2333%

Tabla 3-8:

Matriz de confusin Naive Bayes por das prestados

114

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

4.2.2.5.3 Agrupamiento
El agrupamiento puede considerarse como la tcnica de aprendizaje no supervisado ms importante para encontrar patrones de comportamiento similares, Para el caso de estudio se utiliz el esquema de minera de datos para agrupamiento (DMCLUS),

En la figura 3-24 se observa el modelo agrupamiento aplicado a la biblioteca y en la clase configuracin se determina el nmero de cluster, datos de entrada, entre otros.

Para el despliegue del caso de estudio a la biblioteca se aplic la tcnica de los k-medios con la herramienta WEKA, en razn del gran nmero de datos analizados. Para el efecto, se consider una muestra de 5000 registros y, en atencin a que la escala de los datos es categrica, el resultado de los clsteres es en trminos de la moda.

Figura 3-24: DMCLU del prstamo de la biblioteca

Captulo 3

115

El primer paso al aplicar la tcnica fue determinar el nmero de clusters a considerar, para lo cual se realizaron 20 experimentos con diferente cantidad de clusters en un rango entre 2 y 20. En cada experimento se modific la semilla con valores entre 10 y 10000. Se calcul el promedio de la suma de los cuadrados de los errores en cada experimento y con estos resultados se obtuvo el grafico de codo de la figura 3-25.

Figura 3-25: Grfico de codo

Diagrama de codo
Error cuadrtico
450000 400000 350000 300000 250000 200000 150000 100000 50000 0 0 5 10 15

Cluster

20

25

Se realiz el anlisis de la grafica tomndose 6 clusters como el nmero ms apropiado para realizar el anlisis detallado de los cluster. El resultado obtenido se puede ver la tabla 3-9.

Tabla 3-9:

Agrupamiento por medio del algoritmo K medoids


Cluster No de instancia % de conjunto 0 5965 12 1 10242 20 2 5635 11 3 12302 24 4 5320 11 5 10874 22

116

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

El resultado de estos cluster, segn la moda resultante y considerando los atributos nombre programa alumno, descripcin prstamo, autor, nombre programa, ttulo del libro y autor fueron los siguientes: Clster 0

Clster 1

Clster 2

Captulo 3

117

Clster 3

Clster 4

Clster 5

En la tabla 3-10 podemos ver la asociacin de cada cluster con el atributo de clase de nuestro conjunto de datos (atributo ubicacin y facultad solicitante).

118

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

Tabla 3-10:

Cluster por medio de asociacin de atributos


Cluster No de instancia % de conjunto 0 5965 12 1 10242 20 2 5635 11 3 12302 24 4 5320 11 5 10874 22

Como se puede apreciar, los clusters 1 y 2 estn relacionados con la sala 9, el clster 3 con la sala 2 y los clusters 0 y 5 con la sala 8.

3.2.1.6 Pruebas

Para este caso de estudio se realizaron varias etapas de validacin en el sistema de inteligencia de negocios. En el componente de integracin de datos se realizaron las pruebas de anlisis de la fuente de datos, proceso de extraccin carga y transformacin entre la fuente de datos y el espacio temporal, y el espacio temporal y la bodega de datos. Luego se valid la carga de la tabla de hechos y las dimensiones.

En el componente de anlisis de datos se prob la generacin del cubo dimensional y sus operaciones. Adems se generaron los modelos de minera de datos basados en reglas de asociacin, clasificacin y agrupamiento. Los resultados fueron revisados y validados por parte de los administradores de la biblioteca.

Por ltimo, los modelos fueron validados y verificados por el experto de los datos para ser utilizados en el despliegue, como se ensea en la tabla 3-11.

Captulo 3

119

Tabla 3-11:

casos de pruebas biblioteca central uan


Bodega de Datos de la Biblioteca Central de la universidad Antonio Nario

Nombre del casos de uso Responsable ID_CP FECHA CP_01 02/06/2010

02/06/2010 CP_02 02/06/2010 CP_03 02/06/2010 CP_04 02/06/2010 CP_05 CP_06 02/06/2010 09/06/2010 CP_07 CP_08 CP_09 CP_10 CP_11 09/06/2010 16/06/2010 23/06/2010 30/06/2010

Prestamo del libro Edwar Javier Herrera Osorio Diseo casos de pruebas PRECONDICIONES ESCENARIO PASOS Seleccin de la muestra para el Ninguna anlisis de datos. El espacio temporal Extracion carga y transformacin de la bodega sin de la fuente de datos al espacio datos, Motor servicio temporal de integracin activo Extracion carga y transformacin Motor servicio de de la fuente de datos al espacio integracin activo temporal Motor servicio de La tabla de hecho es alimentada integracin activo, con el clculo el total de das del Fecha de inicio y fin prstamo del libro. no nula Motor servicio de La tabla de hecho es alimentada integracin activo, el Prestamo del libro con el clculo el total del valor de total de dias es > 0 la multa. Motor servicio de La tabla de hecho es alimentada integracin activo con el clculo del total libros tablas de hechos y dimensiones Generacin del cubo dimensional alimentadas Anlisis por tcnica de minera de Cubo dimensional datos por reglas de asociacin Anlisis por tcnica de minera de Cubo dimensional datos por clasificacin Anlisis por tcnica de minera de Cubo dimensional datos por agrupamiento Modelos de mineria Validacion por parte del experto de de datos los datos

Proposito Realizar la bodega de datos del Prestamo del libro Ejecucin ciclo 1 POSCONDICIONES FECHA RESULTADOS Seleccin de los datos 02/06/2010 Pas para la bodega de datos Carga del espacio temporal 02/06/2010 Pas

Carga de la bodega de datos (Tablas de hechos 02/06/2010 Pas y dimensiones) realiza la operacin de fecha fin - fecha inicio correctamente realiza la operacin de calclo multa realiza el conteo del prestamo Cubo dimensional Reglas de asociacin Modelo de clasificacin Los modelos de agrupamiento Generacin correcta 02/06/2010 Pas

02/06/2010 Pas 02/06/2010 Pas 09/06/2010 Pas 09/06/2010 Pas 16/06/2010 Pas 23/06/2010 Pas 30/06/2010 Pas

La aplicacin de la metodologa BIEP, en el caso en estudio, nos muestra su efectividad como mecanismo para la toma de decisiones, en tanto nos brinda los insumos informativos necesarios para el efecto. As, considerando los resultados del anlisis, se tiene que es necesario contar con mayor nmero de los libros que tienen mayor solicitud, como se muestra en los clusters 0 a 4. Adicionalmente, es claro que en la carrera de derecho los estudiantes acostumbran a solicitar mayor veces libros para su prstamo, por lo que es claro que en esta carrera debe tenerse un mayor nmero de textos, de suerte que supla los requerimientos de los estudiantes, y se garantice as la finalidad de la Universidad, como es servir de instrumento para la formacin integral.

Luego, en caso de requerir el cambio de libros por cambio de edicin, ser indispensable destinar mayores recursos a satisfacer las reas anotadas en precedencia. As mismo,

120

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

en el evento de que se quiera mejorar la atencin de los estudiantes, es procedente comprar los libros de mayor demanda, garantizando as su disponibilidad en toda ocasin, considerando el volumen en que participa cada carrera sobre el total.

Es de advertir que, estas conclusiones, fueron confirmada por los responsables del prstamo de libros en la biblioteca, quienes, en atencin a su experiencia, ratificaron la necesidad de que exista mayor disponibilidad de material bibliogrfico para los estudiantes de derecho y respecto a los textos referidos en el anlisis realizado.

3.2.1.7 Mantenimiento

Esta actividad se usa para definir nuevos requerimientos y aumentar su cantidad de despliegue. Esta etapa se realiza permanente y da comienzo a un nuevo proceso aplicando la metodologa BIEP.

3.3 Implementacin de BIEP en otras herramientas UML

Para validar la utilizacin de los perfiles de UML de BIEP, se implemento el perfil DWCS en la herramienta Visual Paradigm for UML 8.1 Enterprise Edition la cual soporta UML 2.3 y permite definir los perfiles [46]. En la figura 77 observamos la implementacin del perfil UML para la bodega de datos (DWCS) definido en el captulo 2.3.1.

Captulo 3

121

Figura 3-26: Perfil UML para bodega de datos en Visual Paradigm

Para validar este perfil se implement el esquema conceptual de la bodega de datos (DWCS) para el caso prctico de la biblioteca en sus tres niveles, como se muestra en la figura 3.-27. Figura 3-27: Diagrama DWCS del caso de estudio de la biblioteca en Visual Paradigm.

Nivel 0

Nivel 1

122

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

Nivel 2

Se observa, entonces, que la metodologa BIEP se puede implementar en cualquier herramienta con soporte MOF, en cuanto esta es basada en el proceso unificado y en los perfiles UML 2.x, dndole una amplia utilizacin y estandarizacin para el desarrollo de sistemas de inteligencia de negocios.

3.4 Resumen Captulo

En este captulo se hizo una descripcin de la forma en que se dise y se desarroll el prototipo de software para la aplicacin de la metodologa BIEP, basada en los perfiles y modelos planteados en el captulo III. El desarrollo se hizo teniendo en cuenta las caractersticas bsicas para su implementacin y se consolid en una plataforma de software libre: Eclipse Galileo 2010.

Para la validacin de BIEP se realiz el anlisis de prstamo de los libros en la biblioteca central de la universidad Antonio Nario. Se sigui el diagrama de actividades propuesto para el desarrollo de la metodologa (figura 16). Se plasm el modelo conceptual, lgico y fsico para la bodega de datos para el prstamo de los libros realizados por parte de la biblioteca central. Adems, se realiz el diseo conceptual OLAP y de tcnicas de minera de datos para el anlisis de datos.

Captulo 3

123

Estos modelos y esquemas dieron las bases para la implementacin de la bodega de datos en un servidor Windows 2003 Server, con motor de base de datos SQL Server 2005. Para efectuar el proceso ETL se realizo por medio del servicio de integracin que se encuentra inmerso en SQL Server versin estndar o superior y la validacin por medio del caso de prueba.

El proceso OLAP se desarroll sobre el de servicio de anlisis dado por SQL Server, generando un cubo dimensional. Con ello y por medio del servicio de reportes, se efectuaron los reportes de cada uno de los KPI y las consultas solicitadas por los usuarios finales, para ser visualizados por medio del componente adicionado al IIS de Microsoft.

El proceso de anlisis de datos por medio de tcnica de minera de datos se realiz en la herramienta WEKA, donde se obtuvieron las reglas de asociacin, las clases y agrupacin de acuerdo con los algoritmos aplicados.

Por ltimo, se implement el perfil UML DWCS de BIEP sobre el software Visual Paradigm for UML 8.1 Enterprise Edition la cual soporta UML 2.3 y permite definir perfiles UML, mostrando que BIEP se puede fcilmente implementar sobre cualquier herramienta que soporte MOF.

4. Conclusiones y recomendaciones
4.1 Conclusiones
La investigacin adelantada en la presente trabajo tesis ha tenido como objetivo proponer una metodologa para el desarrollo de los sistemas de inteligencia negocios basada en el proceso unificado de software, denomina BIEP.

Esta metodologa desarroll un conjunto de perfiles UML y modelos para la integracin, anlisis y despliegue de los datos, los cuales han sido implementados en una herramienta que permite dar soporte a las distintas fases y flujos de trabajo.

El aprendizaje de BIEP se simplifica gracias al empleo de un lenguaje de modelado estndar (UML), adems se ha dado una serie de pasos que guan su aplicacin.

Despus de la explicacin terica de BIEP y de su validacin en un caso en concreto, es posible concluir que esta tesis es un aporte al rea de la inteligencia de negocios, por cuanto:

Se efectu una revisin del estado del arte sobre la integracin, anlisis y despliegue de los sistemas de inteligencia de negocios, actualizando los existentes con los ltimos desarrollos en la materia y trayendo la discusin al contexto colombiano.

126

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

Se proponen nuevos esquemas para el modelado conceptual y lgico para los sistemas de inteligencia de negocios, lo cual facilitar la actividad de las personas interesadas en su aplicacin.

Se actualizaron e integraron los perfiles y modelos propuestos en la metodologa DWEP [24], as como los modelos conceptuales para el diseo de las diversas tcnicas de minera de datos [47].

Se extendi el UML con perfiles especficos para el dominio de integracin anlisis y despliegue en los sistemas de inteligencia de negocios.

Se desarroll de un prototipo de software en forma de plug-in, el cual puede ser utilizado desde la versin Eclipse Ganymede o superior, para el desarrollo de la metodologa BIEP, lo que garantiza su disponibilidad y la utilizacin abierta.

Se implement el perfil DWCS sobre un software comercial, mostrando que es posible que se implemente la metodologa sobre herramientas que soporte MOF, aunque no se descarta la necesidad de efectuar validaciones adicionales con otros sistemas comerciales.

Se valid la metodologa mediante el desarrollo del sistema de inteligencia de negocios aplicado a la biblioteca central de la Universidad Antonio Nario, para lo cual se desarroll el proceso de integracin de datos (bodega de datos) y el de anlisis de datos por medio de tcnica OLAP y de minera de datos, labor que finalmente fue confrontada frente a la opinin de los expertos encargados de la biblioteca.

4.2 Recomendaciones
Este trabajo se puede continuar en diferentes lneas de investigacin, ampliando su impacto y dndole nuevas reas de desarrollo y mejoras, por lo que es posible que varios de los trabajos existentes sean estudiados a la luz de la presente metodologa, lo cual podra evidencia su efectividad y mejora frente a los modelos existentes con antelacin.

Conclusiones

127

A continuacin se establece una lista de posibles trabajos futuros que pueden ser realizados:

Una nueva versin del prototipo de software que genere automtica el cdigo para ser ejecutado en diversas herramientas de inteligencia de negocios.

Validacin y actualizacin de la metodologa BIEP en el desarrollo de otros sistemas de inteligencia de negocios.

Incorporar en el modelo de minera de datos herramientas de modelado conceptual para de tcnicas de aprendizaje automtico (machine learning) y reconocimiento de patrones (pattern recognition o matching).

Realizar las mtricas de calidad en el modelado en las tcnicas de minera de datos.

Ampliar el modelo a diseo de modelos geogrficos (Bodegas de datos y minera a datos espaciales).

Anexo A: Casos de uso en formato extendido del caso de estudio


A1. Casos de Uso
Lista de diagramas: Nombre: Diagrama Requerimiento Casos Uso

Diagrama: Diagrama Requerimiento Casos Uso formato extendido prstamo del libro

Prestamo por fecha Prestamos por salas

Prestamo por No Topografico

<<extend>>

<<extend>>

<<extend>>

<<extend>> Prestamos Libros Administrador de la biblioteca <<extend>> Prestamo por tiulo de libro

<<extend>>

Prestamo por facultad Prestamo por fecha, No topografico, titulo, salas, facultad

Lista de actores: Nombre:

130

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

Administrador de la biblioteca

Lista de casos de uso Nombre Prstamo por ttulo de libro Prstamo por facultad Prstamo por fecha Prstamo por fecha, ISBN, titulo, salas, facultad Prstamo por ISBN Prstamos Libros Prstamos por salas

Caso de Uso: Prstamo por ttulo de libro

Nombre

Prstamo por ttulo de libro

Pre-condicin del Caso de Uso: Prstamo por ttulo de libro

Este proceso se realiza cada mes, trimestre, semestre y anual. El ltimo da de cada mes.

Paso de acciones del caso de uso: prstamo por ttulo de libro

Anexo A. Casos de uso en formato extendido del caso de estudio y documento visin

131

Este caso de uso inicializa cuando el administrador de la biblioteca selecciona los libros prestados para ser analizados por ttulo.

La Bodega de datos determina el total de das del prstamo del libro por categoras, por medio de las dimensiones fecha, ttulo.

Post-condicin del caso de uso: Prstamo por ttulo de libro

Se adiciona en la tabla de hecho prstamo de libro como puede ser actualizado

Caso de Uso: Prstamo por facultad

Nombre

Prstamo por facultad

Pre-condicin de Caso de Uso: Prstamo por facultad

Este proceso se realiza cada mes, trimestre, semestre y anual. El ltimo da de cada mes.

Paso de acciones del Caso de Uso: Prstamo por facultad

Este caso de uso inicializa cuando el administrador de la biblioteca selecciona los libros prestados para ser analizados por facultad.

132

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

La Bodega de datos determina el total de das del prstamo del libro por categoras, por medio de las dimensiones fecha, la facultad solicitante del libro y del estudiante que solito el libro

Post-condicin de Caso de Uso: Prstamo por facultad

Se adiciona en la tabla de hecho prstamo de libro para ser actualizado

Caso de Uso: Prstamo por fecha Nombre Prstamo por fecha

Pre-condicin de Caso de Uso: Prstamo por fecha

Este proceso se realiza cada mes, trimestre, semestre y anual. El ltimo da de cada mes.

Paso de acciones del caso de uso: Prstamo por fecha

Se adiciona en la tabla de hecho prstamo de libro como puede ser actualizado por fecha.

Este caso de uso inicializa cuando el administrador de la biblioteca selecciona los libros prestados para ser analizados

Anexo A. Casos de uso en formato extendido del caso de estudio y documento visin

133

La Bodega de datos determina el total de das del prstamo del libro por categoras, por medio de las dimensiones fecha.

Post-condicin de Caso de Uso: Prstamo por fecha

Se adiciona en la tabla de hecho prstamo de libro para ser actualizado

Caso de Uso: Prstamo por fecha, No topogrfico, titulo, salas, facultad

Nombre

Prstamo por fecha, No topogrfico, titulo, salas, facultad

Pre-condicin de Caso de Uso: Prstamo por fecha, No topogrfico, titulo, salas, facultad

Este proceso se realiza cada mes, trimestre, semestre y anual. El ltimo da de cada mes.

Paso de acciones del Caso de Uso: Prstamo por fecha, No topogrfico, titulo, salas, facultad

Este caso de uso inicializa cuando el administrador de la biblioteca selecciona los libros prestados para ser analizados por todos los criterios

134

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

La Bodega de datos determina el total de das del prstamo del libro por categoras, por medio de las dimensiones fecha, No topogrfico, ttulo, sala donde se ubica el libro, y la facultad solicitante del libro y del estudiante que solito el libro

Post-condicin de Caso de Uso: Prstamo por fecha, No topogrfico, titulo, salas, facultad

Se adiciona en la tabla de hecho prstamo de libro para ser actualizado

Caso de Uso: Prstamo por No Topogrfico

Nombre

Prstamo por No Topogrfico

Pre-condicin de Caso de Uso: Prstamo por No Topogrfico

Este proceso se realiza cada mes, trimestre, semestre y anual. El ltimo da de cada mes.

Paso de acciones del caso de uso: Prstamo por No Topogrfico

Este caso de uso inicializa cuando el administrador de la biblioteca selecciona los libros prestados para ser analizados.

Anexo A. Casos de uso en formato extendido del caso de estudio y documento visin

135

La Bodega de datos determina el total de das del prstamo del libro por categoras, por medio de las dimensiones fecha, No topogrfico.

Post-condicin de Caso de Uso: Prstamo por No Topogrfico

Se adiciona en la tabla de hecho prstamo de libro para ser actualizado

Caso de Uso: Prstamos Libros

Nombre

Prstamos Libros

Pre-condicin de Caso de Uso: Prstamos Libros

Este proceso se realiza cada mes, trimestre, semestre y anual. El ltimo da de cada mes.

Paso de acciones del Caso de Uso: Prstamos Libros

Este caso de uso inicializa cuando el administrador de la biblioteca selecciona los libros prestados para ser analizados

La Bodega de datos determina el total de das del prstamo del libro por categoras.

136

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

Post-condicin de Caso de Uso: Prstamos Libros

Se adiciona en la tabla de hecho prstamo de libro para ser actualizado

Caso de Uso: Prstamos por salas

Nombre

Prstamos por salas

Pre-condicin de Caso de Uso: Prstamos por salas

Este proceso se realiza cada mes, trimestre, semestre y anual. El ltimo da de cada mes.

Paso de acciones del caso de uso: Prstamos por salas

Se adiciona en la tabla de hecho prstamo de libro para ser actualizado.

Este caso de uso inicializa cuando el administrador de la biblioteca selecciona los libros prestados para ser analizados

La Bodega de datos determina el total de das del prstamo del libro por categoras, por medio de las dimensiones fecha, sala donde se ubica el libro.

Anexo A. Casos de uso en formato extendido del caso de estudio y documento visin

137

Post-condicin de Caso de Uso: Prstamos por salas Se adiciona en la tabla de hecho prstamo de libro para ser actualizado

A2. Documento visin

Historial de Revisiones Fecha 01/02/2010 Versin 0.9 Descripcin Propuesta inicial del documento Visin con las primeras capturas de requisitos funcionales del sistema. Versin 1.0 en estado de complementacin para su aprobacin. Versin 1.0 para la aprobacin al final de la fase de inicio Versin 2.0 tras el fin de la fase de elaboracin a falta de revisin por los usuarios finales de la Biblioteca Versin 2.0 modificada en la primera iteracin de construccin. Pendiente revisin de usuarios finales de la Biblioteca. Versin modificada en la segunda iteracin de construccin. Pendiente de revisin de usuarios finales de la Biblioteca. Versin revisada para la segunda iteracin de construccin. Pendiente de validacin usuarios finales de la biblioteca. Autor Edwar Javier Herrera Osorio Edwar Javier Herrera Osorio Edwar Javier Herrera Osorio Edwar Javier Herrera Osorio Edwar Javier Herrera Osorio

02/02/2010

1.0

03/02/2010 16/03/2010

1.0 2.0

25/03/2010

2.1

25/04/2010

2.2

Edwar Javier Herrera Osorio

02/06/2010

3.0

Edwar Javier Herrera Osorio

138

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

INTRODUCCION

Propsito El propsito de ste documento es recoger, analizar y definir las necesidades de alto nivel y las caractersticas del sistema de inteligencia de negocios de la biblioteca central de la universidad Antonio Nario. El documento se centra en la funcionalidad requerida por los participantes en el proyecto y los usuarios finales. Esta funcionalidad se basa principalmente en el prstamo de libro que realiza la biblioteca central en sus diferentes salas. Los detalles de cmo el sistema cubre los requerimientos se pueden observar en la especificacin de los casos de uso. Alcance El documento Visin se ocupa, como ya se ha apuntado, del sistema de inteligencia de negocios de la biblioteca central de la universidad Antonio Nario. Dicho sistema ser desarrollado por el Ing. Edwar Javier Herrera Osorio. El sistema permitir a los encargados de la biblioteca tener la informacin y generacin de informes relativo al prstamo de libros de la biblioteca central de la universidad Antonio Nario. Referencias

Diagrama de casos de uso.

POSICIONAMIENTO

Oportunidad de negocios Este sistema permitir a la universidad llevar el control de todas sus actividades del prstamo del libro, lo cual supondr un acceso rpido y sencillo a los datos. Adems, los datos accedidos estarn actualizados cada semana, lo cual es un factor muy importante para poder llevar un control del prstamo de los libros.

Anexo A. Casos de uso en formato extendido del caso de estudio y documento visin

139

Sentencia que define el problema El problema de Realizar los informes y anlisis de informacin sobre los prstamos de libros. Sugerir libros basado en los prstamos solicitados por los usuarios. Encontrar patrones entre las diversas dimensiones del conjunto de datos de la biblioteca para sugerir prstamos de libros. afecta a Usuarios que solicitan el prstamo de la biblioteca, Coordinador de la biblioteca, Decanos de cada facultad. El impacto asociado es Almacenar toda la informacin referente al prstamo de libro en una bodega de datos y realizar los reportes por medio de tcnica OLAP y de minera de datos. Una solucin adecuada sera Realizar la bodega de datos, usando una red local con una bodega de datos accesible desde los distintos nodos de la red y generar interfaces amigables y sencillas para alimentar la bodega de datos de los sistemas transaccionales y la generacin de los reportes.

Sentencia que define la posicin del producto

140

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

Para

Usuarios que solicitan el prstamo de la biblioteca, Coordinador de la biblioteca, Decanos de cada facultad.

Quienes

Realizan los prstamos de los libros de biblioteca central.

El nombre del producto Que

Es una herramienta software. Almacena la informacin necesaria para gestionar una empresa de distribucin.

no como Nuestro producto

El sistema actual. Permite gestionar las distintas actividades de la empresa mediante una interfaz grfica sencilla y amigable. Adems proporciona un acceso rpido y actualizado a la informacin desde cualquier punto que tenga acceso a la base de datos.

DESCRIPCION DE PARTICIPANTES EN EL PROYECTO Y USUARIOS

Para proveer de una forma efectiva productos y servicios que se ajusten a las necesidades de los usuarios, es necesario identificar e involucrar a todos los participantes en el proyecto como parte del proceso de modelado de requerimientos. Tambin es necesario identificar a los usuarios del sistema y asegurarse de que el conjunto de participantes en el proyecto los representa adecuadamente. Esta seccin muestra un perfil de los participantes y de los usuarios involucrados en el proyecto, as como los problemas ms importantes que stos perciben para enfocar la solucin propuesta hacia ellos. No describe sus requisitos especficos ya que stos se capturan mediante otro artefacto. En lugar de esto proporciona la justificacin de por qu estos requisitos son necesarios. Resumen de Participantes

Anexo A. Casos de uso en formato extendido del caso de estudio y documento visin

141

Nombre Edwar Javier Herrera Osorio

Descripcin Coordinador de la Biblioteca

Responsabilidades Representa a todos los usuarios posibles del sistema. Seguimiento del desarrollo del proyecto. Aprueba requisitos y funcionalidades

Resumen de Usuarios

Nombre Usuario final de la biblioteca. Coordinador de la Biblioteca

Descripcin Solicita el prstamo de los libros.

Participante Biblioteca

Realizar el control y auditoria de en el prstamo de libros de la universidad

Biblioteca

ENTORNOS DE USUARIO

Los usuarios entrarn al sistema identificndose sobre un ordenador con un sistema operativo Windows XP o superior y tras este paso entrarn a la parte de aplicacin diseada para cada uno segn su papel en la empresa. Este sistema es similar a cualquier aplicacin Windows y por tanto los usuarios estarn familiarizados con su entorno.

Los informes y reportes sern generados en ambientes WEB.

Perfil de los Participantes

Representante del rea tcnica y sistemas de informacin

142

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

Representante Tipo Responsabilida des

Edwar Javier Herrera Osorio Experto de Sistemas. Encargado de mostrar las necesidades de cada usuario del sistema. Adems, lleva a cabo un seguimiento del desarrollo del proyecto y aprobacin de los requisitos y funcionalidades del sistema

Criterio de xito Grado de participacin Comentarios

A definir por el cliente

Revisin de requerimientos, estructura del sistema

Ninguno

Perfiles de Usuario Coordinador de la biblioteca

Representante Descripcin Tipo Responsabilida des Criterio de xito Grado de participacin Comentarios

Biblioteca Coordinador de la biblioteca. Gur. Responsable del prstamo y administracin de la biblioteca central de la UAN. A definir por el cliente

A definir por el cliente

Ninguno

Anexo A. Casos de uso en formato extendido del caso de estudio y documento visin

143

Usuarios del sistema Representante Tipo Responsabilida des Criterio de xito Grado de participacin Comentarios Ninguno. A definir por el cliente A definir por el cliente Biblioteca Usuario del sistema. Realizar los prstamos de los libros.

DESCRIPCION GLOBAL DEL PRODUCTO Perspectiva del producto El producto a desarrollar es un sistema de inteligencia de negocios para la biblioteca central de la universidad Antonio Nario.

Resumen de caractersticas A continuacin se mostrar un listado con los beneficios que obtendr el cliente a partir del producto:

Beneficio del cliente Generacin de reportes OLAP basado en la bodega de datos Sugerir libros basado en los prstamos solicitados por los usuarios.

Caractersticas que lo apoyan Aplicacin web del cubo dimensional.

Sistema siguiere los libros basado en el prstamo de libro al usuario.

Encontrar patrones entre las diversas

Encuentra los patrones de prstamos de

144

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

dimensiones del conjunto de datos de la biblioteca para sugerir prstamos de libros.

la bodega de datos.

Suposiciones y dependencias A definir por el cliente Costo y precio Costos Financieros Tiempo de Duracin: 48 Semanas Fecha Inicio: 1 de Junio de 2009 Costos Recursos Humanos Horas proyectadas Director Investigador 48 Horas 1920 Horas $ 120.000 $ 40.000 Valor Hora Fuentes Finaciacin UNAL * Estudiante Subtotal Costos Tecnolgicos Fuentes Finaciacin Computadores Estudiante Subtotal Costos Administrativos Servicios Pblicos Papelera Estudiante Estudiante $ 1.000.000 $ 200.000 $ 1.900.000 $ 1.900.000 de Costo Total $ 5.760.000 $ 76.800.000 $ 82.560.000 de Costo Total Fecha finalizacin: 17 mayo de 2010

Anexo A. Casos de uso en formato extendido del caso de estudio y documento visin

145

Subtotal Subtotal costos Proyecto Factor de administracin 25% Costo total proyecto

$ 1.200.000 $ 85.660.000 $ 21.415.000 $ 107.075.000

* Los costos ocasionados por el tiempo del director y el asesor ya estn incluidos dentro de las actividades normales que desempean los profesores dentro de la universidad.

OTROS REQUISITOS DEL PRODUCTO Estndares Aplicables Basado en la metodologa BIEP Requisitos de Sistema Se debe ejecutar en plataformas en ambientes WEB

Requisitos de Entorno Mltiples usuarios. C6.4 Requisitos de Documentacin

C6.4.1 Manual de Usuario Anexo B C6.4.2 Guas de Instalacin, Configuracin, y Archivo Lame Anexo B

Anexo B: Manual de usuario del prototipo de SW BIEP


En este anexo se presenta el manual de usuario para el uso de los perfiles implementados para la aplicacin de la metodologa BIEP. Se ha utilizado Eclipse 2010 aunque funciona desde la versin Ganymene, en un entorno de desarrollo ampliamente conocido y que permite incorporar nuevos elementos adicionales o mdulos (plug-ins) para adaptarse a dominios especficos de BIEP.

GUIA DE USO BIEP se basa del proceso unificado y este utiliza perfiles del UML.

B.1 Proceso General


Para su uso en todos los diagramas utilizados en BIEP se debe seguir el siguiente proceso general:

1. En este caso iniciamos la versin eclipse de modelamiento. Una vez inicializado, creamos un nuevo proyecto. Este proyecto tiene la siguiente estructura: src, model y meta-inf.

Figura 1. Creacin proyecto eclipse.

148

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

2. Nos ubicamos en la carpeta model y en esta ubicamos los siguiente archivos: Datacube.umlprofile, DMCLUS.umlprofile, DMSEL.umlprofile, dwcs.umlprofile,

DWEPCasoUso.umlprofile,

DWSS.umlprofile,

ETLProcess.umlprofile,

MDCl.umlprofile, MDRA.umlprofile, olapact.umlprofile, SPS_DWPS.umlprofile.

3. Creamos en la carpeta model una subcarpeta llamada Iconos y copiamos los iconos ubicados en el paquete de instalacin que viene en el CD. En la figura 2 observamos cmo debe quedar esta estructura

Figura 2. Estructura para funcionar BIEP

Anexo B. Manual de usuario del prototipo de SW BIEP y manual tcnico

149

4. Una vez creado esta estructura ya se pueden crear los 28 diagramas aplicados a BIEP.

5. Para todos los diagramas seleccionamos, hacemos un clic secundario en la carpeta model, seleccionamos New/Other como se puede ver en la figura 3.

Figura 3. Estructura para funcionar BIEP

6. Luego seleccionamos UML 2.1 Diagrams y seleccionamos el tipo diagrama que

necesitamos de acuerdo a la figura 4.

Figura 4. Diagrama de UML en Eclipse

150

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

7. En caso que se necesite seleccionar un perfil de UML el diagrama, realizamos clic

secundario sobre el rea de trabajo como se observa en la figura 5 y se selecciona el perfil deseado.

Figura 5. Aplicar un perfil a un diagrama de UML en Eclipse

8. Por ltimo a cada elemento del diagrama se le aplica el perfil deseado en la figura

6 se observa este procedimiento.


Figura 6. Aplicar estereotipo a un elemento en un diagrama de UML en Eclipse

Anexo B. Manual de usuario del prototipo de SW BIEP y manual tcnico

151

B2. Diagrama de casos de uso


BIEP inicia su proceso con el desarrollo de los casos de uso para su creacin. El proceso es el siguiente: 1. Arrancando del proceso general se selecciona Use Case Diagrams

2. Luego se procede a crear el diagrama, en la figura 8 observamos el caso de uso.

Figura 8. Diagrama de caso de uso

B3. Diagrama: SCS Y SLS


El proceso es el siguiente:

1. Arrancando del proceso general se selecciona Class Diagrams

2. Luego se procede a crear el diagrama, en la figura 9 observamos diagrama de clase.

152

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

Figura 9. SCS

B4.Diagramas: SLOS y DWOS


Estos diagramas son instancia de las clases para estos se realiza el siguiente proceso: 1. Arrancando del proceso general se selecciona ODDW Diagrams, En la figura 10 se observa la creacin de este diagrama.

Figura 10. ODDW Diagrams

2. Luego se procede a crear el diagrama, en la figura 11 observamos el DWLOS.


Figura 11. ODDW Diagrams

Anexo B. Manual de usuario del prototipo de SW BIEP y manual tcnico

153

B5. Diagramas: SPS y DWSP


El proceso es el siguiente:

1. Arrancando del proceso general se selecciona Deployment Diagrams

2. Luego se procede a crear el diagrama, en la figura 12 observamos diagrama de despliegue y aplicamos el perfil para este diagrama y aplicamos el estereotipo a cada elemento en este caso seleccionamos el perfil SPS_DWSP

Figura 12. SPS

154

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

B6. Diagramas: DWCS y DWLS


El proceso es el siguiente:

1. Arrancando del proceso general se selecciona Class Diagrams

2. Luego se procede a crear el diagrama, en la figura 13 observamos diagrama de clases y aplicamos el perfil para este diagrama y aplicamos el estereotipo a cada elemento en este caso seleccionamos el perfil DWCS

Figura 13. DWLS

B7.Diagrama DATA MAPING


El proceso es el siguiente: 1. Arrancando del proceso general se selecciona Class Diagrams

Anexo B. Manual de usuario del prototipo de SW BIEP y manual tcnico

155

2. Luego se procede a crear el diagrama, en la figura 14 observamos diagrama de clase y aplicamos el perfil para este diagrama y aplicamos el estereotipo a cada elemento en este caso seleccionamos el perfil ETLProcess
Figura 14. Data Maping

B8. Diagrama de anlisis, seleccin y transformacin de datos en el proceso de minera de datos


El proceso es el siguiente: 1. Arrancando del proceso general se selecciona Class Diagrams

2. Luego se procede a crear el diagrama, en la figura 15 observamos diagrama de clase y aplicamos el perfil para este diagrama y aplicamos el estereotipo a cada elemento en este caso seleccionamos el perfil DMSEL

Figura 15. Diagrama de seleccin de datos en el proceso de minera de datos

156

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

B9. Diagrama de agrupamiento en el proceso de minera de datos


El proceso es el siguiente: 1. Arrancando del proceso general se selecciona Class Diagrams

2. Luego se procede a crear el diagrama, en la figura 16 observamos diagrama de clase y aplicamos el perfil para este diagrama y aplicamos el estereotipo a cada elemento en este caso seleccionamos el perfil DMSCLUS

Figura 16. Diagrama de agrupamiento en el proceso de minera de datos

B10. Diagrama de reglas de asociacin en el proceso de minera de datos


El proceso es el siguiente: 1. Arrancando del proceso general se selecciona Class Diagrams

2. Luego se procede a crear el diagrama, en la figura 17 observamos diagrama de clase y aplicamos el perfil para este diagrama y aplicamos el estereotipo a cada elemento en este caso seleccionamos el perfil DMSRAS

Anexo B. Manual de usuario del prototipo de SW BIEP y manual tcnico

157

Figura 17. Diagrama de reglas de asociacin en el proceso de minera de datos

B11. Diagrama de clasificacin en el proceso de minera de datos

El proceso es el siguiente:

1. Arrancando del proceso general se selecciona Class Diagrams

2. Luego se procede a crear el diagrama, en la figura 18 observamos diagrama de clase y aplicamos el perfil para este diagrama y aplicamos el estereotipo a cada elemento en este caso seleccionamos el perfil DMCLS

158

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

Figura 18. Diagrama de clasificacin en el proceso de minera de datos

B12. Diagrama DWAS


El proceso es el siguiente: 1. Arrancando del proceso general se selecciona Activity Diagrams

2. Luego se procede a crear el diagrama, en la figura 19 observamos diagrama de actividad.


Figura 19. DWAS

Anexo B. Manual de usuario del prototipo de SW BIEP y manual tcnico

159

B13. Diagrama ETL


El proceso es el siguiente: 1. Arrancando del proceso general se selecciona Class Diagrams

2. Luego se procede a crear el diagrama, en la figura 19 observamos diagrama de clase y aplicamos el perfil para este diagrama y aplicamos el estereotipo a cada elemento en este caso seleccionamos el perfil ETLProcess

Figura 19. Diagrama ETL

160

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

B14. IMPLEMENTACION DEL PROTOTIPO DE SW BIEP


En este anexo se presenta la implementacin de los perfiles y modelos para BIEP. Se ha utilizado Eclipse que proporciona un entorno de modelado que est integrado en la herramienta Eclipse Modeling Framework (EMF) (The Eclipse Foundation 2009), y que constituye el ncleo de una herramienta de gestin de modelos. EMF es un entorno de modelado que permite la generacin de cdigo, para construir herramientas y otras aplicaciones basados en un modelo de datos estructurado. EMF es una implementacin en Eclipse de Meta-Object Facility (MOF) que es un metalenguaje o metamodelo. Actualmente existe el mdulo necesario para implementar los diagramas con UML 2.0 en Eclipse denominando UML2. UML permite ser extendido mediante perfiles para especializar el modelo genrico propio de UML. Dichas extensiones de UML se pueden implementar en Eclipse como plug-ins. Esta es la forma en que se ha implementado la herramienta para el diseo de los diversos diagramas que soportan la metodologa BIEP. Se han creado el plug-in que da soporte desde la etapa de requerimientos hasta el producto final de proceso de inteligencia de negocios. Este prototipo de software se integra dentro del marco de Eclipse como un mdulo implementado sobre los plug-ins de EMF y UML2. Los plug-in desarrollados para la metodologa BIEP denominados: MDRA, MDCL, DMSL, DMCLUS, OLAPACT,

ETLPROCESS, DWSS, DWCS, DATACUBE, SPS_DWPS y DWEPCasoUso. En la Figura 20 los perfiles definidos estn marcados en azul y sus dependencias con negro. A continuacin se describen la implementacin de cada uno de los perfile.

B15. Perfil de tcnica de minera de datos de reglas de asociacin (MDRA)


Este perfil se utiliza para realizar la tcnica de minera de datos por clasificacin sobre un modelo de anlisis, seleccin y transformacin de datos. Los elementos que incorpora el perfil denominado MDRA son: estereotipos de clase ConfigRA, ResultRA, MinigRA, MiningAttribute, Case, in y prediction. La figura 21

Anexo B. Manual de usuario del prototipo de SW BIEP y manual tcnico

161

muestra los elementos que componen el perfil para las reglas de asociacin. Los atributos de los estereotipos creados aparecen desplegados en el panel principal del editor en rbol de Eclipse. Para simplificar la vista y as poder mostrar todos los estereotipos no se han desplegado todas las propiedades de todos los estereotipos creados. Por ejemplo se pueden ver desplegados los atributos del estereotipo de clase ConfigRA: mximo de soporte, filtros entre otros. Figura 20. Perfiles UML BIEP

Figura 21. Perfil MDRA

162

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

B16. Perfil de tcnica de minera de datos de clasificacin (MDCL)


Este perfil se utiliza para realizar la tcnica de minera de datos por clasificacin sobre un modelo de anlisis, seleccin y transformacin de datos. Los elementos que incorpora el perfil denominado MDCL son: estereotipos de clase: MiningAttribute, MiningClassification, ConfigurationSetting, Case, In Prediction,

ModelClassification, Resultclassifications. La Figura 22 se observa los elementos que componen el perfil para clasificacin. Los atributos de los estereotipos creados aparecen desplegados en el panel principal del editor en rbol de Eclipse. Para simplificar la vista y as poder mostrar todos los estereotipos no se han desplegado todas las propiedades de todos los estereotipos creados. Figura 22. Estructura para funcionar BIEP

B17. Perfil de anlisis, seleccin y transformacin de datos para minera de datos (DMSEL) Este perfil se utiliza para realizar el anlisis, seleccin y transformacin de un modelo multidimensional y aplicar la tcnica de minera de datos deseada. Los elementos que incorpora el perfil denominado DMSEL son: estereotipos de clase: Histograma, Dispersion, GrafBox, Analisi_Explora entre otros. La Figura 23 se observa los elementos que componen el perfil para anlisis, seleccin y transformacin de datos para aplicar la tcnica de minera de datos. Los atributos de los estereotipos creados aparecen desplegados en el panel principal del editor en rbol de Eclipse. Para

Anexo B. Manual de usuario del prototipo de SW BIEP y manual tcnico

163

simplificar la vista y as poder mostrar todos los estereotipos no se han desplegado todas las propiedades de todos los estereotipos creados. Figura 23. Perfil DMSEL

B18. Perfil de tcnica de minera de datos de agrupamiento (DMCLUS) Este perfil se utiliza para realizar la tcnica de minera de datos por agrupamiento sobre un modelo de anlisis, seleccin y transformacin de datos. Los elementos que incorpora el perfil denominado DMCLUS son: estereotipos de clase: Clustering, Attribute, in, case entre otros. La Figura 24 se observa los elementos que componen el perfil para realizar agrupamiento. Los atributos de los estereotipos creados aparecen desplegados en el panel principal del editor en rbol de Eclipse. Para simplificar la vista y as poder mostrar todos los estereotipos no se han desplegado todas las propiedades de todos los estereotipos creados.

164

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

Figura 24. Perfil DMCLUS

B19. Perfil para tcnica OLAP (OLAPACT) Este perfil se utiliza para realizar la tcnica de minera de datos por agrupamiento sobre un modelo de anlisis, seleccin y transformacin de datos. Los elementos que incorpora el perfil denominado OLAPACT son las operaciones bsicas que se realizan sobre el cubo OLAP: slice by, roll up, entre otros. La Figura 25 se observa los elementos que componen el perfil para realizar la tcnica OLAP. Los atributos de los estereotipos creados aparecen desplegados en el panel principal del editor en rbol de Eclipse. Para simplificar la vista y as poder mostrar todos los estereotipos no se han desplegado todas las propiedades de todos los estereotipos creados. Figura 25. Perfil OLAP

Anexo B. Manual de usuario del prototipo de SW BIEP y manual tcnico

165

B20. Perfil proceso ETL (ETLPROCESS) Este perfil se utiliza para realizar el proceso de extraccin, transformacin y carga de la bodega de datos. Los elementos que incorpora el perfil denominado ETLPROCESS son: dim, fact, filter, log, join entre otros. La Figura 26 se observa los elementos que componen el perfil para realizar el proceso ETL. Los atributos de los estereotipos creados aparecen desplegados en el panel principal del editor en rbol de Eclipse. Para simplificar la vista y as poder mostrar todos los estereotipos no se han desplegado todas las propiedades de todos los estereotipos creados. Figura 26. Perfil ETLProcess

B21. Perfil secuencia en la bodega de datos (DWSS) Este perfil se utiliza para realizar el proceso de secuencia de la bodega de datos. Los elementos que incorpora el perfil denominado DWSS son: tableDS, FileDS, TableDW, entre otros. La Figura 27 se observa los elementos que componen el perfil para realizar la secuencia en la bodega de datos. Los atributos de los estereotipos

166

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

creados aparecen desplegados en el panel principal del editor en rbol de Eclipse. Para simplificar la vista y as poder mostrar todos los estereotipos no se han desplegado todas las propiedades de todos los estereotipos creados. Figura 27. Perfil DWSS

B22. Perfil modelo conceptual y lgico de la bodega de datos (DWCS) Este perfil se utiliza para realizar el diseo conceptual y lgico de la bodega de datos. Los elementos que incorpora el perfil denominado DWCS son: paqueteEstrella, paqueteFact, dimentions, entre otros. La Figura 28 se observa los elementos que componen el perfil para realizar el modelo conceptual y lgico. Los atributos de los estereotipos creados aparecen desplegados en el panel principal del editor en rbol de Eclipse. Para simplificar la vista y as poder mostrar todos los estereotipos no se han desplegado todas las propiedades de todos los estereotipos creados. Figura 28. Perfil DWCS

Anexo B. Manual de usuario del prototipo de SW BIEP y manual tcnico

167

B23. Perfil diseo del cubo dimensional (DATACUBE) Este perfil se utiliza para realizar el diseo conceptual del cubo dimensional. Los elementos que incorpora el perfil denominado DataCube son: Cell, Axis, CellMember, entre otros. La Figura 29 se observa los elementos que componen el perfil para realizar el cubo dimensional. Los atributos de los estereotipos creados aparecen desplegados en el panel principal del editor en rbol de Eclipse. Para simplificar la vista y as poder mostrar todos los estereotipos no se han desplegado todas las propiedades de todos los estereotipos creados. Figura 29. Perfil DataCube

B24. Perfil diseo fsico de la bodega de datos (SPS_DWPS) Este perfil se utiliza para realizar el diseo fsico de la fuente de datos y de la bodega de datos. Los elementos que incorpora el perfil denominado SPS_DWPS son: Server, Client, disk, entre otros. La Figura 30 se observa los elementos que componen el perfil para realizar el diseo fsico. Los atributos de los estereotipos creados aparecen desplegados en el panel principal del editor en rbol de Eclipse. Para simplificar la vista y as poder mostrar todos los estereotipos no se han desplegado todas las propiedades de todos los estereotipos creados.

168

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

Figura 30. Perfil SPS_DWSP

B25. Perfil diseo de los casos de uso (DWEPCASEUSE) Este perfil se utiliza para realizar los requerimientos en la bodega de datos. Los elementos que incorpora el perfil denominado DWEPCASEUSE son:

UsuariosFinales y AdministradoresDW. La Figura 31 se observa los elementos que componen el perfil para realizar el diseo de los casos de uso. Los atributos de los estereotipos creados aparecen desplegados en el panel principal del editor en rbol de Eclipse. Para simplificar la vista y as poder mostrar todos los estereotipos no se han desplegado todas las propiedades de todos los estereotipos creados. Figura 31. Perfil DWEPCASEUSE

Bibliografa
[1] ABELLO, Alberto, SAMOS, Jos, SALTOR, Flix. YAM2 (Yet Another Multidimensiona Model): An extension of UML. In International database Engineering applications Symposium (IDEAS02), pages 172-181, Edmoton Canada, July 17-19 2002. IEEE Computer Society. {En lnea}, {8 de marzo de 2009} disponible en: (http://portal.acm.org/citation.cfm?id=687216). ABRIL, Diego y PEREZ, Jos Estado actual de las tecnologas data warehousing y OLAP aplicadas a bases de datos espaciales, 2006. {En lnea}, {8 de marzo de 2009} disponible en: (dialnet.unirioja.es/servlet/articulo?codigo=2299390). AMBLER, Scott, The Elements of UML 2.0 Style, Cambridge University. 2005. ISBN 978-0-521-61678-2 BATINI, Carlo, CERI, Stefano, Diseo conceptual de bases de datos, Addison Wesley, / Daz de Santos, 1991. ISBN 0-201-60120-6 BLASCHKA, Markus, SAPIA, Carsten, HOFLING, Gabriele y DINTER, Barbara. Extending the E/R Model for the Multidimensional Paradigm. In Proceeding of the 1ST International Workshop on Data Warehouse and Data Mining (DWDM98), volumen 1552 of Lecture Notes in computer Science, pages 105-116, Singapore, November 19- 20 199. Springer- Velang. BOOCH, Grady, RUMBAUGH, Jim, JACOBSON, Ivar, UML, El lenguaje unificado de modelado. {En lnea}, {8 de marzo de 2009} disponible en: (http://www.itescam.edu.mx/principal/sylabus/ fpdb/recursos/r25380.PDF). BUSBORG, Frank, TRYFONA, Nectaria y BORCH, Jens, star ER: A Conceptual Model for Data Warehouse Desing. In proceedings of the ACM 2nd international Workshop on Data Warehousing and OLAP (DOLAP`99), pages 3-8, Kansas City, USA, November 6 1999. ACM. . {En lnea}, {8 de marzo de 2009} disponible en: (http:// citeseerx.ist.psu.edu/viewdoc/ download?doi=10.1.1.33.1033).

[2]

[3]

[4]

[5]

[6]

[7]

170

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

[8]

CABIBBO, Luca y TORLONE, Riccardo, "A Logical Approach to Multidimensional Databases", EDBT, 1998. Lecture Notes in Computer Science, 1998, Volume 1377/1998, 183. CODD, Edgar et al. Providing OLAP to user-analysts: An IT mandate. E.F. Codd and Associates, 1993. . {En lnea}, {8 de marzo de 2009} disponible en: (http://www.minet.uni-jena.de/dbis/lehre/ss2005/sem_dwh/lit/Cod93.pdf).

[9]

[10] Custer consortiwn, 41% HAVE EXPERIENCED DATA WAREHOUSE PROJECT FAILURES. {En lnea}, {8 de marzo de 2009} disponible en: (http://www.cutter.com/research/2003/edge030218.html.) [11] CHAPMAN, Pete, CLINTON, Julian, KERBEL, Randy, KHABAZA, Thomas REINARTZ, Thomas, SHEARER, Colin Shearer y WIRTH, Rdiger, CRISP-DM 1.0: Step-by-step data mining guide, SPSS Inc (2000). {En lnea}, {8 de marzo de 2009} disponible en: (http://www.crisp-dm.org/CRISPWP-0800.pdf.). [12] Data Warehousing Institute. {En lnea}, {8 de marzo de 2009} disponible en: (http://www.tdwi.org/. 2002). [13] DRESNER, Howard. Gartner Group, Howard Dresner Biography. {En lnea}, {8 de marzo de 2009} disponible en: (http://www.gartner.com/ research/fellows/asset_79427_1175.jsp). [14] Eclipse org, GMF Tutorial. {En lnea}, {8 de marzo de 2010} disponible en: (http://wiki.eclipse.org/index.php/GMF_Tutorial). [15] Eclipse org, version Galileo, 2010. {En lnea}, {10 Octubre de 2009} disponible en: (www.eclipse.org/galileo/). [16] FAYYAD, Usama, PIATESTSKY-SHAPIRO, Gregory, y SMYTH Padhraic, From Data Mining to Knowledge Discovery in Databases, American Association for Artificial Intelligence pag 37 -54. 1996. [17] FUENTES, Lidia, TROYA, Jos M y VALLECILLO, Antonio. Using UML Profiles for Documenting Web-Based Application Frameworks. Annals of Software Engineering, 13: page: 249264, 2002. {En lnea}, {10 junio de 2009} disponible en: (http://www.springerlink.com/content/g21491265h293485/fulltext.pdf).

Bibliografa

171

[18] FUENTES, Lidia, VALLECILLO, Antonio. Una Introduccin a los Perfiles UML. {En lnea}, {8 de marzo de 2009} disponible en: (http://www.lcc.uma.es/~av/Publicaciones/04/ UMLProfiles-Novatica04.pdf). [19] GYSSENS, Marc, LAKSHMANAN, Laks. A foundation for multidimensional databases, In Proc. Of the 22nd VLDB Conference, Mumbai (Bombay), India, 1996. {En lnea}, {8 de marzo de 2009} disponible en: (http:// citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.103.1383). [20] HUSEMANN, Bodo, LECHTENBORGER, Jens, y VOSSEN, Gottfried. Conceptual Data Warehouse Desing, Proceeding of the International Workshop on Design and Management of Data Warehouses (DMDW2000), StockHolm, Sweden. {En lnea}, {8 de marzo de 2009} disponible en: (http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.33.670). [21] INMON, William Harvey, Building the data warehouse. Wiley, quinta edicin, 2005., paginas 576. ISBN: 978-0-7645-9944-6 [22] JACOBSON, Ivan; BOOCH, Grady; RUMBAUGH, James. El proceso unificado de desarrollo de software., Addison Wesley. Madrid, ES. 2000. 438 p. [23] KIMBALL, Ralf y ROSS, Margy. Kimball and M. Ross, The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling. Wiley, 2002. ISBN: 978-0471-20024-6 [24] LUJAN, Sergio Data WareHouse Desig with UML, Tesis Doctoral., Universidad de Alicante, 2005.Departamento de software y sistemas computacionales. [25] MADSEN, Mark, A 50% Data Warehouse Failure Rate is Nothing New. {En lnea}, {5 de marzo de 2010} disponible en: (http://it.toolbox.com/blogs/boundedrationality/a-50-data-warehouse-failure-rate-is-nothing-new-4669.). [26] MCDONOUGH, Brian y VESSET, Dan World wide Business Intelligence Tools 2007 Vendor Shares, . {En lnea}, {8 de marzo de 2009} disponible en: (http://download.microsoft.com/download/0/5/1/051389A2-FB6E-4AF0-B8441FDAE6060514/WW-BI-Tools-2005-vendor-Shares.pdf). [27] MORALES, Eduardo, Descubrimiento de Conocimiento en Bases de Datos. {En lnea}, {9 de junio de 2008} disponible en: (http://dns1.mor.itesm.mx/ ~emorales/Cursos/KDD03/principal.html).

172

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

[28] MOSS, Larissa y ATRE Shaku, Business Intelligence Roadmap: The Complete Project Lifecycle for Decision-Support Applications, editorial: Addison Wesley, 2003, pag 556, ISBN : 0-201-78420-3 [29] Object Management Group (OMG). Common Warehouse Metamodel (CWM) Specification vertions 1.1. {En lnea}, {5 de marzo de 2010} disponible en: (http://www.cwm.org). [30] Object Management Group (OMG). Unifie Modeling Language (UML), version 2.3, , {En lnea}, {8 de junio de 2010} disponible en: (http://www.uml.org/) [31] Object Management Group. Meta Object Facility (MOF) Specification. OMG document: formal/2002-04-03. 2003. {En lnea}, {5 mayo de 2008} disponible en: (http://www.omg.org/spec/MOF/1.4/PDF). [32] Object Management Group (OMG), XML Metadata Interchange (XMI), {En lnea}, {5 de mayo de 2008} disponible en: (http://www.omg.org/cgibin/doc?ad/99-10-02). [33] PARDILLO, Jess, GOLFARELLI, Matteo, RIZZI, Stefano y TRUJILLO, Juan, Visual Modelling of data warehosing flows with UML Profile, Data Warehousing and knowledge Discovery, Austria, August /September 2009. {En lnea}, {8 de marzo de 2010} disponible en: (http://wwwdb.deis.unibo.it/~srizzi/PDF/dawak09.pdf). [34] PENDSE, Nigel, The dramatic consolidation in 2007 makes market shares much harder to calculate. {En lnea}, {8 de marzo de 2009} disponible en: (http://www.olapreport.com/market.htm). [35] POOLE, Larry, 8 Reasons Why Business Intelligence Initiatives Fail!, XyberNet, Inc. . {En lnea}, {20 de marzo de 2008} disponible en: (www.xyber.net/8Reasons.doc.) [36] ROB, Peter y CORONEL, Carlos, Database Systems: Design, Implementation and Management, Cengage Learning EMEA, 2008. Quinta edicin, ISBN: 0-16906269-x

Bibliografa

173

[37]

SAS Enterprise Miner, {En lnea}, {5 mayo de 2008} disponible en: (http://www.sas.com/offices/europe/uk/technologies/analytics/datamining/miner/se mma.html).

[38] SILBERSCHATZ, Abraham, KORTH, Henry y SUDARSHAN, S.. Fundamentos de bases de datos. Cuarta edicin. Mc Graw Hill, 2002.ISBN: 8448136543. [39] SHEARER, Colin The CRISP-DM Model: The New Blueprint for DataMining, JOURNAL of Data Warehousing, Volume 5, Number 4, p. 13-22, 2000. , {En lnea}, {8 de marzo de 2009} disponible en: (http://www.crisp-dm.org/News/86605.pdf). [40] STEEL,T.B.,Jr. : ANSI/X3/SPARC Study Group on Data Base Management Systems Interim Report; ACM SIGMOD FDT, Vol. 7, No. 2, 1975. [41] STEFANOV, Veronika, LIST Beate y KORHERR List, Extending UML 2 Activity Diagrams withc Business Intelligence Objects. {En lnea}, {5 mayo de 2008} disponible en: (www.wit.at/people/korherr/publications/dawak2005.pdf). [42] STEINBERG, Dave, BUDINSKY, Frank, PATERNOSTRO, Marcelo y MERKS, Eclipse Modeling Framework, Pearson, USA, 2009, ISBN 0-321-33188-5. [43] TAN, Pang-Ning, STEINBACH, Michael y KUMAR, Vipin, Introduction to data miming, editorial Addison Wesley, 2006, ISBN: 0-321-32136-7 [44] TRUJILLO, Juan y LUJAN, Sergio A Data Warehouse Engineering Process D. of Software and Computing Systems, University of Alicante . {En lnea}, {8 de marzo de 2009} disponible en: (http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.33.670). TRUJILLO, Juan. The GOLD model: An Object Oriented multidimensional data model for multidimensional database, Symposium on Applied Computing Proceedings of the 2000 ACM, symposium on Applied computing- Volume 1, Italy, pages 346-350, 2000. ACM.

[45]

[46] VISUAL PARADIGMA FOR UML 81. Extend and customize UML with UML profile. {En lnea}, {8 de marzo de 2011} disponible en: (http://www.visualparadigm.com/product/vpuml/tutorials/umlprofile.jsp).

174

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

[47] ZUBCOFF, Jos. Un conjunto de perfiles de UML para el Modelado conceptual de tcnicas de minera de datos sobre almacenes de datos, 2009, pginas: 226. Universidad de Alicante. Departamento de Lenguajes y Sistemas Informticos.

También podría gustarte