Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Universidad Nacional de Colombia Facultad de ingeniera, Departamento de ingeniera de sistemas e industrial Bogot, Colombia 2011
Tesis o trabajo de investigacin presentada(o) como requisito parcial para optar al ttulo de: Magster en Ingeniera de sistemas y Computacin
Lnea de Investigacin: Sistemas de informacin Grupo de Investigacin: MIDAS: Grupo de Investigacin en Minera de Datos
Universidad Nacional de Colombia Facultad de ingeniera, Departamento de ingeniera de sistemas e industrial Bogot, Colombia Ao
Agradecimientos a Dios, a mi esposa y a mi familia en especial a mi madre y hermano. Tambin a la Universidad Nacional de Colombia y a la Universidad Antonio Nario por su apoyo para el desarrollo y exposicin de esta metodologa a nivel nacional e internacional. A la profesora Elizabeth Len por su dedicacin y motivacin permanente para desarrollo de esta tesis.
Resumen y Abstract
VII
Resumen
Todo sistema de inteligencia de negocios se compone por dos procesos [13], la integracin (bodega de datos) y el anlisis de los datos (OLAP o tcnicas de minera de datos).
En la integracin de datos se desarrolla el modelo conceptual, lgico y fsico de la bodega de datos. Estos se logran siguiendo varias metodologas [1, 5, 7, 44 y 45]. Una de estas es el proceso de ingeniera para la bodega de datos [24] (en ingls: Data Warehouse Engineering Process DWEP), la cual se basa en el proceso unificado de desarrollo de software, su objetivo es acometer el diseo de todas las fases y aspectos relevantes de la bodega de datos, incluyendo el anlisis de las fuentes de datos, los procesos ETL y sus propios esquemas.
Dado que la bodega de datos es un repositorio de datos histricos libre de errores, la idea es realizar su anlisis. Esto permite proponer una metodologa para el desarrollo de los sistemas de inteligencia de negocios denominada BIEP (en ingles Business Intelligence Engineering Process).
Como parte del proceso de control y verificacin de los resultados, se desarroll un prototipo de software CASE basado en la metodologa BIEP. Su entorno de desarrollo fue Eclipse Galileo 2010 por medio de perfiles UML y de sus paquetes de modelamiento: Eclipse Modeling Framework (EMF) y Graphical Modeling Framework (GMF), que permite disear de manera integrada la bodega y el anlisis de datos.
Para la validacin de la metodologa se llev a cabo un caso de estudio en el prstamo de libros de la biblioteca central de la universidad Antonio Nario.
Palabras clave: Proceso unificado, Bodega de datos, Minera de datos, inteligencia de negocios, Proceso de ingeniera en inteligencia de negocios, perfiles UML.
VIII
Abstract
A business intelligence system is composed of two process [13], integration (data warehouse) and analysis of data (OLAP or data mining technique (DM)).
In the data integration model is developed conceptual, logical and physical data warehouse. These are achieved by following various methodologies [1, 5, 7, 44 and 45]. One of these is data warehouse engineering process (DWEP) [24], which is based on the unified process for software development, its objective is to undertake the design of all phases and relevant aspects of the data warehouse, including analysis of the data sources, ETL processes and their own schemes.
Since the data warehouse is a repository of historical data free of errors, the idea is to perform analysis. This allows us to propose a methodology development of business intelligence process engineering (BIEP).
As part of process control and verification of the results, we developed a software prototype based on the methodology BIEP. This development environment was Eclipse Galileo 2010 through UML profiles and their modeling packages: Eclipse Modeling Framework (EMF) and Graphical Modeling Framework (GMF), which allows an integrated design the winery and the data analysis. In addition, implement the profile data warehouse conceptual scheme (DWCS) in the software "Visual Paradigm for UML 8.1 Enterprise Edition", validating that this can be used on tools that support MOF.
To validate the methodology, development a case study in the loan books of the central library of the University Antonio Nario.
Keywords: unified process (UP), data warehouse (DW), data mining (DM), business intelligence (BI), Data Warehouse Engineering Process (DWEP), Business Intelligence Engineering Process (BIEP), UML profile.
Contenido
IX
Contenido
Pg. Resumen ........................................................................................................................ VII Lista de figuras .............................................................................................................. XII Lista de tablas .............................................................................................................. XV Introduccin .................................................................................................................... 1 1. Captulo 1 (Estado del Arte) ..................................................................................... 7 1.1 Proceso de Inteligencia de Negocios ............................................................... 7 1.1.1 Integracin de fuentes de datos. ........................................................... 9 1.1.2 Anlisis de datos. ................................................................................ 11 1.1.3 Problemas en el proceso de inteligencia de negocios ......................... 14 1.2 Lenguaje de Modelado Unificado U.M.L. ....................................................... 16 1.3 Metodologas para el modelamiento de bodegas de datos basada en el proceso unificado. .................................................................................................... 17 1.3.1 Fases de la metodologa DWEP y UP. ................................................ 19 1.3.2 Flujos de trabajo aplicados al proceso DWEP ..................................... 20 1.3.3 Impacto del DWEP. ............................................................................. 22 1.4 Metodologas para el proceso de anlisis de datos. ....................................... 23 1.4.1 Metodologa aplicada a OLAP ............................................................. 23 1.4.2 Metodologa para la aplicacin en Minera de Datos ........................... 24 1.5 Minera de datos sobre DW basada en UML ................................................. 25 1.5.1 Reglas de Asociacin .......................................................................... 26 1.5.2 Clasificacin ........................................................................................ 27 1.5.3 Agrupamiento ...................................................................................... 28 1.5.4 Anlisis de Tiempo .............................................................................. 29 1.6 2.6 RESUMEN DEL CAPITULO .................................................................... 30
2. Captulo 2 (Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP))............................................................................................................ 31 2.1 Elementos de una metodologa de inteligencia negocios. .............................. 32 2.2 Desarrollo de la metodologa ......................................................................... 33 2.2.1 Fases y flujos de trabajo de BIEP........................................................ 34 2.2.2 Modelos de BIEP ................................................................................ 35 2.2.3 Diagramas de BIEP ............................................................................. 37 2.2.4 Perfiles de UML aplicados a la metodologa BIEP ............................... 38 2.2.5 Pasos para aplicar BIEP ..................................................................... 38 2.3 Perfiles de UML aplicados a BIEP ................................................................. 40
Ttulo de la tesis o trabajo de investigacin 2.3.1 Perfil UML para la bodega de datos .....................................................40 2.3.2 Perfil UML para el proceso ETL ...........................................................42 2.3.3 Perfil UML despliegue ..........................................................................43 2.3.4 Perfil UML para el proceso de anlisis, seleccin y transformacin de datos. 44 2.3.5 Perfil UML de reglas de asociacin ......................................................45 2.3.6 Perfil UML de Clasificacin ..................................................................46 2.3.7 Perfil UML para Agrupamiento .............................................................48 2.3.8 Perfil UML de Serie de Tiempo ............................................................49 2.3.9 Perfil UML de Caso de uso ..................................................................50 2.3.10 Perfil UML Cubo Dimensional ..............................................................50 2.4 Flujos de trabajo de BIEP ...............................................................................51 2.4.1 Requerimientos....................................................................................53 2.4.2 Anlisis ................................................................................................55 2.4.3 Diseo .................................................................................................60 2.4.4 Implementacin ...................................................................................65 2.4.5 Preparacin, Modelado y evaluacin ...................................................71 2.4.6 Despliegue...........................................................................................79 2.4.7 Pruebas ...............................................................................................81 2.4.8 Mantenimiento .....................................................................................82 2.4.9 Revisin post-desarrollo ......................................................................82 2.5 VENTAJAS DE BIEP ......................................................................................83 2.6 RESUMEN DEL CAPITULO ...........................................................................83
3.
Captulo 3 (APLICACIN Y VALIDACIN DE LA METODOLOGA BIEP) .........85 3.1 Prototipo de Software CASE BIEP .................................................................85 3.1.1 Implementacin de los Perfiles ............................................................86 3.1.2 Generacin del Modelo de Objetos ......................................................88 3.1.3 Elementos bsicos para aplicar diagramas de BIEP ............................89 3.2 Caso de estudio: Biblioteca central de la universidad Antonio Nario U.A.N. 89 3.2.1 Descripcin de la Universidad Antonio Nario y de la Biblioteca ..........89 3.2.2 Flujos de trabajo ..................................................................................90 3.2.2.1 Requerimiento ...............................................................................................90 3.2.2.2 Anlisis .........................................................................................................92 3.2.2.3 Diseo...........................................................................................................95 3.2.2.4 Implementacin .............................................................................................99 3.2.2.5 Preparacin, modelado, evaluacin y despliegue........................................102 3.2.2.5.1 Modelo OLAP ...........................................................................................103 3.2.2.5.2 Preparacin de los datos para el proceso de minera de datos ................105 3.2.2.5.3 Regla de Asociacin.................................................................................106 3.2.1.5.4 Clasificacin .............................................................................................109 4.2.2.5.3 Agrupamiento ...........................................................................................114 3.2.1.6 Pruebas ......................................................................................................118 3.2.1.7 Mantenimiento ............................................................................................120 3.3 Implementacin de BIEP en otras herramientas UML ..................................120 3.4 Resumen Captulo ........................................................................................122 Conclusiones y recomendaciones ......................................................................125 4.1 Conclusiones ................................................................................................125 4.2 Recomendaciones........................................................................................126
4.
Contenido
XI
Anexo A: Casos de uso en formato extendido del caso de estudio ........................ 129 A1. Casos de Uso .................................................................................................. 129 A2. Documento visin ............................................................................................ 137 Anexo B: Manual de usuario del prototipo de SW BIEP ........................................... 147 B.1 Proceso General .............................................................................................. 147 B2. Diagrama de casos de uso............................................................................... 151 B3. Diagrama: SCS Y SLS ..................................................................................... 151 B4.Diagramas: SLOS y DWOS .............................................................................. 152 B5. Diagramas: SPS y DWSP ................................................................................ 153 B6. Diagramas: DWCS y DWLS ............................................................................. 154 B7.Diagrama DATA MAPING ................................................................................. 154 B8. Diagrama de anlisis, seleccin y transformacin de datos en el proceso de minera de datos .................................................................................................... 155 B9. Diagrama de agrupamiento en el proceso de minera de datos ....................... 156 B10. Diagrama de reglas de asociacin en el proceso de minera de datos ........... 156 B11. Diagrama de clasificacin en el proceso de minera de datos ........................ 157 B12. Diagrama DWAS ............................................................................................ 158 B13. Diagrama ETL ................................................................................................ 159 B14. IMPLEMENTACION DEL PROTOTIPO DE SW BIEP .................................... 160 B15. Perfil de tcnica de minera de datos de reglas de asociacin (MDRA).......... 160 B16. Perfil de tcnica de minera de datos de clasificacin (MDCL) ....................... 162 B17. Perfil de anlisis, seleccin y transformacin de datos para minera de datos (DMSEL) ................................................................................................................ 162 B18. Perfil de tcnica de minera de datos de agrupamiento (DMCLUS) ................ 163 B19. Perfil para tcnica OLAP (OLAPACT) ............................................................ 164 B20. Perfil proceso ETL (ETLPROCESS) .............................................................. 165 B21. Perfil secuencia en la bodega de datos (DWSS) ............................................ 165 B22. Perfil modelo conceptual y lgico de la bodega de datos (DWCS) ................. 166 B23. Perfil diseo del cubo dimensional (DATACUBE) .......................................... 167 B24. Perfil diseo fsico de la bodega de datos (SPS_DWPS) ............................... 167 B25. Perfil diseo de los casos de uso (DWEPCASEUSE) .................................... 168 Bibliografa .................................................................................................................. 169
Contenido
XII
Lista de figuras
Figura 1-1: Figura 1-2: Figura 1-3: Figura 1-4: Figura 1-5: Figura 1-6: Figura 1-7: Figura 1-8: Figura 1-9: Figura 1-10: Figura 1-11: Figura 1-12: Figura 1-13: Figura 2-1: Pg. Crecimiento e inversiones en herramientas de BI..................................... 8 Proceso de inteligencia de Negocios ........................................................ 9 Proceso de inteligencia de Negocios ...................................................... 13 Proceso descubrimiento de conocimiento en BD ................................... 14 Diagrama de UML 2.3 ............................................................................ 17 (a) Proceso Unificado y (b) DWEP ........................................................ 18 Sistema OLAP........................................................................................ 23 Metodologa para minera de datos a) CRISP-DM b)SEMMA ................ 25 Modelos CWM para el proceso de Minera de Datos. ............................. 26 Modelos CWM para reglas de asociacin.............................................. 27 Metamodelo CWM para reglas de Clasificacin .................................... 28 Metamodelo CWM para Agrupamiento.................................................. 28 Perfil UML serie de tiempo ..................................................................... 29 Elementos para el desarrollo de un sistema de inteligencia de
negocios. ....................................................................................................... 32 Figura 2-2: Figura 2-3: Figura 2-4: Figura 2-5: Figura 2-6: Figura 2-7: Figura 2-8: Figura 2-9: Figura 2-10: Figura 2-11: Figura 2-12: Figura 2-13: Fases y flujos de trabajo de la metodologa propuesta (BIEP) ............... 34 Modelos (BIEP) ...................................................................................... 37 Diagrama de actividades con los principales pasos de BIEP .................. 39 Perfil UML DW ....................................................................................... 41 Perfil UML ETL ....................................................................................... 42 Perfil UML despliegue ........................................................................... 43 Perfil UML proceso de anlisis, seleccin y transformacin de datos. ... 45 Perfil UML Regla de Asociacin ............................................................ 46 Perfil UML Clasificacin......................................................................... 47 Perfil UML agrupamiento ....................................................................... 48 Perfil UML anlisis de serie temporales.................................................. 49 Perfil UML caso de usos........................................................................ 50
Contenido Figura 2-14: Figura 2-15: Figura 2-16: Figura 2-17: Figura 2-18: Figura 2-19: Figura 2-20: Figura 2-21: Figura 2-22:
XIII Perfil UML cubo dimensional ................................................................. 51 Diagramas de casos de Uso DWEP ...................................................... 55 Diagramas Esquema conceptual de fuente............................................ 56 Esquema conceptual de objetos en origen de datos .............................. 57 Esquema Lgico de fuente de datos ...................................................... 58 Esquema Lgico de comunicacin de la fuente de datos...................... 59 Esquema fsico de las fuentes de datos................................................. 60 Niveles del esquema conceptual de la bodega de datos ....................... 61 Esquema de mapeo nivel 3 ................................................................... 63
Figura 2-23. Esquema de estados de mquina en la bodega de datos ......................... 64 Figura 2-24: Figura 2-25: Figura 2-26: Figura 2-27: Figura 2-28: Figura 2-29: Figura 2-30: Figura 2-31: Figura 2-32: Figura 2-33: Esquema de actividades de la bodega de datos .................................... 65 Esquema lgico de la bodega de datos ................................................. 66 Esquema lgico de objeto de la bodega de datos .................................. 66 Esquema fsico de la bodega de datos .................................................. 67 Proceso ETL .......................................................................................... 68 Esquema de secuencia de la bodega de datos ...................................... 69 Diagrama de transporte de integracin .................................................. 70 Diagrama de transporte de optimizado .................................................. 70 Diagrama del Cubo OLAP ..................................................................... 71 Esquema de paquetes de anlisis, seleccin y transformacin............. 72
Figura 2-34. Esquema de minera de datos con reglas de asociacin ........................... 75 Figura 2-35: Figura 2-36: Figura 2-37: Figura 2-38: Figura 3-1: Figura 3-2: Figura 3-3: Figura 3-4: Figura 3-5: Figura 3-6: Figura 3-7: Esquema de minera de datos con clasificacin .................................... 76 Esquema de minera de datos por agrupamiento .................................. 78 Esquema de minera de datos por series de tiempo .............................. 79 Esquema fsico del cliente ..................................................................... 81 Modelo de objetos ................................................................................. 88 Modelo de Casos de Uso del prstamo de la biblioteca ............................ 92 SCS del prstamo de la biblioteca............................................................. 93 SCOS del prstamo de la biblioteca .......................................................... 93 SLS del prstamo de la biblioteca ............................................................. 94 Esquema fsico del servidor para el prstamo de la biblioteca .................. 94 Esquema conceptual de la bodega de datos del prstamo de la biblioteca 95 Diagrama de Mapeo del prstamo de la biblioteca ............................. 96
lustracin 3-8:
Ttulo de la tesis o trabajo de investigacin Esquema de secuencia de la bodega de datos para el prstamo de la
biblioteca....98 Figura 3-10: Figura 3-11: Figura 3-12: Figura 3-13: Figura 3-14: Figura 3-15: Figura 3-16: DWSMS del prstamo de la biblioteca ................................................... 98 DWAS del prstamo de la biblioteca ...................................................... 99 Esquema lgico de la DW para el prstamo de libro ............................ 100 DWLOS del prstamo de la biblioteca .................................................. 101 Esquema fsico de la bodega de datos. ................................................ 101 Proceso ETL ........................................................................................ 102 Servicio de integracin de SQL SERVER 2005 aplicado a la
biblioteca ..................................................................................................... 103 Figura 3-17: Figura 3-18: Figura 3-19: Servicio de anlisis de SQL SERVER 2005 aplicado a la biblioteca. .... 103 Indicadores claves de gestin dados al proceso de prstamo de libros 104 Diseo de los reportes basada en cada KPI al proceso de prstamo de
libros..104 Figura 3-20: libros Figura 3-21: Despliegue Reportes basada en cada KPI al proceso de prstamo de 105 Esquema de paquetes de anlisis, seleccin y transformacin aplicados
al proceso de prstamo de libros. ................................................................................. 106 Figura 3-22: Figura 3-23: Figura 3-24: Figura 3-25: Figura 3-26: Figura 3-27: DMRA del prstamo de la biblioteca .................................................... 107 DMCLS del prstamo de la biblioteca................................................... 110 DMCLU del prstamo de la biblioteca .................................................. 114 Grfico de codo .................................................................................... 115 Perfil UML para bodega de datos en Visual Paradigm ....................... 121 Diagrama DWCS del caso de estudio de la biblioteca en Visual
Contenido
XV
Lista de tablas
Pg. Tabla 1-1: Modelos Multidimensionales. ......................................................................... 11 Tabla 1-2: Tabla 2-1: Tabla 2-2: Diagramas empleados en DWEP ............................................................. 20 Diagramas empleados en BIEP ............................................................... 52 Estereotipos proceso ETL ......................................................................... 68
Tabla 2-3: Estereotipos de atributos para el anlisis, seleccin transformacin de datos 73 Tabla 2-4: Tabla 2-5: Tabla 2-6: Tabla 2-7: Tabla 3-1: Tabla 3-2: Tabla 3-3: Tabla 3-4: Tabla 3-5: Tabla 3-6: Tabla 3-7: Tabla 3-8: Tabla 3-9: Estereotipos de atributos reglas de asociacin.......................................... 74 Estereotipos de atributos clasificacin ...................................................... 76 Estereotipos de atributos por agrupamiento .............................................. 77 Formato de pruebas BIEP ......................................................................... 82 Matriz de confucin ..................................................................................110 Matriz de confusin por las salas Generales ............................................111 Matriz de confusin por las salas Especializadas .....................................111 Matriz de confusin por das de prstamo con rboles. ............................112 Matriz de confusin Naive Bayes sala general y especializada. ...............112 Matriz de confusin Naive Bayes por sala general ...................................112 Matriz de confusin Naive Bayes por sala especializada .........................113 Matriz de confusin Naive Bayes por das prestados ...............................113 Agrupamiento por medio del algoritmo K medoids ...................................115
Tabla 3-10: Cluster por medio de asociacin de atributos ...........................................118 Tabla 3-11: asos de pruebas biblioteca central uan .................................................119
Introduccin
Un sistema de inteligencia de negocios se compone por dos elementos [28], la integracin y el anlisis de los datos. El anlisis se puede dar por dos procedimientos diferentes, el primero, conformados por medio de consultas simples y reportes, caracterizados por informes predefinidos y anlisis de informacin mediante tcnicas procesamiento analtico en lnea (en ingls: Online Analytical Processing OLAP) y, el segundo, mediante tcnicas de minera de datos (en ingls: Data Mining) que permiten encontrar comportamientos en conjuntos de datos analizados, para realizar
clasificaciones o predicciones, generar informacin para los EIS (Executive Information Systems), DSS (Decision Support Systems, Sistemas de ayuda a la toma de decisiones) BSC (cuadro de mandos integral).
Los problemas ms frecuente donde fallan los proyectos de inteligencia de negocios son: la recoleccin de requerimientos, el anlisis y diseo [34], debido a que no se encuentra una metodologa estndar para su desarrollo.
Se ha realizado una metodologa denominada proceso de ingeniera para la bodega de datos (DWEP) basada en el proceso unificado (UP) [24], la cual abarca los flujos de trabajo de requerimientos, anlisis, diseo, pruebas, mantenimiento y revisiones posteriores al desarrollo, para la integracin de datos. En el componente del proceso de minera de datos la comunidad europea ha propuesto el desarrollo del modelo CrossIndustry Standard Process for Data Mining CRISP-DM [11], el cual da un conjunto de fases, pero no se especifica los diagramas para su modelamiento.
El objetivo principal de este trabajo de investigacin es la construccin de una metodologa para el desarrollo de sistemas de inteligencia de negocios basada en el proceso unificado, la cual se denominar: Proceso de Ingeniera a la Inteligencia de Negocios (en ingls: Business Intelligence Engineering Process BIEP).
Introduccin
BIEP ser una metodologa de diseo global que integra todas las fases de diseo en un sistema de inteligencia de negocios, inicia en el anlisis de las fuentes de datos operacionales hasta la implementacin, incluyendo la definicin de los procesos ETL, los requisitos de usuario y el anlisis de datos por medio de tcnicas de minera de datos y OLAP.
MOTIVACIN
Dada la importancia de los sistemas de inteligencia de negocios, se han creado diversas soluciones a los problemas de recoleccin, anlisis, diseo y construccin. En el proceso de integracin de datos se han desarrollado diversos modelos [1, 5, 7, 20, 24, 44 y 45], que presentan un gran nivel de expresividad (estructural, dinmico y grfico), sin embargo, en la gran mayora no se realizan el anlisis de datos [44]. La metodologa DWEP [24 y 44] es uno de los trabajos que presentan la integracin de datos por medio de proceso unificado, dando un estndar para el desarrollo de la bodega de datos y el anlisis de datos por medio de OLAP.
De otro lado, encontramos otros trabajos de investigacin que han propuesto otras metodologas para el anlisis de datos basadas en: OLAP [19 y 36], CRISP-DM [11 y 39] y SEMMA [37], no obstante, ests no toman en cuenta la integracin de datos, dejando los sistemas de inteligencia de negocios fragmentados en diversas soluciones. Recientemente se desarroll un trabajo doctoral titulado Un conjunto de perfiles de UML para el modelado conceptual de tcnicas de minera de datos sobre almacenes de datos [47] que rene el modelado conceptual de las siguientes tcnicas de minera: clasificacin, agrupamiento, reglas de asociacin y series de tiempo. Dando una aproximacin al desarrollo de un sistema de inteligencia de negocios.
Considerando los anteriores problemas y consciente de la importancia de los sistemas de inteligencia de negocios, en el presente trabajo de investigacin se defini: disear una metodologa que abarque el desarrollo de los sistemas de inteligencia de negocios, comenzando con la integracin de datos y termina con el anlisis de datos por medio de OLAP y minera de datos basada en el proceso unificado de software.
Introduccin
Objetivo General:
Desarrollar una metodologa para el desarrollo de un proceso de negocios basada en el proceso unificado. Objetivos especficos:
inteligencia de
Crear y/o adaptar una metodologa para el proceso de ingeniera en la aplicacin de minera de datos y extender la de OLAP dada en el DWEP.
Integrar la metodologa del proceso de ingeniera para la bodega de datos, OLAP y minera de datos en un prototipo de software.
METODOLOGA
La propuesta metodolgica para el desarrollo de esta tesis esta soportada en la realizacin de cuatro etapas que sern ejecutadas en estricto orden.
En la primera etapa se realizar la actualizacin del DWEP a la versin UML 2.1.1, la segunda etapa se crear y/o adaptar una metodologa para el proceso de minera de datos (DMEP), en la tercera etapa se har la unin de la DWEP y DMEP para generar la metodologa del proceso de inteligencia de negocios (BIEP). Finalmente en la cuarta etapa se encuentra la validacin de la metodologa BIEP.
Introduccin
Etapa 1: Actualizacin de DWEP a versin UML 2.1.1: DWEP se basa en el proceso unificado y en UML versin 1.4. La versin UML 2.3 ha proporcionado una mayor cantidad de artefactos para un mejor modelamiento, los cuales resultan tiles para una mejor funcionalidad de DWEP. En esta etapa se har una inspeccin al estndar UML versin 2.3 donde se planea la actualizacin de los diagramas de clases, casos de uso y de despliegue, y la utilizacin de los diagrama de estados, componentes, interactivos, acciones y composicin de estructura.
Etapa 2: Generacin y/o adaptacin de una metodologa para el proceso de anlisis minera de datos (DMEP) en versin UML 2.3: Dado que se ha planteado la metodologa CRISP-DM [14 - 15] como un estndar para el proceso de minera de datos en esta etapa se planea la adaptacin de esta metodologa al proceso unificado, generando los artefactos necesarios basados en UML versin 2.3.
Etapa 3: Integracin de la metodologa DWEP y DMEP: Para cumplir esta integracin se debe realizar previamente la etapa 1 y 2, pues el resultado de cada una de ellas permitir contar con la generacin de la metodologa DWEP y DMEP, las cuales deben cumplir las misma fases y flujos de trabajo, bajo el supuesto basado en el proceso unificado, con lo cual podrn integrarse en una nica metodologa basada en el proceso de inteligencia de negocios (BIEP).
Etapa 4: Validacin del BIEP: Una vez obtenida la metodologa BIEP se pretende validar por medio de un caso de la vida real, para esta etapa, se realizar, tomando el prstamo de libros en la biblioteca central de la universidad Antonio Nario.
APORTES
Se han obtenido avances parciales en desarrollo de esta tesis, los cuales fueron presentados en las siguientes conferencias: (i) DWEP with UML 2.1.1, Encuentro Nacional de investigadores de Postgrado ENIP 2009, Universidad Nacional de Colombia, Bogot (Colombia), ISBN 978958-719-374-9.
Introduccin
(ii) Data Warehouse Engineering Process (DWEP) with UML 2.1.1. A Case Study: Central library of UAN, The 5th Conference of the Euro-American Association on Telematics and Information Systems EATIS 2010. Artculo invitado. Ciudad de Panam (Panam), ISBN 978-958-44-7280-9.
El presente documento aborda de manera inicial en el captulo I los antecedentes y conceptos bsicos sobre los que se basaron las presentes investigaciones; de manera subsiguiente en el captulo II se hablar sobre la metodologa para el desarrollo de sistemas de inteligencia de negocios (BIEP) y finalmente en el captulo III se demostrar la validacin del de la metodologa BIEP con un caso de estudio aplicado a la biblioteca central de la universidad Antonio Nario.
Se revisan las metodologas propuestas actualmente para cada unos de los componentes. Iniciando por el UML como lenguaje de unificado de modelamiento, un lenguaje grfico para construir, documentar, visualizar y especificar un sistema de software. Luego se estudia la metodologa para el desarrollo de la integracin de las fuentes de datos basada en el proceso unificado DWEP. Se analizan sus fases, flujos de trabajo e impacto. Adems se examinan las metodologas para OLAP y minera de datos basadas en el proceso unificado, las que se destacan una extensin del DWEP para los cubos dimensionales y los diagramas de tcnicas de minera de datos basadas en el Common Warehouse Metamodel (CWM). Por ltimo se presenta el resumen del captulo.
decisiones ms acertadas y estratgicas para el desarrollo de un negocio, partiendo para ello del anlisis de la informacin que se produce al interior del ente econmico.
DRESNER, Howard. Gartner Group, Howard Dresner Biography. {En lnea}, {8 de marzo de 2009} disponible en: (http://www.gartner.com/ research/fellows/asset_79427_1175.jsp).
En este contexto, la inteligencia de negocios se define como el proceso de anlisis de los bienes o datos acumulados en la empresa, con el fin de extraer cierta inteligencia o conocimiento de estos. Segn Data Warehouse Institute, la inteligencia de negocios es la combinacin de tecnologa, herramientas y procesos que me permiten transformar mis datos almacenados en informacin, esta informacin en conocimiento y este conocimiento dirigido a un plan o una estrategia comercial. La inteligencia de negocios debe ser parte de la estrategia empresarial, esta le permite optimizar la utilizacin de recursos, monitorear el cumplimiento de los objetivos de la empresa y la capacidad de tomar buenas decisiones para as obtener mejores resultados... 2 [12].
Las herramientas de inteligencia de negocios crecen a una tasa anual del 11.5%, y gastos de inversin a ms de 7 billones de dlares [26, 34]. En la figura 1-1, se observa el crecimiento e inversin en herramientas de inteligencia de negocios, lo que evidencia su potencialidad y el papel que est asumiendo en el desarrollo econmico en las organizaciones, De all la importancia de profundizar en su estudio ya sea desde la academia misma o directamente por los industriales. Figura 1-1: Crecimiento e inversiones en herramientas de BI
Fuente Nigel Pendse: The dramatic consolidation in 2007 makes market shares much harder to 3 calculate
Data Warehousing Institute. {En lnea}, {8 de marzo de 2009} disponible en: (http://www.tdwi.org/. 2002). 3 PENDSE, Nigel, The dramatic consolidation in 2007 makes market shares much harder to calculate. {En lnea}, {8 de marzo de 2009} disponible en: (http://www.olapreport.com/market.htm).
Captulo 1
La implementacin de un sistema de inteligencia de negocios requiere de dos (2) procesos: integracin de fuentes de datos y anlisis de datos [12, 23, 28 y 38]. En la figura 1-2, se pueden observar estos procesos y sus componentes.
Figura 1-2:
Fuente. Ralph Kimball y Margy RossNigel Pendse. The Data Warehouse Toolkit
Bodegas de datos: Bill Inmon defini bodega de datos como: una coleccin de datos integrados orientados a temas, integrados, no-voltiles y variables en el tiempo, organizados para soportar necesidades empresariales5 [21] y para Ralph Kimball: ...una coleccin de datos en forma de una base de datos que guarda y ordena
KIMBALL, Ralf y ROSS, Margy. Kimball and M. Ross, The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling. Wiley, 2002. ISBN: 978-0-471-20024-6. Pag 7. 5 INMON, William Harvey, Building the data warehouse. Wiley, quinta edicin, 2005., paginas 576. ISBN: 978-0-7645-9944-6 Pag. 15
10
informacin que se extrae directamente de los sistemas operacionales (ventas, produccin, finanzas, marketing, etc.) y de datos externos6 [23].
La bodega de datos se puede interpretar como una base de datos que organiza y almacena una coleccin de informacin derivada directamente de los sistemas operacionales y de algunos datos externos [23]. Esta informacin se estructura siguiendo el paradigma multidimensional (MD) [23]: hechos y dimensiones. Un hecho representa medidas interesantes del proceso de negocio que se pretende analizar, mientras que las dimensiones representan un contexto para analizar dichas medidas.
Modelos multidimensionales.
En la actualidad, se han presentado varios modelos multidimensionales. Por su amplio uso se destaca los modelos: Kimball [23], Multidimensional/ER (Sapia) [5], Estrella/ER (Tryfona) [7], GOLD (Trujillo) [24, 44 y 45], Husemann [20] y YAM2 [1].
Los modelos multidimensionales de la bodega de datos [20] al igual que en el desarrollo de bases de datos [4], se estructura en una serie de pasos que incluyen los tres niveles: conceptual, lgico y fsico.
Nivel Conceptual: Se representa las interacciones entre las entidades y relaciones o por medio del lenguaje de definicin de objetos (en ingls: Object Definition Language ODL). Este nivel est ms cerca de los problemas del mundo real que a la solucin, en este es donde el usuario representa sus ideas.
Nivel Lgico: Es este nivel se utiliza el modelo relacional para el diseo de las tablas de hechos, dimensiones y su interaccin, definicin del proceso extraccin, transformacin y carga (E.T.L) y el proceso de mapeo entre la fuente de datos y la bodega de datos.
KIMBALL, Ralf y ROSS, Margy. Kimball and M. Ross, The Data Warehouse Toolkit: The complete Guide to Dimensional Modeling. Wiley, 2002. ISBN: 978-0-471-20024-6 pag. 28
Captulo 1
11
Nivel Fsico: En este modelo se escribe el cdigo para la generacin de las tablas de hechos, dimensiones, definicin de las reglas de integridad y consultas Modelo Dimensional [23].
Para realizar una comparacin de los modelos multidimensionales se tuvo en cuenta los siguientes niveles: (i) Nivel general: donde se revisa si el modelo es conceptual (C), lgico (L) y/o fsico (F). (ii) Nivel estructura: donde se revisa el comportamiento detallado de las dimensiones y las tablas de hecho. (iii) Nivel dinmico: donde se revisa la facilidad de realizar de la generacin de los requerimientos de usuario, operaciones OLAP y el modelado del sistema. Y (iv) Nivel de notacin grafica: donde se aprecia si se implementacin sobre herramientas comerciales. Como se observa en la tabla 1-1. Tabla 1-1: Modelos Multidimensionales.
12
diferentes: (i) el primero, conformado por consultas simples y reportes, las cuales se caracterizan porque presentan informes predefinidos y anlisis de informacin mediante tcnicas OLAP (en ingls Online Analytical Processing) y, (ii) el segundo, mediante tcnicas de minera de datos (DM en ingls Data Mining) que permiten encontrar comportamientos en conjuntos de datos analizados, para realizar clasificaciones o predicciones, o generar informacin para los EIS (Executive Information Systems), DSS (Decision Support Systems, Sistemas de ayuda a la toma de decisiones) el BSC (cuadro de mandos integral). Procesamiento analtico en lnea OLAP Codd [9] 1993, defini: OLAP es un tipo de procesamiento de datos que se caracteriza, entre otras cosas, por permitir el anlisis multidimensional de datos7. Dicho anlisis se basa en modelar la informacin en forma de medidas, hechos y dimensiones [2]. Las medidas son los valores de un dato en particular, las dimensiones son las descripciones de las caractersticas que definen dicho dato y los hechos son la definicin de una o ms medidas para una combinacin particular de dimensiones [2 y 8]. El modelo se representa vectorialmente: los hechos se ubican lgicamente en una celda que queda en la interseccin de ciertas coordenadas segn el modelo de coordenadas (x, y, z,...), donde cada una de las coordenadas de la celda representa una dimensin. Esto es conocido como anlisis multidimensional y para materializarlo en una base de datos, se usa la correspondencia entre los elementos del modelo (hechos y coordenadas) en la bodega de datos (tabla de hechos y las dimensiones).
En la figura 1-3, se observa un cubo dimensional, donde las dimensiones se representan por medio de coordenadas. El cruce de las uniones de estas dimensiones simboliza los hechos y cada hechos est compuesto por medidas. Para poder realizar OLAP, se hace necesario realizar las siguientes funcionalidades: declaracin de dimensiones y jerarquas, ptima indexacin de los datos y definicin de operaciones predefinidas de navegacin en las dimensiones y de agrupacin de medidas.
CODD, Edgar et al. Providing OLAP to user-analysts: An IT mandate. E.F. Codd and Associates, 1993. . {En lnea}, {8 de marzo de 2009} disponible en: (http://www.minet.uni-jena.de/dbis/lehre/ ss2005/sem_dwh/lit/Cod93.pdf).
Captulo 1
13
Las principales operaciones definidas en OLAP son: slice, dice, rotation, drill-down, drillup, roll-up, drill-across y drill-through[20].
Figura 1-3:
Minera de datos:
La minera de datos (en Ingls: data mining DM) es un proceso que consigue conocimiento partiendo de un conjunto amplio de datos, a los cuales se le aplica mtodos para obtener patrones o tendencia nuevas, generando nuevos conocimientos. DM rene varias reas: estadstica, inteligencia artificial, computacin grfica, bases de datos, y el procesamiento masivo. Fayyad [16] defini minera de datos como: un proceso no trivial de identificacin vlida, novedosa, potencialmente til y entendible de patrones comprensibles que se encuentran ocultos en los datos8.
La Minera de Datos es un proceso completo de descubrimiento de conocimiento que involucra varios pasos [27]. En la figura 1-4, se observa las diferentes tareas: (i) Entendimiento del dominio de aplicacin, el conocimiento relevante a utilizar y las metas del usuario. (ii) Seleccin de un conjunto de datos en donde realizar el proceso de descubrimiento. (iii) Limpieza y reprocesamiento y limpieza de los datos, diseando una estrategia adecuada para manejar ruido, valores incompletos, valores fuera de rango y
FAYYAD, Usama, PIATESTSKY-SHAPIRO, Gregory, y SMYTH Padhraic, From Data Mining to Knowledge Discovery in Databases, American Association for Artificial Intelligence pag 37 -54. 1996. Pag. 38
14
valores inconsistentes. (iv) Seleccin de la tarea de descubrimiento a realizar: clasificacin, agrupamiento, reglas de asociacin, entre otras. Adems la seleccin de algoritmos a aplicar. (v) Transformacin de los datos al formato requerido por el algoritmo especifico de explotacin de datos (vi) Encontrar patrones y modelos interesantes. (vii) Evaluacin de los patrones descubiertos y presentacin de los mismos mediante tcnicas de visualizacin. (viii) Utilizacin del conocimiento descubierto, ya sea incorporndolo dentro de un sistema o simplemente para almacenarlo y reportarlo a las personas interesadas. Figura 1-4: Proceso descubrimiento de conocimiento en BD
En diversos informes indican [25, 35] que entre el 40% y el 50% de los procesos de inteligencia de negocios fallan o son abandonados. Segn lo observado por parte de Larry Poole [35] esta situacin se presenta por:
MORALES, Eduardo, Descubrimiento de Conocimiento en Bases de Datos. {En lnea}, {9 de junio de 2008} disponible en: (http://dns1.mor.itesm.mx/ ~emorales/Cursos/KDD03/principal.html).
Captulo 1
15
(i) Carencia de un lder que entienda el valor del proyecto y est dispuesto a apoyarlo asignando los recursos apropiados y a enfocarse de modo que tenga xito.
(ii) Los requisitos son pobres ya que no se involucran a los usuarios en las discusiones para asegurar que se est planeando construir realmente algo que se necesita y que va a utilizar.
(iii) Los diseos son pobres debido a que los requisitos son deficientes y el tiempo de modelado es limitado.
(iv) Carencia del entrenamiento a usuarios finales para el uso adecuado de la solucin para llevar a buen trmino la implantacin del proyecto.
(v) En las organizaciones se cree a menudo que con la solucin inicial se termina el proyecto descuidando su mantenimiento o crecimiento, ya que ella puede involucrar ms partes de la organizacin, y esto se puede hacer por medio de diversos data mart hasta generar una nica bodega de datos [23].
(vi) Otro de los problemas escoger inadecuadamente la herramientas a utilizar, en el mercado hay un gran nmero de ellas y sus caractersticas y precios varan, lo que hace necesario realizar una adecuada valoracin para saber escoger cul se ajusta ms en la implementacin. Es importante entender las necesidades de usuarios y seleccionar la herramienta que faciliten el desarrollo de las aplicaciones previstas10 [10].
(vii) Muchos proyectos arrancan pensando en una solucin final pero sin saber la cantidad de tiempo y trabajo que requieran, o si su solucin es compleja.
10
Custer consortiwn, 41% HAVE EXPERIENCED DATA WAREHOUSE PROJECT FAILURES. {En lnea}, {8 de marzo de 2009} disponible en: (http://www.cutter.com/research/2003/ edge030218.html)
16
Despus de la utilizacin de la solucin por parte de los usuarios, puede ocurrir que la solucin no cumple con sus objetivos y se deje de usar o puede cumplir las expectativas y querer que sus funcionalidades aumente. En ambos casos, se necesita de constante revisiones de los logros, realizando las modificaciones y mejoras necesarias de modo que todos sus usuarios quieran utilizarlo.
UML 2.3 posee dos grupos de diagramas: diagrama de estructura y diagramas de comportamiento.
Diagramas de estructura: Muestran la estructura esttica del sistema, sus partes de abstraccin y los diferentes niveles de implementacin, adems la interrelacin entre s. Los elementos de un diagrama de la estructura representan los conceptos significativos de un sistema, y pueden incluir niveles de abstraccin del mundo real y los conceptos de aplicacin. Los diagramas propuestos son: Diagrama de clases, diagramas de objetos, diagramas de paquetes, diagramas de componentes, diagrama de estructuras compuestas, diagrama de perfiles y diagrama de despliegue.
Diagramas de comportamiento: En estos diagramas se observa el comportamiento dinmico de los objetos en un sistema, que puede ser descrito como una serie de cambios en el sistema a lo largo de la lnea de tiempo. Los diagramas propuestos son: Diagrama de casos de uso, diagrama de actividad, diagrama de estados de mquina, y diagramas de interaccin.
Captulo 1
17
En la figura 1-5 se observan todos los diagramas de estructura y de comportamiento aplicados al UML 2.3 Figura 1-5: Diagrama de UML 2.3
18
El proceso unificado [22] es un estndar aceptado en el mbito cientfico e industrial para el desarrollo de software y sus principales caractersticas son:
Utiliza el UML para expresar grficamente todos los esquemas de un sistema software [3, 6 y 30].
El DWEP mantiene las cuatro fases del proceso unificado (UP) [22, 24 y 44]: Inicio, elaboracin, construccin y transicin. En la figura 1-6, se presentan grficamente la relacin existente entre los flujos de trabajo y las fases tanto del UP y del DWEP. Figura 1-6: (a) Proceso Unificado y (b) DWEP
Captulo 1
19
Fuente. Jacobson, Ivar; Booch, Grady; Rumbaugh, James. El proceso unificado de desarrollo de 11 12 software. / S. Lujan, Data WareHouse Desig with UML, PHD. Thesis .
Fase de inicio: El objetivo de esta fase es desarrollar el anlisis del proyecto para justificar su puesta en marcha. Para lograrlo se realiza una descripcin general del proyecto, una planeacin basada en interacciones de las fases subsiguientes, en la que se detectan los riesgos crticos y se establece la funcionalidad bsica del software con una descripcin de la arquitectura propuesta.
Fase de elaboracin: Una vez finalizada la fase de inicio, se forma una arquitectura slida para la construccin del software, para lo cual se establece la base lgica de la aplicacin con los casos de uso definitivos y los artefactos del sistema que lo componen, mitigando el riesgo tecnolgico de la exploracin del lenguaje de programacin en cuanto a interfaz de usuario se refiere. Para esto, se efecta la primera iteracin con un prototipo funcional para la realizacin de pruebas de software y la definicin del modelo para la implementacin de la interfaz de usuario.
Fase de construccin: Se inicia a partir de la lnea base de arquitectura que se especific en la fase de elaboracin, y su finalidad es desarrollar un producto listo para la operacin inicial en el entorno del usuario final.
Fase de transicin: Una vez que el proyecto entra en la fase de transicin, el sistema ha alcanzado la capacidad operativa inicial. En la fase de transicin se busca implantar el producto en su entorno de operacin.
11
JACOBSON, Ivan; BOOCH, Grady; RUMBAUGH, James. El proceso unificado de desarrollo de software., Addison Wesley. Madrid, ES. 2000. 438 p. Pag 43 12 LUJAN, Sergio. Data WareHouse Desig with UML, Tesis Doctoral., Universidad de Alicante, 2005.Departamento de software y sistemas computacionales. Pag 37
20
Tabla 1-2:
13
Requerimiento: Durante este flujo de trabajo, los usuarios finales especifican las medidas y agregaciones ms interesantes, el anlisis dimensional, consultas usadas para la generacin de reportes peridicos y frecuencia de la actualizacin de los datos. El DWEP plantea la utilizacin del modelo de casos de uso.
Anlisis: El objetivo de este flujo de trabajo es mejorar la estructura y los requisitos obtenidos en la etapa de requerimientos. En esta etapa se documentan los sistemas operaciones preexistentes que alimentan la bodega de datos. DWEP propone el uso esquema conceptual de orgenes de datos (en ingls Source Conceptual Schema SCS), esquema lgico de orgenes de datos (en ingls Source Logical Schema SLS), y el esquema fsico de orgenes de datos (en ingls Source Physical Schema SPS).
13
LUJAN, Sergio. Data WareHouse Desig with UML, Tesis Doctoral., Universidad de Alicante, 2005.Departamento de software y sistemas computacionales. Pag 35
Captulo 1
21
Diseo: Al final de este flujo de trabajo, se define la estructura de la bodega de datos, esto es, su modelo conceptual. DWEP propone el uso de los diagramas Esquema conceptual de la bodega de datos (en ingls Data Warehouse Conceptual Schema DWCS), El esquema cliente conceptual (en ingls Client Conceptual Schema CCS), y el mapeo de datos (en ingls Data Mapping DM). El DM muestra la relacin entre SCS y DWCS adems entre DWCS y el CCS. Implementacin: Durante este flujo de trabajo, la bodega de datos se construye: Se desarrolla su estructura fsica, empieza el proceso de recepcin de datos por parte de los sistemas de operaciones, se afina para un funcionamiento optimizado, entre otras tareas. El DWEP utiliza los siguientes artefactos: El esquema lgico de la bodega de datos (en ingls Data Warehouse Logical Schema DWLS), el esquema fsico de la bodega de datos (en ingls Data Warehouse Physical Schema DWPS), el esquema lgico del cliente (en ingls Client Logical Schema CLS), el esquema fsico del cliente (en ingls Client Physical Schema CPS), y el proceso extraccin, transformacin y carga de datos (ETL). Pruebas: El objetivo de este trabajo es verificar que la aplicacin funcione correctamente. Concretamente, los efectos de las pruebas son los siguientes: Planificar las pruebas necesarias, disear y aplicar las pruebas mediante la creacin de casos de prueba y realizar las pruebas y analizar los resultados de cada prueba. Mantenimiento: A diferencia de la mayora de los sistemas, la bodega de datos es un proceso que se retroalimenta constantemente. El objetivo de este flujo de trabajo es definir la actualizacin y carga de los procesos necesarios para mantener la bodega de datos. Este flujo de trabajo comienza cuando se construye la bodega de datos y es entregada a los usuarios finales, pero no tiene una fecha de finalizacin. Durante este trabajo, los usuarios finales pueden tener nuevas necesidades, lo que desencadena el comienzo de una nueva iteracin con los requisitos de flujo de trabajo.
Revisiones post desarrollo: Esto no es un flujo de trabajo de las actividades de desarrollo, sino un proceso de revisin para la mejora de proyectos a futuro. Si hacemos un seguimiento del tiempo y esfuerzo invertido en cada fase es til en la estimacin de tiempo y en las necesidades para generar desarrollos futuros.
22
Integridad del diseo de la bodega de datos, al abarcar una serie de modelos basados en los paquetes de UML.
Trazabilidad del diseo de la bodega de datos, desde el modelo conceptual hasta el fsico.
Reduccin de los costos de desarrollo, abordando en fases inciales aspectos de la implementacin que pueden incurrir en un aumento de los costos del proyecto de bodegas de datos si se modifican en fases posteriores.
Diferentes niveles de abstraccin, al proporcionar varios niveles de detalles sobre el mismo diagrama.
Se puede analizar que las ventajas obtenidas de aplicar el DWEP subsanan algunas problemticas en la construccin de la bodega de datos como las presentadas en la seccin 2.1.3, en el proceso de integracin de datos.
14
LUJAN, Sergio. Data WareHouse Desig with UML, Tesis Doctoral., Universidad de Alicante, 2005.Departamento de software y sistemas computacionales. Pag. 101.
Captulo 1
23
Los sistemas OLAP se divide en tres mdulos operacionales [36]: interface grfica de usuario (GUI), procesamiento lgico analtico y procesamiento lgico del dato. En la figura 1-7 se observa que bodega de datos es independiente al sistema OLAP.
De lo anterior se colige que los sistemas OLAP son un modelo para el desarrollo de software que cumplen con las fases de anlisis, diseo, construccin e implementacin.
Figura 1-7:
Sistema OLAP
15
15
ROB, Peter y CORONEL, Carlos, Database Systems: Design, Implementation and Management, Cengage Learning EMEA, 2008. Quinta edicin, ISBN: 0-169-06269-x. Pag 18.
24
En la etapa de anlisis se definen las necesidades del usuario para la generacin de los diversos reportes basado en el cubo dimensional. En la etapa de diseo se realiza la transformacin y consolidacin de los datos para la generacin del reporte. En la etapa de construccin se genera el cdigo fuente del reporte por medio del lenguaje SQL o en su extensin (MDX). En la etapa de implementacin; el programa se ejecuta en un ambiente de un servidor OLAP para la generacin del reporte.
La minera de datos constituye un paso ms en el anlisis de los datos de la organizacin para apoyar la toma de decisiones. No se trata de una tcnica que sustituya el anlisis OLAP sino que lo complementa, permitiendo realizar estudios ms avanzados de los datos y extraer ms informacin de ellos.
La metodologa ms utilizada en la minera de datos es la propuesta por la comunidad europea Cross-Industry Standard Process for Data Mining (CRISP-DM) [11 y 39], cuyo objetivo es fomentar la interoperabilidad de las herramientas utilizadas en el proceso de minera de datos para reducir sus costos, tiempo y aprendizaje.
En la figura 1-8 a, se observa este proceso el cual se desarrolla en forma cclica con retroalimentaciones en seis (6) fases: comprensin del negocio, comprensin de los datos, preparacin de datos, modelamiento, evaluacin y despliegue.
Otra metodologa que ha tenido gran aceptacin en el proceso de minera de datos es SEMMA desarrollada por SAS Institute [37], siendo definida como el proceso de seleccin, exploracin y modelado de grandes cantidades de datos para descubrir patrones de negocio desconocidos. En figura 1-8b se observa las cinco (5) fases de esta metodologa: muestreo, exploracin, modificacin, modelizacin y estimacin.
Captulo 1
25
Figura 1-8:
Fuente. P. Chapman et al., CRISP-DM 1.0: Step-by-step data mining guide / SAS Enterprise Miner.
La especificacin del Common Warehouse Metamodel (CWM) [29] contiene las directivas necesarias para poder almacenar la meta-informacin de cualquier modelo
multidimensional y OLAP mediante un formato estndar y fcilmente intercambiable. CWM fue concebido por la OMG como un estndar demasiado general que asegura un amplio consenso para su utilizacin por la comunidad cientfica e industrial. Por lo tanto todos los elementos representados adolecen algunas caractersticas bsicas en el modelado multidimensional.
Cualquier extensin del CWM se puede representar mediante el XMI Metadata Interchange (XMI) [32] para obtener finalmente documentos XML. As, dichas extensiones nos permitirn asegurar la interoperabilidad con el resto de soluciones informticas.
26
CWM [29] ofrece adems un meta modelo para el proceso de minera de datos el cual brinda cinco meta modelos aplicados a las diversas tcnicas de minera de datos: Reglas de asociacin, agrupamiento, importancia del atributo, clasificacin y aproximacin, en la figura 1-9 observamos el core de minera de datos y las asociaciones con los paquetes de reglas de asociacin, agrupamiento, clasificacin, atributo importante y aproximacin. Figura 1-9: Modelos CWM para el proceso de Minera de Datos.
16
Object Management Group (OMG). Common Warehouse Metamodel (CWM) Specification vertions 1.1. {En lnea}, {5 de marzo de 2010} disponible en: (http://www.cwm.org).
Captulo 1
27
1.5.2 Clasificacin
El CWM se ofrece un conjunto de estndares para este modelo, donde se representa la funcin de clasificacin, modelos y configuraciones. En la figura 1-11 se puede ver una clase principal (ClassificationFunctionSettings) con un nico atributo definido como costMatrix (matriz de coste) que permite almacenar los valores de significacin y probabilidad para dicha matriz. CWM no define especficamente ningn otro atributo para modelar parmetros de minera con clasificacin. La propuesta CWM est enfocada al modelado de los resultados de la tarea de clasificacin dado que la matriz de costo hace referencia solo a resultados de clasificacin.
17
Object Management Group (OMG). Common Warehouse Metamodel (CWM) Specification vertions 1.1. {En lnea}, {5 de marzo de 2010} disponible en: (http://www.cwm.org).
28
Figura
1-11:
1.5.3 Agrupamiento
Respecto a las tcnicas de agrupamiento, CWM propone un meta modelo con ms nivel de detalle que en el resto de la norma tcnicas. En la figura 1-12 se pueden observar las clases que definen los ajustes para realizar el agrupamiento el cual se basa de funciones de agregacin y el atributo de agrupamiento.
18
Object Management Group (OMG). Common Warehouse Metamodel (CWM) Specification vertions 1.1. {En lnea}, {5 de marzo de 2010} disponible en: (http://www.cwm.org).
Captulo 1
29
Fuente. Zubcoff Vallejo, Un conjunto de perfiles de UML para el Modelado conceptual de tcnicas de minera de datos sobre almacenes de datos, 2009.20
19 20
Ibid., ZUBCOFF, Jos. Un conjunto de perfiles de UML para el Modelado conceptual de tcnicas de minera de datos sobre almacenes de datos, 2009, pginas: 226. Universidad de Alicante. Departamento de Lenguajes y Sistemas Informticos. Pag 126.
30
Se encuentran una cantidad de metodologas de para el diseo conceptual de la bodega de datos como son: modelo Multidimensional/ER (Sapia) [5], modelo Estrella/ER (Tryfona) [7], modelo GOLD (Trujillo) [45], modelo Husemann [20], modelo YAM2 [1] y DWEP [24 y 44].
De estas se destaca el DWEP ya que es una metodologa basada en el proceso unificado y en lenguaje unificado de modelamiento (UML). DWEP aplica las cuatro (4) las fases del proceso unificado y siete (7) flujos del trabajo. Cada flujo de trabajo tiene un modelo de artefactos asociados (diagramas del UML). Por ende esta metodologa ofrece quince (15) diagramas para el anlisis, diseo, construccin, implementacin, pruebas y anlisis de post desarrollo de la bodega de datos.
En el componente de anlisis de datos por medio de OLAP se divide en tres mdulos operacionales [36]: interface grafica de usuario (GUI), procesamiento lgico analtico y procesamiento lgico del dato.
Por ltimo en las tcnicas de minera de datos se destacan: Cross-Industry Standard Process for Data Mining (CRISP-DM) [11 y 39], proceso de minera de datos es SEMMA desarrollada por SAS Institute [37] y por ltimo encontramos una propuesta dada por el doctor Zubcoff en el 2009 [47] en donde se presenta como se pueden desarrollar perfiles de UML al proceso de bodega de datos basado en el Common Warehouse Metamodel (CWM).
BIEP se basa en el proceso unificado, en la metodologa DWEP [24 y 44], en el diagrama de cubo dimensional [33] y en los diagramas propuestos de Zubcoff [47] sobre el proceso de descubrimiento (o extraccin) de conocimiento en bases de datos (en ingls: Knowledge Discovery in Databases KDD)[16] en modelos multidimensionales y bodegas de datos
El presente captulo se aborda de manera inicial los elementos de una metodologa de inteligencia de negocios ( Seccin 2.1.); de manera subsiguiente se expondr la metodologa de inteligencia de negocios basada en el proceso unificado, la cual se componen por flujos de trabajo y fases, modelos, diagramas y perfiles de UML ( Seccin 2.2.); luego se discutir todos los perfiles UML asociados al BIEP ( Seccin 2.3.); en seguida se presentarn los flujos de trabajo del BIEP ( Seccin 2.4.); por ltimo se efectuar un resumen del captulo ( Seccin 2.5.).
32
de inteligencia
A travs de la presente metodologa se busca el desarrollo un sistema de inteligencia de negocios basada en el proceso unificado de software (UP) denominada: proceso de ingeniera de inteligencia de negocio (BIEP). Esta nueva metodologa tiene un enfoque estructurado para el desarrollo de cada uno de los elementos de integracin, anlisis y despliegue de datos, cuyo propsito ser facilitar la produccin de sistemas de inteligencia de negocios, incluyendo: modelo del sistema, notaciones, reglas de sugerencia de diseo y guas de proceso. Estos elementos se presentan en la figura 2-1.
En el elemento de integracin de los datos se desarrollan los modelos conceptual, lgico y fsico de la bodega de datos. Para estos fines, BIEP toma como base la metodologa de proceso de ingeniera para el desarrollo de bodegas de datos (en ingls: Data Warehouse Engineering Process DWEP) [24 y 44] la cual se basa en el proceso unificado (UP) [22], considerando que se trata de unos de los ms modernos e importantes desarrollos en la materia.
Captulo 2
33
El anlisis de datos se realiza por medio de tcnicas OLAP y/o de minera de datos (en ingls: data mining DM). Respecto a OLAP, en orden a modelar los cubos dimensionales, se utilizar una metodologa extendida del DWEP, [33] basada en perfiles de UML. Para la tcnica de minera de datos se adicionaron dos flujos de trabajo basados en la metodologa CRISP-DM 1.0 [11 y 39] y se incorporan los diagramas conceptuales propuestos de Zubcoff [47].
El despliegue se basa en los diagramas CCS, CLS y CPS de DWEP, los cuales, tambin son perfiles de UML basados en los diagramas de clases y de despliegue. Es de advertir que este componente depende del entorno final de uso del sistema de inteligencia de negocios, razn por la cual, los diagramas estn ntimamente vinculados con la herramienta de despliegue que se utilice en cada caso.
El proceso unificado (UP) [22] es un estndar en la industria en el procesos de ingeniera de software, el cual se componen de fases y flujos de trabajo. Cada flujo de trabajo referencia uno o varios modelos y cada modelo proviene de un diagrama UML. Este rasgo tambin ser heredado por BIEP, contando con cuatro (4) fases, nueve (9) flujos de trabajo, diez (10) modelos y veintisiete (27) diagramas, los cuales se basan en nueve (9) perfiles de UML, como se explicar a continuacin.
34
Las fases de BIEP parten del inicio del proceso de desarrollo del sistema de inteligencia de negocios y concluye con la transaccin, esto es, la entrega de dicho sistema. A su vez, los flujos de trabajos buscan describir las actividades a desarrollar para alcanzar el citado desarrollo. En la figura 2-2, se presenta las fases y flujos de trabajo de la metodologa BIEP. En la parte superior se observa las cuatros (4) fases y en la parte izquierda se observan los nueve (9) flujos de trabajo.
Figura 2-2:
Se tiene, entonces, que BIEP sigue las mismas fases desarrolladas en el proceso unificado [28] y en DWEP [24 y 44], a saber:
Fase de Inicio: se define cules sern los lmites y alcances del proyecto de inteligencia de negocios y se desarrolla el caso del negocio. Su finalidad es la generacin de una visin global del proyecto.
Fase de elaboracin: se pretende realizar el plan del proyecto, el rasgo especfico y la lnea base de arquitectura, cuya suma dar lugar a la arquitectura base.
Captulo 2
35
Fase de transicin: busca implantar el proyecto en su entorno de operacin con todos los usuarios y su propsito es entregar la versin final a los usuarios.
BIEP contiene nueve (9) flujos de trabajo, cinco (5) provienen del proceso unificado: requerimiento, anlisis, diseo, implementacin y pruebas. Dos (2) del DWEP [23 y 44]: mantenimiento y revisiones post desarrollo. Adicionalmente, se proponen dos (2) nuevos flujos de trabajo basados en la metodologa CRISP-DM: Preparacin modelado y evaluacin y despliegue. Cada uno de esto flujos de trabajo se estudiarn en la seccin 2.4.
BIEP aplica diez (10) modelos, cada uno basado en flujos de trabajo, los cuales son:
Modelos de casos de uso: describe la funcionalidad propuesta del nuevo sistema de inteligencia de negocios. Un caso de uso representa una unidad discreta de interaccin entre un usuario (humano o mquina) y el sistema, siendo una unidad de trabajo significativo.
Modelo de anlisis: consiste en una jerarqua de paquetes, que son abstracciones de subsistemas o capas de diseo. Los paquetes contienen clases del anlisis de las fuentes de datos que poblarn las tablas en la bodega de datos y realizaciones de casos de uso.
Modelo de diseo: describe como los casos de uso influyen en el sistema de inteligencia de negocios. Se realiza el modelo conceptual de la bodega de datos. Cada parte de la bodega representa una abstraccin con una correspondencia en la implementacin.
Modelo de implementacin: realiza los modelos lgicos y fsicos de la bodega de datos y la organizacin de los componentes. Se compone de un sistema de implementacin (constelaciones), el que a su vez consta de varios subsistemas
36
(estrellas o copos de nieve). Cada sistema o subsistema consta de tablas de hechos y dimensiones. Modelo OLAP: permite el anlisis multidimensional de la bodega de datos y, a travs de ellos, se revisan los requerimientos del usuario para la generacin de los reportes que sean requeridos. Modelo de minera de datos: describe el anlisis de los datos almacenados en la bodega. Para estos fines, a los datos se les aplica una seleccin y se transforman de acuerdo a las necesidades de las tcnicas de minera de datos a aplicar. Modelo de despliegue: describe como se reparte la funcionalidad entre los nodos fsicos. Los nodos pueden ser de dos clases: (i) procesadores o recursos de hardware, o (ii) de comunicacin, cuya finalidad es permitir la relacin entre los primeros y describir la configuracin de la red (intranet, bus, entre otros). La funcionalidad de un nodo depende de los componentes que en l estn. Modelo de pruebas: especfica cmo son las pruebas de integracin y de sistema para los elementos desplegados. Pueden probarse tambin componentes como manuales de usuario o tcnicos. Modelo de mantenimiento: define la periodicidad de actualizacin de la tabla de hecho y dimensiones de la bodega de datos. As mismo, realiza el anlisis de los informes obtenidos en el modelo OLAP y de minera de datos. Modelo de revisin post desarrollo: sirve para establecer la revisin del proyecto para implementaciones o ampliaciones del sistema de inteligencia de negocios.
En la figura 2-3, se presenta los modelos de la metodologa BIEP con respecto a las fases y flujos de trabajo. La ubicacin de cada modelo indica la fase y el flujo de trabajo donde se desarrolla.
Captulo 2
37
Figura 2-3:
Modelos (BIEP)
Fases / Flujos de trabajo Requerimientos Inicio Modelos de casos de uso Modelos de anlisis Modelos de diseo Modelos de implementacin Modelos OLAP Modelo de minera de datos Modelos de despliegue Modelos de prueba Modelos de mantenimiento Modelos post desarrollo Elaboracin Construccin Transicin
Anlisis
Diseo
Pruebas
Seis (6) nuevos diagramas generados por la ltima versin del UML 2.3.
Anlisis de datos:
Un (1) diagrama para la preparacin, seleccin y transformacin de datos del proceso de minera de datos.
Cuatro (4) diagramas conceptuales para las tcnicas de minera de datos: reglas de asociacin, clasificacin, agrupamiento y series de tiempo.
38
La semntica de UML 2.x viene descrita por su meta-modelo, que es expresado en MOF [42]. Para disear los diagramas de la metodologa BIEP no se quiere modificar la semntica de UML, sino particularizar algunos de sus conceptos. De hecho, UML incluye un mecanismo de extensin en el propio lenguaje que permite definir lenguajes de modelado que son derivados de UML.
De forma ms precisa, el paquete de profile de UML 2.x define una serie de mecanismos para extender y adaptar las meta-clases de otro metamodelo a las necesidades concretas de dominio del proyecto. En la siguiente seccin profundizamos sobre los perfiles que se desarrollan en BIEP.
Los principales pasos de la metodologa BIEP se pueden observar por medio un diagrama de actividades de UML 2.3. En la figura 2-4, se observa que el diagrama se ha dividido verticalmente en dos partes (swimlanes) de acuerdo a quin gua las actividades descritas:
Usuarios finales del BIEP (los usuarios finales orientan el trabajo de los diseadores y administradores del proceso de inteligencia de negocios).
Captulo 2
39
Figura 2-4:
Usuarios Finales
Requerimiento
Anlisis
Revisin del esquema lgico de las fuentes de datos (SLS y SLCS)
Proceso ETL
Diseo
Implementacin
Generacin reporte OLAP Anlisis, seleccin y transformacin de datos
Despliegue
Diseo lgico del despliegue(CLS)
40
Diseadores y administradores del BIEP (no necesitan de la participacin de los usuarios finales, ya que disponen de toda la informacin necesaria para realizar su labor).
Las actividades se han dividido en seis (6) grupos, considerando el flujo de trabajo del BIEP: requerimiento, anlisis, diseo, implementacin, modelado y despliegue. Cada actividad se explica en detalle la seccin 3.4.
Por ltimo, las transiciones de cada grupo definen el orden secuencial de las actividades a considerar en el desarrollo de un sistema de inteligencia de negocios y tambin indican el empleo de informacin procedente de otra.
Los diagramas de BIEP provienen de particularizar los diagramas de clases, despliegue, objetos, casos de uso, secuencia, comunicacin y estados de mquinas de la versin del UML 2.3.
Captulo 2
41
La metaclase Association es importado de la metaclase Association y en ella se extiende el estereotipo Rollup. El Property es importado de la metaclase Property y de l se extienden las propiedades de los atributos: medida, descriptor, estereotipo, elemento de una tabla de hechos o elemento de las dimensiones.
Figura 2-5:
Perfil UML DW
42
Este perfil sirve al desarrollo del proceso de carga, extraccin y transformacin de datos entre la bodega de datos y las fuentes de datos. Este perfil, se realiza mediante metaclase ETLProcess la cual es importada de la metaclase Class y de ste se extienden los elementos del proceso ETL: carga, enlace (JOIN), datos incorrectos, filtros, conversiones, tablas de hecho, bases de datos, archivos, dimensiones, espacios temporales y envolturas.
La figura 2-6 representa el mapeo al lenguaje UML de los elementos del proceso de extraccin, transformacin y carga desde las fuentes de datos hasta la bodega de datos.
Figura 2-6:
Captulo 2
43
Este perfil se utiliza para el despliegue fsico de la bodega de datos y de las fuentes de datos, as como para el proceso de transporte de informacin entre ambos. Se realiza mediante la metaclase device la cual es importada de la metaclase device, a partir de ella, se extiende al estereotipo del tipo fsico de equipo: servidor, cliente y discos duros.
En el servidor encontramos los atributos de: sistema operativo, software, unidad central de procesamiento (CPU), memoria y en el tamao de los discos duros. Adems en el cliente de los datos del servidor se adiciona el navegador. Mediante la metaclase artifact la cual se importa de la metaclase artifact, de esta se extiende los estereotipos que posee un equipo como son sistema operativo, espacio de tabla y si es servidor de base de datos.
En la figura 2-7, representa el mapeo al lenguaje UML de los elementos del dominio descritos en el despliegue para las bases de datos y bodegas de datos con todos sus elementos. Figura 2-7: Perfil UML despliegue
44
Cada uno de estos elementos tiene un conjunto de estereotipos heredados para realizar su realiza su tarea as:
En la transformacin se encuentran: normalizacin (minmax, decimal, z-score) y reduccin de datos (agrupamiento y discretizacin).
En la figura 2-8 representa el mapeo al lenguaje UML de los elementos del proceso de anlisis, seleccin y transformacin de datos aplicado desde la bodega de datos hasta la tcnica de minera de datos.
Captulo 2
45
Figura 2-8:
Este perfil sirve para la generacin del modelo de las reglas de asociacin aplicado a la bodega de datos. Se realiza mediante la metaclase class importado de la metaclase class, de ella se extiende los siguientes elementos: Modelo de reglas de asociacin, configuracin del modelo y resultados del modelo.
En el estereotipo de configuracin reglas de asociacin se debe considerar los parmetros que los ajustan. Los parmetros especficos que controlan el conjunto de tems frecuentes son el soporte mnimo (MinSupport) y la confianza mnima (MinConf) que la regla debe satisfacer, el mximo nmero de registros del conjunto de datos (MaxItemSetSize - MISS) y el nmero mximo de predicados o el nmero mximo de apariciones de un atributo en el cuerpo de una regla (MaxNumberOfPredicates - MNOP).
46
La figura 2-9, muestra el mapeo de los elementos previamente descritos para reglas de asociacin al lenguaje UML. Los atributos Caso, Entrada y Prediccin son elementos que especifican el estereotipo llamada ModeloRA. Todos los parmetros utilizados para controlar el proceso de bsqueda de reglas de asociacin especifican la clase configRA de la Figura. Las reglas de asociacin tienen un antecedente (cuerpo o parte izquierda de la regla) especificado como (cuerpo) y un consecuente (cabecera o parte derecha de la regla) especificado como (cabeza). El primero contiene el/los atributo/s de entrada, el segundo contiene el/los atributos de prediccin observados en el conjunto agrupado de datos. Cada regla tiene un (soporte) y una (confianza). De esta manera definimos una clase que contiene los patrones que definen las reglas de asociacin, esta clase definida como (ResultadosRA) contiene los cuatro atributos previamente mencionados.
Figura 2-9:
Este perfil se utiliza para la aplicacin del modelo de clasificacin aplicado a la bodega de datos. En las tcnicas de clasificacin el analista debe seleccionar los atributos que
Captulo 2
47
formarn parte del anlisis. Estos atributos pueden tener bsicamente dos roles: de Entrada y de Prediccin.
El modelo multidimensional presenta de una manera cercana al analista todos los atributos disponibles, sus relaciones y su estructura jerrquica. Dado que el algoritmo usar cada elemento seleccionado como entrada como un candidato para fragmentar el atributo a predecir se debe tener en cuenta por ejemplo los atributos que estn correlacionados. Esto, en un modelo multidimensional es un proceso muy intuitivo dado que los atributos que estn dentro de una misma dimensin pero a distinto nivel jerrquico estarn correlacionados. El resultado ser que estos atributos correlacionados estarn presentes en las primeras ramas del rbol de clasificacin y pierde inters el patrn encontrado. Por tanto se debe evitar utilizar atributos de una misma dimensin como Entrada y como Prediccin.
La figura 2-10, representa el mapeo al lenguaje UML de los elementos del dominio descritos para minera de datos con clasificacin. El proceso de poda del rbol es el que, en definitiva, da forma al rbol. Este proceso se lleva a cabo automticamente ajustando algunos parmetros del algoritmo.
48
Los atributos de entrada y caso son implementados en el perfil especializando el estereotipo Atributo y utilizando la definicin etiquetada referencia para enlazar con los datos multidimensionales asociados.
El algoritmo se ha definido por medio del estereotipo agrupamiento extendiendo la metaclase de UML InstanceSpecification y el estereotipo de la metaclase class configrationSetting que modela los parmetros de agrupamiento.
En la figura 2-11 representa el mapeo al lenguaje UML de los elementos del dominio descritos para minera de datos con agrupacin.
Captulo 2
49
dimensiones y jerarquas de agregacin son traducidos a la metaclase de UML Class definiendo los estereotipos Fact, Dimension y Base. En este caso, la metaclase Class es el concepto ms cercano para el modelado de estos elementos dado que especifica objetos como abstracciones estructurales de las entidades del dominio.
Adems, este perfil tambin permite representar datos multidimensionales como las medidas (estereotipo FactAttribute) o descripciones de los niveles de jerarqua, como son los atributos de dimensin (DimensionAttribute) o los identificadores de los objetos (OID). Estos elementos se traducen a la metaclase de UML Property que tpicamente modela atributos de otras metaclases.
Fuente. Jos Jacobo Zubcoff Vallejo, Un conjunto de perfiles de UML para el Modelado conceptual de tcnicas de minera de datos sobre almacenes de datos, 2009, Universidad de 21 Alicante.
21
ZUBCOFF, Jos. Un conjunto de perfiles de UML para el Modelado conceptual de tcnicas de minera de datos sobre almacenes de datos, 2009, pginas: 226. Universidad de Alicante. Departamento de Lenguajes y Sistemas Informticos.
50
Este perfil se utiliza para la aplicacin del proceso de requerimientos. La Figura 2-13 define los estereotipos y las metaclases extendidas para el proceso de requerimientos. Este perfil permite representar los actores que se involucran en el los sistemas de inteligencia de negocios: Usuarios finales y diseadores y administradores. Figura 2-13: Perfil UML caso de usos.
2.3.10
Este perfil se utiliza para la aplicacin del proceso de la generacin del cubo dimensional. La Figura 2-14, define la metaclase Action extendida de la clase Opaque Action y en los estereotipos se definen todas las operaciones que se realizan en el cubo: Slice, push, dice, pull, roll up, drill down, query, set, dril across y dril anyway.
Captulo 2
51
En la tabla 2-1, se observan todos los diagramas que componen la metodologa BIEP, a saber:
52
Tabla 2-1:
DWLOS (Objectos) DWAS (Actividad) SLS (Clases) Lgico SLCS (Com unicacin) Fsico DWLS (Clases) ETL (Clases) Data Cube (Actividad)
Transportation SPS (Comp & Despliegue) Diagram DWPS (Comp & Depliegue) (Despliegue)
Diagram
Los esquemas que estn en negrilla son adicionados al DWEP, con la finalidad de incorporarlo a la metodologa BIEP:
Esquema conceptual de objetos en origen de datos (en ingls: Source Conceptual Object Schema SCOS)
Esquema de comunicacin de la fuente de datos (en ingls: Source Logical Communications Schema SLCS).
Esquema de secuencia de la bodega de datos (en ingls: Data Warehouse sequence Schema DWSS).
22
Captulo 2
53
Los anteriores diagramas se aplican de acuerdo con el diagrama de actividades del BIEP (Figura 17) y nos ofrecen las siguientes ventajas:
Mejor nivel de expresin en el modelamiento conceptual, lgico y fsico del proceso de inteligencia de negocios.
Cuenta con ms elementos de expresin, en tanto proviene del MOF [31]. Hace ms fcil la extensin.
2.4.1 Requerimientos
El resultado final de este flujo de trabajo es conocer los requerimientos del proceso de Inteligencia de negocios. Para el efecto, los usuarios finales deben especificar las medidas ms interesantes y agregaciones, las dimensiones de anlisis, las consultas para generar informes peridicos, la frecuencia de actualizacin de los datos, entre otros factores.
54
Para este flujo, BIEP, utiliza del modelo de casos de uso, el cual brinda una forma ms rpida de obtenerlas siguientes actividades, como se indic en la figura 2-4: Establecer los objetivos del negocio. Consiste en entender completamente lo que el cliente realmente quiere lograr, desde el punto de vista del negocio en funcin de las necesidades y expectativas. Dejar de hacer esta tarea significa hacer un gran esfuerzo para producir una respuesta correcta a preguntas equivocadas.
Definir los requisitos y las funciones deseadas para el sistema de inteligencia de negocios que se est creando.
Definir en trminos tcnicos los objetivos del proyecto de minera de datos a partir de los objetivos del negocio. Consiste en convertir preguntas de negocio en objetivos de minera de datos especificando el tipo de problema de minera de datos.
Una vez que se conoce el objetivo del negocio, la informacin que genera y los procesos involucrados, se selecciona las variables o datos que nos permitirn tomar las
decisiones adecuadas. Se debe tener claro si los datos nos permitirn evaluar a la organizacin y tomar decisiones para mejorar la competitividad del negocio, la mayora de las variables seleccionadas permiten evaluar la productividad, costos y desempeo de las operaciones internas del negocio. Las variables e indicadores seleccionados (Key Performace Indicator) deben permitir tomar decisiones a nivel operativo, a nivel gerencial y a nivel directivo. La frecuencia de obtencin de los indicadores e informacin operativa es mucho mayor que la frecuencia de informacin de tipo gerencial o directiva.
Para fines prcticos, en la figura 2-15, se observa el diagrama de casos de uso aplicado a un caso hipottico (Sales Manager), basado en el perfil de UML de casos de uso. En la parte izquierda se visualiza el diagrama de caso de uso, en la parte derecha se observa el formato de caso de uso extendido. Es de advertir que los requerimientos que permitieron llegar al diagrama estn enunciados en el numeral 1.3.3 del Captulo 1. En el captulo III se mostrar un caso de estudio con la aplicacin de la metodologa. Los
Captulo 2
55
elementos para este diagrama son: el actor, el caso de uso y las relaciones entre ellos. Al final sale un caso de uso en formato extendido.
2.4.2 Anlisis
El objetivo de este flujo de trabajo es el refinamiento y estructuracin de los requerimientos dados en la etapa anterior.
El refinamiento se logra siguiendo las lneas que deben tener los casos de uso obtenidos (independencia de entre los casos de uso, descripcin por medio del lenguaje del cliente y la funcionalidad intuitiva) [22]. En el anlisis se puede estructurar los requisitos de manera que facilite la compresin, preparacin y modificacin. En ste flujo de trabajo se realiza las siguientes tareas:
56
En esta etapa se documentan los sistemas de operaciones preexistentes que van a alimentan la bodega de datos. diagramas: Para esto BIEP sugiere el uso de los siguientes
Esquema conceptual de origen de datos (en ingls: Source Conceptual Schema SCS): Este diagrama proviene del DWEP, utiliza el perfil UML para el modelo conceptual y lgico de la Bodega de datos, y su objetivo es conocer que datos estn disponibles para alimentar la bodega de datos. Constituye una extensin del diagrama de clases y da una visin del modelo Entidad - Relacin (E-R) del origen de fuentes de datos. Adicionalmente, en este esquema se observan las entidades como clases y las relaciones como asociaciones entre clases.
En la figura 2-16, se observa la aplicacin de este diagrama a un almacn, compuesto por cuatro (4) clases provenientes de cuatro (4) tablas, siguiendo las lneas con las cuales se construy el ejemplo en la figura 2-15.
23
23
LUJAN, Sergio. Data WareHouse Desig with UML, Tesis Doctoral., Universidad de Alicante, 2005.Departamento de software y sistemas computacionales. Pg. 102
Captulo 2
57
Esquema conceptual de objetos en origen de datos (en ingls: Source Conceptual Object Schema SCOS): este diagrama est basado en el diagrama de objetos y es una instancia del esquema conceptual de orgenes de datos (SCS). Su funcin es facilitar la exploracin de ejemplos del "mundo real" por medios de objetos y las relaciones entre ellos.
Continuando con el ejemplo, en la figura 2-17, se observa una instancia aplicada al esquema conceptual de origen de datos, en la cual se visualizan dos rdenes de compra (001 y 002) provenientes del mismos consumidor, con los productos adquiridos.
Miami:Cities
Sony:Customer
001:Orders
Radio:Products
Play Statio
TV2:Products
002:Orders
Radio2:Products
Esquema Lgico de fuente de datos (en ingls: Source Logical Schema SLS): este diagrama proviene del DWEP, utiliza el perfil UML para el modelo conceptual y lgico de la bodega de datos, da una la estructura de la fuentes de datos con base del modelo relacional, en donde se representa las tablas y vistas como una clase y las relaciones como asociaciones.
58
Siguiendo con el ejemplo del almacn, en la figura 2-18, se observa este esquema cada entidad se representa por medio de una clase y cada relacin por medio de una asociacin, la multiplicidad se especifica por medio de la asociacin entre clases. Figura 2-18: Esquema Lgico de fuente de datos
24
Esquema de comunicacin de la fuente de datos (en ingls: Source Logical Communications Schema SLCS): este diagrama es una extensin del diagrama de comunicaciones del UML. Se utiliza para explorar la naturaleza dinmica de la fuente de datos. Este diagrama da la visin del flujo de mensajes entre los objetos de la fuente de datos, y tambin implica a las asociaciones de base (relaciones) entre las tablas y vistas. Este diagrama nos brinda las siguientes caractersticas:
Proporciona una visin panormica de una coleccin de objetos de colaborar, en particular en un entorno de tiempo real.
24
LUJAN, Sergio. Data WareHouse Desig with UML, Tesis Doctoral., Universidad de Alicante, 2005.Departamento de software y sistemas computacionales. Pg. 44
Captulo 2
59
En la asignacin de tareas que se deben realizar en la fuente de datos mediante la exploracin de los aspectos del comportamiento del sistema.
Modelo de lgico de la fuente de datos, en particular una que interacta con un gran nmero de otros objetos.
Explorar el papel que los objetos toman dentro de un sistema, as como las distintas relaciones en las que participan.
Frente al caso enunciado anteriormente, en la figura 2-19, observamos las actividades que realiza entre los diferentes objetos en las diversas tablas de las fuentes de datos.
3: Producto Disponible
TV:Products
Esquema fsico de las fuentes de datos (en ingls: Source Physical Schema SPS): este diagrama proviene del DWEP. Utiliza el perfil UML despliegue, define la estructura fsica de las fuentes de datos que van a alimentan la bodega de datos. Siguiendo el supuesto fctico, en la figura 2-20, se observa cmo se encuentra fsicamente la base de datos transaccional de la fuente de datos en un almacn.
60
25
Una vez realizado el anlisis de las fuentes de datos, se procede a seleccionar las tablas candidatas con los respectivos campos que deben alimentar la bodega de datos, dando una visin clara para el logro del objetivo del proceso de inteligencia de negocios.
2.4.3 Diseo
El objetivo principal de este flujo es el diseo conceptual de la bodega de datos adems se realiza un primer proceso de seleccin, limpieza, construccin, integracin y formateo de datos de los datos que se deben mapear entre la bodega de datos y la fuente de datos.
Para lograr estas actividades BIEP sugiere en este flujo, los siguientes diagramas:
Esquema conceptual de la bodega de datos (en ingls: Data Warehouse Conceptual Schema DWCS): este diagrama proviene del DWEP, utiliza el perfil UML
25
LUJAN, Sergio. Data WareHouse Desig with UML, Tesis Doctoral., Universidad de Alicante, 2005. Departamento de software y sistemas computacionales. Pg. 44
Captulo 2
61
para el modelo conceptual y lgico de la bodega de datos, permite representar las principales propiedades multidimensionales a un nivel conceptual, como son las relaciones muchos-a-muchos entre hechos y dimensiones, las dimensiones
degeneradas, las jerarquas mltiples y de camino alternativo, entre otras. Con el uso de los paquetes de UML se permite modelar bodegas de datos grandes y complejas. Adems en este diagrama se especifica que tipo implementacin que debe ser la bodega de datos (ROLAP, MOLAP, HOLAP). Figura 2-21: Niveles del esquema conceptual de la bodega de datos
26
Este diagrama propone el uso de tres niveles: Nivel 1: Definicin del modelo: un paquete representa un esquema estrella de un modelo multidimensional. En este nivel, una dependencia entre dos paquetes indica que los esquemas estrella comparten al menos una dimensin y conforman una constelacin.
26
LUJAN, Sergio. Data WareHouse Desig with UML, Tesis Doctoral., Universidad de Alicante, 2005.Departamento de software y sistemas computacionales. Pg. 102
62
Nivel 2: Definicin de un esquema estrella: Un paquete representa un hecho o una dimensin de un esquema estrella. En este nivel, una dependencia entre dos paquetes de dimensin indica que las dimensiones comparten al menos un nivel en sus correspondientes jerarquas.
Nivel 3: Definicin de un hecho o dimensin. Se compone de un conjunto de clases que representan los niveles jerrquicos en un paquete de dimensin o el esquema estrella completo en el caso de un paquete de hecho.
Frente al caso enunciado en la seccin 1.3.3 en la figura 2-21, se observa los tres niveles del diagrama de diseo conceptual de la bodega de datos y su aplicacin a un almacn.
Esquema de mapeo de datos (en ingls: Data Mapping DM): este diagrama proviene del DWEP, utiliza el perfil UML para el proceso ETL. Este diagrama es adaptado para representar el flujo de datos, con varios niveles de detalle en la bodega de datos.
Para capturar las interconexiones entre los distintos elementos de diseo, en trminos de los datos, empleamos la nocin de mapeo. Un mapeo se define mediante tres elementos lgicos:
El proveedor: una entidad (esquema, tabla o atributo) responsable de generar los datos que posteriormente se propagan.
El emparejamiento: que define la forma en la cual el mapeo se realiza, incluyendo cualquier tipo de transformacin o filtrado.
Siguiendo con el ejemplo del almacn, en la figura 2-22, se observa el mapeo nivel 3, entre la tabla de la fuente de datos y el espacio intermedio de la bodega de datos.
Captulo 2
63
27
Nivel de base de datos (o Nivel 0). En este nivel, cada esquema de la bodega de datos se representa mediante un paquete. Los mapeos entre los diferentes esquemas se modelan en un nico paquete de mapeo, que encapsula todos los detalles.
Nivel de flujo de datos (o Nivel 1). Este nivel describe las relaciones de datos a nivel individual entre las fuentes de datos hacia los respectivos destinos de la bodega de datos mediante un nico paquete.
Nivel de tabla (o Nivel 2). Este nivel describe las relaciones de datos en el nivel de tablas tanto de la fuente de datos, espacio temporal y la bodega de datos, se detalla todas las transformaciones intermedias que tienen lugar durante ese flujo.
27
LUJAN, Sergio. Data WareHouse Desig with UML, Tesis Doctoral., Universidad de Alicante, 2005. Departamento de software y sistemas computacionales. Pg. 108
64
Nivel de atributo (o Nivel 3). En este nivel, el diagrama de mapeo de datos captura los mapeos existentes a nivel de atributo.
Esquema de estados de mquina en la bodega de datos (en ingls: Data Warehouse State Machine Schema DWMSS), es basado del diagrama de estados de mquina, representan al comportamiento dinmico de una entidad en base a su respuesta a los acontecimientos, mostrando cmo la entidad reacciona ante los eventos diversos en funcin de su estado actual.
De acuerdo con el ejemplo de la seccin 1.3.3, en la figura 2-23, se presenta los estados para hacer el proceso de mapeo del espacio temporal con la tabla proveedor, pasando por el espacio temporal de la bodega de datos.
Esquema de actividades de la bodega de datos (en ingls: Data Warehouse Activity Schema DWAS) [41] Es basado en el diagrama de actividades, este diagrama es el equivalente de diagramas de flujo de datos en el desarrollo estructurado de la bodega de datos.
Siguiendo con el ejemplo, en la figura 2-24, se ve las actividades que se deben realizar en el efecto de las promociones en las ventas.
Captulo 2
65
Fuente. Veronika Stefanov, Beate List, Birgit Korherr. Extending UML 2 Activity Diagrams with 28 Business Intelligence Objects
2.4.4 Implementacin
Durante este flujo de trabajo, la bodega de datos se construye: La estructura fsica de la bodega de datos se construyen, empiezan a recibir datos de los sistemas operaciones, se afina para un funcionamiento optimizado, entre otras tareas.
Para cumplir estas tareas, BIEP utiliza los siguientes artefactos: Esquema lgico de la bodega de datos (en ingls: Data Warehouse Logical Schema DWLS): este diagrama proviene del DWEP, utiliza el perfil UML para el modelo conceptual y lgico de la bodega de datos. Este describe los tipos de datos fsicos a disear en la bodega de datos tanto en las tablas de hecho como en las dimensiones. Siguiendo el supuesto fctico, en la figura 2-25, se observa el diagrama lgico de la bodega de datos de ventas adems se puede expresar las operaciones y de arquitectura ROLAP.
28
STEFANOV, Veronika, LIST Beate y KORHERR List, Extending UML 2 Activity Diagrams withc Business Intelligence Objects. {En lnea}, {5 mayo de 2008} disponible en: (www.wit.at/people/korherr/publications/dawak2005.pdf). Pg. 9
66
29
Esquema lgico de objetos la bodega de datos (en ingls: Data Warehouse Logical Object Schema DWLOS), basado en el diagrama de objetos, Este diagrama es una instancia del DWLS, el cual facilita la exploracin de ejemplos del "mundo real" por medios de objetos y las relaciones entre ellos. De acuerdo con el ejemplo anterior, en la figura 2-26, se observa una instancia aplicada a la bodega de datos del almacn. Figura 2-26: Esquema lgico de objeto de la bodega de datos
Jorge:SalesPerson
1:AutoSale
27022010:Time
IBC:Customers
29
LUJAN, Sergio. Data WareHouse Desig with UML, Tesis Doctoral., Universidad de Alicante, 2005.Departamento de software y sistemas computacionales. Pg.165
Captulo 2
67
Esquema fsico de la bodega de datos (en ingls: Data Warehouse Physical Schema DWPS), este diagrama proviene del DWEP, utiliza el perfil UML despliegue. Define la estructura fsica de la bodega de datos.
Siguiendo el supuesto fctico de la seccin 1.3.3, en la figura 2-27, se observa el despliegue de la bodega de datos de ventas. Figura 2-27: Esquema fsico de la bodega de datos
30
Proceso de ETL (en ingls: ETL Process), este diagrama proviene del DWEP, utiliza el perfil UML para el proceso ETL. Este proporciona los mecanismos necesarios para especificar las operaciones tpicas de los procesos ETL de acuerdo a la tabla 2-2. Un proceso ETL se define combinando los distintos mecanismos. De acuerdo del ejemplo del almacn, en la figura 2-28, se observa el proceso ETL de entre la fuente de datos y las tablas de la bodega de datos (dimensiones y tabla de hecho).
30
LUJAN, Sergio. Data WareHouse Desig with UML, Tesis Doctoral., Universidad de Alicante, 2005.Departamento de software y sistemas computacionales. Pg.170.
68
Tabla 2-2:
Filtro Datos Incorrectos Join Log Mezcla Llave Subrogada Conversin Agregacin Envoltura Carga Espacio Temporal Base de datos Archivo Tabla de Hecho Dimensin Figura 2-28: Proceso ETL
31
31
LUJAN, Sergio. Data WareHouse Desig with UML, Tesis Doctoral., Universidad de Alicante, 2005.Departamento de software y sistemas computacionales. Pg.140.
Captulo 2
69
Esquema de secuencia de la bodega de datos (en ingls: Data Warehouse sequence Schema DWSS): se basa en el diagrama de secuencias, permite validar y dar contenido a la lgica y la integridad de un escenario de uso. Adems Explorar su diseo debido a que proporcionan un camino para que den un paso visualmente a travs de la invocacin de las operaciones definidas en la bodega de datos. Nos permite modelar en el tiempo los diversos procesos de la bodega de datos.
Siguiendo de acuerdo con el ejemplo, en la figura 2-29, podemos observar el diagrama de secuencia del administrador del sistema con la carga de la fuente de datos de la tabla proveedor a la dimensin de proveedor de la bodega de datos, pasando por el espacio temporal de almacenamiento. Este diagrama es nuevo para el DWEP.
Diagramas de transporte de integracin (en ingls: Integration Transportation Diagrams ITD), este diagrama proviene del DWEP. Se basa de los perfiles UML para el proceso ETL y el despliegue. Define la estructura fsica de los procesos ETL empleados en la carga de datos en la bodega de datos desde las fuentes de origen de datos. Se emplea para establecer la relacin entre el diagrama anterior y el siguiente.
De acuerdo con el ejemplo anterior, en la figura 2-30, se observa el diagrama de transporte de integracin desde las fuentes de datos al servidor que realiza el proceso ETL.
70
32
Diagrama de transporte de optimizado (en ingls: Customization Transportation Diagram CTD): proviene del DWEP, se basa de los perfiles UML para el proceso ETL y el despliegue. Define los procesos de exportacin fsicos desde el almacn de datos hacia las estructuras empleadas por los clientes. Se emplea para establecer la relacin entre el diagrama anterior y el siguiente. Siguiendo el supuesto fctico, en la figura 44, se muestra el diagrama de transporte personalizado, en este se da la salida desde la bodega de datos a los clientes. Figura 2-31: Diagrama de transporte de optimizado
33
32
LUJAN, Sergio. Data WareHouse Desig with UML, Tesis Doctoral., Universidad de Alicante, 2005.Departamento de software y sistemas computacionales. Pg. 169. 33 Ibd., Pg. 170.
Captulo 2
71
En este flujo se retroalimenta de la bodega de datos y se da el inicio a la generacin de una tcnica de anlisis de datos por medio de tcnicas OLAP o tcnicas de minera de datos.
Para logara estas tareas, BIEP recomienda para el anlisis por medio de tcnicas OLAP el siguiente diagrama:
Diagrama de cubo dimensional (en ingls: Data cube diagrams DCD) [33] est basado del en el diagrama de actividades, este permite desarrollar todas las operaciones que se realizan en el cubo dimensional aplicando los indicadores encontrados en el flujo de trabajo de requerimientos. Frente al caso enunciado con anterioridad, en la figura 2-32, se ve las actividades que se deben realizar en el almacn para realizar las operaciones en el cubo como son drill, unin y roll up.
Fuente. J Pardillo, Mo Golfarelli, S Rizzi y J Trujillo, Visial Modelling of data warehosing flows with 34 UML Profile
Para el proceso de minera de datos la metodologa BIEP recomienda los siguientes diagramas:
34
PARDILLO, Jess, GOLFARELLI, Matteo, RIZZI, Stefano y TRUJILLO, Juan, Visual Modelling of data warehosing flows with UML Profile. Pg. 3
72
Diagrama de minera de datos para el anlisis, seleccin transformacin de datos (en ingls: Data Mining Analysis, selection, Transform schema DMASTS): utiliza el perfil UML para el proceso de anlisis, seleccin y transformacin de datos. Es el encargado de revisa los datos provenientes de la bodega de datos realizando las etapas de: seleccin, limpieza, transformacin y reduccin de datos.
Con el uso de los paquetes de UML se permite modelar cada etapa por separado permitiendo tener dos niveles de expresin de este diagrama:
Nivel 1: Definicin de la etapas: un paquete representa una etapa previa a cada tcnica de minera de datos.
Nivel 2: Definicin del anlisis de datos: se importa el diagrama lgico de la bodega de datos (DWLS) y segn la tcnica de minera de datos se les aplica a los datos la diferentes tareas.
En la figura 2-33, se observa los paquetes aplicados al proceso del prstamo de un libro en una biblioteca, en la parte inferior se encuentra el nivel 2 donde se observa cmo estn los datos en la tabla de hechos en el paquete de seleccin. Figura 2-33: Esquema de paquetes de anlisis, seleccin y transformacin.
Captulo 2
73
En cada paquete (nivel 1) se puede realizar las tareas en el paquete de anlisis se selecciona al atributo: histogramas, grfico de cajas y dispersin. En el paquete de seleccin se puede ala atributo colocar como proviene de la bodega de datos: completo, incompleto, con ruido, e inconsistente. En el paquete de transformacin al atributo se le puede seleccionar: normalizacin o reduccin.
En este diagrama los estereotipos aplicados a cada atributo se observa de acuerdo tabla 6.
Tabla 2-3: Estereotipos de atributos para el anlisis, seleccin transformacin de datos Estereotipos de Atributos para el anlisis Histogramas Dispersin Grafico de cajas Estereotipos de Atributos para la seleccin Datos Completos Datos Ruido Datos incompletos Datos inconsistentes Estereotipos de Atributos para Transformacin (Reduccin de datos) Agrupamiento Discretizacin Seleccin Estereotipos de Atributos para Transformacin (Normalizacin) Min Max Decimal Z store
El modelamiento de datos es un proceso iterativo donde se puede dar en forma descriptiva (reglas de asociacin y agrupamiento) o predictiva (clasificacin y series de tiempo), para esto se incorpora al BIEP los modelos planteados de minera de datos por el doctor Zubcoff basados en el CWM.
74
Esquema de minera de datos con reglas de asociacin (en ingls: Data Mining association rule schema DMARS), utiliza el perfil UML de reglas de asociacin. En la tcnica de reglas de asociacin se busca las relaciones entre tems en un conjunto de datos. El objetivo de las reglas de asociacin es encontrar asociaciones o correlaciones entre los elementos u objetos de bases de datos transaccionales, relacionales o bodegas de datos.
Las reglas de asociacin se miden en trminos de soporte y confianza. El soporte determina como es aplicable la regla y la confianza determina la frecuencia de del tem en Y aparece en la transaccin que contiene X. Un caso es el permite saber cmo se van a agrupar los datos bajo anlisis. Desde el punto de vista multidimensional el caso puede ser cualquier atributo de una dimensin dado que estos agrupan las medidas de la tabla de hechos. Los atributos de entrada al algoritmo permiten la generacin del conjunto de tems frecuentes. Adems sirven para el estudio de las relaciones con el atributo seleccionado como prediccin [47].
En la figura 2-34, se observa la aplicacin de reglas de asociacin al caso del almacn, de acuerdo al enunciado de la seccin 1.3.3. En el diagrama lgico de la bodega de datos se selecciona el caso, y los atributos de entrada y prediccin de acuerdo al algoritmo. Este esquema utiliza los estereotipos mostrados en la tabla 2.4.
Tabla 2-4:
Captulo 2
75
Fuente. Jos Jacobo Zubcoff Vallejo, Un conjunto de perfiles de UML para el Modelado conceptual de tcnicas de minera de datos sobre almacenes de datos, 2009, Universidad de 35 Alicante.
Esquema de minera de datos con clasificacin (en ingls: Data Mining classification schema DMCS): utiliza el perfil UML de clasificacin. En la tcnica de clasificacin el analista de los datos debe seleccionar los atributos. Estos atributos pueden tener bsicamente dos roles: de entrada y de prediccin. El modelo multidimensional presenta de una manera cercana al analista todos los atributos disponibles, sus relaciones y su estructura jerrquica. Dado que el algoritmo usar cada elemento seleccionado como entrada como un candidato para particionar el atributo a predecir se debe tener en cuenta que los atributos que estn correlacionados.
Si se escoge atributos de una de misma dimensin como entrada y prediccin el resultado ser que estos atributos correlacionados estarn presentes en las primeras ramas del rbol de clasificacin y pierde inters el patrn encontrado.
El analista debe tener en cuenta cul es el atributo por el que se agrupar el conjunto de datos [47].
35
ZUBCOFF, Jos. Un conjunto de perfiles de UML para el Modelado conceptual de tcnicas de minera de datos sobre almacenes de datos, 2009, pginas: 226. Universidad de Alicante. Departamento de Lenguajes y Sistemas Informticos. Pg. 68.
76
En la figura 2-35, observamos la aplicacin clasificacin en un caso enunciado en por Zubcoff 36 sobre la captura de peces. Figura 2-35: Esquema de minera de datos con clasificacin
Fuente. Jos Jacobo Zubcoff Vallejo, Un conjunto de perfiles de UML para el Modelado conceptual de tcnicas de minera de datos sobre almacenes de datos, 2009, Universidad de 37 Alicante
Tabla 2-5:
36
ZUBCOFF, Jos. Un conjunto de perfiles de UML para el Modelado conceptual de tcnicas de minera de datos sobre almacenes de datos, 2009, pginas: 226. Universidad de Alicante. Departamento de Lenguajes y Sistemas Informticos. Pg. 96. 37 Ibd. Pg. 98.
Captulo 2
77
Esquema de minera de datos por agrupamiento (en ingls: Data Mining clustering schema DMCLS), utiliza el perfil UML para Agrupamiento. Las tcnicas de minera de datos con agrupamiento pueden ser fcilmente aplicadas para descubrir grupos con comportamientos similares en base al hecho bajo estudio, a lo largo de las distintas dimensiones y a cualquier nivel de sus jerarquas.
Dadas las caractersticas de las tcnicas de agrupamiento, cuyos atributos son todos de entrada, no requieren que exista un atributo de prediccin como en otras tcnicas de minera de datos. Por tanto, los elementos que definen un modelo conceptual de agrupamiento pueden ser de dos tipos: Caso o Entrada. El primero sirve para definir el nivel de detalle en el anlisis, y el segundo simplemente define los atributos que participan en el proceso de agrupamiento [47].
En la figura 2-36 observamos la aplicacin de la tcnica de agrupamiento al caso del almacn de acuerdo con lo enunciado por Zubcoff38.
Tabla 2-6:
38
ZUBCOFF, Jos. Un conjunto de perfiles de UML para el Modelado conceptual de tcnicas de minera de datos sobre almacenes de datos, 2009, pginas: 226. Universidad de Alicante. Departamento de Lenguajes y Sistemas Informticos. Pg. 116.
78
Fuente. Jos Jacobo Zubcoff Vallejo, Un conjunto de perfiles de UML para el Modelado conceptual de tcnicas de minera de datos sobre almacenes de datos, 2009, Universidad de 39 Alicante
Esquema de minera de datos por series de tiempo (en ingls: Data Mining time series schema DMTSS), es basado en el diagrama de clases. Esta tcnica permite descubrir patrones o tendencias a lo largo del tiempo y as proporcionar conocimiento del sistema subyacente, utilizndose ampliamente en distintos campos de la ciencia y tambin en la empresa cuando se necesita anticipar o predecir los valores futuros de una variable. Los objetivos de este tipo de anlisis son: (i) identificar la naturaleza del fenmeno representado por la serie temporal y (ii) predecir los valores futuros de la variable temporal. Ambos requieren la identificacin de patrones de la serie temporal observada. Por ello, el tiempo es un atributo presente en cada modelo de anlisis, identificando la serie temporal incluso a diferentes escalas (das, semanas, meses, etc.).[47]
39
ZUBCOFF, Jos. Un conjunto de perfiles de UML para el Modelado conceptual de tcnicas de minera de datos sobre almacenes de datos, 2009, pginas: 226. Universidad de Alicante. Departamento de Lenguajes y Sistemas Informticos. Pg. 116.
Captulo 2
79
En la figura 2-37, observamos la aplicacin de series de tiempo al de captura de peces de acuerdo con el problema dado por Zubcoff40.
Fuente. Jos Jacobo Zubcoff Vallejo, Un conjunto de perfiles de UML para el Modelado conceptual de tcnicas de minera de datos sobre almacenes de datos, 2009, Universidad de 41 Alicante
2.4.6 Despliegue
En este flujo de trabajo se determina la forma en que los resultados deben ser utilizados. En esta actividad se obtiene:
Planificacin de despliegue.
40
ZUBCOFF, Jos. Un conjunto de perfiles de UML para el Modelado conceptual de tcnicas de minera de datos sobre almacenes de datos, 2009, pginas: 226. Universidad de Alicante. Departamento de Lenguajes y Sistemas Informticos. Pg. 134. 41 Ibd. Pg. 135.
80
BIEP propone para este flujo de trabajo los siguientes diagramas: Esquema conceptual del cliente (en ingls: Client Conceptual Schema CCS), este diagrama proviene del DWEP, este diagrama es una extensin del diagrama de clase. Representa la forma visual dada por el cliente para visualizar los datos, este proceso se desarrolla por parte del desarrollador del proceso de inteligencia de negocios y el usuario final, en la actualidad las herramientas case permiten que el usuario final modele estos informes con diversas formas. Esquema lgico del cliente (en ingls: Client Logical Schema CLS), este diagrama proviene del DWEP, se basa en el diagrama de clases, este selecciona los datos lgicos a modelar y se da los diversos parmetros que se deben entregar los reportes o informes que deben arrojar del proceso de anlisis de los datos al usuario final.
Esquema fsico del cliente (en ingls: Client Physical Schema CPS), este diagrama proviene del DWEP, utiliza el perfil UML despliegue. Define la estructura fsica de las estructuras concretas que son empleadas por los clientes para acceder a la bodega de datos de datos.
Frente al caso enunciado en la seccin 1.3.3, en la figura 2-38, se observa el entorno del cliente donde se va a visualizar los reportes dados por la tcnica de anlisis de datos.
Captulo 2
81
42
2.4.7 Pruebas
El objetivo de este trabajo es verificar que la aplicacin funcione correctamente. Ms concretamente, los efectos de las pruebas son los siguientes:
Revisar el proceso.
Para este flujo BIEP sugiere el uso del formato de la tabla 2-7 donde se observe el nombre del caso de uso, el responsable, el propsito y la historia del seguimiento del caso y el nmero de ciclos.
42
LUJAN, Sergio. Data WareHouse Desig with UML, Tesis Doctoral., Universidad de Alicante, 2005.Departamento de software y sistemas computacionales. Pg.170.
82
Tabla 2-7:
2.4.8 Mantenimiento
A diferencia de la mayora de los sistemas, el proceso de inteligencia de negocios es un proceso que se retroalimenta constantemente. El objetivo de este flujo de trabajo es definir la actualizacin y carga de los procesos necesarios para mantener este proceso. Este flujo de trabajo comienza cuando se construye la el proceso de inteligencia de negocios y es entregado a los usuarios finales, pero no tiene una fecha de finalizacin. Durante este trabajo, los usuarios finales pueden tener nuevas necesidades, tales como las nuevas consultas, lo que desencadena el comienzo de una nueva iteracin con los requisitos de flujo de trabajo.
Captulo 2
83
Definicin del proceso de inteligencia de negocios en los niveles conceptual, lgico y fsico.
Definicin una notacin grfica basada en un leguaje de modelado unificado (UML 2.3).
Definicin de tabla de hecho. En este permite la definicin de las medidas atmicas, derivadas y aditivas. Adems permite la degeneracin de ella
Por ltimo BIEP permite el manejo de la tcnica de anlisis de datos por medio de tcnicas de minera de datos y tcnicas OLAP.
Las cuatro (4) fases de esta metodologa son: inicio, elaboracin, construccin y transicin, stas se ejecutan en forma iterativa e incremental. En las fases inicio y
84
elaboracin se realizan las actividades de desarrollo, y en las fases construccin y transicin se comete la construccin y el paso a la produccin del proyecto.
Los nueve (9) flujos de trabajo de BIEP son: requerimientos, anlisis, diseo, implementacin, preparacin, modelado y evaluacin, despliegue, pruebas,
mantenimiento y revisin post desarrollo. Los cuales se despliegan en una o en varias fases.
El cruce entre las fases y los flujos de trabajo generan los siguientes diez (10) modelos (figura 16): casos de uso, anlisis, diseo, implementacin, OLAP, minera de datos, despliegue, pruebas, mantenimiento y revisiones post desarrollo.
Esta metodologa se observa como un diagrama de actividades de UML (figura 17), lo cual le da una ventaja, ya que se siguen los pasos de ejecucin. En cada actividad se observa los diagramas que se deben usar.
Cada modelo se representa por perfiles de UML, los cuales son particularizacin de los diagramas de UML. Esta metodologa desarroll nueve (9) perfiles basados en los diagramas de clases, objetos, despliegue, casos de uso, secuencia y maquina de estado. Estos son: casos de uso, bodega de datos, proceso ETL, despliegue, proceso de anlisis, seleccin y transformacin de datos, reglas de asociacin, clasificacin, agrupamiento y anlisis de serie de tiempo. De stos se extiende los veintisiete (27) diagramas, que estn distribuidos de la siguiente forma: integracin: dieciocho (18) diagramas, anlisis de datos: seis (6) diagramas y despliegue: tres (3) diagramas.
Esta metodologa nos brinda apoyo en la definicin clara de las dimisiones y tabla de hechos, por medio de una notacin grfica basada lenguaje de modelado unificado (UML).
Para el efecto, se utiliz la herramienta Eclipse Galileo 2010 [15], en su versin de modelamiento, en cuanto sta ofrece las siguientes caractersticas:
Construccin de entornos de desarrollo integrados (En Ingls: integrated development environment IDE), desarrollado en cdigo abierto, el cual permite el desarrollo de aplicaciones en Java (en ingls: Java Development Tools). Adems ofrece mecanismos para integrar otras aplicaciones, esto es, tiene el atributo denominado plug-ins.
Cuenta con la herramienta Eclipse Modeling Framework (EMF) [42], la cual soporta el modelamiento estructurado y facilita la generacin de cdigo para la
86
construccin de otras aplicaciones basadas en modelos de datos estructurales. Desde la especificacin del modelo en XML, EMF da las herramientas y soporte en tiempo de ejecucin, produciendo el conjunto de clases de Java del modelo. Este conjunto de clases adaptadas permite una vista y edicin de comandos basados en modelo. EMF es una implementacin en Eclipse del meta modelo Meta-Object Facility MOF.
Permite la utilizacin de la herramienta Graphical Modeling Framework (GMF) [14], la cual genera el modelo en un editor grfico basado en EMF y GEF.
Un rasgo importante de GMF es la definicin de diferentes dominios y aplicaciones, permitiendo modelar separadamente los componentes grficos que corresponde a cada uno de los elementos del dominio y definir la herramienta de paleta, donde cada herramienta corresponde a una primitiva. Para completar el proceso para la generacin grafica del editor del dominio, GMF da una definicin para el mapeo de cada primitiva asociada con el componente de modelo, con el editor grfico y ste genera automticamente el modelo.
Facilita la definicin de perfiles UML, especificndose de forma ms clara las relaciones que pueden darse entre los elementos del modelo y el uso de las meta clases de un metamodelo dentro del perfil.
Por las anteriores razones, se determin hacer la validacin en ECLIPSE Galileo 2010, para lo cual se le implementaron los perfiles y los modelos de la metodologa BIEP. Es de aclarar que se puede implementar BIEP desde la versin ECLIPSE Ganymede o superior, debido a que tiene implementado las herramientas de modelado basado en UML 2.
Como parte fundamental del prototipo de software, es menester que los perfiles de la metodologa BIEP, definidos en la seccin 3.3, se encuentren implementados. Esto se
Captulo 3
87
logra en Eclipse, teniendo cargados los mdulos UML2 y sus dependencias, labor que se hace marcando las opciones adecuadas en Software Update del men Ayuda. A continuacin se debe crear un proyecto de modelado y en l se crean los diagramas de definicin de perfiles.
Los siguientes diagramas son los creados basados en los perfiles de la metodologa BIEP:
ETLProcess.umlprofile: Perfil UML para el proceso de extraccin, carga y transformacin de datos (ETL)
MDRA.umlprofile: Perfil UML para la tcnica de minera de datos para las reglas de asociacin.
SPS_DWPS.umlprofile: Perfil UML para el despliegue fsico de la bodega de datos, las fuentes de datos y el cliente.
88
Estos perfiles se pueden importar y ser usados sin necesidad de volverlos a definir en cualquier herramienta CASE que soporte MOF.
En los anexos B y D de este documento, se encuentra el manual de usuario para la utilizacin de estos perfiles y se explica cmo se realizo la implementacin de cada uno, respectivamente.
Figura 3-1:
Modelo de objetos
Captulo 3
89
Para aplicar la metodologa en Eclipse Galileo 2010, se debe crear un proyecto de modelado, en el se establecen los diagrama de UML 2.3 que se desea utilizar, por ejemplo, para la creacin del esquema lgico de la bodega de datos se crea un diagrama de clase. Luego se adicionan las diferentes clases que representan las dimensiones y las tablas de hecho. Posteriormente se incorpora el perfil al diagrama de clases y se le aplica el estereotipo a la clase segn corresponda (dimensin o tabla de hecho). Esto se puede ver en el anexo B para todos los diagramas de la metodologa.
Con ms de treinta y sietes (37) sedes a nivel nacional, es una de las universidades con ms estudiantes en Colombia, por ende sus bibliotecas deben contar con un gran volumen de libros, revistas, diarios y publicaciones que estn a disposicin de sus usuarios.
La biblioteca central se encuentra ubicada en la sede principal de la Universidad y ofrece varios servicios para el bienestar de los estudiantes y del pblico en general, tales como el prstamo de libros, servicio de hemeroteca y acceso a bases de datos de otras
90
instituciones gracias a los acuerdos firmados por las directivas, el primero de los servicios el ms importante.
El volumen de los prstamos es cercano a los 100.000 registros por ao, considerando a todos los usuarios y sedes. Sin embargo, los datos que se tendrn en cuenta para la presente validacin, sern aproximadamente 50.000 registros, correspondientes a los prstamos efectuados en el primer semestre del ao 2008 y todo el ao del 2007, en la sede central de la biblioteca.
3.2.2.1 Requerimiento
Con el objeto de lograr un flujo de trabajo que nos muestre la visin para la construccin de la bodega de datos y las tcnicas de anlisis de datos para la biblioteca central de la universidad Antonio Nario, se realizaron las siguientes actividades:
Generacin de los diagramas de casos de uso con base a la informacin suministrada por los encargados y usuario de la biblioteca (Figura 3-2).
De este anlisis, se desprende la necesidad de realizar el sistema de inteligencia de negocios asociado al proceso de prstamo de libros, cuyo documento final se incluye como Anexo A, en donde se encuentra: posicionamiento, descripcin de participantes en
Captulo 3
91
el proyecto y usuarios, descripcin global del producto, otros requisitos del producto y la documentacin requerida, lo cual permiti la definicin del objetivo del negocio y de los requisitos y las funciones deseadas para el sistema de inteligencia de negocios.
Para el este proyecto se tuvieron en cuenta los siguientes indicadores claves del negocio (KPI):
Superacin del prstamo diario de material bibliogrfico. Formula: Se realiza por proyeccin un prstamo mayor a 200 elementos de material bibliogrfico diario.
Superacin del prstamo mensual de material bibliogrfico. Formula: Se realiza por proyeccin un prstamo mayor a 3000 elementos de material bibliogrfico al mes.
Prstamo por cada material bibliogrfico al ao. Formula: Das de prstamos del material bibliogrfico > 100 al ao.
Valor de la multa por periodo mes. Formula: Suma de las multa por mes <$100000.
Se traz como objetivo de la minera de de datos la aplicacin de las siguientes tcnicas: reglas de asociacin, agrupamiento y clasificacin sobre toda la tabla de hechos, para la generacin de nuevo conocimiento.
En la figura 3-2 se observan los casos de usos aplicados al prstamo de libros en la biblioteca central. En la parte izquierda se encuentra el usuario final y en la parte derecha el caso de uso de prstamo de libros. A partir del mismo se extiende el prstamo de sala, fecha, ISBN, ttulo, departamento y combinacin de los diferentes prestamos.
92
Figura 3-2:
3.2.2.2 Anlisis
En este flujo de trabajo se realiz el anlisis de las fuentes de datos que poblarn la bodega de datos de la biblioteca para lo cual se realizaron los siguientes diagramas: SCS, SCOS, SLS y SPS.
En las fuentes de datos se encontraron dos bases de datos cuyo sistema manejador es MySQL, las cuales estn compuestas de 70 tablas y 6 vistas. Siguiendo con los requerimientos sobre el prstamo de libros, se consideran las tablas de este proceso para el diseo de la bodega de datos, a saber: prestamo, det_prestamo, tipo_prestamo, libro, sala, editorial, usuario, programa, descripcion_pretamo, descripcion_editorial, descripcion_autor y facultad, obteniendo las siguientes estadsticas: Total de Registros 50922. Tamao de los datos en disco duro 101 MB.
En la figura 3-3 se observa el diagrama conceptual de las fuentes de datos SCS, el cual es una representacin del diagrama E-R de las fuentes de datos en un diagrama de clases. As se expresan las ocho entidades (prestamo, det_prestamo, tipo_prestamo, libro, sala, editorial, usuario, programa y facultad.): ocho clases y sus relaciones como asociaciones, lo que explica la multiplicidad entre las entidades en el caso de estudio Prstamos de libros.
Captulo 3
93
Figura 3-3:
En la figura 3-4 se observa el diagrama conceptual de objetos de las fuentes de datos SCOS, el cual es una instancia del SCS. A ttulo de ejemplo, en el prstamo nmero 1000, del da 5/5/2010, se muestra el detalle del prstamo: libro The data Warehouse Toolkitt, con sus respectivos autores y editorial.
Figura 3-4:
94
En la figura 3-5 se observa el diagrama lgico de la fuente de datos SLS, el cual representa el diagrama relacional de la fuente de datos de la biblioteca central. Se encuentran once (11) tablas, las cuales representan en once (11) clases y la relacin de asociacin entre las entidades. Figura 3-5: SLS del prstamo de la biblioteca
En la figura 3-6 se muestra el diagrama fsico de la fuente de datos SPS, incluyendo los elementos fsicos de la biblioteca central, en particular, que cada servidor contiene en hardware un procesador Core Dual de 2 GHZ, memoria 4 GHZ, sistema operativo Windows 2003 server, 2 discos duros de 250 GB cada uno. En el primero se encuentra instalado el sistema operativo, y en el segundo almacena la estructura de la base de datos en un motor de bases de datos MySQL 5.0. Figura 3-6: Esquema fsico del servidor para el prstamo de la biblioteca
Captulo 3
95
3.2.2.3 Diseo
El Objetivo de este flujo de trabajo es dar una visin y revisar los requerimientos para entender y desarrollar apropiadamente la bodega de datos de la biblioteca central de la universidad Antonio Nario. Para estos fines, se desarrollaron los siguientes diagramas: esquema conceptual de la bodega de datos (DWCS), diagrama de mapeo de datos (DM), esquema de secuencias de la bodega Datos (DWSS), esquema de estados de mquinas de la bodega de datos (DWSMS) y esquema de actividad de la bodega de datos (DWAS). En la figura 3-7 se muestra el esquema conceptual de la bodega de datos (DWCS), dividido en varios niveles. En el nivel 0 est el diagrama estrella del prstamo de libros de la biblioteca. En el nivel 1 se tienen los elementos bsicos de la estrella tabla de hecho (prstamo) y las diferentes dimensiones (tiempo, usuario, libro, facultad, sala y programa). En el nivel 2 se adicionan los elementos bases de cada dimensin y de la tabla de hecho. Figura 3-7: biblioteca Esquema conceptual de la bodega de datos del prstamo de la
Nivel 0
Nivel 1
96
Nivel 2
En la figura 3-8 se observa el diagrama de mapeo (Data Mapping), el cual contiene diversos niveles: lustracin 3-8: Diagrama de Mapeo del prstamo de la biblioteca
Nivel 0
Nivel 1
Nivel 2
Captulo 3
97
En el nivel 0 est una visin general del mapeo de los diferentes atributos que se extrajeron desde la fuente de datos hasta la carga de la bodega de datos. En la metodologa de Kimball se propone el uso de espacios temporales de almacenamiento, para realizar todo el proceso de transformacin de los datos, recomendacin que fue acatada en el caso de la biblioteca, por mostrar resultados benficos para el mapeo.
En el nivel 1 se tienen todos los mapeos y elementos disponibles, los cuales, en el caso en estudio fueron las fuentes de datos, el espacio de almacenamiento temporal y la bodega de datos.
En el nivel 2 encontramos el mapeo de cada atributo entre la fuente de datos y el espacio temporal, lo cual brind una visin sobre las posibles transformaciones que se deben dar para su correcta carga.
En la figura 3-9 se observa el esquema de secuencia de la bodega de datos (DWSS), Este nos brinda los pasos que se realizaran entre la fuente de datos de la biblioteca y la bodega de datos del prstamo del libro. Adems, presenta las secuencias que se deben seguir en el proceso ETL, basado en el anlisis del diagrama de mapeo de datos.
De acuerdo a lo anterior, en el caso en estudio, la tabla autor de la fuente de datos pasa al espacio temporal y, a partir de ste, a la dimensin autor. Cada mensaje tiene su respuesta para saber si se realizo adecuadamente el proceso, en caso de fallo enva el mensaje al archivo de eventos.
98
En la figura 3-10 se muestra el esquema de diagrama de estados de mquinas para la bodega de datos (DWSMS), que, en el caso de estudio, modela el comportamiento que se debe seguir en el proceso ETL en todas las dimensiones, especificando la secuencia de eventos que atraviesa durante este proceso. Para el efecto, primero se debe realizar la apertura de la fuente de datos de la biblioteca y, con posterioridad, leer y extraer los datos de la base de datos de cada tabla. Estos datos hay que transformarlos de acuerdo con el diagrama de mapeo y cargarlos en el espacio temporal, concluyendo con la extraccin de los datos y cargndolos en la bodega de datos.
En la figura 3-11 se utiliza el esquema de actividades de la bodega de datos (DWAS) para mostrar el flujo de trabajo desde el punto de inicio hasta el punto final, detallando las
Captulo 3
99
rutas de decisiones que existen en el progreso de eventos contenidos en la actividad. En el prstamo de la biblioteca se evidencian las actividades que deben realizarse para la generacin del cubo OLAP: primero se debe realizar el anlisis del prstamo, luego realizar la seleccin por medio del libro o del usuario y por ltimo se realiza el anlisis OLAP. Figura 3-11: DWAS del prstamo de la biblioteca
3.2.2.4 Implementacin
Para este flujo de trabajo se plane y se ejecut: El modelo lgico y fsico de la bodega de datos para la biblioteca central de la universidad Antonio Nario, siguiendo el modelo conceptual planteado en el flujo de trabajo anterior.
El proceso de extraccin, transformacin y carga de datos (ETL) desde las fuentes hasta la bodega.
Se desarrollaron para el caso de estudio los siguientes diagramas: esquema lgico de la bodega de datos (DWLS), esquema lgico de objetos de la bodega de datos (DWLOS), esquema fsico de la bodega de datos, proceso ETL, diagramas de transporte y esquema fsico del cliente.
100
En la figura 3-12 se presenta el modelo lgico de la bodega de datos (DWLS), el cual ensea el diagrama estrella para la biblioteca central basado del diagrama conceptual de la bodega de datos. Para el caso de estudio se representa las dimensiones (tiempo, usuario, facultad, autor y sala) y tablas de hechos (prstamo del libro). Cada tabla de hecho y las diferentes dimensiones se representan por medio de clases con sus respectivos atributos y con el tipo de dato que almacena en la bodega de datos. Las relaciones se representan como asociaciones entre las dimisiones y la tabla de hecho.
En la figura 3-13 se observa el esquema lgico de objetos de la bodega de datos (DWLOS), el cual constituye una instancia del esquema lgico de la bodega de datos para el prstamo de libros. A ttulo de ejemplo, se toma el prstamo No. 1000 en la bodega de datos, mostrando en la tabla de hechos el nmero de das del prstamo, los das del prstamo, la cantidad de libros y las multas. As mismo, en las dimensiones, se encuentran los diferentes objetos.
Captulo 3
101
En la figura 3-14 se muestra el diagrama fsico para la bodega de datos para el prstamo de libros (DWPS), evidenciando, en la parte izquierda, el servidor que va soportar la bodega datos, el cual cuenta con un procesador Core Duo de 2 GHZ, 4GB en memoria RAM y dos (2) discos duros cada uno con 250 GB de capacidad de almacenamiento. En disco uno almacena el sistema operativo y el software SQL SERVER 2008, y en el disco dos almacena los datos fsico de la bodega de datos. En la parte derecha encontramos los diagramas fsicos de los clientes (CPS), representando las diferentes conexiones con la bodega de datos (diagramas de transporte), las cuales, en el caso de estudio, se realizaron con la conexin directa de SQL Server. Figura 3-14: Esquema fsico de la bodega de datos.
102
Para realizar la extraccin, transformacin y carga de datos desde las fuentes de datos y la bodega de datos, se tom el diagrama de ETL, logrando, de esta forma, ampliar el diagrama de mapeo (figura 38). Este diagrama, como se observa en la figura 3-15, permite colocar los elementos necesarios para realizar los pasos necesarios para especificar las operaciones tpicas de acuerdo a la tabla 2-2. Figura 3-15: Proceso ETL
Para el efecto, se realizaron los siguientes diagramas: esquema de paquetes de anlisis seleccin y transformacin, minera de datos para el anlisis, cubo dimensional, minera de datos de reglas de asociacin DMRAS, minera de datos de clasificacin DMCLS y minera de datos de agrupamiento DMCLUS.
Captulo 3
103
Para el modelado del cubo se implement el esquema lgico obtenido de la figura 3-12, empleando para ello el servicio de anlisis del SQL Server 2005, como se observa en la figura 3-17, donde se observa el origen de datos y la conformacin del cubo dimensional con sus dimensiones y tabla de hecho. Figura 3-17: Servicio de anlisis de SQL SERVER 2005 aplicado a la biblioteca.
104
En la figura 3-18 se observa el cubo implementado en SQL Server 2005, con los cuatros (4) indicadores obtenidos en la etapa de requerimientos y especificando cada uno de ellos. Figura 3-18: Indicadores claves de gestin dados al proceso de prstamo de libros
El desarrollo de los reporte se realiz por medio del servicio de reportes de SQL 2005, el cual permite generar repites asociados a cada KPI implementados en el cubo dimensional, como se observa en la figura 3-19. En este se especifica la fuente de datos y el diseo de cada reporte. Figura 3-19: Diseo de los reportes basada en cada KPI al proceso de prstamo de libros
Captulo 3
105
Para su despliegue se utiliza el componente que se le instala al servidor Web de Microsoft (IIS), permitiendo la carga de cada reporte en ambiente Web. En la figura 3-20 se evidencian dos (2) de los reportes aplicados a cada KPI. Figura 3-20: Despliegue Reportes basada en cada KPI al proceso de prstamo de libros
106
Figura 3-21: Esquema de paquetes de anlisis, seleccin y transformacin aplicados al proceso de prstamo de libros.
Nivel 1
Nivel 2
En la figura 3-22 se observa el esquema de minera de datos de reglas de asociacin (DMRA) y la clase configuracin, en la cual se realizan los ajustes del modelo de minera de datos, a saber: el mximo soporte, mnima confianza, nmero mximo de tems en un conjunto frecuente, entre otros. Es de mencionar que, la seleccin de los atributos, se realiza de acuerdo con los parmetros requeridos de acuerdo al algoritmo en la clase seleccin DW.
Para el despliegue y evaluacin de resultados se utiliz el motor de bases de bases MS SQL Server 2005, y para su anlisis y modelado WEKA, aplicando los siguientes pasos: (i) por medio de un soporte del 20% y una confianza > 80% para obtener las reglas ms fuertes; y (ii) con un soporte del 10% y una confianza > 60% para determinar la totalidad de las reglas aplicadas a este proceso.
Captulo 3
107
Para aplicar el algoritmo a priori se necesita que todos los atributos sean de tipo nominal, razn por la cual al subconjunto hay que aplicarle un filtro para convertir el atributo ubicacin. En atencin a la cantidad de registros de la bodega de datos (aproximadamente de 50000), el tiempo de anlisis es cercano a las cuatro horas para cada proceso y permiti obtener las siguientes reglas:
(i)
El proceso de Soporte del 20% y confianza del 80% permiti obtener un total de 11 reglas:
Si el nombre del programa es Derecho ==> la descripcin tipo Prstamo es Domicilio conf:(1)
108
Si la ubicacin es 2 y el nombre del programa es derecho ==> la descripcin del tipo de prstamo es domicilio conf:(1).
Si la ubicacin =2 ==> la descripcin de tipo prstamo es Domicilio nombre del programa es derecho conf:(0.93).
Si la descripcin de tipo prstamo es domicilio y el nombre del programa es derecho ==> ubicacin es 2 conf:(0.92).
Si el nombre programa es derecho ==> la descripcin del tipo prstamo es domicilio y su ubicacin es 2(0.92)
(ii)
En el proceso de Soporte del 10% y confianza del 60% se obtuvieron un total de 50 reglas, de las cuales las ms importantes son:
Si la asignatura del libro es democracia==> Nombre del programa del libro es derecho [Conf 100%].
Si el mes del prstamo es mayo ==> Tipo de prstamo = domicilio [Conf 100%].
Captulo 3
109
Si nombre del programa del alumno es derecho y Mes de Prstamo = Febrero ==> Nombre del programa del libro = derecho [Conf 87%].
Si nombre del programa de libro es economa ==> Tipo de prstamo es domicilio [Conf 99%].
3.2.1.5.4 Clasificacin
La minera de datos con la tcnica de clasificacin permite describir el comportamiento de una variable dependiente y predecir su estado en funcin de otras caractersticas. En general esta tcnica se utiliza para conocer cmo pueden clasificarse los datos, que atributos son los que tienen mayor influencia en la variable dependiente y cules son las clases correspondientes.
En la figura 3-23 se observa el esquema de minera de datos aplicado al proceso de clasificacin (DMCLS), al igual que el de reglas de asociacin, teniendo en cuenta el mdulo de configuracin que permite seleccionar el algoritmo de clasificacin, nmero mximo de hojas, nmero mximo de entrada, entre otros.
Para su despliegue se trabajaron varios algoritmos de clasificacin, estos fueron: los rboles de decisin (J48), Naive Bayes, Redes Neuronales y NBTrees probados sobre la herramienta WEKA, todos ellos se con una muestra de 6000 registros y evaluados a travs de la tcnica de cross validation con 10 folds.
Se realiz la clasificacin jerrquica dado la poca cantidad de ejemplos que contenan las salas diferentes a la 2, 8 y 9, para lo cual se consideraron las salas de consulta general (G) que contienen las salas 7, 8, 9 y de consulta especializada (E) que contienen las
110
salas 2, 4, 6, 19, 18, luego se procedi a aplicar tcnicas de clasificacin detallando cada una de las clases. Figura 3-23: DMCLS del prstamo de la biblioteca
Para el algoritmo J48 se seleccion por clase el atributo de ubicacin y despus de realizado el entrenamiento se obtuvo la matriz de confusin, como se aprecia en la tabla 3-1, con un nmero de valores correctamente clasificados correspondiente al 92.76%, y un porcentaje error del 7.23%.
Tabla 3-1:
Matriz de confucin
En el caso ms especfico primero se analizan todas las salas generales y se encuentran la matriz de confusin de la tabla 3-2. Con posterioridad, se consideran las salas especializadas como se muestra en la tabla 3-3.
Captulo 3
111
Tabla 3-2:
Tabla 3-3:
Analizando este atributo, a la luz del nmero de das prestados, nos muestra el resultado que se incluye en la tabla 3-4, donde el J48 solo clasifica los resultados en una sola clase. Es de mencionar que el incorrectamente 10.9167%. algoritmo clasific correctamente el 89.0833% e
Analizando este atributo con la asignatura, se observa que el sistema no permite generar el rbol, sino que muestra un error de memoria en tanto efectu un subconjunto de 600 registros y arroj un rbol con 12000, lo que permite concluir que este atributo no se puede usar para la clasificacin.
Al aplicar el algoritmo Naive Bayes, el cual, valga decirlo, es un clasificador de tipo probabilstico y basado en el teorema de Bayes, se mostr una alta eficiencia clasificatoria, como se ve en la tabla 15.
112
Tabla 3-4:
Tabla 3-5:
Es el clasificador computacional ms rpido y arroj un correcta clasificacin del 92.63%, con un error del 7.37%, por lo que es muy prximo al rbol de decisin. En las tablas 3-6 y 3-7 se visualiza la distribucin por sala general y especifica.
Tabla 3-6:
Captulo 3
113
Tabla 3-7:
Realizando el anlisis por el atributo das prestados da como resultado lo mostrado en la tabla 3-8, el sistema clasific correctamente el 89.7667% e incorrectamente el 10.2333%
Tabla 3-8:
114
4.2.2.5.3 Agrupamiento
El agrupamiento puede considerarse como la tcnica de aprendizaje no supervisado ms importante para encontrar patrones de comportamiento similares, Para el caso de estudio se utiliz el esquema de minera de datos para agrupamiento (DMCLUS),
En la figura 3-24 se observa el modelo agrupamiento aplicado a la biblioteca y en la clase configuracin se determina el nmero de cluster, datos de entrada, entre otros.
Para el despliegue del caso de estudio a la biblioteca se aplic la tcnica de los k-medios con la herramienta WEKA, en razn del gran nmero de datos analizados. Para el efecto, se consider una muestra de 5000 registros y, en atencin a que la escala de los datos es categrica, el resultado de los clsteres es en trminos de la moda.
Captulo 3
115
El primer paso al aplicar la tcnica fue determinar el nmero de clusters a considerar, para lo cual se realizaron 20 experimentos con diferente cantidad de clusters en un rango entre 2 y 20. En cada experimento se modific la semilla con valores entre 10 y 10000. Se calcul el promedio de la suma de los cuadrados de los errores en cada experimento y con estos resultados se obtuvo el grafico de codo de la figura 3-25.
Diagrama de codo
Error cuadrtico
450000 400000 350000 300000 250000 200000 150000 100000 50000 0 0 5 10 15
Cluster
20
25
Se realiz el anlisis de la grafica tomndose 6 clusters como el nmero ms apropiado para realizar el anlisis detallado de los cluster. El resultado obtenido se puede ver la tabla 3-9.
Tabla 3-9:
116
El resultado de estos cluster, segn la moda resultante y considerando los atributos nombre programa alumno, descripcin prstamo, autor, nombre programa, ttulo del libro y autor fueron los siguientes: Clster 0
Clster 1
Clster 2
Captulo 3
117
Clster 3
Clster 4
Clster 5
En la tabla 3-10 podemos ver la asociacin de cada cluster con el atributo de clase de nuestro conjunto de datos (atributo ubicacin y facultad solicitante).
118
Tabla 3-10:
Como se puede apreciar, los clusters 1 y 2 estn relacionados con la sala 9, el clster 3 con la sala 2 y los clusters 0 y 5 con la sala 8.
3.2.1.6 Pruebas
Para este caso de estudio se realizaron varias etapas de validacin en el sistema de inteligencia de negocios. En el componente de integracin de datos se realizaron las pruebas de anlisis de la fuente de datos, proceso de extraccin carga y transformacin entre la fuente de datos y el espacio temporal, y el espacio temporal y la bodega de datos. Luego se valid la carga de la tabla de hechos y las dimensiones.
En el componente de anlisis de datos se prob la generacin del cubo dimensional y sus operaciones. Adems se generaron los modelos de minera de datos basados en reglas de asociacin, clasificacin y agrupamiento. Los resultados fueron revisados y validados por parte de los administradores de la biblioteca.
Por ltimo, los modelos fueron validados y verificados por el experto de los datos para ser utilizados en el despliegue, como se ensea en la tabla 3-11.
Captulo 3
119
Tabla 3-11:
02/06/2010 CP_02 02/06/2010 CP_03 02/06/2010 CP_04 02/06/2010 CP_05 CP_06 02/06/2010 09/06/2010 CP_07 CP_08 CP_09 CP_10 CP_11 09/06/2010 16/06/2010 23/06/2010 30/06/2010
Prestamo del libro Edwar Javier Herrera Osorio Diseo casos de pruebas PRECONDICIONES ESCENARIO PASOS Seleccin de la muestra para el Ninguna anlisis de datos. El espacio temporal Extracion carga y transformacin de la bodega sin de la fuente de datos al espacio datos, Motor servicio temporal de integracin activo Extracion carga y transformacin Motor servicio de de la fuente de datos al espacio integracin activo temporal Motor servicio de La tabla de hecho es alimentada integracin activo, con el clculo el total de das del Fecha de inicio y fin prstamo del libro. no nula Motor servicio de La tabla de hecho es alimentada integracin activo, el Prestamo del libro con el clculo el total del valor de total de dias es > 0 la multa. Motor servicio de La tabla de hecho es alimentada integracin activo con el clculo del total libros tablas de hechos y dimensiones Generacin del cubo dimensional alimentadas Anlisis por tcnica de minera de Cubo dimensional datos por reglas de asociacin Anlisis por tcnica de minera de Cubo dimensional datos por clasificacin Anlisis por tcnica de minera de Cubo dimensional datos por agrupamiento Modelos de mineria Validacion por parte del experto de de datos los datos
Proposito Realizar la bodega de datos del Prestamo del libro Ejecucin ciclo 1 POSCONDICIONES FECHA RESULTADOS Seleccin de los datos 02/06/2010 Pas para la bodega de datos Carga del espacio temporal 02/06/2010 Pas
Carga de la bodega de datos (Tablas de hechos 02/06/2010 Pas y dimensiones) realiza la operacin de fecha fin - fecha inicio correctamente realiza la operacin de calclo multa realiza el conteo del prestamo Cubo dimensional Reglas de asociacin Modelo de clasificacin Los modelos de agrupamiento Generacin correcta 02/06/2010 Pas
02/06/2010 Pas 02/06/2010 Pas 09/06/2010 Pas 09/06/2010 Pas 16/06/2010 Pas 23/06/2010 Pas 30/06/2010 Pas
La aplicacin de la metodologa BIEP, en el caso en estudio, nos muestra su efectividad como mecanismo para la toma de decisiones, en tanto nos brinda los insumos informativos necesarios para el efecto. As, considerando los resultados del anlisis, se tiene que es necesario contar con mayor nmero de los libros que tienen mayor solicitud, como se muestra en los clusters 0 a 4. Adicionalmente, es claro que en la carrera de derecho los estudiantes acostumbran a solicitar mayor veces libros para su prstamo, por lo que es claro que en esta carrera debe tenerse un mayor nmero de textos, de suerte que supla los requerimientos de los estudiantes, y se garantice as la finalidad de la Universidad, como es servir de instrumento para la formacin integral.
Luego, en caso de requerir el cambio de libros por cambio de edicin, ser indispensable destinar mayores recursos a satisfacer las reas anotadas en precedencia. As mismo,
120
en el evento de que se quiera mejorar la atencin de los estudiantes, es procedente comprar los libros de mayor demanda, garantizando as su disponibilidad en toda ocasin, considerando el volumen en que participa cada carrera sobre el total.
Es de advertir que, estas conclusiones, fueron confirmada por los responsables del prstamo de libros en la biblioteca, quienes, en atencin a su experiencia, ratificaron la necesidad de que exista mayor disponibilidad de material bibliogrfico para los estudiantes de derecho y respecto a los textos referidos en el anlisis realizado.
3.2.1.7 Mantenimiento
Esta actividad se usa para definir nuevos requerimientos y aumentar su cantidad de despliegue. Esta etapa se realiza permanente y da comienzo a un nuevo proceso aplicando la metodologa BIEP.
Para validar la utilizacin de los perfiles de UML de BIEP, se implemento el perfil DWCS en la herramienta Visual Paradigm for UML 8.1 Enterprise Edition la cual soporta UML 2.3 y permite definir los perfiles [46]. En la figura 77 observamos la implementacin del perfil UML para la bodega de datos (DWCS) definido en el captulo 2.3.1.
Captulo 3
121
Para validar este perfil se implement el esquema conceptual de la bodega de datos (DWCS) para el caso prctico de la biblioteca en sus tres niveles, como se muestra en la figura 3.-27. Figura 3-27: Diagrama DWCS del caso de estudio de la biblioteca en Visual Paradigm.
Nivel 0
Nivel 1
122
Nivel 2
Se observa, entonces, que la metodologa BIEP se puede implementar en cualquier herramienta con soporte MOF, en cuanto esta es basada en el proceso unificado y en los perfiles UML 2.x, dndole una amplia utilizacin y estandarizacin para el desarrollo de sistemas de inteligencia de negocios.
En este captulo se hizo una descripcin de la forma en que se dise y se desarroll el prototipo de software para la aplicacin de la metodologa BIEP, basada en los perfiles y modelos planteados en el captulo III. El desarrollo se hizo teniendo en cuenta las caractersticas bsicas para su implementacin y se consolid en una plataforma de software libre: Eclipse Galileo 2010.
Para la validacin de BIEP se realiz el anlisis de prstamo de los libros en la biblioteca central de la universidad Antonio Nario. Se sigui el diagrama de actividades propuesto para el desarrollo de la metodologa (figura 16). Se plasm el modelo conceptual, lgico y fsico para la bodega de datos para el prstamo de los libros realizados por parte de la biblioteca central. Adems, se realiz el diseo conceptual OLAP y de tcnicas de minera de datos para el anlisis de datos.
Captulo 3
123
Estos modelos y esquemas dieron las bases para la implementacin de la bodega de datos en un servidor Windows 2003 Server, con motor de base de datos SQL Server 2005. Para efectuar el proceso ETL se realizo por medio del servicio de integracin que se encuentra inmerso en SQL Server versin estndar o superior y la validacin por medio del caso de prueba.
El proceso OLAP se desarroll sobre el de servicio de anlisis dado por SQL Server, generando un cubo dimensional. Con ello y por medio del servicio de reportes, se efectuaron los reportes de cada uno de los KPI y las consultas solicitadas por los usuarios finales, para ser visualizados por medio del componente adicionado al IIS de Microsoft.
El proceso de anlisis de datos por medio de tcnica de minera de datos se realiz en la herramienta WEKA, donde se obtuvieron las reglas de asociacin, las clases y agrupacin de acuerdo con los algoritmos aplicados.
Por ltimo, se implement el perfil UML DWCS de BIEP sobre el software Visual Paradigm for UML 8.1 Enterprise Edition la cual soporta UML 2.3 y permite definir perfiles UML, mostrando que BIEP se puede fcilmente implementar sobre cualquier herramienta que soporte MOF.
4. Conclusiones y recomendaciones
4.1 Conclusiones
La investigacin adelantada en la presente trabajo tesis ha tenido como objetivo proponer una metodologa para el desarrollo de los sistemas de inteligencia negocios basada en el proceso unificado de software, denomina BIEP.
Esta metodologa desarroll un conjunto de perfiles UML y modelos para la integracin, anlisis y despliegue de los datos, los cuales han sido implementados en una herramienta que permite dar soporte a las distintas fases y flujos de trabajo.
El aprendizaje de BIEP se simplifica gracias al empleo de un lenguaje de modelado estndar (UML), adems se ha dado una serie de pasos que guan su aplicacin.
Despus de la explicacin terica de BIEP y de su validacin en un caso en concreto, es posible concluir que esta tesis es un aporte al rea de la inteligencia de negocios, por cuanto:
Se efectu una revisin del estado del arte sobre la integracin, anlisis y despliegue de los sistemas de inteligencia de negocios, actualizando los existentes con los ltimos desarrollos en la materia y trayendo la discusin al contexto colombiano.
126
Se proponen nuevos esquemas para el modelado conceptual y lgico para los sistemas de inteligencia de negocios, lo cual facilitar la actividad de las personas interesadas en su aplicacin.
Se actualizaron e integraron los perfiles y modelos propuestos en la metodologa DWEP [24], as como los modelos conceptuales para el diseo de las diversas tcnicas de minera de datos [47].
Se extendi el UML con perfiles especficos para el dominio de integracin anlisis y despliegue en los sistemas de inteligencia de negocios.
Se desarroll de un prototipo de software en forma de plug-in, el cual puede ser utilizado desde la versin Eclipse Ganymede o superior, para el desarrollo de la metodologa BIEP, lo que garantiza su disponibilidad y la utilizacin abierta.
Se implement el perfil DWCS sobre un software comercial, mostrando que es posible que se implemente la metodologa sobre herramientas que soporte MOF, aunque no se descarta la necesidad de efectuar validaciones adicionales con otros sistemas comerciales.
Se valid la metodologa mediante el desarrollo del sistema de inteligencia de negocios aplicado a la biblioteca central de la Universidad Antonio Nario, para lo cual se desarroll el proceso de integracin de datos (bodega de datos) y el de anlisis de datos por medio de tcnica OLAP y de minera de datos, labor que finalmente fue confrontada frente a la opinin de los expertos encargados de la biblioteca.
4.2 Recomendaciones
Este trabajo se puede continuar en diferentes lneas de investigacin, ampliando su impacto y dndole nuevas reas de desarrollo y mejoras, por lo que es posible que varios de los trabajos existentes sean estudiados a la luz de la presente metodologa, lo cual podra evidencia su efectividad y mejora frente a los modelos existentes con antelacin.
Conclusiones
127
A continuacin se establece una lista de posibles trabajos futuros que pueden ser realizados:
Una nueva versin del prototipo de software que genere automtica el cdigo para ser ejecutado en diversas herramientas de inteligencia de negocios.
Incorporar en el modelo de minera de datos herramientas de modelado conceptual para de tcnicas de aprendizaje automtico (machine learning) y reconocimiento de patrones (pattern recognition o matching).
Ampliar el modelo a diseo de modelos geogrficos (Bodegas de datos y minera a datos espaciales).
Diagrama: Diagrama Requerimiento Casos Uso formato extendido prstamo del libro
<<extend>>
<<extend>>
<<extend>>
<<extend>> Prestamos Libros Administrador de la biblioteca <<extend>> Prestamo por tiulo de libro
<<extend>>
Prestamo por facultad Prestamo por fecha, No topografico, titulo, salas, facultad
130
Administrador de la biblioteca
Lista de casos de uso Nombre Prstamo por ttulo de libro Prstamo por facultad Prstamo por fecha Prstamo por fecha, ISBN, titulo, salas, facultad Prstamo por ISBN Prstamos Libros Prstamos por salas
Nombre
Este proceso se realiza cada mes, trimestre, semestre y anual. El ltimo da de cada mes.
Anexo A. Casos de uso en formato extendido del caso de estudio y documento visin
131
Este caso de uso inicializa cuando el administrador de la biblioteca selecciona los libros prestados para ser analizados por ttulo.
La Bodega de datos determina el total de das del prstamo del libro por categoras, por medio de las dimensiones fecha, ttulo.
Nombre
Este proceso se realiza cada mes, trimestre, semestre y anual. El ltimo da de cada mes.
Este caso de uso inicializa cuando el administrador de la biblioteca selecciona los libros prestados para ser analizados por facultad.
132
La Bodega de datos determina el total de das del prstamo del libro por categoras, por medio de las dimensiones fecha, la facultad solicitante del libro y del estudiante que solito el libro
Este proceso se realiza cada mes, trimestre, semestre y anual. El ltimo da de cada mes.
Se adiciona en la tabla de hecho prstamo de libro como puede ser actualizado por fecha.
Este caso de uso inicializa cuando el administrador de la biblioteca selecciona los libros prestados para ser analizados
Anexo A. Casos de uso en formato extendido del caso de estudio y documento visin
133
La Bodega de datos determina el total de das del prstamo del libro por categoras, por medio de las dimensiones fecha.
Nombre
Pre-condicin de Caso de Uso: Prstamo por fecha, No topogrfico, titulo, salas, facultad
Este proceso se realiza cada mes, trimestre, semestre y anual. El ltimo da de cada mes.
Paso de acciones del Caso de Uso: Prstamo por fecha, No topogrfico, titulo, salas, facultad
Este caso de uso inicializa cuando el administrador de la biblioteca selecciona los libros prestados para ser analizados por todos los criterios
134
La Bodega de datos determina el total de das del prstamo del libro por categoras, por medio de las dimensiones fecha, No topogrfico, ttulo, sala donde se ubica el libro, y la facultad solicitante del libro y del estudiante que solito el libro
Post-condicin de Caso de Uso: Prstamo por fecha, No topogrfico, titulo, salas, facultad
Nombre
Este proceso se realiza cada mes, trimestre, semestre y anual. El ltimo da de cada mes.
Este caso de uso inicializa cuando el administrador de la biblioteca selecciona los libros prestados para ser analizados.
Anexo A. Casos de uso en formato extendido del caso de estudio y documento visin
135
La Bodega de datos determina el total de das del prstamo del libro por categoras, por medio de las dimensiones fecha, No topogrfico.
Nombre
Prstamos Libros
Este proceso se realiza cada mes, trimestre, semestre y anual. El ltimo da de cada mes.
Este caso de uso inicializa cuando el administrador de la biblioteca selecciona los libros prestados para ser analizados
La Bodega de datos determina el total de das del prstamo del libro por categoras.
136
Nombre
Este proceso se realiza cada mes, trimestre, semestre y anual. El ltimo da de cada mes.
Este caso de uso inicializa cuando el administrador de la biblioteca selecciona los libros prestados para ser analizados
La Bodega de datos determina el total de das del prstamo del libro por categoras, por medio de las dimensiones fecha, sala donde se ubica el libro.
Anexo A. Casos de uso en formato extendido del caso de estudio y documento visin
137
Post-condicin de Caso de Uso: Prstamos por salas Se adiciona en la tabla de hecho prstamo de libro para ser actualizado
Historial de Revisiones Fecha 01/02/2010 Versin 0.9 Descripcin Propuesta inicial del documento Visin con las primeras capturas de requisitos funcionales del sistema. Versin 1.0 en estado de complementacin para su aprobacin. Versin 1.0 para la aprobacin al final de la fase de inicio Versin 2.0 tras el fin de la fase de elaboracin a falta de revisin por los usuarios finales de la Biblioteca Versin 2.0 modificada en la primera iteracin de construccin. Pendiente revisin de usuarios finales de la Biblioteca. Versin modificada en la segunda iteracin de construccin. Pendiente de revisin de usuarios finales de la Biblioteca. Versin revisada para la segunda iteracin de construccin. Pendiente de validacin usuarios finales de la biblioteca. Autor Edwar Javier Herrera Osorio Edwar Javier Herrera Osorio Edwar Javier Herrera Osorio Edwar Javier Herrera Osorio Edwar Javier Herrera Osorio
02/02/2010
1.0
03/02/2010 16/03/2010
1.0 2.0
25/03/2010
2.1
25/04/2010
2.2
02/06/2010
3.0
138
INTRODUCCION
Propsito El propsito de ste documento es recoger, analizar y definir las necesidades de alto nivel y las caractersticas del sistema de inteligencia de negocios de la biblioteca central de la universidad Antonio Nario. El documento se centra en la funcionalidad requerida por los participantes en el proyecto y los usuarios finales. Esta funcionalidad se basa principalmente en el prstamo de libro que realiza la biblioteca central en sus diferentes salas. Los detalles de cmo el sistema cubre los requerimientos se pueden observar en la especificacin de los casos de uso. Alcance El documento Visin se ocupa, como ya se ha apuntado, del sistema de inteligencia de negocios de la biblioteca central de la universidad Antonio Nario. Dicho sistema ser desarrollado por el Ing. Edwar Javier Herrera Osorio. El sistema permitir a los encargados de la biblioteca tener la informacin y generacin de informes relativo al prstamo de libros de la biblioteca central de la universidad Antonio Nario. Referencias
POSICIONAMIENTO
Oportunidad de negocios Este sistema permitir a la universidad llevar el control de todas sus actividades del prstamo del libro, lo cual supondr un acceso rpido y sencillo a los datos. Adems, los datos accedidos estarn actualizados cada semana, lo cual es un factor muy importante para poder llevar un control del prstamo de los libros.
Anexo A. Casos de uso en formato extendido del caso de estudio y documento visin
139
Sentencia que define el problema El problema de Realizar los informes y anlisis de informacin sobre los prstamos de libros. Sugerir libros basado en los prstamos solicitados por los usuarios. Encontrar patrones entre las diversas dimensiones del conjunto de datos de la biblioteca para sugerir prstamos de libros. afecta a Usuarios que solicitan el prstamo de la biblioteca, Coordinador de la biblioteca, Decanos de cada facultad. El impacto asociado es Almacenar toda la informacin referente al prstamo de libro en una bodega de datos y realizar los reportes por medio de tcnica OLAP y de minera de datos. Una solucin adecuada sera Realizar la bodega de datos, usando una red local con una bodega de datos accesible desde los distintos nodos de la red y generar interfaces amigables y sencillas para alimentar la bodega de datos de los sistemas transaccionales y la generacin de los reportes.
140
Para
Usuarios que solicitan el prstamo de la biblioteca, Coordinador de la biblioteca, Decanos de cada facultad.
Quienes
Es una herramienta software. Almacena la informacin necesaria para gestionar una empresa de distribucin.
El sistema actual. Permite gestionar las distintas actividades de la empresa mediante una interfaz grfica sencilla y amigable. Adems proporciona un acceso rpido y actualizado a la informacin desde cualquier punto que tenga acceso a la base de datos.
Para proveer de una forma efectiva productos y servicios que se ajusten a las necesidades de los usuarios, es necesario identificar e involucrar a todos los participantes en el proyecto como parte del proceso de modelado de requerimientos. Tambin es necesario identificar a los usuarios del sistema y asegurarse de que el conjunto de participantes en el proyecto los representa adecuadamente. Esta seccin muestra un perfil de los participantes y de los usuarios involucrados en el proyecto, as como los problemas ms importantes que stos perciben para enfocar la solucin propuesta hacia ellos. No describe sus requisitos especficos ya que stos se capturan mediante otro artefacto. En lugar de esto proporciona la justificacin de por qu estos requisitos son necesarios. Resumen de Participantes
Anexo A. Casos de uso en formato extendido del caso de estudio y documento visin
141
Responsabilidades Representa a todos los usuarios posibles del sistema. Seguimiento del desarrollo del proyecto. Aprueba requisitos y funcionalidades
Resumen de Usuarios
Participante Biblioteca
Biblioteca
ENTORNOS DE USUARIO
Los usuarios entrarn al sistema identificndose sobre un ordenador con un sistema operativo Windows XP o superior y tras este paso entrarn a la parte de aplicacin diseada para cada uno segn su papel en la empresa. Este sistema es similar a cualquier aplicacin Windows y por tanto los usuarios estarn familiarizados con su entorno.
142
Edwar Javier Herrera Osorio Experto de Sistemas. Encargado de mostrar las necesidades de cada usuario del sistema. Adems, lleva a cabo un seguimiento del desarrollo del proyecto y aprobacin de los requisitos y funcionalidades del sistema
Ninguno
Representante Descripcin Tipo Responsabilida des Criterio de xito Grado de participacin Comentarios
Biblioteca Coordinador de la biblioteca. Gur. Responsable del prstamo y administracin de la biblioteca central de la UAN. A definir por el cliente
Ninguno
Anexo A. Casos de uso en formato extendido del caso de estudio y documento visin
143
Usuarios del sistema Representante Tipo Responsabilida des Criterio de xito Grado de participacin Comentarios Ninguno. A definir por el cliente A definir por el cliente Biblioteca Usuario del sistema. Realizar los prstamos de los libros.
DESCRIPCION GLOBAL DEL PRODUCTO Perspectiva del producto El producto a desarrollar es un sistema de inteligencia de negocios para la biblioteca central de la universidad Antonio Nario.
Resumen de caractersticas A continuacin se mostrar un listado con los beneficios que obtendr el cliente a partir del producto:
Beneficio del cliente Generacin de reportes OLAP basado en la bodega de datos Sugerir libros basado en los prstamos solicitados por los usuarios.
144
la bodega de datos.
Suposiciones y dependencias A definir por el cliente Costo y precio Costos Financieros Tiempo de Duracin: 48 Semanas Fecha Inicio: 1 de Junio de 2009 Costos Recursos Humanos Horas proyectadas Director Investigador 48 Horas 1920 Horas $ 120.000 $ 40.000 Valor Hora Fuentes Finaciacin UNAL * Estudiante Subtotal Costos Tecnolgicos Fuentes Finaciacin Computadores Estudiante Subtotal Costos Administrativos Servicios Pblicos Papelera Estudiante Estudiante $ 1.000.000 $ 200.000 $ 1.900.000 $ 1.900.000 de Costo Total $ 5.760.000 $ 76.800.000 $ 82.560.000 de Costo Total Fecha finalizacin: 17 mayo de 2010
Anexo A. Casos de uso en formato extendido del caso de estudio y documento visin
145
Subtotal Subtotal costos Proyecto Factor de administracin 25% Costo total proyecto
* Los costos ocasionados por el tiempo del director y el asesor ya estn incluidos dentro de las actividades normales que desempean los profesores dentro de la universidad.
OTROS REQUISITOS DEL PRODUCTO Estndares Aplicables Basado en la metodologa BIEP Requisitos de Sistema Se debe ejecutar en plataformas en ambientes WEB
C6.4.1 Manual de Usuario Anexo B C6.4.2 Guas de Instalacin, Configuracin, y Archivo Lame Anexo B
GUIA DE USO BIEP se basa del proceso unificado y este utiliza perfiles del UML.
1. En este caso iniciamos la versin eclipse de modelamiento. Una vez inicializado, creamos un nuevo proyecto. Este proyecto tiene la siguiente estructura: src, model y meta-inf.
148
2. Nos ubicamos en la carpeta model y en esta ubicamos los siguiente archivos: Datacube.umlprofile, DMCLUS.umlprofile, DMSEL.umlprofile, dwcs.umlprofile,
DWEPCasoUso.umlprofile,
DWSS.umlprofile,
ETLProcess.umlprofile,
3. Creamos en la carpeta model una subcarpeta llamada Iconos y copiamos los iconos ubicados en el paquete de instalacin que viene en el CD. En la figura 2 observamos cmo debe quedar esta estructura
149
4. Una vez creado esta estructura ya se pueden crear los 28 diagramas aplicados a BIEP.
5. Para todos los diagramas seleccionamos, hacemos un clic secundario en la carpeta model, seleccionamos New/Other como se puede ver en la figura 3.
150
secundario sobre el rea de trabajo como se observa en la figura 5 y se selecciona el perfil deseado.
8. Por ltimo a cada elemento del diagrama se le aplica el perfil deseado en la figura
151
152
Figura 9. SCS
153
2. Luego se procede a crear el diagrama, en la figura 12 observamos diagrama de despliegue y aplicamos el perfil para este diagrama y aplicamos el estereotipo a cada elemento en este caso seleccionamos el perfil SPS_DWSP
154
2. Luego se procede a crear el diagrama, en la figura 13 observamos diagrama de clases y aplicamos el perfil para este diagrama y aplicamos el estereotipo a cada elemento en este caso seleccionamos el perfil DWCS
155
2. Luego se procede a crear el diagrama, en la figura 14 observamos diagrama de clase y aplicamos el perfil para este diagrama y aplicamos el estereotipo a cada elemento en este caso seleccionamos el perfil ETLProcess
Figura 14. Data Maping
2. Luego se procede a crear el diagrama, en la figura 15 observamos diagrama de clase y aplicamos el perfil para este diagrama y aplicamos el estereotipo a cada elemento en este caso seleccionamos el perfil DMSEL
156
2. Luego se procede a crear el diagrama, en la figura 16 observamos diagrama de clase y aplicamos el perfil para este diagrama y aplicamos el estereotipo a cada elemento en este caso seleccionamos el perfil DMSCLUS
2. Luego se procede a crear el diagrama, en la figura 17 observamos diagrama de clase y aplicamos el perfil para este diagrama y aplicamos el estereotipo a cada elemento en este caso seleccionamos el perfil DMSRAS
157
El proceso es el siguiente:
2. Luego se procede a crear el diagrama, en la figura 18 observamos diagrama de clase y aplicamos el perfil para este diagrama y aplicamos el estereotipo a cada elemento en este caso seleccionamos el perfil DMCLS
158
159
2. Luego se procede a crear el diagrama, en la figura 19 observamos diagrama de clase y aplicamos el perfil para este diagrama y aplicamos el estereotipo a cada elemento en este caso seleccionamos el perfil ETLProcess
160
ETLPROCESS, DWSS, DWCS, DATACUBE, SPS_DWPS y DWEPCasoUso. En la Figura 20 los perfiles definidos estn marcados en azul y sus dependencias con negro. A continuacin se describen la implementacin de cada uno de los perfile.
161
muestra los elementos que componen el perfil para las reglas de asociacin. Los atributos de los estereotipos creados aparecen desplegados en el panel principal del editor en rbol de Eclipse. Para simplificar la vista y as poder mostrar todos los estereotipos no se han desplegado todas las propiedades de todos los estereotipos creados. Por ejemplo se pueden ver desplegados los atributos del estereotipo de clase ConfigRA: mximo de soporte, filtros entre otros. Figura 20. Perfiles UML BIEP
162
ModelClassification, Resultclassifications. La Figura 22 se observa los elementos que componen el perfil para clasificacin. Los atributos de los estereotipos creados aparecen desplegados en el panel principal del editor en rbol de Eclipse. Para simplificar la vista y as poder mostrar todos los estereotipos no se han desplegado todas las propiedades de todos los estereotipos creados. Figura 22. Estructura para funcionar BIEP
B17. Perfil de anlisis, seleccin y transformacin de datos para minera de datos (DMSEL) Este perfil se utiliza para realizar el anlisis, seleccin y transformacin de un modelo multidimensional y aplicar la tcnica de minera de datos deseada. Los elementos que incorpora el perfil denominado DMSEL son: estereotipos de clase: Histograma, Dispersion, GrafBox, Analisi_Explora entre otros. La Figura 23 se observa los elementos que componen el perfil para anlisis, seleccin y transformacin de datos para aplicar la tcnica de minera de datos. Los atributos de los estereotipos creados aparecen desplegados en el panel principal del editor en rbol de Eclipse. Para
163
simplificar la vista y as poder mostrar todos los estereotipos no se han desplegado todas las propiedades de todos los estereotipos creados. Figura 23. Perfil DMSEL
B18. Perfil de tcnica de minera de datos de agrupamiento (DMCLUS) Este perfil se utiliza para realizar la tcnica de minera de datos por agrupamiento sobre un modelo de anlisis, seleccin y transformacin de datos. Los elementos que incorpora el perfil denominado DMCLUS son: estereotipos de clase: Clustering, Attribute, in, case entre otros. La Figura 24 se observa los elementos que componen el perfil para realizar agrupamiento. Los atributos de los estereotipos creados aparecen desplegados en el panel principal del editor en rbol de Eclipse. Para simplificar la vista y as poder mostrar todos los estereotipos no se han desplegado todas las propiedades de todos los estereotipos creados.
164
B19. Perfil para tcnica OLAP (OLAPACT) Este perfil se utiliza para realizar la tcnica de minera de datos por agrupamiento sobre un modelo de anlisis, seleccin y transformacin de datos. Los elementos que incorpora el perfil denominado OLAPACT son las operaciones bsicas que se realizan sobre el cubo OLAP: slice by, roll up, entre otros. La Figura 25 se observa los elementos que componen el perfil para realizar la tcnica OLAP. Los atributos de los estereotipos creados aparecen desplegados en el panel principal del editor en rbol de Eclipse. Para simplificar la vista y as poder mostrar todos los estereotipos no se han desplegado todas las propiedades de todos los estereotipos creados. Figura 25. Perfil OLAP
165
B20. Perfil proceso ETL (ETLPROCESS) Este perfil se utiliza para realizar el proceso de extraccin, transformacin y carga de la bodega de datos. Los elementos que incorpora el perfil denominado ETLPROCESS son: dim, fact, filter, log, join entre otros. La Figura 26 se observa los elementos que componen el perfil para realizar el proceso ETL. Los atributos de los estereotipos creados aparecen desplegados en el panel principal del editor en rbol de Eclipse. Para simplificar la vista y as poder mostrar todos los estereotipos no se han desplegado todas las propiedades de todos los estereotipos creados. Figura 26. Perfil ETLProcess
B21. Perfil secuencia en la bodega de datos (DWSS) Este perfil se utiliza para realizar el proceso de secuencia de la bodega de datos. Los elementos que incorpora el perfil denominado DWSS son: tableDS, FileDS, TableDW, entre otros. La Figura 27 se observa los elementos que componen el perfil para realizar la secuencia en la bodega de datos. Los atributos de los estereotipos
166
creados aparecen desplegados en el panel principal del editor en rbol de Eclipse. Para simplificar la vista y as poder mostrar todos los estereotipos no se han desplegado todas las propiedades de todos los estereotipos creados. Figura 27. Perfil DWSS
B22. Perfil modelo conceptual y lgico de la bodega de datos (DWCS) Este perfil se utiliza para realizar el diseo conceptual y lgico de la bodega de datos. Los elementos que incorpora el perfil denominado DWCS son: paqueteEstrella, paqueteFact, dimentions, entre otros. La Figura 28 se observa los elementos que componen el perfil para realizar el modelo conceptual y lgico. Los atributos de los estereotipos creados aparecen desplegados en el panel principal del editor en rbol de Eclipse. Para simplificar la vista y as poder mostrar todos los estereotipos no se han desplegado todas las propiedades de todos los estereotipos creados. Figura 28. Perfil DWCS
167
B23. Perfil diseo del cubo dimensional (DATACUBE) Este perfil se utiliza para realizar el diseo conceptual del cubo dimensional. Los elementos que incorpora el perfil denominado DataCube son: Cell, Axis, CellMember, entre otros. La Figura 29 se observa los elementos que componen el perfil para realizar el cubo dimensional. Los atributos de los estereotipos creados aparecen desplegados en el panel principal del editor en rbol de Eclipse. Para simplificar la vista y as poder mostrar todos los estereotipos no se han desplegado todas las propiedades de todos los estereotipos creados. Figura 29. Perfil DataCube
B24. Perfil diseo fsico de la bodega de datos (SPS_DWPS) Este perfil se utiliza para realizar el diseo fsico de la fuente de datos y de la bodega de datos. Los elementos que incorpora el perfil denominado SPS_DWPS son: Server, Client, disk, entre otros. La Figura 30 se observa los elementos que componen el perfil para realizar el diseo fsico. Los atributos de los estereotipos creados aparecen desplegados en el panel principal del editor en rbol de Eclipse. Para simplificar la vista y as poder mostrar todos los estereotipos no se han desplegado todas las propiedades de todos los estereotipos creados.
168
B25. Perfil diseo de los casos de uso (DWEPCASEUSE) Este perfil se utiliza para realizar los requerimientos en la bodega de datos. Los elementos que incorpora el perfil denominado DWEPCASEUSE son:
UsuariosFinales y AdministradoresDW. La Figura 31 se observa los elementos que componen el perfil para realizar el diseo de los casos de uso. Los atributos de los estereotipos creados aparecen desplegados en el panel principal del editor en rbol de Eclipse. Para simplificar la vista y as poder mostrar todos los estereotipos no se han desplegado todas las propiedades de todos los estereotipos creados. Figura 31. Perfil DWEPCASEUSE
Bibliografa
[1] ABELLO, Alberto, SAMOS, Jos, SALTOR, Flix. YAM2 (Yet Another Multidimensiona Model): An extension of UML. In International database Engineering applications Symposium (IDEAS02), pages 172-181, Edmoton Canada, July 17-19 2002. IEEE Computer Society. {En lnea}, {8 de marzo de 2009} disponible en: (http://portal.acm.org/citation.cfm?id=687216). ABRIL, Diego y PEREZ, Jos Estado actual de las tecnologas data warehousing y OLAP aplicadas a bases de datos espaciales, 2006. {En lnea}, {8 de marzo de 2009} disponible en: (dialnet.unirioja.es/servlet/articulo?codigo=2299390). AMBLER, Scott, The Elements of UML 2.0 Style, Cambridge University. 2005. ISBN 978-0-521-61678-2 BATINI, Carlo, CERI, Stefano, Diseo conceptual de bases de datos, Addison Wesley, / Daz de Santos, 1991. ISBN 0-201-60120-6 BLASCHKA, Markus, SAPIA, Carsten, HOFLING, Gabriele y DINTER, Barbara. Extending the E/R Model for the Multidimensional Paradigm. In Proceeding of the 1ST International Workshop on Data Warehouse and Data Mining (DWDM98), volumen 1552 of Lecture Notes in computer Science, pages 105-116, Singapore, November 19- 20 199. Springer- Velang. BOOCH, Grady, RUMBAUGH, Jim, JACOBSON, Ivar, UML, El lenguaje unificado de modelado. {En lnea}, {8 de marzo de 2009} disponible en: (http://www.itescam.edu.mx/principal/sylabus/ fpdb/recursos/r25380.PDF). BUSBORG, Frank, TRYFONA, Nectaria y BORCH, Jens, star ER: A Conceptual Model for Data Warehouse Desing. In proceedings of the ACM 2nd international Workshop on Data Warehousing and OLAP (DOLAP`99), pages 3-8, Kansas City, USA, November 6 1999. ACM. . {En lnea}, {8 de marzo de 2009} disponible en: (http:// citeseerx.ist.psu.edu/viewdoc/ download?doi=10.1.1.33.1033).
[2]
[3]
[4]
[5]
[6]
[7]
170
[8]
CABIBBO, Luca y TORLONE, Riccardo, "A Logical Approach to Multidimensional Databases", EDBT, 1998. Lecture Notes in Computer Science, 1998, Volume 1377/1998, 183. CODD, Edgar et al. Providing OLAP to user-analysts: An IT mandate. E.F. Codd and Associates, 1993. . {En lnea}, {8 de marzo de 2009} disponible en: (http://www.minet.uni-jena.de/dbis/lehre/ss2005/sem_dwh/lit/Cod93.pdf).
[9]
[10] Custer consortiwn, 41% HAVE EXPERIENCED DATA WAREHOUSE PROJECT FAILURES. {En lnea}, {8 de marzo de 2009} disponible en: (http://www.cutter.com/research/2003/edge030218.html.) [11] CHAPMAN, Pete, CLINTON, Julian, KERBEL, Randy, KHABAZA, Thomas REINARTZ, Thomas, SHEARER, Colin Shearer y WIRTH, Rdiger, CRISP-DM 1.0: Step-by-step data mining guide, SPSS Inc (2000). {En lnea}, {8 de marzo de 2009} disponible en: (http://www.crisp-dm.org/CRISPWP-0800.pdf.). [12] Data Warehousing Institute. {En lnea}, {8 de marzo de 2009} disponible en: (http://www.tdwi.org/. 2002). [13] DRESNER, Howard. Gartner Group, Howard Dresner Biography. {En lnea}, {8 de marzo de 2009} disponible en: (http://www.gartner.com/ research/fellows/asset_79427_1175.jsp). [14] Eclipse org, GMF Tutorial. {En lnea}, {8 de marzo de 2010} disponible en: (http://wiki.eclipse.org/index.php/GMF_Tutorial). [15] Eclipse org, version Galileo, 2010. {En lnea}, {10 Octubre de 2009} disponible en: (www.eclipse.org/galileo/). [16] FAYYAD, Usama, PIATESTSKY-SHAPIRO, Gregory, y SMYTH Padhraic, From Data Mining to Knowledge Discovery in Databases, American Association for Artificial Intelligence pag 37 -54. 1996. [17] FUENTES, Lidia, TROYA, Jos M y VALLECILLO, Antonio. Using UML Profiles for Documenting Web-Based Application Frameworks. Annals of Software Engineering, 13: page: 249264, 2002. {En lnea}, {10 junio de 2009} disponible en: (http://www.springerlink.com/content/g21491265h293485/fulltext.pdf).
Bibliografa
171
[18] FUENTES, Lidia, VALLECILLO, Antonio. Una Introduccin a los Perfiles UML. {En lnea}, {8 de marzo de 2009} disponible en: (http://www.lcc.uma.es/~av/Publicaciones/04/ UMLProfiles-Novatica04.pdf). [19] GYSSENS, Marc, LAKSHMANAN, Laks. A foundation for multidimensional databases, In Proc. Of the 22nd VLDB Conference, Mumbai (Bombay), India, 1996. {En lnea}, {8 de marzo de 2009} disponible en: (http:// citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.103.1383). [20] HUSEMANN, Bodo, LECHTENBORGER, Jens, y VOSSEN, Gottfried. Conceptual Data Warehouse Desing, Proceeding of the International Workshop on Design and Management of Data Warehouses (DMDW2000), StockHolm, Sweden. {En lnea}, {8 de marzo de 2009} disponible en: (http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.33.670). [21] INMON, William Harvey, Building the data warehouse. Wiley, quinta edicin, 2005., paginas 576. ISBN: 978-0-7645-9944-6 [22] JACOBSON, Ivan; BOOCH, Grady; RUMBAUGH, James. El proceso unificado de desarrollo de software., Addison Wesley. Madrid, ES. 2000. 438 p. [23] KIMBALL, Ralf y ROSS, Margy. Kimball and M. Ross, The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling. Wiley, 2002. ISBN: 978-0471-20024-6 [24] LUJAN, Sergio Data WareHouse Desig with UML, Tesis Doctoral., Universidad de Alicante, 2005.Departamento de software y sistemas computacionales. [25] MADSEN, Mark, A 50% Data Warehouse Failure Rate is Nothing New. {En lnea}, {5 de marzo de 2010} disponible en: (http://it.toolbox.com/blogs/boundedrationality/a-50-data-warehouse-failure-rate-is-nothing-new-4669.). [26] MCDONOUGH, Brian y VESSET, Dan World wide Business Intelligence Tools 2007 Vendor Shares, . {En lnea}, {8 de marzo de 2009} disponible en: (http://download.microsoft.com/download/0/5/1/051389A2-FB6E-4AF0-B8441FDAE6060514/WW-BI-Tools-2005-vendor-Shares.pdf). [27] MORALES, Eduardo, Descubrimiento de Conocimiento en Bases de Datos. {En lnea}, {9 de junio de 2008} disponible en: (http://dns1.mor.itesm.mx/ ~emorales/Cursos/KDD03/principal.html).
172
[28] MOSS, Larissa y ATRE Shaku, Business Intelligence Roadmap: The Complete Project Lifecycle for Decision-Support Applications, editorial: Addison Wesley, 2003, pag 556, ISBN : 0-201-78420-3 [29] Object Management Group (OMG). Common Warehouse Metamodel (CWM) Specification vertions 1.1. {En lnea}, {5 de marzo de 2010} disponible en: (http://www.cwm.org). [30] Object Management Group (OMG). Unifie Modeling Language (UML), version 2.3, , {En lnea}, {8 de junio de 2010} disponible en: (http://www.uml.org/) [31] Object Management Group. Meta Object Facility (MOF) Specification. OMG document: formal/2002-04-03. 2003. {En lnea}, {5 mayo de 2008} disponible en: (http://www.omg.org/spec/MOF/1.4/PDF). [32] Object Management Group (OMG), XML Metadata Interchange (XMI), {En lnea}, {5 de mayo de 2008} disponible en: (http://www.omg.org/cgibin/doc?ad/99-10-02). [33] PARDILLO, Jess, GOLFARELLI, Matteo, RIZZI, Stefano y TRUJILLO, Juan, Visual Modelling of data warehosing flows with UML Profile, Data Warehousing and knowledge Discovery, Austria, August /September 2009. {En lnea}, {8 de marzo de 2010} disponible en: (http://wwwdb.deis.unibo.it/~srizzi/PDF/dawak09.pdf). [34] PENDSE, Nigel, The dramatic consolidation in 2007 makes market shares much harder to calculate. {En lnea}, {8 de marzo de 2009} disponible en: (http://www.olapreport.com/market.htm). [35] POOLE, Larry, 8 Reasons Why Business Intelligence Initiatives Fail!, XyberNet, Inc. . {En lnea}, {20 de marzo de 2008} disponible en: (www.xyber.net/8Reasons.doc.) [36] ROB, Peter y CORONEL, Carlos, Database Systems: Design, Implementation and Management, Cengage Learning EMEA, 2008. Quinta edicin, ISBN: 0-16906269-x
Bibliografa
173
[37]
SAS Enterprise Miner, {En lnea}, {5 mayo de 2008} disponible en: (http://www.sas.com/offices/europe/uk/technologies/analytics/datamining/miner/se mma.html).
[38] SILBERSCHATZ, Abraham, KORTH, Henry y SUDARSHAN, S.. Fundamentos de bases de datos. Cuarta edicin. Mc Graw Hill, 2002.ISBN: 8448136543. [39] SHEARER, Colin The CRISP-DM Model: The New Blueprint for DataMining, JOURNAL of Data Warehousing, Volume 5, Number 4, p. 13-22, 2000. , {En lnea}, {8 de marzo de 2009} disponible en: (http://www.crisp-dm.org/News/86605.pdf). [40] STEEL,T.B.,Jr. : ANSI/X3/SPARC Study Group on Data Base Management Systems Interim Report; ACM SIGMOD FDT, Vol. 7, No. 2, 1975. [41] STEFANOV, Veronika, LIST Beate y KORHERR List, Extending UML 2 Activity Diagrams withc Business Intelligence Objects. {En lnea}, {5 mayo de 2008} disponible en: (www.wit.at/people/korherr/publications/dawak2005.pdf). [42] STEINBERG, Dave, BUDINSKY, Frank, PATERNOSTRO, Marcelo y MERKS, Eclipse Modeling Framework, Pearson, USA, 2009, ISBN 0-321-33188-5. [43] TAN, Pang-Ning, STEINBACH, Michael y KUMAR, Vipin, Introduction to data miming, editorial Addison Wesley, 2006, ISBN: 0-321-32136-7 [44] TRUJILLO, Juan y LUJAN, Sergio A Data Warehouse Engineering Process D. of Software and Computing Systems, University of Alicante . {En lnea}, {8 de marzo de 2009} disponible en: (http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.33.670). TRUJILLO, Juan. The GOLD model: An Object Oriented multidimensional data model for multidimensional database, Symposium on Applied Computing Proceedings of the 2000 ACM, symposium on Applied computing- Volume 1, Italy, pages 346-350, 2000. ACM.
[45]
[46] VISUAL PARADIGMA FOR UML 81. Extend and customize UML with UML profile. {En lnea}, {8 de marzo de 2011} disponible en: (http://www.visualparadigm.com/product/vpuml/tutorials/umlprofile.jsp).
174
[47] ZUBCOFF, Jos. Un conjunto de perfiles de UML para el Modelado conceptual de tcnicas de minera de datos sobre almacenes de datos, 2009, pginas: 226. Universidad de Alicante. Departamento de Lenguajes y Sistemas Informticos.