Está en la página 1de 39

Universidad Nacional de Salta FACULTAD DE CIENCIAS EXACTAS SEMINARIO DE SISTEMAS Anteproyecto Corregido Introduccin al Data Mining o Actuacin: 1016/09 o

Alumna: Mariela Del Valle Flores LU: 210517 Director: Lic. Pablo Lorenzo Sub-Comisin: Mg. Gustavo Gil o Lic. Patricia Aballay Lic. Javier Trenti

Salta, Junio 2009

Indice General
Indice 1. Introduccin o 1.1. Motivacin . . . . . . o 1.2. Tema de Seminario . . 1.3. Data Mining . . . . . 1.4. Objetivo del Seminario 1.5. Organizacin . . . . . o
I

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

1 1 1 2 2 2

2. Data Mining y Data WareHouse 2.1. Conceptos Generales . . . . . . . 2.1.1. Data Mining . . . . . . . 2.1.2. Data Warehouse . . . . . 2.2. Metodolog para DWH: PU . . a 2.2.1. Fases de Desarrollo . . . . 2.3. Metodolog para DM: CRM-DM a

. . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

4 . 4 . 4 . 9 . 11 . 12 . 14 19 19 20 20 22 22 23 23 23 24 25 25 25 25 26 27

3. Proyecto Infrmtico o a 3.1. Sistema Objeto . . . . . . . . . . . . . . . 3.2. Sistema de Informacin Actual . . . . . . o 3.3. Proyecto de Informatizacin a realizar . . o 3.4. Producto a generar con el Seminario . . . 3.4.1. Metodolog PU . . . . . . . . . . a 3.4.2. Metodolog CRM-DM . . . . . . a 3.5. Justicacin de las Metodolog a utilizar o as 3.5.1. Metodolog PU . . . . . . . . . . a 3.5.2. Metodolog CRM-DM . . . . . . a 4. Planeacin del Proyecto o 4.1. Estudio de Factibilidad . . . . 4.1.1. Factibilidad Operativa . 4.1.2. Factibilidad Tcnica . . e 4.1.3. Factibilidad Econmica o 4.2. Agenda de actividades . . . . .

. . . . . .

. . . . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

CONTENTS 5. Consideraciones 5.1. Alcances y Limitaciones . . . . . . . . . . . . . . . . . . . . . . . . 5.2. Aplicaciones Prcticas . . . . . . . . . . . . . . . . . . . . . . . . . a 5.2.1. Futuras Aplicaciones prcticas sobre la Farmacia en estudio a 5.2.2. Otras aplicaciones prcticas . . . . . . . . . . . . . . . . . a Bibliography

ii 29 29 29 30 30 33

. . . .

. . . .

. . . .

. . . .

. . . .

Indice de guras
2.1. Proceso KDD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2. Componentes de un DWH [Kimball y Ross, 2002] . . . . . . . . . . . . . . . 6 9

2.3. Niveles Para el modelado de los datos . . . . . . . . . . . . . . . . . . . . . 11 2.4. Ciclo de vida de un proyecto de DM . . . . . . . . . . . . . . . . . . . . . . 15 2.5. Tareas genricas denidas por CRISP-DM . . . . . . . . . . . . . . . . . . . 18 e 3.1. Proceso del Proyecto a Informatizar . . . . . . . . . . . . . . . . . . . . . . 21 4.1. Diagrama de Tareas a reealizar . . . . . . . . . . . . . . . . . . . . . . . . . 28

iii

Indice de cuadros
4.1. Tareas del Proyecto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

iv

Cap tulo 1

Introduccin o
1.1. Motivacin o

Cada vez son ms los datos que una organizacin almacena en sus bases de datos. Si se los a o maneja y utiliza adecuadamente podr brindar a la organizacin informacin muy valiosa an o o para la toma de decisiones sobre los negocios o medio en que se desenvuelve. Por ese motivo se requieren herramientas que nos ayuden a minimizar el tiempo para analizar mucha informacin con mayor velocidad y precisin. Es bueno que las organizaciones inviertan o o en tecnolog y soluciones con las cuales se puedan mantener en este mundo cambiante. a Ahora las organizaciones no dependen tan solo de factores como ubicacin, productos, etc, o sino tambin del conocimiento. Tal conocimiento basado en informacin comprensible, dee o tallada y relevante es crucial para lograr y sostener la ventaja competitiva. Pero las tareas de recolectar, procesar, limpiar y transformar la informacin necesaria para la toma de o decisiones no es una tarea sencilla ms si consideramos que una empresa tiene distintas a a reas interrelacionadas entre s . Nosotros como futuros actores de cambio dentro de una organizacin, debemos estar o preparados para responder de la mejor forma frente a los factores que intereren nuestro medio.

1.2.

Tema de Seminario

El Seminario de Sistemas a realizar consiste en el anlisis y diseo para Data Mining sobre a n una Farmacia de nuestro medio. Adems, previamente como apoyo para el Data Mining a se har un anlisis y diseo de un Data Warehouse organizando y estructurando los datos a a n 1

1. Introduccin o

provenientes de las Base de datos de la organizacin en cuestin. o o

1.3.

Data Mining

Data Mining (DM) engloba un conjunto de tcnicas dirigidas al descubrimiento de infore macin oculta y predecible de grandes bases de datos (Mc Graw Hill y Smith, 1997). La o palabra descubrimientoest relacionada con el hecho de que mucha de la informacin a o valiosa es desconocida con anterioridad. En todo caso, estas tcnicas pueden ayudar a e conrmar cualquier sospecha sobre el comportamiento del sistema en un contexto particular. Lo que hace el DM es reunir las ventajas de varias tareas como la Estad stica, la Inteligencia Articial, la Computacin Grca, y el Procesamiento Masivo, usando coo a mo materia prima las bases de datos. Estas pueden provenir de diferentes fuentes como archivos, un Data Warehouse(DWH), entre otras. Mediante los modelos extra dos utilizando las tcnicas del DM se aborda la solucin a problemas de prediccin, clasicacin y e o o o segmentacin. o

1.4.

Objetivo del Seminario

El objetivo de este seminario es especicar la documentacin necesaria para poder crear o modelos de DM del sistema objeto que se denir en el cap a tulo 3. Para ello se va estudiar la Metodolog CRM-DM y se aplicarn las tres primeras fases que son: anlisis del problema, a a a anlisis de los datos y preparacin de los datos. Para poder realizar esto, como paso inicial a o se va realizar el anlisis y diseo de un DWH aplicando la Metodolog PU. Se realizarn a n a a algunas iteraciones de la fase de construccin llegando a obtener un pequeo prototipo o n (con respecto a la estructuracin de los datos sobre un motor de base de datos). No es el o objetivo de este seminario abarcar la implementacin total del DWH y DM. o

1.5.

Organizacin o

En esta seccin se describe brevemente la estructura del informe, resumindose el contenido o e de cada cap tulo. En el cap tulo 2 se presentan aquellos aspectos relacionados con Data Mining(DM) y Data Warehouse(DWH).

1. Introduccin o

En el Cap tulo 3 se explicar sobre el proyecto informtico como el sistema a informatizar a a y las metodolog a usar. En el Cap as tulo 4 se describe el estudio de factibilidad y las tareas a realizar. Finalmente, el cap tulo 5 est dedicado a las limitaciones y alcances del a proyecto. Tambin se enumeran las diferentes aplicaciones prcticas. e a

Cap tulo 2

Data Mining y Data WareHouse


2.1.
2.1.1.

Conceptos Generales
Data Mining

Es la extraccin de informacin oculta y predecible de grandes bases de datos[Mc Graw o o Hill y Smith, 1997], es una poderosa tecnolog nueva con gran potencial para ayudar a las a compa a concentrarse en la informacin ms importante de sus Bases de Informacin. nas o a o

El Alcance de DM Una empresa en posesin de unas bases de datos de calidad y tamao suciente puede o n emplear el DM para generar nuevas oportunidades de negocio, dada su capacidad para proporcionar: Prediccin automtica de comportamientos. Generalmente se trata de problemas de o a clasicacin. Como ejemplo podemos citar el marketing dirigido. DM usa los resultao dos de campaas de marketing realizadas anteriormente para identicar el perl de n los clientes que son ms propensos a comprar el producto y de este modo permitirnos a sustituir el correo masivo por el correo dirigido. Prediccin automtica de tendencias. Basndonos en base de datos histricas, DM o a a o crear un modelo para predecir las tendencias. Como ejemplos podemos citar la a prediccin de ventas en el futuro o la prediccin en mercados de capitales. o o Descubrimiento automtico de comportamientos desconocidos anteriormente. Las a herramientas de DM de visualizacin y clustering, permiten ((ver)) nuestros datos o 4

2. Data Mining y Data WareHouse

desde una perspectiva distinta y por ello descubrir nuevas relaciones entre ellos. Principales caracter sticas y objetivos en la miner de datos: a Explorar los datos que se encuentran en las bases de datos. En el proceso se encuentran a menudo descubrimientos de resultados valiosos e inesperados. Debido a la gran cantidad de datos se pueden usar procesamientos paralelos. Se producen cinco tipos de informacin: asociaciones, secuencias, clasicaciones, o agrupamientos y pronsticos. o DM es parte de un proceso conocido como descubrimiento de conocimiento a partir de los datos(KDD: Knowledge Discovery in Databases). Algunos autores tambin se reeren a esta actividad bajo el nombre de KDD, no obstante, e otros disienten y arman que DM es solamente un paso en el proceso total de KDD. Se considerar a DM como un sinnimo de KDD. a o El proceso de KDD: Fases KDD es un proceso interactivo e iterativo que incluye numerosos pasos en los que el usuario tiene que tomar varias decisiones. Iterativo porque puede ser necesario acceder desde una fase a cualquiera de las anteriores, e interactivo porque el proceso es supervisado y controlado por el usuario de forma directa.[Fayyad et.al, 1996] Una representacin frecuente de un proceso t o pico de KDD, contempla los siguientes nueve pasos[Fayyad et.al, 1996]. En la Fig 2.1 se puede observar la divisin en fases y la interaco cin entre cada una de ellas. o Fases del Proceso KDD: 1. Comprensin del problema: Requiere estudiar el problema y decidir cul es la o a meta del proceso. Es una fase importante y que puede, en ocasiones, llevar una gran cantidad de tiempo. Los procesos de KDD dieren de otros procesos de anlisis en que a si bien es relativamente fcil aplicar el Algoritmo escogido y obtener los resultados, a sin una clara comprensin del problema, los resultados pueden ser inservibles. o

2. Data Mining y Data WareHouse

Figura 2.1: Proceso KDD

2. Creacin del conjunto de datos: Una vez que el problema ha sido denido, se o tiene que seleccionar el conjunto de objetos que se van a estudiar. En la mayor a de los casos, los datos relevantes se extraen de bases de datos ya existentes, o de un DWH [Kimball, 2002; Inmon, 1996] creado para servir a distintas necesidades del negocio u organizacin. El resultado es que no existe una unica fuente de donde o tomar los datos. Generalmente, los algoritmos no se pueden ejecutar directamente contra bases de datos con mltiples tablas. Por ello, los datos se deben extraer de u las bases de datos relacionales y almacenar en tablas a las que puedan acceder los algoritmos de DM. En cualquier caso, el elegir los datos supone elegir las bases de datos de las que se tomarn as como los atributos que sern tenidos en cuenta. Esta a a eleccin suele llevar mucho tiempo hasta que se identican cules son los atributos o a que mejor describen los datos que se van a analizar. Como consecuencia, la mejor solucin pasa por almacenar los datos en un DWH manejado por el gestor que o

2. Data Mining y Data WareHouse

contenga los datos que se seleccionen. Esta es una fase larga y tediosa y la tendencia general suele ser conseguir la mayor cantidad de datos que sea posible, de manera que esta fase no se tenga que volver a ejecutar. Como consecuencia, el resultado nal de esta fase es una base de datos descendiente de las bases de datos corporativas y que generalmente contiene ms ocurrencias y atributos que los que se necesitar a an para cualquier consulta. 3. Limpieza y preprocesado de los datos:Una vez que los datos relevantes han sido almacenados, es importante pasar algn tiempo explorando los datos fundamentalu mente por dos razones. En primer lugar, para entender no slo los nombres de los o atributos sino lo que estos signican y cul es su contenido en la base de datos. En a segundo lugar, existen muchas fuentes de error cuando se integran datos de mltiples u bases de datos en una sola. Si los datos se estn integrando en un DWH, esta limpieza a es parte de la integracin de los datos en el mismo. En esta fase se tendr que lleo an var a cabo tambin operaciones de eliminacin de valores nulos, registros repetidos o e o posibles codicaciones de atributos que en distintas bases de datos ten distintos an valores. 4. Reduccin y transformacin de los datos: consiste en la agrupacin de los o o o datos utiles de forma apropiada para utilizar los algoritmos de DM. 5. Elegir la tarea de DM: se elige la tarea de DM espec ca para un anlisis ms a a detallado. Aqu se debe decidir si el propsito es, por ejemplo, la agrupacin de o o objetos, la regresin o el modelaje de dependencia. o 6. Elegir el algoritmo de DM: Incluye la eleccin del mtodo ms adecuado, as coo e a mo los parmetros del mismo. a 7. DM: Una vez que el algoritmo ha sido elegido ya sea por el usuario o por el sistema, y que los datos han sido preparados, el algoritmo se ejecuta para buscar los patrones que se representarn en la forma elegida: rboles, reglas, o cualquier otra a a representacin del conocimiento. o 8. Evaluar el resultado del DM: La correcta evaluacin de los patrones descubiertos o

2. Data Mining y Data WareHouse

depende del problema que se haya resuelto. Una evaluacin tan slo de la precisin o o o del modelo es generalmente intil. Aparte de evaluar numricamente el rendimiento u e del modelo, existen otras medidas menos objetivas que son muy importantes. Una vez obtenido el modelo y comprendido por el usuario correspondiente, puede ocurrir una de las tres cosas siguientes : el usuario est de acuerdo con los resultados pero a siente que no le ha develado nada nuevo; el usuario est de acuerdo y comprueba a que los patrones obtenidos son novedosos y de inters para el negocio, con lo que e decide explorar ms para encontrar ms patrones; el usuario est descontento con el a a a modelo. En cualquiera de los dos ultimos casos ser necesario la ejecucin de nuevas a o consultas para renar el problema. 9. Consolidacin del conocimiento descubierto: Tras el proceso anterior es posio ble la incorporacin del conocimiento en otro sistema para acciones futuras o, simpleo mente, como documentacin e informe de los resultados a las partes interesadas. En o ciertos casos, si se dispone de conocimiento anterior, puede suponer la comprobacin o y resolucin de posibles conictos con dicho conocimiento. o Las tcnicas ms comnmente usadas en DM son: e a u Redes neuronales articiales: Modelos predecible no-lineales que aprenden a travs del entrenamiento y se asemejan a la estructura de una red neuronal biolgica e o [Nojec et.al, 2003]. Arboles de decisin: estructuras de forma de rbol que representan conjuntos o a de decisiones. Estas decisiones generan reglas para la clasicacin de un conjunto de o datos. Algoritmos genticos: tcnicas de optimizacin que usan procesos tales como e e o combinaciones genticas, mutaciones y seleccin natural en un diseo basado en los e o n conceptos de evolucin [Miller, 1995]. o Clustering: Mtodos de agrupacin de datos que nos permiten clasicar los datos e o por su similitud entre ellos[Everitt et al., 2001].

2. Data Mining y Data WareHouse

2.1.2.

Data Warehouse

Debemos ver al DWH como una tecnolog su propsito es reunir informacin de distintas a: o o fuentes y efectuar un proceso de implementacin de un proyecto de DWH. o En el tema se destacan los autores Bill Inmon y Ralph Kimball. El primero lo dene: DWH es una coleccin de datos integrados orientados a temas, integrados, no-voltiles o a y variables en el tiempo, organizados para soportar necesidades empresariales[Inmonn, 2002] y para Kimball DWH es un coleccin de datos en forma de una base de datos o que guarda y ordena informacin que se extrae directamente de los sistemas operacionales o (ventas, produccin , nanzas, marketing, etc.) y de datos externos[Kimball y Ross, 2002]. o Ambos punto de vista han tenido amplia aceptacin, pero el ms utilizado es el Kimball. o a Componentes del DWH Cada componente del DWH sirve una funcin espec o ca. Hay que aprender la importancia estratgica de cada componente y como manejarlo con ecacia para lograr un buen DWH. e En la Fig 2.2 se puede observar los componentes de un DWH dados por Kimball [Kimball y Ross, 2002].

Figura 2.2: Componentes de un DWH [Kimball y Ross, 2002]

2. Data Mining y Data WareHouse

10

1. Fuentes de Datos de Sistemas operacionales: Son los que guardan las transacciones del negocio, las cuales son la informacin vital para los procesos que se llevan o a cargo en la organizacin. Las caracter o sticas de estos sistemas son el desempeo n del procesamiento y la disponibilidad. 2. Area de depuracin de datos: Es la zona donde se encuentra cules de los datos o a que forman parte en la parte transaccional se pueden usar en el DWH. En esta parte aparece proceso de extraccin, carga y transformacin de los datos (ETL 1 ). o o Este proceso se lleva a cabo por medio de diversas herramientas que permite tener integrados muchos datos de diferentes fuentes. 3. Area de presentacin de datos: En esta rea se pone los datos en espacio de o a almacenamiento del DWH. Los datos se almacenan en las dimensiones y en las tablas de hechos donde se pueden formar diversos data mart
2

4. Herramienta de acceso de datos: Es la parte donde el usuario puede tomar y realizar las diversas consultas para formar los famosos cubos dimensionales, los cuales se usan para la generacin de reportes e indicativos cuando ocurre un proceso o OLAP 3 , o se le puede aplicar un proceso de miner de datos para descubrir a conocimiento, el cual la organizacin no conoc o a. Niveles para el modelado de los datos

El modelado de los datos es una tcnica que almacena los inventarios, formas, tamaos, e n contenidos, y reglas de los elementos de los datos usados en el alcance en proceso del negocio[Allen, 2002]. El resultado del modelado de los datos es un tipo de mapa que se describe en uso del dato en el proceso. Tradicionalmente, se encuentran tres niveles para el modelado de los datos en un DWH que son: conceptual, lgico y el f o sico (Fig 2.3).

ETL:(Extract, Trasnsform and Load). Proceso que permite a las organizaciones mover datos desde mltiples fuentes, reformatearlos y limpiarlos, y cargarlos en otra base de datos, data mart o DWH para u analizar, o en otro sistema operacional, para apoyar un proceso de negocio. 2 data mart: Conjunto de hechos y datos organizados para soporte decisional basados en la necesidad de un area o departamento espec co. 3 OLAP:(On-Line Analytical Processing).Conjunto de principios que proveen una ambiente de trabajo dimensional para soporte decisional.

2. Data Mining y Data WareHouse

11

Figura 2.3: Niveles Para el modelado de los datos

Modelos Conceptuales: Orientados a decidir qu datos son los interesantes y cmo e o se relacionan entre s . Modelos Lgicos: orientados a expresar manipulaciones en forma abstracta para que o sea viable realizar implementaciones sobre los varios tipos de manejadores disponibles Modelos F sicos: consisten en desarrollar los diversos aspectos que tratan de la obtencin de los datos. o

2.2.

Metodolog para DWH: PU a

El proceso de desarrollo de un DWH se puede aproximar al desarrollo de software basado en el Proceso Unicado (PU)[Jacobson et.al, 2000], el cual esta divido en cuatro partes que son: el inicio, elaboracin, construccin y transicin, y los ujos de trabajos bsicos o o o a que lo compone son: los requerimientos, el anlisis, el diseo, implementacin y pruebas. a n o Si para el desarrollo del DWH se sigue el enfoque del PU, se encuentra que se puede aplicar a los diferentes componentes las ayudas usadas para este proceso que es la utilizacin estndar del UML. o a UML es el leguaje de modelado unicado [Jacobson et.al, 1996], que posee una diversidad de diagramas. El DWH debe ser visto como un producto en continua evolucin en el tiempo a travs de o e una serie de versiones. Cada una de estas versiones se considera un proyecto.

2. Data Mining y Data WareHouse

12

2.2.1.

Fases de Desarrollo

1. Fase de Concepcin o En la etapa inicial de desarrollo (Concepcin) se crean las bases del proyecto. Se dene el o alcance, el plan inicial, la visin del negocio con las metas y la justicacin del proyecto. o o Durante esta etapa se comienza a pensar en la arquitectura inicial del sistema desde el punto de vista del negocio y desde el punto de visto tcnico. Para un DWH este proceso e implica la creacin de un modelo conceptual y un modelo de despliegue , ambos a un alto o nivel en esta fase. 2. Fase de Elaboracin o Una vez nalizada la fase de inicio, se pretende formar una arquitectura slida para la o construccin del software. En esta fase se busca establecer la base lgica de la aplicacin o o o con los casos de uso denitivos y los artefactos del sistema que lo componen, adems de a mitigar el riesgo tecnolgico de la exploracin del lenguaje de programacin en cuanto a o o o interfaz de usuario se reere. Para esto, se naliz la primera iteracin con un prototipo o o funcional para la realizacin de pruebas de software y la denicin del modelo para la o o implementacin de la interfaz de usuario. o El objetivo fundamental al nal de cada fase de desarrollo es determinar si se contina u o no con el proyecto, el proyecto del DWH debe tener sentido nanciero y tcnico para e continuar con su desarrollo. 3. Fase de Construccin o La fase de construccin se inicia a partir de la l o nea base de arquitectura que se especico en la fase de elaboracin, y su nalidad es desarrollar un producto listo para la operacin o o inicial en el entorno del usuario nal. La fase de Construccin termina con la revisin de las capacidades operacionales iniciales. o o El principal objetivo de esta revisin es comprobar que el DWH puede continuar hacia la o siguiente fase (Transicin). o 4. Fase de Transicin o Una vez que el proyecto entra en la fase de transicin, el sistema ha alcanzado la capacidad o operativa inicial. Esta fase busca implantar el producto en su entorno de operacin. o

2. Data Mining y Data WareHouse

13

Flujos de trabajo En trminos generales para el PU un ujo de trabajo es un conjunto de actividades realie zadas en un rea determinada cuyo resultado es la construccin de artefactos (un texto, a o un diagrama, una pgina Web, cdigo en lenguaje de programacin, etc.). a o o

Requerimiento Durante este ujo de trabajo, los usuarios nales especican las medidas y agregaciones ms interesantes, el anlisis dimensional, consultas usadas para la generacin a a o de reportes peridicos y frecuencia de la actualizacin de los datos. Para el desarrollo o o de esta etapa el PU plantea la utilizacin del modelo de casos de uso. Esto ayuda a o comprender el sistema y obtener los requisitos y funciones para la solucin. Adems o a establece como deben ser las interacciones del sistema. Anlisis a El objetivo de este ujo de trabajo es mejorar la estructura y los requisitos obtenidos en la etapa de requerimientos. En esta etapa se documenta los sistemas operaciones preexistentes que alimentan el DWH. El PU propone el uso del diagrama de diagramas de clase. Dise o n Al nal de este ujo de trabajo, esta denida la estructura del DWH. El principal resultado de este ujo de trabajo es el modelo conceptual del DWH. El PU propone el uso clases estructuradas en paquetes, diseos de subsistemas con interfaces denidas n (componentes) y la forma de colaboracin entre las clases. o Implementacin o Durante este ujo de trabajo, se construye el DWH: su estructura f sica, la recepcin o de los datos de los sistemas operacionales, se ana para un funcionamiento optimizado, entre otras tareas. El PU propone como artefacto el diagrama de componentes. Pruebas El objetivo de este trabajo es vericar que la aplicacin funcione correctamente. Ms o a concretamente, los efectos de las pruebas son los siguientes: Planicar las pruebas

2. Data Mining y Data WareHouse

14

necesarias, disear y aplicar las pruebas mediante la creacin de casos de prueba y n o realizar las pruebas y analizar los resultados de cada una.

2.3.

Metodolog para DM: CRM-DM a

CRISP-DM [CrispDM, 2000] es una metodolog de DM no propietaria que fue desarroa llada con la nalidad de estandarizar la forma en que se conducen los proyectos de DM y proporcionar a las empresas un camino a seguir para conseguir proyectos ms exitosos a y establecer buenas prcticas dentro de la industria. Proporciona un modelo de procesos a que describe tareas comnmente utilizadas por los expertos en DM para atacar diferentes u tipos de problemas. Entre las ventajas ms tangibles de este estndar se encuentran que es neutral con respecto a a al tipo de industria que la aplica, es independiente de la plataforma en la que se trabaja, est fuertemente relacionado al modelo de procesos de KDD y es el punto de partida de a todo el proceso de DM. En la Fig 2.4 se detalla el ciclo de vida de un proyecto de DM. El ciclo de vida de un proyecto de DM consiste en seis fases cuya sucesin no es r o gida, y se puede mover entre ellas siempre que se requiera. Las echa indican las dependencias ms importantes y a frecuentes entre las fases. El c rculo exterior simboliza la naturaleza c clica de los proyectos de DM. La metodolog se presenta en trminos de un proceso jerrquico. Consiste en un a e a juego de tareas descriptas en niveles de abstraccin (de lo general a lo espec o co): la fase, la tarea genrica o subfase, la tarea especializada y el caso del proceso. e La divisin de tareas genricas en tareas especializadas depende del contexto del DM del o e proyecto. CRISP-DM hace distincin entre cuatro dimensiones diferentes de contextos de o DM: El dominio de la aplicacin: que es el rea espec o a ca en donde el proyecto de DM toma lugar. El problema de DM: que describe las clases de objetivos con las que trata el problema de DM. El aspecto tcnico: que cubre los distintos problemas tcnicos que usualmente e e

2. Data Mining y Data WareHouse

15

Figura 2.4: Ciclo de vida de un proyecto de DM

ocurren en DM. La herramienta y la tcnica: que especica cuales herramientas o tcnicas de e e DM son aplicadas durante el proyecto. CRISP-DM distingue dos tipos de divisiones de tareas genricas en tareas especializadas, e de acuerdo a si se har slo para el proyecto en que se trabaja o si se sistematizar el a o a modelo de procesos para trabajos futuros. En el segundo caso, cuando se especializa sistemticamente el modelo de procesos de acuerdo a un contexto pre-denido o se consolidan a las experiencias de un proyecto para especializar el modelo de procesos para usos futuros en contextos similares, CRISP-DM habla de que se ha escrito un Modelo de procesos especializado en trminos de CRISP-DM. e

2. Data Mining y Data WareHouse

16

La estrategia bsica para determinar qu tareas especializadas de una tarea genrica se a e e llevarn a cabo consiste en ejecutar los siguientes pasos: a Analizar el contexto espec co del proyecto. Eliminar cualquier detalle no aplicable al contexto. Agregar cualquier detalle espec co al contexto. Especializar los contenidos genricos de acuerdo a las caracter e sticas concretas de contexto. Renombrar los contenidos genricos que no provean un signicado expl e cito en el contexto por otro que si lo haga, en orden de claricar. Las seis fases de modelo de procesos CRISP-DM son las siguientes: Anlisis del problema: Esta fase se enfoca en comprender los objetivos y requea rimientos desde la perspectiva del negocio, en orden de convertirlos en la denicin o de un problema de DM. Comprensin de los datos: Esta fase inicia con una recoleccin inicial de los datos o o y contina con actividades que permitan familiarizarse con estos datos, identicar u problemas de calidad, obtener las primeras ideas sobre el dato o detectar subconjunto de datos interesantes que permitan formular hiptesis acerca de informacin escono o dida. Esta fase propone dentro de sus tareas algunas que, o bien realizan actividades relativas a preparacin de los datos (descargar los datos de las fuentes en un hero ramienta espec ca, integracin de estos datos), o proveen a la fase de preparacin o o de los datos de informacin util para la consecucin de sus tareas (realizacin de o o o agregaciones, vericacin de distribuciones, relaciones entre atributos, valoraciones o de calidad y posibles tratamientos del dato) Preparacin de los datos: Esta fase cubre todas las actividades en orden de o construir el conjunto nal de datos que ser utilizado como entrada para el(los) a modelo(s). Estas tareas probablemente se realizarn varias veces y sin un orden a prescrito. Se realizan tareas de seleccin de tablas, registros y atributos as como o transformacin y limpieza de los datos para las herramientas de modelado. o

2. Data Mining y Data WareHouse

17

Modelado: En esta fase se seleccionan y aplican las tcnicas de modelado y sus e parmetros son calibrados a sus valores ptimos. Generalmente, existen varias tcnia o e cas para el mismo problema de DM. Algunas de ellas tienen requerimientos espec cos acerca de la forma del dato. Por esta razn, volver hacia la fase de preparacin o o de datos en frecuentemente necesario. Evaluacin: En esta fase se evala la calidad de los modelos construidos en orden o u de vericar que con ellos se logran los objetivos de negocio que fueron planteados. Al nal de esta fase se toma una decisin acerca de si se utilizan los resultados o proporcionados por los modelos y se contina a la fase siguiente. u Despliegue: En esta fase se debe organizar el conocimiento obtenido en las fases previas de forma que pueda ser utilizado y se decide que acciones deben llevarse a cabo para que se pueda hacer uso de los modelos creados. En la Fig 2.5 se muestran las tareas genricas denidas por CRISP-DM para las seis fases e de su modelo de procesos. Si bien los creadores de CRISP-DM desarrollaron una metodolog amplia y exible para a poder dar soporte a este tipo de proyectos, no se dispone de una herramienta que permita dar soporte a toda la documentacin interviniente en un proyecto desarrollado con esta o metodolog a.

2. Data Mining y Data WareHouse

18

Figura 2.5: Tareas genricas denidas por CRISP-DM e

Cap tulo 3

Proyecto Infrmtico o a
3.1. Sistema Objeto

El sistema objeto a considerar en este Seminario es un sistema para DM y DW el cual se lo llamar SYDDorientado para una Farmacia. El objetivo es centralizar y organizar a toda la informacin que se encuentra almacenada en las bases de datos de sus diferentes o sucursales. Esta informacin va a corresponder a las ventas y compras de los productos de o la farmacia y a partir de la cual se podr brindar informacin y conocimiento de inters a a o e los gerentes y encargados de las compras. El punto de inicio es un DWH que contendr informacin sobre las ventas y compras de a o productos. La informacin que va proveer el DWH es sobre: Productos, Laboratorios, Compras, Veno tas, Stocks, entre otras cosas. Para ello se van ejecutar durante ciertos per odos de tiempos, procesos para la inicializacin, integracin y actualizacin de la informacin que va a cono o o o tener el DWH. Las frecuencias diferirn del tipo de informacion que se manejar en el a a mismo. Hay cierta informacin como por ejemplo los diferentes productos que ofrece la o farmacia que no es necesaria que se est actualizando al momento. Este no es el caso del e stock actual de cada producto ya que esta informacin cambia continuamente durante o todo el d La actualizacin casi en tiempo real de la informacin va a permitir que el a. o o DM trabaje sobre informacin consistente y se podr decir que el proceso de DM se ejeo a cutar en tiempo real. a Con la informacin que provea el DWH se podr aplicar DM para obtener conocimiento o a sobre algn tema de inters. Por ejemplo se podr estudiar como es el comportamiento de u e a

19

3. Proyecto Infrmtico o a

20

las ventas y compras de ciertos productos para poder determinar entre otras cosas como puede afectar la venta de ciertos productos a la compra de los mismos para su reposicin. o Algunos de los factores que pueden inuir pueden ser: como fue la venta durante aos n anteriores, en que poca , cuntas cantidades se vendieron, etc. e a

3.2.

Sistema de Informacin Actual o

La Farmacia Farmaa estudiar se dedica a la venta de productos farmacuticos. Para e satisfacer sus necesidades dentro del Negocio, Farma cuenta con un sistema informtico a SyFarma. Este se encarga del manejo de algunas reas como compras, personal, stock, a ventas, clientes, entre otras. Tambin maneja los pedidos de clientes y pedidos de mercae der a proveedores. as Algunas caracter sticas principales: Facturador multifuncional, transaccional de Punto de Venta. Integrado con las principales validadoras de recetas. Concentra la informacin de los distintos Puntos de Venta. o Generacin de pedidos de compra centralizados. Pedidos masivos y manejo de depsito. o o Auditor de recetas. a Actualizacin constante de la base de datos (Obras sociales, productos y precios o sugeridos). Liquidacin y administracin de OS con un estricto control y seguimiento de recetas. o o Integridad en el maestro de productos. Farma cuenta con 5 sucursales: Sucursal de Depsitos, Sucursal Central, y otras tres o sucursales ms. Cada una maneja su propia Base de Datos y sus propios puestos de venta. a

3.3.

Proyecto de Informatizacin a realizar o

El Proyecto a Informatizar consiste en el anlisis, seleccin, integracin y actualizacin de a o o o la informacin proveniente de las 5 sucursales de la farmacia. La informacin con la que se o o

3. Proyecto Infrmtico o a

21

va a trabajar corresponde a: productos, ventas, compras, stocks, laboratorios entre otras. Esta informacin se centralizar en unica Base de Dato (DWH). o a Sistema SyDD Funciones bsicas: a Acceder mediante acceso remoto a las base de datos de cada una de las sucursales. Seleccin, procesamiento y transformacin de los datos de inters. o o e Centralizar en una BD informacin sobre: Productos, Laboratorios, Compras, Stocks, o Ventas, Otros. Actualizar la informacin centralizada de acuerdo a como sta va cambiando en el o e sistema actual SyFarma respecto a cada una de las sucursales. Anlisis de la informacin centralizada de las ventas y compras aplicando DM. a o En la siguiente gura se puede observar el proceso del proyecto que se va a informatizar (Fig. 3.1).

Figura 3.1: Proceso del Proyecto a Informatizar

3. Proyecto Infrmtico o a

22

3.4.

Producto a generar con el Seminario

Actualmente para el anlisis y diseo del DM y DWH no hay una metodolog estndar a n a a para su desarrollo conjunto. Este trabajo consistir en las siguientes 3 actividades: a Recoleccin de Requerimientos: Aplicando las tcnicas entrevistas y Revisin del o e o Sistema Informtico Actual. a Anlisis y Diseo de DWH: aplicando PU a n Anlisis y Diseo de DM: aplicando CRM-DM a n

3.4.1.

Metodolog PU a

Esta metodolog se basa en fases de desarrollo, utiliza el UML como lenguaje grco de a a sus modelos [Jacobson et. al, 1996]. El PU y el proceso de DWH se componen de cuatro fases [Trujillo, 2005] y [Jacobson et. al ,2000]: Inicio, elaboracin, construccin y transicin o o o (ver Seccin 2.2). o Las fases a realizar de estas metodolog son: Fase de Inicio, Fase de Elaboracin, Fase as o de Construccin (de esta ultima se desarrollarn las primeras iteraciones). o a Flujos de trabajo que se aplicarn en el proceso del DWH. a Requerimientos . Artefactos: Visin o Modelo de Casos de Uso : Esto ayudar a comprender el sistema y obtener los a requisitos y funciones para la solucin. Adems permitir establecer como deben ser o a a las interacciones del sistema. De ser necesario algn atefacto ms. u a Anlisis. Artefactos: a Renamiento de la estructura y requisitos obtenidos en la etapa anterior. Documentacin de lo sistemas operacionales preexistentes que alimentan el DWH. o Diagrama de clases.

3. Proyecto Infrmtico o a

23

Dise o. Artefactos: n Modelo conceptual del DWH: Diagrama de Clases de Diseo, Diagramas de Colabn oracin o Diagrama de Secuencia. o De ser necesario algn atefacto ms. u a

3.4.2.

Metodolog CRM-DM a

De esta metodolog se aplicarn las tres primeras fases que son: Anlisis del problema, a a a Comprensin de los datos y Preparacin de los datos (ver Seccin 2.3). o o o Esta metodolog no est muy relacionada con el t a a pico proceso de Ingenier de software. a Por lo tanto, es dif poder determinar que tipos de artefactos se obtendr aplicando cil an las fases mencionadas. Por tal motivo esto va ser un tema de estudio.

3.5.
3.5.1.

Justicacin de las Metodolog a utilizar o as


Metodolog PU a

La implementacin de un DWH esta orientada a realizarse mediante pequeos minio n proyectos o incrementos, por lo tanto resulta natural pensar en una metodolog increa mental para abordar su desarrollo. En este proyecto se va aplicar esta metodolog a. De esta manera, se podr aprovechar los benecios de la implementacin incremental, que a o incluyen la contencin de riesgos entre otros. Adems los cambios en los requerimientos o a demandan un enfoque de alta colaboracin evolutivo y exible, y el PU dene tal enfoque. o Durante la investigacin realizada para determinar la metodolog a aplicar se encontr una o a o tesis doctoral realizada por [Trujillo, 2005], en esta se ve como aplicando los modelos del PU en el desarrollo de un DWH sale una metodolog la cual puede dar al usuario y a a los desarrolladores una mejor perspectiva del modelo de negocio y poderlo desarrollar en un mejor tiempo, realizando las respectivas etapas que llevan este proceso. La misma se tendr en cuenta durante el desarrollo del proyecto de seminario. a

3. Proyecto Infrmtico o a

24

3.5.2.

Metodolog CRM-DM a

Esta es la metodolog ms empleada en la actualidad para aplicar DM. En la misa a ma se pueden encontrar varias ventajas, adems muchas herramientas se basan en esta a (Two Crows [Two Crows Corp., 2005] y Metodolog SQL Server- 2005 [Tang y MacLena nan,2005], entre otras).

Cap tulo 4

Planeacin del Proyecto o


4.1.
4.1.1.

Estudio de Factibilidad
Factibilidad Operativa

La Factibilidad operativa va permitir predecir, si se pondr en marcha el sistema propuesto, a aprovechando los benecios que ofrece a todos los usuarios involucrados, ya sean los que interactan en forma directa con este, como tambin aquellos que reciben informacin u e o producida por el sistema. La necesidad y deseo de una nueva forma de acceder a la infomacin que se genera en o el sistema existente, expresada por el gerente y los encargados de las toma de desiciones sobre las compras y ventas, llev a la aceptacin de esta nueva estrategia. De una manera o o simple y util, cubrir sus requerimientos y expectativas proporcionando la informacin en a o forma oportuna y conable.

4.1.2.

Factibilidad Tcnica e

La factibilidad tcnica consisti en realizar una evaluacin de la tecnolog existente en e o o a la Farmacia. Se recolect informacin sobre sus componentes tcnicos y la posibilidad de o o e hacer uso de los mismos en el desarrollo del proyecto y de ser necesario los requerimientos tecnolgicos que deben ser adquiridos para el desarrollo y puesta en marcha del proyecto o en cuestin. De acuerdo a la tecnolog necesaria para el desarrollo del proyecto se tuvieron o a en cuenta dos factores: Software En cuanto al software, lo unico que se requerir ser es el Motor de Base de Datos Microsoft a a

25

4. Planeacin del Proyecto o

26

SQL server 2000 o 2005. La farmacia ya cuenta con todas las aplicaciones necesarias, como el sistema actual con el cual opera (proveedor de informacin para el DWH) y su o correspondiente motor de base de datos. Hardware En cuanto al hardware, Farma ya cuenta con todas los componentes necesarios, por lo tanto sta no tendr que realizar una inversin inicial para la adquisicin de nuevos equipos, ni e a o o tampoco para repotenciar o actualizar los equipos existentes, ya que los mismos satisfacen los requerimientos necesarios para el desarrollo del proyecto. Con respecto a los recursos humanos, se cuenta con el personal disponible, que en este caso sern los encagados de las compras y ventas, como as tambin los propios gerentes. a e

4.1.3.

Factibilidad Econmica o

Como resultado de los estudios anteriores se determin que actualmente, la farmacia posee o la infraestructura tecnolgica (Hardware y Software) necesaria para el desarrollo y puesta o en funcionamiento del sistema. Por lo tanto los costos que incurrirn del proyecto son: a Costos del Software de Aplicacin. o Costos de Instalacin. o Costos de Mantenimiento. Costos de la Mano de Obra. Los benecios que se obtendr tienen que ver ms con la velocidad de procesamiento lo cual a a le permitir a los usuarios el ahorro del tiempo operacional, como as tambin la obtencin a e o de resultados e informes de manera rpida. Por ejemplos los encargados de compras ya no a tendrn que esperar largos lapsos de tiempos para obtener resultados para poder tomar a alguna desicin respecto a las compras a realizar, ya que con el sistema actual los usuarios o llegan en algunas situaciones a realizar sus operaciones manualmente. Tambin se podrn obtener benecios estratgicos a la hora de la toma de desiciones sobre e a e las compras y ventas de los productos farmaceticos. u En este trabajo no se van a cuanticar costos ni benecios. Esto requiere de un trabajo ms profundo. Pero se entiende que se pueden obtener benecios tanto intangibles como a tangibles los cules se podr cuanticar. a an

4. Planeacin del Proyecto o

27

4.2.

Agenda de actividades

A continuacin en la siguiente Tabla se muestran las actividades necesarias para llevar a o cabo este trabajo.(Tabla 4.1) Diagrama de Gantt Aproximado (ver Fig 4.1)
ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Nombre de la Tarea Anlisis y Dise o para DM a n Req. y Estudio del Sist. Actual Entrevistas Revisin del Sistema Actual o Investigacin de Metodolog o as Metodolog para DWH: PU a Metodolog para DM: CRM-DM a Desarrollo del DWH Anlisis para DWH a Diseo para DWH n Desarrollo del DM Anlisis para DM a Diseo para DM n Elaboracin del informe del Seminario o Realizacin del 80 por ciento del Informe o Terminacin del Informe Final o Duracin o 155 d as 10 d as 10 d as 10 d as 35 d as 20 d as 30 d as 40 d as 30 d as 30 d as 40 d as 40 d as 40 d as 120 d as 90 d as 30 d as Comienzo lun 04/05/09 lun 04/05/09 lun 04/05/09 lun 04/05/09 lun 18/05/09 lun 18/05/09 lun 25/05/09 lun 06/07/09 lun 06/07/09 lun 20/07/09 lun 31/08/09 lun 31/08/09 lun 31/08/09 lun 22/06/09 lun 22/06/09 lun 26/10/09 Fin vie 04/12/09 vie 15/05/09 vie 15/05/09 vie 15/05/09 vie 03/07/09 vie 12/06/09 vie 03/07/09 vie 28/08/09 vie 14/08/09 vie 28/08/09 vie 23/10/09 vie 23/10/09 vie 23/10/09 vie 04/12/09 vie 23/10/09 vie 04/12/09 Pred.

3,4 3,4 7,6 7,6 9,10 9,10 6 12,13,15

Cuadro 4.1: Tareas del Proyecto

4. Planeacin del Proyecto o

28

Figura 4.1: Diagrama de Tareas a reealizar

Cap tulo 5

Consideraciones
5.1. Alcances y Limitaciones

Con respecto al alcance del proyecto de Seminario, slo se considerarn las Ventas y o a compras de productos que realiza la Farmacia, en este caso no se tiene en cuenta al cliente (quien compr determinado producto). O sea que lo que podr interesar en este estudio es o a qu productos se vendieron, cuntos se vendieron, cuntos se tendr que comprar para e a a an su reposicin entre otras cosas. o Aplicar DM consiste de varias fases, pero a lo que se apunta en este trabajo es a las primeras fases como la preparacin de los datos ya que esta es la fase ms laboriosa a la o a que uno se puede enfrentar a la hora de aplicar esta tcnica. Y los resultados de un buena e estructura y organizacin de los datos son los que van a permitir crear modelos de DM o de una manera mucho ms fcil. Tambin por este mismo motivo es que se realizar un a a e a DWH ya que este resulta muy util y hasta hace mas fcil las primeras fases del DM. a

5.2.

Aplicaciones Prcticas a

DM es la herramienta ms potente que acompaa a los responsables de una empresa o a n cualquier tipo de proyecto, en el momento de la toma de decisiones de negocios y en el anlisis de resultados presentes, pasados y an futuros. a u

29

5. Consideraciones

30

5.2.1.

Futuras Aplicaciones prcticas sobre la Farmacia en estudio a

En este trabajo se procedi al desarrollo de las fases iniciales del proceso de DM llegando o hasta la preparacin de los datos. Cabe destacar que estas fases son las que ms tiempo o a llevan a la hora de desarrollar cualquier proyecto de DM. Todo este desarrollo de DM sobre la Farmacia va servir como punto inicial para la creacin o de modelos de DM orientado a las reas de ventas y compras. Algunos modelos podr a an ser sobre: Anlisis y pronstico de ventas: Para evaluar la tendencia de las ventas utlizando a o distintos criterios. Sistemas de Inventario: Para la reposicin de productos. o Otros. En caso de que se requiera abarcar otras ares como el marketing o gestin de clientes a o entre otras para seguir con el desarrollo del proyecto, se deber centralizar este tipo de a informacin en el DWH ya creado y de apartir de ah proceder con la creacion de nuevos o modelos de DM. Se podr crear modelos para : a Marketing Directo: para ofrecer un producto particular a un cliente o grupo de clientes espec cos. Anlisis de canasta de compra: para determinar la coleccin de productos que cona o sume un cliente o grupo de clientes. Otros.

5.2.2.

Otras aplicaciones prcticas a

Si bien un estudio o anlisis de DM es aplicable a cualquier empresa con grandes o medianas a bases de datos, se pueden destacar los siguientes rubros: Aplicaciones con xito en el campo de la empresa y los negocios: e Anlisis de Riesgo (Bancos, Empresas Financieras, Seguros) a

5. Consideraciones

31

Deteccin de Fraudes (Bancos, Empresas Financieras, Seguros, Telecomunicao ciones) Segmentacin de Clientes (Diferentes industrias a la hora de encarar campaas o n de Marketing) Investigacin Pura (Laboratorios, Empresas de Tecnolog Mdica, Sociolog o a e a, Psicolog a) Prediccin de la Demanda (Log o stica, Distribucin de productos varios: alimeno tos, diarios, revistas, etc) Trco de Redes. (Grandes proveedores de Internet, Sistemas formados por a redes de distribuc f on sica compleja) Ciencia Medicina, Biolog y Psicolog Cualquier estudio de investigacin, en praca a. o ticamente cualquier rea, hoy utiliza tcnicas de Data Mining para evaluar a e resultados. Exito de una nueva droga es un ejemplo clsico a Geolog y Geograf Compresin de imgenes, estudios de supercies y tera a. o a renos (ampliamente aplicado en el sector de petrleo). o Aplicaciones en el Gobierno Anti-terrorismo (Sistemas para el entrecruzamiento de llamadas telefnicas, o celulares, e-mails, tarjetas de crdito, exploracin web, etc). e o Anlisis de a ndices macroeconmicos y estudios de distribucin social. o o Otros.

Glosario
A continuacin se denen algunos trminos empleados a travs del desarrollo de este doco e e umento. OLAP:(On-Line Analytical Processing).Conjunto de principios que proveen una ambiente de trabajo dimensional para soporte decisional. Permite a los usuarios derivar informacin o e inteligencia de negocios de sistemas de DWH suministrando herramientas para la consulta y anlisis de informacin. a o Data Mart: Conjunto de hechos y datos organizados para soporte decisional basados en la necesidad de un rea o departamento espec a co. Los datos son orientados a satisfacer las necesidades particulares de un departamento dado teniendo s lo sentido para el personal o de ese departamento y sus datos no tienen porque tener las mismas fuentes que los de otro DataMart. ETL:(Extract, Trasnsform and Load). Proceso que permite a las organizaciones mover datos desde mltiples fuentes, reformatearlos y limpiarlos, y cargarlos en otra base de u datos, data mart o DWH para analizar, o en otro sistema operacional, para apoyar un proceso de negocio. Dimensin: Entidad independiente dentro del modelo multidimensional de una organio zacin, que sirve como llave de bsqueda (actuando como o u ndice), o como mecanismo de seleccin de datos. o Hechos: Constituyen el que analizar y son numricas y sumarizables a diferente nivel de e detalle.

32

Bibliograf a
Allen S.: Data Modeling for Everyone. Curlingstone Publishing (2002). CRISP-DM 1.0.: Step-by-step Data Mining guide. Disponible en http://www.crispdm.org, The CRISP-DM Consortium, Agosto (2000). Everitt, B.: Cluster Analysis (2nd ed.). Halsted Press (1981). Fayyad U., Piatetsky-Shapiro G., y Smyth P.: From Data Mining to Knowledge Discovery in Databases. American Association for Articial Intelligence pag 37-54 (1996). Inmon W.: Building the data warehouse. Editorial. Addison Wesley (2002). Jacobson I. Booch G. y Rumbaugh J.: El Proceso Unicado de Desarrollo de Software. Editorial Addison Wesley (2000). Jacobson I. Booch G. y Rumbaugh J.: El Lengueje Unicado de Modelado. Editorial. Addison Wesley (1999). Kimball R. y Ross M.: The Data Warehouse Toolkit:The Complete Guide to Dimensional Modeling. Wiley (2002). Mc Graw Hill A. , Smith, S.: Data Warehouse, Data Mining and OLAP. USA (1997). Miller, B., L. y Goldberg, D., E.: Genetic algorithms, Selection Schemes and the Varying Efects of Noise. (1995). Nojec, S., Britos, P., Brossi, B., Garcia Mart nez, R.: Pronstico de Ventas: Comparacin o o de Prediccin entre Redes Neuronales y Mtodos Estad o e sicos. Revista Eletrnica de o Ciencia Administrativa. Volumen 2 N 1 ISSN: 1677-7387.(2003).

33

BIBLIOGRAF IA

34

Tang Z. y MacLennan J.: Data Mining with SQL Server 2005. Wiley, (2005). ISBN-13: 978-0471462613. Trujillo J.: Data WareHouse Desig with UML, PHD. Thesis, Universidadde Alicante, (2005). Two Crows Corporation.: Introduction to Data Mining and Knowledge Discovery. 3ra Edicin. USA: Two Cows Corporation, (2005). ISBN: 1-892095-02-5. o

También podría gustarte