Está en la página 1de 90

Presentacin

Ampliacin de Bases de Datos

Tema 7 - Data Warehouse

Indice
Parte I - Data Warehouse
Introduccin Definicin y Caractersticas de un Data Warehouse Bases de Datos Multidimensionales Meta Datos Comparacin entre Sistema Operacional y DW Data Marts Arquitectura de un Data Warehouse Procesos clave en la gestin de un Data Warehouse Tcnicas de Explotacin del Data Warehouse - Consultas o informes libres - Sistemas OLAP - Data Minig 10. Aplicaciones del Data Warehouse 11. Tendencias Tecnolgicas y de Mercado 12. Ejemplo Prctico de un Data Warehouse 1. 2. 3. 4. 5. 6. 7. 8. 9.

Ampliacin de Bases de Datos

Tema 7 - Data Warehouse

Introduccin
Introduccin - Gestin de datos de la organizacin - Uso de la Informtica en la gestin y almacenamiento de los datos Sistemas Operacionales - Necesidades de tomar decisiones estratgicas Sistemas Informacionales
Ampliacin de Bases de Datos Tema 7 - Data Warehouse

Manual SGBD

Tiempo

Data Warehouse

Definicin
Definicin de un Data Warehouse

- Surge como solucin a las necesidades de informacin global de la organizacin - Se traduce literalmente como: Almacn de Datos - Sus aplicaciones se centran principalmente en dar soporte al proceso de toma de decisiones gerenciales - Los datos pasan por un proceso de calidad que asegura su consistencia

Ampliacin de Bases de Datos

Tema 7 - Data Warehouse

Definicin

Data Marts

- Su construccin se va haciendo por etapas que normalmente corresponden a las principales reas operativas de la organizacin Por ejemplo: rea de Ventas, rea Financiero Contable, rea de Recursos Humanos, etc
Ampliacin de Bases de Datos Tema 7 - Data Warehouse

Caractersticas
Caractersticas de un Data Warehouse Integrado

- Se eliminan las inconsistencias del sistema operacional


- La informacin se estructura en distintos niveles de detalle

Temtico
- Slo los datos necesarios para el proceso de generacin del conocimiento - Los datos se organizan por temas para facilitar el acceso y comprensin por parte del usuario final
Ampliacin de Bases de Datos Tema 7 - Data Warehouse

Caractersticas
Caractersticas de un Data Warehouse

Histrico
- La informacin sirve para realizar anlisis de tendencias y comportamientos histricos - Necesidad de establecer comparaciones en el tiempo No voltil - La informacin slo es cargada y consultada, no modificada

- Slo se aade informacin no se modifica la existente.

Ampliacin de Bases de Datos

Tema 7 - Data Warehouse

BD Multidimensionales
Bases de Datos Multidimensionales Anlisis de naturaleza Multidimensional Visin como dimensiones de Negocio

Decisiones gerenciales

BD Multidimensionales Diseadas para: Optimizar la consulta y almacenamiento de grandes volmenes de datos que estn ntimamente relacionados y que deben verse y analizarse desde distintas perspectivas.

Ampliacin de Bases de Datos

Tema 7 - Data Warehouse

BD Multidimensionales
Visin de las distintas dimensiones

Ejemplo: Sistema de Gestin de Productos. Informacin de ventas

Gerente de Zona

Director de Producto

Ampliacin de Bases de Datos

Tema 7 - Data Warehouse

BD Multidimensionales
Visin de las distintas dimensiones

Ejemplo con datos reales


Prod
11

Z.Geo g 1
2 3 4 1 2 3 4

Tiempo
1 1 1 1 1 1 1 1

Ventas
25 10 20 8 25 8 15 20

11 12 13 14

11

8 30 25 15

10 20 8 10

10 6 50 15 15 20 20 8

11 11 12 12 12 12

Ampliacin de Bases de Datos

Tema 7 - Data Warehouse

MetaDatos
Meta Datos - Caractersticas Mantienen informacin sobre: - Procedencia de los datos - Fiabilidad - Periodicidad de refresco - Forma de clculo

Permiten simplificar y automatizar la obtencin de la informacin desde los sistemas operacionales a los sistemas informacionales

Ampliacin de Bases de Datos

Tema 7 - Data Warehouse

MetaDatos

Objetivos

Dependen del colectivo al que va dirigido

Usuario Final

Responsables Tcnicos

Ampliacin de Bases de Datos

Tema 7 - Data Warehouse

MetaDatos - Objetivos

Usuario Final
- Ayudndole a acceder con su propio lenguaje - Indicndole que informacin hay y que significado tiene

- Ayuda a construir consultas, informes, etc. con herramientas de navegacin

Ampliacin de Bases de Datos

Tema 7 - Data Warehouse

MetaDatos - Objetivos

Responsables Tcnicos
- Soporte en cuanto a gestin de informacin - Ayuda a la administracin del Data Warehouse

- Ayuda en la elaboracin de programas de extraccin de informacin


- Especificacin de las interfaces para la realimentacin a los sistemas operacionales de los resultados obtenidos

Ampliacin de Bases de Datos

Tema 7 - Data Warehouse

MetaDatos - Estructura
Meta Datos - Estructura Deben contener al menos:
- La estructura de los datos - Los algoritmos usados para la esquematizacin - La tranzabilidad desde el ambiente operacional al DW

La informacin adicional que no se esquematiza es almacenada en el DW

Ampliacin de Bases de Datos

Tema 7 - Data Warehouse

Sistema Operacional vs DW
Comparacin entre: Sistema Operacional
Predomina la actualizacin
La actividad ms importante es de tipo operativo (da a da)

Data Warehouse
Predomina la consulta

La actividad ms importante es el anlisis y la decisin estratgica

Predomina el proceso puntual Datos en general desagregados

Predomina el proceso masivo Datos en distintos niveles de detalle

Ampliacin de Bases de Datos

Tema 7 - Data Warehouse

Sistema Operacional vs DW
Comparacin entre: Sistema Operacional Data Warehouse

Importancia del dato actual

Importancia del dato histrico

Usuarios de perfiles medios o bajos


Explotacin de la informacin relacionada con la operativa de cada aplicacin

Usuarios de perfiles altos


Explotacin de toda la informacin interna y externa relacionada con el negocio

Ampliacin de Bases de Datos

Tema 7 - Data Warehouse

Data Marts
Data Marts - Caractersticas
- Son subconjuntos de la informacin contenida en el DW central - Tiene las mismas caractersticas de integracin, memoria histrica, orientacin temtica y no volatilidad que el DW - Otra definicin: Sistema que mantiene una copia de un DW para un uso departamental - Apropiado cuando el DW central crece muy rpidamente y los distintos departamentos requieren slo una pequea porcin de los datos contenidos en l

Ampliacin de Bases de Datos

Tema 7 - Data Warehouse

Data Marts
Evolucin
- El Dpto Marketing crea el primer DW 1 Data Mart

- Visto el xito los dems Dptos crean sus Data Marts - Con el tiempo se obtiene el siguiente esquema de integracin

Ampliacin de Bases de Datos

Tema 7 - Data Warehouse

Data Marts
Evolucin
- Situacin insostenible - Enfoque ms adecuado Falla la forma de integracin Integracin en DW centralizado

Ampliacin de Bases de Datos

Tema 7 - Data Warehouse

Arquitectura
Componentes de la Arquitectura de un DW 1.- Hardware
- Requiere altas prestaciones - Escalable

2.- Software de almacenamiento (SGBD)


- Bases de Datos Relacionales - Bases de Datos Multidimensionales
Ampliacin de Bases de Datos Tema 7 - Data Warehouse

Arquitectura
Componentes de la Arquitectura de un DW 3.- Software de extraccin y manipulacin de datos
Necesidad de herramientas que permitan controlar y automatizar las actualizaciones del DW Funcionalidades que deben aportar:
- Control de la extraccin de los datos y su automatizacin. - Acceso a diferentes tecnologas. - Proporcionar la gestin integrada del DW y los Data Marts. - Uso de la arquitectura de meta datos. - Acceso a una gran variedad de fuentes de datos diferentes. - Manejo de excepciones. - Interfaz independiente del Hardware

Ampliacin de Bases de Datos

Tema 7 - Data Warehouse

Arquitectura
Componentes de la Arquitectura de un DW 4.- Herramientas Middleware
Proveen de conectividad a entornos diferentes, ayuda a la gestin del DW. Deben ser escalables, flexibles y robustas Con su uso lograremos:
- Maximizar los recursos ejecutando las aplicaciones en la plataforma ms adecuada. - Automatizar la distribucin de datos y aplicaciones desde un sistema centralizado. - Reducir trfico en la red, balanceando los niveles de cliente servidor - Explotar las capacidades de sistemas remotos sin tener que aprender mltiples entornos operativos. - Asegurar la escalabilidad del sistema. - Desarrollar aplicaciones en local y explotarlas en el servidor.

Ampliacin de Bases de Datos

Tema 7 - Data Warehouse

Arquitectura
Componentes de la Arquitectura de un DW 4.- Herramientas Middleware Analizadores y aceleradores de consultas
- Permiten optimizar tiempos de respuesta en las necesidades analticas, o de carga de los diferentes datos desde los sistemas operacionales hasta el DW. - Vuelcan sobre un fichero de log las consultas ejecutadas y datos asociados a las mismas (tiempo de respuesta, tablas accedidas, mtodo de acceso, etc). - Este log se analiza, bien automticamente o mediante la supervisin del administrador de datos, para mejorar los tiempos de acceso.

Ampliacin de Bases de Datos

Tema 7 - Data Warehouse

Procesos de Gestin

Procesos Clave en la Gestin del Data Warehouse

Ampliacin de Bases de Datos

Tema 7 - Data Warehouse

Procesos de Gestin

Procesos Clave en la Gestin del Data Warehouse Extraccin


- Obtencin de informacin de las distintas fuentes externas o internas - Las BD operacionales, diseadas para el soporte de varias aplicaciones de produccin, frecuentemente se encuentran en distintos formatos. - Elementos de datos, usados por aplicaciones diferentes o adm por diferentes SGBD, pueden estar codificados de manera diferente. Integracin de los datos

Resolver inconsistencias antes de almacenar en el DW

Ampliacin de Bases de Datos

Tema 7 - Data Warehouse

Procesos de Gestin

Procesos Clave en la Gestin del Data Warehouse Elaboraccin


- Filtrado, limpieza, depuracin, homogenizacin y agrupacin de los datos - Pasos a seguir en la limpieza de datos sucios:
1.- Analizar los datos para descubrir inexactitudes, anomalas y otros problemas. 2.-Transformar los datos para asegurar que sean precisos y coherentes 3.- Asegurar la integridad referencial 4.-Validar los datos que usa la aplicacin del DW para las consultas de prueba 5.-Producir los metadatos, una descripcin del tipo de datos, formato y significado de cada campo

Ampliacin de Bases de Datos

Tema 7 - Data Warehouse

Procesos de Gestin

Procesos Clave en la Gestin del Data Warehouse Carga


- Organizacin y actualizacin de los datos y metadatos en la base de datos - Las fuentes de datos estn en constante cambio (inserciones, actualizaciones, borrados, etc.) Escoger el momento adecuado Momento de menor carga de trabajo de las fuentes de datos

Explotacin
- Extraccin y anlisis de la informacin en los distintos niveles de agrupacin Ampliacin de Bases de Datos Tema 7 - Data Warehouse

Explotacin de un DW

Tcnicas de Explotacin del Data Warehouse


Explotacin del Data Warehouse
Ac tual iz a cin de r es ulta dos e str at gic os

Actualizacin d e resultados de relacin exterior

Sistemas OLAP

Consultas e Informes Libres


G e s to r d e C o n s u lta s

D a ta M in in g

Data Warehouse
Carga de Base de datos Extraccin, Depuracin, Filtro, Elaboracin
B a s e d e D a to s C o r p o r a t iv a s B a s e s d e D a to s E x te r n a s

Gestin del DW

Ampliacin de Bases de Datos

Tema 7 - Data Warehouse

Explotacin de un DW
-OLAP
Acrnimo para online analytical processing. Es mtodo para dar respuestas rpidas a peticiones de bases de datos complejas. Se esta usando para informes de negocios, marketing, informes de gestin y reas similares. La razn de uso de OLAP para resolver las peticiones es la velocidad. Las bases de datos relaciones guardan las entidades en tablas discretas si han sido propiamente normalizadas. Esta estructura es buena BD operacionales, pero para peticiones ms compleja que involucren a muchas tablas es relativamente lento. Un mejor modelo, pero peor para uso operacional es el uso de una BD dimensional.
Ampliacin de Bases de Datos Tema 7 - Data Warehouse

Explotacin de un DW
Es la sntesis dinmica, anlisis y la consolidacin de grandes vlumenes de informacin multidimensional.

Describe la tecnologa que usa una vista multidimensional de informacin agregada para aportar acceso rpido a informacin estratgica para realizar anlisis. Los usuarios ganan una comprensin profunda de la informacin de su organizacin atravs de un acceso consistente e interactivo a una variedad amplia de vistas de los datos. Puede contestar facilmente preguntas del tipo qu? o quin?
Ampliacin de Bases de Datos Tema 7 - Data Warehouse

Explotacin de un DW
- La habilidad de contestar a preguntas del tipo: y si? o por qu? Es lo que distingue a OLAP de las herramientas de propsito general. - Una de sus operaciones ms comnes es la de agregar una medida a una o ms dimensiones Encontrar las ventas totales.

Encontrar las ventas totales pora cada ciudad o para cada estado (zona geogrfica). Encontrar los cinco productos por ranking de ventas totales.

Ampliacin de Bases de Datos

Tema 7 - Data Warehouse

Explotacin de un DW

OLAP toma una instantnea de la BD relacional y la reestructura en en datos dimensionales. Entonces las peticiones se hacen sobre ella. Un estudio afirma que las peticiones complejas, OLAP puede producir una respuesta en un 0.1% del tiempo que usa la misma peticin hecha sobre datos relacionales.

Ampliacin de Bases de Datos

Tema 7 - Data Warehouse

Explotacin de un DW

Una estructura OLAP creada de los datos operacionales se llama cubo OLAP. Dicho cubo se crea de unas tablas con un esquema en estrella. En el centro esta la tabla de hechos (fact table), en donde se listan los hechos centrales que construyen la peticin. Numerosas tablas de dimensin se enlazan con la tabla de hechos. Estas tablas indican como deben de analizarse las agregaciones de datos relacinales. El nmero de posibles agregados se determina por todas posible maneras en la que la informacin original se puede enlazar en una jerarqua.

Ampliacin de Bases de Datos

Tema 7 - Data Warehouse

Explotacin de un DW

Por ejemplo un conjunto de clientes se pueden agrupar por ciudad, por distrito o por pases, as con 50 ciudades, 8 distritos y 2 pases existen 3 niveles de jerarqua con 60 miembros. Estos clientes pueden considerarse en relacin a productos; si existen 250 productos con 20 categoras, 3 familias y 3 departamentos hay 276 miembros de productos. Con solo 2 dimensiones existen 16,560 posibilidades de agregacin. A medida que los datos considerados crecen los agregados pueden rpidamente hacer un total del rango 10xMillones o ms.

Ampliacin de Bases de Datos

Tema 7 - Data Warehouse

Explotacin de un DW

El calculo de las agregaciones combinado con los datos base forman un cubo OLAP. Que potencialmente contiene todas las respuestas para todas las peticiones que se pueden contestar con los datos. Dado el gran nmero de agregaciones que se pueden calcular, normalmente solo un nmero predeterminado es totalmente calculado, mientras que el resto se resuelve cuando se demande.

Ampliacin de Bases de Datos

Tema 7 - Data Warehouse

Explotacin de un DW

Existen tres tipos de OLAP: Multidimensional OLAP (MOLAP). Relational OLAP (ROLAP). Hybrid OLAP (HOLAP). MOLAP es la forma clasica de OLAP y a veces simplemente se la denomina OLAP. Usa una BD sumario, tiene un motor de BD dimensional y crea el esquema requerido con los datos base y las agregaciones.

Ampliacin de Bases de Datos

Tema 7 - Data Warehouse

Explotacin de un DW

ROLAP trabaja directamente con BD relacionales, los datos base y las tablas dimensin se guardan como tablas relaciones y las tablas nuevas se crean para almacenar la informacin de agregacin.

Hybrid OLAP usa las tablas relacionales para almacenar los datos base y tablas multidimensionales para almacenar las agregaciones.

Ampliacin de Bases de Datos

Tema 7 - Data Warehouse

Explotacin de un DW
Cada uno tiene ciertos beneficios: MOLAP es mejor en pequeos conjuntos de datos, es rpido para calcular las agragaciones y devolver las respuestas, pero crea una cantidad ingente de datos. ROLAP se considera mas escalable y usa el menor espacio, pero es el ms lento en el rendimiento de preprocesamiento y peticiones. HOLAP esta entre los dos, pero puede pre-procesar rpidamente y escalar bien.

Ampliacin de Bases de Datos

Tema 7 - Data Warehouse

Explotacin de un DW

La dificultad en implementar OLAP viene en la formacin de las peticiones, elegir los datos base y desarrollar un esquema, como resultado los productos OLAP modernos vienen con enormes libreras de peticiones pre-configuradas. El otro problema es los datos base, deben ser completos y consistentes.

Ampliacin de Bases de Datos

Tema 7 - Data Warehouse

Explotacin de un DW
- El data cube: OLAP requiere la computacin de varios agregados de numerosas tablas, ya que muchos de los agregados se necesitarn una y otra vez, tiene sentido el almacenar algunos de ellos. El data cube es una tcnica para ver los resultados de varios agregados de una manera tabular.
Dada la relacin de orden N, consideramos una projeccin de X, Y y Z como la clave y el atributo W, tal que: W : (X,Y,Z) W, Los atributos X, Y y Z se corresponden con los ejes del cubo, Mientras que cada valor W se corresponde con cada elemento de cada celda del cubo, projectado de X, Y y Z.
Ampliacin de Bases de Datos Tema 7 - Data Warehouse

Explotacin de un DW
Por ejemplo, hemos visto (aadiendo algunos campos ms) que: ventas(producto,tienda,tiempo,cantidad) Una instancia podra ser: ventas(vino tinto,tienda1,10 Agosto,125,30) Significando que las ventas de vino tinto, en la tienda1 fuern para la fecha indicada, de 125,30 euros. Si nos inventaramos un nuevo valor todos, significando todos los productos, podramos considerar filas como: ventas(todos,tienda1,10 Agosto,350780,50) Con el significado de las ventas de todos los productos hechos en la tienda1, en la fecha indicada con un valor de 350780,50 euros.
Ampliacin de Bases de Datos Tema 7 - Data Warehouse

Explotacin de un DW

En trminos estadsticos esto nos da el marginal de la tabla, sumando otros valores del primer valor. El data cube para las ventas contiene a todas las filas: ventas(a,b,c,d) Donde a,b,c,d son los valores de los dominios de los correspondientes atributos, o como hemos visto el valor especifico todos y d como la suma correspondiente.

Ampliacin de Bases de Datos

Tema 7 - Data Warehouse

Explotacin de un DW

Por lo que el data cube es la tabla original y todas las tablas marginales: las de una dimensin, las de dos dimensiones y as sucesivamente hasta las obtenidas por sumar cada atributo individualmente.

Ampliacin de Bases de Datos

Tema 7 - Data Warehouse

Explotacin de un DW
Esquema en estrella

Ampliacin de Bases de Datos

Tema 7 - Data Warehouse

Aplicaciones del DW
DW y Sistemas de Marketing

- Investigacin Comercial. - Segmentacin de mercados. - Identificacin de necesidades no cubiertas y generacin de nuevos productos, o modificacin de productos existentes. - Fijacin de precios y descuentos. - Definicin de la estrategia de canales de comercializacin y distribucin. - Definicin de la estrategia de promocin y atencin al cliente. - Lanzamiento de nuevos productos.
Ampliacin de Bases de Datos Tema 7 - Data Warehouse

Aplicaciones del DW
DW y Anlisis de riesgo financiero y de crdito

- Soporte metodologa RiskMetrics (Metodologa registrada de J.P. Morgan /Reuters) - Simulacin de escenarios histricos, Modelos de covarianzas, Simulacin de Montecarlo. - Modelos de valoracin, Calibracin modelos valoracin, Anlisis de rentabilidad, Establecimiento y seguimiento. de lmites. - Desarrollo/modificacin modelos, Stress testing. - Detencin de factores de riesgo en solucitudes de peticiones para tarjetas de crdito, etc.

Ampliacin de Bases de Datos

Tema 7 - Data Warehouse

Aplicaciones del DW
DW y Anlisis de riesgo de crdito

- Soporte metodologa RiskMetrics (Metodologa registrada de J.P. Morgan /Reuters) - Simulacin de escenarios histricos, Modelos de covarianzas, Simulacin de Montecarlo. - Modelos de valoracin, Calibracin modelos valoracin, Anlisis de rentabilidad, Establecimiento y seguimiento. de lmites. Desarrollo/modificacin modelos, Stress testing, etc. - Detencin de fatores de riesgo e

Ampliacin de Bases de Datos

Tema 7 - Data Warehouse

Tendencias Tecnolgicas Webhousing El uso de Internet como fuente de informacin hacia el exterior e interior (via intranets), crece constantemente, y la integracin de una herramienta de Data Warehouse con Internet tiene sentido. Uso generalizado de Data Marts Las peculiaridades de un proyecto Data Warehouse, y el enfoque progresivo de su construccin, hace que cada vez mas organizaciones realicen sus desarrollos mediante el uso de Data Marts integrados, como ya comentamos anteriormente.

Ampliacin de Bases de Datos

Tema 7 - Data Warehouse

ndice

DATA MINING
(Minera de datos)

Ampliacin de Bases de Datos

50

ndice

1.2.3.4.5.6.7.8.9.10.11.12.-

Introduccin Evolucin de Data Mining y las tecnologas de datos Definicin de Data Mining Proceso de Data Mining Tipos de datos en los que se puede usar el D. M. Enfoques algortmicos Son todos los modelos descubiertos tiles? Clasificacin de sistemas Data Mining Beneficios y problemas de Data Mining Referencia de productos Conclusiones Fuentes de informacin consultadas

51

1. Introduccin

Por qu surge el Data Mining?:


- Porque es casi imposible obtener informacin de inters con una simple exploracin de los datos, debido al difcil manejo de grandes volmenes de datos. - Han cambiado las necesidades de las organizaciones en cuanto a requerimientos de informacin (nace el concepto de informacin estratgica).

El Data Mining es de gran utilidad para los que toman decisiones de alto nivel.
52

2. Evolucin de DM y datos (1/2)

Evolucin del concepto de D.M.: - Aos 60: Anlisis estadstico fue el primer nombre para D.M. - Aos 80: El anlisis estadstico fue complementado con tcnicas de inteligencia artificial (lgica difusa, razonamiento heurstico y redes neuronales).

- En la actualidad: Se usan enfoques estadsticos, redes neuronales, rboles de decisin,

53

2. Evolucin de DM y datos (2/2)

Evolucin de la tecnologa de datos: - Aos 60: Recopilacin de datos, creacin de bases de datos, IMS y red DBMS. - Aos 70: Modelo de datos relacional, implementacin DBMS relacional. - Aos 80: RDBMS, modelos de datos avanzados (extendidos-relacionales, orientados a objetos, deductivos, ). - Aos 90 hasta la actualidad: Data Mining y Data Warehousing, BBDD multimedia y BBDD orientadas a la web.
54

3. Definicin de DM (1/2)
Def.: D. M. es el proceso de extraccin de informacin oculta, de gran inters, en bases de datos de gran tamao. D. M. utiliza tcnicas (mtodos matemticos) para encontrar patrones y relaciones en grandes volmenes de datos con la ayuda de un ordenador. Estas tcnicas, que pueden ser implementadas, son: - Redes neuronales artificiales (modelos que aprenden a travs del entrenamiento). - rboles de decisin (estructuras que representan conjuntos de decisiones que generan reglas para la clasificacin de un conjunto de datos).
55

3. Definicin de DM (2/2)
- Algoritmos genricos (tcnicas de optimizacin, pueden usar combinaciones genticas, mutaciones, ). - Mtodo del vecino ms cercano (clasifica cada registro en un conjunto de datos basado en una combinacin del registro o registros ms similares a l en un conjunto de datos histricos). - Regla de induccin (extraccin de reglas condicionales basadas en significado estadstico). Estas reglas predicen futuras tendencias y comportamientos, permitiendo tomar decisiones activas y orientadas por un conocimiento acabado de la informacin.
56

4. Proceso de DM (1/10)

57

4. Proceso de DM (2/10)
El D. M. es un proceso ms (con sus propias etapas) dentro del proceso de descubrimiento de conocimiento de las bases de datos (KDD process). KDD process se divide en una serie de etapas que permiten identificar el problema a resolver, preparar los datos, ejecutar las operaciones de extraccin de informacin e interpretar los resultados. D. M. automatiza el proceso de anlisis exploratorio encontrando patrones y relaciones (que el analista puede aceptar o rechazar), mediante la aplicacin de algoritmos, a partir de un conjunto de datos que previamente han sido limpiados y transformados.
58

4. Proceso de DM (3/10)
D. M. est listo para su aplicacin en los negocios porque, est soportado por tres tecnologas bastante maduras: - Recoleccin madura de datos. - Potentes ordenadores con multiprocesadores. - Algoritmos de D. M. y tiene las capacidades (automatizadas) de prediccin de tendencias, comportamientos y descubrimiento de modelos previamente desconocidos. Tambin proporciona poderes de decisin y es capaz de medir las acciones y los resultados de la mejor forma.

59

4. Proceso de DM (4/10)
Ejemplos de uso: - Anlisis de mercado (perfiles de cliente, identificacin de los requisitos de los clientes, ). - Deteccin de errores y deteccin de fraudes (determinar tratamientos mdicos inadecuados, detectar transacciones monetarias sospechosas, fraude en seguros, ). - Anlisis corporativo y de riesgos (previsin, retencin del cliente, control de calidad y anlisis competitivo).

60

4. Proceso de DM (5/10)
- ETAPAS DEL PROCESO DE DATA MINING -

1.- Construccin del modelo:


Se construye un modelo en una situacin en la que se conoce el resultado y luego se aplica en otras situaciones en la que se desconoce la respuesta.

Un modelo no puede predecir todos los casos individuales, pero un buen modelo es una gua til para sugerir acciones que logren el xito.
Las diversas tcnicas que utiliza el D. M. generan dos clases de modelos que constituye la base para poder descubrir los patrones: el modelo predictivo y el modelo descriptivo.
61

4. Proceso de DM (6/10)
- Modelos predictivos (realizan predicciones explcitas): Utilizan datos con resultados conocidos para predecir valores para diferentes datos y guiar la estrategia de la organizacin. Ej.: La probabilidad de un fraude. - Modelos descriptivos (realizan predicciones implcitas): Describen patrones en datos existentes para guiar la toma de decisiones.

62

4. Proceso de DM (7/10)
2.- Descubrimiento de patrones: En esta fase se aplican algoritmos para generar los patrones.

Se puede deducir que la mayora de los alumnos de Lota ingresan en 1995.


63

4. Proceso de DM (8/10)
- Confianza: Porcentaje de ocurrencias. N filas ocurrencias / N filas con todos los valores de la ocurrencia. Ej.: 3 / 4 = 0,75 = 75% (El 75% de los alumnos de Lota ingresan en 1995)

- Soporte: Mide la frecuencia en que las ocurrencias aparecen juntas. El patrn que se soporta por un nmero mayor de filas es ms poderoso (patrn fuerte). Ej.: La sentencia est soportada por tres filas - Excepciones o errores: Son un patrn dbil. Son las filas de patrones ms dbiles. Ej.: La fila 3 de la tabla es una excepcin
64

4. Proceso de DM (9/10)
3.- Presentacin de los conocimientos: Visualizacin, transformacin, eliminacin de modelos redundantes, evaluar los resultados e interpretar su significado. 4.- Monitorizacin del modelo:

Los cambios significativos en los patrones apuntan a las necesidades de descubrir nuevos patrones a partir de los nuevos datos. Por tanto el proceso DM debe ser repetitivo. Por ltimo, hay que usar el conocimiento descubierto.
65

4. Proceso de DM (10/10)
- CARACTERSTICAS DE LOS DESARROLLADORES -

Conocimientos profundos de los datos y su historia. Conocimientos del rea especificada de la organizacin. Perfeccionamiento en el uso de DM.

66

5. DM se usa en tipos de datos


Los distintos tipos de almacenes de informacin en los que se puede usar D.M. son: - Bases de datos relacionales. - Data Warehouse. - Bases de datos transaccionales. - Bases de datos avanzadas: BBDD orientadas a objetos. BBDD espaciales. Datos de series temporales. BBDD de texto y multimedia. BBDD heterogneas y de herencia. WWW.

67

6. Enfoques algortmicos (1/4)


Cada tipo de aplicacin DM puede estar soportado por ms de un enfoque algortmico para extraer informacin relevante de los datos. Los principales enfoques resuelven diferentes tipos de problemas: - Asociacin: Utilizada con el fin de obtener las tendencias de compra de los clientes (anlisis de mercado). Encuentra en los datos reglas que identifican a los patrones de comportamiento. Ej.: Cuando los alumnos cursan la asignatura lectiva
Anlisis Orientado a Objetos, en un 50% de las veces, tambin cursan la asignatura Programacin Orientada al Objeto
68

6. Enfoques algortmicos (2/4)


- Secuenciacin: Utilizada para identificar comportamientos rutinarios o excepcionales a travs del tiempo. Encuentra patrones entre eventos que ocurren en un periodo de tiempo. Ej.: Cuando los alumnos cursan la asignatura lectiva
Anlisis Orientado a Objetos, en un 50% de las veces, cursan la asignatura Programacin Orientada al Objeto el semestre siguiente

- Clasificacin: Utilizada en problemas de deteccin de transacciones fraudulentas, riesgos en la entrega de crditos, prediccin de probabilidad de almacenamiento e identificacin de procedimientos mdicos.
69

6. Enfoques algortmicos (3/4)


Predice el estado a travs de resultados categricos basndose en tcnicas estadsticas.

Ej.: La alumna XXX cursar la asignatura lectiva Anlisis


Orientado a Objetos

- Regresin: Utilizada en casos donde la salida predictiva puede tomar posibles valores ilimitados (variables continuas). Predice un valor especfico. Ej.: Los ingresos econmicos de la alumna XXX sern
255

70

6. Enfoques algortmicos (4/4)


- Agrupamiento (clustering): Utilizada en problemas de marketing (encontrar grupos con afinidades en sus gustos), en problemas de cuidado de la salud (encontrar pacientes con los mismos malestares). El clustering segmenta la base de datos en subconjuntos donde cada uno de ellos comparte un n de caractersticas similares, agrupa registros que tienen un gran nmero de atributos en un conjunto de grupos relativamente pequeos. Identifica grupos relacionados que pueden ser utilizados como punto de partida para prximas exploraciones.

Ej.: Definir grupos segn el ao de ingreso a la


universidad
71

7. Son todos los modelos tiles?


Un DM puede generar miles de modelos y no todos son tiles.

Un modelo es interesante si:


- Es fcilmente entendible. - Es potencialmente til y nuevo. - Valida alguna hiptesis que se quiera confirmar. Un sistema DM debe generar todos los modelos y despus filtrar o eliminar los modelos que no interesan para optimizar las consultas.

72

8. Clasificacin de sistemas DM
Los DM se pueden clasificar por:

- Funcionalidad general (DM descriptiva y DM predictiva).


- Segn los tipos de BBDD que sern minados. - Segn los tipos de conocimientos para ser descubiertos. - Segn los tipos de tcnicas utilizadas. - Tipos de aplicaciones adaptadas: Ventas al detalle, telecomunicaciones, banca, anlisis de errores, anlisis de mercado, .

73

9. Beneficios y problemas DM (1/2)

- Beneficios: Extraer informacin tctica y estratgica.

Bsqueda de patrones automatizadas.


Existencia de una gran diversidad de herramientas DM. No requiere personal experto en ciencias estadsticas .

74

9. Beneficios y problemas DM (2/2)

- Problemas: Falta de un repositorio histrico (Data Warehouse o Data Marts). No tener BBDD bien definidas con datos ntegros y consistentes. Se necesita un especialista en anlisis de datos y un experto en las reas de la organizacin que sepan entender y aplicar los resultados.

75

10. Ref. de productos (1/12)

76

10. Ref. de productos (2/12)


Mercado del data mining El mercado esta formado por vendedores de software que aportan las herramientas de prediccin que hemos visto. Las herramientas pueden estar implementadas en plataformas preexistentes de los clientes o integradas con otras aplicaciones como parte de otras estrategias de la inteligencia del negocio. Estas herramientas aporta a los desarrolladores y a los usuarios finales una interface para descubrir, manipular y analizar datos corporativos u organizacionales.

77

10. Ref. de productos (3/12)


Tendencias del Data Mining Expansin del mercado un 10%-20% anual durante los prximos aos. Mercado saturado, dificulta el crecimiento a los nuevos productos. Si bien los especializados encuentran un sitio, aunque esto no durar siempre. Los establecidos cuentan con mucha experiencia, con grandes bases de clientes y capacidades importantes de almacenaje y backing de informacin.

78

10. Ref. de productos (4/12)


Tendencias del Data Mining Habr un impacto significativo dado por la inclusin de las herramientas de data mining en las aplicaciones de negocios (por ej. Siebel, SAP).

El mercado se dividir en dos:


1. Data mining avanzado o puro. 2. Data mining para una masa de usuarios menos tcnicos.

79

10. Ref. de productos (5/12)


Algunos de los productos existentes: Angoss Software KnowledgeStudio 4.2 and Mining Manager 2.1 Computer Associates CleverPath Predictive Analysis Server 3.0 Fair Isaac Enterprise Decision Management suite Genalytics Predictive Suite 5.0 IBM DB2 Intelligent Miner Insightful Miner 3.0 KXEN Analytic Framework 3.0 Oracle Data Mining Quadstone System V. 5 SAS Enterprise Miner 5.1 SPSS Clementine 8.5
80

10. Ref. de productos (6/12)


Competidores claves Consistente en grandes corporativas de software (ej. Oracle, IBM, SAS, Computer Associates) y especialistas de anlisis de datos ms pequeos (ej. SPSS, KXEN, Angoss), en adiccin de nuevos jugadores (Quadstone, Genelytic) que eligen centrarse en entornos especializados con la intencin de hacerse con una pequea parte del mercado. Algunos vendedores tienen races profundas en el mercado de anlisis de datos, mientras que otros todava estn aprendiendo como diferencias sus soluciones de aqullas de sus competidores con unas cuotas de mercado mayores.

81

10. Ref. de productos (7/12)


Competidores claves El criterio de la eficiencia tiene un peso muy importante, al igual que la tecnologa y la funcionalidad. Tambin los posibles compradores deben de tener en cuenta aspectos como: tarifas; servicios y apoyo tcnico; mantenimientos con las modas del mercado y la demanda de los clientes; y viabilidad financiera.

82

10. Ref. de productos (8/12)


Lderes Son los que aportan productos maduros y estables y cumplen en casi todos los aspectos de la funcionalidad del data mining y tienen cuotas de mercado muy altas.

Aunque sus capacidades tcnicas y funcionalidad general no es especialmente superior a los aspirantes, solo unos pocos pueden destacar en este grado de presencia y rendimiento.
Se distinguen, adems, por su gran abanico de programas, abarcamiento geogrfico, inversiones tecnolgicas y su grado a comprometerse a implementaciones de calidad y servicios de apoyo tcnico.
83

10. Ref. de productos (9/12)


Aspirantes Se caracterizan por un mbito de funcionalidad de data mining ligeramente mas estrecha y/o su menor compromiso a la industria en general, en contraposicin a los lderes.

Se tratan de grandes vendedores de software, que ofrecen distintas soluciones software que abarcan un abanico en diferentes campos/mercados.
La especializacin en la industria del data mining no es prioritario, aunque la funcionalidad de sus productos es ms que suficiente para la mayora de las implementaciones de data mining.
84

10. Ref. de productos (10/12)


Aspirantes Otros aspirantes si tienen ese compromiso al data mining, pero no disponen an de los medios o de la base de clientes, para tener su cuota de mercado y aventajar en otros criterios de presencia y rendimiento.

85

10. Ref. de productos (11/12)


Seguidores El nico en estudio es Genalytic, su acercamiento a data mining se enfoca exclusivamente en la aplicacin de algoritmos genticos a la prediccin analtica.

Su objetivo convertirse en lder en algoritmos genticos y poder competir para una parte del mercado en analtica avanzada.
Se trata, pues de una estrategia al data mining alternativa que difiere del aproximacin de los vendedores tradicionales y lideres del marcado.

86

10. Ref. de productos (12/12)


Conclusiones El mercado nter seccionar con soluciones relacionadas de calidad de datos e integracin de datos (y por extensin, con la gestin del business intelligence y business performance).

Existir alguna consolidacin del mercado, pero con la variedad de herramientas especializadas, la competencia esta garantizada.
A medida que el data mining evolucione, se espere mayores inversiones en la analtica predictiva, teniendo como consecuencia el estancamiento y/o la bajada de precios entre el resto de vendedores del mercado.

87

11. Conclusiones

Un sistema Data Mining permite analizar factores de influencia, predecir comportamientos futuros, agrupar componentes similares y obtener secuencias de eventos que provocan comportamientos espcficos. Desde ahora se pueden construir modelos exactos de alguna actividad empresarial para estudiarla mejor, comprenderlas y mejorarlas.

88

13. Fuentes consultadas

- Data Mining: Concepts and techniques. Jiawey Han & Michael Kamber.

- Introduction to Data Mining and knowledge discovery third edition by Two Crows Corporation.
- www.monografias.com/trabajos/datamining/datamining.shtml

89

Mapa Conceptual

Ampliacin de Bases de Datos

Tema 7 - Data Warehouse

También podría gustarte