Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Indice
Parte I - Data Warehouse
Introduccin Definicin y Caractersticas de un Data Warehouse Bases de Datos Multidimensionales Meta Datos Comparacin entre Sistema Operacional y DW Data Marts Arquitectura de un Data Warehouse Procesos clave en la gestin de un Data Warehouse Tcnicas de Explotacin del Data Warehouse - Consultas o informes libres - Sistemas OLAP - Data Minig 10. Aplicaciones del Data Warehouse 11. Tendencias Tecnolgicas y de Mercado 12. Ejemplo Prctico de un Data Warehouse 1. 2. 3. 4. 5. 6. 7. 8. 9.
Introduccin
Introduccin - Gestin de datos de la organizacin - Uso de la Informtica en la gestin y almacenamiento de los datos Sistemas Operacionales - Necesidades de tomar decisiones estratgicas Sistemas Informacionales
Ampliacin de Bases de Datos Tema 7 - Data Warehouse
Manual SGBD
Tiempo
Data Warehouse
Definicin
Definicin de un Data Warehouse
- Surge como solucin a las necesidades de informacin global de la organizacin - Se traduce literalmente como: Almacn de Datos - Sus aplicaciones se centran principalmente en dar soporte al proceso de toma de decisiones gerenciales - Los datos pasan por un proceso de calidad que asegura su consistencia
Definicin
Data Marts
- Su construccin se va haciendo por etapas que normalmente corresponden a las principales reas operativas de la organizacin Por ejemplo: rea de Ventas, rea Financiero Contable, rea de Recursos Humanos, etc
Ampliacin de Bases de Datos Tema 7 - Data Warehouse
Caractersticas
Caractersticas de un Data Warehouse Integrado
Temtico
- Slo los datos necesarios para el proceso de generacin del conocimiento - Los datos se organizan por temas para facilitar el acceso y comprensin por parte del usuario final
Ampliacin de Bases de Datos Tema 7 - Data Warehouse
Caractersticas
Caractersticas de un Data Warehouse
Histrico
- La informacin sirve para realizar anlisis de tendencias y comportamientos histricos - Necesidad de establecer comparaciones en el tiempo No voltil - La informacin slo es cargada y consultada, no modificada
BD Multidimensionales
Bases de Datos Multidimensionales Anlisis de naturaleza Multidimensional Visin como dimensiones de Negocio
Decisiones gerenciales
BD Multidimensionales Diseadas para: Optimizar la consulta y almacenamiento de grandes volmenes de datos que estn ntimamente relacionados y que deben verse y analizarse desde distintas perspectivas.
BD Multidimensionales
Visin de las distintas dimensiones
Gerente de Zona
Director de Producto
BD Multidimensionales
Visin de las distintas dimensiones
Z.Geo g 1
2 3 4 1 2 3 4
Tiempo
1 1 1 1 1 1 1 1
Ventas
25 10 20 8 25 8 15 20
11 12 13 14
11
8 30 25 15
10 20 8 10
10 6 50 15 15 20 20 8
11 11 12 12 12 12
MetaDatos
Meta Datos - Caractersticas Mantienen informacin sobre: - Procedencia de los datos - Fiabilidad - Periodicidad de refresco - Forma de clculo
Permiten simplificar y automatizar la obtencin de la informacin desde los sistemas operacionales a los sistemas informacionales
MetaDatos
Objetivos
Usuario Final
Responsables Tcnicos
MetaDatos - Objetivos
Usuario Final
- Ayudndole a acceder con su propio lenguaje - Indicndole que informacin hay y que significado tiene
MetaDatos - Objetivos
Responsables Tcnicos
- Soporte en cuanto a gestin de informacin - Ayuda a la administracin del Data Warehouse
MetaDatos - Estructura
Meta Datos - Estructura Deben contener al menos:
- La estructura de los datos - Los algoritmos usados para la esquematizacin - La tranzabilidad desde el ambiente operacional al DW
Sistema Operacional vs DW
Comparacin entre: Sistema Operacional
Predomina la actualizacin
La actividad ms importante es de tipo operativo (da a da)
Data Warehouse
Predomina la consulta
Sistema Operacional vs DW
Comparacin entre: Sistema Operacional Data Warehouse
Data Marts
Data Marts - Caractersticas
- Son subconjuntos de la informacin contenida en el DW central - Tiene las mismas caractersticas de integracin, memoria histrica, orientacin temtica y no volatilidad que el DW - Otra definicin: Sistema que mantiene una copia de un DW para un uso departamental - Apropiado cuando el DW central crece muy rpidamente y los distintos departamentos requieren slo una pequea porcin de los datos contenidos en l
Data Marts
Evolucin
- El Dpto Marketing crea el primer DW 1 Data Mart
- Visto el xito los dems Dptos crean sus Data Marts - Con el tiempo se obtiene el siguiente esquema de integracin
Data Marts
Evolucin
- Situacin insostenible - Enfoque ms adecuado Falla la forma de integracin Integracin en DW centralizado
Arquitectura
Componentes de la Arquitectura de un DW 1.- Hardware
- Requiere altas prestaciones - Escalable
Arquitectura
Componentes de la Arquitectura de un DW 3.- Software de extraccin y manipulacin de datos
Necesidad de herramientas que permitan controlar y automatizar las actualizaciones del DW Funcionalidades que deben aportar:
- Control de la extraccin de los datos y su automatizacin. - Acceso a diferentes tecnologas. - Proporcionar la gestin integrada del DW y los Data Marts. - Uso de la arquitectura de meta datos. - Acceso a una gran variedad de fuentes de datos diferentes. - Manejo de excepciones. - Interfaz independiente del Hardware
Arquitectura
Componentes de la Arquitectura de un DW 4.- Herramientas Middleware
Proveen de conectividad a entornos diferentes, ayuda a la gestin del DW. Deben ser escalables, flexibles y robustas Con su uso lograremos:
- Maximizar los recursos ejecutando las aplicaciones en la plataforma ms adecuada. - Automatizar la distribucin de datos y aplicaciones desde un sistema centralizado. - Reducir trfico en la red, balanceando los niveles de cliente servidor - Explotar las capacidades de sistemas remotos sin tener que aprender mltiples entornos operativos. - Asegurar la escalabilidad del sistema. - Desarrollar aplicaciones en local y explotarlas en el servidor.
Arquitectura
Componentes de la Arquitectura de un DW 4.- Herramientas Middleware Analizadores y aceleradores de consultas
- Permiten optimizar tiempos de respuesta en las necesidades analticas, o de carga de los diferentes datos desde los sistemas operacionales hasta el DW. - Vuelcan sobre un fichero de log las consultas ejecutadas y datos asociados a las mismas (tiempo de respuesta, tablas accedidas, mtodo de acceso, etc). - Este log se analiza, bien automticamente o mediante la supervisin del administrador de datos, para mejorar los tiempos de acceso.
Procesos de Gestin
Procesos de Gestin
Procesos de Gestin
Procesos de Gestin
Explotacin
- Extraccin y anlisis de la informacin en los distintos niveles de agrupacin Ampliacin de Bases de Datos Tema 7 - Data Warehouse
Explotacin de un DW
Sistemas OLAP
D a ta M in in g
Data Warehouse
Carga de Base de datos Extraccin, Depuracin, Filtro, Elaboracin
B a s e d e D a to s C o r p o r a t iv a s B a s e s d e D a to s E x te r n a s
Gestin del DW
Explotacin de un DW
-OLAP
Acrnimo para online analytical processing. Es mtodo para dar respuestas rpidas a peticiones de bases de datos complejas. Se esta usando para informes de negocios, marketing, informes de gestin y reas similares. La razn de uso de OLAP para resolver las peticiones es la velocidad. Las bases de datos relaciones guardan las entidades en tablas discretas si han sido propiamente normalizadas. Esta estructura es buena BD operacionales, pero para peticiones ms compleja que involucren a muchas tablas es relativamente lento. Un mejor modelo, pero peor para uso operacional es el uso de una BD dimensional.
Ampliacin de Bases de Datos Tema 7 - Data Warehouse
Explotacin de un DW
Es la sntesis dinmica, anlisis y la consolidacin de grandes vlumenes de informacin multidimensional.
Describe la tecnologa que usa una vista multidimensional de informacin agregada para aportar acceso rpido a informacin estratgica para realizar anlisis. Los usuarios ganan una comprensin profunda de la informacin de su organizacin atravs de un acceso consistente e interactivo a una variedad amplia de vistas de los datos. Puede contestar facilmente preguntas del tipo qu? o quin?
Ampliacin de Bases de Datos Tema 7 - Data Warehouse
Explotacin de un DW
- La habilidad de contestar a preguntas del tipo: y si? o por qu? Es lo que distingue a OLAP de las herramientas de propsito general. - Una de sus operaciones ms comnes es la de agregar una medida a una o ms dimensiones Encontrar las ventas totales.
Encontrar las ventas totales pora cada ciudad o para cada estado (zona geogrfica). Encontrar los cinco productos por ranking de ventas totales.
Explotacin de un DW
OLAP toma una instantnea de la BD relacional y la reestructura en en datos dimensionales. Entonces las peticiones se hacen sobre ella. Un estudio afirma que las peticiones complejas, OLAP puede producir una respuesta en un 0.1% del tiempo que usa la misma peticin hecha sobre datos relacionales.
Explotacin de un DW
Una estructura OLAP creada de los datos operacionales se llama cubo OLAP. Dicho cubo se crea de unas tablas con un esquema en estrella. En el centro esta la tabla de hechos (fact table), en donde se listan los hechos centrales que construyen la peticin. Numerosas tablas de dimensin se enlazan con la tabla de hechos. Estas tablas indican como deben de analizarse las agregaciones de datos relacinales. El nmero de posibles agregados se determina por todas posible maneras en la que la informacin original se puede enlazar en una jerarqua.
Explotacin de un DW
Por ejemplo un conjunto de clientes se pueden agrupar por ciudad, por distrito o por pases, as con 50 ciudades, 8 distritos y 2 pases existen 3 niveles de jerarqua con 60 miembros. Estos clientes pueden considerarse en relacin a productos; si existen 250 productos con 20 categoras, 3 familias y 3 departamentos hay 276 miembros de productos. Con solo 2 dimensiones existen 16,560 posibilidades de agregacin. A medida que los datos considerados crecen los agregados pueden rpidamente hacer un total del rango 10xMillones o ms.
Explotacin de un DW
El calculo de las agregaciones combinado con los datos base forman un cubo OLAP. Que potencialmente contiene todas las respuestas para todas las peticiones que se pueden contestar con los datos. Dado el gran nmero de agregaciones que se pueden calcular, normalmente solo un nmero predeterminado es totalmente calculado, mientras que el resto se resuelve cuando se demande.
Explotacin de un DW
Existen tres tipos de OLAP: Multidimensional OLAP (MOLAP). Relational OLAP (ROLAP). Hybrid OLAP (HOLAP). MOLAP es la forma clasica de OLAP y a veces simplemente se la denomina OLAP. Usa una BD sumario, tiene un motor de BD dimensional y crea el esquema requerido con los datos base y las agregaciones.
Explotacin de un DW
ROLAP trabaja directamente con BD relacionales, los datos base y las tablas dimensin se guardan como tablas relaciones y las tablas nuevas se crean para almacenar la informacin de agregacin.
Hybrid OLAP usa las tablas relacionales para almacenar los datos base y tablas multidimensionales para almacenar las agregaciones.
Explotacin de un DW
Cada uno tiene ciertos beneficios: MOLAP es mejor en pequeos conjuntos de datos, es rpido para calcular las agragaciones y devolver las respuestas, pero crea una cantidad ingente de datos. ROLAP se considera mas escalable y usa el menor espacio, pero es el ms lento en el rendimiento de preprocesamiento y peticiones. HOLAP esta entre los dos, pero puede pre-procesar rpidamente y escalar bien.
Explotacin de un DW
La dificultad en implementar OLAP viene en la formacin de las peticiones, elegir los datos base y desarrollar un esquema, como resultado los productos OLAP modernos vienen con enormes libreras de peticiones pre-configuradas. El otro problema es los datos base, deben ser completos y consistentes.
Explotacin de un DW
- El data cube: OLAP requiere la computacin de varios agregados de numerosas tablas, ya que muchos de los agregados se necesitarn una y otra vez, tiene sentido el almacenar algunos de ellos. El data cube es una tcnica para ver los resultados de varios agregados de una manera tabular.
Dada la relacin de orden N, consideramos una projeccin de X, Y y Z como la clave y el atributo W, tal que: W : (X,Y,Z) W, Los atributos X, Y y Z se corresponden con los ejes del cubo, Mientras que cada valor W se corresponde con cada elemento de cada celda del cubo, projectado de X, Y y Z.
Ampliacin de Bases de Datos Tema 7 - Data Warehouse
Explotacin de un DW
Por ejemplo, hemos visto (aadiendo algunos campos ms) que: ventas(producto,tienda,tiempo,cantidad) Una instancia podra ser: ventas(vino tinto,tienda1,10 Agosto,125,30) Significando que las ventas de vino tinto, en la tienda1 fuern para la fecha indicada, de 125,30 euros. Si nos inventaramos un nuevo valor todos, significando todos los productos, podramos considerar filas como: ventas(todos,tienda1,10 Agosto,350780,50) Con el significado de las ventas de todos los productos hechos en la tienda1, en la fecha indicada con un valor de 350780,50 euros.
Ampliacin de Bases de Datos Tema 7 - Data Warehouse
Explotacin de un DW
En trminos estadsticos esto nos da el marginal de la tabla, sumando otros valores del primer valor. El data cube para las ventas contiene a todas las filas: ventas(a,b,c,d) Donde a,b,c,d son los valores de los dominios de los correspondientes atributos, o como hemos visto el valor especifico todos y d como la suma correspondiente.
Explotacin de un DW
Por lo que el data cube es la tabla original y todas las tablas marginales: las de una dimensin, las de dos dimensiones y as sucesivamente hasta las obtenidas por sumar cada atributo individualmente.
Explotacin de un DW
Esquema en estrella
Aplicaciones del DW
DW y Sistemas de Marketing
- Investigacin Comercial. - Segmentacin de mercados. - Identificacin de necesidades no cubiertas y generacin de nuevos productos, o modificacin de productos existentes. - Fijacin de precios y descuentos. - Definicin de la estrategia de canales de comercializacin y distribucin. - Definicin de la estrategia de promocin y atencin al cliente. - Lanzamiento de nuevos productos.
Ampliacin de Bases de Datos Tema 7 - Data Warehouse
Aplicaciones del DW
DW y Anlisis de riesgo financiero y de crdito
- Soporte metodologa RiskMetrics (Metodologa registrada de J.P. Morgan /Reuters) - Simulacin de escenarios histricos, Modelos de covarianzas, Simulacin de Montecarlo. - Modelos de valoracin, Calibracin modelos valoracin, Anlisis de rentabilidad, Establecimiento y seguimiento. de lmites. - Desarrollo/modificacin modelos, Stress testing. - Detencin de factores de riesgo en solucitudes de peticiones para tarjetas de crdito, etc.
Aplicaciones del DW
DW y Anlisis de riesgo de crdito
- Soporte metodologa RiskMetrics (Metodologa registrada de J.P. Morgan /Reuters) - Simulacin de escenarios histricos, Modelos de covarianzas, Simulacin de Montecarlo. - Modelos de valoracin, Calibracin modelos valoracin, Anlisis de rentabilidad, Establecimiento y seguimiento. de lmites. Desarrollo/modificacin modelos, Stress testing, etc. - Detencin de fatores de riesgo e
Tendencias Tecnolgicas Webhousing El uso de Internet como fuente de informacin hacia el exterior e interior (via intranets), crece constantemente, y la integracin de una herramienta de Data Warehouse con Internet tiene sentido. Uso generalizado de Data Marts Las peculiaridades de un proyecto Data Warehouse, y el enfoque progresivo de su construccin, hace que cada vez mas organizaciones realicen sus desarrollos mediante el uso de Data Marts integrados, como ya comentamos anteriormente.
ndice
DATA MINING
(Minera de datos)
50
ndice
1.2.3.4.5.6.7.8.9.10.11.12.-
Introduccin Evolucin de Data Mining y las tecnologas de datos Definicin de Data Mining Proceso de Data Mining Tipos de datos en los que se puede usar el D. M. Enfoques algortmicos Son todos los modelos descubiertos tiles? Clasificacin de sistemas Data Mining Beneficios y problemas de Data Mining Referencia de productos Conclusiones Fuentes de informacin consultadas
51
1. Introduccin
El Data Mining es de gran utilidad para los que toman decisiones de alto nivel.
52
Evolucin del concepto de D.M.: - Aos 60: Anlisis estadstico fue el primer nombre para D.M. - Aos 80: El anlisis estadstico fue complementado con tcnicas de inteligencia artificial (lgica difusa, razonamiento heurstico y redes neuronales).
53
Evolucin de la tecnologa de datos: - Aos 60: Recopilacin de datos, creacin de bases de datos, IMS y red DBMS. - Aos 70: Modelo de datos relacional, implementacin DBMS relacional. - Aos 80: RDBMS, modelos de datos avanzados (extendidos-relacionales, orientados a objetos, deductivos, ). - Aos 90 hasta la actualidad: Data Mining y Data Warehousing, BBDD multimedia y BBDD orientadas a la web.
54
3. Definicin de DM (1/2)
Def.: D. M. es el proceso de extraccin de informacin oculta, de gran inters, en bases de datos de gran tamao. D. M. utiliza tcnicas (mtodos matemticos) para encontrar patrones y relaciones en grandes volmenes de datos con la ayuda de un ordenador. Estas tcnicas, que pueden ser implementadas, son: - Redes neuronales artificiales (modelos que aprenden a travs del entrenamiento). - rboles de decisin (estructuras que representan conjuntos de decisiones que generan reglas para la clasificacin de un conjunto de datos).
55
3. Definicin de DM (2/2)
- Algoritmos genricos (tcnicas de optimizacin, pueden usar combinaciones genticas, mutaciones, ). - Mtodo del vecino ms cercano (clasifica cada registro en un conjunto de datos basado en una combinacin del registro o registros ms similares a l en un conjunto de datos histricos). - Regla de induccin (extraccin de reglas condicionales basadas en significado estadstico). Estas reglas predicen futuras tendencias y comportamientos, permitiendo tomar decisiones activas y orientadas por un conocimiento acabado de la informacin.
56
4. Proceso de DM (1/10)
57
4. Proceso de DM (2/10)
El D. M. es un proceso ms (con sus propias etapas) dentro del proceso de descubrimiento de conocimiento de las bases de datos (KDD process). KDD process se divide en una serie de etapas que permiten identificar el problema a resolver, preparar los datos, ejecutar las operaciones de extraccin de informacin e interpretar los resultados. D. M. automatiza el proceso de anlisis exploratorio encontrando patrones y relaciones (que el analista puede aceptar o rechazar), mediante la aplicacin de algoritmos, a partir de un conjunto de datos que previamente han sido limpiados y transformados.
58
4. Proceso de DM (3/10)
D. M. est listo para su aplicacin en los negocios porque, est soportado por tres tecnologas bastante maduras: - Recoleccin madura de datos. - Potentes ordenadores con multiprocesadores. - Algoritmos de D. M. y tiene las capacidades (automatizadas) de prediccin de tendencias, comportamientos y descubrimiento de modelos previamente desconocidos. Tambin proporciona poderes de decisin y es capaz de medir las acciones y los resultados de la mejor forma.
59
4. Proceso de DM (4/10)
Ejemplos de uso: - Anlisis de mercado (perfiles de cliente, identificacin de los requisitos de los clientes, ). - Deteccin de errores y deteccin de fraudes (determinar tratamientos mdicos inadecuados, detectar transacciones monetarias sospechosas, fraude en seguros, ). - Anlisis corporativo y de riesgos (previsin, retencin del cliente, control de calidad y anlisis competitivo).
60
4. Proceso de DM (5/10)
- ETAPAS DEL PROCESO DE DATA MINING -
Un modelo no puede predecir todos los casos individuales, pero un buen modelo es una gua til para sugerir acciones que logren el xito.
Las diversas tcnicas que utiliza el D. M. generan dos clases de modelos que constituye la base para poder descubrir los patrones: el modelo predictivo y el modelo descriptivo.
61
4. Proceso de DM (6/10)
- Modelos predictivos (realizan predicciones explcitas): Utilizan datos con resultados conocidos para predecir valores para diferentes datos y guiar la estrategia de la organizacin. Ej.: La probabilidad de un fraude. - Modelos descriptivos (realizan predicciones implcitas): Describen patrones en datos existentes para guiar la toma de decisiones.
62
4. Proceso de DM (7/10)
2.- Descubrimiento de patrones: En esta fase se aplican algoritmos para generar los patrones.
4. Proceso de DM (8/10)
- Confianza: Porcentaje de ocurrencias. N filas ocurrencias / N filas con todos los valores de la ocurrencia. Ej.: 3 / 4 = 0,75 = 75% (El 75% de los alumnos de Lota ingresan en 1995)
- Soporte: Mide la frecuencia en que las ocurrencias aparecen juntas. El patrn que se soporta por un nmero mayor de filas es ms poderoso (patrn fuerte). Ej.: La sentencia est soportada por tres filas - Excepciones o errores: Son un patrn dbil. Son las filas de patrones ms dbiles. Ej.: La fila 3 de la tabla es una excepcin
64
4. Proceso de DM (9/10)
3.- Presentacin de los conocimientos: Visualizacin, transformacin, eliminacin de modelos redundantes, evaluar los resultados e interpretar su significado. 4.- Monitorizacin del modelo:
Los cambios significativos en los patrones apuntan a las necesidades de descubrir nuevos patrones a partir de los nuevos datos. Por tanto el proceso DM debe ser repetitivo. Por ltimo, hay que usar el conocimiento descubierto.
65
4. Proceso de DM (10/10)
- CARACTERSTICAS DE LOS DESARROLLADORES -
Conocimientos profundos de los datos y su historia. Conocimientos del rea especificada de la organizacin. Perfeccionamiento en el uso de DM.
66
67
- Clasificacin: Utilizada en problemas de deteccin de transacciones fraudulentas, riesgos en la entrega de crditos, prediccin de probabilidad de almacenamiento e identificacin de procedimientos mdicos.
69
- Regresin: Utilizada en casos donde la salida predictiva puede tomar posibles valores ilimitados (variables continuas). Predice un valor especfico. Ej.: Los ingresos econmicos de la alumna XXX sern
255
70
72
8. Clasificacin de sistemas DM
Los DM se pueden clasificar por:
73
74
- Problemas: Falta de un repositorio histrico (Data Warehouse o Data Marts). No tener BBDD bien definidas con datos ntegros y consistentes. Se necesita un especialista en anlisis de datos y un experto en las reas de la organizacin que sepan entender y aplicar los resultados.
75
76
77
78
79
81
82
Aunque sus capacidades tcnicas y funcionalidad general no es especialmente superior a los aspirantes, solo unos pocos pueden destacar en este grado de presencia y rendimiento.
Se distinguen, adems, por su gran abanico de programas, abarcamiento geogrfico, inversiones tecnolgicas y su grado a comprometerse a implementaciones de calidad y servicios de apoyo tcnico.
83
Se tratan de grandes vendedores de software, que ofrecen distintas soluciones software que abarcan un abanico en diferentes campos/mercados.
La especializacin en la industria del data mining no es prioritario, aunque la funcionalidad de sus productos es ms que suficiente para la mayora de las implementaciones de data mining.
84
85
Su objetivo convertirse en lder en algoritmos genticos y poder competir para una parte del mercado en analtica avanzada.
Se trata, pues de una estrategia al data mining alternativa que difiere del aproximacin de los vendedores tradicionales y lideres del marcado.
86
Existir alguna consolidacin del mercado, pero con la variedad de herramientas especializadas, la competencia esta garantizada.
A medida que el data mining evolucione, se espere mayores inversiones en la analtica predictiva, teniendo como consecuencia el estancamiento y/o la bajada de precios entre el resto de vendedores del mercado.
87
11. Conclusiones
Un sistema Data Mining permite analizar factores de influencia, predecir comportamientos futuros, agrupar componentes similares y obtener secuencias de eventos que provocan comportamientos espcficos. Desde ahora se pueden construir modelos exactos de alguna actividad empresarial para estudiarla mejor, comprenderlas y mejorarlas.
88
- Data Mining: Concepts and techniques. Jiawey Han & Michael Kamber.
- Introduction to Data Mining and knowledge discovery third edition by Two Crows Corporation.
- www.monografias.com/trabajos/datamining/datamining.shtml
89
Mapa Conceptual