Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Por qu DW y DM?
Mayor poder de procesamiento y sofisticacin de herramientas Demanda de mejora del acceso a datos Necesidad de informacin para la toma de decisiones Recopilacin de informacin Alto Coste
Sistemas de Informacin-2003
Data Warehouse
Data Warehouse
Definicin: coleccin de datos orientados al tema, integrados, no voltiles e historiados, organizados para el apoyo de un proceso de ayuda a la decisin Se guarda toda la informacin til (proveniente de varia fuentes) en un nico lugar
Sistemas de Informacin-2003 Jos Alberto Royo 5
Data Warehouse
Orientacin al tema
Disponer de toda la informacin sobre un tema
No organizar los datos segn los procesos funcionales
La informacin comn a varios temas no debe duplicarse Los Data Mart apoyan la orientacin al tema
BD orientada al tema puesta a disposicin de los usuarios en un contexto de decisin descentralizado
Sistemas de Informacin-2003 Jos Alberto Royo 6
Data Warehouse
Datos integrados:
Los datos deben formatearse y unificarse para llegar a un estado coherente
Ej.: consolidar todas las informaciones respecto a un cliente
Data Warehouse
Datos no voltiles:
Consecuencia de la historilizacin = consulta en = periodo = resultado Sistemas de produccin no voltiles
Datos historiados
Los datos no se actualizan nunca
representan un valor en un momento concreto
Infocentro:
similar al Data Warehouse pero centrado en el sistema de produccin
Datos
Matrices Multidimensionales o hipercubos
Ej.: periodo impositivo, producto y regin Pivotacin: cambio de orientacin de los ejes
REG5 REG1 REG2 REG3 REG4 REG5 TR2
Nivel de historial
Producto Tr im est re
Regin
P2
P1
Tipos de esquema
Esquema de estrella:
Tabla de hechos con una nica tabla para cada dimensin
Esquema de copos
Tablas dimensinales organizadas jerrquicamente
Sistemas de Informacin-2003 Jos Alberto Royo 11 Sistemas de Informacin-2003 Jos Alberto Royo 12
P2
Sistemas de Informacin-2003
Sistemas de Informacin-2003
TR1
REG1
Estructura multidimensional
REG2 REG3
Metadatos
REG4
10
DW: Caractersticas
Salvado de datos limpios OLAP
DATOS
Reformateo
DSS
METADATOS
MINERIA DE DATOS
14
OLTP y OLAP
OLTP (On-Line Transactionnel Processing): entorno donde las respuestas se darn en un tiempo aceptable y sern consistentes
Transacciones predeterminadas Utiliza pocas tablas
Sistemas de Informacin-2003
16
DW son multidimensionales
Vistas suelen ser relacionales
Errores a evitar
Cargar datos solamente porque estn disponibles (podran ser no tiles) Crear el esquema de la BD de forma tradicional Crearlo pensando en la tecnologa usada Concentrarse en los datos internos Creer que los problemas acaban una vez instalado el Data Warehouse
Sistemas de Informacin-2003 Jos Alberto Royo 19
Implementacin: Dificultades
Alto coste Urgente ayuda para la toma de decisiones
Data Mart
Bibliografa
J.M. Franco. EDS-Institut Promthus, El Data Warehouse. El Data Mining, Eyrolles,1997.
Data Mining
Sistemas de Informacin-2003
21
Sistemas de Informacin-2003
22
Data Mining
Bsqueda de informacin relevante (conocimiento) en grandes volmenes de datos Descubrir de forma automtica las reglas estadsticas y pautas de un conjunto de datos Diferencia con machine learning? Grandes volmenes de datos grabados en disco Objetivo obtener un conjunto de reglas
Seleccin de datos Limpieza de datos Transformacin/Codificacin de datos Minera de Datos Presentacin visualizacin
Jos Alberto Royo 24
Sistemas de Informacin-2003
Sistemas de Informacin-2003
Identificacin
Ej.: secuencia de nucletidos presencia gen
Presentacin de Resultados
Listas Representaciones Grficas Tablas resumen
Sistemas de Informacin-2003 Jos Alberto Royo 25
Clasificacin
Ej.: clientes que buscan descuentos, fieles y ocasionales
Optimizacin
utilizacin de recursos limitados: tiempo, espacio, dinero, etc.
Sistemas de Informacin-2003 Jos Alberto Royo 26
Conocimiento Descubierto
Reglas de asociacin
Ej.: Compra bolso Compra zapatos
Tipos de reglas
X antecedente consecuente
X: lista de una o varias variables con rangos asociados Ej.: transaccin T, compra(T,pan) compra(T,leche)
Jerarquas de clasificacin
Ej.: Clasificacin de los clientes de un banco
Patrones secuenciales
Ej.: Cmara digital Memorias MMC
Categorizacin y segmentacin
Ej.: nios, jvenes, adultos y jubilados
Sistemas de Informacin-2003 Jos Alberto Royo 27
Rango de las variables poblacin Soporte: porcentaje de la poblacin que cumple el antecedente o el consecuente Confianza: porcentaje con que el consecuente es cierto al serlo el antecedente
Sistemas de Informacin-2003 Jos Alberto Royo 28
Clasificacin
Comienza con una muestra de datos de clasificacin conocida Los datos se dividen segn uno de sus atributos, sucesivamente
Atributos enumerados un conjunto por valor Atributos con rango numrico intervalos
Resultado: rbol de clasificacin (taxonoma) Hasta usar todos los atributos o clasificar correctamente los datos
Sistemas de Informacin-2003 Jos Alberto Royo 30
Asociaciones
Se genera un mapa de bits para cada transaccin (un bit para cada artculo a estudiar) Nos quedamos con los artculos ms adquiridos Se generan todos los subconjuntos posibles de artculos y se cuenta el nmero de transacciones Los subconjuntos con un numero alto de transacciones generan las reglas
Asociaciones negativas
Ej.: el 60% de los clientes que compran patatas fritas no compran agua mineral Si no combinacin de elementos asociacin negativa
Tenemos muchsimas reglas sin ningn inters
Sistemas de Informacin-2003
31
Sistemas de Informacin-2003
32
Otras Tcnicas
Regresin
Estadstica Establecimiento de probabilidades
Redes neuronales
Entrenar la red Reconocer los patrones segn el entrenamiento
Algoritmos genticos
33
Algoritmos probabilistas Poblacin inicial Sobreviven los mejores Obtenemos datos en cada iteracin
Jos Alberto Royo 34
Sistemas de Informacin-2003
Sistemas de Informacin-2003
Aplicaciones
Marketing
Comportamiento del consumidor basado en patrones de compra
Bibliografa
J.M. Franco. EDS-Institut Promthus, El Data Warehouse. El Data Mining, Eyrolles,1997. R.A. Elmasri, S.B. Navathe, Fundamentos de Sistemas de Bases de Datos, 3 ed., Addison-Wesley,2000.
Finanzas
Anlisis de rendimiento de operaciones Solvencia de clientes Valoracin de opciones de financiacin
Fabricacin
Optimizacin de recursos: maquinaria, mano de obra, materiales Optimizacin del proceso de fabricacin
Sistemas de Informacin-2003 Jos Alberto Royo 35
Sistemas de Informacin-2003
36
GIS: Categoras
1. Aplicaciones Cartogrficas
Variedad de datos: caractersticas del suelo, densidad de cultivo,calidad del aire Representacin basada en campos Superposicin de capas
Informacin espacial
Multidimensional (x,y,z,t,...) Voluminosidad Naturaleza inexacta (no hay representaciones exactas de la Tierra) Las preguntas combinan topologa, geografa y otros atributos, con informacin aproximada Combinan distintos contextos legales y econmicos (varan de un pas a otro)
39 Sistemas de Informacin-2003 Jos Alberto Royo 40
Mapas
Estructuracin
Vectores (+verstil, -fcil de crear)
Creados con paneles digitalizadores
Interpretacin
Cierre de polgonos Definicin, reduccin y mejora de detalles
Anlisis de proximidad
Clculo de zonas de inters
Otras funcionalidades
Extensibilidad
Continua evolucin de los sistemas GIS dnde estoy? Problema debido a la variedad de tipos de datos
Visualizacin
1. Contorneado
Isolneas Mtodo de iluminacin empleado para representar relieves Imgenes tridimensionales
Jos Alberto Royo 43
Sistemas de Informacin-2003
44
Versionado
Ej.: Qu pasa si construimos una autopista?
Estndares de Datos
Compartir de datos
Aplicaciones especficas
Tipos de datos distintos
Bibliografa
Keith C. Clarke, Getting Started with GIS, Prentice-Hall, 1997, ISBN 0-13-294786-2. http://www.usgs.gov/research/gis/title.html
Sistemas de Informacin-2003
47
Por qu DW y DM?
Mayor poder de procesamiento y sofisticacin de herramientas Demanda de mejora del acceso a datos Necesidad de informacin para la toma de decisiones Recopilacin de informacin Alto Coste
Sistemas de Informacin-2003
Data Warehouse
Data Warehouse
Definicin: coleccin de datos orientados al tema, integrados, no voltiles e historiados, organizados para el apoyo de un proceso de ayuda a la decisin Se guarda toda la informacin til (proveniente de varia fuentes) en un nico lugar
Sistemas de Informacin-2003 Jos Alberto Royo 5
Data Warehouse
Orientacin al tema
Disponer de toda la informacin sobre un tema
No organizar los datos segn los procesos funcionales
La informacin comn a varios temas no debe duplicarse Los Data Mart apoyan la orientacin al tema
BD orientada al tema puesta a disposicin de los usuarios en un contexto de decisin descentralizado
Sistemas de Informacin-2003 Jos Alberto Royo 6
Data Warehouse
Datos integrados:
Los datos deben formatearse y unificarse para llegar a un estado coherente
Ej.: consolidar todas las informaciones respecto a un cliente
Data Warehouse
Datos no voltiles:
Consecuencia de la historilizacin = consulta en = periodo = resultado Sistemas de produccin no voltiles
Datos historiados
Los datos no se actualizan nunca
representan un valor en un momento concreto
Infocentro:
similar al Data Warehouse pero centrado en el sistema de produccin
Datos
Matrices Multidimensionales o hipercubos
Ej.: periodo impositivo, producto y regin Pivotacin: cambio de orientacin de los ejes
REG5 REG1 REG2 REG3 REG4 REG5 TR2
Nivel de historial
Producto Tr im est re
Regin
P2
P1
Tipos de esquema
Esquema de estrella:
Tabla de hechos con una nica tabla para cada dimensin
Esquema de copos
Tablas dimensinales organizadas jerrquicamente
Sistemas de Informacin-2003 Jos Alberto Royo 11 Sistemas de Informacin-2003 Jos Alberto Royo 12
P2
Sistemas de Informacin-2003
Sistemas de Informacin-2003
TR1
REG1
Estructura multidimensional
REG2 REG3
Metadatos
REG4
10
DW: Caractersticas
Salvado de datos limpios OLAP
DATOS
Reformateo
DSS
METADATOS
MINERIA DE DATOS
14
OLTP y OLAP
OLTP (On-Line Transactionnel Processing): entorno donde las respuestas se darn en un tiempo aceptable y sern consistentes
Transacciones predeterminadas Utiliza pocas tablas
Sistemas de Informacin-2003
16
DW son multidimensionales
Vistas suelen ser relacionales
Errores a evitar
Cargar datos solamente porque estn disponibles (podran ser no tiles) Crear el esquema de la BD de forma tradicional Crearlo pensando en la tecnologa usada Concentrarse en los datos internos Creer que los problemas acaban una vez instalado el Data Warehouse
Sistemas de Informacin-2003 Jos Alberto Royo 19
Implementacin: Dificultades
Alto coste Urgente ayuda para la toma de decisiones
Data Mart
Bibliografa
J.M. Franco. EDS-Institut Promthus, El Data Warehouse. El Data Mining, Eyrolles,1997.
Data Mining
Sistemas de Informacin-2003
21
Sistemas de Informacin-2003
22
Data Mining
Bsqueda de informacin relevante (conocimiento) en grandes volmenes de datos Descubrir de forma automtica las reglas estadsticas y pautas de un conjunto de datos Diferencia con machine learning? Grandes volmenes de datos grabados en disco Objetivo obtener un conjunto de reglas
Seleccin de datos Limpieza de datos Transformacin/Codificacin de datos Minera de Datos Presentacin visualizacin
Jos Alberto Royo 24
Sistemas de Informacin-2003
Sistemas de Informacin-2003
Identificacin
Ej.: secuencia de nucletidos presencia gen
Presentacin de Resultados
Listas Representaciones Grficas Tablas resumen
Sistemas de Informacin-2003 Jos Alberto Royo 25
Clasificacin
Ej.: clientes que buscan descuentos, fieles y ocasionales
Optimizacin
utilizacin de recursos limitados: tiempo, espacio, dinero, etc.
Sistemas de Informacin-2003 Jos Alberto Royo 26
Conocimiento Descubierto
Reglas de asociacin
Ej.: Compra bolso Compra zapatos
Tipos de reglas
X antecedente consecuente
X: lista de una o varias variables con rangos asociados Ej.: transaccin T, compra(T,pan) compra(T,leche)
Jerarquas de clasificacin
Ej.: Clasificacin de los clientes de un banco
Patrones secuenciales
Ej.: Cmara digital Memorias MMC
Categorizacin y segmentacin
Ej.: nios, jvenes, adultos y jubilados
Sistemas de Informacin-2003 Jos Alberto Royo 27
Rango de las variables poblacin Soporte: porcentaje de la poblacin que cumple el antecedente o el consecuente Confianza: porcentaje con que el consecuente es cierto al serlo el antecedente
Sistemas de Informacin-2003 Jos Alberto Royo 28
Clasificacin
Comienza con una muestra de datos de clasificacin conocida Los datos se dividen segn uno de sus atributos, sucesivamente
Atributos enumerados un conjunto por valor Atributos con rango numrico intervalos
Resultado: rbol de clasificacin (taxonoma) Hasta usar todos los atributos o clasificar correctamente los datos
Sistemas de Informacin-2003 Jos Alberto Royo 30
Asociaciones
Se genera un mapa de bits para cada transaccin (un bit para cada artculo a estudiar) Nos quedamos con los artculos ms adquiridos Se generan todos los subconjuntos posibles de artculos y se cuenta el nmero de transacciones Los subconjuntos con un numero alto de transacciones generan las reglas
Asociaciones negativas
Ej.: el 60% de los clientes que compran patatas fritas no compran agua mineral Si no combinacin de elementos asociacin negativa
Tenemos muchsimas reglas sin ningn inters
Sistemas de Informacin-2003
31
Sistemas de Informacin-2003
32
Otras Tcnicas
Regresin
Estadstica Establecimiento de probabilidades
Redes neuronales
Entrenar la red Reconocer los patrones segn el entrenamiento
Algoritmos genticos
33
Algoritmos probabilistas Poblacin inicial Sobreviven los mejores Obtenemos datos en cada iteracin
Jos Alberto Royo 34
Sistemas de Informacin-2003
Sistemas de Informacin-2003
Aplicaciones
Marketing
Comportamiento del consumidor basado en patrones de compra
Bibliografa
J.M. Franco. EDS-Institut Promthus, El Data Warehouse. El Data Mining, Eyrolles,1997. R.A. Elmasri, S.B. Navathe, Fundamentos de Sistemas de Bases de Datos, 3 ed., Addison-Wesley,2000.
Finanzas
Anlisis de rendimiento de operaciones Solvencia de clientes Valoracin de opciones de financiacin
Fabricacin
Optimizacin de recursos: maquinaria, mano de obra, materiales Optimizacin del proceso de fabricacin
Sistemas de Informacin-2003 Jos Alberto Royo 35
Sistemas de Informacin-2003
36
GIS: Categoras
1. Aplicaciones Cartogrficas
Variedad de datos: caractersticas del suelo, densidad de cultivo,calidad del aire Representacin basada en campos Superposicin de capas
Informacin espacial
Multidimensional (x,y,z,t,...) Voluminosidad Naturaleza inexacta (no hay representaciones exactas de la Tierra) Las preguntas combinan topologa, geografa y otros atributos, con informacin aproximada Combinan distintos contextos legales y econmicos (varan de un pas a otro)
39 Sistemas de Informacin-2003 Jos Alberto Royo 40
Mapas
Estructuracin
Vectores (+verstil, -fcil de crear)
Creados con paneles digitalizadores
Interpretacin
Cierre de polgonos Definicin, reduccin y mejora de detalles
Anlisis de proximidad
Clculo de zonas de inters
Otras funcionalidades
Extensibilidad
Continua evolucin de los sistemas GIS dnde estoy? Problema debido a la variedad de tipos de datos
Visualizacin
1. Contorneado
Isolneas Mtodo de iluminacin empleado para representar relieves Imgenes tridimensionales
Jos Alberto Royo 43
Sistemas de Informacin-2003
44
Versionado
Ej.: Qu pasa si construimos una autopista?
Estndares de Datos
Compartir de datos
Aplicaciones especficas
Tipos de datos distintos
Bibliografa
Keith C. Clarke, Getting Started with GIS, Prentice-Hall, 1997, ISBN 0-13-294786-2. http://www.usgs.gov/research/gis/title.html
Sistemas de Informacin-2003
47