Está en la página 1de 24

Data Warehouse and Data Mining

Jos A. Royo http://www.cps.unizar.es/~jaroyo email: joalroyo@unizar.es Departamento de Informtica e Ingeniera de Sistemas

Por qu DW y DM?
Mayor poder de procesamiento y sofisticacin de herramientas Demanda de mejora del acceso a datos Necesidad de informacin para la toma de decisiones Recopilacin de informacin Alto Coste

Sistemas de Informacin-2003

Jos Alberto Royo

Informacin en las empresas


La Informacin proviene de fuentes internas (sistemas de produccin) y externas (hasta un 20%) Problemas
Saturacin de informacin Difcil de acceder No selectiva

Data Warehouse

La informacin se necesita para:


Competir (comparacin con otros productos) Personalizar (simular que cada cliente es nico)
Sistemas de Informacin-2003 Jos Alberto Royo 3 Sistemas de Informacin-2003 Jos Alberto Royo 4

Data Warehouse
Definicin: coleccin de datos orientados al tema, integrados, no voltiles e historiados, organizados para el apoyo de un proceso de ayuda a la decisin Se guarda toda la informacin til (proveniente de varia fuentes) en un nico lugar
Sistemas de Informacin-2003 Jos Alberto Royo 5

Data Warehouse
Orientacin al tema
Disponer de toda la informacin sobre un tema
No organizar los datos segn los procesos funcionales

La informacin comn a varios temas no debe duplicarse Los Data Mart apoyan la orientacin al tema
BD orientada al tema puesta a disposicin de los usuarios en un contexto de decisin descentralizado
Sistemas de Informacin-2003 Jos Alberto Royo 6

Data Warehouse
Datos integrados:
Los datos deben formatearse y unificarse para llegar a un estado coherente
Ej.: consolidar todas las informaciones respecto a un cliente

Data Warehouse
Datos no voltiles:
Consecuencia de la historilizacin = consulta en = periodo = resultado Sistemas de produccin no voltiles

Datos historiados
Los datos no se actualizan nunca
representan un valor en un momento concreto

Infocentro:
similar al Data Warehouse pero centrado en el sistema de produccin

Los datos se referencian temporalmente


Sistemas de Informacin-2003 Jos Alberto Royo 7 Sistemas de Informacin-2003 Jos Alberto Royo 8

Data Warehouse: Estructura


Varia clases de datos
Datos fuertemente agregados Nivel de sntesis
TR2

Datos
Matrices Multidimensionales o hipercubos
Ej.: periodo impositivo, producto y regin Pivotacin: cambio de orientacin de los ejes
REG5 REG1 REG2 REG3 REG4 REG5 TR2

Nivel de historial

Producto Tr im est re

Datos detallados historiados

Regin
P2

P1

Datos: Representaciones Jerrquicas


Exploracin ascendente (roll-up)
Agrupacin de datos Ej.: Agrupar datos mensuales en trimestrales

Datos: Representacin fsica


2 Tablas
Tabla de dimensiones Tabla de hechos

Exploracin Descendente (drill-down)


Divisin de datos Ej.: Ventas nacionales provinciales

Tipos de esquema
Esquema de estrella:
Tabla de hechos con una nica tabla para cada dimensin

Esquema de copos
Tablas dimensinales organizadas jerrquicamente
Sistemas de Informacin-2003 Jos Alberto Royo 11 Sistemas de Informacin-2003 Jos Alberto Royo 12

P2

Sistemas de Informacin-2003

Jos Alberto Royo

Sistemas de Informacin-2003

Jos Alberto Royo

TR1

REG1

Estructura multidimensional

REG2 REG3

Metadatos

Datos agregados Datos detallados


TR1 P1

REG4

10

Construccin de un Data Warehouse


Adquisicin: Recopilar informacin de varias fuentes y unificarla
Extraccin Preparacin (formateo y limpieza) Carga

DW: Caractersticas
Salvado de datos limpios OLAP
DATOS

Limpieza Bases de Datos

Reformateo

DSS

METADATOS

Almacenamiento: basado en un SGBD


El historial influir en la estructura fsica
Otras entradas de datos Actualizaciones/Nuevos Datos

MINERIA DE DATOS

Acceso: distintos grupos de usuarios requerirn distintas consultas


Sistemas de Informacin-2003 Jos Alberto Royo 13 Sistemas de Informacin-2003

Jos Alberto Royo

14

OLTP y OLAP
OLTP (On-Line Transactionnel Processing): entorno donde las respuestas se darn en un tiempo aceptable y sern consistentes
Transacciones predeterminadas Utiliza pocas tablas

DSS: Decision Support Systems


EIS (Executive Information Systems o sistemas de informacin ejecutiva) Ayuda para la toma de decisiones Dan datos de nivel superior DW preparado para OLAP y DSS

OLAP (On-Line Analytical Processing): entorno de ayuda a la decisin (anlisis de datos)


Transacciones muy variadas Manejan volmenes grandes de datos (+tiempo) Se relacionan datos aparentemente sin relacin
Sistemas de Informacin-2003 Jos Alberto Royo 15

Sistemas de Informacin-2003

Jos Alberto Royo

16

Factores de xito del DW


Integra datos de produccin con datos externos y gestiona historiales Contiene la informacin til Los datos son coherentes, actualizados y documentados (calidad) Ofrece acceso directo a los usuarios Aumenta el nmero de accesos Da una flexibilidad que apoya el crecimiento
De usuarios, herramientas y volumen
Sistemas de Informacin-2003 Jos Alberto Royo 17

Diferencias entre DW y vistas


DW son un almacenamiento permanente
Vistas Construidas cuando es necesario

DW son multidimensionales
Vistas suelen ser relacionales

DW son indexados para optimizar su rendimiento


Vistas son indexadas dependiendo de la BD subyacente

DW dan unas funcionalidades especificas


Las vistas no

DW poseen grandes cantidades de datos integrados y temporales


Vistas son extractos de la BD
Sistemas de Informacin-2003 Jos Alberto Royo 18

Errores a evitar
Cargar datos solamente porque estn disponibles (podran ser no tiles) Crear el esquema de la BD de forma tradicional Crearlo pensando en la tecnologa usada Concentrarse en los datos internos Creer que los problemas acaban una vez instalado el Data Warehouse
Sistemas de Informacin-2003 Jos Alberto Royo 19

Implementacin: Dificultades
Alto coste Urgente ayuda para la toma de decisiones
Data Mart

Gran coste de mantenimiento


Cambio de necesidades Nuevas fuentes de datos Cambio de la capacidad Cambio de tecnologa

Control de calidad de los datos Heterogeneidad e Integracin de datos


Sistemas de Informacin-2003 Jos Alberto Royo 20

Bibliografa
J.M. Franco. EDS-Institut Promthus, El Data Warehouse. El Data Mining, Eyrolles,1997.

Data Mining

Sistemas de Informacin-2003

Jos Alberto Royo

21

Sistemas de Informacin-2003

Jos Alberto Royo

22

Data Mining
Bsqueda de informacin relevante (conocimiento) en grandes volmenes de datos Descubrir de forma automtica las reglas estadsticas y pautas de un conjunto de datos Diferencia con machine learning? Grandes volmenes de datos grabados en disco Objetivo obtener un conjunto de reglas

Data Mining: Visin General


Data Mining y Data Warehouse
Bsqueda automtica de relaciones Extraccin de patrones

Descubrimiento de conocimiento (Fases)



23

Seleccin de datos Limpieza de datos Transformacin/Codificacin de datos Minera de Datos Presentacin visualizacin
Jos Alberto Royo 24

Sistemas de Informacin-2003

Jos Alberto Royo

Sistemas de Informacin-2003

Resultados del Data Mining


Descubrir
Reglas de asociacin Patrones secuenciales rboles de clasificacin

Objetivos del Data Mining


Prediccin
Ej.: que compraran los clientes bajo determinados descuentos

Identificacin
Ej.: secuencia de nucletidos presencia gen

Presentacin de Resultados
Listas Representaciones Grficas Tablas resumen
Sistemas de Informacin-2003 Jos Alberto Royo 25

Clasificacin
Ej.: clientes que buscan descuentos, fieles y ocasionales

Optimizacin
utilizacin de recursos limitados: tiempo, espacio, dinero, etc.
Sistemas de Informacin-2003 Jos Alberto Royo 26

Conocimiento Descubierto
Reglas de asociacin
Ej.: Compra bolso Compra zapatos

Tipos de reglas
X antecedente consecuente
X: lista de una o varias variables con rangos asociados Ej.: transaccin T, compra(T,pan) compra(T,leche)

Jerarquas de clasificacin
Ej.: Clasificacin de los clientes de un banco

Patrones secuenciales
Ej.: Cmara digital Memorias MMC

Patrones de series de tiempo


Ej.: Aumento de ventas de automviles antes del verano

Categorizacin y segmentacin
Ej.: nios, jvenes, adultos y jubilados
Sistemas de Informacin-2003 Jos Alberto Royo 27

Rango de las variables poblacin Soporte: porcentaje de la poblacin que cumple el antecedente o el consecuente Confianza: porcentaje con que el consecuente es cierto al serlo el antecedente
Sistemas de Informacin-2003 Jos Alberto Royo 28

Data Mining Automtico


Descubrimiento automtico de reglas Tcnicas de machine learning , adaptadas para grandes volmenes de datos Tres tipos de problemas:
Clasificacin: reglas que dividan en grupos Asociaciones: X Y Correlaciones entre series
Sistemas de Informacin-2003 Jos Alberto Royo 29

Clasificacin
Comienza con una muestra de datos de clasificacin conocida Los datos se dividen segn uno de sus atributos, sucesivamente
Atributos enumerados un conjunto por valor Atributos con rango numrico intervalos

Resultado: rbol de clasificacin (taxonoma) Hasta usar todos los atributos o clasificar correctamente los datos
Sistemas de Informacin-2003 Jos Alberto Royo 30

Asociaciones
Se genera un mapa de bits para cada transaccin (un bit para cada artculo a estudiar) Nos quedamos con los artculos ms adquiridos Se generan todos los subconjuntos posibles de artculos y se cuenta el nmero de transacciones Los subconjuntos con un numero alto de transacciones generan las reglas

Asociaciones negativas
Ej.: el 60% de los clientes que compran patatas fritas no compran agua mineral Si no combinacin de elementos asociacin negativa
Tenemos muchsimas reglas sin ningn inters

Utilizar conocimiento previo del problema Optimizaciones


Muestreo

Sistemas de Informacin-2003

Jos Alberto Royo

31

Sistemas de Informacin-2003

Jos Alberto Royo

32

Data Mining Guiado por el Usuario


El usuario plantea hiptesis El sistema comprueba si se verifica o no Las hiptesis se pueden ir refinando La visualizacin grfica de datos ayuda al usuario a examinar grandes volmenes de datos

Otras Tcnicas
Regresin
Estadstica Establecimiento de probabilidades

Redes neuronales
Entrenar la red Reconocer los patrones segn el entrenamiento

Algoritmos genticos

33

Algoritmos probabilistas Poblacin inicial Sobreviven los mejores Obtenemos datos en cada iteracin
Jos Alberto Royo 34

Sistemas de Informacin-2003

Jos Alberto Royo

Sistemas de Informacin-2003

Aplicaciones
Marketing
Comportamiento del consumidor basado en patrones de compra

Bibliografa
J.M. Franco. EDS-Institut Promthus, El Data Warehouse. El Data Mining, Eyrolles,1997. R.A. Elmasri, S.B. Navathe, Fundamentos de Sistemas de Bases de Datos, 3 ed., Addison-Wesley,2000.

Finanzas
Anlisis de rendimiento de operaciones Solvencia de clientes Valoracin de opciones de financiacin

Fabricacin
Optimizacin de recursos: maquinaria, mano de obra, materiales Optimizacin del proceso de fabricacin
Sistemas de Informacin-2003 Jos Alberto Royo 35

Sistemas de Informacin-2003

Jos Alberto Royo

36

Sist. de Inf. Geogrfica (GIS) Sistemas de Informacin Geogrfica


Jos Alberto Royo joalroyo@unizar.es Departamento de Informtica e Ingeniera de Sistemas Sistemas que relacionan, almacenan, manipulan y visualizan informacin referenciada geogrficamente Sistemas de informacin que manejan datos espaciales
Algunos datos son referencias espaciales o coordenadas geogrficas Poseen operadores para manejar dichos datos espaciales
Sistemas de Informacin-2003 Jos Alberto Royo 38

GIS: Categoras
1. Aplicaciones Cartogrficas
Variedad de datos: caractersticas del suelo, densidad de cultivo,calidad del aire Representacin basada en campos Superposicin de capas

Informacin espacial
Multidimensional (x,y,z,t,...) Voluminosidad Naturaleza inexacta (no hay representaciones exactas de la Tierra) Las preguntas combinan topologa, geografa y otros atributos, con informacin aproximada Combinan distintos contextos legales y econmicos (varan de un pas a otro)
39 Sistemas de Informacin-2003 Jos Alberto Royo 40

2. Aplicaciones para el modelado digital de terrenos


Variedad de datos Representacin basada en campos Objetos fsicos: centrales elctricas, hospitales, etc. Representacin basada en objetos
Jos Alberto Royo

3. Aplicaciones de Objetos geogrficos


Sistemas de Informacin-2003

Mapas
Estructuracin
Vectores (+verstil, -fcil de crear)
Creados con paneles digitalizadores

GIS: Operaciones sobre los Datos


Interpolacin
Obtencin de datos de elevacin no obtenidos en la muestra

Interpretacin
Cierre de polgonos Definicin, reduccin y mejora de detalles

Rasters (-verstil, +fcil de crear)


Cada celda almacena el tipo de terreno Creados mediante scanning

Anlisis de proximidad
Clculo de zonas de inters

Se puede pasar de un formato a otro (con un cierto error)


Reconocimiento de formas en un raster vectores Pixelizacin de vectores raster
Sistemas de Informacin-2003 Jos Alberto Royo 41

Procesamiento de imgenes en una matriz de puntos


Integrar caractersticas geogrficas en distintas capas Anlisis digital de imgenes
Sistemas de Informacin-2003 Jos Alberto Royo 42

Otras funcionalidades
Extensibilidad
Continua evolucin de los sistemas GIS dnde estoy? Problema debido a la variedad de tipos de datos

Preguntas a los GIS


Qu hay en cierta posicin? Dnde hay cierto elemento? Muestra zonas que cuyos atributos cumplen ciertas condiciones Generacin de nuevos grficos
mapas de elevacin, densidad de poblacin, etc.

Control de calidad de los datos

Visualizacin
1. Contorneado
Isolneas Mtodo de iluminacin empleado para representar relieves Imgenes tridimensionales
Jos Alberto Royo 43

2. Sombreado de montaas 3. Visualizaciones de perspectivas


Sistemas de Informacin-2003

Sistemas de Informacin-2003

Jos Alberto Royo

44

Utilidad de los GIS


Generacin de mapas Seleccin de lugares Creacin de planes de emergencia
Ante terremotos u otras catstrofes

GIS: Trabajo Futuro


Nuevas arquitecturas:
Distribucin de datos Separacin de datos espaciales y no espaciales

Versionado
Ej.: Qu pasa si construimos una autopista?

Simulacin de transformaciones medioambientales


Cambio en paisajes ante tneles, obras, urbanizaciones, etc.
Sistemas de Informacin-2003 Jos Alberto Royo 45

Estndares de Datos
Compartir de datos

Aplicaciones especficas
Tipos de datos distintos

Ausencia de semntica en las estructuras de datos


Vas de sentido nico
Sistemas de Informacin-2003 Jos Alberto Royo 46

Bibliografa
Keith C. Clarke, Getting Started with GIS, Prentice-Hall, 1997, ISBN 0-13-294786-2. http://www.usgs.gov/research/gis/title.html

Sistemas de Informacin-2003

Jos Alberto Royo

47

Data Warehouse and Data Mining


Jos A. Royo http://www.cps.unizar.es/~jaroyo email: joalroyo@unizar.es Departamento de Informtica e Ingeniera de Sistemas

Por qu DW y DM?
Mayor poder de procesamiento y sofisticacin de herramientas Demanda de mejora del acceso a datos Necesidad de informacin para la toma de decisiones Recopilacin de informacin Alto Coste

Sistemas de Informacin-2003

Jos Alberto Royo

Informacin en las empresas


La Informacin proviene de fuentes internas (sistemas de produccin) y externas (hasta un 20%) Problemas
Saturacin de informacin Difcil de acceder No selectiva

Data Warehouse

La informacin se necesita para:


Competir (comparacin con otros productos) Personalizar (simular que cada cliente es nico)
Sistemas de Informacin-2003 Jos Alberto Royo 3 Sistemas de Informacin-2003 Jos Alberto Royo 4

Data Warehouse
Definicin: coleccin de datos orientados al tema, integrados, no voltiles e historiados, organizados para el apoyo de un proceso de ayuda a la decisin Se guarda toda la informacin til (proveniente de varia fuentes) en un nico lugar
Sistemas de Informacin-2003 Jos Alberto Royo 5

Data Warehouse
Orientacin al tema
Disponer de toda la informacin sobre un tema
No organizar los datos segn los procesos funcionales

La informacin comn a varios temas no debe duplicarse Los Data Mart apoyan la orientacin al tema
BD orientada al tema puesta a disposicin de los usuarios en un contexto de decisin descentralizado
Sistemas de Informacin-2003 Jos Alberto Royo 6

Data Warehouse
Datos integrados:
Los datos deben formatearse y unificarse para llegar a un estado coherente
Ej.: consolidar todas las informaciones respecto a un cliente

Data Warehouse
Datos no voltiles:
Consecuencia de la historilizacin = consulta en = periodo = resultado Sistemas de produccin no voltiles

Datos historiados
Los datos no se actualizan nunca
representan un valor en un momento concreto

Infocentro:
similar al Data Warehouse pero centrado en el sistema de produccin

Los datos se referencian temporalmente


Sistemas de Informacin-2003 Jos Alberto Royo 7 Sistemas de Informacin-2003 Jos Alberto Royo 8

Data Warehouse: Estructura


Varia clases de datos
Datos fuertemente agregados Nivel de sntesis
TR2

Datos
Matrices Multidimensionales o hipercubos
Ej.: periodo impositivo, producto y regin Pivotacin: cambio de orientacin de los ejes
REG5 REG1 REG2 REG3 REG4 REG5 TR2

Nivel de historial

Producto Tr im est re

Datos detallados historiados

Regin
P2

P1

Datos: Representaciones Jerrquicas


Exploracin ascendente (roll-up)
Agrupacin de datos Ej.: Agrupar datos mensuales en trimestrales

Datos: Representacin fsica


2 Tablas
Tabla de dimensiones Tabla de hechos

Exploracin Descendente (drill-down)


Divisin de datos Ej.: Ventas nacionales provinciales

Tipos de esquema
Esquema de estrella:
Tabla de hechos con una nica tabla para cada dimensin

Esquema de copos
Tablas dimensinales organizadas jerrquicamente
Sistemas de Informacin-2003 Jos Alberto Royo 11 Sistemas de Informacin-2003 Jos Alberto Royo 12

P2

Sistemas de Informacin-2003

Jos Alberto Royo

Sistemas de Informacin-2003

Jos Alberto Royo

TR1

REG1

Estructura multidimensional

REG2 REG3

Metadatos

Datos agregados Datos detallados


TR1 P1

REG4

10

Construccin de un Data Warehouse


Adquisicin: Recopilar informacin de varias fuentes y unificarla
Extraccin Preparacin (formateo y limpieza) Carga

DW: Caractersticas
Salvado de datos limpios OLAP
DATOS

Limpieza Bases de Datos

Reformateo

DSS

METADATOS

Almacenamiento: basado en un SGBD


El historial influir en la estructura fsica
Otras entradas de datos Actualizaciones/Nuevos Datos

MINERIA DE DATOS

Acceso: distintos grupos de usuarios requerirn distintas consultas


Sistemas de Informacin-2003 Jos Alberto Royo 13 Sistemas de Informacin-2003

Jos Alberto Royo

14

OLTP y OLAP
OLTP (On-Line Transactionnel Processing): entorno donde las respuestas se darn en un tiempo aceptable y sern consistentes
Transacciones predeterminadas Utiliza pocas tablas

DSS: Decision Support Systems


EIS (Executive Information Systems o sistemas de informacin ejecutiva) Ayuda para la toma de decisiones Dan datos de nivel superior DW preparado para OLAP y DSS

OLAP (On-Line Analytical Processing): entorno de ayuda a la decisin (anlisis de datos)


Transacciones muy variadas Manejan volmenes grandes de datos (+tiempo) Se relacionan datos aparentemente sin relacin
Sistemas de Informacin-2003 Jos Alberto Royo 15

Sistemas de Informacin-2003

Jos Alberto Royo

16

Factores de xito del DW


Integra datos de produccin con datos externos y gestiona historiales Contiene la informacin til Los datos son coherentes, actualizados y documentados (calidad) Ofrece acceso directo a los usuarios Aumenta el nmero de accesos Da una flexibilidad que apoya el crecimiento
De usuarios, herramientas y volumen
Sistemas de Informacin-2003 Jos Alberto Royo 17

Diferencias entre DW y vistas


DW son un almacenamiento permanente
Vistas Construidas cuando es necesario

DW son multidimensionales
Vistas suelen ser relacionales

DW son indexados para optimizar su rendimiento


Vistas son indexadas dependiendo de la BD subyacente

DW dan unas funcionalidades especificas


Las vistas no

DW poseen grandes cantidades de datos integrados y temporales


Vistas son extractos de la BD
Sistemas de Informacin-2003 Jos Alberto Royo 18

Errores a evitar
Cargar datos solamente porque estn disponibles (podran ser no tiles) Crear el esquema de la BD de forma tradicional Crearlo pensando en la tecnologa usada Concentrarse en los datos internos Creer que los problemas acaban una vez instalado el Data Warehouse
Sistemas de Informacin-2003 Jos Alberto Royo 19

Implementacin: Dificultades
Alto coste Urgente ayuda para la toma de decisiones
Data Mart

Gran coste de mantenimiento


Cambio de necesidades Nuevas fuentes de datos Cambio de la capacidad Cambio de tecnologa

Control de calidad de los datos Heterogeneidad e Integracin de datos


Sistemas de Informacin-2003 Jos Alberto Royo 20

Bibliografa
J.M. Franco. EDS-Institut Promthus, El Data Warehouse. El Data Mining, Eyrolles,1997.

Data Mining

Sistemas de Informacin-2003

Jos Alberto Royo

21

Sistemas de Informacin-2003

Jos Alberto Royo

22

Data Mining
Bsqueda de informacin relevante (conocimiento) en grandes volmenes de datos Descubrir de forma automtica las reglas estadsticas y pautas de un conjunto de datos Diferencia con machine learning? Grandes volmenes de datos grabados en disco Objetivo obtener un conjunto de reglas

Data Mining: Visin General


Data Mining y Data Warehouse
Bsqueda automtica de relaciones Extraccin de patrones

Descubrimiento de conocimiento (Fases)



23

Seleccin de datos Limpieza de datos Transformacin/Codificacin de datos Minera de Datos Presentacin visualizacin
Jos Alberto Royo 24

Sistemas de Informacin-2003

Jos Alberto Royo

Sistemas de Informacin-2003

Resultados del Data Mining


Descubrir
Reglas de asociacin Patrones secuenciales rboles de clasificacin

Objetivos del Data Mining


Prediccin
Ej.: que compraran los clientes bajo determinados descuentos

Identificacin
Ej.: secuencia de nucletidos presencia gen

Presentacin de Resultados
Listas Representaciones Grficas Tablas resumen
Sistemas de Informacin-2003 Jos Alberto Royo 25

Clasificacin
Ej.: clientes que buscan descuentos, fieles y ocasionales

Optimizacin
utilizacin de recursos limitados: tiempo, espacio, dinero, etc.
Sistemas de Informacin-2003 Jos Alberto Royo 26

Conocimiento Descubierto
Reglas de asociacin
Ej.: Compra bolso Compra zapatos

Tipos de reglas
X antecedente consecuente
X: lista de una o varias variables con rangos asociados Ej.: transaccin T, compra(T,pan) compra(T,leche)

Jerarquas de clasificacin
Ej.: Clasificacin de los clientes de un banco

Patrones secuenciales
Ej.: Cmara digital Memorias MMC

Patrones de series de tiempo


Ej.: Aumento de ventas de automviles antes del verano

Categorizacin y segmentacin
Ej.: nios, jvenes, adultos y jubilados
Sistemas de Informacin-2003 Jos Alberto Royo 27

Rango de las variables poblacin Soporte: porcentaje de la poblacin que cumple el antecedente o el consecuente Confianza: porcentaje con que el consecuente es cierto al serlo el antecedente
Sistemas de Informacin-2003 Jos Alberto Royo 28

Data Mining Automtico


Descubrimiento automtico de reglas Tcnicas de machine learning , adaptadas para grandes volmenes de datos Tres tipos de problemas:
Clasificacin: reglas que dividan en grupos Asociaciones: X Y Correlaciones entre series
Sistemas de Informacin-2003 Jos Alberto Royo 29

Clasificacin
Comienza con una muestra de datos de clasificacin conocida Los datos se dividen segn uno de sus atributos, sucesivamente
Atributos enumerados un conjunto por valor Atributos con rango numrico intervalos

Resultado: rbol de clasificacin (taxonoma) Hasta usar todos los atributos o clasificar correctamente los datos
Sistemas de Informacin-2003 Jos Alberto Royo 30

Asociaciones
Se genera un mapa de bits para cada transaccin (un bit para cada artculo a estudiar) Nos quedamos con los artculos ms adquiridos Se generan todos los subconjuntos posibles de artculos y se cuenta el nmero de transacciones Los subconjuntos con un numero alto de transacciones generan las reglas

Asociaciones negativas
Ej.: el 60% de los clientes que compran patatas fritas no compran agua mineral Si no combinacin de elementos asociacin negativa
Tenemos muchsimas reglas sin ningn inters

Utilizar conocimiento previo del problema Optimizaciones


Muestreo

Sistemas de Informacin-2003

Jos Alberto Royo

31

Sistemas de Informacin-2003

Jos Alberto Royo

32

Data Mining Guiado por el Usuario


El usuario plantea hiptesis El sistema comprueba si se verifica o no Las hiptesis se pueden ir refinando La visualizacin grfica de datos ayuda al usuario a examinar grandes volmenes de datos

Otras Tcnicas
Regresin
Estadstica Establecimiento de probabilidades

Redes neuronales
Entrenar la red Reconocer los patrones segn el entrenamiento

Algoritmos genticos

33

Algoritmos probabilistas Poblacin inicial Sobreviven los mejores Obtenemos datos en cada iteracin
Jos Alberto Royo 34

Sistemas de Informacin-2003

Jos Alberto Royo

Sistemas de Informacin-2003

Aplicaciones
Marketing
Comportamiento del consumidor basado en patrones de compra

Bibliografa
J.M. Franco. EDS-Institut Promthus, El Data Warehouse. El Data Mining, Eyrolles,1997. R.A. Elmasri, S.B. Navathe, Fundamentos de Sistemas de Bases de Datos, 3 ed., Addison-Wesley,2000.

Finanzas
Anlisis de rendimiento de operaciones Solvencia de clientes Valoracin de opciones de financiacin

Fabricacin
Optimizacin de recursos: maquinaria, mano de obra, materiales Optimizacin del proceso de fabricacin
Sistemas de Informacin-2003 Jos Alberto Royo 35

Sistemas de Informacin-2003

Jos Alberto Royo

36

Sist. de Inf. Geogrfica (GIS) Sistemas de Informacin Geogrfica


Jos Alberto Royo joalroyo@unizar.es Departamento de Informtica e Ingeniera de Sistemas Sistemas que relacionan, almacenan, manipulan y visualizan informacin referenciada geogrficamente Sistemas de informacin que manejan datos espaciales
Algunos datos son referencias espaciales o coordenadas geogrficas Poseen operadores para manejar dichos datos espaciales
Sistemas de Informacin-2003 Jos Alberto Royo 38

GIS: Categoras
1. Aplicaciones Cartogrficas
Variedad de datos: caractersticas del suelo, densidad de cultivo,calidad del aire Representacin basada en campos Superposicin de capas

Informacin espacial
Multidimensional (x,y,z,t,...) Voluminosidad Naturaleza inexacta (no hay representaciones exactas de la Tierra) Las preguntas combinan topologa, geografa y otros atributos, con informacin aproximada Combinan distintos contextos legales y econmicos (varan de un pas a otro)
39 Sistemas de Informacin-2003 Jos Alberto Royo 40

2. Aplicaciones para el modelado digital de terrenos


Variedad de datos Representacin basada en campos Objetos fsicos: centrales elctricas, hospitales, etc. Representacin basada en objetos
Jos Alberto Royo

3. Aplicaciones de Objetos geogrficos


Sistemas de Informacin-2003

Mapas
Estructuracin
Vectores (+verstil, -fcil de crear)
Creados con paneles digitalizadores

GIS: Operaciones sobre los Datos


Interpolacin
Obtencin de datos de elevacin no obtenidos en la muestra

Interpretacin
Cierre de polgonos Definicin, reduccin y mejora de detalles

Rasters (-verstil, +fcil de crear)


Cada celda almacena el tipo de terreno Creados mediante scanning

Anlisis de proximidad
Clculo de zonas de inters

Se puede pasar de un formato a otro (con un cierto error)


Reconocimiento de formas en un raster vectores Pixelizacin de vectores raster
Sistemas de Informacin-2003 Jos Alberto Royo 41

Procesamiento de imgenes en una matriz de puntos


Integrar caractersticas geogrficas en distintas capas Anlisis digital de imgenes
Sistemas de Informacin-2003 Jos Alberto Royo 42

Otras funcionalidades
Extensibilidad
Continua evolucin de los sistemas GIS dnde estoy? Problema debido a la variedad de tipos de datos

Preguntas a los GIS


Qu hay en cierta posicin? Dnde hay cierto elemento? Muestra zonas que cuyos atributos cumplen ciertas condiciones Generacin de nuevos grficos
mapas de elevacin, densidad de poblacin, etc.

Control de calidad de los datos

Visualizacin
1. Contorneado
Isolneas Mtodo de iluminacin empleado para representar relieves Imgenes tridimensionales
Jos Alberto Royo 43

2. Sombreado de montaas 3. Visualizaciones de perspectivas


Sistemas de Informacin-2003

Sistemas de Informacin-2003

Jos Alberto Royo

44

Utilidad de los GIS


Generacin de mapas Seleccin de lugares Creacin de planes de emergencia
Ante terremotos u otras catstrofes

GIS: Trabajo Futuro


Nuevas arquitecturas:
Distribucin de datos Separacin de datos espaciales y no espaciales

Versionado
Ej.: Qu pasa si construimos una autopista?

Simulacin de transformaciones medioambientales


Cambio en paisajes ante tneles, obras, urbanizaciones, etc.
Sistemas de Informacin-2003 Jos Alberto Royo 45

Estndares de Datos
Compartir de datos

Aplicaciones especficas
Tipos de datos distintos

Ausencia de semntica en las estructuras de datos


Vas de sentido nico
Sistemas de Informacin-2003 Jos Alberto Royo 46

Bibliografa
Keith C. Clarke, Getting Started with GIS, Prentice-Hall, 1997, ISBN 0-13-294786-2. http://www.usgs.gov/research/gis/title.html

Sistemas de Informacin-2003

Jos Alberto Royo

47

También podría gustarte