Está en la página 1de 24

Por qu DW y DM?

Data Warehouse and Data


Mining
Jos A. Royo
http://www.cps.unizar.es/~jaroyo
email: joalroyo@unizar.es
Departamento de Informtica e Ingeniera de Sistemas

Mayor poder de procesamiento y


sofisticacin de herramientas
Demanda de mejora del acceso a datos
Necesidad de informacin para la toma de
decisiones
Recopilacin de informacin Alto Coste

Sistemas de Informacin-2003

Jos Alberto Royo

Informacin en las empresas


La Informacin proviene de fuentes internas
(sistemas de produccin) y externas (hasta un
20%)
Problemas

Data Warehouse

Saturacin de informacin
Difcil de acceder
No selectiva

La informacin se necesita para:


Competir (comparacin con otros productos)
Personalizar (simular que cada cliente es nico)
Sistemas de Informacin-2003

Jos Alberto Royo

Sistemas de Informacin-2003

Jos Alberto Royo

Data Warehouse

Data Warehouse

Definicin: coleccin de datos orientados al


tema, integrados, no voltiles e historiados,
organizados para el apoyo de un proceso de
ayuda a la decisin
Se guarda toda la informacin til
(proveniente de varia fuentes) en un nico
lugar

Orientacin al tema

Sistemas de Informacin-2003

Sistemas de Informacin-2003

Jos Alberto Royo

Data Warehouse

Disponer de toda la informacin sobre un tema


No organizar los datos segn los procesos
funcionales

La informacin comn a varios temas no debe


duplicarse
Los Data Mart apoyan la orientacin al tema
BD orientada al tema puesta a disposicin de los
usuarios en un contexto de decisin descentralizado
Jos Alberto Royo

Data Warehouse

Datos integrados:

Datos no voltiles:

Los datos deben formatearse y unificarse para


llegar a un estado coherente

Consecuencia de la historilizacin

Ej.: consolidar todas las informaciones respecto a un


cliente

Datos historiados

= consulta en = periodo = resultado


Sistemas de produccin no voltiles

Infocentro:

Los datos no se actualizan nunca

similar al Data Warehouse pero centrado en el


sistema de produccin

representan un valor en un momento concreto

Los datos se referencian temporalmente


Sistemas de Informacin-2003

Jos Alberto Royo

Sistemas de Informacin-2003

Jos Alberto Royo

Datos

Data Warehouse: Estructura

Matrices Multidimensionales o hipercubos


Varia clases de datos

Ej.: periodo impositivo, producto y regin


Pivotacin: cambio de orientacin de los ejes

Datos fuertemente agregados

Datos detallados historiados

REG5
REG5

P2

Datos: Representaciones
Jerrquicas

Jos Alberto Royo

P2

Sistemas de Informacin-2003

P1

TR2

Jos Alberto Royo

REG4

TR1

Sistemas de Informacin-2003

REG2 REG3

Regin

REG1

Estructura multidimensional

REG1

P1

REG2 REG3

Nivel de historial

TR1

REG4

TR2

Datos detallados

Producto Tr
im
est
re

Metadatos

Nivel de sntesis
Datos agregados

10

Datos: Representacin fsica


2 Tablas

Exploracin ascendente (roll-up)

Tabla de dimensiones
Tabla de hechos

Agrupacin de datos
Ej.: Agrupar datos mensuales en trimestrales

Tipos de esquema

Exploracin Descendente (drill-down)

Esquema de estrella:

Divisin de datos

Tabla de hechos con una nica tabla para cada


dimensin

Ej.: Ventas nacionales provinciales

Esquema de copos
Tablas dimensinales organizadas jerrquicamente
Sistemas de Informacin-2003

Jos Alberto Royo

11

Sistemas de Informacin-2003

Jos Alberto Royo

12

Construccin de un Data
Warehouse

DW: Caractersticas
Salvado de datos limpios

Adquisicin: Recopilar informacin de varias


fuentes y unificarla

OLAP

Extraccin
Preparacin (formateo y limpieza)
Carga

DATOS

Limpieza
Bases de Datos

Reformateo

MINERIA
DE DATOS

Almacenamiento: basado en un SGBD


El historial influir en la estructura fsica

Otras entradas de datos


Actualizaciones/Nuevos Datos

Acceso: distintos grupos de usuarios requerirn


distintas consultas
Sistemas de Informacin-2003

Jos Alberto Royo

13

OLTP y OLAP

Jos Alberto Royo

14

EIS (Executive Information Systems o


sistemas de informacin ejecutiva)
Ayuda para la toma de decisiones
Dan datos de nivel superior

Transacciones predeterminadas
Utiliza pocas tablas

OLAP (On-Line Analytical Processing): entorno


de ayuda a la decisin (anlisis de datos)

DW preparado para OLAP y DSS

Transacciones muy variadas


Manejan volmenes grandes de datos (+tiempo)
Se relacionan datos aparentemente sin relacin
Jos Alberto Royo

Sistemas de Informacin-2003

DSS: Decision Support Systems

OLTP (On-Line Transactionnel Processing):


entorno donde las respuestas se darn en un
tiempo aceptable y sern consistentes

Sistemas de Informacin-2003

DSS

METADATOS

15

Sistemas de Informacin-2003

Jos Alberto Royo

16

Factores de xito del DW

Diferencias entre DW y vistas


DW son un almacenamiento permanente

Integra datos de produccin con datos externos y


gestiona historiales
Contiene la informacin til
Los datos son coherentes, actualizados y
documentados (calidad)
Ofrece acceso directo a los usuarios
Aumenta el nmero de accesos
Da una flexibilidad que apoya el crecimiento

Vistas Construidas cuando es necesario

DW son multidimensionales
Vistas suelen ser relacionales

DW son indexados para optimizar su rendimiento


Vistas son indexadas dependiendo de la BD subyacente

DW dan unas funcionalidades especificas


Las vistas no

DW poseen grandes cantidades de datos


integrados y temporales

De usuarios, herramientas y volumen

Vistas son extractos de la BD


Sistemas de Informacin-2003

Jos Alberto Royo

17

Errores a evitar

Jos Alberto Royo

Jos Alberto Royo

18

Implementacin: Dificultades

Cargar datos solamente porque estn


disponibles (podran ser no tiles)
Crear el esquema de la BD de forma
tradicional
Crearlo pensando en la tecnologa usada
Concentrarse en los datos internos
Creer que los problemas acaban una vez
instalado el Data Warehouse
Sistemas de Informacin-2003

Sistemas de Informacin-2003

Alto coste
Urgente ayuda para la toma de decisiones
Data Mart

Gran coste de mantenimiento

Cambio de necesidades
Nuevas fuentes de datos
Cambio de la capacidad
Cambio de tecnologa

Control de calidad de los datos


Heterogeneidad e Integracin de datos
19

Sistemas de Informacin-2003

Jos Alberto Royo

20

Bibliografa
J.M. Franco. EDS-Institut Promthus, El
Data Warehouse. El Data Mining,
Eyrolles,1997.

Sistemas de Informacin-2003

Jos Alberto Royo

Data Mining

21

Data Mining

Jos Alberto Royo

Jos Alberto Royo

22

Data Mining: Visin General

Bsqueda de informacin relevante


(conocimiento) en grandes volmenes de datos
Descubrir de forma automtica las reglas
estadsticas y pautas de un conjunto de datos
Diferencia con machine learning? Grandes
volmenes de datos grabados en disco
Objetivo obtener un conjunto de reglas

Sistemas de Informacin-2003

Sistemas de Informacin-2003

Data Mining y Data Warehouse


Bsqueda automtica de relaciones
Extraccin de patrones

Descubrimiento de conocimiento (Fases)

23

Seleccin de datos
Limpieza de datos
Transformacin/Codificacin de datos
Minera de Datos
Presentacin visualizacin

Sistemas de Informacin-2003

Jos Alberto Royo

24

Resultados del Data Mining

Objetivos del Data Mining

Descubrir

Prediccin
Ej.: que compraran los clientes bajo determinados
descuentos

Reglas de asociacin
Patrones secuenciales
rboles de clasificacin

Identificacin
Ej.: secuencia de nucletidos presencia gen

Presentacin de Resultados

Clasificacin

Listas
Representaciones Grficas
Tablas resumen

Optimizacin

Sistemas de Informacin-2003

Jos Alberto Royo

Ej.: clientes que buscan descuentos, fieles y ocasionales


utilizacin de recursos limitados: tiempo, espacio,
dinero, etc.
25

Conocimiento Descubierto

Sistemas de Informacin-2003

Jos Alberto Royo

26

Tipos de reglas
X antecedente consecuente

Reglas de asociacin
Ej.: Compra bolso Compra zapatos

X: lista de una o varias variables con rangos asociados


Ej.: transaccin T, compra(T,pan)
compra(T,leche)

Jerarquas de clasificacin
Ej.: Clasificacin de los clientes de un banco

Patrones secuenciales
Ej.: Cmara digital Memorias MMC

Patrones de series de tiempo


Ej.: Aumento de ventas de automviles antes del verano

Categorizacin y segmentacin

Rango de las variables poblacin


Soporte: porcentaje de la poblacin que cumple el
antecedente o el consecuente
Confianza: porcentaje con que el consecuente es
cierto al serlo el antecedente

Ej.: nios, jvenes, adultos y jubilados


Sistemas de Informacin-2003

Jos Alberto Royo

27

Sistemas de Informacin-2003

Jos Alberto Royo

28

Data Mining Automtico

Clasificacin
Comienza con una muestra de datos de
clasificacin conocida
Los datos se dividen segn uno de sus atributos,
sucesivamente

Descubrimiento automtico de reglas


Tcnicas de machine learning, adaptadas
para grandes volmenes de datos
Tres tipos de problemas:

Atributos enumerados un conjunto por valor


Atributos con rango numrico intervalos

Clasificacin: reglas que dividan en grupos

Resultado: rbol de clasificacin (taxonoma)


Hasta usar todos los atributos o clasificar
correctamente los datos

Asociaciones: X Y
Correlaciones entre series
Sistemas de Informacin-2003

Jos Alberto Royo

29

Asociaciones

Sistemas de Informacin-2003

Jos Alberto Royo

30

Asociaciones negativas
Ej.: el 60% de los clientes que compran
patatas fritas no compran agua mineral
Si no combinacin de elementos
asociacin negativa

Se genera un mapa de bits para cada transaccin


(un bit para cada artculo a estudiar)
Nos quedamos con los artculos ms adquiridos
Se generan todos los subconjuntos posibles de
artculos y se cuenta el nmero de transacciones
Los subconjuntos con un numero alto de
transacciones generan las reglas

Tenemos muchsimas reglas sin ningn inters

Utilizar conocimiento previo del problema


Optimizaciones
Muestreo

Sistemas de Informacin-2003

Jos Alberto Royo

31

Sistemas de Informacin-2003

Jos Alberto Royo

32

Data Mining Guiado por el


Usuario

Otras Tcnicas
Regresin

El usuario plantea hiptesis


El sistema comprueba si se verifica o no
Las hiptesis se pueden ir refinando
La visualizacin grfica de datos ayuda al
usuario a examinar grandes volmenes de
datos

Sistemas de Informacin-2003

Jos Alberto Royo

Estadstica
Establecimiento de probabilidades

Redes neuronales
Entrenar la red
Reconocer los patrones segn el entrenamiento

Algoritmos genticos

33

Algoritmos probabilistas
Poblacin inicial
Sobreviven los mejores
Obtenemos datos en cada iteracin

Sistemas de Informacin-2003

Aplicaciones

Jos Alberto Royo

34

Bibliografa

Marketing
Comportamiento del consumidor basado en patrones de
compra

Finanzas
Anlisis de rendimiento de operaciones
Solvencia de clientes
Valoracin de opciones de financiacin

Fabricacin

J.M. Franco. EDS-Institut Promthus, El


Data Warehouse. El Data Mining,
Eyrolles,1997.
R.A. Elmasri, S.B. Navathe, Fundamentos
de Sistemas de Bases de Datos, 3 ed.,
Addison-Wesley,2000.

Optimizacin de recursos: maquinaria, mano de obra,


materiales
Optimizacin del proceso de fabricacin
Sistemas de Informacin-2003

Jos Alberto Royo

35

Sistemas de Informacin-2003

Jos Alberto Royo

36

Sist. de Inf. Geogrfica (GIS)


Sistemas que relacionan, almacenan,
manipulan y visualizan informacin
referenciada geogrficamente
Sistemas de informacin que manejan datos
espaciales

Sistemas de Informacin
Geogrfica
Jos Alberto Royo
joalroyo@unizar.es
Departamento de Informtica e Ingeniera de Sistemas

Algunos datos son referencias espaciales o


coordenadas geogrficas
Poseen operadores para manejar dichos datos
espaciales
Sistemas de Informacin-2003

GIS: Categoras

Multidimensional (x,y,z,t,...)
Voluminosidad
Naturaleza inexacta (no hay representaciones
exactas de la Tierra)
Las preguntas combinan topologa, geografa y
otros atributos, con informacin aproximada
Combinan distintos contextos legales y
econmicos (varan de un pas a otro)

Variedad de datos: caractersticas del suelo, densidad de


cultivo,calidad del aire
Representacin basada en campos
Superposicin de capas

2. Aplicaciones para el modelado digital de


terrenos

Variedad de datos
Representacin basada en campos

3. Aplicaciones de Objetos geogrficos

38

Informacin espacial

1. Aplicaciones Cartogrficas

Jos Alberto Royo

Objetos fsicos: centrales elctricas, hospitales, etc.


Representacin basada en objetos

Sistemas de Informacin-2003

Jos Alberto Royo

39

Sistemas de Informacin-2003

Jos Alberto Royo

40

10

Mapas

GIS: Operaciones sobre los Datos


Interpolacin
Obtencin de datos de elevacin no obtenidos en la
muestra

Estructuracin
Vectores (+verstil, -fcil de crear)

Interpretacin

Creados con paneles digitalizadores

Cierre de polgonos
Definicin, reduccin y mejora de detalles

Rasters (-verstil, +fcil de crear)


Cada celda almacena el tipo de terreno
Creados mediante scanning

Anlisis de proximidad
Clculo de zonas de inters

Se puede pasar de un formato a otro (con un cierto


error)

Procesamiento de imgenes en una matriz de


puntos

Reconocimiento de formas en un raster vectores


Pixelizacin de vectores raster
Sistemas de Informacin-2003

Jos Alberto Royo

Integrar caractersticas geogrficas en distintas capas


Anlisis digital de imgenes
41

Otras funcionalidades

42

Preguntas a los GIS

Continua evolucin de los sistemas GIS

Qu hay en cierta posicin?


Dnde hay cierto elemento?
Muestra zonas que cuyos atributos cumplen
ciertas condiciones
Generacin de nuevos grficos

Control de calidad de los datos

Jos Alberto Royo

Extensibilidad

Sistemas de Informacin-2003

dnde estoy?
Problema debido a la variedad de tipos de datos

Visualizacin
1. Contorneado

Isolneas

mapas de elevacin, densidad de poblacin, etc.

2. Sombreado de montaas

Mtodo de iluminacin empleado para representar relieves

3. Visualizaciones de perspectivas

Imgenes tridimensionales

Sistemas de Informacin-2003

Jos Alberto Royo

43

Sistemas de Informacin-2003

Jos Alberto Royo

44

11

Utilidad de los GIS

GIS: Trabajo Futuro


Nuevas arquitecturas:

Generacin de mapas
Seleccin de lugares
Creacin de planes de emergencia

Distribucin de datos
Separacin de datos espaciales y no espaciales

Versionado
Ej.: Qu pasa si construimos una autopista?

Ante terremotos u otras catstrofes

Estndares de Datos

Simulacin de transformaciones
medioambientales

Compartir de datos

Aplicaciones especficas

Cambio en paisajes ante tneles, obras,


urbanizaciones, etc.

Tipos de datos distintos

Ausencia de semntica en las estructuras de datos


Vas de sentido nico

Sistemas de Informacin-2003

Jos Alberto Royo

45

Sistemas de Informacin-2003

Jos Alberto Royo

46

Bibliografa
Keith C. Clarke, Getting Started with
GIS, Prentice-Hall, 1997, ISBN 0-13-294786-2.
http://www.usgs.gov/research/gis/title.html

Sistemas de Informacin-2003

Jos Alberto Royo

47

12

Por qu DW y DM?

Data Warehouse and Data


Mining
Jos A. Royo
http://www.cps.unizar.es/~jaroyo
email: joalroyo@unizar.es
Departamento de Informtica e Ingeniera de Sistemas

Mayor poder de procesamiento y


sofisticacin de herramientas
Demanda de mejora del acceso a datos
Necesidad de informacin para la toma de
decisiones
Recopilacin de informacin Alto Coste

Sistemas de Informacin-2003

Jos Alberto Royo

Informacin en las empresas


La Informacin proviene de fuentes internas
(sistemas de produccin) y externas (hasta un
20%)
Problemas

Data Warehouse

Saturacin de informacin
Difcil de acceder
No selectiva

La informacin se necesita para:


Competir (comparacin con otros productos)
Personalizar (simular que cada cliente es nico)
Sistemas de Informacin-2003

Jos Alberto Royo

Sistemas de Informacin-2003

Jos Alberto Royo

Data Warehouse

Data Warehouse

Definicin: coleccin de datos orientados al


tema, integrados, no voltiles e historiados,
organizados para el apoyo de un proceso de
ayuda a la decisin
Se guarda toda la informacin til
(proveniente de varia fuentes) en un nico
lugar

Orientacin al tema

Sistemas de Informacin-2003

Sistemas de Informacin-2003

Jos Alberto Royo

Data Warehouse

Disponer de toda la informacin sobre un tema


No organizar los datos segn los procesos
funcionales

La informacin comn a varios temas no debe


duplicarse
Los Data Mart apoyan la orientacin al tema
BD orientada al tema puesta a disposicin de los
usuarios en un contexto de decisin descentralizado
Jos Alberto Royo

Data Warehouse

Datos integrados:

Datos no voltiles:

Los datos deben formatearse y unificarse para


llegar a un estado coherente

Consecuencia de la historilizacin

Ej.: consolidar todas las informaciones respecto a un


cliente

Datos historiados

= consulta en = periodo = resultado


Sistemas de produccin no voltiles

Infocentro:

Los datos no se actualizan nunca

similar al Data Warehouse pero centrado en el


sistema de produccin

representan un valor en un momento concreto

Los datos se referencian temporalmente


Sistemas de Informacin-2003

Jos Alberto Royo

Sistemas de Informacin-2003

Jos Alberto Royo

Datos

Data Warehouse: Estructura

Matrices Multidimensionales o hipercubos


Varia clases de datos

Ej.: periodo impositivo, producto y regin


Pivotacin: cambio de orientacin de los ejes

Datos fuertemente agregados

Datos detallados historiados

REG5
REG5

P2

Datos: Representaciones
Jerrquicas

Jos Alberto Royo

P2

Sistemas de Informacin-2003

P1

TR2

Jos Alberto Royo

REG4

TR1

Sistemas de Informacin-2003

REG2 REG3

Regin

REG1

Estructura multidimensional

REG1

P1

REG2 REG3

Nivel de historial

TR1

REG4

TR2

Datos detallados

Producto Tr
im
est
re

Metadatos

Nivel de sntesis
Datos agregados

10

Datos: Representacin fsica


2 Tablas

Exploracin ascendente (roll-up)

Tabla de dimensiones
Tabla de hechos

Agrupacin de datos
Ej.: Agrupar datos mensuales en trimestrales

Tipos de esquema

Exploracin Descendente (drill-down)

Esquema de estrella:

Divisin de datos

Tabla de hechos con una nica tabla para cada


dimensin

Ej.: Ventas nacionales provinciales

Esquema de copos
Tablas dimensinales organizadas jerrquicamente
Sistemas de Informacin-2003

Jos Alberto Royo

11

Sistemas de Informacin-2003

Jos Alberto Royo

12

Construccin de un Data
Warehouse

DW: Caractersticas
Salvado de datos limpios

Adquisicin: Recopilar informacin de varias


fuentes y unificarla

OLAP

Extraccin
Preparacin (formateo y limpieza)
Carga

DATOS

Limpieza
Bases de Datos

Reformateo

MINERIA
DE DATOS

Almacenamiento: basado en un SGBD


El historial influir en la estructura fsica

Otras entradas de datos


Actualizaciones/Nuevos Datos

Acceso: distintos grupos de usuarios requerirn


distintas consultas
Sistemas de Informacin-2003

Jos Alberto Royo

13

OLTP y OLAP

Jos Alberto Royo

14

EIS (Executive Information Systems o


sistemas de informacin ejecutiva)
Ayuda para la toma de decisiones
Dan datos de nivel superior

Transacciones predeterminadas
Utiliza pocas tablas

OLAP (On-Line Analytical Processing): entorno


de ayuda a la decisin (anlisis de datos)

DW preparado para OLAP y DSS

Transacciones muy variadas


Manejan volmenes grandes de datos (+tiempo)
Se relacionan datos aparentemente sin relacin
Jos Alberto Royo

Sistemas de Informacin-2003

DSS: Decision Support Systems

OLTP (On-Line Transactionnel Processing):


entorno donde las respuestas se darn en un
tiempo aceptable y sern consistentes

Sistemas de Informacin-2003

DSS

METADATOS

15

Sistemas de Informacin-2003

Jos Alberto Royo

16

Factores de xito del DW

Diferencias entre DW y vistas


DW son un almacenamiento permanente

Integra datos de produccin con datos externos y


gestiona historiales
Contiene la informacin til
Los datos son coherentes, actualizados y
documentados (calidad)
Ofrece acceso directo a los usuarios
Aumenta el nmero de accesos
Da una flexibilidad que apoya el crecimiento

Vistas Construidas cuando es necesario

DW son multidimensionales
Vistas suelen ser relacionales

DW son indexados para optimizar su rendimiento


Vistas son indexadas dependiendo de la BD subyacente

DW dan unas funcionalidades especificas


Las vistas no

DW poseen grandes cantidades de datos


integrados y temporales

De usuarios, herramientas y volumen

Vistas son extractos de la BD


Sistemas de Informacin-2003

Jos Alberto Royo

17

Errores a evitar

Jos Alberto Royo

Jos Alberto Royo

18

Implementacin: Dificultades

Cargar datos solamente porque estn


disponibles (podran ser no tiles)
Crear el esquema de la BD de forma
tradicional
Crearlo pensando en la tecnologa usada
Concentrarse en los datos internos
Creer que los problemas acaban una vez
instalado el Data Warehouse
Sistemas de Informacin-2003

Sistemas de Informacin-2003

Alto coste
Urgente ayuda para la toma de decisiones
Data Mart

Gran coste de mantenimiento

Cambio de necesidades
Nuevas fuentes de datos
Cambio de la capacidad
Cambio de tecnologa

Control de calidad de los datos


Heterogeneidad e Integracin de datos
19

Sistemas de Informacin-2003

Jos Alberto Royo

20

Bibliografa
J.M. Franco. EDS-Institut Promthus, El
Data Warehouse. El Data Mining,
Eyrolles,1997.

Sistemas de Informacin-2003

Jos Alberto Royo

Data Mining

21

Data Mining

Jos Alberto Royo

Jos Alberto Royo

22

Data Mining: Visin General

Bsqueda de informacin relevante


(conocimiento) en grandes volmenes de datos
Descubrir de forma automtica las reglas
estadsticas y pautas de un conjunto de datos
Diferencia con machine learning? Grandes
volmenes de datos grabados en disco
Objetivo obtener un conjunto de reglas

Sistemas de Informacin-2003

Sistemas de Informacin-2003

Data Mining y Data Warehouse


Bsqueda automtica de relaciones
Extraccin de patrones

Descubrimiento de conocimiento (Fases)

23

Seleccin de datos
Limpieza de datos
Transformacin/Codificacin de datos
Minera de Datos
Presentacin visualizacin

Sistemas de Informacin-2003

Jos Alberto Royo

24

Resultados del Data Mining

Objetivos del Data Mining

Descubrir

Prediccin
Ej.: que compraran los clientes bajo determinados
descuentos

Reglas de asociacin
Patrones secuenciales
rboles de clasificacin

Identificacin
Ej.: secuencia de nucletidos presencia gen

Presentacin de Resultados

Clasificacin

Listas
Representaciones Grficas
Tablas resumen

Optimizacin

Sistemas de Informacin-2003

Jos Alberto Royo

Ej.: clientes que buscan descuentos, fieles y ocasionales


utilizacin de recursos limitados: tiempo, espacio,
dinero, etc.
25

Conocimiento Descubierto

Sistemas de Informacin-2003

Jos Alberto Royo

26

Tipos de reglas
X antecedente consecuente

Reglas de asociacin
Ej.: Compra bolso Compra zapatos

X: lista de una o varias variables con rangos asociados


Ej.: transaccin T, compra(T,pan)
compra(T,leche)

Jerarquas de clasificacin
Ej.: Clasificacin de los clientes de un banco

Patrones secuenciales
Ej.: Cmara digital Memorias MMC

Patrones de series de tiempo


Ej.: Aumento de ventas de automviles antes del verano

Categorizacin y segmentacin

Rango de las variables poblacin


Soporte: porcentaje de la poblacin que cumple el
antecedente o el consecuente
Confianza: porcentaje con que el consecuente es
cierto al serlo el antecedente

Ej.: nios, jvenes, adultos y jubilados


Sistemas de Informacin-2003

Jos Alberto Royo

27

Sistemas de Informacin-2003

Jos Alberto Royo

28

Data Mining Automtico

Clasificacin
Comienza con una muestra de datos de
clasificacin conocida
Los datos se dividen segn uno de sus atributos,
sucesivamente

Descubrimiento automtico de reglas


Tcnicas de machine learning, adaptadas
para grandes volmenes de datos
Tres tipos de problemas:

Atributos enumerados un conjunto por valor


Atributos con rango numrico intervalos

Clasificacin: reglas que dividan en grupos

Resultado: rbol de clasificacin (taxonoma)


Hasta usar todos los atributos o clasificar
correctamente los datos

Asociaciones: X Y
Correlaciones entre series
Sistemas de Informacin-2003

Jos Alberto Royo

29

Asociaciones

Sistemas de Informacin-2003

Jos Alberto Royo

30

Asociaciones negativas
Ej.: el 60% de los clientes que compran
patatas fritas no compran agua mineral
Si no combinacin de elementos
asociacin negativa

Se genera un mapa de bits para cada transaccin


(un bit para cada artculo a estudiar)
Nos quedamos con los artculos ms adquiridos
Se generan todos los subconjuntos posibles de
artculos y se cuenta el nmero de transacciones
Los subconjuntos con un numero alto de
transacciones generan las reglas

Tenemos muchsimas reglas sin ningn inters

Utilizar conocimiento previo del problema


Optimizaciones
Muestreo

Sistemas de Informacin-2003

Jos Alberto Royo

31

Sistemas de Informacin-2003

Jos Alberto Royo

32

Data Mining Guiado por el


Usuario

Otras Tcnicas
Regresin

El usuario plantea hiptesis


El sistema comprueba si se verifica o no
Las hiptesis se pueden ir refinando
La visualizacin grfica de datos ayuda al
usuario a examinar grandes volmenes de
datos

Sistemas de Informacin-2003

Jos Alberto Royo

Estadstica
Establecimiento de probabilidades

Redes neuronales
Entrenar la red
Reconocer los patrones segn el entrenamiento

Algoritmos genticos

33

Algoritmos probabilistas
Poblacin inicial
Sobreviven los mejores
Obtenemos datos en cada iteracin

Sistemas de Informacin-2003

Aplicaciones

Jos Alberto Royo

34

Bibliografa

Marketing
Comportamiento del consumidor basado en patrones de
compra

Finanzas
Anlisis de rendimiento de operaciones
Solvencia de clientes
Valoracin de opciones de financiacin

Fabricacin

J.M. Franco. EDS-Institut Promthus, El


Data Warehouse. El Data Mining,
Eyrolles,1997.
R.A. Elmasri, S.B. Navathe, Fundamentos
de Sistemas de Bases de Datos, 3 ed.,
Addison-Wesley,2000.

Optimizacin de recursos: maquinaria, mano de obra,


materiales
Optimizacin del proceso de fabricacin
Sistemas de Informacin-2003

Jos Alberto Royo

35

Sistemas de Informacin-2003

Jos Alberto Royo

36

Sist. de Inf. Geogrfica (GIS)


Sistemas que relacionan, almacenan,
manipulan y visualizan informacin
referenciada geogrficamente
Sistemas de informacin que manejan datos
espaciales

Sistemas de Informacin
Geogrfica
Jos Alberto Royo
joalroyo@unizar.es
Departamento de Informtica e Ingeniera de Sistemas

Algunos datos son referencias espaciales o


coordenadas geogrficas
Poseen operadores para manejar dichos datos
espaciales
Sistemas de Informacin-2003

GIS: Categoras

Multidimensional (x,y,z,t,...)
Voluminosidad
Naturaleza inexacta (no hay representaciones
exactas de la Tierra)
Las preguntas combinan topologa, geografa y
otros atributos, con informacin aproximada
Combinan distintos contextos legales y
econmicos (varan de un pas a otro)

Variedad de datos: caractersticas del suelo, densidad de


cultivo,calidad del aire
Representacin basada en campos
Superposicin de capas

2. Aplicaciones para el modelado digital de


terrenos

Variedad de datos
Representacin basada en campos

3. Aplicaciones de Objetos geogrficos

38

Informacin espacial

1. Aplicaciones Cartogrficas

Jos Alberto Royo

Objetos fsicos: centrales elctricas, hospitales, etc.


Representacin basada en objetos

Sistemas de Informacin-2003

Jos Alberto Royo

39

Sistemas de Informacin-2003

Jos Alberto Royo

40

10

Mapas

GIS: Operaciones sobre los Datos


Interpolacin
Obtencin de datos de elevacin no obtenidos en la
muestra

Estructuracin
Vectores (+verstil, -fcil de crear)

Interpretacin

Creados con paneles digitalizadores

Cierre de polgonos
Definicin, reduccin y mejora de detalles

Rasters (-verstil, +fcil de crear)


Cada celda almacena el tipo de terreno
Creados mediante scanning

Anlisis de proximidad
Clculo de zonas de inters

Se puede pasar de un formato a otro (con un cierto


error)

Procesamiento de imgenes en una matriz de


puntos

Reconocimiento de formas en un raster vectores


Pixelizacin de vectores raster
Sistemas de Informacin-2003

Jos Alberto Royo

Integrar caractersticas geogrficas en distintas capas


Anlisis digital de imgenes
41

Otras funcionalidades

42

Preguntas a los GIS

Continua evolucin de los sistemas GIS

Qu hay en cierta posicin?


Dnde hay cierto elemento?
Muestra zonas que cuyos atributos cumplen
ciertas condiciones
Generacin de nuevos grficos

Control de calidad de los datos

Jos Alberto Royo

Extensibilidad

Sistemas de Informacin-2003

dnde estoy?
Problema debido a la variedad de tipos de datos

Visualizacin
1. Contorneado

Isolneas

mapas de elevacin, densidad de poblacin, etc.

2. Sombreado de montaas

Mtodo de iluminacin empleado para representar relieves

3. Visualizaciones de perspectivas

Imgenes tridimensionales

Sistemas de Informacin-2003

Jos Alberto Royo

43

Sistemas de Informacin-2003

Jos Alberto Royo

44

11

Utilidad de los GIS

GIS: Trabajo Futuro


Nuevas arquitecturas:

Generacin de mapas
Seleccin de lugares
Creacin de planes de emergencia

Distribucin de datos
Separacin de datos espaciales y no espaciales

Versionado
Ej.: Qu pasa si construimos una autopista?

Ante terremotos u otras catstrofes

Estndares de Datos

Simulacin de transformaciones
medioambientales

Compartir de datos

Aplicaciones especficas

Cambio en paisajes ante tneles, obras,


urbanizaciones, etc.

Tipos de datos distintos

Ausencia de semntica en las estructuras de datos


Vas de sentido nico

Sistemas de Informacin-2003

Jos Alberto Royo

45

Sistemas de Informacin-2003

Jos Alberto Royo

46

Bibliografa
Keith C. Clarke, Getting Started with
GIS, Prentice-Hall, 1997, ISBN 0-13-294786-2.
http://www.usgs.gov/research/gis/title.html

Sistemas de Informacin-2003

Jos Alberto Royo

47

12

También podría gustarte