Está en la página 1de 64

Extraccin de Conocimiento en

Grandes Bases de Datos


http://www.meteo.unican.es

http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Data Mining.

Jos M. Gutirrez
Dpto. de Matemtica Aplicada,
Universidad de Cantabria, Santander
http://personales.unican.es/gutierjm

Hoy da, se entiende por minera de datos aquella disciplina que estudia la extraccin
automtica de informacin sintetizada, relevante y con capacidad predictiva a partir de grandes
bases de datos. Bajo este nombre se han agrupado recientemente diversas tcnicas clsicas y
modernas enfocadas a la visualizacin, anlisis, y modelizacin de procesos a partir de grandes
cantidades de datos (data warehouse de entidades financieras, comercio electrnico, empresas de
marketing, industria, etc.). En este curso se pretende introducir al alumno en los conocimientos
tericos y prcticos involucrados en la minera de datos, utilizando diversos supuestos
prcticos reales para ilustrar los distintos conceptos expuestos. Se trata de mostrar una
panormica actual de las tcnicas involucradas y de introducir las herramientas informticas
necesarias para su aplicacin prctica.
1. Introduccin a la Minera de Datos:
http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Objetivos y Contenidos

3. Extraccin de informacin y modelizacin:

- Breve introduccin histrica.


- Bsqueda de variables relevantes.
- Exploracin de bases de datos masivas.
- Correlacin e informacin mutua.
- Data mining y data warehousing.
- Modelos lineales y no lineales.
- Data mining y aprendizaje automtico.
- Regresin.
- Etapas: visualizacin, extraccin de informacin, modelizacin. - Arboles de decisin.
con preguntas
+ mltiple
choice.
-Exmen
Enfoque estadstico
de la minera degenricas
datos.
- Redes
probabilsticas. Modelos grficos de dependencia.
- Tcnicas basadas en redes neuronales.
- Redes neuronales multicapa.
- Aplicaciones de la minera de datos.
- Aprendizaje en redes probabilsticas y neuronales.
definiras
la minera
de datos en trminos
simples
(a travs de un ejemplo)?
-cmo
Tendencias
actuales y aplicaciones
comerciales.
- Algoritmos
genticos.
- Aplicaciones prcticas a bases de datos relacionales.

Evaluacin:

2.
Visualizacin
qu
tcnicas de
sedatos:
aplican en la mineria de datos?
- Tcnicas grficas estadsticas.
4. Una aplicacin real.
- Anlisis de componentes principales.
- Tcnicas de agrupamiento (clustering).
- Redes neuronales autoorganizativas.
- Aplicaciones prcticas a bases de datos relacionales.

- Descripcin del problema.


- Descripcin de la base de datos.
- Data mining con Java: Algoritmos y resultados.
- Anlisis del sofware disponible.

El Mundo de la Informacin y sus Problemas.


Cada vez se genera ms informacin y se hace ms fcil el acceso
masivo a la misma (existen gran cantidad de bases de datos on-line)
Transacciones bancarias, Internet y la Web, observaciones cientficas
(biologa, altas energas, etc. ) "tranNASAs EOS (Earth Observation System)".

La tecnologa es barata y los sistemas de gestin de bases de datos


son capaces de trabjar con cantidades masivas de datos (Terabytes).

Los datos contienen informacin til "CONOCIMIENTO" !!!


http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Necesitamos extraer informacin (conocimiento) de estos datos:


Rapidez y confiabilidad.
Capacidad de modelizacin y escalabilidad.
Explicacin e Interpretacin de los resultados (visualizacin, ).

WalMart captura transacciones de 2900 tiendas en 6 pases. Esta informacin e acumula en


una base de datos masiva de 7.5 terabyte. WalMart permite que ms de 3500 proveedores
accedan a los datos relativos a sus productos para realizar distintos anlisis. As pueden
identificar clientes, patrones de compras, etc. En 1995, WalMart computers proces ms de
un milln de consultas complejas.

Datos, Informacin y Conocimiento.


Informalmente se utilizan indistintamente, con pequeos matices.
informacin y datos se pueden referir a cualquier cosa, aunque
Datos suele referir a la evidencia.
Conocimiento es subjetivo:
depende de las intenciones (objetivo del aprendizaje).
debe ser inteligible para el que aprende o el que encarga el aprendizaje (usuario).
http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Qu diferencias hay entre informacin, datos y conocimiento?

Qu es aprendizaje?
(visin genrica, Mitchell 1997) es mejorar el comportamiento a partir de la
experiencia. Aprendizaje = Inteligencia.
(visin ms esttica) es la identificacin de patrones , de regularidades,
existentes en la evidencia.
(visin externa) es la prediccin de observaciones futuras con plausibilidad.
(visin terico- informacional, Solomonoff 1966) es
eliminacin de redundancia = compresin de informacin .

La necesidad de almacenar informacin ha motivado histricamente el desarrollo de


sistemas ms eficientes, con mayor capacidad y ms baratos de almacenamiento.

http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Acceso a los Datos. Evolucin histrica.

Bases de datos relacionales.

DBMS (Data Base Management Systems) y repositorios de informacin:


Bases de datos orientadas a objetos y objeto-relacionales.
Bases de datos espaciales (geogrficas).
Bases de datos de texto y multimedia.
WWW.

Sobre estas mismas bases de datos de trabajo ya se puede extraer conocimiento


(visin tradicional).
Se mantiene el trabajo transaccional diario de los sistemas de informacin
originales (conocido como OLTP, On- Line Transactional Processing ).
Se hace anlisis de los datos en tiempo real sobre la misma base de
datos( conocido como OLAP, On- Line Analytical Processing ),
Segn la organizacin de la informacin copiada se distingue:
ROLAP (Relational OLAP): el almacn de datos es relacional.
http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

OLAP (On-Line Analytical Processing)

MOLAP (Multidim OLAP): el almacn de datos es una matriz multidimensional.


Cada atributo relevante se establece en una dimensin, que se puede agregar o desagregar.

PROBLEMAS:
http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Data Warehouses. Gnesis.

Disturba el trabajo transaccional diario de los sistemas de informacin originales (


killer queries ). Se debe hacer por la noche o en fines de semana.
La base de datos est diseada para el trabajo transaccional, no para el anlisis
de los datos. Generalmente no puede ser en tiempo real (era AP pero no OLAP).
Para poder operar eficientemente con esos datos y debido a que los
costes de almacenamiento masivo y conectividad se han reducido
drsticamente en los ltimos aos, parece razonable recoger (copiar) los
datos en un sistema unificado.

DATA-WAREHOUSES (Almacenes de Datos): Se separan de los datos a


analizar con respecto a sus fuentes transaccionales (se copia/ almacena toda
la informacin histrica).
Existe toda una tecnologa creciente de cmo organizarlos y sobretodo de cmo
tenerlos actualizados (cargas peridicas) respecto a los datos originales

VENTAJAS:

Facilita el anlisis de los datos en tiempo real (OLAP),


http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Data Warehouses

No disturba el OLTP de las bases de datos originales.


A partir de ahora
diferenciaremos
entre bases de
datos para OLTP
(tradicional) y
almacenes de datos
(KDD sobre data
warehouses).

Data
Warehouse
Data Cleaning

Limpieza y criba seleccin de datos:


Se deben elmininar el mayor nmero posible de
datos errneos o inconsistentes (limpieza) e
irrelevantes (criba).

Se aplican mtodos estadsticos:


-Histogramas (deteccin de datos anmalos).
- Redefinicin de atributos (agrupacin o separacin).

Databases
http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Construccin de un Data Warehouse

Muy relacionado con la disciplina de Calidad de Datos.

Acciones ante datos anmalos (outliers):


- Ignorar: algunos algoritmos son robustos a datos anmalos.
- Filtrar (eliminar o reemplazar) la columna: solucin extrema.
- Discretizar: transformar un valor continuo en uno discreto (p. ej. muy alto, alto, etc.) hace
que los outliers caigan en muy alto o muy bajo sin mayores problemas.

Acciones ante datos faltantes (missing values):


- Ignorar: algunos algoritmos son robustos a datos faltantes.
- Filtrar (eliminar o reemplazar) la columna
- Reemplazar el valor: por medias. A veces se puede predecir a partir de otros datos,
utilizando cualquier tcnica de ML.

the non trivial extraction of implicit,


previously unknown, and potentially
useful information from data
Piatetsky-Shapiro

CONOCIMIENTO
Pattern
Evaluation

W. Frawley and G.
and C. Matheus,
Knowledge Discovery in Databases: An Overview.
AI Magazine, Fall 1992, 213-228.

Data Mining

http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Qu es Data Mining (minera de datos)?

Task-relevant
Data
Data
Warehouse

Selection

Data Cleaning
Data Integration

Databases

Datos imprecisos e
incompletos
almacenados en
mltiples fuentes
Heterogneos y
mezclados.

En los sistemas estndar de gestin de bases de datos las


consultas se resuelven accediendo a distintos conjuntos de
datos almacenados:
Ventas del ltimo mes de un producto.
Ventas agrupadas por la edad del comprador.

http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Diferencias entre DBMS y Data Mining

Los sistemas de data mining infieren conocimiento de la base


de datos en forma de estructuras y patrones. Este
conocimiento supone un nuevo conjunto de informacin en
base a la cual se responden las consultas:
por qu es tan rentable la divisin Iberoamericana de Telefnica?
qu clientes son potenciales compradores de un producto?
cul ser el beneficio de la compaa el mes prximo?

Acceso a Datos vs. Acceso a Conocimiento


http://www.datamining.com

El usuario solicita datos y procesa los datos


recibidos en busca de "conocmiento".

SQL + algoritmos de data mining.


Paradigma de Acceso a Conocimiento:
El sistema genera automticamente patrones de
conocimiento refinados y el usuario accede
directamente a los mismos.
http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Paradigma de Acceso a Datos:

PQL = Pattern Query Languaje


PQL was designed to access patterns just as SQL was
designed to access data. PQL resembles SQL, works atop
existing SQL engines.
Information Discovery uses a Pattern WarehouseTM of refined
information and PQL works on patterns just as SQL works on a
datawarehouse. While SQL relies on the relational algebra,
PQL uses the "pattern algebra". PQL allows pattern-based
queries just as SQL allows data-based queries. And, PQL uses
SQL as part of its operation, i.e. PQL queries are
decomposed into a set of related SQL queries, the Pattern
Warehouse is accessed with these queries and the results are
re-combined for display to the user. The user accesses these
patterns using a web browser.

Jiawei Han
Intelligent Database System Research Lab
http://www.cs.sfu.ca/~han

Increasing potential
to support
business decisions

Making
Decisions
Data Presentation

http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Data Mining and Business Intelligence

Visualization Techniques
Data Mining
Information Discovery

End User

Business
Analyst
Data
Analyst

Data Exploration
Statistical Analysis, Querying and Reporting
Data Warehouses / Data Marts
OLAP, MDA
Data Sources
Paper, Files, Information Providers, Database Systems, OLTP

DBA

variety of techniques to identify nuggets of information or decision-making


knowledge in bodies of data, and extracting these in such a way that they can be
put to use in the areas such as decision support, prediction, forecasting and
estimation. The data is often voluminous, but as it stands of low value as no direct
use can be made of it; it is the hidden information in the data that is useful.
Areas Involucradas

Componentes Principales:
compresin de la informacin.

Componentes Independientes:
extraccin de caractersticas.
http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Multidisciplinar. Areas y Tcnicas Involucrada

Modelado de Dependencias:
hallar asociaciones entre variables.
redes Bayesianas

Agrupacin:
hallar grupos de elementos.

Clasificacin:
asignar elementos a clases.

Prediccin:
estimacin de valores.

Visualizacin:
representacin grfica.
Redes Neuronales

Estadstica y Ciencias de la Computacin

http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Estadstica
1970: EDA, estimacin Bayesiana, modelos flexibles, EM, etc
Conciencia sobre el papel de la computacin en el anlisis de datos.
Reconocimiento de Patrones e Inteligencia Artificial
Atencin dirigiga a problemas de percepcin (e.g., habla, visin)
1960: divisin en tcnicas estadsticas y no estadsticas (gramticas, etc.)
Convergencia de estadstica aplicada e ingeniera (anlisis imgenes, Geman)
Aprendizaje Automtico y Redes Neuronales
1980: fracaso de las tncias de aprendizaje no estadsticas
Aparicin de modelos flexibles (rboles, redes)
Convergencia de estadstica aplicada y aprendizaje
e.g., trabajos de Friedman, Spiegelhalter, Jordan, Hinton
IA / Apredizaje Automtico

Bases de Datos

Extraccin automtica de conocimiento

Bases de datos masivas

1989 KDD workshop

Reglas de asociacin

ACM SIGKDD 2000

Algoritmos escalables

MINERIA DE DATOS

Focus Areas
Computer Science
Statistics

Statistical
Inference
http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Padhraic Smyth. Information and Computer Science


University of California, Irvine

Statistical
Pattern
Recognition

Computer Vision,
Signal Recognition

Neural
Networks

Nonlinear
Regression

Graphical
Models

Machine
Learning

Flexible
Classification
Models

Hidden
Variable
Models

Data
Mining

Databases

Pattern
Finding
Scalable
Algorithms

Nuevos
Paradigmas

Tcnicas
Clsicas

Inspiracin Biolgica

http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Inteligencia Artificial

Representacin
explcita del
conocimiento
sentencias lgicas,
reglas,
grafos,
redes semnticas, etc.
Imitacin del
proceso humano de
razonamiento
Inferencia lgica,
bsqueda en grafos

Procesamiento en serie
de la informacin

variety of techniques to identify nuggets of information or decision-making


knowledge in bodies of data, and extracting these in such a way that they can be
put to use in the areas such as decision support, prediction, forecasting and
estimation. The data is often voluminous, but as it stands of low value as no direct
use can be made of it; it is the hidden information in the data that is useful.

Tcnicas Involucradas

Modelado de Dependencias:
asociaciones entre variables.
reglas y grafos (redes Bayesianas).

Componentes Principales:
http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Multidisciplinar. Areas y Tcnicas Involucra

compresin de la informacin.

Componentes Independientes:
extraccin de caractersticas.

Agrupacin:
hallar grupos de elementos.

Clasificacin:
asignar elementos a clases.

Prediccin:
estimacin de valores.

Visualizacin:
representacin grfica.

Padhraic Smyth
Information and Computer Science
University of California, Irvine

Computer Vision,
Signal Recognition

http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Hot Topics (Statistics and Machine Learning)

Nonlinear
Regression

Hidden
Variable
Models
Deformable
Templates

Pattern
Finding

Scalable
Algorithms

Graphical
Models

Mixture/
Factor Models

Hidden
Markov
Models

Flexible
Classification
Models

Belief
Networks

Classification
Trees
Association
Rules

Model
Combining

Support
Vector
Machines

Objetivos. Un Primer Ejemplo

Interesa obtener automticamente reglas que relacionen unos atributos de la base


de datos con otros, en base a alguna asociacin:
Ejemplo - Base de datos de clientes de un banco.
Regla de Asociacin:
if STATUS = married and INCOME > 10000 and HOUSE_OWNER = yes
then INVESTMENT_TYPE = good
http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Asociacin:

Clasificacin:
Un sistema de minera de datos aprende de los datos cmo particionar o calsificar
los mismos en base a reglas de clasificacin:
Ejemplo - Base de datos de clientes de un banco.
Pregunta - Un cliente que solicita un prstamo, es una buena inversin?
Regla tpica formulada:
if STATUS = married and INCOME > 10000 and HOUSE_OWNER = yes
then INVESTMENT_TYPE = good

Aplicaciones de la Minera de Datos.

Ambiente
dinmico

En Internet

El 99% de la informacin no le interesa al 99% de la gente.

E-bussines. Perfiles de clientes, publicidad dirigida, fraude.


Buscadores "inteligentes". Generacin de jerarquas, bases de conocimiento web.
Gestin del trfico de la red. Control de eficiencia y errores.

Reglas de asociacin:
El 60% de las personas que esquan viajan frecuentemente a Europa.

Clasificacin:
Personas menores de 40 aos y salario superior a 2000$ compran on-line frecuentemente.

http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Gran cantidad de informacin (financiera, servicios, empresas,


universidades, libros y hobbies), con complejas interrelaciones.

Clustering:
Los usuarios A y B tienen gustos parecidos (acceden URLs similares).

Deteccin de "outliers"
El usuario A navega en Internet ms del doble del tiempo promedio.

La publicidad en Internet es uno de los tpicos ms actuales de Data Mining.


Los data warehouse de las empresas contienen enormes cantidades de
informacin sobre sus clientes y gestiones.

El Mundo de los Negocios


Banca. Grupos de clientes, prstamos, oferta de productos.
Compaas de seguros. Deteccin de fraude, administracin de recursos.
Marketing. Publicidad dirigida, estudios de competencia.

La cantidad de informacin generada en proyectos cientficos ha


sido enorme: Genoma Humano, datos geofsicos, altas energas, etc.

Bio-Informtica. Bsqueda de patrones en ADN, consultas inteligentes.


Meteorologa. Teleconexiones (asociaciones espaciales), prediccin.
Fsica (altas energas). Datos de colisiones de partculas (bsqueda de patrones).

Escherichia Coli
176195 bases
http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

En Biologa, Meteorologa, etc.

Secuencia
Simblica

gccattacct
ctggtctgga
agtagtctgg
acccagacgc
cgacccagtg
gagcaactat
ttcttcgaga
acctgttcaa
gtatgagtgg

WP4: TESTBED
http://www.ifca.unican.es/crossgrid/
Secuencias
numricas
Electrocardiogramas, etc.

EJEMPLO !!!!!!!!!!!!!!!!!!

Ejemplo. Meteorologa.
Existen bases de datos con simulaciones de los
campos atmosfricos en rejillas dadas.

http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Meteorologa. Teleconexiones (asociaciones espaciales), prediccin.

Se dispone de gran
cantidad de informacin
en observatorios locales:
Precipitacin,
temperatura,
Viento, etc.

http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Los 6 primeros dgitos


(ao,mes y da)
Fechason fecha con el formato:aammdd
Tormenta
posicin 7: 0=Sin Precipitacin 1=Lluvia 3=Llovizna 5=Chubasco
posicin 8: 0=Sin Nieve 1,2,3 o 4=Nieve
posicin 9: 0=Sin Granizo 1,2,3 o 4=Granizo
posicin 10: 0=Sin Viento
Tormenta 1=Tormenta
Nieve
Escarcha
Granizo
posicin
11: 0=Sin Niebla 1,2,3 o 4=Niebla
Neblina
posicin 12: 0=Sin Roco 1 o 6=Roco
posicin 13: 0=Sin Escarcha 1 o 6=Escarcha
Nieve
Suelo cubriendo
Polvareda
posicin Roco
14: 0=Sin Nieve cubriendo el Suelo
1=Nieve
el Suelo
posicin 15: 0=Sin Neblina 1=Neblina
posicin 16: 0=Sin Calima 1=Calima
posicin 17: 0=Sin Viento>50km/h 1=Viento>50km/h
posicin 18: 0=SinPrecipitacin
Polvareda 1=Polvareda
Niebla

860101500000000010
860102100000000010
860103500100000010
860104500000000010
860105101100000010
860106101100000010
860107300100000010
860108500000000010
860109500000001000
860110000001001100
860111001000000000

Granizo

Fecha

Calima
Roco

Precipitacin

Neblina

Escarcha
Tormenta
Niebla

Nieve

Polvareda

Viento

Nieve Suelo

Data Mining: Practical Machine Learning Tools and


Techniques with Java Implementations
IanH.Witten,EibeFrank

Machine Learning and Data Mining


Open Soure Tools in Java
http://www.cs.waikato.ac.nz/~ml/weka/

Advances in Knowledge Discovery and Data Mining


http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Libros y Material de Consulta

EditedbyU.M.Fayyad,G.PiatetskyShapiro,P.Smyth,andR.Uthurusamy
The AAAI Press

Data Mining Techniques: For Marketing,


Sales, and Customer Support
By Michael J. Berry,Gordon Linoff
Wiley, John & Sons,
http://www1.fatbrain.com/FindItNow/Services/home.cl?from=cbs169&store=1

http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Libros disponibles en Internet

Expert Systems and Probabilistic Network


Models.
E. Castillo, J.M. Gutirrez, y A.S. Hadi
Springer-Verlag, New York.
Monografas de la Academia Espaola de
Ingeniera

An Introduction to Functional Networks


E. Castillo, A. Cobo, J.M. Gutirrez and E.
Pruneda
Kluwer Academic Publishers (1999).
Paraninfo/International Thomson
Publishing

The Data Mine provides information about Data Mining and Knowledge Discovery
in Databases (KDD).
http://www.cs.bham.ac.uk/~anp/TheDataMine.html

http://www.data-miners.com/
http://www.kdcentral.com/Software/Data_Mining/
http://www.andypryke.com/university/software.html
http://www.galaxy.gmu.edu/stats/syllabi/DMLIST.html

http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Enlaces Interesantes y Revistas

Journals
Data Mining and Knowledge Discovery.
http://www.wkap.nl/journalhome.htm/1384-5810

Intelligent Data Analysis


http://www.iospress.nl/site/html/1088467x.html

IEEE Trans. on Knowledge and Data Engineering


http://www.iospress.nl/site/html/1088467x.html

Related Journals (from IDA)


http://www.ida-society.org/journals.html

http://www.kdnuggets.com/

Portal dedicado a Data Mining, Web Mining


y Bsqueda de Conocimiento.

http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

El Portal KDnuggets:

http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Productos Comerciales

http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Un Ejemplo: DBMiner.
http://www.dbminer.com

http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

IBM DB2 Intelligent Miner

http://www.research.ibm.com/scout/

Using data mining software called Advanced Scout to


prepare for a game, a coach can quickly review countless
stats: shots attempted, shots blocked, assists made,
personal fouls. But Advanced Scout can also detect
patterns in these statistics that a coach may not have
known about. So during a game, a coach can know exactly
which plays are most effective with which players and under
what circumstances.

http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

IBM Advanced Scout.

attribute focusing finds conditional ranges on attributes


where the distributions differ from the norm.
An analysis of the data from a game played between the New York Knicks and
the Charlotte Hornets revealed that when "Glenn Rice played the shooting guard
position, he shot 5/6 (83%) on jump shots."
Through data mining, Advanced Scout identified a certain player (Rice), playing a
certain position (shooting guard), shooting at a certain rate (83%), on a certain
type of shot (jump shots). Advanced Scout not only finds this pattern, but points
out that it is interesting because it differs considerably from the average shooting
percentage of 54% for the Charlotte Hornets during that game.

http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

The Toolbox MeteoLab Data Mining in Meteorolog

http://etsiso2.macc.unican.es/~meteo

Modelado de Dependencias:
asociaciones entre variables.
reglas y grafos.
Componentes Principales:
compresin de la informacin.
http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Modelado de Dependencias (reglas de asociac

Componentes Independientes:
extraccin de caractersticas.

Agrupacin:
hallar grupos de elementos.

Clasificacin:
asignar elementos a clases.

Prediccin:
estimacin de valores.

Visualizacin:
representacin grfica.

Una de las tcnicas ms habituales en data mining consiste en extraer las relaciones
relevantes que existan entre conjuntos de variables (itemsets) de la base de datos.
De esta forma se pueden detectar errores, fraudes, e inconsistencias fcilmente.
En el caso de bases de datos relacionales trabajaramos con conjuntos formados por
pares (atributo # valor) utilizando los registros de la base de datos.
{Cliente = Pepe, Precio > 10$}
{Producto = Caf}
http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Relaciones entre atributos. Frmulas y Regla

Estas relaciones de asociacin se pueden establecer en distintas formas:

Reglas if-then "reglas de asociacin"


Son implicaciones de la forma X=>Y
if (X1= a, X3= c, X5= d) then (X4= b, X2= a)
La fiabilidad [confidence] es la proporcin de
Aquellos registros con X que tambin contienen
tambin a Y.
La relevancia [support] es la proporcin de
registros que contienen tanto X como Y.

If Cliente is Pepe
and Precio is lower than 10$
Then
Producto = Caf
confidence: 0.98
The rule exists in 102 records
Significance level: error prob < 0.001

Se buscan asociaciones de la forma:


(X1= a) <=> (X4= b)
De los n registros de la tabla, las dos igualdades
Son verdaderas o falsas simultneamente
en rc casos:
fiabilidad de la asociacin = rc /n

The value Pepe in the Cliente field


is associated with the value Caf in
the Producto field
Rules fiab: 0.8

Ejemplo:

http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Asociaciones

Reglas de Asociacin:
(Hijos > 0) => Casado (100%, 2 casos).
Casado => Obeso (100%, 3 casos).

Asociaciones:
Casado e (Hijos > 0) estn asociados (80%, 4 casos).
Obeso y casado estn asociados (80%, 4 casos)

Frmulas

La fiabilidad denota el cociente entre el


nmero de casos en que se cumple la
frmula (suponiendo un cierto error de
redondeo) y el nmero total de casos.

Reglas de hortografa.
http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Relaciones matemticas X=f(Y,Z)=Y*Z

Estas reglas permiten detectar errores de


ortografa. Un nombre es similar a otro pero
la frecuencia en que aparecen ambos es
muy diferente.
(Text Mining)

A= B * C
Where: A = Total
B = Cantidad
C = Precio
Rules Accuracy Level: 0.99
The rule exists in 1890 records
The value Pepe appears 52 times
in the Cliente field.
There are 2 case(s)
containing similar value(s)
{Pepr, Repe}

http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Ejemplo

Algoritmos de Bsqueda de Reglas de Asocia


FASE A: BSQUEDA DE GRANDES CONJUNTOS DE ATRIBUTOS.
Se buscan conjuntos de atributos con relevancia >= umbral. De momento no
se busca separarlos en parte izquierda y parte derecha.
FASE B: ESCLARECIMIENTO DE DEPENDENCIAS (REGLAS).
Se hacen particiones binarias y disjuntas de los conjuntos hallados y se calcula
la confianza de cada uno. Se retienen aquellas reglas que tienen
confianza >= umbral
http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

La mayora se basa en descomponer el problema en dos fases:

Propiedad: cualquier subconjunto de un conjunto grande es tambin grande.


AIS es el primer algoritmo que se desarroll
para obtener reglas de asociacin.
X=>Y [s,c] donde
Y es un nico atributo,
s es la relevancia y
c su fiabilidad.

AIS[Agrawal,Imielinski&Swami]
R.Agrawal,T.Imielinsky&A.Swami
IBMAlmadenResearchCenter,1993

Fase A: Seleccin Grandes de Atributos


1. i = 1 (tamao de los conjuntos)
2. Generar un conjunto unitario en S1 para cada atributo.
3. Comprobar la relevancia de todos los conjuntos en Si.
Eliminar aquellos cuya relevancia < Rmin.
4. Combinar los conjuntos en Si
creando conjuntos de tamao i+1 en Si+1.
http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Dada una relevancia mnima Rmin:

Este paso se lleva a cabo secuencialmente, recorriendo los registros de la base de datos
siguiendo el contador i. Tras leer un registro de la base de datos, se hallan los conjuntos
relevantes Si contenidos en el mismo. Si+1 se genera extendiendo los conjuntos hallados
con otros atributos del registro.

5. Si Si no es vaco entonces i:= i+ 1. Ir a 3.


6. Si no , retornar S2 S3 ... Si
m 1)
Dados n registros y m atributos o(m 2
reglas posibles.
o( n m 2 m )
Complejidad computacional

relevancia = 2
confianza = 0.75
FASE A:

http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Ejemplo

S1 = {{1}, {2}, {3}, {4}, {5}}

S1:rel = {{1}:2, {2}:3, {3}:3, {5}:3}

S2 = {{1,2},{1,3},{1,5},{2, 3},{2, 5},{3, 5}}

S2:rel = {{1,3}:2, {2,3}:2, {2,5}:3, {3,5}:2}

S3 = {{1,2, 3}, {1,2, 5}, {1,3, 5}, {2,3, 5}}

S3:rel = {{2,3,5}:2}

Sfinal = S2 S3 = {{1, 3}, {2, 3}, {2, 5}, {3, 5}, {2,3,5}}
FASE B:
{1} {3} : 1
{2} {3} : 0.67
{2} {5} : 1
{3} {5} : 0.67
{2,3} {5} : 1

{3} {1} : 0.67


{3} {2} : 0.67
{5} {2} : 1
{5} {3} : 0.67
{2,5} {3} : 0.67

{3,5} {2} : 1

Fk : Set of frequent itemsets of size k


Ck : Set of candidate itemsets of size k
F1 = {single attribute sets} with minimum support
for ( k=2; Fk != 0; k++) do {
Ck+1 = New candidates generated from Fk

http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

El Algoritmo APRIORI

foreach entry t in the database do


Increment the count of all candidates in Ck+1 contained in t
Fk+1 = Candidates in Ck+1 with minimum support
}
Answer = Uk Fk

Every subset of a frequent itemset is also frequent


=> a candidate itemset in Ck+1 can be pruned if even one of its
subsets is not contained in Fk

Estealgoritmorealizanmltiplespasadassobrelabasededatosparaobtenerlos
conjuntosdeatributosrelevantes.
Enlaprimerapasada,seobtienenlositemsindividualescuyarelevanciaalcanzael
umbralmnimopreestablecido:L[1]deconjuntosrelevante.
Enlassiguientesiteraciones,seutilizaelltimoconjuntoL[k]obtenidopara
generarunconjuntosde(k+1)atributospotencialmenterelevantes(elconjuntode
candidatosC[k+1])yseobtienelarelevanciadeestoscandidatosparaquedarnos
sloconaqullosquesonrelevantes,queincluimosenelconjuntoL[k+1].Este
procesoserepitehastaquenoseencuentranmsitemsetsrelevantes.
http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Fase de Combinacin

EnelalgoritmoAIS,loscandidatossegenerabansobrelamarcha,conformeseibanleyendo
registrosdelabasededatos.Segeneraninnecesariamenteconjuntoscandidatosquedepors
nuncapuedenllegaraserrelevantes.
Porsuparte,enAprioriloscandidatossegeneranapartirdelosconjuntosrelevantes
encontradosenlaiteracinanterior,nicayexclusivamente.Laideasubyacenteesque,dado
unitemsetrelevante,cualquiersubconjuntosuyotambinesrelevante.
Porlotanto,losconjuntosdekatributoscandidatosdelconjuntoC[k]puedengenerarsea
partirdelconjuntoL[k1].

Database D
TID
1
2
3
4
http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Ejemplo

Items
{1, 3, 4}
{2, 3, 5}
{1, 2, 3, 5}
{2, 5}

Scan D

C2
Itemset
{2, 3}
{2, 5}
{3, 5}

F1

C1
Itemset
{1}
{2}
{3}
{4}
{5}

Sup.
2
3
3
1
3

C2
Scan D

{2, 3}
{2, 5}
{3, 5}

Itemset
{2}
{3}
{5}

Sup.
3
3
3

F2
2
3
2

Itemset
{2, 5}

Sup.
3

La lgica proporciona un entorno para representar conocimiento en el que es


fcil razonar.
eg1. John is a human
every human are mortals
therefore
John is mortal.

http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Lgica

In logic:
human(John)
h(human(h) mortal(h))
therefore: human(John) mortal(John)
therefore: mortal(John)

elim. rule
elim. rule

Las expresiones lgicas se construyen en base a un conjunto reducido de


smbolos y cuantificadores.

Smbolos lgicos
~ NOT

AND

Cuantificadores
FOR ALL

THERE EXISTS

OR

IMPLIES

Lgica. Representacin de Conocimiento


con LPC

1. Variables p, q, r,... are in LPC. We call the above variables:


statements.

undeterminate

2. If a statement A is in LPC and a statement B is in LPC , then


the statement (A&B) is in LPC .Similarly for the symbols: , .
3. If a statement A is in LPC, then the statement ~A is in LPC .
http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

A language of PC, call it LPC is defined by the following rules:

LPC is a set of statements which represent useful logical expressions for a


given problem

(~AB)

(((AB)&(AB)B)

Using the above rules and some other logical inference techniqes it is easy to
reason on a given problem.

Natural deduction uses the definition of logical symbols for eliminating, or


introducing, knowledge on a given expression.
Elimination Rules
A B
A

http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Inferencia Lgica. Deduccin natural.

A B

A B
B
[A] [B]
: :
C C
C

AB
B
A A
:
:
:
:
C ~C

Introduction Rules
A

A B
A
A B

B
A B

[A]
:
B
.
AB

A
A
:
:

~A

A
:
:
~A

~~
~ ~

~ ~ ~
~ ~ ~

http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Tablas de Verdad y Leyes Lgicas


~
~

http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Reglas de Inferencia Lgica.

~
~

Componentes Principales:
compresin de la informacin.
Componentes Independientes:
extraccin de caractersticas.

Modelado de Dependencias:
hallar asociaciones entre variables

redes Bayesianas
http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Modelado de Dependencias (redes Bayesianas

Agrupamiento:
hallar grupos de elementos

Clasificacin:
asignar elementos a clases

Prediccin:
estimacin de valores

Visualizacin:
representacin grfica.
Redes Neuronales

Algunos problemas involucran


gran nmero de variables y se
conocen ciertas relaciones de
independencia entre ellas.
Obtener un modelo probabilstico

http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Redes Probabilsticas. Redes Bayesianas

Cto. de
relaciones

Cto. de variables
aleatorias

I(X,Y|Z) M

{X 1 , X 2 , ..., X n }

Lluvia Nieve Granizo Tormenta Niebla ...


5
1
5

0
0
0

0
0
0

0
0
1

0
0
0

...
...
...

Relaciones de dependencia
Mediante un grafo dirigido donde cada
variable tiene sus antecedentes.

Funcin de
probabilidad conjunta
P(X 1 , X 2 , ..., Xn )
Factorizacin de la probabilidad !!
n

P (x1, . . . , xn ) = P i (xi | i )
i=1

Cuantificacin
Funciones de prob.
condicionada.

Inicialmente los
distintos estados de
las variables de la
red tienen
probabilidades que
corresponden al
estado de
conocimiento inicial
(sin evidencia).
http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Clculo de
probabilidades

Cuando se tiene
alguna evidencia, las
nuevas
probabilidades
condicinadas dan la
influencia de esta
informacin en el
resto de variables

Tormenta = 1

Modelado de Dependencias:
asociaciones entre variables.
reglas y grafos.

Componentes Principales:
compresin de la informacin.

Componentes Independientes:
http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Componentes Principales e Indepenedientes

extraccin de caractersticas.

Agrupacin:
hallar grupos de elementos.

Clasificacin:
asignar elementos a clases.

Prediccin:
estimacin de valores.

Visualizacin:
representacin grfica.

Problemas con datos de alta dimensionalidad


Hypercube
in d dimensions

http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

(David Scott, Multivariate Density Estimation, Wiley, 1992)


Hypersphere
in d dimensions

Volume of sphere relative to cube in d dimensions?

Dimension

Rel. Volume

0.79

0.53

0.31

0.16

0.08

0.04

high-d, uniform => most data points will be out at the corners
high-d space is sparse: and non-intuitive

Datos Aleatorios Gaussianos


Anlisis de Componentes Principales

Y k M Xk
Maximizar
varianza

X xi k Ei
i1
r

cik Vi ,
i 1

http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Ejemplos y casos a estudiar

Datos Aleatorios NO-Gaussianos


Anlisis de Componentes Independientes

X k M Sk
X es la mezcla de m seales S
Independientes. Dada X:

yi k wiT X k

Indep.

Maximizar
independencia

Y k M Xk

Datos Aleatorios Gaussianos


Anlisis de Componentes Principales

Maximizar
varianza

http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Ejemplos y casos a estudiar

...

Datos Aleatorios NO-Gaussianos


Anlisis de Componentes Independientes

Maximizar
independencia

Sistemas Deterministas (Caos determinista)


Estimacin No-Paramtrica

Y k F(X k )
Estimar F

El Reanlisis del ECMWF


proporciona una base de
datos de salidas del modelo
numrico.
Serie diaria 1979-1993
a las 0, 6, 12 y 18 horas.
En cada uno de los nodos
5 variables Z, T, U , V y H
7 niveles de presin
http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Base de Datos de Re-Anlisis del Centro Europeo

Sup
erfcie1000
mb 925mb 850mb 700mb 500mb 300mb
Geop 1080 2142 8335 14953 29851 54508 89058
Temp 282
279
274 270 264 246 226
U
-8
-7
-4
0
8
23
55
V
5
4
4
2
-6
-15
-30
Hrel
278
83
81
88
57
56
50
Tabla1: Ejemplo
delaestructura
delosdatos
enlabase
dedatos
ERA
(2deEnerode1979).

We used atmospheric circulation patterns at


1200 UTC of ERA-15 (1979-1993) reanalysis
data
P=(T(1ooo mb),..., T(500 mb); Z(1ooo mb),..., Z(500 mb); .......; H(1ooo mb),..., H(500 mb))

6000
dimensional
Using Principal !!!!
P is

http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Componentes Principales. Primera Opcin

Components the
dimension can be
reduced to 500 600.

La configuracin atmosfrica de un da concreto viene dada por un


campo (X,Y,Z) para cada T=0, 6, 12 y 18 horas

X vi k Ei
i1
r

http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Componentes Principales. Alternativas

CPs (X,Y) para cada Z y T


CPs (X,Y,Z) para cada T
CPs (X,Y,T) para cada Z
CPs (X,Y,Z,T)

cik Vi ,
i 1

k 1,2,...,n
k

Si los vectores X
son realizaciones
de una variable
Gaussiana, los Vi
ptimos son los
autovectores de
la matrix de
covarianza.

http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Componentes Principales con MeteoLab

(seales NO

El ECG abodominal de una mujer embarazada presenta rastros del


ECG fetal. Por tanto, una alternativa a los mtodos invasivos consiste
en separar ambas seales a partir de una, o varias, mediciones del
ECG materno.
ECGs abdominales de una mujer

http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Componentes Independientes. Biologa

Picos del ECG fetal

X k M Sk

X es la mezcla de m seales S independientes.

yi k wiT X k wiT M S k zi T S k
- No se puede estimar la varianza de las seales.
- Las seales S tienen que ser NO-Gaussianas.
http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Separacin de Seales con Componenetes Independ

Se trata de encontrar

wi

que maximizan la NO-Gaussianidad de .

yi wiT X
Equivale a minimizar:

H(yi ) f (yi )log yi

Manteniendo Var(yi) constante.

Equivalentemente, tambin se puede minimizar la informacin mutua:

I(y1,..., yn )

http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Para el problema de la extraccin del ECG fetal, se tienen cinco


seales de ECG maternas (las cinco primeras seales son ECGs
abdominales y las tres restantes son ECGs torcicos). Aplicando el
algoritmo FASTICA resulta:

Learning data

1. sunny, 85, 85, FALSE, no


sunny, hot, high, FALSE, no
2. sunny, 80, 90, TRUE, no
sunny, hot, high, TRUE, no
3. overcast, 83, 86, FALSE, yes
overcast, hot, high, FALSE, yes
4. rainy, 70, 96, FALSE, yes
rainy, mild, high, FALSE, yes
5. rainy, 68, 80, FALSE, yes
rainy, cool, normal, FALSE, yes
6. rainy, 65, 70, TRUE, no
rainy, cool, normal, TRUE, no
7. overcast, 64, 65, TRUE, yes
overcast, cool, normal, TRUE, yes
8. sunny, 72, 95, FALSE, no
sunny, mild, high, FALSE, no
9. sunny, 69, 70, FALSE, yes
sunny, cool, normal, FALSE, yes
10. rainy, 75, 80, FALSE, yes
rainy, mild, normal, FALSE, yes
11. sunny, 75, 70, TRUE, yes
sunny, mild, normal, TRUE, yes
12. overcast, 72, 90, TRUE, yes
overcast, mild, high, TRUE, yes
13. overcast, 81, 75, FALSE, yes
overcast, hot, normal, FALSE, yes
14. rainy, 71, 91, TRUE, no
rainy, mild, high, TRUE, no
----------------------------------------------------------------------------------Decision list

http://personales.unican.es/gutierjm

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

----------------------------------------------------------------------------------Numeric attributes
Nominal attributes
-----------------------------------------------------------------------------------

----------------------------------------------------------------------------------outlook = overcast: yes (4)


outlook = overcast: yes (4)
windy = TRUE: no (4/1)
outlook = overcast: yes (4)
outlook = sunny: no (3/1)
: yes (5/1)
: yes (3)
----------------------------------------------------------------------------------Decision trees
----------------------------------------------------------------------------------outlook = sunny
outlook = sunny
humidity <= 75: yes (2)
humidity = high: no (3)
humidity > 75: no (3)
humidity = normal: yes (2)
outlook = overcast: yes (4)
outlook = overcast: yes (4)
outlook = rainy
outlook = rainy
windy = TRUE: no (2)
windy = TRUE: no (2)
windy = FALSE: yes (3)
windy = FALSE: yes (3)
-----------------------------------------------------------------------------------

One attribute rules (1R)


----------------------------------------------------------------------------------outlook:
sunny -> no
overcast -> yes
rainy -> yes
(10/14 instances correct)

outlook:
sunny -> no
overcast -> yes
rainy -> yes
(10/14 instances correct)

----------------------------------------------------------------------------------Association rules (nominal attributes only)


----------------------------------------------------------------------------------1. humidity=normal windy=FALSE 4 ==> play=yes 4 (1)
2. temperature=cool 4 ==> humidity=normal 4 (1)
3. outlook=overcast 4 ==> play=yes 4 (1)
4. temperature=cool play=yes 3 ==> humidity=normal 3 (1)
5. outlook=rainy windy=FALSE 3 ==> play=yes 3 (1)
6. outlook=rainy play=yes 3 ==> windy=FALSE 3 (1)
7. outlook=sunny humidity=high 3 ==> play=no 3 (1)
8. outlook=sunny play=no 3 ==> humidity=high 3 (1)
9. temperature=cool windy=FALSE 2 ==> humidity=normal play=yes 2 (1)
10. temperature=cool humidity=normal windy=FALSE 2 ==> play=yes 2 (1)
----------------------------------------------------------------------------------K-Nearest Neighbor (k-NN)
----------------------------------------------------------------------------------15. sunny, mild, normal, weak, ?
------------------------------------------------| X

| 8 | 9 | 10 | 11 | 1 | ... | 14 |

|--------

|----|-----|-----|-----|----|-----|----|

|d(15,X)

| 1 | 1 | 1 | 1 | 2 | ... | 3 |

|--------

|----|-----|-----|-----|----|-----|----|

| Play

| no | yes | yes | yes | no | ... | no |

-----------------------------------------------------------------------------------------------------------------------------------

También podría gustarte