Documentos de Académico
Documentos de Profesional
Documentos de Cultura
http://personales.unican.es/gutierjm
Data Mining.
Jos M. Gutirrez
Dpto. de Matemtica Aplicada,
Universidad de Cantabria, Santander
http://personales.unican.es/gutierjm
Hoy da, se entiende por minera de datos aquella disciplina que estudia la extraccin
automtica de informacin sintetizada, relevante y con capacidad predictiva a partir de grandes
bases de datos. Bajo este nombre se han agrupado recientemente diversas tcnicas clsicas y
modernas enfocadas a la visualizacin, anlisis, y modelizacin de procesos a partir de grandes
cantidades de datos (data warehouse de entidades financieras, comercio electrnico, empresas de
marketing, industria, etc.). En este curso se pretende introducir al alumno en los conocimientos
tericos y prcticos involucrados en la minera de datos, utilizando diversos supuestos
prcticos reales para ilustrar los distintos conceptos expuestos. Se trata de mostrar una
panormica actual de las tcnicas involucradas y de introducir las herramientas informticas
necesarias para su aplicacin prctica.
1. Introduccin a la Minera de Datos:
http://personales.unican.es/gutierjm
Objetivos y Contenidos
Evaluacin:
2.
Visualizacin
qu
tcnicas de
sedatos:
aplican en la mineria de datos?
- Tcnicas grficas estadsticas.
4. Una aplicacin real.
- Anlisis de componentes principales.
- Tcnicas de agrupamiento (clustering).
- Redes neuronales autoorganizativas.
- Aplicaciones prcticas a bases de datos relacionales.
Qu es aprendizaje?
(visin genrica, Mitchell 1997) es mejorar el comportamiento a partir de la
experiencia. Aprendizaje = Inteligencia.
(visin ms esttica) es la identificacin de patrones , de regularidades,
existentes en la evidencia.
(visin externa) es la prediccin de observaciones futuras con plausibilidad.
(visin terico- informacional, Solomonoff 1966) es
eliminacin de redundancia = compresin de informacin .
http://personales.unican.es/gutierjm
PROBLEMAS:
http://personales.unican.es/gutierjm
VENTAJAS:
Data Warehouses
Data
Warehouse
Data Cleaning
Databases
http://personales.unican.es/gutierjm
CONOCIMIENTO
Pattern
Evaluation
W. Frawley and G.
and C. Matheus,
Knowledge Discovery in Databases: An Overview.
AI Magazine, Fall 1992, 213-228.
Data Mining
http://personales.unican.es/gutierjm
Task-relevant
Data
Data
Warehouse
Selection
Data Cleaning
Data Integration
Databases
Datos imprecisos e
incompletos
almacenados en
mltiples fuentes
Heterogneos y
mezclados.
http://personales.unican.es/gutierjm
Jiawei Han
Intelligent Database System Research Lab
http://www.cs.sfu.ca/~han
Increasing potential
to support
business decisions
Making
Decisions
Data Presentation
http://personales.unican.es/gutierjm
Visualization Techniques
Data Mining
Information Discovery
End User
Business
Analyst
Data
Analyst
Data Exploration
Statistical Analysis, Querying and Reporting
Data Warehouses / Data Marts
OLAP, MDA
Data Sources
Paper, Files, Information Providers, Database Systems, OLTP
DBA
Componentes Principales:
compresin de la informacin.
Componentes Independientes:
extraccin de caractersticas.
http://personales.unican.es/gutierjm
Modelado de Dependencias:
hallar asociaciones entre variables.
redes Bayesianas
Agrupacin:
hallar grupos de elementos.
Clasificacin:
asignar elementos a clases.
Prediccin:
estimacin de valores.
Visualizacin:
representacin grfica.
Redes Neuronales
http://personales.unican.es/gutierjm
Estadstica
1970: EDA, estimacin Bayesiana, modelos flexibles, EM, etc
Conciencia sobre el papel de la computacin en el anlisis de datos.
Reconocimiento de Patrones e Inteligencia Artificial
Atencin dirigiga a problemas de percepcin (e.g., habla, visin)
1960: divisin en tcnicas estadsticas y no estadsticas (gramticas, etc.)
Convergencia de estadstica aplicada e ingeniera (anlisis imgenes, Geman)
Aprendizaje Automtico y Redes Neuronales
1980: fracaso de las tncias de aprendizaje no estadsticas
Aparicin de modelos flexibles (rboles, redes)
Convergencia de estadstica aplicada y aprendizaje
e.g., trabajos de Friedman, Spiegelhalter, Jordan, Hinton
IA / Apredizaje Automtico
Bases de Datos
Reglas de asociacin
Algoritmos escalables
MINERIA DE DATOS
Focus Areas
Computer Science
Statistics
Statistical
Inference
http://personales.unican.es/gutierjm
Statistical
Pattern
Recognition
Computer Vision,
Signal Recognition
Neural
Networks
Nonlinear
Regression
Graphical
Models
Machine
Learning
Flexible
Classification
Models
Hidden
Variable
Models
Data
Mining
Databases
Pattern
Finding
Scalable
Algorithms
Nuevos
Paradigmas
Tcnicas
Clsicas
Inspiracin Biolgica
http://personales.unican.es/gutierjm
Inteligencia Artificial
Representacin
explcita del
conocimiento
sentencias lgicas,
reglas,
grafos,
redes semnticas, etc.
Imitacin del
proceso humano de
razonamiento
Inferencia lgica,
bsqueda en grafos
Procesamiento en serie
de la informacin
Tcnicas Involucradas
Modelado de Dependencias:
asociaciones entre variables.
reglas y grafos (redes Bayesianas).
Componentes Principales:
http://personales.unican.es/gutierjm
compresin de la informacin.
Componentes Independientes:
extraccin de caractersticas.
Agrupacin:
hallar grupos de elementos.
Clasificacin:
asignar elementos a clases.
Prediccin:
estimacin de valores.
Visualizacin:
representacin grfica.
Padhraic Smyth
Information and Computer Science
University of California, Irvine
Computer Vision,
Signal Recognition
http://personales.unican.es/gutierjm
Nonlinear
Regression
Hidden
Variable
Models
Deformable
Templates
Pattern
Finding
Scalable
Algorithms
Graphical
Models
Mixture/
Factor Models
Hidden
Markov
Models
Flexible
Classification
Models
Belief
Networks
Classification
Trees
Association
Rules
Model
Combining
Support
Vector
Machines
Asociacin:
Clasificacin:
Un sistema de minera de datos aprende de los datos cmo particionar o calsificar
los mismos en base a reglas de clasificacin:
Ejemplo - Base de datos de clientes de un banco.
Pregunta - Un cliente que solicita un prstamo, es una buena inversin?
Regla tpica formulada:
if STATUS = married and INCOME > 10000 and HOUSE_OWNER = yes
then INVESTMENT_TYPE = good
Ambiente
dinmico
En Internet
Reglas de asociacin:
El 60% de las personas que esquan viajan frecuentemente a Europa.
Clasificacin:
Personas menores de 40 aos y salario superior a 2000$ compran on-line frecuentemente.
http://personales.unican.es/gutierjm
Clustering:
Los usuarios A y B tienen gustos parecidos (acceden URLs similares).
Deteccin de "outliers"
El usuario A navega en Internet ms del doble del tiempo promedio.
Escherichia Coli
176195 bases
http://personales.unican.es/gutierjm
Secuencia
Simblica
gccattacct
ctggtctgga
agtagtctgg
acccagacgc
cgacccagtg
gagcaactat
ttcttcgaga
acctgttcaa
gtatgagtgg
WP4: TESTBED
http://www.ifca.unican.es/crossgrid/
Secuencias
numricas
Electrocardiogramas, etc.
EJEMPLO !!!!!!!!!!!!!!!!!!
Ejemplo. Meteorologa.
Existen bases de datos con simulaciones de los
campos atmosfricos en rejillas dadas.
http://personales.unican.es/gutierjm
Se dispone de gran
cantidad de informacin
en observatorios locales:
Precipitacin,
temperatura,
Viento, etc.
http://personales.unican.es/gutierjm
860101500000000010
860102100000000010
860103500100000010
860104500000000010
860105101100000010
860106101100000010
860107300100000010
860108500000000010
860109500000001000
860110000001001100
860111001000000000
Granizo
Fecha
Calima
Roco
Precipitacin
Neblina
Escarcha
Tormenta
Niebla
Nieve
Polvareda
Viento
Nieve Suelo
EditedbyU.M.Fayyad,G.PiatetskyShapiro,P.Smyth,andR.Uthurusamy
The AAAI Press
http://personales.unican.es/gutierjm
The Data Mine provides information about Data Mining and Knowledge Discovery
in Databases (KDD).
http://www.cs.bham.ac.uk/~anp/TheDataMine.html
http://www.data-miners.com/
http://www.kdcentral.com/Software/Data_Mining/
http://www.andypryke.com/university/software.html
http://www.galaxy.gmu.edu/stats/syllabi/DMLIST.html
http://personales.unican.es/gutierjm
Journals
Data Mining and Knowledge Discovery.
http://www.wkap.nl/journalhome.htm/1384-5810
http://www.kdnuggets.com/
http://personales.unican.es/gutierjm
El Portal KDnuggets:
http://personales.unican.es/gutierjm
Productos Comerciales
http://personales.unican.es/gutierjm
Un Ejemplo: DBMiner.
http://www.dbminer.com
http://personales.unican.es/gutierjm
http://www.research.ibm.com/scout/
http://personales.unican.es/gutierjm
http://personales.unican.es/gutierjm
http://etsiso2.macc.unican.es/~meteo
Modelado de Dependencias:
asociaciones entre variables.
reglas y grafos.
Componentes Principales:
compresin de la informacin.
http://personales.unican.es/gutierjm
Componentes Independientes:
extraccin de caractersticas.
Agrupacin:
hallar grupos de elementos.
Clasificacin:
asignar elementos a clases.
Prediccin:
estimacin de valores.
Visualizacin:
representacin grfica.
Una de las tcnicas ms habituales en data mining consiste en extraer las relaciones
relevantes que existan entre conjuntos de variables (itemsets) de la base de datos.
De esta forma se pueden detectar errores, fraudes, e inconsistencias fcilmente.
En el caso de bases de datos relacionales trabajaramos con conjuntos formados por
pares (atributo # valor) utilizando los registros de la base de datos.
{Cliente = Pepe, Precio > 10$}
{Producto = Caf}
http://personales.unican.es/gutierjm
If Cliente is Pepe
and Precio is lower than 10$
Then
Producto = Caf
confidence: 0.98
The rule exists in 102 records
Significance level: error prob < 0.001
Ejemplo:
http://personales.unican.es/gutierjm
Asociaciones
Reglas de Asociacin:
(Hijos > 0) => Casado (100%, 2 casos).
Casado => Obeso (100%, 3 casos).
Asociaciones:
Casado e (Hijos > 0) estn asociados (80%, 4 casos).
Obeso y casado estn asociados (80%, 4 casos)
Frmulas
Reglas de hortografa.
http://personales.unican.es/gutierjm
A= B * C
Where: A = Total
B = Cantidad
C = Precio
Rules Accuracy Level: 0.99
The rule exists in 1890 records
The value Pepe appears 52 times
in the Cliente field.
There are 2 case(s)
containing similar value(s)
{Pepr, Repe}
http://personales.unican.es/gutierjm
Ejemplo
AIS[Agrawal,Imielinski&Swami]
R.Agrawal,T.Imielinsky&A.Swami
IBMAlmadenResearchCenter,1993
Este paso se lleva a cabo secuencialmente, recorriendo los registros de la base de datos
siguiendo el contador i. Tras leer un registro de la base de datos, se hallan los conjuntos
relevantes Si contenidos en el mismo. Si+1 se genera extendiendo los conjuntos hallados
con otros atributos del registro.
relevancia = 2
confianza = 0.75
FASE A:
http://personales.unican.es/gutierjm
Ejemplo
S3:rel = {{2,3,5}:2}
Sfinal = S2 S3 = {{1, 3}, {2, 3}, {2, 5}, {3, 5}, {2,3,5}}
FASE B:
{1} {3} : 1
{2} {3} : 0.67
{2} {5} : 1
{3} {5} : 0.67
{2,3} {5} : 1
{3,5} {2} : 1
http://personales.unican.es/gutierjm
El Algoritmo APRIORI
Estealgoritmorealizanmltiplespasadassobrelabasededatosparaobtenerlos
conjuntosdeatributosrelevantes.
Enlaprimerapasada,seobtienenlositemsindividualescuyarelevanciaalcanzael
umbralmnimopreestablecido:L[1]deconjuntosrelevante.
Enlassiguientesiteraciones,seutilizaelltimoconjuntoL[k]obtenidopara
generarunconjuntosde(k+1)atributospotencialmenterelevantes(elconjuntode
candidatosC[k+1])yseobtienelarelevanciadeestoscandidatosparaquedarnos
sloconaqullosquesonrelevantes,queincluimosenelconjuntoL[k+1].Este
procesoserepitehastaquenoseencuentranmsitemsetsrelevantes.
http://personales.unican.es/gutierjm
Fase de Combinacin
EnelalgoritmoAIS,loscandidatossegenerabansobrelamarcha,conformeseibanleyendo
registrosdelabasededatos.Segeneraninnecesariamenteconjuntoscandidatosquedepors
nuncapuedenllegaraserrelevantes.
Porsuparte,enAprioriloscandidatossegeneranapartirdelosconjuntosrelevantes
encontradosenlaiteracinanterior,nicayexclusivamente.Laideasubyacenteesque,dado
unitemsetrelevante,cualquiersubconjuntosuyotambinesrelevante.
Porlotanto,losconjuntosdekatributoscandidatosdelconjuntoC[k]puedengenerarsea
partirdelconjuntoL[k1].
Database D
TID
1
2
3
4
http://personales.unican.es/gutierjm
Ejemplo
Items
{1, 3, 4}
{2, 3, 5}
{1, 2, 3, 5}
{2, 5}
Scan D
C2
Itemset
{2, 3}
{2, 5}
{3, 5}
F1
C1
Itemset
{1}
{2}
{3}
{4}
{5}
Sup.
2
3
3
1
3
C2
Scan D
{2, 3}
{2, 5}
{3, 5}
Itemset
{2}
{3}
{5}
Sup.
3
3
3
F2
2
3
2
Itemset
{2, 5}
Sup.
3
http://personales.unican.es/gutierjm
Lgica
In logic:
human(John)
h(human(h) mortal(h))
therefore: human(John) mortal(John)
therefore: mortal(John)
elim. rule
elim. rule
Smbolos lgicos
~ NOT
AND
Cuantificadores
FOR ALL
THERE EXISTS
OR
IMPLIES
undeterminate
(~AB)
(((AB)&(AB)B)
Using the above rules and some other logical inference techniqes it is easy to
reason on a given problem.
http://personales.unican.es/gutierjm
A B
A B
B
[A] [B]
: :
C C
C
AB
B
A A
:
:
:
:
C ~C
Introduction Rules
A
A B
A
A B
B
A B
[A]
:
B
.
AB
A
A
:
:
~A
A
:
:
~A
~~
~ ~
~ ~ ~
~ ~ ~
http://personales.unican.es/gutierjm
~
~
http://personales.unican.es/gutierjm
~
~
Componentes Principales:
compresin de la informacin.
Componentes Independientes:
extraccin de caractersticas.
Modelado de Dependencias:
hallar asociaciones entre variables
redes Bayesianas
http://personales.unican.es/gutierjm
Agrupamiento:
hallar grupos de elementos
Clasificacin:
asignar elementos a clases
Prediccin:
estimacin de valores
Visualizacin:
representacin grfica.
Redes Neuronales
http://personales.unican.es/gutierjm
Cto. de
relaciones
Cto. de variables
aleatorias
I(X,Y|Z) M
{X 1 , X 2 , ..., X n }
0
0
0
0
0
0
0
0
1
0
0
0
...
...
...
Relaciones de dependencia
Mediante un grafo dirigido donde cada
variable tiene sus antecedentes.
Funcin de
probabilidad conjunta
P(X 1 , X 2 , ..., Xn )
Factorizacin de la probabilidad !!
n
P (x1, . . . , xn ) = P i (xi | i )
i=1
Cuantificacin
Funciones de prob.
condicionada.
Inicialmente los
distintos estados de
las variables de la
red tienen
probabilidades que
corresponden al
estado de
conocimiento inicial
(sin evidencia).
http://personales.unican.es/gutierjm
Clculo de
probabilidades
Cuando se tiene
alguna evidencia, las
nuevas
probabilidades
condicinadas dan la
influencia de esta
informacin en el
resto de variables
Tormenta = 1
Modelado de Dependencias:
asociaciones entre variables.
reglas y grafos.
Componentes Principales:
compresin de la informacin.
Componentes Independientes:
http://personales.unican.es/gutierjm
extraccin de caractersticas.
Agrupacin:
hallar grupos de elementos.
Clasificacin:
asignar elementos a clases.
Prediccin:
estimacin de valores.
Visualizacin:
representacin grfica.
http://personales.unican.es/gutierjm
Dimension
Rel. Volume
0.79
0.53
0.31
0.16
0.08
0.04
high-d, uniform => most data points will be out at the corners
high-d space is sparse: and non-intuitive
Y k M Xk
Maximizar
varianza
X xi k Ei
i1
r
cik Vi ,
i 1
http://personales.unican.es/gutierjm
X k M Sk
X es la mezcla de m seales S
Independientes. Dada X:
yi k wiT X k
Indep.
Maximizar
independencia
Y k M Xk
Maximizar
varianza
http://personales.unican.es/gutierjm
...
Maximizar
independencia
Y k F(X k )
Estimar F
Sup
erfcie1000
mb 925mb 850mb 700mb 500mb 300mb
Geop 1080 2142 8335 14953 29851 54508 89058
Temp 282
279
274 270 264 246 226
U
-8
-7
-4
0
8
23
55
V
5
4
4
2
-6
-15
-30
Hrel
278
83
81
88
57
56
50
Tabla1: Ejemplo
delaestructura
delosdatos
enlabase
dedatos
ERA
(2deEnerode1979).
6000
dimensional
Using Principal !!!!
P is
http://personales.unican.es/gutierjm
Components the
dimension can be
reduced to 500 600.
X vi k Ei
i1
r
http://personales.unican.es/gutierjm
cik Vi ,
i 1
k 1,2,...,n
k
Si los vectores X
son realizaciones
de una variable
Gaussiana, los Vi
ptimos son los
autovectores de
la matrix de
covarianza.
http://personales.unican.es/gutierjm
(seales NO
http://personales.unican.es/gutierjm
X k M Sk
yi k wiT X k wiT M S k zi T S k
- No se puede estimar la varianza de las seales.
- Las seales S tienen que ser NO-Gaussianas.
http://personales.unican.es/gutierjm
Se trata de encontrar
wi
yi wiT X
Equivale a minimizar:
I(y1,..., yn )
http://personales.unican.es/gutierjm
Learning data
http://personales.unican.es/gutierjm
----------------------------------------------------------------------------------Numeric attributes
Nominal attributes
-----------------------------------------------------------------------------------
outlook:
sunny -> no
overcast -> yes
rainy -> yes
(10/14 instances correct)
| 8 | 9 | 10 | 11 | 1 | ... | 14 |
|--------
|----|-----|-----|-----|----|-----|----|
|d(15,X)
| 1 | 1 | 1 | 1 | 2 | ... | 3 |
|--------
|----|-----|-----|-----|----|-----|----|
| Play
-----------------------------------------------------------------------------------------------------------------------------------