DataMining I

Extraccin de Conocimiento en
Grandes Bases de Datos

http://www.meteo.unican.es
http://personales.unican.es/gutierjm
Jos Manuel Gutirrez, Universidad de Cantabria. (2007)
Data Mining.
Jos M. Gutirrez
Dpto. de Matemtica Aplicada,
Universidad de Cantabria, Santander
Hoy da, se entiende por minera de datos aquella disciplina que estudia la extraccin
automtica de informacin sintetizada, relevante y con capacidad predictiva a partir de grandes
bases de datos. Bajo este nombre se han agrupado recientemente diversas tcnicas clsicas y
modernas enfocadas a la visualizacin, anlisis, y modelizacin de procesos a partir de grandes
cantidades de datos (data warehouse de entidades financieras, comercio electrnico, empresas de
marketing, industria, etc.). En este curso se pretende introducir al alumno en los conocimientos
tericos y prcticos involucrados en la minera de datos, utilizando diversos supuestos
prcticos reales para ilustrar los distintos conceptos expuestos. Se trata de mostrar una
panormica actual de las tcnicas involucradas y de introducir las herramientas informticas
necesarias para su aplicacin prctica.
1. Introduccin a la Minera de Datos:
Objetivos y Contenidos
3. Extraccin de informacin y modelizacin:
- Breve introduccin histrica.

- Bsqueda de variables relevantes.
- Exploracin de bases de datos masivas.
- Correlacin e informacin mutua.
- Data mining y data warehousing.
- Modelos lineales y no lineales.
- Data mining y aprendizaje automtico.
- Regresin.
- Etapas: visualizacin, extraccin de informacin, modelizacin. - Arboles de decisin.
con preguntas
+ mltiple
choice.
-Exmen
Enfoque estadstico
de la minera degenricas
datos.
- Redes
probabilsticas. Modelos grficos de dependencia.
- Tcnicas basadas en redes neuronales.
- Redes neuronales multicapa.
- Aplicaciones de la minera de datos.
- Aprendizaje en redes probabilsticas y neuronales.
definiras
la minera
de datos en trminos
simples
(a travs de un ejemplo)?
-cmo
Tendencias
actuales y aplicaciones
comerciales.
- Algoritmos
genticos.
- Aplicaciones prcticas a bases de datos relacionales.
Evaluacin:
2.
Visualizacin
qu
tcnicas de
sedatos:
aplican en la mineria de datos?
- Tcnicas grficas estadsticas.
4. Una aplicacin real.
- Anlisis de componentes principales.
- Tcnicas de agrupamiento (clustering).
- Redes neuronales autoorganizativas.
- Aplicaciones prcticas a bases de datos relacionales.
- Descripcin del problema.

- Descripcin de la base de datos.
- Data mining con Java: Algoritmos y resultados.
- Anlisis del sofware disponible.
El Mundo de la Informacin y sus Problemas.

Cada vez se genera ms informacin y se hace ms fcil el acceso
masivo a la misma (existen gran cantidad de bases de datos on-line)
Transacciones bancarias, Internet y la Web, observaciones cientficas
(biologa, altas energas, etc. ) "tranNASAs EOS (Earth Observation System)".
La tecnologa es barata y los sistemas de gestin de bases de datos

son capaces de trabjar con cantidades masivas de datos (Terabytes).
Los datos contienen informacin til "CONOCIMIENTO" !!!

Necesitamos extraer informacin (conocimiento) de estos datos:

Rapidez y confiabilidad.
Capacidad de modelizacin y escalabilidad.
Explicacin e Interpretacin de los resultados (visualizacin, ).
WalMart captura transacciones de 2900 tiendas en 6 pases. Esta informacin e acumula en

una base de datos masiva de 7.5 terabyte. WalMart permite que ms de 3500 proveedores
accedan a los datos relativos a sus productos para realizar distintos anlisis. As pueden
identificar clientes, patrones de compras, etc. En 1995, WalMart computers proces ms de
un milln de consultas complejas.
Datos, Informacin y Conocimiento.

Informalmente se utilizan indistintamente, con pequeos matices.
informacin y datos se pueden referir a cualquier cosa, aunque
Datos suele referir a la evidencia.
Conocimiento es subjetivo:
depende de las intenciones (objetivo del aprendizaje).
debe ser inteligible para el que aprende o el que encarga el aprendizaje (usuario).
Qu diferencias hay entre informacin, datos y conocimiento?
Qu es aprendizaje?
(visin genrica, Mitchell 1997) es mejorar el comportamiento a partir de la
experiencia. Aprendizaje = Inteligencia.
(visin ms esttica) es la identificacin de patrones , de regularidades,
existentes en la evidencia.
(visin externa) es la prediccin de observaciones futuras con plausibilidad.
(visin terico- informacional, Solomonoff 1966) es
eliminacin de redundancia = compresin de informacin .
La necesidad de almacenar informacin ha motivado histricamente el desarrollo de

sistemas ms eficientes, con mayor capacidad y ms baratos de almacenamiento.
Acceso a los Datos. Evolucin histrica.
Bases de datos relacionales.
DBMS (Data Base Management Systems) y repositorios de informacin:

Bases de datos orientadas a objetos y objeto-relacionales.
Bases de datos espaciales (geogrficas).
Bases de datos de texto y multimedia.
WWW.
Sobre estas mismas bases de datos de trabajo ya se puede extraer conocimiento

(visin tradicional).
Se mantiene el trabajo transaccional diario de los sistemas de informacin
originales (conocido como OLTP, On- Line Transactional Processing ).
Se hace anlisis de los datos en tiempo real sobre la misma base de
datos( conocido como OLAP, On- Line Analytical Processing ),
Segn la organizacin de la informacin copiada se distingue:
ROLAP (Relational OLAP): el almacn de datos es relacional.
OLAP (On-Line Analytical Processing)
MOLAP (Multidim OLAP): el almacn de datos es una matriz multidimensional.

Cada atributo relevante se establece en una dimensin, que se puede agregar o desagregar.
PROBLEMAS:
Data Warehouses. Gnesis.
Disturba el trabajo transaccional diario de los sistemas de informacin originales (

killer queries ). Se debe hacer por la noche o en fines de semana.
La base de datos est diseada para el trabajo transaccional, no para el anlisis
de los datos. Generalmente no puede ser en tiempo real (era AP pero no OLAP).
Para poder operar eficientemente con esos datos y debido a que los
costes de almacenamiento masivo y conectividad se han reducido
drsticamente en los ltimos aos, parece razonable recoger (copiar) los
datos en un sistema unificado.
DATA-WAREHOUSES (Almacenes de Datos): Se separan de los datos a

analizar con respecto a sus fuentes transaccionales (se copia/ almacena toda
la informacin histrica).
Existe toda una tecnologa creciente de cmo organizarlos y sobretodo de cmo
tenerlos actualizados (cargas peridicas) respecto a los datos originales
VENTAJAS:
Facilita el anlisis de los datos en tiempo real (OLAP),

Data Warehouses
No disturba el OLTP de las bases de datos originales.

A partir de ahora
diferenciaremos
entre bases de
datos para OLTP
(tradicional) y
almacenes de datos
(KDD sobre data
warehouses).
Data
Warehouse
Data Cleaning
Limpieza y criba seleccin de datos:

Se deben elmininar el mayor nmero posible de
datos errneos o inconsistentes (limpieza) e
irrelevantes (criba).
Se aplican mtodos estadsticos:

-Histogramas (deteccin de datos anmalos).
- Redefinicin de atributos (agrupacin o separacin).
Databases
Construccin de un Data Warehouse
Muy relacionado con la disciplina de Calidad de Datos.
Acciones ante datos anmalos (outliers):

- Ignorar: algunos algoritmos son robustos a datos anmalos.
- Filtrar (eliminar o reemplazar) la columna: solucin extrema.
- Discretizar: transformar un valor continuo en uno discreto (p. ej. muy alto, alto, etc.) hace
que los outliers caigan en muy alto o muy bajo sin mayores problemas.
Acciones ante datos faltantes (missing values):

- Ignorar: algunos algoritmos son robustos a datos faltantes.
- Filtrar (eliminar o reemplazar) la columna
- Reemplazar el valor: por medias. A veces se puede predecir a partir de otros datos,
utilizando cualquier tcnica de ML.
the non trivial extraction of implicit,

previously unknown, and potentially
useful information from data
Piatetsky-Shapiro
CONOCIMIENTO
Pattern
Evaluation
W. Frawley and G.
and C. Matheus,
Knowledge Discovery in Databases: An Overview.
AI Magazine, Fall 1992, 213-228.
Data Mining
Qu es Data Mining (minera de datos)?
Task-relevant
Data
Data
Warehouse
Selection
Data Cleaning
Data Integration
Databases
Datos imprecisos e
incompletos
almacenados en
mltiples fuentes
Heterogneos y
mezclados.
En los sistemas estndar de gestin de bases de datos las

consultas se resuelven accediendo a distintos conjuntos de
datos almacenados:
Ventas del ltimo mes de un producto.
Ventas agrupadas por la edad del comprador.
Diferencias entre DBMS y Data Mining
Los sistemas de data mining infieren conocimiento de la base

de datos en forma de estructuras y patrones. Este
conocimiento supone un nuevo conjunto de informacin en
base a la cual se responden las consultas:
por qu es tan rentable la divisin Iberoamericana de Telefnica?
qu clientes son potenciales compradores de un producto?
cul ser el beneficio de la compaa el mes prximo?
Acceso a Datos vs. Acceso a Conocimiento

http://www.datamining.com
El usuario solicita datos y procesa los datos

recibidos en busca de "conocmiento".
SQL + algoritmos de data mining.

Paradigma de Acceso a Conocimiento:
El sistema genera automticamente patrones de
conocimiento refinados y el usuario accede
directamente a los mismos.
Paradigma de Acceso a Datos:
PQL = Pattern Query Languaje

PQL was designed to access patterns just as SQL was
designed to access data. PQL resembles SQL, works atop
existing SQL engines.
Information Discovery uses a Pattern WarehouseTM of refined
information and PQL works on patterns just as SQL works on a
datawarehouse. While SQL relies on the relational algebra,
PQL uses the "pattern algebra". PQL allows pattern-based
queries just as SQL allows data-based queries. And, PQL uses
SQL as part of its operation, i.e. PQL queries are
decomposed into a set of related SQL queries, the Pattern
Warehouse is accessed with these queries and the results are
re-combined for display to the user. The user accesses these
patterns using a web browser.
Jiawei Han
Intelligent Database System Research Lab
http://www.cs.sfu.ca/~han
Increasing potential
to support
business decisions
Making
Decisions
Data Presentation
Data Mining and Business Intelligence
Visualization Techniques
Data Mining
Information Discovery
End User
Business
Analyst
Data
Analyst
Data Exploration
Statistical Analysis, Querying and Reporting
Data Warehouses / Data Marts
OLAP, MDA
Data Sources
Paper, Files, Information Providers, Database Systems, OLTP
DBA
variety of techniques to identify nuggets of information or decision-making

knowledge in bodies of data, and extracting these in such a way that they can be
put to use in the areas such as decision support, prediction, forecasting and
estimation. The data is often voluminous, but as it stands of low value as no direct
use can be made of it; it is the hidden information in the data that is useful.
Areas Involucradas
Componentes Principales:
compresin de la informacin.
Componentes Independientes:
extraccin de caractersticas.
Multidisciplinar. Areas y Tcnicas Involucrada
Modelado de Dependencias:
hallar asociaciones entre variables.
redes Bayesianas
Agrupacin:
hallar grupos de elementos.
Clasificacin:
asignar elementos a clases.
Prediccin:
estimacin de valores.
Visualizacin:
representacin grfica.
Redes Neuronales
Estadstica y Ciencias de la Computacin
Estadstica
1970: EDA, estimacin Bayesiana, modelos flexibles, EM, etc
Conciencia sobre el papel de la computacin en el anlisis de datos.
Reconocimiento de Patrones e Inteligencia Artificial
Atencin dirigiga a problemas de percepcin (e.g., habla, visin)
1960: divisin en tcnicas estadsticas y no estadsticas (gramticas, etc.)
Convergencia de estadstica aplicada e ingeniera (anlisis imgenes, Geman)
Aprendizaje Automtico y Redes Neuronales
1980: fracaso de las tncias de aprendizaje no estadsticas
Aparicin de modelos flexibles (rboles, redes)
Convergencia de estadstica aplicada y aprendizaje
e.g., trabajos de Friedman, Spiegelhalter, Jordan, Hinton
IA / Apredizaje Automtico
Bases de Datos
Extraccin automtica de conocimiento
Bases de datos masivas
1989 KDD workshop
Reglas de asociacin
ACM SIGKDD 2000
Algoritmos escalables
MINERIA DE DATOS
Focus Areas
Computer Science
Statistics
Statistical
Inference
Padhraic Smyth. Information and Computer Science

University of California, Irvine
Statistical
Pattern
Recognition
Computer Vision,
Signal Recognition
Neural
Networks
Nonlinear
Regression
Graphical
Models
Machine
Learning
Flexible
Classification
Models
Hidden
Variable
Models
Data
Mining
Databases
Pattern
Finding
Scalable
Algorithms
Nuevos
Paradigmas
Tcnicas
Clsicas
Inspiracin Biolgica
Inteligencia Artificial
Representacin
explcita del
conocimiento
sentencias lgicas,
reglas,
grafos,
redes semnticas, etc.
Imitacin del
proceso humano de
razonamiento
Inferencia lgica,
bsqueda en grafos
Procesamiento en serie
de la informacin
variety of techniques to identify nuggets of information or decision-making

knowledge in bodies of data, and extracting these in such a way that they can be
put to use in the areas such as decision support, prediction, forecasting and
estimation. The data is often voluminous, but as it stands of low value as no direct
use can be made of it; it is the hidden information in the data that is useful.
Tcnicas Involucradas
asociaciones entre variables.
reglas y grafos (redes Bayesianas).
Multidisciplinar. Areas y Tcnicas Involucra
Agrupacin:
Clasificacin:
Prediccin:
Visualizacin:
Padhraic Smyth
Information and Computer Science
University of California, Irvine
Computer Vision,
Signal Recognition
Hot Topics (Statistics and Machine Learning)
Nonlinear
Regression
Hidden
Variable
Models
Deformable
Templates
Pattern
Finding
Scalable
Algorithms
Graphical
Models
Mixture/
Factor Models
Hidden
Markov
Models
Flexible
Classification
Models
Belief
Networks
Classification
Trees
Association
Rules
Model
Combining
Support
Vector
Machines
Objetivos. Un Primer Ejemplo
Interesa obtener automticamente reglas que relacionen unos atributos de la base

de datos con otros, en base a alguna asociacin:
Ejemplo - Base de datos de clientes de un banco.
Regla de Asociacin:
if STATUS = married and INCOME > 10000 and HOUSE_OWNER = yes
then INVESTMENT_TYPE = good
Asociacin:
Clasificacin:
Un sistema de minera de datos aprende de los datos cmo particionar o calsificar
los mismos en base a reglas de clasificacin:
Ejemplo - Base de datos de clientes de un banco.
Pregunta - Un cliente que solicita un prstamo, es una buena inversin?
Regla tpica formulada:
if STATUS = married and INCOME > 10000 and HOUSE_OWNER = yes
then INVESTMENT_TYPE = good
Aplicaciones de la Minera de Datos.
Ambiente
dinmico
En Internet
El 99% de la informacin no le interesa al 99% de la gente.
E-bussines. Perfiles de clientes, publicidad dirigida, fraude.

Buscadores "inteligentes". Generacin de jerarquas, bases de conocimiento web.
Gestin del trfico de la red. Control de eficiencia y errores.
Reglas de asociacin:
El 60% de las personas que esquan viajan frecuentemente a Europa.
Clasificacin:
Personas menores de 40 aos y salario superior a 2000$ compran on-line frecuentemente.
Gran cantidad de informacin (financiera, servicios, empresas,

universidades, libros y hobbies), con complejas interrelaciones.
Clustering:
Los usuarios A y B tienen gustos parecidos (acceden URLs similares).
Deteccin de "outliers"
El usuario A navega en Internet ms del doble del tiempo promedio.
La publicidad en Internet es uno de los tpicos ms actuales de Data Mining.

Los data warehouse de las empresas contienen enormes cantidades de
informacin sobre sus clientes y gestiones.
El Mundo de los Negocios

Banca. Grupos de clientes, prstamos, oferta de productos.
Compaas de seguros. Deteccin de fraude, administracin de recursos.
Marketing. Publicidad dirigida, estudios de competencia.
La cantidad de informacin generada en proyectos cientficos ha

sido enorme: Genoma Humano, datos geofsicos, altas energas, etc.
Bio-Informtica. Bsqueda de patrones en ADN, consultas inteligentes.

Meteorologa. Teleconexiones (asociaciones espaciales), prediccin.
Fsica (altas energas). Datos de colisiones de partculas (bsqueda de patrones).
Escherichia Coli
176195 bases
En Biologa, Meteorologa, etc.
Secuencia
Simblica
gccattacct
ctggtctgga
agtagtctgg
acccagacgc
cgacccagtg
gagcaactat
ttcttcgaga
acctgttcaa
gtatgagtgg
WP4: TESTBED
http://www.ifca.unican.es/crossgrid/
Secuencias
numricas
Electrocardiogramas, etc.
EJEMPLO !!!!!!!!!!!!!!!!!!
Ejemplo. Meteorologa.
Existen bases de datos con simulaciones de los
campos atmosfricos en rejillas dadas.
Meteorologa. Teleconexiones (asociaciones espaciales), prediccin.
Se dispone de gran
cantidad de informacin
en observatorios locales:
Precipitacin,
temperatura,
Viento, etc.
Los 6 primeros dgitos

(ao,mes y da)
Fechason fecha con el formato:aammdd
Tormenta
posicin 7: 0=Sin Precipitacin 1=Lluvia 3=Llovizna 5=Chubasco
posicin 8: 0=Sin Nieve 1,2,3 o 4=Nieve
posicin 9: 0=Sin Granizo 1,2,3 o 4=Granizo
posicin 10: 0=Sin Viento
Tormenta 1=Tormenta
Nieve
Escarcha
Granizo
posicin
11: 0=Sin Niebla 1,2,3 o 4=Niebla
Neblina
posicin 12: 0=Sin Roco 1 o 6=Roco
posicin 13: 0=Sin Escarcha 1 o 6=Escarcha
Nieve
Suelo cubriendo
Polvareda
posicin Roco
14: 0=Sin Nieve cubriendo el Suelo
1=Nieve
el Suelo
posicin 15: 0=Sin Neblina 1=Neblina
posicin 16: 0=Sin Calima 1=Calima
posicin 17: 0=Sin Viento>50km/h 1=Viento>50km/h
posicin 18: 0=SinPrecipitacin
Polvareda 1=Polvareda
Niebla
860101500000000010
860102100000000010
860103500100000010
860104500000000010
860105101100000010
860106101100000010
860107300100000010
860108500000000010
860109500000001000
860110000001001100
860111001000000000
Granizo
Fecha
Calima
Roco
Precipitacin
Neblina
Escarcha
Tormenta
Niebla
Nieve
Polvareda
Viento
Nieve Suelo
Data Mining: Practical Machine Learning Tools and

Techniques with Java Implementations
IanH.Witten,EibeFrank
Machine Learning and Data Mining

Open Soure Tools in Java
http://www.cs.waikato.ac.nz/~ml/weka/
Advances in Knowledge Discovery and Data Mining

Libros y Material de Consulta
EditedbyU.M.Fayyad,G.PiatetskyShapiro,P.Smyth,andR.Uthurusamy
The AAAI Press
Data Mining Techniques: For Marketing,

Sales, and Customer Support
By Michael J. Berry,Gordon Linoff
Wiley, John & Sons,
http://www1.fatbrain.com/FindItNow/Services/home.cl?from=cbs169&store=1
Libros disponibles en Internet
Expert Systems and Probabilistic Network

Models.
E. Castillo, J.M. Gutirrez, y A.S. Hadi
Springer-Verlag, New York.
Monografas de la Academia Espaola de
Ingeniera
An Introduction to Functional Networks

E. Castillo, A. Cobo, J.M. Gutirrez and E.
Pruneda
Kluwer Academic Publishers (1999).
Paraninfo/International Thomson
Publishing
The Data Mine provides information about Data Mining and Knowledge Discovery
in Databases (KDD).
http://www.cs.bham.ac.uk/~anp/TheDataMine.html
http://www.data-miners.com/
http://www.kdcentral.com/Software/Data_Mining/
http://www.andypryke.com/university/software.html
http://www.galaxy.gmu.edu/stats/syllabi/DMLIST.html
Enlaces Interesantes y Revistas
Journals
Data Mining and Knowledge Discovery.
http://www.wkap.nl/journalhome.htm/1384-5810
Intelligent Data Analysis

http://www.iospress.nl/site/html/1088467x.html
IEEE Trans. on Knowledge and Data Engineering

http://www.iospress.nl/site/html/1088467x.html
Related Journals (from IDA)

http://www.ida-society.org/journals.html
http://www.kdnuggets.com/
Portal dedicado a Data Mining, Web Mining

y Bsqueda de Conocimiento.
El Portal KDnuggets:
Productos Comerciales
Un Ejemplo: DBMiner.
http://www.dbminer.com
IBM DB2 Intelligent Miner
http://www.research.ibm.com/scout/
Using data mining software called Advanced Scout to

prepare for a game, a coach can quickly review countless
stats: shots attempted, shots blocked, assists made,
personal fouls. But Advanced Scout can also detect
patterns in these statistics that a coach may not have
known about. So during a game, a coach can know exactly
which plays are most effective with which players and under
what circumstances.
IBM Advanced Scout.
attribute focusing finds conditional ranges on attributes

where the distributions differ from the norm.
An analysis of the data from a game played between the New York Knicks and
the Charlotte Hornets revealed that when "Glenn Rice played the shooting guard
position, he shot 5/6 (83%) on jump shots."
Through data mining, Advanced Scout identified a certain player (Rice), playing a
certain position (shooting guard), shooting at a certain rate (83%), on a certain
type of shot (jump shots). Advanced Scout not only finds this pattern, but points
out that it is interesting because it differs considerably from the average shooting
percentage of 54% for the Charlotte Hornets during that game.
The Toolbox MeteoLab Data Mining in Meteorolog
http://etsiso2.macc.unican.es/~meteo
reglas y grafos.
Modelado de Dependencias (reglas de asociac
Agrupacin:
Clasificacin:
Prediccin:
Visualizacin:
Una de las tcnicas ms habituales en data mining consiste en extraer las relaciones
relevantes que existan entre conjuntos de variables (itemsets) de la base de datos.
De esta forma se pueden detectar errores, fraudes, e inconsistencias fcilmente.
En el caso de bases de datos relacionales trabajaramos con conjuntos formados por
pares (atributo # valor) utilizando los registros de la base de datos.
{Cliente = Pepe, Precio > 10$}
{Producto = Caf}
Relaciones entre atributos. Frmulas y Regla
Estas relaciones de asociacin se pueden establecer en distintas formas:
Reglas if-then "reglas de asociacin"

Son implicaciones de la forma X=>Y
if (X1= a, X3= c, X5= d) then (X4= b, X2= a)
La fiabilidad [confidence] es la proporcin de
Aquellos registros con X que tambin contienen
tambin a Y.
La relevancia [support] es la proporcin de
registros que contienen tanto X como Y.
If Cliente is Pepe
and Precio is lower than 10$
Then
Producto = Caf
confidence: 0.98
The rule exists in 102 records
Significance level: error prob < 0.001
Se buscan asociaciones de la forma:

(X1= a) <=> (X4= b)
De los n registros de la tabla, las dos igualdades
Son verdaderas o falsas simultneamente
en rc casos:
fiabilidad de la asociacin = rc /n
The value Pepe in the Cliente field

is associated with the value Caf in
the Producto field
Rules fiab: 0.8
Ejemplo:
Asociaciones
Reglas de Asociacin:
(Hijos > 0) => Casado (100%, 2 casos).
Casado => Obeso (100%, 3 casos).
Asociaciones:
Casado e (Hijos > 0) estn asociados (80%, 4 casos).
Obeso y casado estn asociados (80%, 4 casos)
Frmulas
La fiabilidad denota el cociente entre el

nmero de casos en que se cumple la
frmula (suponiendo un cierto error de
redondeo) y el nmero total de casos.
Reglas de hortografa.
Relaciones matemticas X=f(Y,Z)=Y*Z
Estas reglas permiten detectar errores de

ortografa. Un nombre es similar a otro pero
la frecuencia en que aparecen ambos es
muy diferente.
(Text Mining)
A= B * C
Where: A = Total
B = Cantidad
C = Precio
Rules Accuracy Level: 0.99
The rule exists in 1890 records
The value Pepe appears 52 times
in the Cliente field.
There are 2 case(s)
containing similar value(s)
{Pepr, Repe}
Ejemplo
Algoritmos de Bsqueda de Reglas de Asocia

FASE A: BSQUEDA DE GRANDES CONJUNTOS DE ATRIBUTOS.
Se buscan conjuntos de atributos con relevancia >= umbral. De momento no
se busca separarlos en parte izquierda y parte derecha.
FASE B: ESCLARECIMIENTO DE DEPENDENCIAS (REGLAS).
Se hacen particiones binarias y disjuntas de los conjuntos hallados y se calcula
la confianza de cada uno. Se retienen aquellas reglas que tienen
confianza >= umbral
La mayora se basa en descomponer el problema en dos fases:
Propiedad: cualquier subconjunto de un conjunto grande es tambin grande.

AIS es el primer algoritmo que se desarroll
para obtener reglas de asociacin.
X=>Y [s,c] donde
Y es un nico atributo,
s es la relevancia y
c su fiabilidad.
AIS[Agrawal,Imielinski&Swami]
R.Agrawal,T.Imielinsky&A.Swami
IBMAlmadenResearchCenter,1993
Fase A: Seleccin Grandes de Atributos

1. i = 1 (tamao de los conjuntos)
2. Generar un conjunto unitario en S1 para cada atributo.
3. Comprobar la relevancia de todos los conjuntos en Si.
Eliminar aquellos cuya relevancia < Rmin.
4. Combinar los conjuntos en Si
creando conjuntos de tamao i+1 en Si+1.
Dada una relevancia mnima Rmin:
Este paso se lleva a cabo secuencialmente, recorriendo los registros de la base de datos
siguiendo el contador i. Tras leer un registro de la base de datos, se hallan los conjuntos
relevantes Si contenidos en el mismo. Si+1 se genera extendiendo los conjuntos hallados
con otros atributos del registro.
5. Si Si no es vaco entonces i:= i+ 1. Ir a 3.

6. Si no , retornar S2 S3 ... Si
m 1)
Dados n registros y m atributos o(m 2
reglas posibles.
o( n m 2 m )
Complejidad computacional
relevancia = 2
confianza = 0.75
FASE A:
Ejemplo
S1 = {{1}, {2}, {3}, {4}, {5}}
S1:rel = {{1}:2, {2}:3, {3}:3, {5}:3}
S2 = {{1,2},{1,3},{1,5},{2, 3},{2, 5},{3, 5}}
S2:rel = {{1,3}:2, {2,3}:2, {2,5}:3, {3,5}:2}
S3 = {{1,2, 3}, {1,2, 5}, {1,3, 5}, {2,3, 5}}
S3:rel = {{2,3,5}:2}
Sfinal = S2 S3 = {{1, 3}, {2, 3}, {2, 5}, {3, 5}, {2,3,5}}
FASE B:
{1} {3} : 1
{2} {3} : 0.67
{2} {5} : 1
{3} {5} : 0.67
{2,3} {5} : 1
{3} {1} : 0.67

{3} {2} : 0.67
{5} {2} : 1
{5} {3} : 0.67
{2,5} {3} : 0.67
{3,5} {2} : 1
Fk : Set of frequent itemsets of size k

Ck : Set of candidate itemsets of size k
F1 = {single attribute sets} with minimum support
for ( k=2; Fk != 0; k++) do {
Ck+1 = New candidates generated from Fk
El Algoritmo APRIORI
foreach entry t in the database do

Increment the count of all candidates in Ck+1 contained in t
Fk+1 = Candidates in Ck+1 with minimum support
}
Answer = Uk Fk
Every subset of a frequent itemset is also frequent

=> a candidate itemset in Ck+1 can be pruned if even one of its
subsets is not contained in Fk
Estealgoritmorealizanmltiplespasadassobrelabasededatosparaobtenerlos
conjuntosdeatributosrelevantes.
Enlaprimerapasada,seobtienenlositemsindividualescuyarelevanciaalcanzael
umbralmnimopreestablecido:L[1]deconjuntosrelevante.
Enlassiguientesiteraciones,seutilizaelltimoconjuntoL[k]obtenidopara
generarunconjuntosde(k+1)atributospotencialmenterelevantes(elconjuntode
candidatosC[k+1])yseobtienelarelevanciadeestoscandidatosparaquedarnos
sloconaqullosquesonrelevantes,queincluimosenelconjuntoL[k+1].Este
procesoserepitehastaquenoseencuentranmsitemsetsrelevantes.
Fase de Combinacin
EnelalgoritmoAIS,loscandidatossegenerabansobrelamarcha,conformeseibanleyendo
registrosdelabasededatos.Segeneraninnecesariamenteconjuntoscandidatosquedepors
nuncapuedenllegaraserrelevantes.
Porsuparte,enAprioriloscandidatossegeneranapartirdelosconjuntosrelevantes
encontradosenlaiteracinanterior,nicayexclusivamente.Laideasubyacenteesque,dado
unitemsetrelevante,cualquiersubconjuntosuyotambinesrelevante.
Porlotanto,losconjuntosdekatributoscandidatosdelconjuntoC[k]puedengenerarsea
partirdelconjuntoL[k1].
Database D
TID
1
2
3
4
Ejemplo
Items
{1, 3, 4}
{2, 3, 5}
{1, 2, 3, 5}
{2, 5}
Scan D
C2
Itemset
{2, 3}
{2, 5}
{3, 5}
F1
C1
Itemset
{1}
{2}
{3}
{4}
{5}
Sup.
2
3
3
1
3
C2
Scan D
{2, 3}
{2, 5}
{3, 5}
Itemset
{2}
{3}
{5}
Sup.
3
3
3
F2
2
3
2
Itemset
{2, 5}
Sup.
3
La lgica proporciona un entorno para representar conocimiento en el que es

fcil razonar.
eg1. John is a human
every human are mortals
therefore
John is mortal.
Lgica
In logic:
human(John)
h(human(h) mortal(h))
therefore: human(John) mortal(John)
therefore: mortal(John)
elim. rule
elim. rule
Las expresiones lgicas se construyen en base a un conjunto reducido de

smbolos y cuantificadores.
Smbolos lgicos
~ NOT
AND
Cuantificadores
FOR ALL
THERE EXISTS
OR
IMPLIES
Lgica. Representacin de Conocimiento

con LPC
1. Variables p, q, r,... are in LPC. We call the above variables:

statements.
undeterminate
2. If a statement A is in LPC and a statement B is in LPC , then

the statement (A&B) is in LPC .Similarly for the symbols: , .
3. If a statement A is in LPC, then the statement ~A is in LPC .
A language of PC, call it LPC is defined by the following rules:
LPC is a set of statements which represent useful logical expressions for a

given problem
(~AB)
(((AB)&(AB)B)
Using the above rules and some other logical inference techniqes it is easy to
reason on a given problem.
Natural deduction uses the definition of logical symbols for eliminating, or

introducing, knowledge on a given expression.
Elimination Rules
A B
A
Inferencia Lgica. Deduccin natural.
A B
A B
B
[A] [B]
: :
C C
C
AB
B
A A
:
:
:
:
C ~C
Introduction Rules
A
A B
A
A B
B
A B
[A]
:
B
.
AB
A
A
:
:
~A
A
:
:
~A
~~
~ ~
~ ~ ~
~ ~ ~
Tablas de Verdad y Leyes Lgicas

~
~

Reglas de Inferencia Lgica.
~
~
hallar asociaciones entre variables
redes Bayesianas
Modelado de Dependencias (redes Bayesianas
Agrupamiento:
hallar grupos de elementos
Clasificacin:
asignar elementos a clases
Prediccin:
estimacin de valores
Visualizacin:
Redes Neuronales
Algunos problemas involucran

gran nmero de variables y se
conocen ciertas relaciones de
independencia entre ellas.
Obtener un modelo probabilstico
Redes Probabilsticas. Redes Bayesianas
Cto. de
relaciones
Cto. de variables
aleatorias
I(X,Y|Z) M
{X 1 , X 2 , ..., X n }
Lluvia Nieve Granizo Tormenta Niebla ...

5
1
5
0
0
0
0
0
0
0
0
1
0
0
0
...
...
...
Relaciones de dependencia
Mediante un grafo dirigido donde cada
variable tiene sus antecedentes.
Funcin de
probabilidad conjunta
P(X 1 , X 2 , ..., Xn )
Factorizacin de la probabilidad !!
n
P (x1, . . . , xn ) = P i (xi | i )
i=1
Cuantificacin
Funciones de prob.
condicionada.
Inicialmente los
distintos estados de
las variables de la
red tienen
probabilidades que
corresponden al
estado de
conocimiento inicial
(sin evidencia).
Clculo de
probabilidades
Cuando se tiene
alguna evidencia, las
nuevas
probabilidades
condicinadas dan la
influencia de esta
informacin en el
resto de variables
Tormenta = 1
reglas y grafos.
Componentes Principales e Indepenedientes
Agrupacin:
Clasificacin:
Prediccin:
Visualizacin:
Problemas con datos de alta dimensionalidad

Hypercube
in d dimensions
(David Scott, Multivariate Density Estimation, Wiley, 1992)

Hypersphere
in d dimensions
Volume of sphere relative to cube in d dimensions?
Dimension
Rel. Volume
0.79
0.53
0.31
0.16
0.08
0.04
high-d, uniform => most data points will be out at the corners
high-d space is sparse: and non-intuitive
Datos Aleatorios Gaussianos

Anlisis de Componentes Principales
Y k M Xk
Maximizar
varianza
X xi k Ei
i1
r
cik Vi ,
i 1
Ejemplos y casos a estudiar
Datos Aleatorios NO-Gaussianos

Anlisis de Componentes Independientes
X k M Sk
X es la mezcla de m seales S
Independientes. Dada X:
yi k wiT X k
Indep.
Maximizar
independencia
Y k M Xk
Datos Aleatorios Gaussianos

Anlisis de Componentes Principales
Maximizar
varianza
Ejemplos y casos a estudiar
...
Datos Aleatorios NO-Gaussianos

Anlisis de Componentes Independientes
Maximizar
independencia
Sistemas Deterministas (Caos determinista)

Estimacin No-Paramtrica
Y k F(X k )
Estimar F
El Reanlisis del ECMWF

proporciona una base de
datos de salidas del modelo
numrico.
Serie diaria 1979-1993
a las 0, 6, 12 y 18 horas.
En cada uno de los nodos
5 variables Z, T, U , V y H
7 niveles de presin
Base de Datos de Re-Anlisis del Centro Europeo
Sup
erfcie1000
mb 925mb 850mb 700mb 500mb 300mb
Geop 1080 2142 8335 14953 29851 54508 89058
Temp 282
279
274 270 264 246 226
U
-8
-7
-4
0
8
23
55
V
5
4
4
2
-6
-15
-30
Hrel
278
83
81
88
57
56
50
Tabla1: Ejemplo
delaestructura
delosdatos
enlabase
dedatos
ERA
(2deEnerode1979).
We used atmospheric circulation patterns at

1200 UTC of ERA-15 (1979-1993) reanalysis
data
P=(T(1ooo mb),..., T(500 mb); Z(1ooo mb),..., Z(500 mb); .......; H(1ooo mb),..., H(500 mb))
6000
dimensional
Using Principal !!!!
P is
Componentes Principales. Primera Opcin
Components the
dimension can be
reduced to 500 600.
La configuracin atmosfrica de un da concreto viene dada por un

campo (X,Y,Z) para cada T=0, 6, 12 y 18 horas
X vi k Ei
i1
r
Componentes Principales. Alternativas
CPs (X,Y) para cada Z y T

CPs (X,Y,Z) para cada T
CPs (X,Y,T) para cada Z
CPs (X,Y,Z,T)
cik Vi ,
i 1
k 1,2,...,n
k
Si los vectores X
son realizaciones
de una variable
Gaussiana, los Vi
ptimos son los
autovectores de
la matrix de
covarianza.
Componentes Principales con MeteoLab
(seales NO
El ECG abodominal de una mujer embarazada presenta rastros del

ECG fetal. Por tanto, una alternativa a los mtodos invasivos consiste
en separar ambas seales a partir de una, o varias, mediciones del
ECG materno.
ECGs abdominales de una mujer
Componentes Independientes. Biologa
Picos del ECG fetal
X k M Sk
X es la mezcla de m seales S independientes.
yi k wiT X k wiT M S k zi T S k
- No se puede estimar la varianza de las seales.
- Las seales S tienen que ser NO-Gaussianas.
Separacin de Seales con Componenetes Independ
Se trata de encontrar
wi
que maximizan la NO-Gaussianidad de .
yi wiT X
Equivale a minimizar:
H(yi ) f (yi )log yi
Manteniendo Var(yi) constante.
Equivalentemente, tambin se puede minimizar la informacin mutua:
I(y1,..., yn )
Para el problema de la extraccin del ECG fetal, se tienen cinco

seales de ECG maternas (las cinco primeras seales son ECGs
abdominales y las tres restantes son ECGs torcicos). Aplicando el
algoritmo FASTICA resulta:
Learning data
1. sunny, 85, 85, FALSE, no

sunny, hot, high, FALSE, no
2. sunny, 80, 90, TRUE, no
sunny, hot, high, TRUE, no
3. overcast, 83, 86, FALSE, yes
overcast, hot, high, FALSE, yes
4. rainy, 70, 96, FALSE, yes
rainy, mild, high, FALSE, yes
rainy, cool, normal, FALSE, yes
6. rainy, 65, 70, TRUE, no
rainy, cool, normal, TRUE, no
7. overcast, 64, 65, TRUE, yes
overcast, cool, normal, TRUE, yes
8. sunny, 72, 95, FALSE, no
sunny, mild, high, FALSE, no
9. sunny, 69, 70, FALSE, yes
sunny, cool, normal, FALSE, yes
rainy, mild, normal, FALSE, yes
11. sunny, 75, 70, TRUE, yes
sunny, mild, normal, TRUE, yes
12. overcast, 72, 90, TRUE, yes
overcast, mild, high, TRUE, yes
13. overcast, 81, 75, FALSE, yes
overcast, hot, normal, FALSE, yes
14. rainy, 71, 91, TRUE, no
rainy, mild, high, TRUE, no
----------------------------------------------------------------------------------Decision list
----------------------------------------------------------------------------------Numeric attributes
Nominal attributes
-----------------------------------------------------------------------------------
----------------------------------------------------------------------------------outlook = overcast: yes (4)

outlook = overcast: yes (4)
windy = TRUE: no (4/1)
outlook = sunny: no (3/1)
: yes (5/1)
: yes (3)
----------------------------------------------------------------------------------Decision trees
----------------------------------------------------------------------------------outlook = sunny
outlook = sunny
humidity <= 75: yes (2)
humidity = high: no (3)
humidity > 75: no (3)
humidity = normal: yes (2)
outlook = rainy
outlook = rainy
windy = TRUE: no (2)
windy = TRUE: no (2)
windy = FALSE: yes (3)
windy = FALSE: yes (3)
-----------------------------------------------------------------------------------
One attribute rules (1R)

----------------------------------------------------------------------------------outlook:
sunny -> no
overcast -> yes
rainy -> yes
(10/14 instances correct)
outlook:
sunny -> no
overcast -> yes
rainy -> yes
(10/14 instances correct)
----------------------------------------------------------------------------------Association rules (nominal attributes only)

----------------------------------------------------------------------------------1. humidity=normal windy=FALSE 4 ==> play=yes 4 (1)
2. temperature=cool 4 ==> humidity=normal 4 (1)
3. outlook=overcast 4 ==> play=yes 4 (1)
4. temperature=cool play=yes 3 ==> humidity=normal 3 (1)
5. outlook=rainy windy=FALSE 3 ==> play=yes 3 (1)
6. outlook=rainy play=yes 3 ==> windy=FALSE 3 (1)
7. outlook=sunny humidity=high 3 ==> play=no 3 (1)
8. outlook=sunny play=no 3 ==> humidity=high 3 (1)
9. temperature=cool windy=FALSE 2 ==> humidity=normal play=yes 2 (1)
10. temperature=cool humidity=normal windy=FALSE 2 ==> play=yes 2 (1)
----------------------------------------------------------------------------------K-Nearest Neighbor (k-NN)
----------------------------------------------------------------------------------15. sunny, mild, normal, weak, ?
------------------------------------------------| X
| 8 | 9 | 10 | 11 | 1 | ... | 14 |
|--------
|----|-----|-----|-----|----|-----|----|
|d(15,X)
| 1 | 1 | 1 | 1 | 2 | ... | 3 |
|--------
|----|-----|-----|-----|----|-----|----|
| Play
| no | yes | yes | yes | no | ... | no |
-----------------------------------------------------------------------------------------------------------------------------------

DataMining I

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

DataMining I

Cargado por

Copyright:

Formatos disponibles

Extraccin de Conocimiento en

Grandes Bases de Datos

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

3. Extraccin de informacin y modelizacin:

- Breve introduccin histrica.

- Descripcin del problema.

El Mundo de la Informacin y sus Problemas.

La tecnologa es barata y los sistemas de gestin de bases de datos

Los datos contienen informacin til "CONOCIMIENTO" !!!

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Necesitamos extraer informacin (conocimiento) de estos datos:

WalMart captura transacciones de 2900 tiendas en 6 pases. Esta informacin e acumula en

Datos, Informacin y Conocimiento.

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Qu diferencias hay entre informacin, datos y conocimiento?

La necesidad de almacenar informacin ha motivado histricamente el desarrollo de

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Acceso a los Datos. Evolucin histrica.

Bases de datos relacionales.

DBMS (Data Base Management Systems) y repositorios de informacin:

Sobre estas mismas bases de datos de trabajo ya se puede extraer conocimiento

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

OLAP (On-Line Analytical Processing)

MOLAP (Multidim OLAP): el almacn de datos es una matriz multidimensional.

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Data Warehouses. Gnesis.

Disturba el trabajo transaccional diario de los sistemas de informacin originales (

DATA-WAREHOUSES (Almacenes de Datos): Se separan de los datos a

Facilita el anlisis de los datos en tiempo real (OLAP),

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

No disturba el OLTP de las bases de datos originales.

Limpieza y criba seleccin de datos:

Se aplican mtodos estadsticos:

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Construccin de un Data Warehouse

Muy relacionado con la disciplina de Calidad de Datos.

Acciones ante datos anmalos (outliers):

Acciones ante datos faltantes (missing values):

the non trivial extraction of implicit,

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Qu es Data Mining (minera de datos)?

En los sistemas estndar de gestin de bases de datos las

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Diferencias entre DBMS y Data Mining

Los sistemas de data mining infieren conocimiento de la base

Acceso a Datos vs. Acceso a Conocimiento

El usuario solicita datos y procesa los datos

SQL + algoritmos de data mining.

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Paradigma de Acceso a Datos:

PQL = Pattern Query Languaje

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Data Mining and Business Intelligence

variety of techniques to identify nuggets of information or decision-making

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Multidisciplinar. Areas y Tcnicas Involucrada

Estadstica y Ciencias de la Computacin

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)

Extraccin automtica de conocimiento

Bases de datos masivas

1989 KDD workshop

ACM SIGKDD 2000

Jos Manuel Gutirrez, Universidad de Cantabria. (2007)