Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Extracción de Conocimiento en
José Manuel Gutiérrez, Universidad de Cantabria. (2007)
José M. Gutiérrez
Dpto. de Matemática Aplicada,
Universidad de Cantabria, Santander
http://personales.unican.es/gutierjm
Objetivos y Contenidos
Hoy día, se entiende por minería de datos aquella disciplina que estudia la extracción
automática de información sintetizada, relevante y con capacidad predictiva a partir de grandes
José Manuel Gutiérrez, Universidad de Cantabria. (2007)
bases de datos. Bajo este nombre se han agrupado recientemente diversas técnicas clásicas y
modernas enfocadas a la visualización, análisis, y modelización de procesos a partir de grandes
cantidades de datos (data warehouse de entidades financieras, comercio electrónico, empresas de
marketing, industria, etc.). En este curso se pretende introducir al alumno en los conocimientos
teóricos y prácticos involucrados en la minería de datos, utilizando diversos supuestos
prácticos reales para ilustrar los distintos conceptos expuestos. Se trata de mostrar una
panorámica actual de las técnicas involucradas y de introducir las herramientas informáticas
necesarias para su aplicación práctica.
Rapidez y confiabilidad.
¿Qué es aprendizaje?
Cada atributo relevante se establece en una dimensión, que se puede agregar o desagregar.
Data Warehouses. Génesis.
José Manuel Gutiérrez, Universidad de Cantabria. (2007)
PROBLEMAS:
http://personales.unican.es/gutierjm
Para poder operar eficientemente con esos datos y debido a que los
costes de almacenamiento masivo y conectividad se han reducido
drásticamente en los últimos años, parece razonable recoger (copiar) los
datos en un sistema unificado.
Data Warehouses
DATA-WAREHOUSES (Almacenes de Datos): Se separan de los datos a
analizar con respecto a sus fuentes transaccionales (se copia/ almacena toda
José Manuel Gutiérrez, Universidad de Cantabria. (2007)
la información histórica).
Existe toda una tecnología creciente de cómo organizarlos y sobretodo de cómo
tenerlos actualizados (cargas periódicas) respecto a los datos originales
VENTAJAS:
A partir de ahora
diferenciaremos
entre bases de
datos para OLTP
(tradicional) y
almacenes de datos
(KDD sobre data
warehouses).
Construcción de un Data Warehouse
Data
Warehouse Limpieza y criba selección de datos:
José Manuel Gutiérrez, Universidad de Cantabria. (2007)
Pattern
useful information from data Evaluation
W. Frawley and G. Piatetsky-Shapiro and C. Matheus,
Knowledge Discovery in Databases: An Overview.
AI Magazine, Fall 1992, 213-228.
Data Mining
Task-relevant
Data
http://personales.unican.es/gutierjm
Data Selection
Warehouse Datos imprecisos e
incompletos
Data Cleaning
almacenados en
Data Integration múltiples fuentes
Heterogéneos y
Databases mezclados.
Diferencias entre DBMS y Data Mining
Increasing potential
to support
business decisions End User
Making
Decisions
Data Exploration
Statistical Analysis, Querying and Reporting
put to use in the areas such as decision support, prediction, forecasting and
estimation. The data is often voluminous, but as it stands of low value as no direct
use can be made of it; it is the hidden information in the data that is useful.
MINERIA DE DATOS
Focus Areas
Padhraic Smyth. Information and Computer Science
University of California, Irvine
José Manuel Gutiérrez, Universidad de Cantabria. (2007)
Computer Science
Statistics
Técnicas Nuevos
Clásicas Paradigmas
Inspiración Biológica
Representación
http://personales.unican.es/gutierjm
explícita del
conocimiento
sentencias lógicas,
reglas,
grafos,
redes semánticas, etc.
Imitación del
proceso humano de
razonamiento
Inferencia lógica, Procesamiento en serie
de la información
búsqueda en grafos
Multidisciplinar. Areas y Técnicas Involucradas
variety of techniques to identify nuggets of information or decision-making
knowledge in bodies of data, and extracting these in such a way that they can be
José Manuel Gutiérrez, Universidad de Cantabria. (2007)
put to use in the areas such as decision support, prediction, forecasting and
estimation. The data is often voluminous, but as it stands of low value as no direct
use can be made of it; it is the hidden information in the data that is useful.
Modelado de Dependencias:
Técnicas Involucradas
asociaciones entre variables.
reglas y grafos (redes Bayesianas).
Componentes Principales:
compresión de la información.
http://personales.unican.es/gutierjm
Componentes Independientes:
extracción de características.
Agrupación:
hallar grupos de elementos.
Clasificación:
asignar elementos a clases.
Predicción:
estimación de valores.
Visualización:
representación gráfica.
Hot Topics (Statistics and Machine Learning)
Padhraic Smyth
Information and Computer Science
José Manuel Gutiérrez, Universidad de Cantabria. (2007)
Models
Classification
Belief Trees
Deformable Mixture/
Networks
Templates Factor Models
Association
Rules
Hidden Support
Markov Model Vector
Models Combining Machines
Objetivos. Un Primer Ejemplo
Asociación:
José Manuel Gutiérrez, Universidad de Cantabria. (2007)
Clasificación:
Escherichia Coli
176195 bases
gccattacct
http://personales.unican.es/gutierjm
ctggtctgga
agtagtctgg
acccagacgc
cgacccagtg WP4: TESTBED
gagcaactat http://www.ifca.unican.es/crossgrid/
ttcttcgaga Secuencias numéricas
Secuencia acctgttcaa Electrocardiogramas, etc.
gtatgagtgg
Simbólica
EJEMPLO !!!!!!!!!!!!!!!!!!
Ejemplo. Meteorología.
Meteorología. Teleconexiones (asociaciones espaciales), predicción.
José Manuel Gutiérrez, Universidad de Cantabria. (2007)
Se dispone de gran
cantidad de información
en observatorios locales:
Precipitación,
temperatura,
Viento, etc.
Los 6 primeros dígitos
Fecha son fecha con el formato:aammdd (año,mes y día)
Tormenta
posición 7: 0=Sin Precipitación 1=Lluvia 3=Llovizna 5=Chubasco
posición 8: 0=Sin Nieve 1,2,3 o 4=Nieve
posición 9: 0=Sin Granizo 1,2,3 o 4=Granizo
posición 10: 0=SinViento
Tormenta 1=Tormenta
Granizo Nieve Escarcha
posición 11: 0=Sin Niebla 1,2,3 o 4=Niebla
José Manuel Gutiérrez, Universidad de Cantabria. (2007)
Neblina
posición 12: 0=Sin Rocío 1 o 6=Rocío
posición 13: 0=Sin Escarcha 1 o 6=Escarcha
Nieve Suelo cubriendo
Polvareda
posiciónRocío
14: 0=Sin Nieve cubriendo el Suelo 1=Nieve el Suelo
posición 15: 0=Sin Neblina 1=Neblina
posición 16: 0=Sin Calima 1=Calima
posición 17: 0=Sin Viento>50km/h 1=Viento>50km/h
Precipitación
posición 18: 0=Sin Polvareda 1=Polvareda Niebla
860101500000000010
http://personales.unican.es/gutierjm
Ian H. Witten, Eibe Frank
http://www.cs.waikato.ac.nz/~ml/weka/
Edited by U.M. Fayyad, G. PiatetskyShapiro, P. Smyth, and R. Uthurusamy
http://www1.fatbrain.com/FindItNow/Services/home.cl?from=cbs169&store=1
Libros disponibles en Internet
José Manuel Gutiérrez, Universidad de Cantabria. (2007)
http://www.cs.bham.ac.uk/~anp/TheDataMine.html
http://www.data-miners.com/
http://www.kdcentral.com/Software/Data_Mining/
http://www.andypryke.com/university/software.html
http://www.galaxy.gmu.edu/stats/syllabi/DMLIST.html
Journals
http://personales.unican.es/gutierjm
An analysis of the data from a game played between the New York Knicks and
the Charlotte Hornets revealed that when "Glenn Rice played the shooting guard
position, he shot 5/6 (83%) on jump shots."
Through data mining, Advanced Scout identified a certain player (Rice), playing a
certain position (shooting guard), shooting at a certain rate (83%), on a certain
type of shot (jump shots). Advanced Scout not only finds this pattern, but points
out that it is interesting because it differs considerably from the average shooting
percentage of 54% for the Charlotte Hornets during that game.
José Manuel Gutiérrez, Universidad de Cantabria. (2007)
http://personales.unican.es/gutierjm
http://etsiso2.macc.unican.es/~meteo
The Toolbox “MeteoLab” Data Mining in Meteorology
Modelado de Dependencias (reglas de asociación)
José Manuel Gutiérrez, Universidad de Cantabria. (2007)
Modelado de Dependencias:
asociaciones entre variables.
reglas y grafos.
Componentes Principales:
compresión de la información.
Componentes Independientes:
http://personales.unican.es/gutierjm
extracción de características.
Agrupación:
hallar grupos de elementos.
Clasificación:
asignar elementos a clases.
Predicción:
estimación de valores.
Visualización:
representación gráfica.
Relaciones entre atributos. Fórmulas y Reglas.
Una de las técnicas más habituales en data mining consiste en extraer las relaciones
relevantes que existan entre conjuntos de variables (itemsets) de la base de datos.
José Manuel Gutiérrez, Universidad de Cantabria. (2007)
Ejemplo:
http://personales.unican.es/gutierjm
Reglas de Asociación:
(Hijos > 0) => Casado (100%, 2 casos).
Casado => Obeso (100%, 3 casos).
Asociaciones:
Casado e (Hijos > 0) están asociados (80%, 4 casos).
Obeso y casado están asociados (80%, 4 casos)
Fórmulas A=B*C
Where: A = Total
Relaciones matemáticas X=f(Y,Z)=Y*Z
B = Cantidad
José Manuel Gutiérrez, Universidad de Cantabria. (2007)
Reglas de hortografía.
The value Pepe appears 52 times
in the Cliente field.
Estas reglas permiten detectar errores de
ortografía. Un nombre es similar a otro pero
http://personales.unican.es/gutierjm
Este paso se lleva a cabo secuencialmente, recorriendo los registros de la base de datos
siguiendo el contador i. Tras leer un registro de la base de datos, se hallan los conjuntos
relevantes Si contenidos en el mismo. Si+1 se genera extendiendo los conjuntos hallados
con otros atributos del registro.
relevancia = 2
confianza = 0.75
FASE A:
S1 = {{1}, {2}, {3}, {4}, {5}} S’1:rel = {{1}:2, {2}:3, {3}:3, {5}:3}
S2 = {{1,2},{1,3},{1,5},{2, 3},{2, 5},{3, 5}} S’2:rel = {{1,3}:2, {2,3}:2, {2,5}:3, {3,5}:2}
S3 = {{1,2, 3}, {1,2, 5}, {1,3, 5}, {2,3, 5}} S’3:rel = {{2,3,5}:2}
http://personales.unican.es/gutierjm
Sfinal = S’2 S’3 = {{1, 3}, {2, 3}, {2, 5}, {3, 5}, {2,3,5}}
FASE B:
{1} {3} : 1 {3} {1} : 0.67
{2} {3} : 0.67 {3} {2} : 0.67
{2} {5} : 1 {5} {2} : 1
{3} {5} : 0.67 {5} {3} : 0.67
{2,3} {5} : 1 {2,5} {3} : 0.67 {3,5} {2} : 1
El Algoritmo APRIORI
• Fk : Set of frequent itemsets of size k
José Manuel Gutiérrez, Universidad de Cantabria. (2007)
En la primera pasada, se obtienen los items individuales cuya relevancia alcanza el
umbral mínimo preestablecido: L[1] de conjuntos relevante.
En las siguientes iteraciones, se utiliza el último conjunto L[k] obtenido para
generar un conjuntos de (k+1) atributos potencialmente relevantes (el conjunto de
candidatos C[k+1]) y se obtiene la relevancia de estos candidatos para quedarnos
sólo con aquéllos que son relevantes, que incluimos en el conjunto L[k+1]. Este
proceso se repite hasta que no se encuentran más itemsets relevantes.
http://personales.unican.es/gutierjm
En el algoritmo AIS, los candidatos se generaban sobre la marcha, conforme se iban leyendo
registros de la base de datos. Se generan innecesariamente conjuntos candidatos que de por sí
nunca pueden llegar a ser relevantes.
Por su parte, en Apriori los candidatos se generan a partir de los conjuntos relevantes
encontrados en la iteración anterior, única y exclusivamente. La idea subyacente es que, dado
un itemset relevante, cualquier subconjunto suyo también es relevante.
Por lo tanto, los conjuntos de k atributos candidatos del conjunto C[k] pueden generarse a
partir del conjunto L[k1].
Ejemplo
José Manuel Gutiérrez, Universidad de Cantabria. (2007)
Database D C1 F1
TID Items Itemset Sup. Itemset Sup.
Scan D
1 {1, 3, 4} {1} 2 {2} 3
2 {2, 3, 5} {2} 3 {3} 3
3 {1, 2, 3, 5} {3} 3 {5} 3
4 {2, 5} {4} 1
{5} 3
http://personales.unican.es/gutierjm
C2 C2 F2
Itemset {2, 3} 2 Itemset Sup.
Scan D
{2, 3} {2, 5} 3 {2, 5} 3
{2, 5} {3, 5} 2
{3, 5}
Lógica
La lógica proporciona un entorno para representar conocimiento en el que es
fácil razonar.
José Manuel Gutiérrez, Universidad de Cantabria. (2007)
In logic:
human(John)
h(human(h) mortal(h))
http://personales.unican.es/gutierjm
• Cuantificadores
FOR ALL THERE EXISTS
Lógica. Representación de Conocimiento
con LPC
A language of PC, call it LPC is defined by the following rules:
José Manuel Gutiérrez, Universidad de Cantabria. (2007)
• (~AB)
• (((AB)&(AB)B)
Using the above rules and some other logical inference techniqes it is easy to
reason on a given problem.
Inferencia Lógica. Deducción natural.
Natural deduction uses the definition of logical symbols for eliminating, or
introducing, knowledge on a given expression.
José Manuel Gutiérrez, Universidad de Cantabria. (2007)
C
[A]
AB A :
B B .
AB
A A A A
: : : :
: : : :
C ~C .
~A .
~A
Tablas de Verdad y Leyes Lógicas
José Manuel Gutiérrez, Universidad de Cantabria. (2007)
• ~(~P)=P
• (P Q)=(~P Q)[or(~ P Q)=(P Q)]
• DeMorgan’slaws:
~(P Q)=(~P ~Q)
~(P Q)=(~P ~Q)
• Distributivelaws:
P (Q R)=(P Q)(P R)
P (Q R)=(P Q) (P R)
http://personales.unican.es/gutierjm
Reglas de Inferencia Lógica.
José Manuel Gutiérrez, Universidad de Cantabria. (2007)
• Modusponens
IfPistrueandP Qistrue
thenQistrue
• Modustolens
ifP QistrueandQisfalseor~Qistrue
then~Pistrue
e.g.,sick(student) not_attend_lecture(student)
http://personales.unican.es/gutierjm
~not_attend_lecture(student)
produces:~sick(student)
• Elimination
ifP Qistrue
thenPistrueandQistrue
Modelado de Dependencias (redes Bayesianas)
José Manuel Gutiérrez, Universidad de Cantabria. (2007)
Componentes Principales:
compresión de la información.
Componentes Independientes:
extracción de características.
Modelado de Dependencias:
hallar asociaciones entre variables
redes Bayesianas
Agrupamiento:
http://personales.unican.es/gutierjm
Función de
probabilidad conjunta
P(X 1 , X 2 , ..., Xn )
Factorización de la probabilidad !!
n
Cuantificación
P (x1, . . . , xn ) = P P i (x i |pi )
Funciones de prob.
i=1
condicionada.
Cálculo de
probabilidades
Inicialmente los
José Manuel Gutiérrez, Universidad de Cantabria. (2007)
distintos estados de
las variables de la
red tienen
probabilidades que
corresponden al
estado de
conocimiento inicial
(sin evidencia).
http://personales.unican.es/gutierjm
Cuando se tiene
alguna evidencia, las
nuevas
probabilidades
condicinadas dan la
influencia de esta
información en el
resto de variables
Tormenta = 1
Componentes Principales e Indepenedientes
José Manuel Gutiérrez, Universidad de Cantabria. (2007)
Modelado de Dependencias:
asociaciones entre variables.
reglas y grafos.
Componentes Principales:
compresión de la información.
Componentes Independientes:
extracción de características.
http://personales.unican.es/gutierjm
Agrupación:
hallar grupos de elementos.
Clasificación:
asignar elementos a clases.
Predicción:
estimación de valores.
Visualización:
representación gráfica.
Problemas con datos de alta dimensionalidad
(David Scott, Multivariate Density Estimation, Wiley, 1992)
José Manuel Gutiérrez, Universidad de Cantabria. (2007)
Hypercube
in d dimensions
Hypersphere
in d dimensions
http://personales.unican.es/gutierjm
Dimension 2 3 4 5 6 7
Rel. Volume 0.79 0.53 0.31 0.16 0.08 0.04
• high-d, uniform => most data points will be “out” at the corners
• high-d space is sparse: and non-intuitive
Ejemplos y casos a estudiar Y k = M Xk
d
k
X = xi k Ei
i=1
r
cik Vi ,
i =1
http://personales.unican.es/gutierjm
X k = M Sk
X es la mezcla de m señales S
Independientes. Dada X:
yi k = wiT X k Indep.
Ejemplos y casos a estudiar Y k = M Xk
Datos Aleatorios Gaussianos
Análisis de Componentes Principales
José Manuel Gutiérrez, Universidad de Cantabria. (2007)
Maximizar
varianza ...
Maximizar
independencia
Sup
erfcie1000mb 925mb 850mb 700mb 500mb 300mb
Geop 1080 2142 8335 14953 29851 54508 89058
Temp 282 279 274 270 264 246 226
U -8 -7 -4 0 8 23 55
V 5 4 4 2 -6 -15 -30
Hrel 278 83 81 88 57 56 50
Tabla1:Ejemplo
delaestructura
delosdatosenlabasededatosERA
(2deEnerode1979).
Componentes Principales. Primera Opción
We used atmospheric circulation patterns at
1200 UTC of ERA-15 (1979-1993) reanalysis
José Manuel Gutiérrez, Universidad de Cantabria. (2007)
data
P=(T(1ooo mb),..., T(500 mb); Z(1ooo mb),..., Z(500 mb); .......; H(1ooo mb),..., H(500 mb))
P is6000
dimensional
Using Principal !!!!
Components the
dimension can be
reduced to 500 – 600.
http://personales.unican.es/gutierjm
Componentes Principales. Alternativas
d
k
X = vi k Ei
i=1
r
CPs (X,Y) para cada Z y T cik Vi ,
CPs (X,Y,Z) para cada T i =1
http://personales.unican.es/gutierjm
ECG fetal. Por tanto, una alternativa a los métodos invasivos consiste
en separar ambas señales a partir de una, o varias, mediciones del
ECG materno.
yi k = wiT X k = wiT M S k = zi T S k
wi
Se trata de encontrar que maximizan la NO-Gaussianidad de .
http://personales.unican.es/gutierjm
yi = wiT X
Equivale a minimizar:
¿ ?
http://personales.unican.es/gutierjm
Learning data
One attribute rules (1R)
-----------------------------------------------------------------------------------
Numeric attributes Nominal attributes -----------------------------------------------------------------------------------
-----------------------------------------------------------------------------------
outlook: outlook:
1. sunny, 85, 85, FALSE, no sunny, hot, high, FALSE, no sunny -> no sunny -> no
2. sunny, 80, 90, TRUE, no sunny, hot, high, TRUE, no overcast -> yes overcast -> yes
3. overcast, 83, 86, FALSE, yes overcast, hot, high, FALSE, yes rainy -> yes rainy -> yes
José Manuel Gutiérrez, Universidad de Cantabria. (2007)
4. rainy, 70, 96, FALSE, yes rainy, mild, high, FALSE, yes (10/14 instances correct) (10/14 instances correct)
5. rainy, 68, 80, FALSE, yes rainy, cool, normal, FALSE, yes
-----------------------------------------------------------------------------------
6. rainy, 65, 70, TRUE, no rainy, cool, normal, TRUE, no
7. overcast, 64, 65, TRUE, yes overcast, cool, normal, TRUE, yes Association rules (nominal attributes only)
8. sunny, 72, 95, FALSE, no sunny, mild, high, FALSE, no
-----------------------------------------------------------------------------------
9. sunny, 69, 70, FALSE, yes sunny, cool, normal, FALSE, yes
10. rainy, 75, 80, FALSE, yes rainy, mild, normal, FALSE, yes 1. humidity=normal windy=FALSE 4 ==> play=yes 4 (1)
11. sunny, 75, 70, TRUE, yes sunny, mild, normal, TRUE, yes 2. temperature=cool 4 ==> humidity=normal 4 (1)
12. overcast, 72, 90, TRUE, yes overcast, mild, high, TRUE, yes 3. outlook=overcast 4 ==> play=yes 4 (1)
13. overcast, 81, 75, FALSE, yes overcast, hot, normal, FALSE, yes 4. temperature=cool play=yes 3 ==> humidity=normal 3 (1)
14. rainy, 71, 91, TRUE, no rainy, mild, high, TRUE, no 5. outlook=rainy windy=FALSE 3 ==> play=yes 3 (1)
----------------------------------------------------------------------------------- 6. outlook=rainy play=yes 3 ==> windy=FALSE 3 (1)
7. outlook=sunny humidity=high 3 ==> play=no 3 (1)
Decision list
8. outlook=sunny play=no 3 ==> humidity=high 3 (1)
----------------------------------------------------------------------------------- 9. temperature=cool windy=FALSE 2 ==> humidity=normal play=yes 2 (1)
http://personales.unican.es/gutierjm