dm3 PDF

También podría gustarte

Está en la página 1de 31

Temario

Minería de Datos 1. Introducción a la Minería de Datos (DM)


1.1. Motivación
1.2. Problemas tipo y aplicaciones
1.3. Relación de DM con otras disciplinas
2. El proceso de KDD
3. Técnicas de Minería de Datos 2.1. Las Fases del KDD
2.2. Tipología de Técnicas de Minería de Datos
2.3. Sistemas Comerciales y Herramientas de Minería de Datos
2.4. Preparación y Visualización de datos
3. Técnicas de Minería de Datos
José Hernández Orallo 3.1. El Problema de la Extracción Automática de Conocimiento.
3.2. Evaluación de Hipótesis
jorallo@dsic.upv.es 3.3. Técnicas no supervisadas y descriptivas.
3.4. Técnicas supervisadas y predictivas.
4. Web Mining
4.1. Los Problemas de la Información No Estructurada.
Máster y Cursos de Postgrado del DSIC 4.2. Extracción de Conocimiento a partir de Documentos HTML y texto.
Universitat Politècnica de València 4.3. Extracción de Información semi-estructurada (XML).
5. Otros Aspectos
2

Objetivos Tema 3
3. Técnicas de Minería de Datos
• Conocer las distintas técnicas de aprendizaje
automático y estadísticas utilizadas en minería de
datos, su potencial, su coste computacional y sus 3.1. El Problema de la Extracción Automática
limitaciones de representación y de inteligibilidad. de Conocimiento.
• Conocer medidas de evaluación de modelos (p.ej. 3.2. Evaluación de Hipótesis
validación cruzada). 3.3. Técnicas no supervisadas y descriptivas.
• Utilizar métodos de combinación de técnicas (p.ej. 3.4. Técnicas supervisadas y predictivas.
voting) y de reiteración (p.ej. boosting).
• Conocer los métodos descriptivos y no
supervisados más importantes.
• Conocer los métodos predictivos y supervisados
más importantes.
3 4
El Problema de la Extracción El Problema de la Extracción
Automática de Conocimiento Automática de Conocimiento

La minería de datos no es más que un caso Clasificación de las técnicas de aprendizaje:


especial de aprendizaje computacional inductivo. • Interpolación: una función continua sobre varias dimensiones
• Predicción secuencial: las observaciones están ordenadas
¿Qué es aprendizaje? secuencialmente. Se predice el siguiente valor de la
• (visión genérica, Mitchell 1997) es mejorar el comportamiento secuencia. Caso particular de interpol. con 2 dim., una
a partir de la experiencia. Aprendizaje = Inteligencia. discreta y regular.
• (visión más estática) es la identificación de patrones, de • Aprendizaje supervisado: cada observación incluye un valor
regularidades, existentes en la evidencia. de la clase (valor categórico/discreto) a la que corresponde.
• (visión externa) es la predicción de observaciones futuras con Se aprende un clasificador.
plausibilidad. • Aprendizaje no supervisado: el conjunto de observaciones no
• (visión teórico-informacional, Solomonoff 1966) es eliminación tienen clases asociadas. El objetivo es detectar
de redundancia = compresión de información. agrupaciones, contornos,
• Análisis exploratorio: asociaciones, valores anómalos.
Aprendizaje Inductivo: razonamiento hipotético de
• Abducción o Aprendizaje Analítico: El contexto B es muy
casos particulares a casos generales. importante. El objetivo es explicar la evidencia respecto a6 B.
5

El Problema de la Extracción El Problema de la Extracción


Automática de Conocimiento Automática de Conocimiento
Ejemplos:
? f(2.2)=? PREDICTIVO: Interpolación y Predicción Secuencial.
• Interpolación:

• Predicción secuencial: • Se conoce generalmente como “estimación” o “regresión”.


1, 2, 3, 5, 7, 11, 13, 17, 19, ... ? ? Ejemplo: estimar el número de hijos de una
f(2007)=? familia a partir de otros ejemplos de familias.
• Aprendizaje supervisado: Ejemplo: estimar las ventas del mes que viene a
1 3 -> SÍ. partir de los meses anteriores.
3 5 -> SÍ. 4 2 -> ?
7 2 -> NO. • Regresión Lineal:
• Regresión lineal global (clásica).
• Segmentación (Aprendizaje no supervisado):
• Regresión lineal ponderada localmente.
• Regresión No Lineal: logarítmica, pick & mix, ...
¿Cuántos grupos hay?
• Técnicas no algebraicas.
¿Qué grupos formo?
• Redes neuronales.
• Árboles de regresión.
• Análisis Exploratorio: Correlaciones, Asociaciones y Dependencia
7 8
El Problema de la Extracción El Problema de la Extracción
Automática de Conocimiento Automática de Conocimiento

PREDICTIVO: Aprendizaje supervisado. PREDICTIVO: Aprendizaje supervisado


(Clasificación).
Dependiendo de si se estima una función o una
correspondencia: • Técnicas:
• categorización: se estima una correspondencia (las • k-NN (Nearest Neighbor).
clases pueden solapar). • k-means (competitive learning).
Ejemplo: determinar de un conjunto de temas de qué temas • Perceptron Learning.
trata una determinada página web (cada página puede • Multilayer ANN methods (e.g. backpropagation).
tratar de varios temas). • Radial Basis Functions.
• Support Vector Machines
• clasificación: se estima una función (las clases son • Decision Tree Learning (e.g. ID3, C4.5, CART).
disjuntas). • Bayes Classifiers.
Ejemplo: determinar el grupo sanguíneo a partir de los • Center Splitting Methods.
grupos sanguíneos de los padres. • Rules (CN2)
Ejemplo: Determinar si un compuesto químico es • Pseudo-relational: Supercharging, Pick-and-Mix.
cancerígeno. 9 • Relational: ILP, IFLP, SCIL. 10

El Problema de la Extracción El Problema de la Extracción


Automática de Conocimiento Automática de Conocimiento

DESCRIPTIVO: Análisis Exploratorio DESCRIPTIVO: Segmentación (Aprendizaje no


supervisado)
• Técnicas:
• Estudios correlacionales • Técnicas de clustering:
• Asociaciones.
• Dependencias. • Jerárquico
• Detección datos anómalos. • No jerárquico
• Análisis de dispersión. • k-means (competitive learning).
• redes neuronales de Kohonen
• EM (Estimated Means) (Dempster et al. 1977).
• Cobweb (Fisher 1987).
• AUTOCLASS
•...
11 12
Similitud/Distancia Similitud/Distancia

Un concepto importante en el aprendizaje • Muchísimas formas de calcular la distancia:


supervisado (clasificación) y no supervisado • Distancia Euclídea: n

∑ (x − y )
2

(segmentación) es el concepto de similitud: i =1


i i

Valores Continuos
• Distancia de Manhattan: n


(conveniente normalizar
• La razón de este uso es que, intuitivametne, datos xi − yi entre 0-1 antes)
i =1
similares tendrán clases/grupos similares. ¿Cómo se
• Distancia de Chebychev:
mide la similitud? maxi =1..n xi − yi
• Distancia del coseno: Valores Continuos.
• DISTANCIA inversa a SIMILITUD. cada ejemplo es un vector y No es necesario
la distancia es el coseno del ángulo que forman normalizar
• Los métodos de similitud (o de distancia) se basan en
• Distancias por Diferencia:
almacenar los ejemplos vistos, y calcular la ejemplo: if x=y then D=0 else D=1 Valores
similitud/distancia del nuevo caso con el resto de • Distancia de Edición: Discretos
ejemplos. 13 • Distancias Específicas: para los ejemplos complejos de CBR. 14

3.2. Evaluación de Hipótesis Evaluación de Hipótesis


3. Técnicas de Minería de Datos
¿Cómo se validan/descartan las hipótesis para
conformar el conocimiento adquirido?
3.1. El Problema de la Extracción Automática • Principio (‘escándalo’) de la Inducción: las hipótesis pueden ser
de Conocimiento. refutadas, pero nunca confirmadas.
3.2. Evaluación de Hipótesis
• Y para las que todavía no han sido refutadas, ¿cuál elegimos?
3.3. Técnicas no supervisadas y descriptivas. • Necesidad de criterios de selección: simplicidad, refuerzo, ...
3.4. Técnicas supervisadas y predictivas. • Existencia de métodos de validación: estadísticos, cross-
validation, informacionales, ...

• ¿Cuánto afecta a la plausibilidad el número de ejemplos?


• ¿Cómo afecta la presencia de ruido?

15 16
Evaluación de Hipótesis Evaluación de Hipótesis

El problema del aprendizaje NO ƒ Evaluación de modelos predictivos:


está especificado completamente. ¿Qué medida usamos para comparar el
valor correcto “f” del valor estimado “h” ?

• Si sólo nos basamos en la evidencia, una solución al ƒ Clasificación:


problema sería cualquier hipótesis que cubre la evidencia. ƒ %Acierto o, inversamente, %Error
ƒ Alcance y precisión (recall & precision).
• Si el lenguaje es expresivo, pueden existir infinitas
ƒ Área bajo la curva ROC.
hipótesis.
ƒ…
• Objetivo: Elegir la hipótesis h que MINIMIZA EL ERROR de la
hipótesis h respecto la función objetivo f, ƒ Regresión:
ƒ Error cuadrático medio.
¿Qué error?
17
ƒ Error absoluto medio. 18
ƒ…

Evaluación de Hipótesis Evaluación de Hipótesis

ƒ Evaluación de modelos predictivos: ƒ Evaluación de modelos predictivos:


ƒ Dado un conjunto S de n datos, el error se define: ƒ Dado un conjunto S de n datos, el error se define:
ƒ Clasificación: Error ƒ Regresión: Error Cuadrático Medio
1
errorS (h) = ∑ ∂( f ( x), h( x))
n x∈S errorS (h) =
1
∑ ( f ( x) − h( x)) 2
donde δ(a,b)=0 si a=b y 1 en caso contrario.
n x∈S
Clase predicha (h(x)) Clase real (f(x)) Error Valor predicho (h(x)) Valor real (f(x)) Error Error2
Compra Compra No 100 mill. € 102 mill. € 2 4
No Compra Compra Sí Fallos / Total 102 mill. € 110 mill. € 8 64
Compra No Compra Sí 105 mill. € 95 mill. € 10 100
Compra Compra No 95 mill. € 75 mill. € 20 400
No Compra No Compra No
Error = 3/10 = 0.3 101 mill. € 103 mill. € 2 4 Error = 744/10 = 74,4
No Compra Compra Sí 105 mill. € 110 mill. € 5 25
No Compra No Compra No 105 mill. € 98 mill. € 7 49
Compra Compra No 40 mill. € 32 mill. € 8 64

Compra Compra No 220 mill. € 215 mill. € 5 25


19 20
No Compra No Compra No 100 mill. € 103 mill. € 3 9
Evaluación de Hipótesis Evaluación de Hipótesis

Medidas de Error para evaluar Hipótesis • Problemas típicos:


D : dominio • under-fitting
S : sample ( muestra ) (sobregeneralización o subajuste)
• over-fitting
• TRUE ERROR: (sobreespecialización o superajuste).
caso discreto caso continuo (p.ej.error cuadrático medio)

error D(h) = Pr [ f ( x) ≠ h( x)] 1


x∈ D error D(h) = lim
S→ D

n x∈S
( f ( x) − h( x)) 2 • Definición de over-fitting: Una hipótesis h ∈ H sobre-
especializa o superajusta si existe una hipótesis alternativa
• SAMPLE ERROR : h’ ∈ H tal que:
caso discreto caso continuo (p.ej.error cuadrático medio)
1 errortrain (h) < errortrain (h' )
errortrain (h) = ∑ ∂( f ( x) ≠ h( x))
n x∈trainSet
errortrain (h) =
1
∑ ( f ( x) − h( x))2 Sample or train
error
n x∈trainSet y
donde (δ(true)=1, δ(false)=0) y n= |trainSet|
21 error D(h) > error D(h' ) True error 22

Evaluación de Hipótesis Evaluación de Hipótesis

¿Qué hipótesis elegimos?


• Problema: f (la función objetivo) no se conoce!!!
• APROXIMACIONES:
En frío
• Podemos calcular el SAMPLE ERROR pero no el • Asumir distribuciones a priori.
TRUE ERROR. • Criterio de simplicidad, de descripción o
En
transmisión mínimas. caliente
• Si nos fijamos sólo en toda la muestra y minimizamos el • Separar: Training Set y Test Set.
En frío
SAMPLE ERROR, aparecerán dos problemas: • Cross-validation.
• si la evidencia es sólo positiva: under-fitting o • Basadas en refuerzo. En
sobregeneralización. caliente
• Si la evidencia tiene más de una clase: over-fitting o Otras preguntas importantes:
sobreespecialización.
¿Cómo sabemos lo bien que se comportará en el futuro?
23 24
Evaluación de Hipótesis Evaluación de Hipótesis
Evaluación por técnicas bayesianas. Teorema de Bayes, MAP y Maximum Likelihood:
• La mejor hipótesis es la más probable. • P(h|D): probabilidad de una hipótesis dado un cjto. de datos.
• P(h): probabilidad a priori de las hipótesis.
• Basadas en el teorema de Bayes. Despejan P(h|D). • P(D|h): probabilidad de D dada la hipótesis.
• La distribución de hipótesis a priori P(h) y la probabilidad • P(D): probabilidad a priori de los datos (sin otra información).
de unas observaciones respecto a cada hipótesis P(D|h)
deben ser conocidas. • Teorema de Bayes: (prob. a posteriori a partir de a priori)
• Son sólo técnicas evaluadoras aunque si el conjunto de P ( D | h) P ( h)
hipótesis H es reducido se pueden utilizar en algoritmos P(h | D ) =
P( D)
de aprendizaje. • Criterio MAP (Maximum a Posteriori) (h es indep. de P(D)):
• Permiten acomodar hipótesis probabilísticas tales como El Naive Bayes Classifier es
“este paciente de neumonía tiene un 93% de posibilidades P( D | h) P(h) un caso particular de esto.
de recuperarse”.
hMAP = arg max P(h | D ) = arg max = arg max P( D | h) P(h)
h∈H h∈H P( D) h∈H
• Muchas veces no se conoce P(h) o incluso P(D|h). Se • Maximum Likelihood (asumiendo P(h) uniforme):
hacen suposiciones: distribución uniforme, normal o
universal. 25 hML = arg max P ( D | h) 26
h∈H

Evaluación de Hipótesis Evaluación de Hipótesis


Evaluación bayesiana: El principio MDL (Minimum Description Length):

Si el cjto. de hipótesis H es pequeño y conocido: • Asumimos P(h) como la distribución universal (Occam’s
• Se puede asumir la distribución uniforme: Razor):
1 P ( h) = 2 − K ( h )
P ( h) =
|H | donde K(·) es la complejidad descripcional (Kolmogorov) de
H.

Si H es infinito: FORMALIZACIÓN DE LA NAVAJA DE OCCAM:


• La distribución uniforme no está bien definida (P=0). “Las hipótesis con mínima descripción más pequeña
• Aunque el maximum likelihood se puede seguir utilizando. son más probables”.

• Asumimos P(D|h) de la misma manera:

27 P ( D | h ) = 2 − K ( D| h ) 28
Evaluación de Hipótesis Evaluación de Hipótesis
El principio MDL: ƒ Evaluación de modelos predictivos.
• A partir de MAP tenemos:
hMAP = arg max P( D | h) P(h) = arg max log[P( D | h) P(h)] = ƒ PARTICIÓN DE LOS DATOS:
k∈H k∈H
ƒ Separación de los datos en:
= arg max log P( D | h) + log P(h) = arg max log 2 − K ( D|h ) + log 2 − K ( h ) =
k∈H k∈H ƒ Conjunto de entrenamiento (train).
ƒ Los modelos se entrenan con estos datos
= arg max(− K ( D | h) − K (h))
k∈H ƒ Conjunto de prueba (test).
ƒ Los modelos se evalúan con estos datos.
• Resulta en:
hMDL = arg min( K (h) + K ( D | h)) Vista minable Partición aleatoria Modelado
k∈H Modelos Mejor modelo

PRINCIPIO MDL: La hipótesis más probable es la que entrenamiento

minimiza la suma de su descripción y la descripción de los


datos respecto a ella. 29 prueba 30
1
errorS (h) = ∑ ( f ( x) − h( x)) 2
Evaluación n x∈S

Evaluación de Hipótesis Evaluación de Hipótesis

ƒ Evaluación de modelos predictivos. ƒ Evaluación de modelos predictivos.


ƒ Validación cruzada (detalle):
ƒ Particiones más elaboradas: h1
Aprendizaje

Entrenamiento
ƒ Se realizan n particiones,
ƒ Validación cruzada: Se parten los datos
incluyendo n-1 pliegues
aleatoriamente en n pliegues de igual tamaño. Datos
Evaluación
para entrenamiento y 1
Test
para evaluación.
ƒ Bootstrap: se realizan n muestras con repetición de ƒ El error medio se calcula
los datos iniciales. promediando las 10 veces.
Aprendizaje
hn ƒ Se reentrena un último
Entrenamiento
modelo con todos los
datos.
 Especialmente útiles si hay pocos datos. Evaluación
' Proceso mucho más lento Test

31 32
Evaluación de Hipótesis Evaluación de Hipótesis

Una vez obtenida una hipótesis... Podemos obtener un intervalo de confianza a un nivel c:

¿cómo obtener su precisión (accuracy) para datos futuros?


errorS (h)(1 − errorS (h))
errorS (h) ± Z c ·
n
• Utilizar la precisión para el training data puede
ser una aproximación, ¿pero cuán buena? donde Zc es la constante obtenida de la tabla de confianzas
de la normal.
• La estadística nos da soluciones para esto:
• Suponiendo la muestra S de n ejemplos, la hipótesis h • Algunos valores de la tabla normal:
es discreta y son independientes.
• Si n ≥ 30, nos permite aproximar la distribución binomial Nivel de confianza c: 50% 68% 80% 90% 95% 98% 99%
con la normal. Constante Zc: 0.67 1.00 1.28 1.64 1.96 2.33 2.58
• Calculado el errors(h) sobre la muestra como
nºerrores/n
33 34

Evaluación de Hipótesis Evaluación de Hipótesis

EJEMPLO: DATOS IMPERFECTOS:


• Considerando que una hipótesis da 12 errores sobre 40 • Tipos de Datos Imperfectos:
ejemplos, tenemos un errorS(h) = 0.30. • Ruido:
• Tenemos, por tanto, que con confianza 95% (Zc = 1.96), el • en la evidencia o ejemplos de entrenamiento.
intervalo del error será: • Valores erróneos de argumentos de los ejemplos.
0.30 ± 0.14 • Clasificación errónea de algún ejemplo.
• lo que quiere decir que, para el 95% de otras muestras de 40 • en el conocimiento previo.
ejemplos que probáramos, el error estaría dentro de ese • Ejemplos de entrenamiento muy dispersos.
intervalo. • Conocimiento previo o características correcto pero
inapropiado.
En general, una mejor regla para saber si se puede aplicar la • Existencia de mucho conocimiento/características previo
irrelevante para el problema a aprender.
evaluación anterior es que:
• Conocimiento previo insuficiente (faltan características)
para el problema a aprender (algunos
n·errorS (h)(1 − errorS (h)) ≥ 5 predicados/funciones auxiliares serían necesarios).
• Argumentos faltantes en los ejemplos.
(si no, habría que utilizar la dist. binomial) 35 36
Evaluación de Hipótesis Evaluación de Hipótesis

DATOS IMPERFECTOS: ƒ Evaluación de Modelos Descriptivos:


• Consecuencias: ƒ Agrupamiento: mucho más compleja
• Ruido o dispersión de datos ⇒ OVERFITTING.
• Es necesario podar las hipótesis, eliminado partes de la Concepto de error más difícil de definir
hipótesis muy ad-hoc (cubren uno o pocos ejemplos). El
criterio MDL es un buen método para esto. ƒ En los métodos basados en distancia se puede mirar:
• Conocimiento previo / características inapropiado ⇒ ƒ GRUPOS:
INTRATABILIDAD ƒ distancia entre bordes de los clusters
• Demasiado conocimiento previo: se necesita ƒ distancia entre centros (de haberlos)
metaconocimiento o priorización de los predicados / ƒ radio y densidad (desv. típica de la dist.) de los clusters.
características.
• Poco conocimiento previo o del dominio: se necesita invención ƒ Para cada ejemplo a agrupar se comprueba su distancia
de nuevos funciones/conceptos/predicados. con el centro o con el borde de cada cluster.
• Argumentos faltantes en los ejemplos ⇒ Se pierde tamaño ƒ Se pueden hacer diferentes agrupamientos con distintas
de muestra si no se es capaz de aprovecharlos. técnicas y comparar los grupos formados (matriz de
• Los sistemas basados en árboles de decisión los tratan. confusión)
37 38

Evaluación de Hipótesis 3.3. Métodos Descriptivos


3. Técnicas de Minería de Datos
ƒ Evaluación con sesgos o desequilibrios.
ƒ Desequilibrios:
ƒ En clasificación puede haber muchos ejemplos de una 3.1. El Problema de la Extracción Automática
clase y muy pocos del resto.
de Conocimiento.
ƒ Problema: la clase escasa se puede tomar como ruido y
ser ignorada por la teoría. 3.2. Evaluación de Hipótesis
ƒ Ejemplo: si un problema binario (sí / no) sólo hay un 1% de 3.3. Técnicas no supervisadas y descriptivas.
ejemplos de la clase no, el modelo “todo es de la clase sí” 3.4. Técnicas supervisadas y predictivas.
tendría un 99% de acierto.
Este modelo es inútil

ƒ Soluciones:
ƒ Utilizar sobremuestro...
ƒ Macromedia,
ƒ Análisis ROC 39 40
Métodos Descriptivos Métodos Descriptivos

Correlación y Asociaciones (análisis exploratorio): Correlaciones y Estudios Factoriales:


• Coeficiente de correlación: • Permiten establecer relevancia/irrelevancia de factores y si
Cov ( x , y ) aquélla es positiva o negativa respecto a otro factor o variable
Cor ( x , y ) = a estudiar.
σ x ·σ y
donde
1 n Ejemplo (Kiel 2000): Estudio de visitas: 11 pacientes, 7 factores:
Cov ( x , y ) = ∑ ( xi − µ x )( yi − µ y )
n i =1 • Health: salud del paciente (referida a la capacidad de ir a la consulta). (1-10)
• Need: convicción del paciente que la visita es importante. (1-10)
• Asociaciones (cuando los atributos son discretos). • Transportation: disponibilidad de transporte del paciente al centro. (1-10)
• Child Care: disponibilidad de dejar los niños a cuidado. (1-10)
• Ejemplo: tabaquismo y alcoholismo están asociados. • Sick Time: si el paciente está trabajando, puede darse de baja. (1-10)
• Satisfaction: satisfacción del cliente con su médico. (1-10)
• Dependencias funcionales: asociación unidireccional. • Ease: facilidad del centro para concertar cita y eficiencia de la misma. (1-10)
• Ejemplo: el nivel de riesgo de enfermedades • No-Show: indica si el paciente no se ha pasado por el médico durante el último
año (0-se ha pasado, 1 no se ha pasado)
cardiovasculares depende del tabaquismo y alcoholismo
(entre otras cosas). 41 42

Métodos Descriptivos Métodos Descriptivos

Correlaciones y Estudios Factoriales. Ejemplo (cont.): Reglas de Asociación y Dependencia:


Matriz de correlaciones: • La terminología no es muy coherente en este campo (Fayyad, p.ej.
suele llamar asociaciones a todo y regla de asociación a las
Health Need Transp’tion Child Care Sick Time Satisfaction Ease No-Show dependencias):
Health 1
Need
Transportation
-0.7378
0.3116
1
-01041 1
Asociaciones bidireccionales:
Child Care 0.3116 -01041 1 1
Sick Time 0.2771 0.0602 0.6228 0.6228 1 Se buscan asociaciones de la siguiente forma:
Satisfaction 0.22008 -0.1337 0.6538 0.6538 0.6257 1
Ease 0.3887 -0.0334 0.6504 0.6504 0.6588 0.8964 1 (X1 = a) ↔ (X4 = b)
No-Show 0.3955 -0.5416 -0.5031 -0.5031 -0.7249 -0.3988 -0.3278 1
De los n casos de la tabla, que las dos comparaciones sean
Coeficientes de Regresión: verdaderas o falsas será cierto en rc casos:
Independent Variable Coefficient Indica que un incremento de 1 en el
Health .6434 factor Health aumenta la Un parámetro Tc (confidence):
Need .0445 probabilidad de que no aparezca el
Transportation -.2391 paciente en un 64.34% Tc= certeza de la regla = rc/n
Child Care -.0599
Sick Time -.7584 • si consideramos valores nulos, tenemos también un número de casos
Satisfaction .3537
43 en los que se aplica satisfactoriamente (diferente de Tc) y denominado
44
Ease -.0786 Ts.
Métodos Descriptivos Métodos Descriptivos

Reglas de Asociación y Dependencia de Valor: Reglas de Asociación y Dependencia de Valor.


Dependencias de Valor o Asociaciones orientadas: Ejemplo:
Se buscan dependencias de la siguiente forma (if Ante then Cons): DNI Renta Familiar Ciudad Profesión Edad Hijos Obeso Casado
11251545 5.000.000 Barcelona Ejecutivo 45 S S S
P.ej. if (X1= a, X3=c, X5=d) then (X4=b, X2=a) 30512526 1.000.000 Melilla Abogado 25 N S N
22451616 3.000.000 León Ejecutivo 35 S S S
De los n casos de la tabla, el antecendente se puede hacer cierto 25152516 2.000.000 Valencia Camarero 30 N S S
23525251 1.500.000 Benidorm Animador 30 N N N
en ra casos y de estos en rc casos se hace también el Parque
consecuente, tenemos: Temático

Dos parámetros Tc (confidence/accuracy) y Ts (support):


Tc= certeza de la regla =rc/ra, fuerza o confianza P(Cons|Ante) Asociaciones bidireccioniales (ítems frecuentes):
Casado e Hijos están asociados (80%, 4 casos).
Ts = mínimo nº de casos o porcentaje en los que se aplica
Obeso y casado están asociados (80%, 4 casos).
satisfactoriamente (rc o rc /n respectivamente). Dependencias (Asociaciones orientadas):
Llamado también prevalencia: P(Cons ∧ Ante) Hijos Æ Casado (100%, 2 casos).
Casado Æ Obeso (100%, 3 casos).
45 46

Métodos Descriptivos Métodos Descriptivos

Algoritmos de búsqueda de asociaciones y Algoritmos de búsqueda de asociaciones.


FASE A:
dependencias. Método genérico de búsqueda de “LARGE ITEMSETS”
La mayoría se basa en descomponer el problema en dos fases: Dado un support mínimo smin:
1. i=1 (tamaño de los conjuntos)
• FASE A: BÚSQUEDA DE “LARGE ITEMSETS”. Se buscan 2. Generar un conjunto unitario para cada atributo en Si.
conjuntos de atributos con ‘support’ >= al support deseado, 3. Comprobar el support de todos los conjuntos en Si. Eliminar
llamados ‘large itemsets’ (conjuntos de atributos grandes). De aquellos cuyo support < smin.
momento no se busca separarlos en parte izquierda y parte 4. Combinar los conjuntos en Si para crear conjuntos de tamaño i+1
derecha. en Si+1.
5. Si Si no es vacío entonces i:= i+1. Ir a 3.
• FASE B: ESCLARECIMIENTO DE DEPENDENCIAS (REGLAS). 6. Si no, retornar S2 ∪ S3 ∪ ... ∪ Si
Se hacen particiones binarias y disjuntas de los itemsets y se
calcula la confianza de cada uno. Se retienen aquellas reglas Hay refinamientos que permiten una mejor paralelización (dividen en
que tienen confianza >= a la confianza deseada. subproblemas con menos tuplas y luego comprueban para todo el
problema). El más famoso es el algoritmo “APRIORI” (Agrawal &
Srikant 1994).
Propiedad: cualquier subconjunto de un conjunto grande es
47 48
también grande.
Métodos Descriptivos Métodos Descriptivos

Algoritmos de búsqueda de asociaciones. Ejemplo: Otro Ejemplo:


FASE A: Fila 1 2 3 4 5
1 x x x support = 2 VINO GASEOSA VINO HORCHATA BIZCOCHOS GALLETAS CHOCOLATE

tabla: 2 x x x
“EL CABEZÓN” “CHISPA” “TÍO PACO” “XUFER” “GOLOSO” “TRIGO” “LA VACA”

3 x x x x confidence = 0.75 T1 1 1 0 0 0 1 0

4 x x T2 0 1 1 0 0 0 0

S1= { {1}, {2}, {3}, {4}, {5} } S’1:support = { {1}:2, {2}:3, {3}:3, {5}:3 } T3 0 0 0 1 1 1 0

S2= { {1,2}, {1,3}, {1,5}, {2,3}, {2,5}, {3,5} } S’2:support = { {1,3}:2, {2,3}:2, {2,5}:3, {3,5}:2 } T4 1 1 0 1 1 1 1

S3= { {1,2,3}, {1,2,5}, {1,3,5}, {2,3,5} } S’3:support = { {2,3,5}:2 } T5 0 0 0 0 0 1 0

Sfinal = S’2 ∪ S’3 = { {1,3}, {2,3}, {2,5}, {3,5}, {2,3,5} } T6 1 0 0 0 0 1 1

T7 0 1 1 1 1 0 0
FASE B: Se evalúa la confianza: T8 0 0 0 1 1 1 1

{1}→{3} : 1 {3}→{1} : 0.67 T9 1 1 0 0 1 0 1

{2}→{3} : 0.67 {3}→{2} : 0.67 T10 0 1 0 0 1 0 0

{2}→{5} : 1 {5}→{2} : 1
{3}→{5} : 0.67 {5}→{3} : 0.67
{2,3}→{5} : 1 {2,5}→{3} : 0.67 {3,5}→{2} : 1 49 50

Métodos Descriptivos Métodos Descriptivos


Ejemplo: Ejemplo:
• La siguiente fase consiste en la creación de reglas a partir
de los conjuntos de ítems frecuentes
Si definimos la cobertura mínima igual a dos:
• Por ejemplo, si tenemos el conjunto de items horchata
• Siete conjuntos de sólo un ítem (siete atributos) “Xufer” Y bizcochos “Goloso” Y galletas “Trigo” se
• De los 7!/5!=42 posibles casos de conjuntos formados por construyen las reglas:
dos ítems, tenemos 15 conjuntos que superan la cobertura
mínima
• 11 conjuntos de tres ítems. SI bizcochos “Goloso” Y horchata “Xufer” ENTONCES galletas “Trigo” Cb=3, Cf=3/4
• 2 conjuntos de cuatro ítems. SI bizcochos “Goloso” Y galletas “Trigo” ENTONCES horchata “Xufer” Cb=3, Cf=3/3
SI galletas “Trigo” Y horchata “Xufer” ENTONCES bizcochos “Goloso” Cb=3, Cf=3/3

51 52
Métodos Descriptivos Métodos Descriptivos

Otros tipos de asociaciones: Patrones Secuenciales:


• Asociaciones entre jerarquías. Si existen jerarquías entre los Se trata de establecer asociaciones del estilo:
ítems (p.ej. las familias de productos de un comercio o de un
supermercado) a veces sólo es interesante buscar asociaciones “si compra X en T comprará Y en T+P”
inter-jerarquía y no intra-jerarquía. Esto puede reducir mucho el
espacio de búsqueda.
• Asociaciones negativas. A veces nos interesa conocer Ejemplo:
asociaciones negativas, p.ej. “80% de los clientes que compran
pizzas congeladas no compran lentejas”. El problema es mucho
más difícil en general, porque, cuando hay muchos ítems, existen
muchas más combinaciones que no se dan que las que se dan.
• Asociaciones con valores no binarios y/o continuos: se deben
binarizar. P.ej. Si se tiene un atributo a con k posibles valores v1,
..., vk (k > 2) se sustituye por k atributos con la condición (a=vi).
Con los atributos continuos se discretizan en rangos (0-5, 6-10,
11-15, ...) y luego se hace el mismo procedimiento.
• Asociaciones relacionales (Dehaspe and de Raedt 1997b).
53 54

Métodos Descriptivos Métodos Descriptivos

Patrones Secuenciales: Patrones Secuenciales:


Ejemplo (cont.): Ejemplo (cont.):

Mary

55 56
Métodos Descriptivos
Métodos Descriptivos Aprendizaje No Supervisado
Patrones Secuenciales: Clustering (Segmentación):

Métodos Representativos (Agrawal Srikant 1995, 1996) Se trata de buscar agrupamientos naturales en un
• AprioriAll conjunto de datos tal que tengan semejanzas.
• AprioriSome
• DynamicSome Métodos de Agrupamiento:
Problema: los usuarios quieren especificar restricciones • Jerárquicos: los datos se agrupan de manera arborescente
sobre el tiempo máximo y mínimo entre eventos secuenciales. (p.ej. el reino animal).
• No jerárquicos: generar particiones a un nivel.
Extensiones: • (a) Paramétricos: se asumen que las densidades condicionales
• Minería de patrones secuenciales con restricciones. de los grupos tienen cierta forma paramétrica conocida (p.e.
P.ej. Sólo permitir las secuencias si los elementos adyacentes Gaussiana), y se reduce a estimar los parámetros.
(p.ej. compras) suceden en un intervalo menor a dos meses. • (b) No paramétricos: no asumen nada sobre el modo en el que se
agrupan los objetos.

57 58

Métodos Descriptivos Métodos Descriptivos


Aprendizaje No Supervisado Aprendizaje No Supervisado
Clustering (Segmentación). Métodos jerárquicos: Clustering (Segmentación). Métodos jerárquicos:
Un método sencillo consiste en ir separando individuos según su
distancia (en concreto medidas derivadas de enlazado, linkage) e ir Minimal Spanning Tree Clustering Algorithm
aumentando el límite de distancia para hacer grupos. Esto nos da
diferentes agrupaciones a distintos niveles, de una manera
jerárquica: Algoritmo (dado un número de clusters deseado C).

Inicialmente considera cada ejemplo como un clúster.


Se denomina • Agrupa el par de clusters más cercanos para formar
Dendograma o un nuevo cluster.
Hierarchical Tree • Repite el proceso anterior hasta que el número de
Plot: clusters = C.

59 60
Métodos Descriptivos Métodos Descriptivos
Aprendizaje No Supervisado Aprendizaje No Supervisado
Clustering (Segmentación). Métodos paramétricos: Clustering (Segmentación). Métodos No Paramétricos
El algoritmo EM (Expectation Maximization, Maximum Likelihood Estimate) (Dempster
et al. 1977). Métodos:
• k-NN
• k-means clustering,
• online k-means clustering,
• centroides
• SOM (Self-Organizing Maps) o Redes Kohonen.

Otros específicos:
• El algoritmo Cobweb (Fisher 1987).
• El algoritmo AUTOCLASS (Cheeseman & Stutz 1996)
Gráficas:
Enrique Vidal

61 62

Métodos Descriptivos Métodos Descriptivos


Aprendizaje No Supervisado Aprendizaje No Supervisado
Clustering (Segmentación). Métodos No Paramétricos Clustering (Segmentación). Métodos No Paramétricos
1-NN (Nearest Neighbour): k-means clustering:
Dado una serie de ejemplos en un espacio, se conecta • Se utiliza para encontrar los k puntos más densos en un
cada punto con su punto más cercano: conjunto arbitrario de puntos.
G1

G4 • Algoritmo:
G2
1. Dividir aleatoriamente los ejemplos en k conjuntos y
G3
calcular la media (el punto medio) de cada conjunto.
2. Reasignar cada ejemplo al conjunto con el punto medio
La conectividad entre puntos genera los grupos. más cercano.
3. Calcular los puntos medios de los k conjuntos.
A veces hace grupos pequeños. 4. Repetir los pasos 2 y 3 hasta que los conjuntos no varíen.
Existen variantes: k-NN o como el spanning tree que para de
agrupar cuando llega a un número de grupos. 63 64
Métodos Descriptivos
Modelado: Métodos Descriptivos Aprendizaje No Supervisado
Clustering (Segmentación). Métodos No Paramétricos
Agrupamiento. Métodos No Paramétricos
k-means clustering:
k-medias: • El valor de k se suele determinar heurísticamente.
2
1
2
1 • Problemas:
2 2
1
3 3 1 1
3 3 1 • Si se sabe que hay n clases, hacer k=n puede
1 x2 x1 1
2
1
2 3
1
resultar en que, algunas veces, algún grupo use
3 x
2 3 2 3
3
3 1 3 1 dos centros y dos grupos separados tengan que
compartir centro.
2 2 2
2 2 2
1 1 1
2 2 2 1 2 2
2
x2 x1
1 1 2 x
1
x 1 2 x
1
x1 1
1 1 1
2 3
1
2
1
3
1
• Si k se elige muy grande, la generalización es
3 x
2 3 2 3 3 2 3 1
3 x 3 x
2 3 2 3 3 3 pobre y las agrupaciones futuras serán malas.

2 2 2 2 2
2 2
1 1 x 1
x 22 1
x
1
1 x 22 1
x 1
1
2 1 1 • Determinar el k ideal es difícil.
2
1 1
2
1 1
2
1 x11
3 3
2 1 3
3
1 3 1 65 66
x
3 3
x3
3 x3 3
3 3 3 3 3 3

Métodos Descriptivos Métodos Descriptivos


Aprendizaje No Supervisado Aprendizaje No Supervisado
Clustering (Segmentación). Métodos No Paramétricos
Clustering (Segmentación). Métodos No Paramétricos
El valor de k se suele determinar heurísticamente.
• Problemas:
On-line k-means clustering (competitive learning): • Si k se elige muy pequeño, hay grupos que
• Refinamiento incremental del anterior. se quedan sin centro.

• Si k se elige muy grande, hay centros que


• Algoritmo:
se quedan huérfanos.
1. Inicializar aleatoriamente k puntos, llamados centros.
2. Elegir el siguiente ejemplo y ver cuál es el centro más
cercano. Mover el centro hacia el ejemplo. (p.ej. Aunque esto es preferible a...
Distancia/2) • Incluso con k exacto, puede haber algún
3. Repetir el paso 2 para cada ejemplo. centro que quede huérfano.
4. Repetir los pasos 2 y 3 hasta que los ejemplos capturados
por cada centro no varíen.
Variación muy popular: LVQ (linear-
67 vector quantization) (Kohonen 1984). 68
Métodos Descriptivos Métodos Descriptivos
Aprendizaje No Supervisado Aprendizaje No Supervisado
Clustering (Segmentación). Métodos No Paramétricos Clustering (Segmentación). Métodos No Paramétricos
SOM (Self-Organizing Maps) o Redes Kohonen SOM (Self-Organizing Maps) o Redes Kohonen
Durante el entrenamiento cada uno de los nodos de este grid compite
• También conocidos como LVQ (linear-vector quantization) o con los demás para ganar cada uno de los ejemplos. Finalmente los
redes de memoria asociativa (Kohonen 1984). nodos fuertes (representados con colores más oscuros) ganan más
ejemplos que los nodos débiles. Al final del aprendizaje la red se
estabiliza y sólo unas pocas combinaciones de pares (X,Y) obtienen
registros. Estos son los grupos formados.

También puede verse como


una red que reduce la
dimensionalidad a 2.
Por eso es común realizar
una representación
bidimensional con el
resultado de la red para
La matriz de neuronas de la última capa forma un grid bidimensional. buscar grupos visualmente.
69 70

Otros Métodos Descriptivos 3.4. Métodos Predictivos


3. Técnicas de Minería de Datos
Análisis Estadísticos:

• Estudio de la distribución de los datos.


• Estimación de Densidad
3.1. El Problema de la Extracción Automática
• Detección datos anómalos. de Conocimiento.
• Análisis de dispersión (p.ej. las funciones de 3.2. Evaluación de Hipótesis
separabilidad pueden considerarse como 3.3. Técnicas no supervisadas y descriptivas.
técnicas muy simples no supervisadas). 3.4. Técnicas supervisadas y predictivas.
• Muchas veces, estos análisis se pueden utilizar previamente
para determinar el método más apropiado para un
aprendizaje supervisado
• También se utilizan mucho para la limpieza y preparación de
datos para el uso de métodos supervisados.
71 72
Métodos Predictivos. Métodos Predictivos.
Interpolación y Predicción Secuencial Interpolación y Predicción Secuencial

Regresión Lineal Global. Regresión Lineal Global por Gradient Descent.


Se buscan los coeficientes de una función lineal
Una manera usual es utilizando “gradient descent”.
fˆ ( x) = w0 + w1 x1 +... + wn xn Se intenta minimizar la suma de cuadrados:
1
Una manera fácil (si es lineal simple, sólo dos dimensiones x e E = ∑ x∈D ( f ( x) − fˆ ( x)) 2
y): 2
w1 =
n(∑ xy )(∑ x )(∑ y )
w0 =
(∑ y )(∑ x ) − (∑ x )(∑ xy )
2

Derivando,
( )
n ∑ x 2 − (∑ x )
2
n(∑ x ) − (∑ x )
2 2

obteniendo y = w0 + w1x
∆w j = r ·∑ x∈D ( f ( x) − fˆ ( x )) x j
Error típico de una regresión lineal simple:

 1 
( ) ( ) [ ]
(n∑ xy ) − (∑ x )(∑ y ) 2  Iterativamente se van ajustando los coeficientes y
 ∑ ∑
2
Etipico =   n y 2
− y −
 n(n − 2)   (
n ∑ x 2 − (∑ x ) )
2
 73
reduciendo el error. 74

Métodos Predictivos. Métodos Predictivos.


Interpolación y Predicción Secuencial Interpolación y Predicción Secuencial

Regresión No Lineal. Regresión Lineal Ponderada Localmente.


• Estimación Logarítmica (se sustituye la función a La función lineal se aproxima para cada punto xq a interpolar:
obtener por y=ln(f)):
fˆ ( x) = w0 + w1 x1 +... + wm xm
y = w0 + w1 x1 +... + wm xm
• Se hace regresión lineal para calcular los coeficientes y ? ? ?
a la hora de predecir se calcula la f = ey. Se intenta minimizar la suma de cuadrados de los k más cercanos
1
Regresión Logística. (variación que se usa para clasificación
E=
2
∑ ( f ( x) − fˆ ( x)) K (d ( x , x)) 2
q
x∈{ los k puntos más cercanos }
entre 0 y 1 usando la f= ln(p/(1-p))) donde d(·,·) es una distancia y K es una función que disminuye
Pick and Mix - Supercharging con la distancia (una función Kernel), p.ej. 1/d2
• Se añaden dimensiones, combinando las dadas. P.ej. si Gradient Descent:
tenemos cuatro dimensiones: x1, x2, x3 (además de y) ∆w j = r · ∑ ( f ( x) − fˆ ( x))·K (d ( x , x))·x
q j
podemos definir x4 = x1·x2 , x5= x32, x6 = x1x y obtener una
2
x∈{ los k puntos más cercanos }

función lineal de x1, x2, x3, x4, x5, x6 75 A mayor k más global, a menor k más local (pero ojo con el overfitting)
76
Métodos Predictivos. Métodos Predictivos.
Interpolación y Predicción Secuencial Aprendizaje Supervisado

Regresión Adaptativa: k-NN (Nearest Neighbour):


1. Se miran los k casos más cercanos.
• Son casos particulares de regresión local, en el que se 2. Si todos son de la misma clase, el nuevo caso se
supone un orden y se utiliza preferentemente para predecir clasifica en esa clase.
futuros valores de una serie: 3. Si no, se calcula la distancia media por clase o se
• Muy utilizada en compresión de sonido y de vídeo, en redes, asigna a la clase con más elementos.
etc. (se predicen las siguientes tramas)
Algoritmos mucho más sofisticados: Clasifica Clasifica
? ?
• cadenas de Markov, círculo cuadrado
• Vector Quantization
• Algoritmo MARS (Multiple
Adaptive Regression Splines) 1-nearest 7-nearest PARTICIÓN DEL 1-
neighbor neighbor nearest neighbor
(Friedman 1991). (Poliédrica o de Voronoi)
• El valor de k se suele determinar heurísticamente.
77 78

Aprendizaje Supervisado Aprendizaje Supervisado

k-NN (Nearest Neighbour). Mejora (ponderar los más cercanos): (On-line) k-means clustering:
1 • Aunque lo vimos como una técnica no
Atracción(c j , xq ) = {xi : xi ∈ c j } ·krnli donde: krnli = supervisada, también se puede utilizar
d ( xq , xi ) 2
Se calcula la fuerza de atracción de cada clase cj para el para aprendizaje supervisado, si se
nuevo punto xq. Y se elige la clase que más atrae. utiliza convenientemente.
(Si el punto xq coincide con un punto xi, la clase es la de xi)
(Si el punto xq coincide con más de un punto xi, se procede de la forma
anterior)
Para valores continuos (sirve para interpolar):
• Elegir un k mayor que el número de
Si la clase es un valor real, el k-NN es fácilmente adaptable:
k clases pero no mucho mayor.
∑ krnl f ( x )i i
fˆ ( xq ) = i =1
k

∑ krnl
i =1
i

donde los xi son los k vecinos más próximos y f(·) es la 79 80


función que da el valor real de cada uno.
Aprendizaje Supervisado Aprendizaje Supervisado
Salida y
Perceptron Learning. Gradient Descent (formul. para una sola salida): W1 W2 W3
Entradas x1 x2 x3
Salidas y1 y2 y3
• El error de Least Mean Squares de los p ejemplos se
define como:
W1,1 W1,2
W2,1 W2,2 W3,1 W3,2 W5,2 W5,3 r 1 1
Entradas x1 W1,3 x2 W2,3 x3 W3,3
W4,1 W4,2
x4 W4,3
W5,1
x5
E ( w) = ∑ (ek ) 2 = ∑ ( yk − y 'k ) 2
2 k:1.. p 2 k :1.. p
• Computan una función lineal para cada yj es: •
Si queremos disminuir el error poco a poco. El gradiente es la
n Se añade un threshold escalón: output j = sgn( y ' j ) derivada por cada componente del vector.
y ' j = ∑ wi , j · xi ∂E ∂ 1 1 ∂ 1 ∂
i =1 1 si x > 0 = ∑ ( yk − y'k ) 2 = 2 ∂w k∑
∂wi ∂wi 2 k :1.. p
( yk − y 'k ) 2 = ∑ 2( yk − y 'k )

( yk − y 'k ) =
sgn( x) =   i :1.. p 2 k :1.. p wi
− 1 si no  ∂ rr
PARTICIÓN PARTICIÓN = ∑(y k − y 'k )
∂wi
( yk − w· xk ) = ∑ ( yk − y 'k )(− xi ,k )
LINEAL LINEAL k :1.. p k :1.. p
POSIBLE IMPOSIBLE
• Queda:
81
∆wi = ∑(y
k :1.. p
k − y 'k )xi ,k = ∑x
k :1.. p
i ,k ·ek 82

Aprendizaje Supervisado Aprendizaje Supervisado

Perceptron Learning (Gradient Descent). Perceptron Learning:

• El algoritmo Gradient Descent ajusta así: • El algoritmo Perceptron (versión incremental o aproximación
1. Se asigna a los wi,j un valor pequeño aleatorio entre 0 y 1. estocástica al gradient descent):
2. Hasta que la condición de terminación se cumple, hacer: 1. Se asignan aleatoriamente los wi,j entre 0 y 1 (o se pone .5)
3. Para todos los p ejemplos (xk,yk)t se calcula la matriz de 2. t= 1 (se toma el primer ejemplo).
error (etk=ytk-y’tk) 3. Para el ejemplo (x,y)t se calcula el vector error (et=yt-y’t)
4. Se recalculan los pesos siguiendo Least-Mean Squares 4. Se recalculan los pesos siguiendo Least-Mean Squares
(LMS), con un learning rate (r): (LMS), también llamada regla delta, Adaline o Widrow-
Hoff:
wit,+j1 = wit, j + ∑ r(x
k :1.. p
t
i ,k ·e tj ,k ) wt +1 = wt + r ( x t ·e t )
i, j i, j i j

5. t:= t+1, ir a 2. 5. t:= t+1, ir a 2 hasta que no queden ejemplos o el error


medio se ha reducido a un valor deseado.
r es un valor generalmente pequeño (0.05) y se determina
heurísticamente. A mayor r converge más rápido pero puede En general, esta versión es más eficiente que la anterior y evita
83 84
perderse en valles locales. algunos mínimos locales.
Aprendizaje Supervisado Aprendizaje Supervisado

Multilayer Perceptron (redes neuronales artificiales, ANN). Multilayer Perceptron (redes neuronales artificiales, ANN).
• El perceptron de una capa no es capaz de aprender las
funciones más sencillas. • En el caso más sencillo, con la función de activación sgn, el
• Se añaden capas internas, se introducen diferentes funciones número de unidades internas k define exactamente el número
de activación e incluso se introducen bucles y retardos. de boundaries que la función global puede calcular por cada
salida.
Salidas y1 y2 y3
PARTICIÓN POLIGONAL
POSIBLE CON 4
UNIDADES INTERNAS
Hidden
h1,1 h1,3 h1,5
Layer h1,2 h1,4

• El valor de k se suele determinar heurísticamente.

• Pero, ¿cómo entrenar este tipo de red?


Entradas x1 x2 x3 x4

85 86

Aprendizaje Supervisado Aprendizaje Supervisado

Multilayer Perceptron (redes neuronales artificiales, ANN). Algoritmo Backpropagation (Rumelhart et al. 1986)
• Inicializar los pesos a valores pequeños aleatorios (entre -.05 y .05)
• Para poder extender el gradient descent necesitamos una • Hasta que se cumpla la condición de terminación hacer:
función de activación continua: • Para cada ejemplo (x,y):
• La más usual es la función sigmoidal: • Se calculan las salidas de todas las unidades ou
• Se calcula el error en cada salida k:
1
σ ( x) = δ k = ok (1 − ok )( yk − ok )
1 + e−x
• Esto permite particiones no lineales: • Para cada unidad oculta h se calcula su error:
δh = oh (1 − oh ) ∑ (w
k∈outputs
k ,h × δk )

PARTICIÓN NO LINEAL • Se actualizan los pesos:


MÚLTIPLE POSIBLE w j ,i = w j ,i + r ×δ j × x j ,i
CON 4 UNIDADES
INTERNAS Se necesitan muchos ejemplos: al menos 10 ejemplos por cada peso y
87 output a aprender. P.ej, una red con 50 entradas y 10 nodos internos, 88
necesita 10.220 ejemplos por lo menos.
Aprendizaje Supervisado Aprendizaje Supervisado
Radial-Basis Function (Clustering Method + LMS).
Variaciones:
• Si hay más de una capa oculta: • PRIMER PASO: Algoritmo Clustering:
1. Dividir aleatoriamente los ejemplos en k conjuntos y calcular la
δh = oh (1 − oh ) ∑ (w ×δ )
k ,h
k∈outputs _ of _ next _ layer
k media (el punto medio) de cada conjunto.
2. Reasignar cada ejemplo al cjto. con punto medio más cercano.
• Si la red es no recursiva, pero no está organizada en 3. Calcular los puntos medios de los k conjuntos.
capas (se trata de cualquier árbol acíclico), también se 4. Repetir los pasos 2 y 3 hasta que los conjuntos no varíen.
puede: • SEGUNDO PASO: Recodificar los ejemplos como distancias a los
δh = oh (1 − oh ) ∑ (w k ,h
k∈downstream ( h )
× δk )

centros y normalizar (cada ejemplo pasa a ser un vector de k eltos).
TERCER PASO: Con un perceptron de k elementos de entrada y una
salida, aplicar el algoritmo visto antes.
• Existe una variante que va añadiendo capas según se Se convierte en una partición
necesitan, denominado cascade-correlation (Fahlman and PARTICIÓN lineal (hiperplano) en un
Lebiere 1990), resolviendo el problema de determinar el HIPERESFÉRICA
espacio de 4 dimensiones con
los ejemplos siendo las
número de unidades ocultas.
89 CON 4 centros. distancias a los centros. 90

Aprendizaje Supervisado Aprendizaje Supervisado


Máquinas de vectores soporte (métodos basados en núcleo). Máquinas de vectores soporte (métodos basados en núcleo).
• Se basan en un clasificador lineal muy sencillo (el que • Son eficientes (incluso para cientos de dimensiones), pues el
maximiza la distancia de los tres ejemplos (vectores) separador lineal sólo tiene que mirar unos pocos puntos
soporte), precedido de una transformación de espacio (a (vectores soporte) y puede descartar muchos que estarán
través de un núcleo) para darle potencia expresiva. lejos de la frontera.
• El clasificador lineal que se usa simplemente saca la línea (en • ¿Pero qué ocurre si los datos no son separables linealmente?
más dimensiones, el hiperplano) que divida limpiamente las
dos clases y además que los tres ejemplos más próximos a la
frontera estén lo más distantes posibles.

Separa Separa
perfectamente, perfectamente,
pero además los
pero los tres
ejemplos más ejemplos más
• Se aplica una función núcleo (“kernel”) que suele aumentar el
cercanos cercanos número de dimensiones de tal manera que los datos sean
(vectores soporte) (vectores soporte)
están muy cerca están lo más lejos separables.
de la frontera. posible de la
frontera. 91 92
Aprendizaje Supervisado Aprendizaje Supervisado
Árboles de Decisión (ID3 (Quinlan), C4.5 (Quinlan), CART). Árboles de Decisión.
• Algoritmo Divide y Vencerás: • Ejemplo C4.5 con datos discretos:
1. Se crea un nodo raíz con S:= todos los ejemplos.
2. Si todos los elementos de S son de la misma clase, el subárbol se Example Sky Temperature Humidity Wind PlayTennis
cierra. Solución encontrada. 1 Sunny Hot High Weak No
3. Se elige una condición de partición siguiendo un criterio de 2 Sunny Hot High Strong No
partición (split criterion). 3 Overcast Hot High Weak Yes
4. El problema (y S) queda subdivido en dos subárboles (los que 4 Rain Mild High Weak Yes
cumplen la condición y los que no) y se vuelve a 2 para cada uno 5 Rain Cool Normal Weak Yes
de los dos subárboles. 6 Rain Cool Normal Strong No
7 Overcast Cool Normal Strong Yes
X>0.25
0 1 No
8 Sunny Mild High Weak No

0
Y>0.25
9 Sunny Cool Normal Weak Yes
X>0.25 No Sí 10 Rain Mild Normal Weak Yes
PARTICIÓN
X>0.75 X>0.66 11 Sunny Mild Normal Strong Yes
X>0.66
CUADRICULAR. No Sí No Sí 12 Overcast Mild High Strong Yes
X>0.75
No
Y>0.6
13 Overcast Hot Normal Weak Yes

1 Y>0.6
93 14 Rain Mild High Strong No 94
Y>0.25

Aprendizaje Supervisado Aprendizaje Supervisado


Árboles de Decisión. Árboles de Decisión (ID3, C4.5, CART).
• Ejemplo C4.5 con datos discretos: • El criterio GANANCIA DE INFORMACIÓN (C4.5) ha dado muy
buenos resultados. Suele derivar en una preferencia en
Outlook? árboles pequeños (navaja de Occam).
Sunny Rain
Overcast • VENTAJAS:
Humidity? Wind?
• Muy fácil de entender y de visualizar el resultado.
YES
• Son robustos al ruido. Existen algoritmos de post-pruning
High Normal Strong Weak
para podar hojas poco significativas (que sólo cubren uno
o muy pocos ejemplos).
NO YES NO YES
• DESVENTAJAS:
• Representación Lógica: • Suele ser muy voraz (no hace backtracking: mínimos
(Outlook=Sunny AND Humidity=Normal) OR (Outlook=Overcast) OR locales).
(Outlook=Rain AND Wind=Weak) • Si el criterio de partición no está bien elegido, las
particiones suelen ser muy ad-hoc y generalizan poco.96
P.ej., la instancia (Outlook = sunny, Temperature = cool, Humidity = high, Wind = strong) 95
es NO.
Aprendizaje Supervisado Aprendizaje Supervisado
Naive Bayes Classifiers. Naive Bayes Classifiers.
P(( x1 , x2 ,..., xm ) | ci )·P(ci ) • Otra manera es hacer los intervalos continuos y calcular la
arg max P(ci | ( x1 , x2 ,..., xm )) = arg max =
ci ∈C Bayes ci ∈C P( x1 , x2 ,..., xm ) frecuencia acumulada f(ci | xj≤t). Tenemos f(ci | s<xj≤t) = f(ci |
= arg max P(( x1 , x2 ,..., xm ) | ci )·P(ci ) xj≤t) − f(ci | xj≤s).
ci ∈C • Se puede fijar un radio r.
• Asumiendo independencia entre los atributos, tenemos: • O podemos utilizar una función de densidad
VNB = arg max P(ci )∏ P( x j | ci ) 1
Si estos xj son continuos podemos discretizar en
intervalos y calcular P(ci | tk<xj≤tk+1) (cuanto
p ( x0 ) = lim P ( x0 ≤ x < x0 + ε )
ci ∈C j ε →∞ ε
1/13 3/13 4/13 3/13 2/13 P(int| )
más finos, más costoso será el algoritmo)
3/10 1/10 1/10 3/10 3/10 P(int| ) • Así las particiones son más ajustadas.
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
0 0 P( )=10/23= 0.435
4/10 0
0.2 0.2
P( )=13/23= 0.565 • En el último caso (función de densidad), a partir del Maximum
1/10 4/13 Likelihood obtendríamos la hipótesis Least-Squared Error:
1/10 5/13
0.4 ? 0.4 P( |? ) = P( ) · P(0.2<x<=0.4| ) · P(0.4<y<=0.6| )=

hML = arg max p ( D | h) = ... = arg min ∑ (d i − h( xi )) 2


0.6 0.6 = 0.435 · 1/10 · 1/10 = 0.004
2/10 2/13
0.8 0.8 P( |?) = P( ) · P(0.2<x<=0.4| ) · P(0.4<y<=0.6| )=
2/10 2/13 h∈H h∈H i:1.. m
1 1 = 0.565 · 3/13 · 5/13 = 0.05
97 98
donde di representa el dato i.
P( |int)
P( |int)

PARTICIÓN CUADRICULAR (intervalo fijo, 0.2).

Aprendizaje Supervisado Aprendizaje Supervisado


Naive Bayes Classifiers. Naive Bayes Classifiers. m-estimate.
• Se utilizan más con variables discretas. Ejemplo del playtennis: • Generalmente, si hay pocos datos, es posible que alguna
• Queremos clasificar una nueva instancia: probabilidad condicional sea 0 (p.ej. P(water=cool| enjoysport=no)),
(Outlook = sunny, Temperature = cool, Humidity = high, Wind = strong) porque no ha aparecido un determinado valor de un atributo para
VNB = arg max P(ci )∏ P ( x j | ci ) = una cierta clase.
ci ∈{ yes , no} j • Para evitar este problema se utiliza un m-estimado de la
= arg max P(ci )·P(Outlook = sunny | ci )·P(Temperature = cool | ci ) probabilidad:
ci ∈{ yes , no} nc + mp
·P( Humidity = high | ci )·P (Wind = strong | ci ) n+m
• Estimando las 10 probabilidades necesarias: • donde n son los casos de la clase considerada, nc son los casos de
P(Playtennis=yes)=9/14=.64, P(Playtennis=no)=5/14=.36
P(Wind=strong|Playtennis=yes)=3/9=.33
esta clase en los que el atributo considerado toma un cierto valor,
P(Wind=strong|Playtennis=no)=3/5=.60 m es una constante denominada “tamaño equivalente de muestra”
... y p es la probabilidad de cada valor del atributo a priori.
• Tenemos que: • Generalmente p se escoge uniformemente, es decir, si hay k
P(yes)P(sunny|yes)P(cool|yes)P(high|yes)P(strong|yes)=0.0053 valores posibles, p = 1/k.
P(no)P(sunny|no)P(cool|no)P(high|no)P(strong|no)=0.206 • El valor de m se escoge lo más pequeño posible (1 a 10) para100
no
99
interferir en la proporción observada (nc/n).
Aprendizaje Supervisado Aprendizaje Supervisado
Center Splitting (es un híbrido LVQ/C4.5).
Comparación de representación:
1. Inicializar el primer centro en la media de los ejemplos.
2. Asignar todos los ejemplos a su centro más cercano.
3. Si hay algún centro que tiene ejemplos de diferente clase, borrar el
centro y crear tantos nuevos centros distintos como clases haya,
cada uno siendo la media de los ejemplos de la clase. Ir a 2.
Perceptron / LMS Redes RBF
Neuronales
Multicapa

C4.5/ID3/CART Naive Bayes k-NN, LVQ, CS


Classifier
101 102

Aprendizaje Supervisado Aprendizaje Supervisado


Comparación de métodos no relacionales: Comparación de métodos no relacionales (cont.):
• Muy fácil de usar • Muy fácil de usar.
• k-NN: • Eficiente si el nº de ejemplos no es excesivamente grande. • Naive Bayes: • Muy eficiente.
• Gran expresividad de la partición. • NO HAY MODELO.
• Inteligible sólo visualmente. • Robusto al ruido.
• Robusto al ruido pero no a atributos no significativos (las distancias • Muy fácil de usar.
aumentan, conocido como “the curse of dimensionality”) • Admite atributos discretos y continuos.
• Árboles de decisión: • La clase debe ser discreta y finita. (aunque tb. existen
• Preferibles a cualquiera de las dos técnicas por separado. (C4.5): los árboles de regresión que permiten clase continua)
• RBF
(combinaciones • Difícil de ajustar el k. • Es tolerante al ruido, a atributos no significativos y a
de k-means clustering • Poca inteligibilidad. missing attribute values.
+ perceptron): • Alta inteligibilidad.
• El número de capas y elementos por capa difíciles de ajustar.
• Apropiado para clasificación o regresión. • Muy eficientes cuando hay muchos atributos (no sufre
• Redes neuronales
• Poca inteligibilidad. el “curse of dimensionality”).
(multicapa): • SVM:
• Muy sensibles a outliers (datos anómalos). • Hay que saber elegir el kernel adecuadamente
• Se necesitan muchos ejemplos (sqrt(n)). 103 • No inteligible. 104
Aprendizaje Supervisado Aprendizaje Supervisado. Sobremuestreo

Comparación de accuracy (k-NN, C4.5 y CS) (de Thornton 2000): Sobremuestreo (oversampling):
• En problemas de clasificación sobre bases de datos es posible
Dataset (del UCI repository) C4.5 1-NN CS
BC (Breast Cancer) 72.0 67.31 70.6
que haya muchísima más proporción de algunas clases sobre
CH (chess endgames) 99.2 82.82 89.9 otras. Esto puede ocasionar que haya muy pocos casos de una
GL (glass) 63.2 73.6 67.19 clase:
G2 (GL con clases 1 y 3 combinadas, y 4 a 7 borradas) 74.3 81.6 78.87
HD (heart disease) 73.6 76.24 78.77 • Problema: la clase escasa se puede tomar como ruido y ser
HE (hepatitis) 81.2 61.94 62.62 ignorada por la teoría. Ejemplo: si un problema binario (yes /
HO (horse colic) 83.6 76.9 77.73 no) sólo hay un 1% de ejemplos de la clase no, la teoría “todo
HY (hypothyroid) 99.1 97.76 96.1
IR (iris) 93.8 94.0 95.76
es de la clase yes” tendría un 99% de precisión (accuracy).
LA (labor negotiations) 77.2 94.74 90.7
LY (lymphography) 77.5 77.03 79.4
MU (agaricus-lepiota) 100.0 100.0 100.0 Soluciones:
SE (sick-euthyroid) 97.7 93.19 91.3
SO (soybean-small) 97.5 100.0 99.38 • Utilizar sobremuestro...
VO (house votes, 1984) 95.6 92.87 92.59
V1 (VO con “physician fee freeze” borrado) 89.4 87.47 89.46 • Análisis ROC
105 106
Media: 85.9 84.8 85

Aprendizaje Supervisado. Sobremuestreo Aprendizaje Supervisado. Macro-average

Sobremuestreo (oversampling / balancing): Macro-average:


• El sobremuestreo consiste en filtrar los ejemplos (tuplas) de las • Una alternativa al sobremuestreo consiste en calcular la
clases con mayor proporción, manteniendo las tuplas de las precisión de una manera diferente.
clases con menor proporción.
• Habitualmente, la precisión (accuracy) se calcula:
• Esto, evidentemente, cambia la proporción de las clases, pero
permite aprovechar a fondo los ejemplos de las clases más raras. acc(h) = aciertos / total
¿Cuándo se debe usar sobremuestreo?
(conocido como micro-averaged accuracy)
• Cuando una clase es muy extraña: p.ej. predecir fallos de
• La alternativa es calcular la precisión como:
máquinas, anomalías, excepciones, etc.
aciertosclase1 / totalclase1 + aciertosclase 2 / totalclase 2 + ... + aciertosclase − n / totalclase − n
• Cuando todas las clases (especialmente las escasas) deben acc(h) =
n º clases
ser validadas. P.ej. si la clase escasa es la de los clientes
fraudulentos. (conocido como macro-averaged accuracy)
• Pegas: hay que ser muy cuidadoso a la hora de evaluar los De esta manera se obtiene un resultado mucho más compensado
modelos. 107 108
Aprendizaje Supervisado. Aprendizaje Supervisado.
Matrices de Coste y Confusión. Matrices de Coste y Confusión.
Matrices de Confusión y Coste:
Errores de Clasificación (confusión de clases) :
• Existen técnicas para ponderar las clases → se combinan las
“matrices de confusión” con las “matrices de costes”:
• En muchos casos de minería de datos, el error de clasificación
sobre una clase no tiene las mismas consecuencias COST actual
económicas, éticas o humanas que con otras. low medium high
low 0€ 5€ 2€
predicted medium 200€ -2000€ 10€
high 10€ 1€ -15€
• Ejemplo: clasificar una partida de neumáticos en perfectas Coste
condiciones como defectuoso o viceversa. ERROR actual total:
low medium high
low 20 0 13 -29787€
predicted medium 5 15 4
high 4 7 60

109 110

Aprendizaje Supervisado.
Análisis ROC. Aprendizaje Supervisado. Mailings.
Análisis ROC (Receiver Operating Characteristic): • Mailings:
• Se basa en dibujar el “true-positive rate” en el eje y y el “false- o Existen técnicas específicas para evaluar la conveniencia de
positive rate” en el eje x. Por ejemplo, dada la siguiente matriz de campañas de ‘mailings’ (propaganda por correo selectiva):
confusión: Actual o EJEMPLO: Supongamos que una empresa de venta de productos
T F informáticos por catálogo posee una base de datos de clientes. Esta
T 30 30 empresa desea promocionar la venta de un nuevo producto: un mando
Predicted
F 20 70 de piloto para ser utilizado en programas de simulación de vuelo.
• Tendríamos TPR= 0.6 y FPR= 0.3.
1.0
o Podríamos enviar propaganda a todos sus clientes:
o Solución poco rentable
True Positive Rate

0.6

Classifier at
(0.3, 0.6) o Podemos utilizar técnicas de aprendizaje automático para poder
predecir la respuesta de un determinado cliente al envío de la
propaganda y utilizar esta información para optimizar el diseño de
0.0
0.0 0.3 1.0 111
la campaña. 112
False Positive Rate
Aprendizaje Supervisado. Mailings. Aprendizaje Supervisado. Mailings.
• Mailings: • Mailings:
1. Selección de una muestra aleatoria y suficientemente o Con el clasificador probabilístico podemos ordenar a los
numerosa de clientes clientes según su interés y dibujar un gráfico de respuesta
acumulada
2. Se realiza el envío de la propaganda a los clientes
seleccionados 100%
90%
80%
3. Una vez pasado un tiempo prudencial etiquetamos a los 70%

clientes de la muestra: 1 ha comprado el producto, 0 no 60%


50%
Sin modelo

ha comprado el producto 40%


Modelo

30%
4. Con la muestra etiqueta aprendemos un clasificador 20%
10%
probabilístico 0%

o Asigna a cada ejemplo (cliente) no la clase predicha,

0%
%

%
%

%
%
%

%
0%
10

20
30

40

50
60
70
80

90
10
sino una estimación de la probabilidad de respuesta
o Nos indican qué porcentaje de las posibles respuestas vamos a
de ese cliente
obtener dependiendo del porcentaje de envíos que realicemos
113 sobre la población total 114

Aprendizaje Supervisado.
Aprendizaje Supervisado. Mailings. Mailings.
o Además si estimamos la matriz de coste, podemos conocer la Secuenciación de Mailings:
configuración optima mediante los gráficos de beneficio
• No sobrecargar los clientes con demasiados mensajes de
o Configuración 1: Coste inicial de la campaña 10.000€, coste de envío de
cada folleto 1,5€. Por cada producto vendido ganamos 3€ márketing... O bien acabarán ignorándolos o bien se
o Configuración 2: Coste inicial de la campaña 20.000€, coste de envío de
cambiarán de compañía.
cada folleto 0,8€. Por cada producto vendido ganamos 2,5€

30.000 €
20.000 €
El mismo
10.000 €
pequeño grupo de
0€ gente se elige una
-10.000 € Configuración 1 y otra vez y otros
-20.000 € Configuración 2
no se eligen
-30.000 €
nunca.
-40.000 €
-50.000 €
-60.000 €

115 116
0%

0%
%

%
10

20

30

40

50

60

70

80

90
10
Aprendizaje Supervisado. Métodos Predictivos
Mailings. Combinación de Hipótesis
Secuenciación de Mailings: Combinación de Hipótesis:
• Hay que intentar abarcar mejor los clientes:
• VOTING/ARBITER/COMBINER:
• Se utiliza DISTINTOS algoritmos para aprender distintas
hipótesis sobre todo el conjunto de los datos.
• Luego se combinan las distintas hipótesis.
Ahora todos los • Maneras de COMBINAR hipótesis:
clientes • WEIGHTING MAJORITY: el valor se obtiene haciendo la
participan en media (caso continuo) o la mediana (caso discreto).
una campaña. • STACKING/CASCADE: se utiliza cada hipótesis como
una variable y se utiliza otro algoritmo (p.ej. una red
neuronal para asignar diferentes pesos a las diferentes
hipótesis).

117 118

Métodos Predictivos Métodos Predictivos


Combinación de Hipótesis Combinación de Hipótesis
Voting y el Clasificador Bayesiano Óptimo: Voting y el Clasificador Bayesiano Óptimo:
• Una pregunta es: “Qué hipótesis es más probable?” • Justificación:


Otra pregunta es: “Qué predicción es más probable?”
Consideremos una evidencia D y tres hipótesis h1, h2 y h3,
P (v j | D ) = ∑ P (v
hi ∈H
j | hi ) P(hi | D)
cuyas probabilidades a posteriori se han calculado: • Para el ejemplo anterior:
P(h1 | D) = 0.4, P(h2 | D) = 0.3, P(h3 | D) = 0.3 P(h1 | D) = 0.4, P(h2 | D) = 0.3, P(h3 | D) = 0.3
• Para la próxima observación h1 la clasifica como positiva P( false | h1 ) = 0, P( false | h2 ) = 1, P( false | h3 ) = 1
(true), mientras que h2 y h3 la clasifican como negativa (false).
• Según MAP y suponiendo P(h) uniforme, la mejor hipótesis es
P(true | h1 ) = 1, P(true | h2 ) = 0, P(true | h3 ) = 0
h1 y la nueva observación debería clasificarse como positiva... • Por tanto:
• Sin embargo...
∑ P( false | h ) P(h | D) = 0.6
P( false | D) =
hi ∈H
i i

La mejor clasificación de una nueva instancia se P(true | D) = ∑ P(true | h ) P (h | D) = 0.4


i i
obtiene combinando las predicciones de las hi ∈H
distintas hipótesis consideradas (voting). 119 120
Métodos Predictivos Métodos Predictivos
Combinación de Hipótesis Combinación de Hipótesis
Potenciación mediante Combinación de Hipótesis:
Ejemplo: Boosting (reiteración):
• BOOSTING: Se utiliza el MISMO algoritmo para aprender distintas • A veces unos malos resultados se pueden mejorar
hipótesis sobre los mismos datos, aumentando el peso de aquellos mediante la técnica de BOOSTING:
ejemplos que han sido clasificados incorrectamente. Luego se
combinan las distintas hipótesis. Se da peso a los ejemplos y para cada iteración se aprende una nueva
hipótesis, siendo los ejemplos reponderados para que el sistema se
• BAGGING: Se utiliza el MISMO algoritmo para aprender distintas centre en los ejemplos que han sido mal clasificados.
hipótesis sobre n muestras de m de los m datos con
• Algoritmo más simple:
reemplazamiento (bootstrap). Luego se combinan las distintas
• Dar a todos los ejemplos el mismo peso.
hipótesis. • De i:1 hasta T (nº de reiteraciones)
• Aprender una hipótesis hi con los pesos actuales.
• RANDOMISING: Se utiliza el MISMO algoritmo para aprender • Disminuir los pesos de los ejemplos que hi clasifica
distintas hipótesis sobre los mismos datos, pero variando correctamente.
aleatoriamente alguna característica del algoritmo (restringiendo • Después se promedia una solución ponderada a partir de las T
los atributos que se usan cada vez, variando el criterio de hipótesis, teniendo en cuenta la precisión de cada una.
selección, etc.). Luego se combinan las distintas hipótesis. 121 122

También podría gustarte