Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Índice general
I Introducción 2
I.1 Introducción a la probabilidad . . . . . . . . . . . . . . . . . . . . . . 2
I.2 Toma de decisiones . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
I.2.1 Tasas de error . . . . . . . . . . . . . . . . . . . . . . . . . . 4
I.2.2 Naive Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
I.3 Modelos Gráficos (Redes de Bayes) . . . . . . . . . . . . . . . . . . . 15
I.3.1 Modelo gráfico para Naive-Bayes . . . . . . . . . . . . . . . . 16
I.4 Vecinos próximos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
I.4.1 Introducción y motivación del método . . . . . . . . . . . . . . 18
I.4.2 Regla de clasificación K − N N . . . . . . . . . . . . . . . . . 20
I.4.3 Problemas de K-NN . . . . . . . . . . . . . . . . . . . . . . . 21
I.5 Clasificadores lineales . . . . . . . . . . . . . . . . . . . . . . . . . . 21
I.5.1 Frontera de decisión con hiperplano (2 clases) . . . . . . . . . 23
I.6 Regresión logística . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
I.6.1 Algoritmo de la regresión logística . . . . . . . . . . . . . . . . 26
II Algoritmos genéticos 29
II.1 Teoría de esquemas: . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
III Clustering 36
III.1 Medidas de proximidad entre puntos: métrica . . . . . . . . . . . . . . 36
A Ejercicios 38
A.1 Hoja 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
A.3 Tema 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
Índice alfabético 44
0
Documento compilado el 14 de junio de 2016 a las 12:49
1 de 44
Aprendizaje Automático - 15/16 C1 - UAM Víctor de Juan
Capítulo I
Introducción
Silogismos Definición I.2 Silogismos débiles. Si vemos la calle mojada, =⇒ lo más probable
débiles es que haya llovido.
Dominio Definición I.3 dominio. Todos los posibles resultados de un experimento aleatorio.
Variable Definición I.4 Variable aleatoria. Variable que identifica el experimento aleatorio
aleatoria
Suceso Definición I.5 Suceso. Valor que toma la variable aleatoria al realizar el experimento
aleatorio.
Dominio = {1, 2, 3, 4, 5, 6}
2 de 44
Aprendizaje Automático - 15/16 C1 - UAM Víctor de Juan
P (primo)
P (par)
Vamos a ver cómo utilizar esta regla combinándola con los silogismos:
Podemos incluir el primer silogismo fuerte ?? haciendo I = A =⇒ B, entonces
tenemos:
P (A, B|A =⇒ B) = ... = 1
Y aplicando el segundo silogismo fuerte, tenemos:
P (A|B̄, A =⇒ B) = ... = 0
P (A|A =⇒ B)
P (A|B, A =⇒ B) = ≥ P (A|A =⇒ B)
P (B|A =⇒ B)
P (D|Hi ) · P (Hi )
Hi = máx{p(Hi |D)} = máx{ } = máx{P (D|Hi ) · P (Hi )}
i i P (D) i
3 de 44
Aprendizaje Automático - 15/16 C1 - UAM Víctor de Juan
Como P (j|c) + P (t|c) = 1, tenemos que P (c) = 0.5 · 0.5 + 0.75 · 0.5 = 0.625,
entonces:
P (j|c) = 0.4
P (t|c) = 0.6
Según el criterio MAP diríamos que es más probable que la moneda esté trucada.
Por algún motivo, calculamos:
Normalizando obtenemos:
2
P (j|x) =
3
1
P (t|x) =
3
4 de 44
Aprendizaje Automático - 15/16 C1 - UAM Víctor de Juan
h1 (c) = j y h1 (x) = t
h2 (c) = t y h2 (x) = j
h3 (c) = j y h3 (x) = j
h4 (c) = t y h4 (x) = t
Cálculo de errores
Matriz de Definición I.9 Matriz de confusión. Tabla para visualizar el error de un clasificador.
confusión En la diagonal encontramos las tasas de acierto, y fuera de la diagonal, las tasas de
error.
En esta matriz, la diagonal son las tasas de acierto y lo que está fuera de la diagonal
las tasas de fallo. Con este criterio, comprobamos entonces que efectivamente la tasa
de error es 25 + 12.5 = 37.5, como habíamos calculado anteriormente erróneamente.
Si tomamos h2 , la matriz de confusión sería (tomando la parte real arriba y las
predicciones a la izquierda):
ccc justa trucada
j A11 A12
t A21 A22
5 de 44
Aprendizaje Automático - 15/16 C1 - UAM Víctor de Juan
¿CUál es la probabilidad de que digamos justa siendo la moneda justa? Para ello
pensamos ¿Cuándo decimos nosotros justa? Cuando ha salido una cruz, entonces A11
es la probabilidad de que sea justa y de que haya salido cruz, es decir A11 = P (x, j) =
P (x|j) · P (j) = P (j|x) · P (x). Entonces:
ccc justa trucada
j P (x, j) P (x, t)
t P (c, j) P (c, t)
Matriz de Definición I.10 Matriz de coste (o riesgo). Una matriz de coste o riesgo consiste
coste (o en definir ponderaciones para la gravedad de cada uno de los tipos de error.
riesgo)
Regla de Regla simétrica vs Regla asimétrica La Regla de Bayes simétrica utiliza una
Bayes matriz de coste que es igual que la matriz de confusión, es decir, la importancia de
simétrica los errores es simétrica. Por consiguiente, el lector avispado podrá imaginarse que la
Relga de Relga de Bayes asimétrica utiliza una matriz de costes distinta de la de confusión,
Bayes es decir, la importancia de los errores no es simétrica.
asimétrica
En el caso de la enfermedad descrito anteriormente, convendría utilizar una regla
asimétrica.
6 de 44
Aprendizaje Automático - 15/16 C1 - UAM Víctor de Juan
Ejercicio 2.lentillas:
Este es un ejemplo de problema multidimensional.
Aquí tenemos los datos de donde sacar las probabilidades:
EDAD LESIÓN ASTIGM. PROD_LAGRIM DIAGNOSTICO
joven miopía no reducida no
joven miopía no normal blandas
joven miopía sí reducida no
joven miopía no normal duras
joven hipermetropía no reducida no
joven hipermetropía no normal blandas
joven hipermetropía sí reducida no
joven hipermetropía sí normal duras
mediana miopía no reducida no
mediana miopía no normal blandas
mediana miopía sí reducida no
mediana miopía no normal duras
mediana hipermetropía no reducida no
mediana hipermetropía no normal blandas
mediana hipermetropía sí reducida no
mediana hipermetropía sí normal no
mediana miopía no reducida no
mediana miopía no normal no
mediana miopía sí reducida no
mediana miopía no normal duras
mediana hipermetropía no reducida no
mediana hipermetropía no normal blandas
mediana hipermetropía sí reducida no
mediana hipermetropía sí normal no
Hipótesis: no llevar lentillas (n), lentillas duras (d) o lentilla blandas (b)
Datos o atributos
edad: joven (j); mediana (m); avanzada (a)
lesión (l): miopía (m); hipermetropía (h)
Astigmatismo(a): sí (s), no (n)
Producción de lágrimas (p): normal (n), reducido (r)
7 de 44
Aprendizaje Automático - 15/16 C1 - UAM Víctor de Juan
Apartado a)
P (l = m, p = n|d = n)P (d = n)
P (d = n|l = m, p = n) =
P (l = m, p = n)
Probabilidades a priori
15
P (d = n) = 24
4
P (d = d) = 24
5
P (d = b) = 24
Verosimilitues:
1
P (l = m, p = n|d = n) = 15
3
P (l = m, p = n|d = d) = 4
2
P (l = m, p = n|d = b) = 5
1 15
P (l = m, p = n|d = n)P (d = n)
P (d = n|l = m, p = n) = = 15 24
P (l = m, p = n) ...
3 4
P (l = m, p = n|d = n)P (d = n)
P (d = d|l = m, p = n) = = 4 24 ⇐= M AP
P (l = m, p = n) ...
2 5
P (l = m, p = n|d = n)P (d = n) 5 24
P (d = b|l = m, p = n) = =
P (l = m, p = n) ...
Apartado b)
(l = h, p = n) Calculamos las probabilidades a posteriori (para el criterio MAP):
1
P (d = n|l = h, p = n) = ... = = 33 %
3
1
P (d = d|l = h, p = n) = ... = = 16 %
6
3
P (d = b|l = h, p = n) = ... = = 50 %
6
8 de 44
Aprendizaje Automático - 15/16 C1 - UAM Víctor de Juan
Apartado c)
(l = m, p = r) Calculamos las probabilidades a posteriori (para el criterio MAP):
P (l = m, p = r|d = n) = ... =
P (l = m, p = r|d = b) = ... =
P (l = m, p = r|d = d) = ... =
Apartado d)
(l = h, p = r) Calculamos las probabilidades a posteriori (para el criterio MAP):
P (l = h, p = r|d = n) = ... =
P (l = h, p = r|d = b) = ... =
P (l = h, p = r|d = d) = ... =
9 de 44
Aprendizaje Automático - 15/16 C1 - UAM Víctor de Juan
Solución inocente: Suponemos que todos los atributos son independientes. Con
esto conseguimos que P (l = m, p = n|d = d) = P (l = m|d = d) · P (p = n|d = d)
Lo que dice el método Naive Bayes es utilizar la ingenuidad3 de que los atributos
son independientes entre sí dada la clase, es decir:
P (x1 , ..., xn |Hi ) · P (Hi ) P (x1 |Hi ) · ... · P (xn |Hi ) · P (H1 )
=
P (x1 , ..., xn ) P (x1 , xn )
Q Independiente dada la clase quiereQ decir que sólo podemos tener P (x1 , ..., xn |Hi ) =
P (xi |Hi ) y no P (x1 , ..., xn ) = P (xi ), ya que en el segundo caso no están
condicionados a la clase.
Entonces en el denominador seguimos teniendo P (x1 , ..., xn ), que no nos gusta.
Para calcularlo, podemos utilizar:
XY
P (x1 , ..., xn ) = P (xj |Hi ) · P (Hi )
i j
3
Naive se traduce al español por ingenuo o inocente
10 de 44
Aprendizaje Automático - 15/16 C1 - UAM Víctor de Juan
Ejemplo: ¿Cuánto de fiable puede ser este método? Vamos a ver un ejemplo con
el problema de las lentillas.
7 3 7
P (l = m, p = n|d = n) ' P (l = m|d = n) · P (p = n|d = n) = · =
15 15 75
Por otro lado, sabemos:
1
P (l = m, p = n|d = n) =
15
Y obviamente:
1 5 7
= 6=
15 15 75
Para realizar el cálculo hay que obtener las tablas en entrenamiento que cruzan
los atributos con las hipótesis. Estas tablas son las que se construyen durante el
entrenamiento para agilizar el cáculo. En el fondo, estas tablas son las P (xj |Hi ) de la
fórmula
lesión n b d prod n b d
miopía 7 2 3 reducida 12 0 0
hipermetropía 8 3 1 normal 3 5 4
Vamos a calcular el resto de cosas para comparar cuánto nos desviamos al suponer
independencia:
11 de 44
Aprendizaje Automático - 15/16 C1 - UAM Víctor de Juan
7 12 15 7
P (l = m|d = n)P (p = r|d = n)P (d = n)
P (d = n|l = m, p = r) = = 15 15 24 = 30 = 1
P (...) P (...) P (...)
30 4
P (l = m|d = b)P (p = r|d = b)P (d = b)
P (d = b|l = m, p = r) = = 4 4 24 = 0
P (...) P (...)
P (l = m|d = d)P (p = r|d = d)P (d = d)
P (d = d|l = m, p = r) = = ... = 0
P (...)
Corrección Definición I.13 Corrección de Laplace. En casos en que aparecen valores nulos en
de Laplace las tablas se suma 1 a toda la tabla.
Interpretación: La idea intuitiva es que pueden faltarnos datos y que tal vez no es
categórico ese 0. Supongamos que tiro una moneda 3 veces y salen 3 caras. Sólo debería
aparecer un 0 si la moneda tuviera 2 caras. Si no, simplemente nos falta información.
Como sólo tener 2 caras en una moneda es absurdo, nos inventamos un experimento
positivo y otro negativo para compensar esa posible falta de información.
Con esta modificación, reescribimos la tabla de producción de lágrimas:
prod n b d
reducida 13 1 1
normal 4 6 5
7 13 15
P (l = m|d = n)P (p = r|d = n)P (d = n) 15 17 24 0.22
P (d = n|l = m, p = r) = = =
P (...) P (...) P (...)
31 4
P (l = m|d = b)P (p = r|d = b)P (d = b) 1 1
P (d = b|l = m, p = r) = = 4 6 24 = ·
P (...) P (...) 48 P (...)
P (l = m|d = d)P (p = r|d = d)P (d = d) 1 1
P (d = d|l = m, p = r) = =
P (...) 84 P (...)
12 de 44
Aprendizaje Automático - 15/16 C1 - UAM Víctor de Juan
La solución es suponer que la variable sigue una distribución normal dada la clase.
Estudiamos p(v1 , ..., vn |µσ 2 ) suponiendo que su distribución es una normal.
¿Qué valores de µ y σ maximizan la verosimilitud de la muestra? Para ello derivamos
respecto a µ y σ e igualamos a 0.
Tras muchas cuentas que no van a ser reflejadas aquí, obtenemos que
N
1 X
µ= vi
N i=1
N
1 X
σ2 = (xi − vi )2
N i=1
13 de 44
Aprendizaje Automático - 15/16 C1 - UAM Víctor de Juan
El objetivo es poder clasificar una nueva planta que nos venga de acuerdo a esa
información, suponiendo normalidad dada la clase.
1
Ejemplo: Tenemos: p(set) = p(vir) = p(ver) = 3
p(set|ap = 1.5)
14 de 44
Aprendizaje Automático - 15/16 C1 - UAM Víctor de Juan
2.99 · 10−2 25 1
50 3 4.98 · 10−3
P (ver|ls = m, ap = 1.9) = =
P (...) P (...)
7 1
1.3 · 50 3 6.1 · 10−2
P (vir|ls = m, ap = 1.9) = =
P (...) P (...)
Regla de la Definición I.14 Regla de la cadena. Aplicación de la regla del producto múltiples
cadena veces.
Consideramos las variables aleatorioas x1 , x2 , x3 , x4 :
P (x1 , x−2, x3 , x4 ) = P (x1 |x2 , x3 , x4 )P (x2 , x3 , x4 ) = ... = P (x1 |x2 , x3 , x4 )P (x2 |x3 , x4 )P (x3 |x4 )P (x4 )
15 de 44
Aprendizaje Automático - 15/16 C1 - UAM Víctor de Juan
P (e, l, p|d) · P (d) = P (e, l, p, d) = P (e, l, p|d) · P (d) = P (e|d)P (l|d)P (p|d)P (d)
16 de 44
Aprendizaje Automático - 15/16 C1 - UAM Víctor de Juan
¿Y si este grafo nos parece muy sencillo? Podemos suponer que la edad influye en
el astigmatismo, asique añadimos una arista al grafo, y escribimos la fórmula:
P (d, a, e, p)
P (d|a, e, p) = =
P (a, e, p)
e depende de d.
...
17 de 44
Aprendizaje Automático - 15/16 C1 - UAM Víctor de Juan
18 de 44
Aprendizaje Automático - 15/16 C1 - UAM Víctor de Juan
Aquí vemos claramente que no podemos estimar utilizando una normal, ya que ni
se le parece. Podríamos tomar 2 normales, o tendríamos que intentar generalizar la
estimación por histograma a D dimensiones.
K
En el caso de estimar generalizando el histograma, tendríamos P (x ∈ R) = N
,
donde K es el número de puntos en la región y N es el número total de datos.
Si intentamos exportar este modelo a más dimensiones, generalizar la estimación
por histograma, necesitamos muchos más datos de los que podemos obtener para
estimar así, debido a la MALDICIÓN DE LA DIMENSIONALIDAD.
Para que la estimación generalizada por histograma sea una buena estimación,
tenemos que tener el espacio suficientemente cubierto de puntos, es decir n tiene que
ser más grande cuanto mayor es la dimensión.
Si tenemos R suficientemente pequeña, podemos intentar estimarlo con integrales:
Z
P (x̄ ∈ R) = P df (x̄)dx̄ ' pdf (x̄) · V
R
Donde V es el volumen de R.
Igualando, obtenemos
K K
P (x̄ ∈ R) = = pdf (x̄) · V =⇒ pdf (x̄) =
N NV
Esta última fórmula se puede usar de 2 formas:
19 de 44
Aprendizaje Automático - 15/16 C1 - UAM Víctor de Juan
Kc
Verosimilitud P (x|Clase) = Nc V
Nc
Priori P (Clase) = N
K
Evidencia P (x) = NV
... Kc
P (Clase|x) = = se cancela todo ... =
... K
Con K = 3 puntos, la clase asignada (a priori) sería “triángulo rojo”, ya que es la
clase con mayor probabilidad a posteriori 23 .
En cambio, si tomamos K = 5 (la linea discontinua), asignaríamos (a priori) la
clase “cuadrado azul”, ya que es la clase mayoritaria e la esfera.
Clasificar:
20 de 44
Aprendizaje Automático - 15/16 C1 - UAM Víctor de Juan
I.4.3.2. Elección de K
Selección de K óptimo:
21 de 44
Aprendizaje Automático - 15/16 C1 - UAM Víctor de Juan
(
c1 hω, xi + ω0 > 0
h(x) =
c2 hω, xi + ω0 < 0
−ω0
hωxi + ω0 = 0 → |x| cos(α) =
|ω|
Veamos como surgen las fronteras lineales de forma “natural” haciendo suposiciones
sencillas sobre la forma funcional de los datos.
22 de 44
Aprendizaje Automático - 15/16 C1 - UAM Víctor de Juan
¿Qué hemos ganado con esto? Hemos reescrito Bayes como una sigmoidal.
Esto permite clasificar de la siguiente manera:
tenemos 2 clases.
Σ1 = Σ2 = I
( )
P (x|C1 )P (C1 ) x − µ1 x − µ2 P (C1 )
a = ln = ln exp − =
P (x|C2 )P (C2 ) 2 2 P (C2 )
!
(x − µ2 )2 (x − µ2 )2 P (C1 )
= − + ln =0
2 2 P (C2 )
Si P (C1 ) = P (C2 ), tenemos:
!
(x − µ2 )2 (x − µ2 )2
− =0
2 2
23 de 44
Aprendizaje Automático - 15/16 C1 - UAM Víctor de Juan
1 P (C1 )
hω, xi + ω0 = 0 =⇒ h(µ1 − µ2 ), xi + (µ22 − µ21 ) + ln
2 P (C2 )
2 clases
ω = Σ−1 (µ1 − µ2 )
1 1 P (C1 )
ω0 = µ1 Σµ1 + µ2 Σµ2 + ln
2 2 P (C2 )
Ahora vamos a obtener los parámetros de las gausianas por máxima verosimilitud,
es decir: máxi {P (D|Hi )}
Tenemos:
Vamos a ello:
NY
train
24 de 44
Aprendizaje Automático - 15/16 C1 - UAM Víctor de Juan
ωnew = (ω0 , ω)
xnew = (1, x)
¿Qué hemos ganado con esto? Algo más de compacidad, ya que P (C1 |x) =
σ(hωnew , xnew i)
D = {(xi , ti )i = 1, ..., N }
(
1 xi ∈ C 1
donde ti =
0 xi ∈ C 2
En regresión logística,
H=ω
D = t1 , ..., tN
I = x1 , ..., xN
N
Y
P (t1 , ..., tN |ω, x1 , ..., xN ) = P (ti |ω, xi )
t (1−ti )
P (ti |ω, xi ) = σ hω, xi i i · 1 − σ(hω, xi i)
25 de 44
Aprendizaje Automático - 15/16 C1 - UAM Víctor de Juan
N
Y
= ... = σiti (1 − σi )(1−ti )
x1
1 2
hω, (1, x1 )i = h −1, , , (1, 0, 0)i = −1
3 3
1
P (C1 |x1 ) = = 0.27
1 + e−(−1)
Comentamos que P (C2 |x1 ) = 1 − P (C1 |x1 )
x2
hω, (1, 3, 1.5)i = ... = 1
1
P (C1 |x2 ) = = 0.73
1 + e−1
Observación: Es interesante ver que son los complementarios. ¿A qué se debe esto?
A que están a la misma distancia de la recta frontera.
26 de 44
Aprendizaje Automático - 15/16 C1 - UAM Víctor de Juan
3 return ω
Ejemplo:
x1 x2 t
0 0 0 C2
1 1 0 C2
0 1 0 C2
1 1 1 C1
Ejemplo: x = (1, 0, 0)
hω, xi = −0.3
1
σ(−0.3) = = 0.43
1 + e−(−0.3)
Está bien claisificado, ya que da C2 (la principal es C1 ).
Vamos a hacer otra iteración del bucle. Ahora toca x = (1, 1, 0):
hω, xi = 0.73
...
ω = (−1.06, −0.33, −0.4)
27 de 44
Aprendizaje Automático - 15/16 C1 - UAM Víctor de Juan
ω
ω = ω − R (σi − ti ) xi +
N σ2
Algoritmo: Completar
4
Como ω se calcula con valores iniciales aleatorios entre −a y a. Lo que no tengo ni idea es de la
varianza...
28 de 44
Aprendizaje Automático - 15/16 C1 - UAM Víctor de Juan
Capítulo II
Algoritmos genéticos
Los individuos que mejor se adaptan al entorno son los que sobreviven.
Algoritmo
29 de 44
Aprendizaje Automático - 15/16 C1 - UAM Víctor de Juan
Inicial x f Pfi
fi
01101 13 169 0.14
11000 24 576 0.49
01000 8 64 0.06
10011 19 361 0.31
30 de 44
Aprendizaje Automático - 15/16 C1 - UAM Víctor de Juan
Ahora seleccionamos proporcional a fitness (la primera columna han sido aleatorios)
Ejemplo:
Ejemplo:
Orden O(1 ∗ ∗ ∗ 0) = 2
Distancia d(∗1 ∗ ∗0) = 3
Distancia d(10) = 1
∗ 1 ∗ 0} ∗ ∗ ∗) = 6
Distancia d(∗ ∗ ∗ |1 ∗ 0{z
Combinatoria básica:
31 de 44
Aprendizaje Automático - 15/16 C1 - UAM Víctor de Juan
N
En el algoritmo, la inicialización es aleatoria. Por ello, en promedio habrá 2
esquemas que empiecen por 1 y N2 esquemas que empiecen por 0.
Queremos calcular el valor esperado de nH (t + 1). Para ello, vamos a dar 3 pasos:
f (t)
Pi
fi (t)
fi (t) fi (t)
NP = ¯
fi (t) f (t)
d(H)
Sc = 1 − pc
l−1
Ejercicio 1.1:
Buscar el máximo de f (x) = (x − 63)2 en [0, 63] con algoritmos genéticos,
utilizando:
32 de 44
Aprendizaje Automático - 15/16 C1 - UAM Víctor de Juan
Apartado a)
Completa la tabla de la población inicial.
cromosomas x fitness
100110
110001
110110
011001
Apartado b)
Esquemas: H1 = 1 ∗ 0 ∗ ∗∗ y H2 = 0 ∗ ∗ ∗ ∗ ∗ ∗
Cómo sobrevive cada esquema a cada uno de los pasos del algoritmo en 1
iteración.
a) Población inicial:
cromosomas x fitness
100110 38 625
110001 49 196
110110 54 81
011001 25 1444
b)
fH )t
Ss (H) = nH (t) para H ∈ {H1 , H2 }
f (t)
Vamos a calcular cada término
1
Ss (H1 ) = 3 · 300.7 = 1.54
586.5
1
Ss (H2 ) = 1 · 1444 = 2.46
586.5
33 de 44
Aprendizaje Automático - 15/16 C1 - UAM Víctor de Juan
Ejercicio 1.2:
Queremos resolver el problema del viajante con algoritmos genéticos.
Para este problema, definir los cromosomas, el ftness el cruce y la mutación.
34 de 44
Aprendizaje Automático - 15/16 C1 - UAM Víctor de Juan
por el orden dado según el otro padre. Es decir, el primer hijo será 32| − −− donde la
segunda parte dentrá los números 1, 4, 5, 6 tal y como vienen en el padre derecho, esto
es 1, 4, 5, 6 (vemos que se han intercambiado el 5 y el 6). El primer hijo será 32|1456.
El segundo hijo será 21|−−− donde la parte derecha serán los números 3, 4, 5, 6 según
el orden del primer padre, es decir: 21|3465
35 de 44
Aprendizaje Automático - 15/16 C1 - UAM Víctor de Juan
Capítulo III
Clustering
¿Qué podemos clasificar aquí? Según “tierra, mar y aire”, o según “mamífero, no
mamífero” ... Hay muchas posibilidades para agrupar.
Podemos definir los siguientes atributos:
Medio.
Respiración.
Alimentación.
Volador o no.
36 de 44
Aprendizaje Automático - 15/16 C1 - UAM Víctor de Juan
pP
Distancia Distancia euclídea:
euclídea: Pn
Distancia Distancia Manhattan: d(x, y) = d=1 |xd − x0d |
Manhat-
tan:
Pero también necesitamos definir la distancia entre un punto y un cluster. Podemos
definirla como la distancia al centro, la distancia al más cercano o la distancia al más
lejano.
También tendríamos que definir la distancia entre 2 clusters, de la misma manera
que antes. Media de las distancias, mínima(enlace simple) y máxima (enlace completo).
37 de 44
Aprendizaje Automático - 15/16 C1 - UAM Víctor de Juan
Apéndice A
Ejercicios
A.1. Hoja 1
Ejercicio 1.1:
Un taxi golpea a una persona de noche y huye. En la ciudad operan dos
compañías de taxis. Una verde y otra azul. El 85 % de los taxis son verdes.
a) ¿De qué color es más probable que sea el taxi?
b) Un testigo dice que es azul con fiabilidad del 80 %
c) Decisión final usando el criterio de máxima verosimilitud y el criterio de
máxima probabilidad a posteriori.
Apartado b)
P(H=verde) = 85 % P(H=azul) = 15 %
P (D = a|H = a, I) · P (H = A|I)
P H = azul|D = azul, I =
P (D = a|I)
Para calcularlo, necesitamos saber la probabilidad con la que el testigo dice que un
taxi es azul.1
P (D = a|I) = P (D = a|H = a)·P (H = a)+P (D = verde|H = v)·P (H = v) = 0.8·0.15+0.2·0.85 = 0
0.8 · 0.15
P H = azul|D = azul, I = = 0.41
0.29
1
Suponemos que el testigo se equivoca igual de azul a verde que de verde a azul
38 de 44
Aprendizaje Automático - 15/16 C1 - UAM Víctor de Juan
Apartado c)
Por el criterio MV - máxima verosimilitud (I.8):
Este criterio, al ser más sencillo y omitir parte de la información (que a veces no
podremos calcular), nos da una respuesta menos correcta, y en este caso contraria a
la obtenida anteriormente.
Apartado a)
5
P (s = b|p = b) = 11
Apartado b)
Como siempre, empezamos definiendo los datos y las hipótesis.
D ≡ (s = b) donde s se refiere a segunda extracción.
H ≡ (p = b|p = n) donde p se refiere a primera extracción.
5
P (s = b|p = b) · P (p = b) · 6
P (p = b|s = b) = = 11 11
P (s = b) P (s = b)
6 5 6 6
Donde P (s = b) = 12
· 12
+ 12 12
, con lo que
5
P (p = b|s = b) =
11
P (s = b|p = n) · P (p = n) 6
P (p = n|s = b) = = ... =
P (s = b) 11
39 de 44
Aprendizaje Automático - 15/16 C1 - UAM Víctor de Juan
Ejercicio 1.3:
Según el hombre del tiempo, la probabilidad de lluvia hoy es del 20 %. Estamos
en un sótano siun ventanas y no podemos saber qué tiempo hace fuera. Sin
embargo, vemos entrar a alguien llevando un paraguas. Sabiendo que la probabilidad
de que alguien lleve paraguas y esté lloviendo es del 70 % y sólo del 10 % en caso
contrario. ¿Cuál es la probabilidad de que esté lloviendo?
Para saber cuál es más probable, no es necesario calcular el denominador. Por ello
concluiomos que es más probable que esté lloviendo (ya que 0.14 > 0.08).
Para calcular las probabilidades con exactitud, necesitamos saber P (p). Para ello
tenemos 2 opciones:
La versión corta, es que P (r|p) + P (r̄|p) = 1, con lo que el denominador debe
ser P (p) = 0.7 · 0.2 + 0.1 · 0.8, con lo que las probabilidades son 63.8 % y 36.2 %
respectivamente.
Por otro lado, podríamos aplicar la regla del producto para calcularlo:
40 de 44
Aprendizaje Automático - 15/16 C1 - UAM Víctor de Juan
Apartado a)
P (negra) = P (A, negra)+P (B, negra) = P (negra|A, I)·P (A)+P (negra|B, I)·P (B)
La intuición nos dice que será de la bolsa B, ya que esta tiene más bolas negras, y
las 2 bolsas son equiprobables.
Vamos a justificarlo matemáticamente:
P(H=A) = 50 %
D=negra
P (negra|A) · P (A)
P (A|D = negra) =
P (negra)
Notación:
n, b se refiere a bola negra o blanca respectivamente.
A, B se refieren a la bolsa de la que se ha extraído la bola.
Apartado a)
2
P (n) = P (n|A) · P (A) + P (n|B) · P (B) = 5
· 34 + 35 · 1
4
= 9
20
Apartado b)
2 3
P (n|A)·P (A) · 2
P (A|n) = P (n)
= 5 4
9 = 3
20
Por otro lado, P (B|n) = 13 . Como la bola sólo puede estar en la bolsa A o en la
bolsa B, es decir, son casos disjuntos, P (A|n) + P (B|n) = 1. Si la bola pudiera estar
en 2 bolsas a la vez, tendríamos que hacer el cálculo porque esta regla no se cumpliría.
Apartado c)
41 de 44
Aprendizaje Automático - 15/16 C1 - UAM Víctor de Juan
A.3. Tema 3
Ejercicio 3.1:
¿Cuál es la verosimilitud de B, C, D, E dado A, siendo este el modelo gráfico?
5 nodos:
A → {B, C, D}
B → {}
C → {B}
D → {E}
E → {C}
P (x1 )P (x2 )P (x3 )P (x4 |X1 x2 x3 )P (x5 |x1 x3 )P (x6 |x4 )P (x7 |x5 x4 )
x1 → {x4 , x5 }
x2 → {x4 }
x3 → {x4 , x5 }
x4 → {x6 , x7 }
x5 → {x7 }
x6 → {}
42 de 44
Aprendizaje Automático - 15/16 C1 - UAM Víctor de Juan
x7 → {}
Ejercicio 3.3:
Clase → {A, C, E}
A → {}
C → {A}
E → {}
Además, tenemos:
A C E Clase
1 1 0 A
1 0 1 A
0 0 0 S
0 1 1 S
0 1 1 A
1 1 0 A
1 1 0 A
0 0 1 S
1 0 1 A
1 0 0 S
P (Clase = A|A = 1, C = 0, E = 0) =
P (A = 1|C = 1, Clase = A)P (C = 0|Clase = A)P (E = 0|Clase = A)P (Clase = A)
P (A = 1, C = 0, E = 0)
2 2 3
6
· ·
2 6 6 10
P (Clase = A|A = 1, C = 0, E = 0) =
P (...)
43 de 44
Aprendizaje Automático - 15/16 C1 - UAM Víctor de Juan
Índice alfabético
Clasificador lineal, 21
Corrección de Laplace, 12
Criterio MAP, 3
Criterio MV, 3
crommosoma, 30
Cruce
uniforme, 35
Distancia
euclídea:, 37
Manhattan:, 37
Distancia de un esquema, 31
dominio, 2
Frontera, 22
Función sigmoidal, 22
Funciones de t, 32
m-clústering, 36
Métrica, 36
Maldción de la dimensionalidad, 10
Matriz de confusión, 5
Matriz de coste (o riesgo), 6
Naive Bayes, 11
Orden de un esquema, 31
Poligonos de Thiessen, 21
Red de Bayes, 16
Regla de Bayes simétrica, 6
Regla de la cadena, 15
Regla del producto, 3
Relga de Bayes asimétrica, 6
Silogismos débiles, 2
Silogismos fuertes, 2
Suceso, 2
Variable aleatoria, 2
Vecinos próximos, 19
44 de 44