Está en la página 1de 9

Equipo 3 Tarea 1 Machine Learning

Ejercicio 1
Ejercicio 1.4 del libro de Bishop.
Considere la distribución de probabilidad px (x) definida sobre una variable continua x, y suponga que
hacemos un cambio de variable no lineal utilizando x = g(y), de modo que la densidad se transforma
según (1.27). Derivando (1.27), muestre que la ubicación ŷ del máximo de la densidad en y, no está
en general relacionada con la ubicación x̂ del máximo de la densidad sobre x por la relación funcional
simple x̂ = g(ŷ) como consecuencia del factor jacobiano. Esto demuestra que el máximo de una densidad
de probabilidad (en contraste con una función simple) depende de la elección de variables Verifique que,
en el caso de una transformación lineal, la ubicación de la el máximo se transforma de la misma manera
que la propia variable.

Respuesta: Consideremos la forma en la que se comportarı́a la función f (x) al realizar el cambio de variable
y, con x = g(y). Es decir, una nueva función dada por:
f˜(y) = f (g(y))
En dónde podemos suponer que f (x) tiene un máximo en x̂, esto querrá decir que:
f ′ (x̂)) = 0

En dónde el correspondiente modo de f˜(y) ocurrirá diferenciando nuestra primera ecuación, por lo que:
f˜′ (ŷ) = f ′ (g(ŷ))g ′ (ŷ) = 0
En dónde se puede asumir que g ′ (ŷ) ̸= en la moda, lo que implicarı́a que esta ecuación se cumple si y solo si:
f ′ (g(ŷ)) = 0
Encontrar la moda respecto a la variable x será equivalente a primero transformar la variable y y luego
encontrar la moda con respecto a y para luego transformar de regreso a x.
Por otro lado la densidad de probabilidad bajo el cambio de variable puede ser expresada según la ecuación
(1.27) como:

py (y) = px (g(y))λg ′ (y)


En dónde λ saldrá de la relación:
g ′ (y) = λ|g ′ (y)|t.qλ ∈ [−1, 1]
Derivando ambos lados con respecto a y como lo dicta el problema:
p′y (y) = λp′x (g(y))[g ′ (y)]2 + λpx (g(y))g ′′ (y)
En dónde en el segundo término de la ecuación anterior, la relación x̂ = g(ŷ) ya no se cumple. Por lo tanto, el
valor de x obtenido al maximizar px (x) no será el valor obtenido al transformar py (y) y luego maximizar con
respecto a y y luego transformar nuevamente a x. Esto implica que las modas de las densidades dependan
de la elección de las variables.

Ejercicio 2
Ejercicio 1.7 del libro de Bishop.
En este ejercicio probaremos la condición de normalización:
Z ∞
N (x|µ, σ 2 )dx = 1

Para la Gaussiana univariada, para este ejercicio consideremos la integral:


Z ∞  
1 2
I= exp − 2 x dx
−∞ 2σ

1
Equipo 3 Tarea 1 Machine Learning

La cual podemos evaluar escribiéndola de la forma cuadrática como:


Z ∞Z ∞  
2 1 2 1 2
I = exp − 2 x − 2 y dxdy
−∞ −∞ 2σ 2σ

Ahora haciendo la transformación de coordenadas cartesianas (x, y) a coordenadas polares (r, θ) y


sustituye u = r2 . Muestre que caracterizando las integrales sobre θ, u y tomando la raı́z cuadrada de
ambos lados obtenemos:

I = (2πσ 2 )1/2

Finalmente use el resultado para mostrar que la distribución Gaussiana N (x|µ, σ 2 ) está normalizada

Respuesta:
Dem.
Podemos primero demostrar que la distribución gaussiana con media 0, es decir el parámetro µ = 0, está
normalizada para después extender el resultado.
Sabemos que la distribucion gaussiana con media 0 está dada por:
 
1 1
φ(x) = √ exp − 2 x2 (1)
2πσ 2 2σ

para demostrar que está normalizada, tenemos que demostrar que:


Z ∞ 
1 2
 √
exp − 2 x dx = 2πσ 2 (2)
−∞ 2σ

Tenemos que:
Z ∞  
1 2
I= exp − 2 x dx (3)
−∞ 2σ
Z ∞Z ∞  
2 1 2 1 2
=⇒ I = exp − 2 x − 2 y dxdy (4)
−∞ −∞ 2σ 2σ

para integrar la ecuación anterior podemos cambiar de coordenadas cartesianas a coordenadas polares:

x = r cos θ y = r sin θ (5)

usando que cos2 θ + sin2 θ = 1 y que x2 + y 2 = r2 , la ecuación (4) la podemos reescribir como:
2π ∞
r2
Z Z  
I2 = exp − 2 rdrdθ
0 0 2σ
Z ∞  2

r
= 2π exp − 2 rdr
0 2σ

hacemos cambio de variable r2 = u


Z ∞  
u 1
= 2π exp − 2 du
0 2σ 2
 ∞
   
u 2
= π exp − 2 − 2σ
2σ 0
= 2πσ 2

entonces √
I= 2πσ 2 (6)

2
Equipo 3 Tarea 1 Machine Learning

finalmente para probar que N (x|µ, σ 2 ) está normalizada, hacemos que y = x − µ, entonces:
Z ∞
y2
Z  
2 1 ∞
N (x|µ, σ )dx = √ ∞ exp − 2 dy
−∞ 2πσ 2 − 2σ
I
=√
2πσ 2
=1

Ejercicio 3
Ejercicio 47 del Capı́tulo 2 del libro de Duda.
Suponga que tenemos tres categorı́as en dos dimensiones con las siguientes distribuciones subyacentes:

p(x|ω1 ) ∼ N (0, I)
  
1
p(x|ω2 ) ∼ N ,I
1
     
1 ,5 1 −,5
p(x|ω3 ) ∼ N ( ,I + N ,I
2 ,5 2 ,5

Con P (ωi = 1/3, i = 1, 2, 3


 
,3
1. Por cálculo explı́cito de probabilidades posteriores, clasifique el punto x = Para la probabi-
,3
lidad de error mı́nima.

2. Suponga que  para un punto de prueba en particular falta la primera caracterı́stica. Es decir,

clasificar x =
,3
3. Suponga
  que para un punto de prueba en particular falta la segunda caracterı́stica. Es decir
,3
x=

 
,2
4. Repita todo lo anterior para x =
,6

Respuesta:
1. Por calculo directo:
p(x|ω1 )P (ω1 ) = 0,048
p(x|ω2 )P (ω2 ) = 0,0325
p(x|ω3 )P (ω3 ) = 0,0444

2. Para encontrar la primera componente, necesitamos marginar la función desconocida, es decir:


   Z ∞   
∗ x
P (ωi )p |ωi = P (ωi ) p |ωi dx
,3 −∞ ,3
en dónde para cada ωi
P (ω1 )p((∗, ,3)t |ω1 ) = 0,1271
P (ω1 )p((∗, ,3)t |ω2 ) = 0,1040
P (ω1 )p((∗, ,3)t |ω3 ) = 0,1305
Por lo tanto el patrón es de tipo ω3

3
Equipo 3 Tarea 1 Machine Learning

3. Calculamos numéricamente:
   Z ∞   
,3 ,3
P (ωi )p̃ |ωi = P (ωi p |ωi dy
∗ −∞ y

En dónde los resultados nos arrojan:

P (ω1 )p((,3, ∗)t |ω1 ) = 0,1271


P (ω1 )p((,3, ∗)t |ω2 ) = 0,1040
P (ω1 )p((,3, ∗)t |ω3 ) = 0,1134

Y por tanto el patrón será de tipo ω1 .


4. Por lo hecho para el inciso anterior, tenemos:

x = (,2, ,6)t :

P (ω1 )p(x|ω1 ) = 0,0434


P (ω2 )p(x|ω2 ) = 0,0355
P (ω3 )p(x|ω3 ) = 0,0458

x = (∗, ,6)t

P (ω1 )p(x|ω1 ) = 0,1110


P (ω2 )p(x|ω2 ) = 0,1227
P (ω3 )p(x|ω3 ) = 0,1323

x = (,2, ∗)t

P (ω1 )p(x|ω1 ) = 0,1110


P (ω2 )p(x|ω2 ) = 0,1227
P (ω3 )p(x|ω3 ) = 0,1024

Ejercicio 4
4. Considere el conjunto de vectores S y la matriz Σ. Grafique las los vectores x y los vectores Σx y
Σ−1 x.

cos 2π
     
8 n 2,5 −2
S= x= : n = 0, · · · , 7 , Σ=
sin 2π
8 n
−2 3

Respuesta: Realizamos un código en Python que se anexa al final del presente trabajo, de esta manera
logramos graficar los vectores x, Σx y Σ−1 x como se muestra en la figura 1.

4
Equipo 3 Tarea 1 Machine Learning

Figura 1: En la gráfica se muestra con distintos colores los diferentes conjuntos de vectores.

Ejercicio 5
Estimación del error de Bayes. La regla de decisión de Bayes para el problema de clasificación de dos
clases da como ...
(a). Muestre que el error completo puede ser acotado superiormente de la siguiente manera:

Z
2
P (Err) ≤ 1 1 P (X)dX
P (ω1 |X) + P (ω2 |X)

(b). Muestre usando el resultado (a) que para las distribuciones de probabilidad de una variable,

π −1 π −1
P (X|ω1 ) = y P (X|ω2 ) =
1 + (x − µ)2 1 + (x + µ)2

el error de Bayes puede ser acotado por

2P (ω1 )P (ω2 )
P (Err) ≤ p
1 + 4µ2 P (ω1 )P (ω2 )

Respuesta:

(a) Existen tres casos, cuando el mı́nimo es P (ω1 |X), cuando el mı́nimo es P (ω1 |X) y cuando son iguales.
Caso 1: Cuando el mı́nimo es P (ω1 |X), es decir, P (ω1 |X) < P (ω2 |X) entonces como P (ωi |X) > 0 se
cumple que

P (ω1 |X) < P (ω2 |X) ⇒ P (ω1 |X)2 < P (ω2 |X)P (ω1 |X)
⇒ P (ω1 |X)2 + P (ω2 |X)P (ω1 |X) < 2P (ω2 |X)P (ω1 |X)

⇒ P (ω1 |X)(P (ω2 |X) + P (ω1 |X)) < 2P (ω2 |X)P (ω1 |X)

5
Equipo 3 Tarea 1 Machine Learning

2P (ω2 |X)P (ω1 |X) 2 2


⇒ P (ω1 |X) < = P (ω2 |X)+P (ω1 |X)
= 1 1
P (ω2 |X) + P (ω1 |X) P (ω1 |X) + P (ω2 |X)
P (ω2 |X)P (ω1 |X)

2
⇒ min{P (ω1 |X), P (ω2 |X)} = P (ω1 |X) < 1 1
P (ω1 |X) + P (ω2 |X)

2
⇒ min{P (ω1 |X), P (ω2 |X)}P (X) < 1 1 P (X)
P (ω1 |X) + P (ω2 |X)
Z Z
2
⇒ P (Err) = min{P (ω1 |X), P (ω2 |X)}P (X)dX < 1 1 P (X)dX
P (ω1 |X) + P (ω2 |X)

Caso 2: Cuando el mı́nimo es P (ω2 |X), es decir, P (ω2 |X) < P (ω1 |X), entonces como P (ωi |X) > 0 se
cumple que

P (ω2 |X) < P (ω1 |X) ⇒ P (ω2 |X)2 < P (ω2 |X)P (ω1 |X)
⇒ P (ω2 |X)2 + P (ω2 |X)P (ω1 |X) < 2P (ω2 |X)P (ω1 |X)

⇒ P (ω2 |X)(P (ω2 |X) + P (ω1 |X)) < 2P (ω2 |X)P (ω1 |X)

2P (ω2 |X)P (ω1 |X) 2 2


⇒ P (ω2 |X) < = P (ω2 |X)+P (ω1 |X)
= 1 1
P (ω2 |X) + P (ω1 |X) P (ω1 |X) + P (ω2 |X)
P (ω2 |X)P (ω1 |X)

2
⇒ min{P (ω1 |X), P (ω2 |X)} = P (ω2 |X) < 1 1
P (ω1 |X) + P (ω2 |X)

2
⇒ min{P (ω1 |X), P (ω2 |X)}P (X) < 1 1 P (X)
P (ω1 |X) + P (ω2 |X)
Z Z
2
⇒ P (Err) = min{P (ω1 |X), P (ω2 |X)}P (X)dX < 1 1 P (X)dX
P (ω1 |X) + P (ω2 |X)

Caso 3: Cuando son iguales, es decir, P (ω2 |X) = P (ω1 |X), sin perdida de generalidad se puede asumir
que min{P (ω2 |X), P (ω1 |X)} = P (ω1 |X), entonces

P (ω1 |X) = P (ω2 |X) ⇒ P (ω1 |X)2 = P (ω2 |X)P (ω1 |X)
⇒ P (ω1 |X)2 + P (ω2 |X)P (ω1 |X) = 2P (ω2 |X)P (ω1 |X)

⇒ P (ω1 |X)(P (ω2 |X) + P (ω1 |X)) = 2P (ω2 |X)P (ω1 |X)

2P (ω2 |X)P (ω1 |X) 2 2


⇒ P (ω1 |X) = = P (ω2 |X)+P (ω1 |X)
= 1 1
P (ω2 |X) + P (ω1 |X) P (ω1 |X) + P (ω2 |X)
P (ω2 |X)P (ω1 |X)

2
⇒ min{P (ω1 |X), P (ω2 |X)} = P (ω1 |X) = 1 1
P (ω1 |X) + P (ω2 |X)

2
⇒ min{P (ω1 |X), P (ω2 |X)}P (X) = 1 1 P (X)
P (ω1 |X) + P (ω2 |X)
Z Z
2
⇒ P (Err) = min{P (ω1 |X), P (ω2 |X)}P (X)dX = 1 1 P (X)dX
P (ω1 |X) + P (ω2 |X)

6
Equipo 3 Tarea 1 Machine Learning

2
R
Por lo tanto, para los dos primeros casos se puede afirmar que P (Err) < 1
+ P (ω1 |X)
P (X)dX, y para
P (ω1 |X) 2
2
R
el último que P (Err) = 1
+ 1 P (X)dX, entonces
P (ω1 |X) P (ω2 |X)

Z
2
P (Err) ≤ 1 1 P (X)dX
P (ω1 |X) + P (ω2 |X)

(b)
Por la regla de Bayes tenemos que

P (X|ω1 )P (ω1 ) π −1 P (ω1 ) P (X|ω2 )P (ω2 ) π −1 P (ω2 )


P (ω1 |X) = = y P (ω2 |X) = =
P (X) (1 + (x − µ)2 )P (X) P (X) (1 + (x + µ)2 )P (X)
2
R
Por el inciso (a) se cumple queP (Err) ≤ 1
+ P (ω1 |X)
P (X)dX, sustituyendo las densidades de
P (ω1 |X) 2
probabilidad en la integral, obteneomos
Z Z
2 2
1 1 P (X)dX = 1 1 P (X)dX
P (ω1 |X) + P (ω2 |X) π −1 P (ω1 )
+ π −1 P (ω2 )
(1+(x−µ)2 )P (X) (1+(x+µ)2 )P (X)

2π −1
Z Z
2
= (1+(x−µ)2 )P (X) (1+(x+µ)2 )P (X)
P (X)dX = (1+(x−µ)2 ) (1+(x+µ)2 )
dX
π −1 P (ω1 ) + π −1 P (ω2 ) P (ω1 ) + P (ω2 )

2π −1 P (ω1 )P (ω2 )
Z
= dX
(1 + (x − µ)2 )(P (ω2 )) + (1 + (x + µ)2 )(P (ω1 ))
2π −1 P (ω1 )P (ω2 )
Z
= dX
(P (ω1 ) + P (ω2 ))x2 + 2xµ(P (ω1 ) − P (ω2 )) + P (ω1 )P (ω2 ) + (P (ω1 ) + P (ω2 ))µ2
1 2π
R
utilizando la fórmula ax2 +bx+c = √4ac−b 2

2π −1 P (ω1 )P (ω2 )(2π)


=p
4(P (ω2 ) + P (ω2 ))(P (ω1 ) + P (ω2 ))(1 + µ2 ) − (P (ω1 ) − P (ω2 ))2 (2µ)2

2π −1 P (ω1 )P (ω2 )(2π)


=p
4(P (ω1 )2 + P (ω2 )2 + 2P (ω1 )P (ω2 ))(1 + µ2 ) − (P (ω1 )2 + P (ω2 )2 − 2P (ω1 )P (ω2 ))(4µ2 )

4P (ω1 )P (ω2 )
= p
2 (P (ω1 ) + P (ω2 ) + 2P (ω1 )P (ω2 ))(1 + µ2 ) − (P (ω1 )2 + P (ω2 )2 − 2P (ω1 )P (ω2 ))µ2
2 2

4P (ω1 )P (ω2 )
= p 2
2 2
2 P (ω1 ) + P (ω2 ) + 2P (ω1 )P (ω2 ) + (
P (ω1 ) + 
  P (ω
2)2 + 2P (ω1 )P (ω2 ))µ2 − (
 P (ω
1)2 + 
 P (ω
2)2 − 2P (ω1 )P (ω2 ))µ2


4P (ω1 )P (ω2 )
= p
2 P (ω1 ) + P (ω2 ) + 2P (ω1 )P (ω2 ) + (2P (ω1 )P (ω2 ))µ2 + 2P (ω1 )P (ω2 ))µ2
2 2

2P (ω1 )P (ω2 ) 2P (ω1 )P (ω2 )


=s =p
(P (ω1 ) + P (ω2 ))2 + (2P (ω1 )P (ω2 ))µ2 + 2P (ω1 )P (ω2 ))µ2 1 + 4P (ω1 )P (ω2 )µ2
| {z }
1

2P (ω1 )P (ω2 )
∴ P (Err) ≤ p
1 + 4µ2 P (ω1 )P (ω2 )

7
Equipo 3 Tarea 1 Machine Learning

1. Anexo 1: Código del ejercicio 4

Figura 2: Código Parte 1

Figura 3: Código Parte 2

8
Equipo 3 Tarea 1 Machine Learning

Figura 4: Código Parte 3

2. Anexo 2: Integrantes del equipo 3


Cureño Ayluardo Carlos Javier
Cerón Hernández Efrén Jared
Conde Salinas Ivan Aldair

También podría gustarte