Tarea 1 ML E3

Equipo 3 Tarea 1 Machine Learning
Ejercicio 1
Ejercicio 1.4 del libro de Bishop.
Considere la distribución de probabilidad px (x) definida sobre una variable continua x, y suponga que
hacemos un cambio de variable no lineal utilizando x = g(y), de modo que la densidad se transforma
según (1.27). Derivando (1.27), muestre que la ubicación ŷ del máximo de la densidad en y, no está
en general relacionada con la ubicación x̂ del máximo de la densidad sobre x por la relación funcional
simple x̂ = g(ŷ) como consecuencia del factor jacobiano. Esto demuestra que el máximo de una densidad
de probabilidad (en contraste con una función simple) depende de la elección de variables Verifique que,
en el caso de una transformación lineal, la ubicación de la el máximo se transforma de la misma manera
que la propia variable.
Respuesta: Consideremos la forma en la que se comportarı́a la función f (x) al realizar el cambio de variable
y, con x = g(y). Es decir, una nueva función dada por:
f˜(y) = f (g(y))
En dónde podemos suponer que f (x) tiene un máximo en x̂, esto querrá decir que:
f ′ (x̂)) = 0
En dónde el correspondiente modo de f˜(y) ocurrirá diferenciando nuestra primera ecuación, por lo que:
f˜′ (ŷ) = f ′ (g(ŷ))g ′ (ŷ) = 0
En dónde se puede asumir que g ′ (ŷ) ̸= en la moda, lo que implicarı́a que esta ecuación se cumple si y solo si:
f ′ (g(ŷ)) = 0
Encontrar la moda respecto a la variable x será equivalente a primero transformar la variable y y luego
encontrar la moda con respecto a y para luego transformar de regreso a x.
Por otro lado la densidad de probabilidad bajo el cambio de variable puede ser expresada según la ecuación
(1.27) como:
py (y) = px (g(y))λg ′ (y)

En dónde λ saldrá de la relación:
g ′ (y) = λ|g ′ (y)|t.qλ ∈ [−1, 1]
Derivando ambos lados con respecto a y como lo dicta el problema:
p′y (y) = λp′x (g(y))[g ′ (y)]2 + λpx (g(y))g ′′ (y)
En dónde en el segundo término de la ecuación anterior, la relación x̂ = g(ŷ) ya no se cumple. Por lo tanto, el
valor de x obtenido al maximizar px (x) no será el valor obtenido al transformar py (y) y luego maximizar con
respecto a y y luego transformar nuevamente a x. Esto implica que las modas de las densidades dependan
de la elección de las variables.
Ejercicio 2
Ejercicio 1.7 del libro de Bishop.
En este ejercicio probaremos la condición de normalización:
Z ∞
N (x|µ, σ 2 )dx = 1
∞
Para la Gaussiana univariada, para este ejercicio consideremos la integral:

Z ∞
1 2
I= exp − 2 x dx
−∞ 2σ
1
La cual podemos evaluar escribiéndola de la forma cuadrática como:

Z ∞Z ∞
2 1 2 1 2
I = exp − 2 x − 2 y dxdy
−∞ −∞ 2σ 2σ
Ahora haciendo la transformación de coordenadas cartesianas (x, y) a coordenadas polares (r, θ) y

sustituye u = r2 . Muestre que caracterizando las integrales sobre θ, u y tomando la raı́z cuadrada de
ambos lados obtenemos:
I = (2πσ 2 )1/2
Finalmente use el resultado para mostrar que la distribución Gaussiana N (x|µ, σ 2 ) está normalizada
Respuesta:
Dem.
Podemos primero demostrar que la distribución gaussiana con media 0, es decir el parámetro µ = 0, está
normalizada para después extender el resultado.
Sabemos que la distribucion gaussiana con media 0 está dada por:

1 1
φ(x) = √ exp − 2 x2 (1)
2πσ 2 2σ
para demostrar que está normalizada, tenemos que demostrar que:

Z ∞
1 2
√
exp − 2 x dx = 2πσ 2 (2)
−∞ 2σ
Tenemos que:
Z ∞
1 2
I= exp − 2 x dx (3)
−∞ 2σ
Z ∞Z ∞
2 1 2 1 2
=⇒ I = exp − 2 x − 2 y dxdy (4)
−∞ −∞ 2σ 2σ
para integrar la ecuación anterior podemos cambiar de coordenadas cartesianas a coordenadas polares:
x = r cos θ y = r sin θ (5)
usando que cos2 θ + sin2 θ = 1 y que x2 + y 2 = r2 , la ecuación (4) la podemos reescribir como:
2π ∞
r2
Z Z
I2 = exp − 2 rdrdθ
0 0 2σ
Z ∞ 2

r
= 2π exp − 2 rdr
0 2σ
hacemos cambio de variable r2 = u

Z ∞
u 1
= 2π exp − 2 du
0 2σ 2
∞

u 2
= π exp − 2 − 2σ
2σ 0
= 2πσ 2
entonces √
I= 2πσ 2 (6)
2
finalmente para probar que N (x|µ, σ 2 ) está normalizada, hacemos que y = x − µ, entonces:
Z ∞
y2
Z
2 1 ∞
N (x|µ, σ )dx = √ ∞ exp − 2 dy
−∞ 2πσ 2 − 2σ
I
=√
2πσ 2
=1
■
Ejercicio 3
Ejercicio 47 del Capı́tulo 2 del libro de Duda.
Suponga que tenemos tres categorı́as en dos dimensiones con las siguientes distribuciones subyacentes:
p(x|ω1 ) ∼ N (0, I)

1
p(x|ω2 ) ∼ N ,I
1

1 ,5 1 −,5
p(x|ω3 ) ∼ N ( ,I + N ,I
2 ,5 2 ,5
Con P (ωi = 1/3, i = 1, 2, 3

,3
1. Por cálculo explı́cito de probabilidades posteriores, clasifique el punto x = Para la probabi-
,3
lidad de error mı́nima.
2. Suponga que para un punto de prueba en particular falta la primera caracterı́stica. Es decir,
∗
clasificar x =
,3
3. Suponga
que para un punto de prueba en particular falta la segunda caracterı́stica. Es decir
,3
x=
∗

,2
4. Repita todo lo anterior para x =
,6
Respuesta:
1. Por calculo directo:
p(x|ω1 )P (ω1 ) = 0,048
p(x|ω2 )P (ω2 ) = 0,0325
p(x|ω3 )P (ω3 ) = 0,0444
2. Para encontrar la primera componente, necesitamos marginar la función desconocida, es decir:

Z ∞
∗ x
P (ωi )p |ωi = P (ωi ) p |ωi dx
,3 −∞ ,3
en dónde para cada ωi
P (ω1 )p((∗, ,3)t |ω1 ) = 0,1271
P (ω1 )p((∗, ,3)t |ω2 ) = 0,1040
P (ω1 )p((∗, ,3)t |ω3 ) = 0,1305
Por lo tanto el patrón es de tipo ω3
3
3. Calculamos numéricamente:
Z ∞
,3 ,3
P (ωi )p̃ |ωi = P (ωi p |ωi dy
∗ −∞ y
En dónde los resultados nos arrojan:
P (ω1 )p((,3, ∗)t |ω1 ) = 0,1271

P (ω1 )p((,3, ∗)t |ω2 ) = 0,1040
P (ω1 )p((,3, ∗)t |ω3 ) = 0,1134
Y por tanto el patrón será de tipo ω1 .

4. Por lo hecho para el inciso anterior, tenemos:
x = (,2, ,6)t :
P (ω1 )p(x|ω1 ) = 0,0434

P (ω2 )p(x|ω2 ) = 0,0355
P (ω3 )p(x|ω3 ) = 0,0458
x = (∗, ,6)t
P (ω1 )p(x|ω1 ) = 0,1110

P (ω2 )p(x|ω2 ) = 0,1227
P (ω3 )p(x|ω3 ) = 0,1323
x = (,2, ∗)t
P (ω1 )p(x|ω1 ) = 0,1110

P (ω2 )p(x|ω2 ) = 0,1227
P (ω3 )p(x|ω3 ) = 0,1024
Ejercicio 4
4. Considere el conjunto de vectores S y la matriz Σ. Grafique las los vectores x y los vectores Σx y
Σ−1 x.
cos 2π

8 n 2,5 −2
S= x= : n = 0, · · · , 7 , Σ=
sin 2π
8 n
−2 3
Respuesta: Realizamos un código en Python que se anexa al final del presente trabajo, de esta manera
logramos graficar los vectores x, Σx y Σ−1 x como se muestra en la figura 1.
4
Figura 1: En la gráfica se muestra con distintos colores los diferentes conjuntos de vectores.
Ejercicio 5
Estimación del error de Bayes. La regla de decisión de Bayes para el problema de clasificación de dos
clases da como ...
(a). Muestre que el error completo puede ser acotado superiormente de la siguiente manera:
Z
2
P (Err) ≤ 1 1 P (X)dX
P (ω1 |X) + P (ω2 |X)
(b). Muestre usando el resultado (a) que para las distribuciones de probabilidad de una variable,
π −1 π −1
P (X|ω1 ) = y P (X|ω2 ) =
1 + (x − µ)2 1 + (x + µ)2
el error de Bayes puede ser acotado por
2P (ω1 )P (ω2 )
P (Err) ≤ p
1 + 4µ2 P (ω1 )P (ω2 )
Respuesta:
(a) Existen tres casos, cuando el mı́nimo es P (ω1 |X), cuando el mı́nimo es P (ω1 |X) y cuando son iguales.
Caso 1: Cuando el mı́nimo es P (ω1 |X), es decir, P (ω1 |X) < P (ω2 |X) entonces como P (ωi |X) > 0 se
cumple que
P (ω1 |X) < P (ω2 |X) ⇒ P (ω1 |X)2 < P (ω2 |X)P (ω1 |X)
⇒ P (ω1 |X)2 + P (ω2 |X)P (ω1 |X) < 2P (ω2 |X)P (ω1 |X)
⇒ P (ω1 |X)(P (ω2 |X) + P (ω1 |X)) < 2P (ω2 |X)P (ω1 |X)
5
2P (ω2 |X)P (ω1 |X) 2 2

⇒ P (ω1 |X) < = P (ω2 |X)+P (ω1 |X)
= 1 1
P (ω2 |X) + P (ω1 |X) P (ω1 |X) + P (ω2 |X)
P (ω2 |X)P (ω1 |X)
2
⇒ min{P (ω1 |X), P (ω2 |X)} = P (ω1 |X) < 1 1
P (ω1 |X) + P (ω2 |X)
2
⇒ min{P (ω1 |X), P (ω2 |X)}P (X) < 1 1 P (X)
P (ω1 |X) + P (ω2 |X)
Z Z
2
⇒ P (Err) = min{P (ω1 |X), P (ω2 |X)}P (X)dX < 1 1 P (X)dX
P (ω1 |X) + P (ω2 |X)
Caso 2: Cuando el mı́nimo es P (ω2 |X), es decir, P (ω2 |X) < P (ω1 |X), entonces como P (ωi |X) > 0 se
cumple que
P (ω2 |X) < P (ω1 |X) ⇒ P (ω2 |X)2 < P (ω2 |X)P (ω1 |X)
⇒ P (ω2 |X)2 + P (ω2 |X)P (ω1 |X) < 2P (ω2 |X)P (ω1 |X)
⇒ P (ω2 |X)(P (ω2 |X) + P (ω1 |X)) < 2P (ω2 |X)P (ω1 |X)
2P (ω2 |X)P (ω1 |X) 2 2

⇒ P (ω2 |X) < = P (ω2 |X)+P (ω1 |X)
= 1 1
P (ω2 |X) + P (ω1 |X) P (ω1 |X) + P (ω2 |X)
P (ω2 |X)P (ω1 |X)
2
⇒ min{P (ω1 |X), P (ω2 |X)} = P (ω2 |X) < 1 1
P (ω1 |X) + P (ω2 |X)
2
⇒ min{P (ω1 |X), P (ω2 |X)}P (X) < 1 1 P (X)
P (ω1 |X) + P (ω2 |X)
Z Z
2
⇒ P (Err) = min{P (ω1 |X), P (ω2 |X)}P (X)dX < 1 1 P (X)dX
P (ω1 |X) + P (ω2 |X)
Caso 3: Cuando son iguales, es decir, P (ω2 |X) = P (ω1 |X), sin perdida de generalidad se puede asumir
que min{P (ω2 |X), P (ω1 |X)} = P (ω1 |X), entonces
P (ω1 |X) = P (ω2 |X) ⇒ P (ω1 |X)2 = P (ω2 |X)P (ω1 |X)
⇒ P (ω1 |X)2 + P (ω2 |X)P (ω1 |X) = 2P (ω2 |X)P (ω1 |X)
⇒ P (ω1 |X)(P (ω2 |X) + P (ω1 |X)) = 2P (ω2 |X)P (ω1 |X)
2P (ω2 |X)P (ω1 |X) 2 2

⇒ P (ω1 |X) = = P (ω2 |X)+P (ω1 |X)
= 1 1
P (ω2 |X) + P (ω1 |X) P (ω1 |X) + P (ω2 |X)
P (ω2 |X)P (ω1 |X)
2
⇒ min{P (ω1 |X), P (ω2 |X)} = P (ω1 |X) = 1 1
P (ω1 |X) + P (ω2 |X)
2
⇒ min{P (ω1 |X), P (ω2 |X)}P (X) = 1 1 P (X)
P (ω1 |X) + P (ω2 |X)
Z Z
2
⇒ P (Err) = min{P (ω1 |X), P (ω2 |X)}P (X)dX = 1 1 P (X)dX
P (ω1 |X) + P (ω2 |X)
6
2
R
Por lo tanto, para los dos primeros casos se puede afirmar que P (Err) < 1
+ P (ω1 |X)
P (X)dX, y para
P (ω1 |X) 2
2
R
el último que P (Err) = 1
+ 1 P (X)dX, entonces
P (ω1 |X) P (ω2 |X)
Z
2
P (Err) ≤ 1 1 P (X)dX
P (ω1 |X) + P (ω2 |X)
(b)
Por la regla de Bayes tenemos que
P (X|ω1 )P (ω1 ) π −1 P (ω1 ) P (X|ω2 )P (ω2 ) π −1 P (ω2 )

P (ω1 |X) = = y P (ω2 |X) = =
P (X) (1 + (x − µ)2 )P (X) P (X) (1 + (x + µ)2 )P (X)
2
R
Por el inciso (a) se cumple queP (Err) ≤ 1
+ P (ω1 |X)
P (X)dX, sustituyendo las densidades de
P (ω1 |X) 2
probabilidad en la integral, obteneomos
Z Z
2 2
1 1 P (X)dX = 1 1 P (X)dX
P (ω1 |X) + P (ω2 |X) π −1 P (ω1 )
+ π −1 P (ω2 )
(1+(x−µ)2 )P (X) (1+(x+µ)2 )P (X)
2π −1
Z Z
2
= (1+(x−µ)2 )P (X) (1+(x+µ)2 )P (X)
P (X)dX = (1+(x−µ)2 ) (1+(x+µ)2 )
dX
π −1 P (ω1 ) + π −1 P (ω2 ) P (ω1 ) + P (ω2 )
2π −1 P (ω1 )P (ω2 )
Z
= dX
(1 + (x − µ)2 )(P (ω2 )) + (1 + (x + µ)2 )(P (ω1 ))
2π −1 P (ω1 )P (ω2 )
Z
= dX
(P (ω1 ) + P (ω2 ))x2 + 2xµ(P (ω1 ) − P (ω2 )) + P (ω1 )P (ω2 ) + (P (ω1 ) + P (ω2 ))µ2
1 2π
R
utilizando la fórmula ax2 +bx+c = √4ac−b 2
2π −1 P (ω1 )P (ω2 )(2π)

=p
4(P (ω2 ) + P (ω2 ))(P (ω1 ) + P (ω2 ))(1 + µ2 ) − (P (ω1 ) − P (ω2 ))2 (2µ)2
2π −1 P (ω1 )P (ω2 )(2π)

=p
4(P (ω1 )2 + P (ω2 )2 + 2P (ω1 )P (ω2 ))(1 + µ2 ) − (P (ω1 )2 + P (ω2 )2 − 2P (ω1 )P (ω2 ))(4µ2 )
4P (ω1 )P (ω2 )
= p
2 (P (ω1 ) + P (ω2 ) + 2P (ω1 )P (ω2 ))(1 + µ2 ) − (P (ω1 )2 + P (ω2 )2 − 2P (ω1 )P (ω2 ))µ2
2 2
4P (ω1 )P (ω2 )
= p 2
2 2
2 P (ω1 ) + P (ω2 ) + 2P (ω1 )P (ω2 ) + (
P (ω1 ) +
P (ω
2)2 + 2P (ω1 )P (ω2 ))µ2 − (
P (ω
1)2 +
P (ω
2)2 − 2P (ω1 )P (ω2 ))µ2

4P (ω1 )P (ω2 )
= p
2 P (ω1 ) + P (ω2 ) + 2P (ω1 )P (ω2 ) + (2P (ω1 )P (ω2 ))µ2 + 2P (ω1 )P (ω2 ))µ2
2 2
2P (ω1 )P (ω2 ) 2P (ω1 )P (ω2 )

=s =p
(P (ω1 ) + P (ω2 ))2 + (2P (ω1 )P (ω2 ))µ2 + 2P (ω1 )P (ω2 ))µ2 1 + 4P (ω1 )P (ω2 )µ2
| {z }
1
2P (ω1 )P (ω2 )
∴ P (Err) ≤ p
1 + 4µ2 P (ω1 )P (ω2 )
7
1. Anexo 1: Código del ejercicio 4
Figura 2: Código Parte 1
8
2. Anexo 2: Integrantes del equipo 3

Cureño Ayluardo Carlos Javier
Cerón Hernández Efrén Jared
Conde Salinas Ivan Aldair

Tarea 1 ML E3

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tarea 1 ML E3

Cargado por

Copyright:

Formatos disponibles

Equipo 3 Tarea 1 Machine Learning

py (y) = px (g(y))λg ′ (y)

Para la Gaussiana univariada, para este ejercicio consideremos la integral:

La cual podemos evaluar escribiéndola de la forma cuadrática como:

Ahora haciendo la transformación de coordenadas cartesianas (x, y) a coordenadas polares (r, θ) y

para demostrar que está normalizada, tenemos que demostrar que:

x = r cos θ y = r sin θ (5)

hacemos cambio de variable r2 = u

Con P (ωi = 1/3, i = 1, 2, 3

2. Para encontrar la primera componente, necesitamos marginar la función desconocida, es decir:

En dónde los resultados nos arrojan:

P (ω1 )p((,3, ∗)t |ω1 ) = 0,1271

Y por tanto el patrón será de tipo ω1 .

P (ω1 )p(x|ω1 ) = 0,0434

P (ω1 )p(x|ω1 ) = 0,1110

P (ω1 )p(x|ω1 ) = 0,1110

el error de Bayes puede ser acotado por

2P (ω2 |X)P (ω1 |X) 2 2

2P (ω2 |X)P (ω1 |X) 2 2

2P (ω2 |X)P (ω1 |X) 2 2

P (X|ω1 )P (ω1 ) π −1 P (ω1 ) P (X|ω2 )P (ω2 ) π −1 P (ω2 )

2π −1 P (ω1 )P (ω2 )(2π)

2π −1 P (ω1 )P (ω2 )(2π)

2P (ω1 )P (ω2 ) 2P (ω1 )P (ω2 )

1. Anexo 1: Código del ejercicio 4

Figura 2: Código Parte 1

Figura 3: Código Parte 2

Figura 4: Código Parte 3

2. Anexo 2: Integrantes del equipo 3

También podría gustarte