Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Ejercicio 1
Ejercicio 1.4 del libro de Bishop.
Considere la distribución de probabilidad px (x) definida sobre una variable continua x, y suponga que
hacemos un cambio de variable no lineal utilizando x = g(y), de modo que la densidad se transforma
según (1.27). Derivando (1.27), muestre que la ubicación ŷ del máximo de la densidad en y, no está
en general relacionada con la ubicación x̂ del máximo de la densidad sobre x por la relación funcional
simple x̂ = g(ŷ) como consecuencia del factor jacobiano. Esto demuestra que el máximo de una densidad
de probabilidad (en contraste con una función simple) depende de la elección de variables Verifique que,
en el caso de una transformación lineal, la ubicación de la el máximo se transforma de la misma manera
que la propia variable.
Respuesta: Consideremos la forma en la que se comportarı́a la función f (x) al realizar el cambio de variable
y, con x = g(y). Es decir, una nueva función dada por:
f˜(y) = f (g(y))
En dónde podemos suponer que f (x) tiene un máximo en x̂, esto querrá decir que:
f ′ (x̂)) = 0
En dónde el correspondiente modo de f˜(y) ocurrirá diferenciando nuestra primera ecuación, por lo que:
f˜′ (ŷ) = f ′ (g(ŷ))g ′ (ŷ) = 0
En dónde se puede asumir que g ′ (ŷ) ̸= en la moda, lo que implicarı́a que esta ecuación se cumple si y solo si:
f ′ (g(ŷ)) = 0
Encontrar la moda respecto a la variable x será equivalente a primero transformar la variable y y luego
encontrar la moda con respecto a y para luego transformar de regreso a x.
Por otro lado la densidad de probabilidad bajo el cambio de variable puede ser expresada según la ecuación
(1.27) como:
Ejercicio 2
Ejercicio 1.7 del libro de Bishop.
En este ejercicio probaremos la condición de normalización:
Z ∞
N (x|µ, σ 2 )dx = 1
∞
1
Equipo 3 Tarea 1 Machine Learning
I = (2πσ 2 )1/2
Finalmente use el resultado para mostrar que la distribución Gaussiana N (x|µ, σ 2 ) está normalizada
Respuesta:
Dem.
Podemos primero demostrar que la distribución gaussiana con media 0, es decir el parámetro µ = 0, está
normalizada para después extender el resultado.
Sabemos que la distribucion gaussiana con media 0 está dada por:
1 1
φ(x) = √ exp − 2 x2 (1)
2πσ 2 2σ
Tenemos que:
Z ∞
1 2
I= exp − 2 x dx (3)
−∞ 2σ
Z ∞Z ∞
2 1 2 1 2
=⇒ I = exp − 2 x − 2 y dxdy (4)
−∞ −∞ 2σ 2σ
para integrar la ecuación anterior podemos cambiar de coordenadas cartesianas a coordenadas polares:
usando que cos2 θ + sin2 θ = 1 y que x2 + y 2 = r2 , la ecuación (4) la podemos reescribir como:
2π ∞
r2
Z Z
I2 = exp − 2 rdrdθ
0 0 2σ
Z ∞ 2
r
= 2π exp − 2 rdr
0 2σ
entonces √
I= 2πσ 2 (6)
2
Equipo 3 Tarea 1 Machine Learning
finalmente para probar que N (x|µ, σ 2 ) está normalizada, hacemos que y = x − µ, entonces:
Z ∞
y2
Z
2 1 ∞
N (x|µ, σ )dx = √ ∞ exp − 2 dy
−∞ 2πσ 2 − 2σ
I
=√
2πσ 2
=1
■
Ejercicio 3
Ejercicio 47 del Capı́tulo 2 del libro de Duda.
Suponga que tenemos tres categorı́as en dos dimensiones con las siguientes distribuciones subyacentes:
p(x|ω1 ) ∼ N (0, I)
1
p(x|ω2 ) ∼ N ,I
1
1 ,5 1 −,5
p(x|ω3 ) ∼ N ( ,I + N ,I
2 ,5 2 ,5
2. Suponga que para un punto de prueba en particular falta la primera caracterı́stica. Es decir,
∗
clasificar x =
,3
3. Suponga
que para un punto de prueba en particular falta la segunda caracterı́stica. Es decir
,3
x=
∗
,2
4. Repita todo lo anterior para x =
,6
Respuesta:
1. Por calculo directo:
p(x|ω1 )P (ω1 ) = 0,048
p(x|ω2 )P (ω2 ) = 0,0325
p(x|ω3 )P (ω3 ) = 0,0444
3
Equipo 3 Tarea 1 Machine Learning
3. Calculamos numéricamente:
Z ∞
,3 ,3
P (ωi )p̃ |ωi = P (ωi p |ωi dy
∗ −∞ y
x = (,2, ,6)t :
x = (∗, ,6)t
x = (,2, ∗)t
Ejercicio 4
4. Considere el conjunto de vectores S y la matriz Σ. Grafique las los vectores x y los vectores Σx y
Σ−1 x.
cos 2π
8 n 2,5 −2
S= x= : n = 0, · · · , 7 , Σ=
sin 2π
8 n
−2 3
Respuesta: Realizamos un código en Python que se anexa al final del presente trabajo, de esta manera
logramos graficar los vectores x, Σx y Σ−1 x como se muestra en la figura 1.
4
Equipo 3 Tarea 1 Machine Learning
Figura 1: En la gráfica se muestra con distintos colores los diferentes conjuntos de vectores.
Ejercicio 5
Estimación del error de Bayes. La regla de decisión de Bayes para el problema de clasificación de dos
clases da como ...
(a). Muestre que el error completo puede ser acotado superiormente de la siguiente manera:
Z
2
P (Err) ≤ 1 1 P (X)dX
P (ω1 |X) + P (ω2 |X)
(b). Muestre usando el resultado (a) que para las distribuciones de probabilidad de una variable,
π −1 π −1
P (X|ω1 ) = y P (X|ω2 ) =
1 + (x − µ)2 1 + (x + µ)2
2P (ω1 )P (ω2 )
P (Err) ≤ p
1 + 4µ2 P (ω1 )P (ω2 )
Respuesta:
(a) Existen tres casos, cuando el mı́nimo es P (ω1 |X), cuando el mı́nimo es P (ω1 |X) y cuando son iguales.
Caso 1: Cuando el mı́nimo es P (ω1 |X), es decir, P (ω1 |X) < P (ω2 |X) entonces como P (ωi |X) > 0 se
cumple que
P (ω1 |X) < P (ω2 |X) ⇒ P (ω1 |X)2 < P (ω2 |X)P (ω1 |X)
⇒ P (ω1 |X)2 + P (ω2 |X)P (ω1 |X) < 2P (ω2 |X)P (ω1 |X)
⇒ P (ω1 |X)(P (ω2 |X) + P (ω1 |X)) < 2P (ω2 |X)P (ω1 |X)
5
Equipo 3 Tarea 1 Machine Learning
2
⇒ min{P (ω1 |X), P (ω2 |X)} = P (ω1 |X) < 1 1
P (ω1 |X) + P (ω2 |X)
2
⇒ min{P (ω1 |X), P (ω2 |X)}P (X) < 1 1 P (X)
P (ω1 |X) + P (ω2 |X)
Z Z
2
⇒ P (Err) = min{P (ω1 |X), P (ω2 |X)}P (X)dX < 1 1 P (X)dX
P (ω1 |X) + P (ω2 |X)
Caso 2: Cuando el mı́nimo es P (ω2 |X), es decir, P (ω2 |X) < P (ω1 |X), entonces como P (ωi |X) > 0 se
cumple que
P (ω2 |X) < P (ω1 |X) ⇒ P (ω2 |X)2 < P (ω2 |X)P (ω1 |X)
⇒ P (ω2 |X)2 + P (ω2 |X)P (ω1 |X) < 2P (ω2 |X)P (ω1 |X)
⇒ P (ω2 |X)(P (ω2 |X) + P (ω1 |X)) < 2P (ω2 |X)P (ω1 |X)
2
⇒ min{P (ω1 |X), P (ω2 |X)} = P (ω2 |X) < 1 1
P (ω1 |X) + P (ω2 |X)
2
⇒ min{P (ω1 |X), P (ω2 |X)}P (X) < 1 1 P (X)
P (ω1 |X) + P (ω2 |X)
Z Z
2
⇒ P (Err) = min{P (ω1 |X), P (ω2 |X)}P (X)dX < 1 1 P (X)dX
P (ω1 |X) + P (ω2 |X)
Caso 3: Cuando son iguales, es decir, P (ω2 |X) = P (ω1 |X), sin perdida de generalidad se puede asumir
que min{P (ω2 |X), P (ω1 |X)} = P (ω1 |X), entonces
P (ω1 |X) = P (ω2 |X) ⇒ P (ω1 |X)2 = P (ω2 |X)P (ω1 |X)
⇒ P (ω1 |X)2 + P (ω2 |X)P (ω1 |X) = 2P (ω2 |X)P (ω1 |X)
⇒ P (ω1 |X)(P (ω2 |X) + P (ω1 |X)) = 2P (ω2 |X)P (ω1 |X)
2
⇒ min{P (ω1 |X), P (ω2 |X)} = P (ω1 |X) = 1 1
P (ω1 |X) + P (ω2 |X)
2
⇒ min{P (ω1 |X), P (ω2 |X)}P (X) = 1 1 P (X)
P (ω1 |X) + P (ω2 |X)
Z Z
2
⇒ P (Err) = min{P (ω1 |X), P (ω2 |X)}P (X)dX = 1 1 P (X)dX
P (ω1 |X) + P (ω2 |X)
6
Equipo 3 Tarea 1 Machine Learning
2
R
Por lo tanto, para los dos primeros casos se puede afirmar que P (Err) < 1
+ P (ω1 |X)
P (X)dX, y para
P (ω1 |X) 2
2
R
el último que P (Err) = 1
+ 1 P (X)dX, entonces
P (ω1 |X) P (ω2 |X)
Z
2
P (Err) ≤ 1 1 P (X)dX
P (ω1 |X) + P (ω2 |X)
(b)
Por la regla de Bayes tenemos que
2π −1
Z Z
2
= (1+(x−µ)2 )P (X) (1+(x+µ)2 )P (X)
P (X)dX = (1+(x−µ)2 ) (1+(x+µ)2 )
dX
π −1 P (ω1 ) + π −1 P (ω2 ) P (ω1 ) + P (ω2 )
2π −1 P (ω1 )P (ω2 )
Z
= dX
(1 + (x − µ)2 )(P (ω2 )) + (1 + (x + µ)2 )(P (ω1 ))
2π −1 P (ω1 )P (ω2 )
Z
= dX
(P (ω1 ) + P (ω2 ))x2 + 2xµ(P (ω1 ) − P (ω2 )) + P (ω1 )P (ω2 ) + (P (ω1 ) + P (ω2 ))µ2
1 2π
R
utilizando la fórmula ax2 +bx+c = √4ac−b 2
4P (ω1 )P (ω2 )
= p
2 (P (ω1 ) + P (ω2 ) + 2P (ω1 )P (ω2 ))(1 + µ2 ) − (P (ω1 )2 + P (ω2 )2 − 2P (ω1 )P (ω2 ))µ2
2 2
4P (ω1 )P (ω2 )
= p 2
2 2
2 P (ω1 ) + P (ω2 ) + 2P (ω1 )P (ω2 ) + (
P (ω1 ) +
P (ω
2)2 + 2P (ω1 )P (ω2 ))µ2 − (
P (ω
1)2 +
P (ω
2)2 − 2P (ω1 )P (ω2 ))µ2
4P (ω1 )P (ω2 )
= p
2 P (ω1 ) + P (ω2 ) + 2P (ω1 )P (ω2 ) + (2P (ω1 )P (ω2 ))µ2 + 2P (ω1 )P (ω2 ))µ2
2 2
2P (ω1 )P (ω2 )
∴ P (Err) ≤ p
1 + 4µ2 P (ω1 )P (ω2 )
7
Equipo 3 Tarea 1 Machine Learning
8
Equipo 3 Tarea 1 Machine Learning