Está en la página 1de 42

Mxima Verosimilitud y Estimacin

Bayesiana de Parmetros

Reconocimiento de Patrones 2013

Duda Captulo 3
Mxima Verosimilitud y Estimacin
Bayesiana de Parmetros

En general no disponemos de toda la informacin


necesaria para disear un clasificador ptimo con los
mtodos previamente vistos. Se cuenta con un
conocimiento vago y un conjunto de entrenamiento.

Objetivo: encontrar alguna forma de utilizar esta


informacin para disear o entrenar el clasificador
Estimacin de las Priors:
Consideraciones fsicas del problema ( fronteras suaves)
Experiencia previa, grado de creencia
Estimacin de las densidades p(x/w1):
En general: nmero de datos insuficiente (maldicin de la
dimensionalidad)
Si conocemos o suponemos la familia de densidades como
paramtricas el problema se transforma en un problema de
estimacin de parmetros y se reduce significativamente.
Estimacin de parmetros- dos enfoques
posibles:
Estimador de Mxima Verosimilitud (MLE) frecuentistas
Estimacin Bayesiana
Estimador de Mxima Verosimilitud

Los parmetros son cantidades determinsticas


desconocidas
La mejor estimacin es aquella que maximiza la
probabilidad de obtener las muestras observadas
Ventajas:
Buenas propiedades de convergencia a medida que la
cantidad de muestras de entrenamiento aumenta.
Simple
Estimacin Bayesiana

Los parmetros son variables aleatorias con una


cierta distribucin a priori.
Las observaciones o datos aportan informacin
que transforma las probabilidades a priori en
densidades a posteriori.
La observacin de muestras adicionales tiene por
efecto concentrar las densidades a posteriori en
picos ms definidos (aprendizaje bayesiano)
Estimador de Mxima Verosimilitud
C conjuntos de datos D1....Dc clasificad os ( D j w j )
D j : realizaci n de un proceso aleatorio iid.
p (x / w j ) tiene forma paramtrica conocida
Ej : p (x / w j ) N ( j , j )
Notacin para explicitar dependencia : p (x / w j , j )
con j vector de parmetros desconocid os.
Suponemos : i , j son independientes i j

c problemas de estimacin desacoplados


Estimador de Mxima Verosimilitud
Di conjunto de muestras , de clase wi estimar p(x/wi ,i )

Notacin simplificada : D Di , i D x1....x n x i R d


n
iid p( D / ) p (x k / )
k 1

p ( D / ) : verosimil itud de respecto a D

MLE arg max p ( D / )


valor de que ms concuerda con las observacio nes.


Estimador de Mxima Verosimilitud

Como la funcin logaritmic a es creciente estricta :

arg max log p( D / ) l() : log verosimili tud


Condicin necesaria para el estimador M L : l 0

Verificar que es un mximo (Hessiana definida negativa)

Testear todos los mximos locales para encontrar mximo global


Ej: Gaussiana y desconocidas

l (,) log p( D / , )

1 n

l (, ) log 2 det( 1 ) (x k )T 1 (x k )
2 k 1
d

Vamos a buscar los ceros del gradiente con respecto a y 1


n
1 n
l (x k ) n x k
1
M edia muestral
k 1 n k 1
Para calcular el gradiente respecto a -1 precisamos :
A d d a.b dx1
a T Ab traza(a T Ab ) traza( Aba T )
d d

traza( A B) Ail Bil
T
traza( AT B) B
l 1 l 1 A

traza( AB ) B T
A
traza( AT B) traza( B T A) traza( AB T )
d

det A Aik adj T ( A) ik det( A) adj T ( A) ij det A( A1 ) ji
k 1 Aij

log det( A) ( A1 ) ji ( AT ) ji A log(det A) AT
Aij
Ej: Gaussiana y desconocidas
1 n

1 l 1 (log( 2 ) d det) 1 traza 1 (x k )(x k )T
2 k 1

1 n T
1 l (x k )(x k )T 0
2 k 1
n
1
(x )(x )T
k k
n k 1
n
1
(x )(x )T
covarianza muestral n k k
n k 1
Propiedades del MLE
Sea un estimador

sesgo : b( ) E ( ) - error sistemtico

Si b( ) 0 decimos que es insesgado

Si lim b( ) 0 decimos que es asintoticamente insesgado


n
Ejemplo:
1 n
n x k x k iid N(, )
n k 1
1 n
E ( ) E (x k ) insesgado
n k 1

n
1
n (x k n )(x k n )T
n k 1
1 1 1 1
E ( n ) E (x k x k ) 2 E (x i x j ) E (x k x i ) E (x k x i )
T T T T

n k n ij n i n i
Ejemplo:

) E x x
E (x )(x T T T
i j i j

E ( ) n n n
1 1 T 2 2 T T
n

2
n k n n

1 n 1
E ( n ) 1
n n

:

sesgado

n
asintoticamente insesgado
Propiedades de un estimador

Independientemente de si asumimos determinista o aleatorio,


su estimacin es una variable aleatoria funcin de las
observaciones.
Para caracterizar un estimador se calcula su sesgo, su varianza
y su error cuadrtico medio.




MSE ( ) E
2




var E E 2

b E

Una medida global del comportamiento la brinda el MSE


Compromiso sesgo-varianza de un
estimador



MSE ( ) E E E E
2



var 2 E E E E
2


MSE () var b 2


n
)
MSE ( var
i 1
b 2
i i
Comparacin MLE Estimacin
Bayesiana
Fenmeno general: Procedimientos con mayor
flexibilidad para adaptarse a los datos (mayor nmero de
parmetros libres) tienden a tener menos bias pero mayor
varianza.

Ejemplo : Regresin Pag- 467 Duda.


Compromiso Bias- Varianza

Fig. 2.11 Hastie


Propiedades de un estimador

Obtener estimadores insesgados es deseable.


Compromiso sesgo varianza: En algunos casos el introducir un
pequeo sesgo genera una disminucin significativa de la
varianza y por lo tanto del error cuadrtico medio.
El lmite de Cramer-Rao nos da, para un problema de
estimacin determinado, la mnima varianza de cualquier
estimador insesgado.
Varianza mnima de un estimador
insesgado
Teorema : Cota de Cramer - Rao
Sea p(x/) una pdf tal que : Ex/ ln p(x/) 0

Ex/ f (x) f (x) p(x/)dx


Sea un estimador insesgado de C I 1 0
2
donde I ij Ex/ ln p(x/)
i j

I : M atriz de Fisher C : M atriz de Covarianza
Estimador eficiente

Un estimador insesgado es eficiente si:

) I (
C ( )

var( i ) C ( ii
) I (
)
ii

Def: Un estimador asintticamente insesgado es


asintticamente eficiente si:
I 1
C ( ) n

asintticamente de mnima varianza


Propiedad asinttica del MLE
Cuando n el estimador de mxima verosimil itud ML

de sigue una ley gaussiana N ,I 1
ML es asintticamente insesgago y asintticamente eficiente

En problemas de reconocimiento de patrones con conjunto


de entrenamiento grandes los estimadores asintticamente
insesgados son aceptables.
Si tenemos modelos paramtricos adecuados que ajustan a
los datos el estimador MLE da resultados muy buenos.

Qu pasa si asumimos un modelo no ajustado?


p( x / w1 ) N (3,1) azul
p( x / w2 ) N (6,10) verde - distribucin real de los datos
p( x / w2 ) N ( ,1) roja - modelo asumido
umbral propuesto: 4,5
umbral ptimo 5
Estimacin Bayesiana

Estimacin de densidades utilizando toda la


informacin disponible: Prioris y Datos.
Hiptesis:
1. p(x/): conocida pero no se conoce el vector de
parmetros en forma exacta.
2. Conocimiento a priori de en p().
3. Resto del conocimiento a cerca de est
contenido en el conjunto D de muestras tomadas
en forma iid de acuerdo a p(x) desconocida.
Estimacin Bayesiana
c
D Di Di D j
1

Di wi : muestras de entrenamie nto clase i


D : conjunto de muestras de entrenamie nto
x : una muestra sin clasificar
p (x / wi , D) P( wi / D)
P( wi / x, D) c
p(x / w j , D) P( w j / D)
j 1

supondremos : P( wi / D) P( wi ) prioris conocidas


i j las muestras Di no tienen influencia sobre p(x / w j , D) :
esto es p(x / w j , D) p(x / w j , D j ) j

p(x / wi , Di ) P(wi )
P(wi / x, D) c

p(x / w , D ) P(w )
j 1
j j j

Podemos tratar cada clase de forma independiente


para aliviar notacin : Di D, wi w

p(x / w, D) P(w)
P(w / x, D)
p(x / D)
Distribucin de parmetros

Supondremos que la densidad p(x) es paramtrica de


forma conocida y parmetros desconocidos ( p(x/ )
completamente conocida)

La observacin de muestras aporta nueva informacin


y da lugar a la probabilidad a posteriori p(/D) que
esperamos que sea ms en pico en torno al verdadero
valor de que el prior p() conocida.
Distribucin de parmetros
Objetivo: Encontrar p(x/D) que es lo ms cerca que
puedo estar de p(x).

p(x / D) p (x, / D)d


p(x, / D) p(x / , D) p( / D)
p (x / D) p (x / ) p ( / D)d
p ( D / ) p ()
usando Bayes : p( / D)
p( D / ) p()d
Ejemplo:
p ( x / ) N ( , 2 ) 2 : conocido ,
prior sobre p ( ) N ( 0 , 0 ),
2

0 : lo que creemos 0 2 : incertidum bre


p( D / ) p( )
p( / D)
p( D / ) p( )d
D x1 ,......xn independientes
n 1 n xk 2 0 2
p ( / D) p (xk / ) p ( ) exp

2 k 1 2
2
k 1 0
1 n 1 1 n


exp 2 2 2 2 xk 2
2 0
2 0 k 1 0

1 1 n
2

p( / D) exp
2 n 2 n
Identificando coeficient es :
1 n 1

2 2 2
n 0

n n n 0
n 2 2 0 2
n 0
2
2
n n 0
n 0 n 0
2 2 2 2


2 2
0
2

n n 2 2
0
i) n 0 : al aumentar la cantidad de muestras disminuye incertidum bre
n

ii) n n : la influencia del prior disminuye


n

iii) si 0 n n : confiamos ms en los datos que en los priors


si 0 0 n 0 : tenemos confianza n 0 .

Fig. 3.2 Duda


Obtenida densidad a posteriori, podemos calcular p(x/D)

p(x/D) p(x/)p(/D)d

1 1 1 x 2 n 2
exp d
2 2 n 2 2
2
n
1 1 x n 2
f ( , n , x) exp
2
2 n 2 n
2

1 2 2 2
2

2

donde f ( , n , x) exp n
n x
n
d
2 2 2 n
2 2
R
n
1 2 n

f ( , n , x) exp
d 2 con
2 2
2
R n
p( x / D) N ( n , n )
2 2

n : incertidum bre en la estimacin de n


: incertidum bre nuestra medida
Esto es vlido para cada clase,
determinam os p(x/w j ,D j ) j 1..c

Clasificac in : P ( w j / x, D) kp( x / w j , D j ) P ( w j )

Decido x w j* con j* a rg max P ( w j / x, D)


j
Estimacin Bayesiana

A diferencia de MLE que para la estimacin de


p(x/D) tiene en cuenta una estimacin puntual de
los parmetros en la estimacin Bayesiana integra
la densidad a posteriori p(/D) .
Para el caso gaussiano multivariado el resultado
es anlogo considerando vectores medias y
matrices covarianza.
Com hacemos los clculos con densidades
cualesquiera?
Aprendizaje Bayesiano Recursivo
Incremental n
D x1...x n iid p(x/) p( D / ) p (x k / )
i 1

p ( D / ) p ()
p ( / D)
p( D / ) p()d
Notemos : D i x1...x i i 1,...n
p ( D n / ) p ( D n 1 / ) p(x n / )
p ( / D 0 ) p () prior
p (x n / ) p ( / D n 1 )
p ( / D n )
n
n 1
p ( x / ) p ( / D )d
Vnculo con el MLE

Si pD/ tiene un pico pronunciado en



y p 0 con p suave en un entorno de ,
como p / D pD/ p ,
p / D tambin t iene un pico pronunciado en

p (x / D) p (x / ) p / D d p (x / ) verosimilitud
Estimador MAP

MAP arg max p ( / D) arg max ln p ( D / ) ln p()


si p() cte MAP MLE

El estimador M AP no est bien visto por los Bayesianos


ya que reduce una densidad a un valor determinis ta
Overfitting y rol del prior

Considerem os a modo de ejemplo :


Se tiene una base ortonormal de funciones g1,....g m
y un conjunto de medidas yi f(xi ) i 1.....n
Objetivo : encontrar un vector 1..... m tal que :
T

m
yi f(xi ) j g j ( xi ) " explique bien" los datos.
j1

Se busca favorecer la descripcin ms sencilla : una forma


2
es minimizand o .
g1 ( x1 ).......g m ( x1 )

g1 ( x2 ).......g m ( x2 )
Notacin : Y y1 ,..... yn G
T

...........................

g ( x ).......g ( x )
1 n m n

M odelo : Y - G N (0, d I ) p ( D / )
2

Prior : N (0, m I ) p ()
2

MAP arg max ln p ( D / ) ln p ()


1 1
MAP arg max (Y G) (Y G)
T T

2 d 2 m
2 2


1 1 1
0 2 G Y 2 G G 2
T T

d d m
d

m
G G I
T 2
MAP GT Y

MAP G T
G 2 1
I G T

Y
El trmino y por ende el prior, tiene un efecto de
2 2

regulariza cin/ estabilizacin de la solucin, evitando el


overfitting a los datos de entrenamie nto. Si G T G est mal
condiciona da un pequeo cambio en los datos Y da lugar a un

MAP completamente distinto. Al sumar 2 I disminuye este efecto


y la solucin se vuelve ms estable.
Comparacin MLE Estimacin
Bayesiana
Para prioris razonables ambas soluciones son equivalentes cuando n .
Qu pasa con conjunto de datos limitados?
1. Complejidad:
1. MLE: Clculo diferencial , mtodos gradiente.
2. Bayesiano: Integracin multidimensional.
2. Interpretabilidad:
1. MLE: ms fcil de intrepretar.
2. Bayesiano: promedio ponderado de los modelos, refleja incertidumbre.
3. Confianza en la informacin a priori.
1. MLE: asume la forma paramtrica original
2. Bayesiano: no asume la forma paramtrica original. Ej gaussiana
varianza conocida.

También podría gustarte