Está en la página 1de 37

Estimación de la Densidad,

métodos Paramétricos

Clasificación y Reconocimiento de Patrones


Maestría en Ingeniería
Automatización Industrial
Plan de la Charla
• Introducción
• Modelos basados en la
distribución Normal
• Modelos Mezcla de distribución
Normal
• Estimación Bayesiana
2
Introducción
• Recordemos la regla de Bayes.

Asumiendo la probabilidad a priori p(wi) es conocida,


para poder tomar una decisión debemos estimar la
probabilidad condicional de clase p(x|wi).
La estimación de la densidad está basada en un
conjunto de observaciones Di={xi1, …, xini}.

• En lo que sigue consideraremos una estimación


paramétrica de la densidad.

3
Introducción
• Asumiremos que la probabilidad condicional de
clase para la clase wi es de forma conocida, pero
tiene un conjunto de parámetros desconocidos θi,
escribiremos esto como p(x| θi).

• En la aproximación estimativa usaremos un


estimado del parámetro θi, basado en las muestras
Di,

Así:

4
Introducción
• En la aproximación predictiva o Bayesiana
escribimos:

donde es visto como una función de


ponderación basado en el conjunto de datos Di, o
como una función de densidad de probabilidad
Bayesiana a porteriori para θi, basado en una a
priori p(θi) y en los datos.
Así admitimos que no conocemos el verdadero valor
de θi y que en vez de tomar una estimada simple,
tomamos una suma ponderada de las densidades
p(x|θi) ponderado por la distribución .
5
Modelos Basados en la Normal
Funciones Discriminantes Lineales y Cuadráticas.
• El clasificador basado en la distribución normal es
ampliamente conocido:

Usando la regla de Bayes, se obtiene la siguiente


regla de decisión:

– Asignar x a wi si gi > gj para todo i ≠ j, donde:

6
CASO 1: ∑i = σI, Caso Lineal

Este es el caso más simple, y es aquel donde las características


seleccionadas son estadísticamente independientes. La función
discriminante es:
X − µi
2

gi ( X ) = − + ln P( wi )
2σ 2

Donde:
X − µi = ( X − µ i )t ( X − µ i )
2
norma euclídea

El término P(wi), es un offset que se suma al término de la izquierda en la


ecuación de gi. Así, para un X que esté igualmente cercano a dos
diferentes vectores de medias, la decisión óptima será dada por la
probabilidad a priori más alta.

7
CASO 1: ∑i = σI

Sin importar si las probabilidades a priori son o no iguales, no son necesarias


para calcular las distancias. La expansión de la forma cuadrática (X-µ)t(X-µ):
1
gi ( X ) = − [ X t
X − 2 µ t
X + µ i µ i ] + ln P ( wi )
t

2σ 2 i

La cual es una función cuadrática de X. Sin embargo, el término cuadrático XtX


es el mismo para todo i, haciéndolo una constante aditiva que se puede ignorar.
Así, se obtienen las funciones lineales equivalentes:
Clasificador por
g i ( X ) = w X + wi 0
t
i distancia Euclidea

wi =
1
µi −1 t
wi 0 = µ i µ i + ln P( wi )
σ2 2σ 2

Pendiente Umbral o bias en la dirección


i-ésima
8
CASO 2: ∑i = ∑, Caso Lineal
El otro caso se da cuando la matriz de covarianza sólo tiene la diagonal,
pero las varianzas para cada clase es diferente. Geométricamente, esto
corresponde a la situación en la cual las muestras caen en clusters
hiperelipsoidales de igual forma y tamaño. El cluster para la i-ésima clases
estará centrado cerca del vector de media µi. Debido a que los términos |∑i|
y (d/2)ln 2π son independientes de i, pueden ignorarse porque son
constantes aditivas. Con esta simplificación, la función discriminante es:

1
g i ( x ) = − ( x − µ i )∑
−1
( x − µ i ) + ln P( wi )
2
Si las probabilidades a priori son iguales para todas las clases, la regla de
decisión óptima es clasificar el vector X, midiendo la distancia de Mahalanobis y
asignarlo a la clase más cercana. Como antes, en el caso en que las
probabilidades a priori sean diferentes, la función discriminante estará desplazada,
y la decisión favorecerá a la clases con probabilidad a priori más alta.
9
CASO 2: ∑i = ∑
De nuevo la función discriminante es lineal:

wi = ∑
−1
µi
g i = wit X + wi 0 1 t
wi 0 = − µ i ∑
−1
µ i + ln P( wi )
2

10
CASO 3: ∑i = arbitraria, Caso Cuadrático

En el caso general de la función de densidad normal multivariable, las


matrices de covarianza son diferentes para cada clase
1 −1
Wi = − ∑
2 i
wi = ∑i µ i
−1
g i ( X ) = X Wi X + w X + wi 0
t t
i

1 1
wio = − µ it ∑i µ i − ln | ∑ i | + ln P ( wi )
−1

2 2

Las superficies de decisión son hipercuádricas, y puede asumir una de las


formas generales –hiperplanos, parejas de hiperplanos, hiperesféras,
hiperelipsoides, hiperparaboloides e hiperhiperboloides de varios tipos-.

11
Modelos Basados en la Normal
En la aproximación estimativa, las cantidades µi y Σi
son remplazadas por estimadas basadas en el
conjunto de entrenamiento.
Considere el conjunto de muestras {x1, x2, …, xn}, la
estimación de máxima verosimilitud para la media
es:

la estimación de la matriz de covarianza es:

12
Modelos Basados en la Normal
Sustituyendo los valores estimados de media y matriz
de covarianza, en la regla de decisión para la
distribución normal usando la ecuación de Bayes, se
obtiene el clasificador Gausiano o regla de decisión
cuadrática:
– Asignar x a wi si gi > gj para todo i ≠ j, donde:

En el clasificador gausiano se tendrán problemas


cuando las matrices de covarianza estimadas sean
singulares.
Una solución es proyectar los datos (usando PCA), a
un espacio donde estas matrices sean no singulares 13
Modelos Basados en la Normal
En problemas donde los datos provienen de
distribuciones multivariadas normales, con matrices
de covarianza diferentes, pude suceder que no se
tengan suficientes datos para hacer buenas
estimaciones de las matrices de covarianza.
En esos casos se puede:
• Asumir matrices de covarianza iguales.
• Asumir matrices de covarianza diagonales pero
diferentes.
• Modelos de matrices de covarianza proporcionales.

14
Modelos Basados en la Normal
Análisis Discriminante Regularizado (RDA).
Propuesto por Friedman (1989) para conjuntos de
datos con pocas muestras y muchas dimensiones,
el propósito de este método es sobreponerse a la
degradación del desempeño de la regla
discriminante cuadrática.
Se utilizan dos parámetros:
– Un parámetro de complejidad que intermedia entre un
discriminante lineal y cuadrático, λ.
– Un parámetro de concentración para las actualización de la
matriz de covarianza, γ.

15
Modelos Basados en la Normal
Específicamente, es remplazada por una
combinación lineal de la matriz de covarianza
y la matriz de covarianza dentro del grupo SW.

Entonces:

con 0 ≤ λ ≤ 1, y
Para los extremos λ = 0 y λ = 1, estimaciones de las
matrices de covarianza que permiten utilizar la regla
de discriminación cuadrática y la regla de
discriminación lineal respectivamente.
16
Modelos Basados en la Normal
El parámetro γ se utiliza para regularizar
la muestra de la matriz de covarianza
de clase:

Donde: Ip es la matriz identidad p x p y


El valor propio promedio de
La matriz es usada en la regla
discriminante basada en la normal así:
17
– Asignar x a wi si gi > gj para todo i ≠ j,
Modelos Basados en la Normal
Los parámetros λ y γ se determinan evaluando el
riesgo de mala clasificación en una rejilla 0 ≤ λ,γ ≤ 1
y escogiendo como valores óptimos para estos
parámetros los puntos en la rejilla con el menor
riesgo estimado.

El análisis discriminante regularizado (RDA) tiene el


potencial de incrementar fuertemente el poder de
análisis discriminante cuando los tamaños de las
muestras son pequeños y el número de variables es
grande.

18
Modelos de Mezcla D. Normal
Estimación de Máxima Verosimilitud vía EM
(Esperanza-Maximización)
Un modelo de mezcla finito es una distribución de la forma:

Donde g es el número de componentes de la mezcla, πj son las


proporciones de la mezcla y
son las componentes de las funciones
de densidad que dependen del vector de parámetros θj.
Hay tres conjuntos de parámetros a estimar:
– Los valores de πj
– Los componentes de θj
– El valor de g.
19
Modelos de Mezcla D. Normal
Las densidades componentes pueden ser de
diferentes formas paramétricas y son especificadas
usando conocimiento del proceso de generación de
datos.
Para el modelo de mezcla de distribución normal,
tenemos:

Dado un conjunto de n observaciones (x1, x2, …, xn) su


función de verosimilitud es:

20
Modelos de Mezcla D. Normal
Donde Ψ denota el conjunto de parámetros
{π1,…,πg; θ1,…,θg}.
Ahora notaremos la dependencia de las densidades
componentes en sus parámetros como: p(x|θj}.

Supongamos que tenemos un conjunto de vectores de


datos ‘incompleto’ {x}.
Denotemos por {y} una versión típica ‘completa’ de {x},
es decir cada vector xi es aumentado por los valores
‘faltantes’ tal que yTi=(xTi ,zTi) .
Donde zi son las variables indicadoras con valor de ‘1’
si el patrón xi está en el grupo y ‘0’ de lo contrario.
21
Modelos de Mezcla D. Normal
Procedimiento General EM (Esperanza-
Maximización)
Sea g({y} | Ψ) la verosimilitud de {y} cuya forma
conocemos explícitamente, por lo que la
verosimilitud de g({x} | Ψ) es obtenida a partir de
g({y} | Ψ) integrando sobre todos los posibles {y} en
los cuales el conjunto {x} está inmerso.

El procedimiento EM genera una secuencia de


estimados Ψ, {Ψ(m)} a partir de un estimado inicial
Ψ(0), y consiste en dos pasos: 22
Modelos de Mezcla D. Normal
• Paso-E, evalué

es decir:

la esperanza del logaritmo de verosimilitud de los


datos completos, condicionado a los datos
observados {x} y al valor actual de los parámetros
Ψ(m).
23
Modelos de Mezcla D. Normal
• Paso-M, Encuentre Ψ(m)= Ψ(m+1), que maximice
Q(Ψ,Ψ(m)).

La verosimilitud de interés es monótonamente


creciente, es decir, satisface:

La figura siguiente ilustra el esquema iterativo EM.

24
Modelos de Mezcla D. Normal

25
Modelos de Mezcla D. Normal
EM algoritmo para mezcla de
distribuciones.TAREA
Para datos etiquetados totalmente,
definimos un vector y de datos
completo que es la observación
aumentada para una clase etiquetada,
es decir yT=(xT ,zT) donde z es un
vector indicador de longitud con ‘1’ en
la k-ésima posición si xk existe y ‘0’ de
lo contrario. 26

La verosimilitud de y es:
Modelos de Mezcla D. Normal
La cual puede ser escrita como:

ya que zj es ‘0’ excepto para j=k.


La verosimilitud de x es:

la cual es una mezcla de distribuciones.


27
Modelos de Mezcla D. Normal
Para n observaciones se tiene:

con

Donde el vector l tiene j componentes log(πj).


ui tiene j componentes log(p(xi|θj)) y
zi tiene componentes zij, j=1, …, g; donde zij son las
variables indicadoras que toman valor de ‘1’ si el
patrón xi está en el grupo j, y ‘0’ de lo contrario.
28
Modelos de Mezcla D. Normal
Los pasos básicos de la iteración son:
• Paso-E, forma

donde

con componente j, la probabilidad que xi pertenezca


al grupo j dada por la estimación actual Ψ(m), dada
por:

29
Modelos de Mezcla D. Normal
• Paso-M, consiste en maximizar Q con respecto a Ψ.
Considere los parámetros πi, θi en orden.
Maximizar Q con respecto a πi (sujeto a )
produce la ecuación:

obtenida diferenciando con


respecto a πi, donde λ es un multiplicador de
Lagrange.

30
Modelos de Mezcla D. Normal
La constricción produce

y así tenemos la estimada de πj, como:

Para mezclas de distribuciones normal, consideramos


separadamente la re-estimación de la media y de la
matriz de covarianza.

31
Modelos de Mezcla D. Normal
Diferenciando Q con respecto a µj e igualando a cero,
tenemos:

Lo que produce la re-estimación de µj como:

Diferenciado Q con respecto a Σj e igualando a cero,


tenemos:

32
Modelos de Mezcla D. Normal
Así, el algoritmo EM para mezclas de distribución
normal, alterna entre el paso-E de estimación de wi
y el paso-M de cálculo de y
dados los valores de wi.

Estas estimaciones serán las estimadas en el paso


m+1 y se utilizarán en el siguiente paso de iteración.
El proceso itera hasta la convergencia de la
verosimilitud.

33
Modelos de Mezcla D. Normal
Mezcla de modelos para discriminación.
Si queremos utilizar el modelo de mezcla normal en un
problema de discriminación, una aproximación es
obtener los parámetros Ψ1, …, Ψc para cada una de
las clases.
Entonces, dado un conjunto de patrones xi, i=1, …, n,
que queremos clasificar, calculamos L(xi |Ψj), i=1,
…, n; j=1, …, C, la verosimilitud de la observación
dados los modelos y los combinamos con las clases
a priori para obtener una probabilidad de
pertenencia de clase.

34
Modelos de Mezcla D. Normal
Cuantos componentes ?.
Muchos autores han considerado el problema de
evaluar el número de componentes g de una
mezcla de distribuciones normal.
Este problema, que no es trivial, depende de muchos
factores:
– Forma de los clusters
– Separación
– Tamaños relativos
– Tamaños de las muestras
– Dimensiones de los datos.
35
Modelos de Mezcla D. Normal
Wolfe propuso una prueba de radio de verosimilitud
modificado, en el cual la hipótesis nula g = g0 es
evaluada contra la hipótesis alternativa g = g1.
La cantidad:

donde λ es el radio de verosimilitud, es evaluada como


una chi-cuadrada con los grados de libertad, d,
siendo dos veces la diferencia en el número de
parámetros en las dos hipótesis, excluyendo las
proporciones mezcladas..

36
Modelos de Mezcla D. Normal
• Para componentes de una mezcla de distribuciones
normal, con matrices de covarianza arbitraria:

• Para componentes de una mezcla de distribuciones


normal, con matrices de covarianza comunes:

d = 2 (g1 – g0)p.

37

También podría gustarte