Patrones MScClase3 Est Param Dens A

Estimación de la Densidad,
métodos Paramétricos
Clasificación y Reconocimiento de Patrones

Maestría en Ingeniería
Automatización Industrial
Plan de la Charla
• Introducción
• Modelos basados en la
distribución Normal
• Modelos Mezcla de distribución
Normal
• Estimación Bayesiana
2
Introducción
• Recordemos la regla de Bayes.
Asumiendo la probabilidad a priori p(wi) es conocida,

para poder tomar una decisión debemos estimar la
probabilidad condicional de clase p(x|wi).
La estimación de la densidad está basada en un
conjunto de observaciones Di={xi1, …, xini}.
• En lo que sigue consideraremos una estimación

paramétrica de la densidad.
3
Introducción
• Asumiremos que la probabilidad condicional de
clase para la clase wi es de forma conocida, pero
tiene un conjunto de parámetros desconocidos θi,
escribiremos esto como p(x| θi).
• En la aproximación estimativa usaremos un

estimado del parámetro θi, basado en las muestras
Di,
Así:
4
Introducción
• En la aproximación predictiva o Bayesiana
escribimos:
donde es visto como una función de

ponderación basado en el conjunto de datos Di, o
como una función de densidad de probabilidad
Bayesiana a porteriori para θi, basado en una a
priori p(θi) y en los datos.
Así admitimos que no conocemos el verdadero valor
de θi y que en vez de tomar una estimada simple,
tomamos una suma ponderada de las densidades
p(x|θi) ponderado por la distribución .
5
Modelos Basados en la Normal
Funciones Discriminantes Lineales y Cuadráticas.
• El clasificador basado en la distribución normal es
ampliamente conocido:
Usando la regla de Bayes, se obtiene la siguiente

regla de decisión:
– Asignar x a wi si gi > gj para todo i ≠ j, donde:
6
CASO 1: ∑i = σI, Caso Lineal
Este es el caso más simple, y es aquel donde las características

seleccionadas son estadísticamente independientes. La función
discriminante es:
X − µi
2
gi ( X ) = − + ln P( wi )
2σ 2
Donde:
X − µi = ( X − µ i )t ( X − µ i )
2
norma euclídea
El término P(wi), es un offset que se suma al término de la izquierda en la

ecuación de gi. Así, para un X que esté igualmente cercano a dos
diferentes vectores de medias, la decisión óptima será dada por la
probabilidad a priori más alta.
7
CASO 1: ∑i = σI
Sin importar si las probabilidades a priori son o no iguales, no son necesarias

para calcular las distancias. La expansión de la forma cuadrática (X-µ)t(X-µ):
1
gi ( X ) = − [ X t
X − 2 µ t
X + µ i µ i ] + ln P ( wi )
t
2σ 2 i
La cual es una función cuadrática de X. Sin embargo, el término cuadrático XtX

es el mismo para todo i, haciéndolo una constante aditiva que se puede ignorar.
Así, se obtienen las funciones lineales equivalentes:
Clasificador por
g i ( X ) = w X + wi 0
t
i distancia Euclidea
wi =
1
µi −1 t
wi 0 = µ i µ i + ln P( wi )
σ2 2σ 2
Pendiente Umbral o bias en la dirección

i-ésima
8
CASO 2: ∑i = ∑, Caso Lineal
El otro caso se da cuando la matriz de covarianza sólo tiene la diagonal,
pero las varianzas para cada clase es diferente. Geométricamente, esto
corresponde a la situación en la cual las muestras caen en clusters
hiperelipsoidales de igual forma y tamaño. El cluster para la i-ésima clases
estará centrado cerca del vector de media µi. Debido a que los términos |∑i|
y (d/2)ln 2π son independientes de i, pueden ignorarse porque son
constantes aditivas. Con esta simplificación, la función discriminante es:
1
g i ( x ) = − ( x − µ i )∑
−1
( x − µ i ) + ln P( wi )
2
Si las probabilidades a priori son iguales para todas las clases, la regla de
decisión óptima es clasificar el vector X, midiendo la distancia de Mahalanobis y
asignarlo a la clase más cercana. Como antes, en el caso en que las
probabilidades a priori sean diferentes, la función discriminante estará desplazada,
y la decisión favorecerá a la clases con probabilidad a priori más alta.
9
CASO 2: ∑i = ∑
De nuevo la función discriminante es lineal:
wi = ∑
−1
µi
g i = wit X + wi 0 1 t
wi 0 = − µ i ∑
−1
µ i + ln P( wi )
2
10
CASO 3: ∑i = arbitraria, Caso Cuadrático
En el caso general de la función de densidad normal multivariable, las

matrices de covarianza son diferentes para cada clase
1 −1
Wi = − ∑
2 i
wi = ∑i µ i
−1
g i ( X ) = X Wi X + w X + wi 0
t t
i
1 1
wio = − µ it ∑i µ i − ln | ∑ i | + ln P ( wi )
−1
2 2
Las superficies de decisión son hipercuádricas, y puede asumir una de las

formas generales –hiperplanos, parejas de hiperplanos, hiperesféras,
hiperelipsoides, hiperparaboloides e hiperhiperboloides de varios tipos-.
11
En la aproximación estimativa, las cantidades µi y Σi
son remplazadas por estimadas basadas en el
conjunto de entrenamiento.
Considere el conjunto de muestras {x1, x2, …, xn}, la
estimación de máxima verosimilitud para la media
es:
la estimación de la matriz de covarianza es:
12
Sustituyendo los valores estimados de media y matriz
de covarianza, en la regla de decisión para la
distribución normal usando la ecuación de Bayes, se
obtiene el clasificador Gausiano o regla de decisión
cuadrática:
– Asignar x a wi si gi > gj para todo i ≠ j, donde:
En el clasificador gausiano se tendrán problemas

cuando las matrices de covarianza estimadas sean
singulares.
Una solución es proyectar los datos (usando PCA), a
un espacio donde estas matrices sean no singulares 13
En problemas donde los datos provienen de
distribuciones multivariadas normales, con matrices
de covarianza diferentes, pude suceder que no se
tengan suficientes datos para hacer buenas
estimaciones de las matrices de covarianza.
En esos casos se puede:
• Asumir matrices de covarianza iguales.
• Asumir matrices de covarianza diagonales pero
diferentes.
• Modelos de matrices de covarianza proporcionales.
14
Análisis Discriminante Regularizado (RDA).
Propuesto por Friedman (1989) para conjuntos de
datos con pocas muestras y muchas dimensiones,
el propósito de este método es sobreponerse a la
degradación del desempeño de la regla
discriminante cuadrática.
Se utilizan dos parámetros:
– Un parámetro de complejidad que intermedia entre un
discriminante lineal y cuadrático, λ.
– Un parámetro de concentración para las actualización de la
matriz de covarianza, γ.
15
Específicamente, es remplazada por una
combinación lineal de la matriz de covarianza
y la matriz de covarianza dentro del grupo SW.
Entonces:
con 0 ≤ λ ≤ 1, y
Para los extremos λ = 0 y λ = 1, estimaciones de las
matrices de covarianza que permiten utilizar la regla
de discriminación cuadrática y la regla de
discriminación lineal respectivamente.
16
El parámetro γ se utiliza para regularizar
la muestra de la matriz de covarianza
de clase:
Donde: Ip es la matriz identidad p x p y

El valor propio promedio de
La matriz es usada en la regla
discriminante basada en la normal así:
17
– Asignar x a wi si gi > gj para todo i ≠ j,
Los parámetros λ y γ se determinan evaluando el
riesgo de mala clasificación en una rejilla 0 ≤ λ,γ ≤ 1
y escogiendo como valores óptimos para estos
parámetros los puntos en la rejilla con el menor
riesgo estimado.
El análisis discriminante regularizado (RDA) tiene el

potencial de incrementar fuertemente el poder de
análisis discriminante cuando los tamaños de las
muestras son pequeños y el número de variables es
grande.
18
Modelos de Mezcla D. Normal
Estimación de Máxima Verosimilitud vía EM
(Esperanza-Maximización)
Un modelo de mezcla finito es una distribución de la forma:
Donde g es el número de componentes de la mezcla, πj son las

proporciones de la mezcla y
son las componentes de las funciones
de densidad que dependen del vector de parámetros θj.
Hay tres conjuntos de parámetros a estimar:
– Los valores de πj
– Los componentes de θj
– El valor de g.
19
Las densidades componentes pueden ser de
diferentes formas paramétricas y son especificadas
usando conocimiento del proceso de generación de
datos.
Para el modelo de mezcla de distribución normal,
tenemos:
Dado un conjunto de n observaciones (x1, x2, …, xn) su

función de verosimilitud es:
20
Donde Ψ denota el conjunto de parámetros
{π1,…,πg; θ1,…,θg}.
Ahora notaremos la dependencia de las densidades
componentes en sus parámetros como: p(x|θj}.
Supongamos que tenemos un conjunto de vectores de

datos ‘incompleto’ {x}.
Denotemos por {y} una versión típica ‘completa’ de {x},
es decir cada vector xi es aumentado por los valores
‘faltantes’ tal que yTi=(xTi ,zTi) .
Donde zi son las variables indicadoras con valor de ‘1’
si el patrón xi está en el grupo y ‘0’ de lo contrario.
21
Procedimiento General EM (Esperanza-
Maximización)
Sea g({y} | Ψ) la verosimilitud de {y} cuya forma
conocemos explícitamente, por lo que la
verosimilitud de g({x} | Ψ) es obtenida a partir de
g({y} | Ψ) integrando sobre todos los posibles {y} en
los cuales el conjunto {x} está inmerso.
El procedimiento EM genera una secuencia de

estimados Ψ, {Ψ(m)} a partir de un estimado inicial
Ψ(0), y consiste en dos pasos: 22
• Paso-E, evalué
es decir:
la esperanza del logaritmo de verosimilitud de los

datos completos, condicionado a los datos
observados {x} y al valor actual de los parámetros
Ψ(m).
23
• Paso-M, Encuentre Ψ(m)= Ψ(m+1), que maximice
Q(Ψ,Ψ(m)).
La verosimilitud de interés es monótonamente

creciente, es decir, satisface:
La figura siguiente ilustra el esquema iterativo EM.
24
25
EM algoritmo para mezcla de
distribuciones.TAREA
Para datos etiquetados totalmente,
definimos un vector y de datos
completo que es la observación
aumentada para una clase etiquetada,
es decir yT=(xT ,zT) donde z es un
vector indicador de longitud con ‘1’ en
la k-ésima posición si xk existe y ‘0’ de
lo contrario. 26
La verosimilitud de y es:
La cual puede ser escrita como:
ya que zj es ‘0’ excepto para j=k.

La verosimilitud de x es:
la cual es una mezcla de distribuciones.

27
Para n observaciones se tiene:
con
Donde el vector l tiene j componentes log(πj).

ui tiene j componentes log(p(xi|θj)) y
zi tiene componentes zij, j=1, …, g; donde zij son las
variables indicadoras que toman valor de ‘1’ si el
patrón xi está en el grupo j, y ‘0’ de lo contrario.
28
Los pasos básicos de la iteración son:
• Paso-E, forma
donde
con componente j, la probabilidad que xi pertenezca

al grupo j dada por la estimación actual Ψ(m), dada
por:
29
• Paso-M, consiste en maximizar Q con respecto a Ψ.
Considere los parámetros πi, θi en orden.
Maximizar Q con respecto a πi (sujeto a )
produce la ecuación:
obtenida diferenciando con

respecto a πi, donde λ es un multiplicador de
Lagrange.
30
La constricción produce
y así tenemos la estimada de πj, como:
Para mezclas de distribuciones normal, consideramos

separadamente la re-estimación de la media y de la
matriz de covarianza.
31
Diferenciando Q con respecto a µj e igualando a cero,
tenemos:
Lo que produce la re-estimación de µj como:
Diferenciado Q con respecto a Σj e igualando a cero,

tenemos:
32
Así, el algoritmo EM para mezclas de distribución
normal, alterna entre el paso-E de estimación de wi
y el paso-M de cálculo de y
dados los valores de wi.
Estas estimaciones serán las estimadas en el paso

m+1 y se utilizarán en el siguiente paso de iteración.
El proceso itera hasta la convergencia de la
verosimilitud.
33
Mezcla de modelos para discriminación.
Si queremos utilizar el modelo de mezcla normal en un
problema de discriminación, una aproximación es
obtener los parámetros Ψ1, …, Ψc para cada una de
las clases.
Entonces, dado un conjunto de patrones xi, i=1, …, n,
que queremos clasificar, calculamos L(xi |Ψj), i=1,
…, n; j=1, …, C, la verosimilitud de la observación
dados los modelos y los combinamos con las clases
a priori para obtener una probabilidad de
pertenencia de clase.
34
Cuantos componentes ?.
Muchos autores han considerado el problema de
evaluar el número de componentes g de una
mezcla de distribuciones normal.
Este problema, que no es trivial, depende de muchos
factores:
– Forma de los clusters
– Separación
– Tamaños relativos
– Tamaños de las muestras
– Dimensiones de los datos.
35
Wolfe propuso una prueba de radio de verosimilitud
modificado, en el cual la hipótesis nula g = g0 es
evaluada contra la hipótesis alternativa g = g1.
La cantidad:
donde λ es el radio de verosimilitud, es evaluada como

una chi-cuadrada con los grados de libertad, d,
siendo dos veces la diferencia en el número de
parámetros en las dos hipótesis, excluyendo las
proporciones mezcladas..
36
• Para componentes de una mezcla de distribuciones
normal, con matrices de covarianza arbitraria:
• Para componentes de una mezcla de distribuciones

normal, con matrices de covarianza comunes:
d = 2 (g1 – g0)p.
37

Patrones MScClase3 Est Param Dens A

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Patrones MScClase3 Est Param Dens A

Cargado por

Copyright:

Formatos disponibles

Estimación de la Densidad,

Clasificación y Reconocimiento de Patrones

Asumiendo la probabilidad a priori p(wi) es conocida,

• En lo que sigue consideraremos una estimación

• En la aproximación estimativa usaremos un

donde es visto como una función de

Usando la regla de Bayes, se obtiene la siguiente

– Asignar x a wi si gi > gj para todo i ≠ j, donde:

Este es el caso más simple, y es aquel donde las características

El término P(wi), es un offset que se suma al término de la izquierda en la

Sin importar si las probabilidades a priori son o no iguales, no son necesarias

La cual es una función cuadrática de X. Sin embargo, el término cuadrático XtX

Pendiente Umbral o bias en la dirección

En el caso general de la función de densidad normal multivariable, las

Las superficies de decisión son hipercuádricas, y puede asumir una de las

la estimación de la matriz de covarianza es:

En el clasificador gausiano se tendrán problemas

Donde: Ip es la matriz identidad p x p y

El análisis discriminante regularizado (RDA) tiene el

Donde g es el número de componentes de la mezcla, πj son las

Dado un conjunto de n observaciones (x1, x2, …, xn) su

Supongamos que tenemos un conjunto de vectores de

El procedimiento EM genera una secuencia de

la esperanza del logaritmo de verosimilitud de los

La verosimilitud de interés es monótonamente

La figura siguiente ilustra el esquema iterativo EM.

ya que zj es ‘0’ excepto para j=k.

la cual es una mezcla de distribuciones.

Donde el vector l tiene j componentes log(πj).

con componente j, la probabilidad que xi pertenezca

obtenida diferenciando con

y así tenemos la estimada de πj, como:

Para mezclas de distribuciones normal, consideramos

Lo que produce la re-estimación de µj como:

Diferenciado Q con respecto a Σj e igualando a cero,

Estas estimaciones serán las estimadas en el paso

donde λ es el radio de verosimilitud, es evaluada como

• Para componentes de una mezcla de distribuciones

También podría gustarte