Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Patrones MScClase3 Est Param Dens A
Patrones MScClase3 Est Param Dens A
métodos Paramétricos
3
Introducción
• Asumiremos que la probabilidad condicional de
clase para la clase wi es de forma conocida, pero
tiene un conjunto de parámetros desconocidos θi,
escribiremos esto como p(x| θi).
Así:
4
Introducción
• En la aproximación predictiva o Bayesiana
escribimos:
6
CASO 1: ∑i = σI, Caso Lineal
gi ( X ) = − + ln P( wi )
2σ 2
Donde:
X − µi = ( X − µ i )t ( X − µ i )
2
norma euclídea
7
CASO 1: ∑i = σI
2σ 2 i
wi =
1
µi −1 t
wi 0 = µ i µ i + ln P( wi )
σ2 2σ 2
1
g i ( x ) = − ( x − µ i )∑
−1
( x − µ i ) + ln P( wi )
2
Si las probabilidades a priori son iguales para todas las clases, la regla de
decisión óptima es clasificar el vector X, midiendo la distancia de Mahalanobis y
asignarlo a la clase más cercana. Como antes, en el caso en que las
probabilidades a priori sean diferentes, la función discriminante estará desplazada,
y la decisión favorecerá a la clases con probabilidad a priori más alta.
9
CASO 2: ∑i = ∑
De nuevo la función discriminante es lineal:
wi = ∑
−1
µi
g i = wit X + wi 0 1 t
wi 0 = − µ i ∑
−1
µ i + ln P( wi )
2
10
CASO 3: ∑i = arbitraria, Caso Cuadrático
1 1
wio = − µ it ∑i µ i − ln | ∑ i | + ln P ( wi )
−1
2 2
11
Modelos Basados en la Normal
En la aproximación estimativa, las cantidades µi y Σi
son remplazadas por estimadas basadas en el
conjunto de entrenamiento.
Considere el conjunto de muestras {x1, x2, …, xn}, la
estimación de máxima verosimilitud para la media
es:
12
Modelos Basados en la Normal
Sustituyendo los valores estimados de media y matriz
de covarianza, en la regla de decisión para la
distribución normal usando la ecuación de Bayes, se
obtiene el clasificador Gausiano o regla de decisión
cuadrática:
– Asignar x a wi si gi > gj para todo i ≠ j, donde:
14
Modelos Basados en la Normal
Análisis Discriminante Regularizado (RDA).
Propuesto por Friedman (1989) para conjuntos de
datos con pocas muestras y muchas dimensiones,
el propósito de este método es sobreponerse a la
degradación del desempeño de la regla
discriminante cuadrática.
Se utilizan dos parámetros:
– Un parámetro de complejidad que intermedia entre un
discriminante lineal y cuadrático, λ.
– Un parámetro de concentración para las actualización de la
matriz de covarianza, γ.
15
Modelos Basados en la Normal
Específicamente, es remplazada por una
combinación lineal de la matriz de covarianza
y la matriz de covarianza dentro del grupo SW.
Entonces:
con 0 ≤ λ ≤ 1, y
Para los extremos λ = 0 y λ = 1, estimaciones de las
matrices de covarianza que permiten utilizar la regla
de discriminación cuadrática y la regla de
discriminación lineal respectivamente.
16
Modelos Basados en la Normal
El parámetro γ se utiliza para regularizar
la muestra de la matriz de covarianza
de clase:
18
Modelos de Mezcla D. Normal
Estimación de Máxima Verosimilitud vía EM
(Esperanza-Maximización)
Un modelo de mezcla finito es una distribución de la forma:
20
Modelos de Mezcla D. Normal
Donde Ψ denota el conjunto de parámetros
{π1,…,πg; θ1,…,θg}.
Ahora notaremos la dependencia de las densidades
componentes en sus parámetros como: p(x|θj}.
es decir:
24
Modelos de Mezcla D. Normal
25
Modelos de Mezcla D. Normal
EM algoritmo para mezcla de
distribuciones.TAREA
Para datos etiquetados totalmente,
definimos un vector y de datos
completo que es la observación
aumentada para una clase etiquetada,
es decir yT=(xT ,zT) donde z es un
vector indicador de longitud con ‘1’ en
la k-ésima posición si xk existe y ‘0’ de
lo contrario. 26
La verosimilitud de y es:
Modelos de Mezcla D. Normal
La cual puede ser escrita como:
con
donde
29
Modelos de Mezcla D. Normal
• Paso-M, consiste en maximizar Q con respecto a Ψ.
Considere los parámetros πi, θi en orden.
Maximizar Q con respecto a πi (sujeto a )
produce la ecuación:
30
Modelos de Mezcla D. Normal
La constricción produce
31
Modelos de Mezcla D. Normal
Diferenciando Q con respecto a µj e igualando a cero,
tenemos:
32
Modelos de Mezcla D. Normal
Así, el algoritmo EM para mezclas de distribución
normal, alterna entre el paso-E de estimación de wi
y el paso-M de cálculo de y
dados los valores de wi.
33
Modelos de Mezcla D. Normal
Mezcla de modelos para discriminación.
Si queremos utilizar el modelo de mezcla normal en un
problema de discriminación, una aproximación es
obtener los parámetros Ψ1, …, Ψc para cada una de
las clases.
Entonces, dado un conjunto de patrones xi, i=1, …, n,
que queremos clasificar, calculamos L(xi |Ψj), i=1,
…, n; j=1, …, C, la verosimilitud de la observación
dados los modelos y los combinamos con las clases
a priori para obtener una probabilidad de
pertenencia de clase.
34
Modelos de Mezcla D. Normal
Cuantos componentes ?.
Muchos autores han considerado el problema de
evaluar el número de componentes g de una
mezcla de distribuciones normal.
Este problema, que no es trivial, depende de muchos
factores:
– Forma de los clusters
– Separación
– Tamaños relativos
– Tamaños de las muestras
– Dimensiones de los datos.
35
Modelos de Mezcla D. Normal
Wolfe propuso una prueba de radio de verosimilitud
modificado, en el cual la hipótesis nula g = g0 es
evaluada contra la hipótesis alternativa g = g1.
La cantidad:
36
Modelos de Mezcla D. Normal
• Para componentes de una mezcla de distribuciones
normal, con matrices de covarianza arbitraria:
d = 2 (g1 – g0)p.
37