Documentos de Académico
Documentos de Profesional
Documentos de Cultura
- Técnicas de clasificación:
Métodos paramétricos
Densidad de probabilidad
La función normal multivariante
Clasificador de máxima verosimilitud
Clasificadores lineal y cuadrático
Clase de rechazo.
2
Métodos paramétricos
1 1 x 2
P( x / ci ) N ( i , i ) N ( , ) exp
2 2
Densidad normal unidimensional
– Analíticamente tratable
99.72%
– Función continua 95.44%
– Muchos procesos son 68.26%
asintóticamente
Gaussianos (teorema
central del límite)
• = valor medio
• 2 = varianza
x
– 3 – 1 + 1 + 3
– 2 + 2
5
>> x = 2 + randn(2000,1)*3;
¿que distribución genera?
Comandos para trabajar con dist. normal
MATLAB
p=normcdf(x,mu,sigma): distribución normal acumulada con media mu y
desviación estándar sigma evaluada en el punto x.
p=normcdf(x): distribución normal tipificada o estandarizada acumulada
(media=0, sigma=1), evaluada en el punto x.
>> normcdf(1)-normcdf(-1)
>> ans = 0.6827
MATLAB
normplot(X): normal probability plot de los datos en X.
Nota: Si X es una matriz, se representan tantas gráficas como columnas hay
en X.
histfit(X): Superpone al histograma del vector X una distribución normal
REPASO: ÁLGEBRA LINEAL ELEMENTAL
Suma x y x1 y1 ,, xn y n
i 1
Norma de un vector
x x
n
x x x ( x x)
T T 1/ 2
x 2
i
9
i 1
Sea un conjunto de vectores u1 , , u p
Ortogonal si todos los vectores son perpendiculares ui u j
Ejemplo
1 1
u 0 v 0
2 3
(i ) u , v
( ii ) u
( iii ) u v ?
( iv ) d ( u , v )
( v ) cos
11
Matriz de datos
Formada por
x11 x12 x13 x1n
p vectores fila (tantos como datos, pixels Rn)
n columnas (tantas como variables o bandas)
x21 x22 x23 x2 n
p n x31 x32 x33 x3 n
Vector de medias: x x p2 x p3 x pn
p1
x E [ X ] 1 n E ( X1 ) E ( X n )
X1 X2 X3 Xn
Matriz de covarianzas:
p
ij ( xki xi )( x jk x j ) /( p 1)
k 1
es cuadrada y simétrica (ij=ji). 12
ij es la covarianza entre las bandas i y j.
Representa la dependencia entre ellas;
Si ij>0 su correlación es directa (nube de
puntos creciente)
ii es las varianza de la banda i (ii=i2).
Tiene unidades físicas
Covarianzas y correlaciones
Componentes independientes
Matriz de datos
X1 X4 3 42 15
X3 4 44 18
20
43
2 40
3 42 21
X2
X1 X2 X3
Matriz de datos
Ejercicio: Dada la matriz formada por los 5 datos en R4, calcular e
interpretar algunos estadísticos univariados (media, rango,
desviación típica, mímino, máximo) y bi-variados (matrices de
correlación y covarianza) usuales
16
Matriz de datos
Band 1 Band 2 Band 3 Band 4
Mean (k) 135 46.40 187 222
Variance (vark) 562.50 264.80 1007 570
(s k ) 23.71 16.27 31.4 23.87
(mink) 100 25 135 195
(maxk) 165 65 215 255
Range (BVr) 65 40 80 60
Estadísticos univariados
2
18
Función de densidad normal multidimensional
19
Simplificaciones habituales:
i Clasificador cuadrático
Matrices de covarianza arbitrarias
(independientes para las distintas clases)
20
Funciones discriminates para la densidad normal
2
n 1 1
ln( p ( x | ci )) ln(2 ) ln( i ) ( x i ) T i1 ( x i )
2 2 2
1 1
g i ( x ) ln i ln( i ) ( x i )T i1 ( x i )
2 2
Es un clasificador cuadrático: g i ( x) x tWi x wit x i
1 1 1
donde: Wi i1 w i i1 i i it i1 i ln i ln 21
i
2 2 2
Clasificador cuadrático
Característica principal:
Las fronteras de decisión son funciones
cuadráticas (círculos, elipses, parábolas,
hipérbolas).
22
Funciones discriminates para la densidad normal
(ii) Modelo Gaussiano con Matrices de covarianza iguales (i=)
1 1
g i ( x ) ln i ln( i ) ( x i )T i1 ( x i )
2 2
1
gi ( x ) ln i ( x i )T 1 ( x i )
2
2 x i 1 x i
T
: Distancia de Mahalanobis al cuadrado
entre x y la Gaussiana N(i,)
Variables correladas
Hipótesis:
• Variables incorreladas
•Todas tienen la misma incertidumbre
2 0 0 0 1 0 0 0
0
0 2
0 0
1 0 0
0 0 2 0 0
2
0 1 0 2 I
0 0 0 2 0 0 0 1
25
2
1
g i ( x ) ln( i ) ( x i )T ( x i )
2 2
x i T x i dis( x, i ) x i
2
: Distancia Euclídea al
cuadrado entre x y i
2
g i ( x ) x i
28
Clasificador lineal del modelo gaussiano esférico
n=2
2 0 .2
1 0 .8
29
Aprendizaje
Estimación de los parámetros de cada clase
1) Estimar i i=1,2,…c
2) En caso de no usar el Modelo Gaussiano de tipo esférico
Estimar i i=1,2,…c
3) Si además se adopta el modelo matrices de covarianza
iguales c
Calcular: i i
i 1
Clasificación
x cj si j max {g j ( x )}
j1,2,.c
30
Clasificadores paramétros. Clase de rechazo
Algunos patrones están en regiones en las que la probabilidad es tan baja que la
asignación a una de las posibles clases es cuestionable deben descartarse
Ejemplo
32
Diseño de Clasificadores paramétros. Clase de rechazo
Probabilidad “a posteriori”
Clase 2
g2=P(x|c2) . 2
Clase 1 Clase 3
g1=P(x|c1) . 1 g3=P(x|c3) . 3
gi ( x) g j ( x) i j
x ci si
y además g i ( x ) Ti
Ti: umbral de rechazo para la clase ci, que hay que determinar
33
34
Selección de áreas de entrenamiento
valor informativo, exhaustivas, suficientemente extensas, homogéneas,
separables espectralmente
Caña de azúcar
Alfalfa
Maíz
35
pinar
Suelo desnudo Trigo seco
Fase de Aprendizaje
36
Comparación: Lineal vs. Cuadrático
Probabilidades a posteriori
Funciones discriminantes gi(x), i=1,2,…c
g i ( x ) ln p( x | ci ) ln i i 1,2,..., c
1 1
g i ( x ) ln i ln( i ) ( x i )T i1 ( x i )
2 2
P(suelo|x) P(forestal|x) P(cultivo|x)
cˆ j ( x ) max {g j ( x )}
j 1, 2 ,.c
Suelo
Forestal
Veg. seca
Clasificación temática: Cultivos
38
Resultado del proceso de Clasificación
3 3 3 3 3 3
1 9 3 1 3 3
3 4 2 3 4 2
Ventana 3x3 con Resultado del
Imagen clasificada centro en pixel (5,4) Filtro Moda
Filtro de
moda
Suelo
Forestal
Veg. seca
39
Cultivos
normal.
Los estimadores complejos NO son fiables cuando tenemos pocos datos y/o
la dimensionalidad de los datos es elevada.
40
Solución híbrida: regularización
x ci
Anexo: Estimar umbrales de la clase de rechazo
Clasificador de Máxima Verosimilitud:
g i ln i ln i x i i1 x i Ti
1 1 T
2 2
1 1
Umbral de corte: Ti ln i ln i n2
2 2
Se rechazan los patrones situados en las colas de la distribución normal
Valor típico: aceptar el 95% de los puntos de una clase (se rechaza el 5%).
41
1 1
Ti ln i ln i 9.49
2 2
Funciones MATLAB
p = chi2cdf(x,v): distribución acumulativa chi-cuadrado con v grados de libertad
evaluada en el punto x.
x=chi2inv(p,v): inversa de la distribución acumulativa chi-cuadrado con v grados de
libertad correspondiente a una probabilidad p.
>> chi2inv(0.95,4)
42
ans = 9.4877
ANEXO: CLASIFICADORES EN MATLAB
44