Reconocimiento de Patrones

Universidad Nacional de Colombia sede Manizales
Thomas J. Ramírez Rozo

Tópicos avanzados en procesamiento de imágenes.
RECONOCIMIENTO DE
PATRONES
RECONOCIMIENTO DE
PATRONES
CONTENIDO:
• Introducción
• Clasificadore
s
• Evaluación
• Conclusiones
RECONOCIMIENTO DE
PATRONES
INTRODUCCION
Que es?
Es una disciplina que estudia teorías y métodos para el diseño de
maquinas que sean capaces de reconocer patrones en información con
ruido (Machine Learning).
Se considera como una tarea de toma de decisiones estadística, un
problema de análisis estructural, un problema de inducción y una
tarea de percepción.
RECONOCIMIENTO DE
PATRONES
Problemas del reconocimiento de patrones:
a) A que clase pertenece cada imagen

b) A que clase (Segmentación) pertenece cada pixel
c) Donde esta el objeto de interés (Detección) y que es?
(Clasificación)
RECONOCIMIENTO DE
PATRONES
INTRODUCCION
Probabilidad y Estadística
La estadística es necesaria para resolver el problema del solapamiento de las

clases
RECONOCIMIENTO DE
PATRONES
Hipótesis de compacidad
Objetos similares están cerca los unos de los otros en el espacio de características
y objetos diferentes pueden estar lejos o cerca.
RECONOCIMIENTO DE
PATRONES
Distancias y densidades
El objeto ? Puede ser clasificado
como:
A- Porque esta mas cercano a un
objeto clasificado como A
B- Porque la densidad local de la
clase B es mayor.
RECONOCIMIENTO DE
PATRONES
Distancias: Problema de escalamiento
Antes de escalar D(X,A) < D(X,B) Después de escalar D(X,A) > D(X,B)
RECONOCIMIENTO DE
PATRONES
Distancias: Como escalar apropiadamente?
RECONOCIMIENTO DE
PATRONES
Densidades: Estimación
Cual es la probabilidad de Cual es la probabilidad de

encontrar un objeto de la clase A encontrar un objeto de la clase A
(B) en este espacio en 2D (B) en este espacio en 1D
RECONOCIMIENTO DE
PATRONES
• La densidad esta definida en todo el espacio de características.

• Alrededor de un objeto x la densidad se define como:
dP( x) porción de objetos

p( x)  
dx volumen
• Dados un numero n de objetos medidos, como podemos estimar la
p(x)?
RECONOCIMIENTO DE
PATRONES
Estimación parametrica
• Se asume un modelo parametrizado
• Se estiman los parámetros de la información (media, varianza, etc)
• El resultado es una densidad de la forma asumida.
Estimación no parametrica
• No se asume un modelo/estructura forma, se escoge el
acercamiento. (approach)
• Se estima la densidad con este acercamiento.
• El resultado de la densidad no tiene forma formal.
RECONOCIMIENTO DE
PATRONES
Densidades: Estimación parametrica vs no parametrica
La Estimación parametrica esta basada en algún modelo:

• Se deben calcular los parámetros
• Se requieren mas muestras que parámetros
• Asumir un modelo equivocado puede llevarnos a conclusiones incorrectas.
La Estimación no paramétrica se sostiene directamente de la información:

• No se asume ninguna estructura/modelo formal
• Casi ningún parámetro a estimar
• Estimaciones erróneas son menos probables.
RECONOCIMIENTO DE
PATRONES
CLASIFICADORES
RECONOCIMIENTO DE
PATRONES
Algunos formalismos
• Los objetos son observados por sensores  representación numérica
• Los números codifican información de los objetos ej: sus características (parciales,
individuales o combinadas) o grados de similaridad.
• Por lo general obtenemos características de medidas como perímetro, pero, etc. o de
mediciones procesadas como respuesta a un filtro en imágenes, curvatura, etc.
• Las características son dimensiones en un espacio vectorial X de características
(Euclideano) , los objetos son descritos como un vector de características k-dimensional.
x  [ x1 , x2 ,..., xk ]T
• Dados objetos de entrenamiento y sus etiquetas: podemos obtener de Y una función que
me discrimine entre clases S(x)=0
• El clasificador es una función F:XY
RECONOCIMIENTO DE
PATRONES
El problema de la clasificación
Clasificación: Aprender una regla de decisión a partir del conjunto de

entrenamiento que asigna a un objeto x una de las k-clases.
• K clases: j , j  1,..., k etiquetados poryi (mas una clase adicional de rechazo.)
• Conjunto de entrenamiento:xi , yi , i  1,..., nen X  R k es un vector k-dimensional
representando el i-esimo objeto etiquetado por yi
• Regla de decisión: Divide el espacio vectorial en k regiones no necesariamente
compactas correspondientes a las K clases
R j , j  1,..., K j
• Fronteras de decisión: Son las fronteras entre las regiones
• Solapamiento: Sí existe el solapamiento, no hay generalmente un S(x) perfecto
Existen varias técnicas para encontrar una regla de decisión sub-optima
RECONOCIMIENTO DE
PATRONES
Principios de la clasificación
Clase A- Porque esta mas cercano a un objeto
clasificado como A
Clase B- Porque la densidad local de la clase B
es mayor.
Clase A- Como esta en el lado es la opción con
menos error de clasificación
Como clasificar este objeto La tarea de clasificación esta mal planteada
Principios:
• Clasificadores Generativos: Se enfoca en cada clase separadamente, modela las
densidades condicionales de clase (máxima verosimilitud) y las razones de la
discriminación
• Clasificadores Discriminativos: Se enfoca en la discriminación directamente, modela
la función de decisión (o probabilidades a posteriori)
RECONOCIMIENTO DE
PATRONES
Teoría de decisión estadística (principios)
Si no hay información no hay medidas, Se asigna un objeto x a  j
basado enp (probabilidades a priori

 j )  p (k ) Para todo k diferente de j k  1,..., K
Dada la información representada en un vector x de objetos, se

asigna x a  j basado en la máxima probabilidad a posteriori.
p ( j | x)  p(k | x) Para todo k diferente de j k  1,..., K
Teorema de Bayes:
p ( x |  j ) p ( j )
p ( j | x) 
p ( x)
K
p( x)   p( x | k ) p(k )
k 1
RECONOCIMIENTO DE
PATRONES
Regla de decisión Bayesiana
Asumimos 2 clases, A and B:

p( A | x)  p( B | x)  x  A, de lo contrario x  B
Bayes: p( x | A) p ( A) p ( x | B ) p ( B)
  x  A de lo contrario, x  B
p ( x) p( x)
p ( x | A) p( A)  p ( x | B) p ( B)  x  A de lo contrario, x  B
S ( x)  p( A) p( x | A)  p( B) p( x | B)
Para un problema de 2 clases:

S ( x)  p( A) p( x | A)  p ( B) p( x | B)  0  x  A de lo contrario, x  B
RECONOCIMIENTO DE
PATRONES
Análisis discriminante
Discriminante cuadrático = regla de decisión Bayesiana para distribuciones
normales
Regla de decisión Bayesiana S ( x)  p( A) p( x | A)  p( B) p( x | B)  0
p ( A) p ( x | A)  p ( B) p ( x | B)
log  p( A) p ( x | A)   log  p ( B ) p( x | B ) 
R(x) tiene el mismo signo R ( x)  log  p ( A) p ( x | A)   log  p( B) p( x | B) 
que S(x)  p ( A) 
R( x)  log( p( x | A))  log( p( x | B))  log  
 p( B) 
1  1 
exp    x   A   A1 ( x   A ) 
T
p ( x | A) 
Distribución normal 2 k det   A   2 
1
 x   A   A1 ( x   A )  log 2 k det   A 
T
log( p ( x | A))  
2
1
   ) 1 x
 
T T

R( x)   x    A1 ( x  
   B1 ( x  
  )  conts
Expresión Cuadrática 2
A A
2
B B
conts  log 
 p ( A)  1
 det 

B 
 

  log  
 p ( B)  2  det A 
 

RECONOCIMIENTO DE
PATRONES
Funciones cuadráticas discriminantes
1
  
 ) 1 x

T T
R( x)   
x  A1 ( x  
   B1 ( x  
  )  conts
Expresión Cuadrática 2
A A
2
B B
conts  log 
 p ( A)  1
 det
   
B
  log   
 p ( B)  2  det  
 A
QDC asume que las clases están distribuidas normalmente, si esto no se cumple se pueden
estimar fronteras de decisión equivocadas.
RECONOCIMIENTO DE
PATRONES
Regla de decisión bayesiana para distribuciones normales con
covarianzas iguales
1
  
 ) 1 x

T T
  A1 ( x     B1 ( x  
 )  conts
QDC R ( x)  
2
x A  A
2
B  B
Asumimos    A   B
 
T
   1 x  const
LDC R( x)   A B  Expresión lineal
1  T  1  1  T  1   p( A) 
const    A   A   B   B  log  p( B) 
2 2  
Para covarianzas desiguales usamos la aproximación:
  p ( A)  A  p ( B )  B
RECONOCIMIENTO DE
PATRONES
LDC (Resumen)
Para distribuciones Se usa la

normales con aproximación lineal
iguales matrices de para distribuciones
covarianzas es normales con
optimo un diferentes matrices
clasificador lineal de covarianzas
RECONOCIMIENTO DE
PATRONES
Clasificador de la media mas cercana (NMC)
Asumimos    A   B El
 I clasificador lineal se convierte en NMC
  
 
   
T T
NMC  
R ( x)     
x   A B
A B A B
2
 
T
LDC, FisherC  
R( x)   A

B
 1 x  const

RECONOCIMIENTO DE
PATRONES
Árbol de decisión
• Rápido
• Desempeño moderado
• A menudo simple de interpretar
• Puede manejar variables numéricas y variables categóricas
RECONOCIMIENTO DE
PATRONES
Vecino más cercano (1-NN Rule)
Asigna a un objeto nuevo a la clase del vecino mas cercano del
conjunto de entrenamiento.
1-NN Rule
• Basado en distancia
Euclideana, puede ser usadas
otras distancias
• Insensible a probabilidades a
priori
• Sensible al escalamiento, se
debe escalar apropiadamente
Cuando no hay errores en el conjunto de entrenamiento el
clasificador esta sobre entrenado
RECONOCIMIENTO DE
PATRONES
Ejemplos de 1-NN Rule
PROs CONs
• Simple. • Largo tiempo de ejecución
• Funciona para clases • Toda la información debe
separables casi estar guardada.
completamente
• Util para formar funciones
de decisión no lineales.
RECONOCIMIENTO DE
PATRONES
K-Vecinos más cercanos (k-NN Rule)
Se le asigna al nuevo objeto la clase que esta representada mas
frecuentemente entre los k-vecinos mas cercanos en el conjunto de
entrenamiento de n objetos.
Un valor recomendado para k es hacerlo

k=sqrt(n)
RECONOCIMIENTO DE
PATRONES
Resumen del acercamiento estadístico a la clasificación
• Los objetos son vectores en un espacio Euclideano. Las clases son
un grupo de vectores.
• Clasificación: Es encontrar una función de decisión que me
discrimine entre las clases.
• La regla de decisión Bayesiana es la base de la clasificación
probabilística.
• Hay 2 grandes acercamientos:
Generativos: Estima las densidades condicionales de clase via
estimaciones paramétricas y no paramétricas .
Discriminativos: Estima la probabilidad a posteriori o determina
una función de decisión directamente.
• Sabemos como construir un clasificador, la evaluación es crucial
para saber cual de todos es el mejor
RECONOCIMIENTO DE
PATRONES
EVALUACIÓN
• Como estimar el desempeño de un clasificador.

• Curvas de aprendizaje.
• Curvas de características.
• Curvas de rechazo.
RECONOCIMIENTO DE
PATRONES
El error de clasificación aparente
El error aparente del conjunto de
entrenamiento esta sesgado
positivamente. (Optimista)
Se necesita un conjunto de prueba independiente

RECONOCIMIENTO DE
PATRONES
Conjunto de entrenamiento y conjunto de prueba
• El conjunto de entrenamiento debe ser grande para buenos clasificadores.
• El conjunto de prueba debe ser grande para obtener una estimación del error no
sesgada y confiable.
• En la practica solo contamos con un solo conjunto de diseño.
El mismo conjunto de Un conjunto de prueba

entrenamiento y pequeño e independiente nos
prueba nos da una da una estimación del error
no sesgada pero poco fiable
estimación del error para un clasificador muy bien
sesgada optimista entrenado
Un conjunto de prueba Un 50-50 es usado

grande nos produce una comúnmente como una
estimación del error sin sesgo solución estándar para este
pero poco confiable de un tipo de problemas. Es
clasificador muy mal realmente bueno?
entrenado Hay mejores alternativas.
RECONOCIMIENTO DE
PATRONES
Validación cruzada
• El tamaño del conjunto de prueba es 1/n del conjunto de diseño.

• El tamaño del conjunto de entrenamiento es (n-1)/n del conjunto de diseño.
• Se entrena y prueba n veces, se promedian los errores una opción es n=10.
• Todos los objetos son probados una vez  el resultado de la prueba es el
mas confiable posible.
• Clasificador final: entrenado por todos los objetos es el mejor clasificador
posible.
• La estimación del error es ligeramente sesgada pesimista..
RECONOCIMIENTO DE
PATRONES
Leave-one-out
• Es una validación cruzada donde n es el numero de objetos.

• Un objeto es probado a la vez
• n clasificadores para ser calculados
• Generalmente inviable para n muy grande
• Realizable para k-NN, no necesita entrenamiento
RECONOCIMIENTO DE
PATRONES
Curvas de aprendizaje esperadas para la estimación de errores
RECONOCIMIENTO DE
PATRONES
Fenómeno del pico, sobre-entrenamiento, maldición de la
dimensionalidad, paradoja de Rao
RECONOCIMIENTO DE
PATRONES
Ejemplos de sobre-entrenamiento para un clasificador polinomial
RECONOCIMIENTO DE
PATRONES
Conclusiones sobre estimaciones de error
• Conjuntos de entrenamiento grandes producen mejores clasificadores.

• Se necesitan conjuntos de prueba independientes para obtener estimaciones de
error no sesgadas.
• Conjuntos de prueba grandes producen estimaciones de error mas precisas.
• leave-one-out parece ser un compromiso óptimo pero inviable
computacionalmente.
• 10 “folds” para la validación cruzada parece ser una buena practica.
• Clasificadores complejos necesitan conjuntos de entrenamiento mas grandes para
evitar el sobre entrenamiento.
• Muchas características pueden producir la maldición de la dimensionalidad.
• Para conjuntos de entrenamiento pequeños se necesitan clasificadores mas
simples o conjuntos de características mas pequeños.
RECONOCIMIENTO DE
PATRONES
Medidas de error y desempeño
• Error: Es la probabilidad de clasificar mal a un objeto

• Desempeño: 1-error
• Sensibilidad de una clase objetivo: Desempeño para los objetos de esa clase
objetivo
• Especificidad: Desempeño para todos los objetos afuera de la clase objetivo
• Precisión de la clase objetivo: Fracción de objetos corectos entre los objetos
asignados a esa clase.

Reconocimiento de Patrones

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Reconocimiento de Patrones

Cargado por

Copyright:

Formatos disponibles

Universidad Nacional de Colombia sede Manizales

Thomas J. Ramírez Rozo

a) A que clase pertenece cada imagen

La estadística es necesaria para resolver el problema del solapamiento de las

Cual es la probabilidad de Cual es la probabilidad de

• La densidad esta definida en todo el espacio de características.

dP( x) porción de objetos

La Estimación parametrica esta basada en algún modelo:

La Estimación no paramétrica se sostiene directamente de la información:

Clasificación: Aprender una regla de decisión a partir del conjunto de

basado enp (probabilidades a priori

Dada la información representada en un vector x de objetos, se

Asumimos 2 clases, A and B:

Para un problema de 2 clases:

Para covarianzas desiguales usamos la aproximación:

Para distribuciones Se usa la

Un valor recomendado para k es hacerlo

• Como estimar el desempeño de un clasificador.

Se necesita un conjunto de prueba independiente

El mismo conjunto de Un conjunto de prueba

Un conjunto de prueba Un 50-50 es usado

• El tamaño del conjunto de prueba es 1/n del conjunto de diseño.

• Es una validación cruzada donde n es el numero de objetos.

• Conjuntos de entrenamiento grandes producen mejores clasificadores.

• Error: Es la probabilidad de clasificar mal a un objeto

También podría gustarte