Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Vision Por Comput Ad or
Vision Por Comput Ad or
CAPTULO 1
1.1.
CAPTULO 2
2.1.
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
ndice
CAPTULO 3
3.1.
FILTRADO ESPACIAL........................................................................... 81
3.4.1
3.4.2
3.4.3
3.4.4
3.5.
Transformada de Fourier.......................................................... 90
Filtrado frecuencial ................................................................ 105
Teorema de convolucin ......................................................... 109
Otros operadores en el dominio de la frecuencia.................. 110
OPERACIONES MORFOLGICAS ........................................................ 110
CAPTULO 4
4.1.
SEGMENTACIN............................................................. 125
ndice
4.4.
4.4.1
4.4.2
4.4.3
4.4.4
4.5.
CAPTULO 5
5.1.
5.3.1
5.3.2
5.3.3
5.3.4
5.4.
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
ndice
CAPTULO 6
6.1.
6.1.1
6.1.2
6.1.3
6.1.4
6.2.
A.5.1
A.5.2
A.5.3
A.5.4
A.6.
A.7.
ANEXO B
B.1
B.2
B.3
ndice
-v 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
ndice
- vi 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 1
Introduccin a la
Visin Artificial
1.1.2 Definiciones
Aunque las ondas luminosas constituyen una parte muy pequea del conjunto de
ondas electromagnticas, son especialmente interesantes porque tienen la
particularidad de que son captadas por los ojos y procesadas en el cerebro. El ojo
humano es capaz de distinguir radiaciones de longitudes de onda comprendidas
entre 400 y 700 nanmetros (1 nanmetro = 10-9 metros).
Nuestro sistema sensorial visual interpreta las diferentes amplitudes y
longitudes de onda de la luz, produciendo las sensaciones que conocemos como
brillo y color respectivamente. As por ejemplo, una onda electromagntica que
viaja por el vaco con una longitud de onda predominante de 680 nanmetros se
interpreta en el cerebro como la sensacin del color rojo.
400
480
Ultravioleta Azul
520
572
Verde
602
Amarillo
700 (nm)
Rojo
InfraRojo
Figura 1.- La parte de la radiacin electromagntica que constituyen las ondas luminosas
abarca desde el fin del ultravioleta 400 nm hasta el comienzo del infrarrojo 700 nm.
-3 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
680 nm
Figura 2.- Diagrama espectral ideal de una luz roja.
Potencia (w)
520 nm
(a)
(b)
Figura 3.- Diagramas espectral de una luz (a) con predominio de verde y de una luz (b)
blanca.
Flujo radiante
El flujo radiante es la cantidad de energa emitida por una fuente de ondas
electromagnticas por unidad de tiempo y se mide en vatios (ver Figura 4).
-4 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Potencia elctrica
Prdida por
conduccin
(calor)
Flujo radiante
Flujo Luminoso
radiacin
visible
Flujo no luminoso
(radiacin no visible)
Figura 4.- De la energa usada para producir luz, el humano slo percibe una pequea parte
que se denomina flujo luminoso.
Flujo luminoso
El flujo luminoso es la parte del flujo radiante detectada por el ojo (ver Figura 4).
La unidad de flujo luminoso es el lumen (L). Un lumen corresponde al flujo
luminoso procedente de una abertura de 1/60 cm2 en un cilindro de material
refractario que contiene un material patrn que radia a travs de un cono de
radiacin de un estereorradin. El flujo luminoso se puede medir con un fotmetro
y se representa con el smbolo .
Mediante experimentacin se ha definido la curva de la Figura 5, que
permite obtener, en lmenes, el flujo luminoso correspondiente a una luz
monocromtica de cualquier longitud de onda que tenga un flujo radiante igual a
un vatio. De este diagrama se deduce, por ejemplo, que una luz monocromtica de
1 vatio de potencia, de 600 nm produce una sensacin de luminosidad en el ojo
humano igual a 420 lmenes. Adems, en l se aprecia que el mayor rendimiento
de flujo luminoso se obtiene para las longitudes de onda correspondientes a los
tonos verdes.
-5 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
800
700
600
500
400
300
200
100
0
360
440
520
600
680
Esta curva, que llamaremos V(), permite definir la relacin (1.1). sta
permite calcular el flujo luminoso de una radiacin cuando se conoce su
distribucin espectral P().
= P( ) V ( ) d
0
(L)
(1.1)
Ejemplo 1.El flujo luminoso, en lmenes, de una energa radiante de 27 vatios de una fuente
luminosa monocromtica con una longitud de onda de entre 600 nm y 601 nm se
puede calcular usando el diagrama de la Figura 5. Sobre ste se ve que una luz
monocromtica de 600 nm produce un flujo luminoso de aproximadamente 420
L/w, por tanto si la potencia es de 27 w:
-6 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
I=
d
(b)
d
(1.2)
Luminancia o brillo
La luminancia o brillo de un manantial es la intensidad luminosa por unidad de
superficie. As, por ejemplo, si una noche, sobre una ventana parcelamos regiones
de reas iguales, y medimos el brillo para una estrella y el brillo para una lmpara
cercana, encontraremos que es mayor para esta ltima, pues la intensidad luminosa
por unidad de superficie ser mayor. Sin embargo, la intensidad luminosa de esa
estrella ser mucho mayor que la intensidad luminosa de cualquier objeto de
nuestro entorno (como una lmpara), pues ya se ha dicho que la intensidad
luminosa no depende de la distancia.
La sensibilidad a la intensidad.
La inhibicin lateral.
Bastn
Retina
Cono
Crnea
Disco ptico
Fotorreceptores
Humor Vitero
Pupila
Cristalino
Ncleo
Iris
Nervio ptico
Conexiones
sinpticas
Figura 7.- A la izquierda una seccin del ojo humano. A la derecha una visin esquemtica
de las clulas fotorreceptoras.
a1
a2
Intensidad
percibida
b
B
a2
Intensidad real
Figura 8.- La lnea A representa la relacin entre el brillo distinguido por el ojo humano y
el nivel de brillo real.
-9 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Figura 9.- El color gris del cuadrado interior de la figura de la derecha parece ms oscuro
que el cuadrado interior de la figura de la izquierda, a pesar de que ambos estn tintados
con el mismo gris.
Inhibicin lateral
El otro fenmeno que se indicaba, la inhibicin lateral, se origina en el hecho de
que las clulas de la retina, al detectar un nivel de intensidad, inhiben las clulas
vecinas, produciendo perturbaciones en las fronteras de cambio de intensidad. Este
fenmeno, que puede apreciarse en la Figura 10, tambin influye en que el brillo
percibido no est en proporcin directa con el brillo fsico.
Figura 10.- La tonalidad de cada una de las franjas verticales de la figura de la izquierda es
uniforme. Sin embargo, al observarlas, parece que son ms oscuras por la derecha y ms
claras por la izquierda. El brillo percibido para cada banda se refleja en el diagrama de la
derecha.
- 10 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
- 11 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Potencia (w)
680 nm
(b)
(a)
Figura 11.- La figura de la izquierda no tiene una longitud de onda dominante, su matiz es
blanco. La figura de la derecha corresponde a un objeto rojo, siendo la longitud de onda
dominante la correspondiente a 680 nm.
Saturacin
Mide la proporcin entre la longitud de onda dominante y el resto de longitudes de
onda. En la Figura 12 se presenta un ejemplo de dos diagramas espectrales con el
mismo matiz, pero con diferente saturacin.
- 12 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Potencia (w)
680 nm
(a)
680 nm
(b)
Figura 12.- Dos espectros con el mismo matiz. El de la izquierda corresponde a un rojo
muy saturado. El de la derecha a una luz roja poco saturada.
Las tres luces eran radiaciones monocromticas, la verde tena una longitud de onda de
546.1 nm, la azul de 435.8 nm, y la roja de 700 nm. Tanto la verde como la azul fueron
elegidas por ser fcilmente producidas por una lmpara de descarga de mercurio, mientras
que la roja se eligi por corresponder al valor ms alto de respuesta medido en el humano
para el rojo.
2
La mezcla aditiva puede realizarse en la realidad sin ms que mezclar la luz de las
linternas. La combinacin lineal debe permitir la resta de luces, cosa que no es posible
fsicamente.
- 14 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
x=
A
B
C
, y=
, z=
A+ B +C
A+ B+C
A+ B+C
2,5
c
Lumenes
2
1,5
a
b
1
0,5
0
360
440
520
600
680
760
Figura 13.- Curvas fijadas por la C.I.I., mediante experimentacin con personas. Reflejan
el nmero de lmenes percibidos para cada una de las tres linternas monocromticas (a , b y
c) usados al igualar un vatio de flujo radiante de cada longitud de onda del espectro.
- 15 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Cyanes
Rojos
Magentas
Azules
(a)
(b)
Este diagrama con forma de lengua representa los colores que en media
puede ver un humano. Los colores del borde curvo se corresponden con los del
espectro, mientras que los del borde recto no pueden obtenerse mediante luces
monocromticas.
El diagrama cromtico C.I.I cumple que tomando dos puntos P1 y P2
interiores a l, la gama de colores que se obtiene mezclando de manera aditiva la
luz de dos linternas con esos colores, se corresponde con los colores existentes
entre esos dos puntos en el diagrama. Sin embargo se debe sealar que las
proporciones de intensidad necesarias para obtener los colores intermedios entre P1
y P2 no varan de manera lineal.
Se observa que hay colores que se pueden obtener por mezcla aditiva de
otros. Estos colores, que en la teora aditiva se denominan primarios, se
corresponden con los matices de rojo, verde y azul. Los colores intermedios entre
el rojo, el verde y el azul son el cyan, el magenta y el amarillo, y se llaman
secundarios en la teora aditiva.
- 16 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Figura 15.- A la izquierda mezcla aditiva de la luz tres linternas sobre una superficie blanca
no iluminada. A la derecha mezcla substractiva de tres tintes sobre un lienzo blanco.
Pigmentos
Cuando la luz choca con una superficie pigmentada no se produce una reflexin
especular. Al contrario, la luz penetra en el pigmento y sufre numerosos choques
3
Hue-Saturation-Value en ingls.
- 17 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
- 18 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
r
c
g = 1 m
b
y
(1.2)
Figura 16.- La imagen plana (2D) de la derecha puede presentarse como una superficie. En
ella la coordenada z para el punto (x, y) corresponde al brillo que tiene en la imagen plana.
Escenas 3D
Otra forma de representar la realidad consiste en asignar a cada punto del espacio
que pertenece a un objeto (x, y, z) una propiedad del punto (su existencia, su
intensidad, su matiz, etctera.). Al trabajar con imgenes 3D, como se tiene la
forma de los objetos, la informacin de brillo y color puede no ser tan relevante.
Secuencias animadas
Un punto con un brillo suficiente que parpadee con una frecuencia superior a 25
pulsos por segundo ser percibido como un punto brillante fijo por nuestros
sentidos. ste efecto es el usado en cine y televisin para crear la ilusin del
movimiento. As, cuando una cmara cinematogrfica toma sucesiones de
imgenes estticas que se capturan a una frecuencia determinada, si estas
sucesiones de imgenes se presentan luego a una frecuencia superior a 25
imgenes por segundo, el sistema visual humano no es capaz de distinguir el
cambio e interpreta movimiento.
- 20 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
- 21 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captura
Preproceso
Segmentacin
Reconocimiento
Figura 17.- Diagrama de bloques de las etapas tpicas en un sistema de visin artificial.
- 23 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 2
Adquisicin y
representacin de
imgenes digitales
- 25 2002 y 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Todo haz de luz que pasa por el centro ptico de una lente fina contina en
lnea recta (Figura 18 a).
Lente
Lente
Rayos de Luz
P lano de
formacin de la
Image n
Distancia Focal
Fo co
C
Eje ptico
Punto de fo rmacin
de la imagen
E je axial de la lente
C = Centro ptico de la lente
(a)
(b)
Figura 18.- Trayectoria seguida por la luz al atravesar una lente fina. (a) los haces paralelos
que inciden perpendiculares al eje de la lente se cortan en el foco. En (b) los haces
provenientes de un mismo punto objeto se cortan en el punto de formacin de la imagen.
1
1
1
=
Si S0
f
(2.1)
- 29 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
2.1.2 La digitalizacin
Es el proceso de paso del mundo continuo (o analgico) al mundo discreto (o
digital). En la digitalizacin normalmente se distinguen dos procesos: el muestreo
(sampling) y la cuantizacin (quantization).
Muestreo
El muestreo de una seal continua consiste en la medicin a intervalos
(discretizacin) respecto de alguna variable (generalmente el tiempo o el espacio),
siendo su parmetro fundamental la frecuencia de muestreo, que representa el
nmero de veces que se mide un valor analgico por unidad de cambio.
Mediante el muestreo se convierte una imagen IC, que es algo continuo, en
una matriz discreta ID de NM pxeles. El nmero de muestras por unidad de
espacio sobre el objeto original conduce al concepto de resolucin espacial de la
imagen. sta se define como la distancia, sobre el objeto original, entre dos pxeles
adyacentes. Sin embargo la unidad de medida de resolucin espacial ms habitual
suele ser los pxeles por pulgada (comnmente DPIs9) siempre medidos sobre el
objeto original.
- 30 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
I D (0,1)
...
I D (0, M 1)
I D (0,0)
I D (1,1)
...
I D (1, M 1)
I D (1,0)
ID(x, y) =
...
...
Cuantizacin
La segunda operacin es la cuantizacin de la seal, que consiste en la
discretizacin de los posibles valores de cada pxel. Los niveles de cuantizacin
suelen ser potencias de 2 para facilitar el almacenamiento en el computador de las
imgenes, ya que stos utilizan el byte10 como unidad mnima de memoria
directamente direccionable. As, suelen usarse 2, 4, 16 256 niveles posibles. De
esta forma, ID que pertenece a se convierte en IDC (discreta cuantizada) que
pertenece a N. El nmero de niveles posibles define la resolucin radiomtrica.
IDC (x, y) N
10
Un byte est compuesto de 8 bits. Un bit es la unidad mnima de informacin en un
computador y puede tomar valores 0 y 1, lo que permite al byte representar 256 nmeros.
- 31 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Bitonal
(N/8) x M bytes
N
M
256 colores
N x M bytes
N
M
3 x N x M bytes
Color real
- 32 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
11
La imagen de Lena es una imagen clsica dentro del mundo del procesado digital de
imgenes. Es una imagen de una chica, aparecida en la publicacin Play Boy en 1972,
- 33 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
16 Niveles de intensidad
160 x 160 pxeles
8 Niveles de intensidad
160 x 160 pxeles
2 Niveles de intensidad
160 x 160 pxeles
Figura 20.- En la fila superior se presenta la misma imagen, siempre a 256 niveles de
intensidad, usando diferentes resoluciones espaciales. En la fila inferior se mantiene la
resolucin espacial y se reduce el nivel de cuantizacin.
- 34 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
(b)
)
(c)
(a)
Figura 21.- Efecto de la reduccin de resolucin sobre una imagen. La imagen (a)
corresponde a un texto y se ha tomado con un escner bitonal; en (b) la misma imagen tras
reducir su resolucin en un 50% respecto de la original conservando uno de cada cuatro
pxeles; en (c) la misma imagen tras reducir su resolucin en un 50% interpolando.
- 36 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Software de generacin
de imgenes sinteticas
Analgicas
Cmaras de Video
Cmaras Fotogrficas
Digitles (CCD)
Convencionales
Procesado Qumico
Disco duro
porttil
Tarjeta de
memoria
Papel
Transparencia
Conversor Analgico
Digital
Escaner plano
Negativo
Diapositiva
Escner de tambor,
esner plano de
pelcula y FotoCD
Ordenador
Obturador
Pelcula
Diafragma
Figura 23.- Esquema de una cmara analgica de fotografa. La cmara presenta un visor
directo, un objetivo de focal fija y un diafragma formado por unas lminas superpuestas
mviles que permiten regular la cantidad de luz que entra en la misma.
- 38 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
12
Se llama grano a cada partcula de haluro de plata. Este compuesto, utilizado en las
pelculas fotogrficas, es una sustancia reactiva a la luz que incide sobre ella. Cuanto mayor
es el grano, mayor sensibilidad a la intensidad se consigue, pero menor definicin y detalle
tiene la imagen debido a la menor densidad de granos.
- 39 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Segundos
Conversor A/D
Fotodiodos
Filtros
Amplificador
13
- 42 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
14
Del ingls voxel que juega con la abreviatura de volume element y con el parecido a la
palabra pxel.
- 44 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
15
Existen tambin ficheros vectoriales. Bsicamente estos ficheros almacenan pares de
coordenadas con los puntos que componen las figuras geomtricas de las figuras que
- 45 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Ejemplo 4.Un formato de fichero muy sencillo para imgenes en niveles de gris podra
constar de:
- 46 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
CR =
n1
n2
RD = 1
1
CR
RD = 0
Si n1 >> n2 CR RD 1
Si n1 << n2 CR 0 RD -
Redundancia en la codificacin
Redundancia visual
- 47 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Cdigo
Probabilidad
de aparicin
000
001
010
011
100
101
110
111
0'02
0
0'06
0'05
0
0'08
0'11
0'19
0'19
0'16
0,4
0'21
0'35
0
0,75
0,25
- 49 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Cdigo original
Probabilidad de
aparicin
Cdigo de tamao
variable
000
001
010
011
100
101
110
111
019
025
021
016
008
006
003
002
11
101
1000
1000
1001
Con el cdigo de tamao variable se tiene que para cada pxel, en media,
se usan:
3x(019)+1x(025)+3x(021)+3x(016)+4x(008) +5x(006)+5x(003)+5x(002) =
=28 bits
As, para representar la imagen se necesitaran:
50x50x28 = 7000 bits
Obteniendo unos valores para CR y RD:
CR =
7500
= 1'071428571
7000
RD = 1
)
1
= 0'06
1,071428571
10
15
20
25
30
35
40
45
50
16
- 51 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Sin compresin, usando un byte por cada 8 pxeles, los datos de la imagen
son:
000, 001, 240, 003, 255, 253, 000
->
tamao = 7 bytes
->
tamao = 7 bytes
->
tamao = 5
0, 25, 5, 20
->
tamao = 4
CR =
)
(7 + 7) 14
=
= 1'5
(5 + 4) 9
RD = 1
1
0'35
14
9
- 53 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
(a)
(b)
(c)
(d)
Figura 30.- Efecto de la compresin JPEG, donde se aprecian los artefactos que introduce
la compresin con prdida. (a) imagen de Lena sin comprimir ocupa 30Kb; (b)
comprimiendo con el algoritmo JPEG el tamao se reduce a 3Kb. (c) detalle del sombrero
sin comprimir; (d) detalle del sombrero tras comprimir.
k 2
2 M
i =0 j =0
(2.2)
I (i , j ) =
1 N 1 M 1
k1
k 2
C k1 C k2 B (k1 , k 2 ) cos
( 2i + 1) cos
(2 j + 1)
4 k2 =0 k0 =0
2 N
2 M
(2.3)
Siendo C k =
1
2
CR =
(8 8) 64
=
=4
(16)
16
RD = 1
1
= 0.75
4
- 55 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Color Real
Paleta
Grises
Bitonal
Compresin
Origen
Multi-Imagen
Bitmap
SI
SI
SI
SI
Run-Length
Windows
NO
TIFF
SI
SI
SI
SI
Estndar
SI
JFIF
SI
NO
SI
NO
JPEG
Estndar
NO
JPG2000
SI
NO
SI
NO
JPEG 2000
Estndar
NO
PCX
NO
SI
NO
NO
Propia
Windows
NO
PGM
NO
NO
SI
NO
NO
Unix
NO
GIF
NO
SI
SI
SI
LZW
Estndar
SI
- 57 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
B A B
A p A
B A B
Figura 31.- Los 4-vecinos de p son los puntos A. Los 8-vecinos de p son los puntos A y B.
Conectividad
Se ha visto que una imagen se asimila a una matriz cada uno de cuyos elementos es
un pxel. Entre los pxeles de esta matriz se puede definir una relacin que define
dos pxeles como conectados cuando son vecinos y sus valores son similares desde
algn punto de vista. Formalmente, se define un conjunto V que representa los
valores compatibles para que dos pxeles que sean vecinos se diga que estn
conectados:
V = {Valores de los pxeles que definen conectividad}
Se dice que dos pxeles p y q con valores en V estn 4-conectados si q
pertenece a N4(p).
Se dice que dos pxeles p y q con valores en V estn 8-conectados si q
pertenece a N8(p).
El uso de la 8 conectividad puede dar lugar a ciertas ambigedades en
ciertos anlisis de conectividad. Para eliminar esta ambigedad se define la mconectividad. Se dice que dos pxeles p y q con valores en V estn m-conectados si
[q N4(p)] [q N8(p) y x / x (N4(q) N4(p)) x no tiene valores en V]. Es
decir estn m-conectados si estn cuatro conectados o si estn 8 conectados y no
tienen ningn 4 vecino comn 4 conectado.
Para imgenes bitonales V puede ser el conjunto {1} o el conjunto {0}.
Para imgenes en niveles de gris, con 256 niveles, V puede tener diferentes
configuraciones segn el inters est en unos niveles o en otros (por ejemplo
V={0,1,....,127} para obtener los elementos oscuros, o V={0,1,....,64} para obtener
- 59 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
(a)
(b)
(c)
(d)
Figura 32.- Ejemplo de tipos de conectividad: (a) corresponde a una imagen en niveles de
gris. (b), (c) y (d) representan en negro los pxeles de (a) que estn dentro de un V
determinado y muestran la relacin de conexin entre ellos: (b) 4-conexin, (c) 8-conexin,
(d) m-conexin.
- 60 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
d ( p, q ) = ( x s ) 2 + ( y t ) 2
Siempre que slo sea importante desde un punto de vista comparativo, esto
es para comprar distancias, se puede prescindir del clculo de la raz cuadrada, lo
que redundar en una mayor velocidad de clculo.
Otra relacin de distancia usual es la distancia Manhattan o distancia del
taxista, que se define entre los mismos puntos p y q como:
d ( p, q ) = x s + y t
Tambin puede citarse la distancia del tablero de ajedrez o distancia
chessboard que se define como:
- 61 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
d ( p, q) = max( x s , y t )
Ntese que con la distancia Manhattan slo los vecinos 4 conexos de un
pxel estn a distancia unidad, mientras que con la distancia de tablero de ajedrez
todos los vecinos 8 conexos estn a la distancia unidad.
- 63 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3
Filtrado y Realzado de
Imagen
S
H
- 65 2002 y 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Conjuncin.- Operacin lgica AND entre los bits de dos imgenes. Se usa
para borrar pxeles en una imagen.
Negacin.- Inversin de los bits que forman una imagen. Se usa para
obtener el negativo de una imagen.
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Divisin.- Divisin de los valores de los pxeles de una imagen entre los de
otra.
-A
A and B
(A+B)/2
max(0,A-B)
A or B
x' 1 0 d x x
y' = 0 1 d y y
1 0 0 1 1
x' s x
y' = 0
1 0
sy
0
0 x
0 y
1 1
- 68 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
T ( x,y ) R( ) ( x, y ) =
1 0 x cos( ) sen( ) 0 1 0 x
= 0 1 y sen( ) cos( ) 0 0 1 y =
0 0 1 0
0
1 0 0 1
cos( ) sen( ) x(1 cos( )) + ysen( )
0
1
- 69 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
(-x,-y)
(a)
(b)
(c)
(x,y)
(d)
Figura 36.- Ejemplo de rotacin. (a) Imagen original que se desea rotar en torno al punto P
de coordenadas (x,y); (b) resultado de la primera traslacin; (c) resultado del giro; (d)
resultado final despus de la ltima traslacin.
200
puntos
0 (negro)
255 (blanco)
- 70 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
(b)
(a)
Figura 38.- (a) histograma de una imagen con poco contraste. (b) histograma de una
imagen saturada.
0.5
0.5
0.5
0
0
0.5
(a)
0
0
0.5
(b)
0.5
(c)
Figura 39.- De izquierda a derecha las funciones lineal, cuadrado y raz cuadrada.
- 73 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
0.5
0.5
0
0
0.5
(a)
0.5
(b)
(a)
(b)
(c)
Figura 41.- Transformaciones del histograma sobre la imagen de Lena: (a) imagen original
con su correspondiente histograma; (b) resultado de una operacin de disminucin de
contraste; (c) aumento de contraste.
- 75 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
- 76 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
PR
PS
a
a
0
r
0
PR ( )d = PS ( )d = d = s
(3.1)
PR (r ) =
nr
n
(3.2)
- 77 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
nj
jV
s(r ) =
(3.3)
Ejemplo 10.Para ecualizar la imagen de 3x4 de la Figura 43 (a), que posee 6 niveles de gris, se
debe en primer lugar normalizar los niveles de intensidad para que tomen valores
entre 0 y 1, obteniendo la imagen (b) y el histograma (c) de la Figura 43.
s(6) = 12/12 = 1
s(3) = 6/12 = 05
s(7) = 12/12 = 1
- 78 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Nivel original
Valor Ecualizado
Rango
Nivel Ecualizado
[0, 0125)
016
[0125, 025)
025
[025, 0375)
05
[0375, 05)
058
[05, 0625)
075
[0625, 075)
[075, 0875)
[0875, 1]
Tabla 4
- 79 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
(a)
(b)
- 80 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
0
1
Figura 45.- Ecualizado del histograma sobre la imagen de Lena: (a) imagen original con su
correspondiente histograma; (b) ecualizado del histograma.
f ( x ) h( x ) =
f ( x)h(u x)dx
- 81 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
1 N 1 N 1
I (i, j ) h( x i, y j )
N 2 i =0 j = 0
x, y = 0,1,..., N 1
I ' ( x, y ) = I ( x, y ) h ( x, y ) =
I ' ( x, y ) =
1 n n
I (i, j ) h( x i, y j)
D i =0 j =0
x, y = 0,1,..., N 1
- 82 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
h1
h = h4
h
7
h2
h5
h8
h3
h6
h9
Se aprecia que, para una matriz de convolucin de 3x3, el valor del pxel
I(x,y) tras el filtrado depende nicamente del valor del pxel I(x,y) y de sus ocho
vecinos antes del filtrado.
En la prctica se suele omitir el clculo para los pxeles del borde de la
imagen, por lo que la imagen convolucionada es ms pequea que la original.
Adems, para mantener el resultado de la operacin dentro de un rango
representable se suele aadir a la expresin anterior un factor de divisin y
despus un factor de suma.
- 83 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
1 1 1
1
h = 1 2 1
10
1 1 1
1 2 1
1
h = 2 4 2
16
1 2 1
17
- 84 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
1 1 1
1
1 1 1
9
1 1 1
Original
Suavizado
( I ( x, y )) =
I r
I r
ux + uy
x
y
Gx =
I
= I ( x, y ) * h1 ( x, y )
x
(3.11)
Gy =
I
= I ( x, y ) * h2 ( x, y )
y
(3.12)
- 85 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
z1
z4
z7
z2
z5
z8
z3
z6
z9
I
= z5 z 6
x
I
= z 5 z8
y
0 0 0
h1 = 0 1 1
0 0 0
0 0 0
h2 = 0 1 0
0 1 0
I G ( x, y ) = G x2 ( x, y ) + G y2 ( x, y )
Con el fin de reducir la carga computacional la expresin anterior puede
sustituirse por esta otra que produce un resultado similar:
I G ( x, y ) =
1
G x ( x, y ) + G y ( x, y )
2
- 86 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
I
= ( z1 + 2 z 4 + z 7 ) ( z 3 + 2 z 6 + z 9 )
x
I
= ( z1 + 2 z 2 + z3 ) ( z 7 + 2 z8 + z 9 )
y
Dando lugar a las matrices h1 y h2. a las que tambin se le debe aadir un
factor de divisin y uno de suma para evitar que se salga de rango el resultado.
1 0 1
h1 = 2 0 2
1 0 1
2
1
1
0
0
h2 = 0
1 2 1
Estas matrices se conocen como ventanas de Sobel, que fue quien las
propuso. Mediante ellas se calcula el gradiente en las direcciones horizontal y
vertical. En la Figura 47 se ve cmo el resultado de aplicar h1 sobre la imagen de
Lena produce una imagen en la que aparecen los contornos horizontales de la
figura de la imagen original. Ese resultado se obtiene utilizando un factor de
divisin de 4 y presentando el valor absoluto de la convolucin, utilizando niveles
de gris en escala desde 0 como blanco hasta 255 como negro.
Una alternativa muy comn al uso de valor absoluto para evitar los valores
fuera de rango consiste en el uso de un factor de suma que se aplica tras la
convolucin y la divisin. Por ejemplo, en el caso del filtro de Sobel un factor de
divisin de 8 y un factor de suma de 128 evitaran los valores fuera de rango.
- 87 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
1 0 1
2 0 2
1 0 1
Original
Sobel
1 0 0 1
y
Robert :
0 1 1 0
1 1 1 1 0 1
Prewitt : 0 0 0 y 1 0 1
1 1 1 1 0 1
( I ( x, y )) = (( I ( x, y ))) =
2I r 2I r
ux + 2 u y
x 2
y
z1
z4
z
7
z2
z5
z8
z3
z 6 y derivando se obtiene
z 9
- 88 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
z5' = z5 z6
y por tanto:
z4'' = z4' z5' = (z4 z5)-( z5 z6) = z4 2z5 + z6
Procediendo de igual forma en la direccin vertical se obtiene:
Z2 2z5 + z8
Sumando ambas ecuaciones y prescindiendo por tanto
direccionalidad se obtiene la matriz de convolucin de la figura adjunta.
de
la
0 1 0
1 4 1
0 1 0
Original
Laplaciana
Figura 48.- Laplaciana de la imagen de Lena. Para su presentacin a 255 niveles de gris se
ha usado un factor de divisin de 8 y un factor de suma de 128.
a0
+ a n cos(nx) + bm sen (mx)
2 n =1
m =1
an =
f ( x) cos(nx )dx
bm =
f ( x)sen (mx) dx
n = 0,1,2,...
m = 1,2,3...
En adelante se entender por coeficiente cada uno de los pares (ai, bi). As
el coeficiente ensimo define la amplitud de las series de cosenos y senos de
frecuencia ensima.
Se puede demostrar que una serie trigonomtrica definida en base a estos
coeficientes converge a la funcin f(x) que le da origen, salvo a lo sumo en un
nmero finito de puntos. As, una serie de Fourier puede verse como la suma de un
conjunto de funciones sinusoidales de diferentes frecuencias, promediada por unos
coeficientes, con el objetivo de aproximarse a una funcin f(x). Estos coeficientes
- 90 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
- 91 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Figura 49.- En esta figura se presenta el resultado del clculo de varios coeficientes de la
transformada de Fourier de una funcin (a). Las grficas (b), (c) y (d) presentan las seales
sinusoidales correspondientes a los 3 primeros coeficientes de Fourier. La figura (e)
corresponde a la suma de esas tres primeras seales sinusoidales. Por ltimo, (f)
corresponde a la suma de las 10 primeras componentes.
- 92 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
18
ei = cos() + i sen()
- 93 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
1
N
N 1
f (k ) e
2
kn
N
n = 0,1,..., N 1
(3.4)
k =0
F f ( x )e
j 2
n0 x
N
, n = F(f , n n0)
F(f(x-x0) , n) = F(f , n) e
2
n0 x
N
F f ( x)(1) x , n = F(f , n
F f (x
N
)
2
N
), n = F(f , n) (1) n
2
1
F(f , n/a)
a
f ( x) = f ( x + N )
F ( f , n) = F ( f , n + N )
F(f, n) = F ( f , n) 19
F ( f , n) e
2
kn
N
x = 0,1,..., N 1
n =0
19
El conjugado de un nmero complejo tiene igual parte real y la parte imaginaria cambiada
de signo, esto tambin puede interpretarse como mismo mdulo y fase cambiada de signo.
- 95 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
0.5
0.5
0.5
0
0
0.5
0
0
0.5
0.5
Figura 50.- De izquierda a derecha un filtro paso alto, un filtro paso bajo y un filtro paso
banda.
(a)
(b)
(c)
(d)
(e)
(f)
Figura 51.- (a) Seal que contiene ciertos datos, (b) ruido aleatorio, (c) datos ms ruido, (d)
representacin de los mdulos de los coeficientes de Fourier, (e) representacin de los
mdulos tras eliminar los de menor energa, (f) el resultado de la transformada inversa de
Fourier sobre los coeficientes modificados corresponde a la seal inicial sin ruido.
N 1
20
E = f (k )
k =0
- 97 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
21
1
N
N 1
f (k ) PRE(nk mod N )
n = 0,1,..., N 1
k =0
- 98 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
1
F(f,2n) =
N
N
1
2
n = 0,1,...,
k =0
N
1
2
(3.5)
donde:
SUM (k ) = f (k ) + f (k +
N
)
2
1
F(f,2n+1) =
N
N
1
2
n = 0,1,...,
k =0
N
1 (3.6)
2
donde:
DIF ( k ) = f ( k ) f ( k +
N
)
2
1
N
N 1 N 1
I ( x, y) e
2xn
N
2my
N
(3.7)
x = 0 y =0
n, m = 0,1,...N 1
Debe apreciarse que esta definicin slo resulta aplicable sobre imgenes
cuadradas.
En la Figura 52 se presenta las matrices correspondientes a los mdulos y
a las fases de los coeficientes de Fourier de la transformada de la imagen de Lena.
Los valores de estas matrices han sido ecualizados y han sido representados en
falso color para que se distingan con claridad.
- 100 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
(a)
(b)
(c)
Figura 52.- En esta figura se muestra una imagen de Lena (a) sobre la que se realiza una
transformada de Fourier, obtenindose (b) y (c), que corresponden respectivamente a la
representacin matricial de los mdulos y de las fases de los coeficientes de Fourier
normalizados entre 0 y 1 y en falso color.
N n=0 m=0
x, y = 0,1,...N 1
I (x , y) = F-1(IC , x , y) =
2xn
N
2my
N
- 101 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
50
255
1
( I (0,0)e 0 e 0 + I (0,1)e 0 e 0 + I (1,0)e 0 e 0 + I (1,1)e 0 e 0 ) =
2
1
405
= (100 + 255 + 50 + 0) =
2
2
1
I C (0,1) = ( I (0,0)e 0 e 0 + I (0,1)e 0 e i + I (1,0)e 0 e 0 + I (1,1)e 0 e i ) =
2
1
105
= (100 255 + 50 + 0) =
2
2
1
I C (1,0) = ( I (0,0)e 0 e 0 + I (0,1)e 0 e 0 + I (1,0)e i e 0 + I (1,1)e i e 0 ) =
2
1
305
= (100 + 255 50 + 0) =
2
2
1
I C (1,1) = ( I (0,0)e 0 e 0 + I (0,1)e 0 e i + I (1,0)e i e 0 + I (1,1)e i e i ) =
2
1
205
= (100 255 50 + 0) =
2
2
I C (0,0) =
- 102 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
152.5
-52.5
-102.5
1
( I C (0,0)e 0 e 0 + I C (0,1)e 0 e 0 + I C (1,0)e 0 e 0 + I C (1,1)e 0 e 0 ) =
2
1 405 105 + 305 205
400
= (
)=
= 100
2
2
4
1
I (0,1) = ( I C (0,0)e 0 e 0 + I C (0,1)e 0 e i + I C (1,0)e 0 e 0 + I C (1,1)e 0 e i ) =
2
1 405 + 105 + 305 + 205 1020
= (
)=
= 255
2
2
4
1
I (1,0) = ( I C (0,0)e 0 e 0 + I C (0,1)e 0 e 0 + I C (1,0)e i e 0 + I C (1,1)e i e 0 ) =
2
1 405 105 305 + 205
200
= (
)=
= 50
2
2
4
1
I (1,1) = ( I C (0,0)e 0 e 0 + I C (0,1)e 0 e i + I C (1,0)e i e 0 + I C (1,1)e i e i ) =
2
1 405 + 105 305 205
0
= (
)= =0
2
2
4
I (0,0) =
- 103 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
F f ( x , y )e
j 2
( n0 x + m 0 y )
N
, n, m = F(f , n n0 , m m0)
F f ( x, y )(1) x + y , n, m = F(f , n
F f (x
2
( n 0 x +m 0 y )
N
N
N
,m
)
2
2
(3.8)
N
N
, y ), n, m = F(f , n , m) (1) m + n
2
2
1
F(f , n/a , m/b)
ab
f ( x, y ) = f ( x + N , y ) = f ( x, y + N ) = f ( x + N , y + N )
F ( f , m, n) = F ( f , m + N , n) = F ( f , m, n + N ) = F ( f , m + N , n + N )
- 104 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
(3.9)
F ( f ( x, y ), m, n) =
1 N j
e
N x=0
2mx
N
2my
j
1 N
f ( x , y )e N
N y =0
(3.10)
22
El conjugado de un nmero complejo tiene igual parte real y la parte imaginaria cambiada
de signo, esto tambin puede interpretarse como mismo mdulo y fase cambiada de signo.
- 105 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Bajas Frecuencias
Altas frecuencias
N-1,N- 1
Figura 53.- Situacin de los valores correspondientes a las altas y a las bajas frecuencias
sobre la matriz de coeficientes de la transformada discreta de Fourier bidimensional.
- 106 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
(a)
(b)
(c)
Figura 54.- Modificacin sobre las matrices de coeficientes poniendo a cero el mdulo
correspondiente a las altas frecuencias (a), y manteniendo las fases (b). El resultado de la
transformada inversa sobre las matrices de coeficientes modificadas corresponde a la
imagen (c) donde se aprecia que los contornos han sido suavizados.
- 107 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
(a)
(b)
(c)
Figura 55.- Modificacin realizada sobre las matrices de coeficientes poniendo a cero el
mdulo correspondiente a las bajas frecuencias (a), y manteniendo las fases (b). El
resultado de la transformada inversa sobre las matrices de coeficientes modificadas
corresponde a la imagen (c) donde se aprecia slo la informacin de los contornos y el
ruido de alta frecuencia.
- 108 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Figura 56.- Arriba la imagen de Lena a la que se le aade un ruido con estructura que
consiste en la desaparicin de 1 de cada 3 lneas de la imagen. Abajo el resultado de un
filtrado paso banda ajustado a la zona del histograma de Fourier en el que aparecen las
frecuencias que corresponden al ruido.
(3.13)
- 109 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
- 111 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
a A y b B}
- 112 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
A B
B
Figura 57.- Ejemplo de dilatacin en el que se ha sealado con un punto negro el origen del
elemento B.
Erosin
Siendo A y B dos conjuntos en Z2, la erosin de A con B, denotada como AB, se
define:
AB = {x / x + b A
b B}
- 113 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
A B
Figura 58.- Ejemplo de erosin.
= {x /( B) x Ac } = Ac B
Apertura
La apertura de A con B se define como:
A B = (A B) B
Sus propiedades son:
A B es un subconjunto de A.
(A B) B = A B.
Si C es subconjunto de D C B es subconjunto de D B.
- 114 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
A B
A B
Figura 59.- Arriba se presenta la figura A y el elemento estructurante B. En medio se
presenta la ejecucin de la operacin de apertura y su resultado. Abajo se presenta la
operacin de cierre.
Cierre
El cierre de A con B se define como:
A B = (A B) B
Sus propiedades son:
A es un subconjunto de A B.
(A B) B = A B.
- 115 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Si C es subconjunto de D C B es subconjunto de D B.
A*B
- 116 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
A-(A B)
Relleno de agujeros
Este filtro precisa de un proceso iterativo que concluye cuando no se producen ms
cambios sobre la imagen. Se parte de X0 igual a un punto del agujero que se desea
rellenar. Luego se aplica de manera iterativa:
Xk = (Xk-1 B) Ac
- 117 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
- 118 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Inicial
tras B3
Tras B6,B7 y B8
B2
B3
B4
B5
tras B1
tras B4
tras B1
B6
B7
B8
tras B2
Tras B5
Tras B2,B3,B4,B5,B6,B7,B8 y B1
(a)
(b)
(c)
(d)
(a)
(b)
(c)
Figura 64.- Ejemplo de reconstruccin de un cdigo de barras degradado (a). Se utiliza una
operacin dilatacin con elemento estructurante vertical de 1x9 (c) y se obtiene (b).
- 121 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
(a)
(b)
Figura 65.- Ejemplo de eliminacin de ruido de la figura (a) mediante una erosin y una
dilatacin posterior con un elemento estructural de 3x3, resultando la figura (b).
- 122 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
- 123 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4
Segmentacin
Captulo 4 Segmentacin
pertenece. As, una vez segmentada una imagen, se podra formar una lista de
objetos consistentes en las agrupaciones de los pxeles que tengan la misma
etiqueta.
La segmentacin termina cuando los objetos extrados de la imagen se
corresponden unvocamente con las distintas regiones disjuntas a localizar en la
misma. En este caso se habla de segmentacin completa de la escena o imagen y
en el caso contrario, de segmentacin parcial. En una escena compleja, el
resultado de la segmentacin podra ser un conjunto de regiones homogneas
superpuestas y en este caso, la imagen parcialmente segmentada deber ser
sometida despus a un tratamiento posterior con el fin de conseguir una
segmentacin completa.
El proceso de segmentacin de una imagen depende del problema que se
desee resolver. Por ejemplo, sobre una imagen de una pgina de texto se pueden
segmentar las lneas de texto (si el objetivo es localizar la estructura de los
prrafos), o las palabras y los caracteres que las forman (si se desea hacer OCR23
de los mismos), o los logotipos y membretes (si se desea clasificar el documento),
etc. Por ello, dentro de una misma imagen pueden realizarse diferentes
segmentaciones.
En general, el proceso de la segmentacin suele resultar complejo debido,
por un lado, a que no se tiene una informacin adecuada de los objetos a extraer y,
por otro, a que en la escena a segmentar aparece normalmente ruido. Es por esto
que el uso de conocimiento sobre el tipo de imagen a segmentar o alguna otra
informacin de alto nivel puede resultar muy til para conseguir la segmentacin
de la imagen.
Algunos ejemplos tpicos de procesos de segmentacin son: tratar de
separar los caracteres que forman una palabra dentro de una imagen de un texto,
detectar ciertos tipos de clulas en imgenes mdicas, extraer los vehculos que
aparecen en una imagen de una carretera.
23
- 126 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
Los diferentes objetos que aparecen en una imagen pueden ser localizados
atendiendo a aspectos como: sus contornos o su textura. Cada una de las tcnicas
que se estudiarn en este captulo atienden a alguna de estas caractersticas, y para
su estudio han sido englobadas en tres grupos: tcnicas basadas en umbralizacin,
basadas en deteccin de los contornos de los objetos y tcnicas basadas en
propiedades locales de las regiones.
4.1.1 La textura
Intuitivamente la textura de un objeto dentro de una imagen es el conjunto de
formas que se aprecia sobre su superficie y que lo dota de cierto grado de
regularidad. Una definicin clsica de textura es la siguiente: uno o ms patrones
locales que se repiten de manera peridica.
Para el estudio y comparacin de algoritmos sobre imgenes que presentan
texturas suelen utilizarse como referencia las imgenes de Brodatz, conocidas
como lbum de Brodatz (P. Brodatz, "Textures: A Photographic Album for Artists
and Designers", Dover Publications, New York, 1966). Este lbum contiene 154
imgenes. La Figura 66 muestra algunas imgenes de este lbum.
Figura 66.- Diversas imgenes del lbum de Brodatz, utilizadas en el anlisis de texturas.
Existen dos enfoques para definir una textura: uno descendente (topdown) y otro ascendente (bottom-up). El enfoque descendente se basa en la
existencia de un elemento bsico de textura, llamado txel, y en una regla de
formacin. Esta regla define cmo y dnde se sitan estos elementos bsicos. Este
enfoque funciona bien cuando la textura es bastante regular, por ejemplo en la
- 127 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
imagen de una pared de ladrillos. Por otro lado, el enfoque ascendente se basa en
que la textura es una propiedad que se puede derivar de estadsticos (como la
media y la varianza) de pequeos grupos de pxeles. Este enfoque funciona bien
para texturas donde resulta difcil ver los componentes individuales, por ejemplo la
textura de la hierba o el cuarzo. No obstante, la lnea divisoria entre los dos
enfoques no es clara.
4.1.2 El contorno
El contorno de un objeto en una imagen digital corresponde al mnimo conjunto de
pxeles que separa ese objeto del fondo o background de la imagen. Normalmente
estos contornos se corresponden con los puntos donde se producen
discontinuidades en los valores de pxeles adyacentes (cambios en el matiz o el
brillo) o con los puntos donde cambia un patrn que se repite (cambios de textura).
- 128 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
1, si I (i, j ) U
B (i , j ) =
0, si I (i, j) < U
La eleccin de un valor de umbral correcto resulta decisiva para llevar a
cabo la segmentacin de una imagen de manera satisfactoria. La obtencin del
umbral suele basarse en el histograma de la imagen. Cuando en el histograma se
aprecian uno o ms lbulos, stos suelen corresponder con una o varias zonas de la
imagen, que comparten niveles de intensidad similares. Estos objetos pueden ser
directamente los objetos a segmentar o corresponder a partes homogneas de
objetos ms complejos. Lgicamente, la transicin de un lbulo a otro se
corresponde con un mnimo del histograma, correspondiendo estos mnimos a los
puntos que fijan el valor umbral. La bsqueda de dichos mnimos (basada por
ejemplo en el clculo de derivadas) se encuentra dificultada por la naturaleza
ruidosa del histograma. Para atenuar este problema puede aplicarse un filtro paso
bajo sobre el histograma de la imagen.
La Figura 67 ilustra el proceso descrito. En ella se distinguen una zona de
tierra y otra de mar en una foto de satlite (a). El histograma (b) presenta dos
lbulos que tras ser suavizados (c) usando un filtro espacial de paso bajo, muestra
un mnimo de separacin en el valor 42. Eligiendo dicho mnimo como umbral de
separacin entre tierra y mar, se obtiene el resultado de la figura (d).
El algoritmo siguiente resume los pasos descritos para realizar una
umbralizacin sobre el histograma h(p). En el algoritmo, los pxeles de la imagen
de niveles de gris I(x,y) estn representados por p(x,y), y toman valores entre 0 y
255.
- 129 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
(a)
(b)
(c)
(d)
Figura 67.- La eleccin adecuada del umbral de binarizacin permite separar la tierra del
mar en esta imagen de satlite, aunque la sombra de las nubes sobre la tierra y las nubes
sobre el mar producen ciertos errores. Sera preciso realizar algn posproceso para obtener
una segmentacin completa.
- 130 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
- Algoritmo de localizacin de mnimos locales Paso 1.- Filtrado paso bajo de la imagen I(x, y) usando una ventana de tamao V.
1
Repetir k {V/2 k 255 V/2}:
hF(pk) =
h(p(k-V/2))
V
Paso 2.- Clculo de la primera y de la segunda derivada de hF. Para ello se puede usar la
aproximacin de la derivada como resta de valores de posiciones consecutivas:
hF(k) = hF(k+1) hF(k)
hF(k) = hF(k+1) hF(k)
Paso 3.- Si hF(k) U, siendo U un umbral positivo, y hF(k) > 0, entonces hay que marcar
k como candidato a mnimo local.
Paso 4.- Agrupacin de candidatos a mnimos locales y umbralizacin basada en stos.
1 si I (i, j ) R
B (i , j ) =
0 en otro caso
- 131 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
donde R representa un rango de valores correspondientes a niveles de gris que
definen a los elementos a extraer de la imagen digital.
Multiumbralizacin
La multiumbralizacin, como su nombre indica, consiste en la eleccin de
mltiples valores de umbral dentro del proceso, permitiendo separar a diferentes
objetos dentro de una escena cuyos niveles de gris difieran. El resultado no ser
ahora una imagen binaria sino que los diferentes objetos (regiones) tendrn
etiquetas diferentes:
IS(i,j)
= 1,
si I(i,j) R1
= 2,
si I(i,j) R2
= 3,
si I(i,j) R3
= n,
si I(i,j) Rn
= 0,
en otro caso
I (i, j ) si I (i, j ) U
I S (i , j ) =
en otro caso
0
Umbralizacin adaptativa
En las tcnicas anteriores, los rangos de umbralizacin se consideran fijos con
independencia de las caractersticas locales de la imagen considerada. En muchas
imgenes, donde la iluminacin no es uniforme, puede ocurrir que pxeles del
mismo objeto a segmentar tengan niveles de gris muy diferentes. Ello conlleva que
no sea posible elegir un nico umbral que, sobre toda la imagen, distinga los
- 132 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
pxeles de un objeto de los de otro. La umbralizacin adaptativa o variable
permite resolver este problema haciendo que el valor del umbral vare segn una
funcin que depende de las caractersticas locales del entorno del punto que se
evala.
- Algoritmo de umbralizacin adaptativa Paso 1.- Dividir la imagen original I(i,j) en subimgenes Ik(i,j) donde se supone que los
cambios de iluminacin no son tan fuertes.
Paso 2.- Determinar independientemente un umbral Uk para cada subimagen Ik(i,j).
Paso 3.- Si en alguna subimagen no se puede determinar su umbral, calcularlo mediante la
interpolacin de los valores de los umbrales de subimgenes vecinas.
Paso 4.- Procesar cada subimagen con respecto a su umbral local.
- 133 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
(a)
H1
H2
(e)
(b)
(c)
Valor de la media
Negro
(f)
Blanco
(d)
Valor del pxel
- 134 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
Puesto que se desea encontrar los objetos individuales presentes en una
imagen, parece lgico que si se encuentran las fronteras de tales objetos con el
fondo se podra segmentar los objetos de la escena general.
- 135 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
Algoritmo de etiquetado de componentes conexas
En este punto se expone un algoritmo eficiente de etiquetado de componentes
conexas. Este algoritmo tendr por entrada una imagen y devolver una etiqueta
asociada a cada pxel que indicar a qu componente conexa pertenece.
Un algoritmo de este tipo se puede construir fcilmente usando un
esquema recursivo de bsqueda con retroceso. Tal algoritmo recorre la imagen de
izquierda a derecha y de arriba a abajo. Cuando encuentra un pxel a negro le
asigna una etiqueta de un contador que posee y entra en una funcin recursiva que
recorre los pxeles adyacentes, siguiendo un orden determinado, marcndolos
como visitados y asignndoles el mismo valor del contador. Una vez recorridos
todos los pxeles de ese objeto incrementa el contador y sigue recorriendo la
imagen en busca del siguiente pxel a negro.
El algoritmo explicado no es eficiente por dos motivos:
- 136 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
r
t p
Figura 70.- Los pxeles r y t son los vecinos a tener en cuenta al evaluar el pxel p en el
algoritmo de etiquetado de componentes conexas.
Captulo 4 Segmentacin
Por ltimo, a la hora de implementar de manera ptima ste y otros
algoritmos, no debe olvidarse que en ltima instancia las imgenes se
almacenan en la memoria fsica en el ordenador. As, cuando sea posible, el
realizar operaciones que traten la memoria fsica directamente, en vez de
abstracciones como pxeles y colores, suele redundar en un aumento de la
eficiencia de la implementacin.
- Algoritmo de Etiquetado de componentes 4 conexas Paso 1.- V={valores que indican pxel activo}, cont = 1 y M(x, y) = 0 x, y
Paso 2.- Segn la Figura 70, si pV
Si rV y tV
Etiq(p) cont
cont++
M(cont,cont) = 1
Si rV y tV
Etiq(p) Etiq(t)
Si rV y tV
Etiq(p) Etiq(r)
- 138 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
Ejemplo 13.Para etiquetar cada pxel de la Figura 71a segn la componente conexa a la que
pertenezcan se aplica el algoritmo 1. Al llegar al paso 4 da como resultado la
imagen (b) de la Figura 71, y la siguiente matriz M.
1
M =
1
(a)
1 1 0
1 0 0
0 1 0
0 0 1
1
2
1
3
2
1 1 1 1 1
1
1
1
1
1
1 1 1 1 1
4 4
4 4
(b)
(c)
Figura 71.- La figura (a) representa un mapa de bits donde los cuadros oscuros representan
pxeles negros y los cuadros blancos pxeles blancos. La figura (b) presenta los pxeles
etiquetados antes del clculo de la matriz del cierre transitivo. Finalmente (c) presenta el
resultado del algoritmo de etiquetado.
1
M1 = M 0 M 0 =
1
1 1 0 1
1 0 0 1
0 1 0 1
0 0 1 0
1 1 0 1
1 0 0 1
=
0 1 0 1
0 0 1 0
1 1 0
1 1 0
1 1 0
0 0 1
- 139 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
1
M 2 = M1 M1 =
1
1 1 0 1
1 1 0 1
1 1 0 1
0 0 1 0
1 1 0 1
1 1 0 1
=
1 1 0 1
0 0 1 0
1 1 0
1 1 0
= MT
1 1 0
0 0 1
De la matriz MT se deduce:
2 1, 31
Sustituyendo los puntos afectados se obtiene la imagen (c) de la Figura 71.
Captulo 4 Segmentacin
contornos de mayor o menor longitud. Para solucionar estos problemas suelen
usarse enfoques y algoritmos basados en heursticas particulares.
Tanto el filtro de la primera derivada (basado en el operador de gradiente)
como el de la segunda (basado en el operador de la laplaciana) son muy sensibles
al ruido, por ello suele aplicarse previamente un filtro de suavizado para
eliminarlo. El filtro del gradiente suele producir contornos gruesos, mientras que el
filtro de la laplaciana, suele producir imgenes con el grosor de los contornos a un
pxel. Sin embargo, el filtro de segunda derivada es ms sensible al ruido que el de
gradiente. Por ello suelen usarse combinados considerndose como contorno
aquellos pxeles donde el mdulo del gradiente supera un umbral y adems se
produce cambio de signo en la segunda derivada, que corresponde a un paso por
cero. Hay que notar que raramente coincide el valor cero con el valor de un pxel
tras la aplicacin de la laplaciana; ese cero se produce a resolucin subpxel y slo
es detectable por un cambio de signo en el resultado de la segunda derivada.
Finalmente, para localizar los contornos a partir de la imagen resultado del
filtrado suelen aplicarse ciertos algoritmos que procesan los resultados y
devuelven los segmentos que corresponden a los posibles contornos. En los
siguientes puntos se presentan tres tcnicas distintas que hacen esto.
Unin de segmentos mediante procesado local
Sea una imagen digital I. Decimos que el gradiente () del pxel (x, y), que est
en la vecindad del pxel (x, y), tiene magnitud similar a la del pxel (x, y) si y slo
si:
|I(x, y) - I(x, y)| U
siendo U un umbral no negativo.
Anlogamente, el pxel (x, y), vecino de (x, y), tiene un ngulo similar a
ste si y slo si:
|(x,y) - (x,y)| A
siendo A un ngulo umbral y (x, y) = arctg (Gy/Gx).
- 141 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
Dado un punto (x, y) etiquetado como perteneciente al contorno, su vecino
es similar si los gradientes de ambos puntos son similares en magnitud y en
ngulo. Un proceso iterativo que etiqueta como perteneciente al contorno a los
pxeles similares a los de las fronteras de una imagen, y que se repite hasta que no
se producen cambios, permite la obtencin de una imagen de contornos en las que
habrn atenuado las discontinuidades. El proceso representado en la Figura 72
permite una obtencin de contornos robusta.
Bordes Sobel
Imagen
Bordes = Bordes
+ Similares
Bordes Laplace
SI
NO
Cambios?
Figura 72.- Mtodo para la obtencin de contornos continuos en una imagen digital.
1<ik
- 142 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
Se pueden usar estos conceptos en la deteccin de contornos. Para ello se
comienza representando mediante un grafo los segmentos extrados de una imagen
tras una operacin de deteccin de contornos con filtros de gradiente. A
continuacin se ver un algoritmo que busca en dicho grafo los caminos de coste
mnimo que representarn las fronteras de las regiones identificadas.
Un componente de contorno es la frontera entre dos pxeles p y q, tal que p
y q son vecinos 4-conexos. En este contexto un contorno o frontera se puede
definir como una secuencia de componentes de contorno. En este contexto, el
coste de un componente de contorno, definido por los pxeles p y q, viene dado
por:
c(p, q) = H |I(p) I(q)|
(4.1)
(a)
(b)
Figura 73.- La cuadrcula representa un mapa de pxeles sobre el que se superpone el grafo
de los contornos: (a) direcciones de los contornos, y (b) grafo correspondiente.
- 143 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
- Algoritmo de bsqueda del camino de menor coste Paso 1.- Expandir el nodo origen nO y poner todos sus sucesores {ni} en una lista L. En ella
todos los nodos tiene un puntero hacia detrs a nO. Evaluar la funcin de coste r(ni) a todo
nodo expandido ni desde nO, que inicialmente valdr c(nO, ni) segn la expresin (4.1).
Paso 2.- Si la lista L es vaca, acabar con fallo; en otro caso, determinar el nodo nj de la lista
L cuya funcin de coste asociada r(nj) sea la menor y quitar nj de la lista L. Si nj = nD (nodo
final del camino), recorrer el camino de punteros hacia detrs, encontrar el valor mnimo
y acabar con xito.
Paso 3.- Si la opcin de parar no fue tomada en el paso 2, expandir el nodo especificado nj
y poner sus sucesores en la lista L con punteros hacia detrs a nj. Calcular los costes
segn la funcin r (si nk es un sucesor de nj en L, su coste viene dado por el coste r(nj) para
ir de ni a nj ms el coste del arco c(nj, nk) ). Volver al paso 2.
- 144 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
El grafo multietapa se construye a partir de la imagen de gradientes tras
aplicar las reglas de conexin de contornos discontinuos. Por ejemplo, usando
estos datos se define el grafo multietapa de la Figura 74. Los costes asociados a los
arcos indican la magnitud de los valores del gradiente de los contornos, mientras
que las direcciones de gradiente se usan para definir las reglas de conexin. Los
arcos en trazo grueso de la figura sealan el camino optimal (aqul de coste
mximo) que indica los contornos ms probables entre un nodo origen y otro
destino.
Transformada de Hough
Al igual que las tcnicas basadas en grafos, la transformada de Hough es un
mtodo de anlisis global que se dise para detectar lneas rectas y curvas a
partir de las posiciones de n puntos. Una ventaja de esta tcnica es la robustez de
los resultados de segmentacin conseguidos al aplicarla; sin embargo, su coste
computacional es elevado.
El algoritmo propuesto por Hough en 1962, conocido como transformada
Hough, permite determinar el conjunto de rectas que probablemente forman una
nube de puntos. Este algoritmo parte de la consideracin de que para cualquier
punto (xi,yi), todas las rectas que pasan por l cumplen la ecuacin:
yi = a xi + b
(4.2)
- 145 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
siendo a y b, los parmetros que determinan las infinitas rectas que pasan por el
punto (xi,yi). Para otro punto (xj,yj), las rectas que pasan por l siguen la ecuacin:
yj = a xj + b
(4.3)
donde a y b son parmetros variables de nuevo. La recta que pasa a la vez por
(xi,yi) y por (xj,yj) tiene como valores de los parmetros (a,b) el resultado de
resolver el sistema planteado por (4.2) y (4.3), que llamaremos a y b.
y
b
b'
a'x+
=
y
(x2,y2)
b'
(x1,y1)
a'
(a)
(b)
Captulo 4 Segmentacin
xi cos + yi sen =
siendo y los nuevos parmetros que determinan los infinitos puntos que pasan
por xi e yi. Ntese que en esta ecuacin el parmetro est acotado en el intervalo
[0,).
Ejemplo 14.Determinar las dos rectas que con mayor probabilidad aparecen en la imagen de la
Figura 76, obtenida mediante un filtrado de Sobel.
x
y
0
1
2
3
4
5
6
- 147 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
X
1
2
3
4
5
6
1
2
3
4
5
6
Y
1
1
2
2
3
3
5
5
5
5
5
5
10
20
30
40
50
60
70
80
1
2
3
4
5
6
1
2
3
4
5
6
1,16
2,14
3,3
4,29
5,44
6,43
1,85
2,84
3,82
4,81
5,79
6,78
1,28
2,22
3,5
4,44
5,72
6,66
2,65
3,59
4,53
5,47
6,41
7,35
1,37
2,23
3,6
4,46
5,83
6,7
3,37
4,23
5,1
5,96
6,83
7,7
1,41
2,17
3,58
4,35
5,76
6,52
3,98
4,75
5,51
6,28
7,04
7,81
1,41
2,05
3,46
4,1
5,51
6,15
4,47
5,12
5,76
6,4
7,04
7,69
1,37
1,87
3,23
3,73
5,1
5,6
4,83
5,33
5,83
6,33
6,83
7,33
1,28
1,62
2,91
3,25
4,53
4,87
5,04
5,38
5,72
6,07
6,41
6,75
1,16
1,33
2,49
2,66
3,82
4
5,1
5,27
5,44
5,62
5,79
5,97
0,81
0,64
1,45
1,28
2,09
1,91
4,75
4,58
4,4
4,23
4,06
3,88
0,6
0,26
0,85
0,51
1,11
0,77
4,36
4,01
3,67
3,33
2,99
2,65
0,37
-0,1
0,23
-0,3
0,1
-0,4
3,83
3,33
2,83
2,33
1,83
1,33
0,12
-0,5
-0,4
-1
-0,9
-1,6
3,19
2,54
1,9
1,26
0,62
-0
-0,1
-0,9
-1
-1,8
-1,9
-2,7
2,45
1,68
0,92
0,15
-0,6
-1,4
-0,4
-1,2
-1,6
-2,5
-2,8
-3,7
1,63
0,77
-0,1
-1
-1,8
-2,7
-0,6
-1,5
-2,1
-3,1
-3,7
-4,6
0,77
-0,2
-1,1
-2
-3
-3,9
-0,8
-1,8
-2,6
-3,6
-4,4
-5,4
-0,1
-1,1
-2,1
-3,1
-4,1
-5
Tabla 5.- Representacin del valor de a partir de las coordenadas de un punto (x,y) y del
ngulo .
0
0
0
2
2
2
2
2
2
0
0
0
0
0
0
0
0
0
10
0
1
2
2
2
2
2
1
0
0
0
0
0
0
0
0
0
20
0
2
2
2
3
1
1
1
0
0
0
0
0
0
0
0
0
30
1
2
2
1
3
1
1
1
0
0
0
0
0
0
0
0
0
40
1
2
3
1
3
0
1
1
0
0
0
0
0
0
0
0
0
50
1
1
4
1
2
1
1
1
0
0
0
0
0
0
0
0
0
60
0
2
3
3
1
1
1
1
0
0
0
0
0
0
0
0
0
70
0
1
3
4
0
2
1
1
0
0
0
0
0
0
0
0
0
80
0
0
3
3
2
1
1
2
0
0
0
0
0
0
0
0
0
Tabla 6.- Representacin del conteo de los valores de parmetros considerados, que
describen las rectas ms probables que aparecen tras la aplicacin de la transformada
Hough.
- 148 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
x
120
90
1
0
1
2
3
4
5
6
y
Figura 77.-Rectas obtenidas por la aplicacin de la transformada de Hough representadas
sobre el mapa de bits de la Figura 76.
- 149 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
Figura 78.- Segmentacin de objetos por unin de regiones. Las regiones correspondientes
a los colores amarillo, rojo azul y verde crecen por agregacin de pxeles con matiz similar.
- 150 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
Captulo 4 Segmentacin
minimizar el nmero de comparaciones puede usarse una estructura de tipo
quadtree para almacenar la representacin de las regiones (ver figura adjunta).
Esta representacin permite aplicar reglas como la de que regiones de tipo A slo
adyacen a regiones de tipo B y C. Con estas reglas el nmero de posibles
comparaciones se reduce.
A
A
A
A
C
A
(a)
(b)
Captulo 4 Segmentacin
cumplir unas proporciones determinadas (ancho/alto0,625). Esto se hizo porque
se observ que de las regiones de alta varianza obtenidas aplicando el
procedimiento de divisin y mezcla, slo la regin que contiene la oreja cumple
estas proporciones.
(a)
(b)
(c)
Figura 80.- Segmentacin de objetos mediante el algoritmo Split and Merge. Aplicacin de
la segmentacin a la extraccin de la oreja en una imagen de perfil.
Captulo 4 Segmentacin
significativas, separadas por las lneas resultantes mencionadas. El proceso se
ilustra en la Figura 81.
Figura 81.- Una imagen que ilustra el smil del watershed en una superficie de un terreno.
Captulo 4 Segmentacin
marcadores que eran producidos por ruido en la imagen original. Es por ello que
previo a este algoritmo suele aplicarse un filtrado de suavizado para eliminar
marcadores no significativos.
Para finalizar este apartado se sealan algunos criterios a tener en cuenta
para obtener un buen resultado en este proceso:
Filtrar las imgenes para dejar slo las zonas importantes de ella.
Captulo 4 Segmentacin
los resultados de la primera para producir como resultado la segmentacin de la
imagen en color.
Una tcnica de este tipo es aquella basada en el crecimiento de regiones.
En concreto, se aplica una variante que contempla el color del algoritmo de splitand-merge, descrito al explicar la segmentacin basada en regiones. El algoritmo
queda de la siguiente forma:
- Algoritmo Split and Merge para segmentacin basada en el colorPaso 1.- Se calculan las caractersticas de color usando los valores de las componentes de
los planos rojo, verde y azul de una imagen RGB.
Paso 2.- La imagen se divide en regiones cuadradas de igual tamao, usando la estructura
de datos de rbol cuaternario o quadtree.
Paso 3.- Cuatro cuadrantes situados a un mismo nivel de subdivisin son mezclados si se
satisface un cierto criterio de homogeneidad. Un cuadrante se subdivide en otros cuatro si
no se satisface una condicin de homogeneidad.
- 156 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
24
- 157 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
Una vez caracterizada la textura de una imagen hay que aplicar un
algoritmo de segmentacin que podr ser supervisado o no supervisado. La
diferencia entre ambos enfoques radica en un conocimiento a priori o no de la
tarea especfica que el algoritmo lleva a cabo (en otras palabras, en el supervisado
se conocen de antemano los tipos de texturas presentes y en el no supervisado, no
se conocen).
Si se asume que el nmero de texturas diferentes presentes en la imagen es
pequeo y que todas las texturas son distintas unas de otras, entonces es posible
describir regiones pequeas de textura homognea, extraer vectores de
caractersticas usando los modelos mencionados, y usar estos vectores como
representantes de clases en el espacio de caractersticas. Ahora, todos los dems
vectores de textura se pueden etiquetar asocindose al representante de clase ms
cercano. Se pueden usar redes neuronales u otro tipo de algoritmos, para ajustar
mejor el sistema al modelo. Se est, en este caso, usando un mtodo de
segmentacin supervisado.
Si sucede que el nmero de texturas posibles es muy grande y no se
pueden realizar suposiciones sobre los tipos de texturas presentes en la imagen, se
puede recurrir a usar mtodos de segmentacin no supervisados. Ahora se necesita
realizar un anlisis estadstico sobre la distribucin de vectores de caractersticas.
El objetivo es reconocer clusters o agrupaciones de vectores en la distribucin y
asignar la misma etiqueta a los componentes de cada uno de ellos (ver captulo 5).
En general, estos mtodos no supervisados son ms difciles de realizar. Ambos
tipos de mtodos requieren de una medida de distancia entre vectores de
caractersticas; cuando los componentes son homogneas puede usarse la distancia
eucldea, y en otros casos funciones de distancia ms complejas o incluso
heursticas basadas en experimentacin.
Una vez segmentada la imagen se puede evaluar el resultado conseguido.
En general, deber apreciarse una particin de la imagen en un nmero reducido de
regiones, de tamao grande y ms o menos convexas. La siguiente imagen,
muestra un ejemplo de imagen texturada y de cmo resultara su segmentacin.
- 158 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
1 si I t ( x, y ) I t ( x, y ) > U
d t ,t +1 ( x, y ) =
en otro caso
0
Siendo U un valor umbral que depende de la variacin de la iluminacin
entre los instantes t y t+1.
Captulo 4 Segmentacin
puede conseguirse una representacin nica e independiente de la posicin, la
orientacin y el tamao del objeto descrito.
1
2
3
0
1
0
Captulo 4 Segmentacin
dgitos a la izquierda o a la derecha hasta obtenerlo, teniendo la precaucin de que
los nmeros que salgan por la izquierda entren por la derecha.
Por ltimo, para evitar que pequeos cambios en el contorno de un objeto
produzca cdigos muy diferentes, suele usarse algn filtrado de suavizado o algn
cambio de escala sobre el objeto.
Ejemplo 15.En este ejemplo se desea codificar en cdigo de cadena para 4 vecinos el objeto de
la Figura 85 (a). Para ello, previamente, se reduce la resolucin a la cuadrcula que
se presenta en la Figura 85 (b).
(a)
(b)
Figura 85.- Recorrido del objeto usando cdigo de cadena de conectividad 4. El punto
grueso indica el nodo de inicio.
m pq =
x p y q f ( x, y ) dxdy
p, q = 0,1,....
Se puede ver que, para una funcin acotada en el plano, existen infinitos
momentos generales obtenidos haciendo variar p y q de cero a infinito.
- 161 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
Se puede demostrar que dada una funcin f(x,y) existe un nico conjunto
de momentos generales que la definen y viceversa.
f ( x, y ) {m pq }
p, q = 0,1,....
m pq = x p y q I D ( x, y )
p, q = 0,1,....
x =0 y =0
siendo ID(x,y) una funcin discreta que toma valor 1 cuando el pxel pertenece al
objeto y 0 cuando pertenece al fondo.
Momentos de orden cero y orden uno
El momento de orden cero (p=q=0) coincide con el rea del objeto descrito.
N 1 N 1
m00 = I D ( x, y )
x =0 y =0
Los momentos de orden uno (p=0, q=1 y p=1, q=0), junto al de orden cero,
determinan el centro de gravedad de los objetos.
N 1 N 1
N 1 N 1
x = m10 = xI D ( x, y )
y = m01 = yI D ( x, y )
x =0 y =0
x =0 y =0
Invarianza a traslaciones
Los momentos generales se pueden hacer invariantes a las traslaciones. Para ello
basta con referirlos al centro de gravedad del objeto, es decir a los momentos de
- 162 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
orden cero y uno. Estos momentos, que se conocen como momentos centrales,
tienen la siguiente forma:
N 1 N 1
mc pq = ( x x ) p ( y y ) q I D ( x, y )
p, q = 0,1,....
x =0 y =0
p, q = 0,1,....
Invarianza a giros
La invarianza a giros se consigue disponiendo de una direccin de referencia para
cada objeto. La direccin que se suele tomar es la que marca el eje de mnima
inercia del objeto.
La inercia respecto a un eje se define como la suma de las distancias del
eje a los puntos de la figura promediados por el peso de cada punto. As, es fcil
demostrar que si (a,b) es un punto del eje y al ngulo formado con la horizontal,
la inercia es:
I = [( x a)sen ( y b) cos ] I D ( x, y )
2
El eje de mnima inercia corresponder aqul que haga cero las derivadas
parciales respecto a cada variable:
dI
=0
dx
dI
=0
dy
dI
=0
d
a=x
b= y
1
2
2mc11
mc20 mc02
= arctg
- 163 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
Debe evitarse esta formulacin cuando el denominador se acerque a 90 ,es
decir con ejes de inercia verticales.
El giro del objeto y el posterior clculo de los momentos centrales puede
resumirse en la siguiente ecuacin:
p q
p q
mcg pq = ( 1) q s (cos ) p r + s (sen ) q s + r mc p r + q s ,r + s
r =0 s =0
r s
p, q = 0,1,....
mcgh pq =
mcg pq
m00
donde =
p+q
2
p, q = 0,1,....
- 164 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
Invarianza a giros
La transformada de Fourier de un objeto girado radianes respecto a otro igual
pero que no est girado se diferencia en un factor multiplicativo ej. Por ello, suele
usarse slo los mdulos que no cambian si el objeto est girado.
Invarianza a homotecias o cambios de escala
La transformada discreta de Fourier (3.4) de una secuencia de valores respecto a la
de una secuencia igual pero con unos valores proporcionalmente diferentes se
diferencia en que todos los elementos de la transformada han sido multiplicados
por un valor k que depende del cambio de tamao. Por ello si se dividen todas las
componentes por una de ellas (normalmente suele tomarse la primera no nula) se
obtiene una representacin invariante a homotecias en la intensidad.
La invarianza a homotecias de tamao es ms difcil de conseguir. En este
caso las frecuencias de aparicin de las componentes varan proporcionalmente.
Para eliminar esta variabilidad deberan dividirse todas las frecuencias por la
primera frecuencia distinta de cero. Sin embargo este enfoque puede ser muy
sensible al ruido presente en el cdigo de cadena.
- 165 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
- 166 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 5
Introduccin a los
clasificadores
25
- 167 2002 y 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
con
NN y xi
i = 1...N
patron X
Extraccin de
caractersticas
Funcin
discriminante
Conocimiento
respecto a las
clases
- 168 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Figura 87.- Muestra de las diferentes piezas entre las que se desea distinguir, obtenidas con
una cmara e iluminacin a contraluz.
Nmero de agujeros
Tornillos
Tuercas
Arandelas
0.1
0.2
0.3
0.4
0.5
- 171 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
26
cross-validation en ingls
- 172 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
c X ,Y = ( X p m X )(Y p mY )
p =0
c1,1
c2 ,1
Ck =
...
c
N ,1
c1, 2
c2,2
...
c N ,2
... c N , N
... c1, N
... c 2 , N
... ...
- 173 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
( X p1 mk1 )( X p1 mk1 )
( X p 2 mk 2 )( X p1 mk1 )
1
Ck =
...
Pk p =1
( X m )( X m )
kN
p1
k1
pN
... ( X p 2 mk 2 )( X pN mkN )
...
...
Pk
(5.1)
mk =
1
Pk
rij =
cij
cii c jj
27
- 174 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Fij =
( mi m j ) 2
si2 + s 2j
, donde s k2 =
1
Pk
Pk
(X
p =1
mk ) 2
F=
1
K
(m
j =1
m)2
1 K Pk
( X ki mk ) 2
K P k =1 i =1
- 175 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
m=
1
N
m
j =1
P = Pk
k =1
dE (X , Zk ) =
X T X 2 X T Z k + Z kT Z k
(5.1)
- 179 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
dE(x,z1)
X?
dE(x,z2)
fd1(x)
fd2(x)
Xi
Mnimo
.
.
.
dE(x,zN)
fdN(x)
- 180 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
fd k ( X ) = X T Z k
1 T
Zk Zk
2
k = 1K
(5.2)
Zk =
1
Pk
Pk
X
p =1
X p patrn de la clase k
Ejemplo 17.Supngase que se tienen que distinguir patrones de dos clases, 1 y 2, y que se
dispone de la siguiente muestra:
1 2 0 1
5 3 1 3
1 = , , ,
6 4 5 5
1 2 3 2
6 7 8
8 9 7
2 = , ,
1 3 1
6 6 9
- 181 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
1
3
z1 =
5
1
7
8
z2 =
1
7
1
1
r T 3 1 3
fd 1 = X
5 2 5
1
1
1
3
5
1
7
7
r T 8 1 8
fd 2 = X
1 2 1
7
7
7
8
1
7
3
1
fd 1 =
3
1
3
1
fd 2 =
3
1
1
1
3 1 3
5 2 5
1
1
7
7
8 1 8
1 2 1
7
7
1
1
3
5 = 3 + 3 + 15 + 1 2 (1 + 9 + 25 + 1) = 4
1
7
1
8
1 = 21 + 8 + 3 + 7 2 (49 + 64 + 1 + 49) = 42.5
7
d M ( X , k ) = ( X mk ) T C k1 ( X mk )
(5.3)
2
Figura 91.- En un clasificador estadstico la regin de separacin no es determinista.
Adems crea separaciones no lineales de dos clases (curvas cnicas como las parbolas,
elipses, hiprbolas y, por su puesto, rectas).
- 183 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
2
1
m1
fd
m2
Clasificacin probabilista
Cuando existe diferente dispersin de los valores de una caracterstica en dos o
ms clases, una medida de la distancia que tenga en cuenta la desviacin tpica de
la clase ofrecer mejores resultados que otra que slo tenga en cuenta la distancia
eucldea entre los centroides de las clases. La Figura 92 ejemplifica la disposicin
de los patrones de dos clases respecto de una caracterstica particular. En la figura
se aprecia que la funcin discriminante no equidista de los centroides del 1 y de
2 sino que est ms cerca del centroide de 2 porque su desviacin tpica es
menor.
El teorema de Bayes puede ayudar a decidir la funcin discriminate, ya
que ste enuncia que:
P ( i / X ) =
P ( X / i ) P ( i )
P( X )
donde,
- 184 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
P ( X ) = P ( X / k ) P ( k )
k =1
i = 1,2 ... N
Y se dice que:
Xi fdi(X) > fdj(X) ij, j = 1,2 ... N
- 185 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
P( X / i ) =
2 i
1 ( X mi ) 2
2 i2
i = 1,2 ... N
(5.4)
( X m1 ) 2
<
2
1
( X m2 ) 2
2
2
+ 2 ln(
2
)
1
P( X / k ) =
(2 )
n
2
Ck
1
2
r r
1 r r
( X mk )T Ck1 ( X mk )
2
k = 1,2 ... N
fd i ( X ) =
1 r T 1 r r T 1 r 1 r T 1 r 1
X C i X + X C i mi mi C i mi ln C i
2
2
2
i = 1,2 ... N
r
r 1 r
r
fd i ( X ) = X T C i1mi miT C i1 mi i = 1,2 ... N
2
Si adems la matriz de covarianza es diagonal, con covarianzas a cero, y
con todas las desviaciones tpicas iguales se obtiene una formula idntica a la del
clasificador eucldeo:
r r 1 r
fd i ( X ) = X T mi miT mi i = 1,2 ... N
2
Hay que sealar que en la prctica los valores que se obtienen para las
desviaciones nunca son exactamente iguales, ni las covarianzas son exactamente
cero, pero estas reglas se aplican igualmente si se aproximan suficientemente a
tales valores.
Ejemplo 18.Se dispone de la siguiente muestra, correspondiente a objetos de dos clases 1 y 2
equiprobables. Se desea construir un clasificador de Bayes que clasifique
correctamente los patrones de la muestra sabiendo que los patrones tienen
caractersticas que siguen distribuciones normales.
1 2 3 2 3
8 9 9 8 7
1 : , , , , 2 : , , , ,
2 2 1 3 2
10 8 9 9 9
- 187 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
8.2
0.56 0.2
0.56 0.2
r 2.2 r
C 2 =
m1 = m2 = C1 =
2
9
0.2 0.4
0.2 0.4
Como se observa que C1 = C2 y adems se ha dicho en el enunciado que
los patrones de ambas clases son equiprobables y sus distribuciones normales se
puede usar la funcin discriminante:
1
fd i ( X ) = X T C 1mi miT C 1 mi
2
obteniendo:
C 1
50
= 23
25
23
25
23
70
23
y por tanto:
fd 1 ( X ) =
160
195
378
X1 +
X2
23
23
23
fd 2 ( X ) =
435
835
6361
X1 +
X2
23
23
23
j = 1, 2, , K / j k
k = 1, 2, , K
Maestro
X?
X
Error
Reconocedor
Minimiza el
error
Figura 93.- Esquema de reconocimiento con aprendizaje. El maestro permite calcular el
error y as decidir cmo modificar los parmetros del clasificador para minimizarlo.
- 189 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
- 190 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Error
Error
W
W1,2
W1,1
Figura 94.- El error debe verse como una hipersuperficie que es funcin de los parmetros
W del clasificador, en la que la derivada marca la direccin en la que disminuye el error. En
este caso, como W slo tiene dimensin 2, el error puede representarse como una superficie.
W (t + 1) = W (t )
Error
W
(5.5)
Error =
1
( fdm Wi T X ) 2
4
siendo:
+ 1 si
fdm =
1 si
X i
X i
Si se define:
e = ( fdm WiT X )
se obtiene que:
Error =
Error 1
1
= 2( fdm Wi T X )( X ) Error = eX
W
4
2
y por tanto:
W (t + 1) = W (t ) +
1
eX
2
Esta expresin muestra como deben cambiarse los pesos de todas las
funciones discriminantes en cada iteracin para que el error disminuya
- 192 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
- 193 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
1
1
1
1
x1 = 1 , x 2 = 2 , x3 = 1 , x 4 = 2
1
1
1
1
Primeramente se aade un valor constante a 1 a cada vector para permitir
la operacin matricial.
1
1
1
1
x1 = 1 1 , x 2 = 1 2 , x3 = 1 1 , x 4 = 1 2
1
1
1
1
Utilizando el algoritmo de aprendizaje descrito, con =0.5 y partiendo en
t=1 de:
0
W1 (1) = W2 (1) = 0
0
En t = 1 se obtiene:
X(1) = x1 1
T
fd1(X(1)) = W1 (1 ) X(1) = 0
T
fd2(X(1)) = W2(1) X(1) = 0
error1(1) = 1
error2(1) = -1
W1(2) = W1(1) + 05 error1(1) X(1) = (-1/4, -1/4, 1/4)
W2(2) = W2(1) + 05 error2(1) X(1) = (1/4, 1/4, -1/4)
En t = 2:
X(2) = x2 2
fd1(X(2)) = 1/4
fd2(X(2)) = -1/4
error1(2) = -5/4
error2(2) = 5/4
W1(2) = (1/16, -9/16, -1/16)
W2(2) = (-1/16, 9/16, 1/16)
En t = 3:
- 194 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
X(6) = x2 2
fd1(X(6)) = -08544922
fd2(X(6)) = 08544922
error1(6) = -01455
error2(6) = 01455
W1(7) = (-000756, -09240, -00471)
W2(7) = (000756, 09240, 00471)
En t = 4:
X(4) = x4 2
fd1(X(4)) = -29/64
fd2(X(4)) = 29/64
error1(4) = -35/64
error2(4) = 35/64
W1(5) = (00351, -0,808, -0,0898)
W2(5) = (-00351, 0808, 00898)
En t = 7:
X(7) = x3 1
fd1(X(7)) = 08693848
fd2(X(7)) = -08693848
error1(7) = 01306152
error2(7) = -01306152
W1(8) = (002508, -09567, -001446)
W2(8) = (-002508, 09567, 001446)
En t = 5:
X(5) = x1 1
fd1(X(5)) = 06835
fd2(X(5)) = -06835
error1(5) = 03164
error2(5) = 03164
W1(6) = (-00439, -08876, -00107)
W2(6) = (00439, 08876, 00107)
En t = 8:
X(8) = x4 2
fd1(X(8)) = -0946106
fd2(X(8)) = 0946106
error1(8) = -005389
error2(8) = 005389
W1(9) = (001611, -09701, -002793)
W2(9) = (-001611, 09701, 002793)
En t = 6:
Se aprecia que los valores del error cada vez son menores. Adems, se
puede comprobar que este proceso de convergencia contina en sucesivas
iteraciones. Si en este momento (t = 8) se detiene el proceso y se asume que el
error que se comete no influye en el proceso de clasificacin, las funciones
discriminantes son:
x1
fd 1 ( X ) = (0'01611 0'9701 0'02793) x 2 = 0'01611x1 0'97 x 2 0'02793
1
- 195 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
x1
fd 2 ( X ) = ( 0'01611 0'9701 0'02793) x 2 = 0'01611x1 + 0'97 x 2 + 0'02793
1
En este ejemplo se ha usado un reducido nmero de patrones para entrenar
durante unas pocas iteraciones. Normalmente se dispone de muchos patrones de
muestra por cada clase durante la fase de entrenamiento, la cual a su vez suele
constar de varios cientos de ciclos. Obviamente estas simplificaciones se deben a
motivos didcticos, ya que un conjunto mayor de entrenamiento o un nmero
mayor de iteraciones no pueden presentarse en unas pocas lneas.
- 196 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
- 197 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
- 198 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
- 199 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
t=0
t=1
t=2
t = 3,4...
- 200 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
- 201 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
28
Entre estas tcnicas se pueden citar el algoritmo del elemento ms votado, el algoritmo
de la votacin promediada y el algoritmo BKS. El primero devuelve el resultado del
clasificador que ms se repita. El segundo devuelve el resultado del clasificador que
promediado con los dems con cierto coeficiente obtenga un resultado ms alto. El ltimo
utiliza los resultados de N clasificadores sobre una muestra de ensayo para construir una
matriz de dimensin N que ofrece resultados para cada combinacin de resultados de los N
clasificadores.
- 202 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 6
Introduccin a la
Visin Tridimensional
Cuando un bho acecha una presa realiza rpidos y precisos movimientos con la
cabeza. Estos movimientos le permiten obtener distintas perspectivas de la escena
que observa. El cerebro del bho usa estas diferentes perspectivas para calcular
con precisin la distancia y la direccin en la que se nueve su prximo bocado.
El obtener la estructura tridimensional de una escena ha sido, y sigue
siendo, uno de los retos de la visin artificial. Quizs debido a que es la forma en
que los humanos ven, el problema central que clsicamente se considera en visin
tridimensional es el de la reconstruccin de una escena 3D a partir de una o varias
proyecciones del mundo real sobre superficies fotosensibles. Este captulo se
dedica a la formulacin ms bsica de este problema que se conoce como el
mtodo del par estereoscpico.
Existen multitud de enfoques alternativos que tambin permiten intentar
recuperar una escena tridimensional. Estos enfoques se introducen brevemente en
el ltimo punto de este tema.
- 203 2002 y 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
I
V
P(x, y, z)
f
D
U
A
P (u, v)
Z
Y
X
Figura 96.- Modelo Pin-Hole o perspectiva cnica. Obsrvese que todos los puntos de la
recta CP se proyectan en el mismo punto P de la imagen.
- 205 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
I
D
f
C
-v
A
P(u, v)
D V cos( D, V )
v D V
=
=
f D A D A cos( D, A)
v cos( D,V )
cos( D,V )
=
v = f
f cos( D, A)
cos( D, A)
u = f
cos( D,U )
cos( D, A)
Sobre estas frmulas se puede cambiar D por P-C, con lo que el problema
estar expresado directamente en los parmetros que inicialmente se propusieron.
Por ltimo, slo resta transformar las coordenadas (u, v) del plano de
formacin de la imagen en coordenadas (i ,j) del plano digital de la imagen. Para
hacer esta transformacin se debe tener en cuenta la relacin de tamao de los
pxeles dentro del plano de formacin de la imagen, por lo que se llamar al ancho
de un pxel m, y al alto n. Tambin se deben conocer las coordenadas (i0, j0) del
punto del plano digital de la imagen que se corresponden con las del centro del
plano de formacin de la imagen.
- 206 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
i=
f (P C) U
+ i0
m (P C) A
(6.1)
j=
f (P C) V
+ j0
n (P C) A
(6.2)
6.1.2 Calibracin
Las ecuaciones (6.1) y (6.2) permiten conocer la relacin entre los pxeles de una
imagen digital, y los puntos de los que son proyeccin en la escena tridimensional.
No debe pasarse por alto, sin embargo, que es preciso obtener los valores de todos
los parmetros que aparecen en estas ecuaciones. La calibracin es el proceso que
se encarga de determinar los valores de los parmetros que intervienen en el
proceso de formacin de la imagen. En este modelo la calibracin consiste
precisamente en obtener el valor de los parmetros de estas ecuaciones (ver Tabla
7).
Estos parmetros se pueden dividir en dos grandes grupos: los intrnsecos
(interiores a la cmara), y los extrnsecos (los exteriores). Para determinar los
- 207 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
i0, j0
Punto focal
f/n, f/m
Extrnsecos
Intrnsecos
Tabla 7.- Clasificacin de los parmetros del modelo de visin monocular en funcin de su
relacin con el dispositivo de captura.
- 208 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
i=
f P U C U
f
Ut P
f
U t C
+
+ i0
+ i0 i =
m (P V ) A m (P C) A
m (P C) A
j=
f
Vt P
f
V t C
+ j0
n (P C ) A n (P C ) A
Llamando
= ( P C ) A = At P At C
se obtiene el sistema
f rt
f t
i = m u P + m U C + i0
f t
f t
j = V P V C + j 0
n
n
= At P At C
que se puede escribir en forma matricial, poniendo atencin a la matriz central que
slo contiene parmetros intrnsecos.
- 209 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
i0
t
t
U P U C
j0 V t P V t C
t
t
1 A PA C
i m
j = 0
0
f
n
0
i m
j = 0
0
0
f
n
0
i0
u x
j0 v x
1 ax
uy
vy
uz
vz
ay
az
x
U tC
y
V tC
z
A t C
1
i m
j = 0
0
0
f
n
0
i0
x
t
U U C
y
j0 V V t C
z
t
1 A A C
1
- 210 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
x
i
y
j = K [R T ]
z
1
En la mayora de las ocasiones29 es posible transformar el sistema anterior
en uno de la forma:
i w1,1
j = w2,1
w
3,1
w1, 2
w1,3
w2 , 2
w3, 2
w2 ,3
w3,3
x
w1, 4
y
w2, 4
z
w3, 4
1
29
Esto no es posible cuando el ngulo que forma el plano de la imagen con el eje de la lente
de la cmara es distinto de cero. En estos casos es posible tal cambio si se introduce un
parmetro en la posicin (1,2) de la matriz de intrnsecos.
- 211 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
w1,1
w1, 2
w
1,3
w1, 4
w
2,1
1
0
0
0
0
x
y
z
xi
yi
zi
w2 , 2
=0
0 0 0 0 x y z 1 xj yj zj j w2,3
w2 , 4
w3,1
w
3, 2
w3,3
w
3, 4
O ms concisamente:
x y z 1 0 0 0 0 xi yi zi i
W = 0
0 0 0 0 x y z 1 xj yj zj j
As, conociendo las coordenadas (x, y, z) del espacio tridimensional de un
punto P, y las coordenadas (i, j) de su proyeccin correspondiente sobre el plano
digital se tienen 2 ecuaciones con las 12 componentes de la matriz W como
incgnitas. Se aprecia que para cumplir el objetivo de determinar completamente
la matriz W, se necesitarn al menos 6 puntos, para tener 12 ecuaciones con las que
determinar los 12 parmetros de W. Adems, estos 6 puntos no debern estar todos
en el mismo plano, o el sistema resultar indeterminado30.
30
Puesto que se trabaja con coordenadas homogneas la escala es irrelevante. En este caso
es posible establecer por ejemplo el valor de w3,4 a 1 y el resultado no cambiar. As, el
sistema tendr 12 ecuaciones y 11 incgnitas y estar sobredeterminado. En este caso puede
utilizarse algoritmos de minimizacin del error, como el mtodo de mnimos cuadrados,
para estimar W en vez de proceder a su clculo directo.
- 212 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
1 P1 = K 1 [R1 T1 ] P
P2 = K 2 [R2
T2 ] P
P1 = K1 R1 P + K1 T1
P2 = K 2 R2 P + K 2 T2
(6.3)
E1
C1
C2
P1
P2
I2
I1
1 P1 = K 1 [I 0]PP 1 P1 = K 1 P
Usando la ecuacin anterior sobre (6.3) se obtiene:
P2 = K 2 R2 K1 1 P1 + K 2 T2
- 214 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
P2 = 1 K 2 R2 K 1 P1 + K 2 T2
142
4 44
3
123
H
(6.4)
2 P2 = 1 H P1 + e
El parmetro H se conoce como la homografa del infinito, ya que
relaciona las proyecciones de un punto que se encuentre en el infinito. En la
frmula se puede ver que si se elimina e la posicin del observador T no aparece y
H es una homografa que slo tiene en cuenta los intrnsecos K y R. La no
influencia de la posicin de la cmara respecto a la escena observada ocurre
cuando los puntos observados estn en el infinito. En la prctica basta con que la
distancia al punto sea mucho mayor que las distancias focales. Por ejemplo,
cuando se mira montaas que se encuentran en el horizonte la posicin en la que se
encuentra el observador es indiferente respecto al punto de la retina en el que se
proyectan las montaas.
Multiplicando escalarmente por K2-1 a ambos lados de la ecuacin:
2 K 2 1 P2 = 1 R2 K 1 1 P1 + T2
Multiplicando vectorialmente por t2, y sabiendo que t2 x t2 = 0 se obtiene:
2 T K 2 1 P2 = 1 T R2 K1 1 P1
Multiplicando por K 2
P2 que es perpendicular a T K 2 P2 se
obtiene:
0 = 1 K 2 P2 T R2 K 1 P1
1
0 = P2 K 2 T R2 K 1 P1
144
42444
3
F
0 = P2 F P1
(6.5)
1 P1 = K1 [R1 T1 ] P
P2 = K 2 [R2
T2 ] P
- 216 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
- 219 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
rejilla
rejilla
proyector de luz
cmara
- 220 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
P(x,y,z)
p(U,V)
Proyecto
r
Cmara
(b)
(a)
Figura 102.- .- (a) Patrn de luz estructurada utilizado para la proyeccin de luz
estructrurada, y (b) objeto reflejando ese patrn de luz. Los puntos iluminados se pueden
obtener mediante triangulacin activa.
- 221 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Figura 104.- Imagen de rango adquirida mediante un sensor de rango 3D lser que emplea
triangulacin activa para el clculo de las coordenadas 3D. La imagen de la izquierda
presenta la vista frontal del objeto y permite apreciar la resolucin del escner. La de la
derecha esta rotada para que pueda apreciarse su forma.
- 224 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Anexo A
Clasificacin con el
perceptrn multicapa
El sistema nervioso se encarga de recoger los impulsos del mundo que nos rodea y
de coordinar y dirigir todas las actividades de los rganos de acuerdo a lo que ha
percibido de ese exterior. Este complejo sistema tiene como unidad funcional un
nico tipo de clulas: las neuronas. Las neuronas disponen de un elemento que se
llaman axn que permite trasmitir a otras neuronas a travs de las dendritas
impulsos elctricos de diferente intensidad. Estas clulas se disponen en forma de
complejas redes y mediante unos procesos, conocidos como procesos sinpticos,
segn los cuales se excitacin o se inhiben unas a otras, son las responsables de las
capacidades de aprendizaje y comprensin que caracterizan a los seres vivos que
las poseen.
axn
sinapsis
soma
ncleo
dendritas
Figura 105.- Modelo biolgico que representa la conexin entre dos neuronas.
- 225 2002 y 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
- 226 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
- 227 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
- 228 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
- 229 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
SOBREENTRENAMIENTO
ErrorCPE
Error 1
Error 2
ErrorCE
Error 3
Punto de Generalizacin ptima
(A.1)
Para simplificar los clculos suele cambiarse el umbral por una entrada de
peso igual a umbralj, conectando este axn a una neurona especial que siempre
tendr estado de activacin 1. De esta forma la entrada total a la neurona j ser:
- 230 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
(A.2)
(A.3)
1
1+ e
(A.4)
Entrada _ Total j
1
Funcin Escaln
0
1
Funcin Sigmoide
Figura 108.- Aspecto de las funciones de activacin escaln (arriba) y sigmoide (abajo).
As, el modelo ms sencillo consistir en una red compuesta por una nica
neurona, en la que la salida viene determinada por la sigmoide (A.4) de la entrada
total. Es sencillo demostrar que este esquema es idntico al del clasificador
eucldeo. As, una red con una sola capa puede separar conjuntos de patrones
mediante un hiperplano (ver Figura 109).
Un paso por encima en complejidad se encuentra una red compuesta por
varias de estas unidades que operan de forma independiente, es decir, que la salida
de cualquiera de ellas no influye en el funcionamiento del resto. Esta
configuracin, conocida como perceptrn de una sola capa, o simplemente
- 231 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Figura 109.- Patrones 2D separados por un hiperplano (en este caso una recta).
Salidas
Salidas
...
...
...
Resto de niveles
ocultos
...
...
Entradas
Nivel 1 (Oculto)
i unidades (i>0)
...
Entradas
- 232 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Figura 111.- Los patrones de una muestra siempre se pueden agrupar en regiones convexas.
- 234 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
pesoi j =
Error
pesoi j
(A.5)
Error =
1
numN
numN
(salida
N =1
deseada N ) 2
(A.6)
salida j = F ( entrada j )
(A.7)
Error
Error entrada j
=
(A.8)
entrada j
= salida i
pesoi j
(A.9)
Definimos ahora:
cambio j =
Error
entrada j
(A.10)
- 236 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
(A.11)
cambio j =
Error
entrada j
Error salida j
salida j entrada j
(A.12)
salida j
= F '(entrada j )
entrada j
(A.13)
Error
= ( deseada j salida j )
salida j
(A.14)
(A.15)
- 237 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
(A.16)
F(entradaj) =1
(A.17)
Derivando:
1
1+ e
entrada j
entrada j
1
1 (A.18)
salida j
Derivando:
entrada j
1
e
entrada j
1+ e entrada j
1+ e
F(entradaj) =
- 238 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
0
1
Error = (m entrada j ) 2
2
1 (m + entrada j ) 2
2
Si la salida es correcta
Si la salida es 0 y debera ser 1
(A.20)
0
Si la salida es correcta
cambio j =
= entrada j m Si la salida es 0 y debera ser 1
entrada j
entrada j + m Si la salida es 1 y debera ser 0
Error
(A.21)
.
.
.
Neuronas
de
Entrada
.
.
.
...
.
.
.
.
.
.
.
.
.
i
.
.
.
j
pesoij
Capa A
Capa I
.
.
.
...
.
.
.
Capa K
Capa J
Neuronas
de
Salida
.
.
.
Capa N
Figura 112.- Esquema general de una conexin entre dos neuronas en un perceptrn
multicapa. Se presenta el caso de una conexin cualquiera, que une la neurona i de la capa
intermedia I y la neurona j de la capa intermedia J.
(A.22)
numK
Error entrada K
Error
=
=
salida j
salida j
K =1 entrada K
(A.23)
numJ
numK
Error
K =1
entrada K
( peso J K salida J )
J =1
salida j
(A.24)
- 240 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Error
K =1
entrada K
peso j K =
numK
cambio
K =1
peso j K
(A.25)
numK
cambio
K =1
peso j K
(A.26)
Esta frmula nos permite conocer el factor cambio para una capa siempre
que se conozca el factor cambio para la capa siguiente. Este proceso tiene fin en la
ltima capa de la que se conoce el valor cambio gracias a (A.15). Constituye por
tanto un mtodo constructivo para ir calculando el incremento de los pesos que
minimiza el error segn (A.6), y que exige que la funcin de activacin de cada
neurona sea derivable respecto de la entrada total a la misma.
Una vez conocidos estos resultados, se puede resumir el algoritmo de
Retropropagacin en los pasos que se detallan en el listado adjunto.
- Algoritmo de Retropropagacin del Gradiente Paso 1.- Iniciar los pesos de las conexiones de la red con valores aleatorios pequeos.
Paso 2.- Presentar uno de los conjuntos de entrada de la muestra a la red y calcular la salida
que se obtiene.
Paso 3.- Si no coincide la salida obtenida con la deseada ajustar los pesos como sigue:
j = N (N es el nmero de neuronas)
i=j
Mientras que j 0
{
- 241 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
min(alto/ancho,1).-
densidad normalizada.-
imagen de 8x8.-
- 243 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Figura 113.- Ejemplo de algunos de los caracteres usados para construir los conjuntos de
entrenamiento, validacin y test final del clasificador.
- 244 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Figura 114.- Imagen de una red de neuronas con 68 unidades de entrada (verde), 20
unidades ocultas (amarillo) y 10 de salida (rojo).
20 y 40 unidades ocultas
y dos capas ocultas
10 unidades ocultas
Sin unidades ocultas
Iteraciones de entrenamiento
Figura 115.- Resultado obtenido durante el entrenamiento de varios perceptrones multicapa
con diferentes estructuras, para el problema de reconocimiento de dgitos.
Punto timo
de generalizacin
Iteraciones de entrenamiento
Figura 116.- Curva que presenta el error obtenido con los patrones de entrenamiento y con
los de validacin del entrenamiento. El punto ptimo de generalizacin indica el punto en el
que se debe interrumpir el entrenamiento.
Patrn ledo por la red
0
0
1
Patrn presentado
2
17
1
17
1
17
1
18
17
17
16
17
18
18
Tabla 8
- 247 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Anexo B
Referencias
Bibliogrficas
[F+97]
[Gon00]
[GW93]
[Loo97]
[Mar93]
[Par97]
[Z+95]
[B+00]
- 250 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
[Cas96]
[CC01]
ACM/IEEE
http://www.acm.org/sigcse/cc2001/steelman.
[CI01]
[Fau93]
[Fau00]
[FH01]
[GH01]
[Gue99]
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
[HS92]
[KSK98] R. Klette, K. Schlns y A. Koschan, Computer Vision: ThreeDimensional Data From Images, Springer, 1998.
[Lan99]
[Mat99]
[Mat01]
[PG01]
[Tsa87]
[Ull96]
- 253 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
[Zue00]
B.3.1 Revistas
El lector interesado en el tratamiento digital de imgenes y visin artificial puede
consultar multitud de revistas dedicadas a la materia explicada. Tienen especial
relevancia:
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
IEEE Press.
Springer Verlag.
Academic Press.
Prentice Hall.
Kluwer Academic Publishers.
Elsevier Science.
Addison Wesley.
World Scientific Publishing Company.
John Wiley & Sons.
MIT Press.
CRC Press.
B.3.2 Software
Existen numerosas heramientas software que pueden adaptarse, total o
parcialmente para la enseanza de la visin por computador. Las mejores
herramientas son de pago, aunque tambin hay software libre que se puede utilizar
para estos propsitos. En la pgina web: The Computer Vision Homepage de la
Universidad de Carnegie Mellon (cuyo enlace aparece en esta seccin) existe un
apartado de software donde puede encontrarse una lista extensa de programas,
- 255 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Aplicaciones.
Bases de datos e ndices.
Sistemas de visin famosos.
Tcnicas de visin genricas.
Mtodos de extraccin de caractersticas geomtricas.
Fsica de la imagen.
Transformaciones y filtrados sobre imgenes.
Movimiento, seguimiento y anlisis de secuencias de imgenes.
- 257 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Informacin bibliogrfica.
- 259 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
- 260 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
- 261 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Anexo C
ndice alfabtico
BMP, 56
borde, 141
bordes, 101
brillo, 7
buja, 7
byte, 31
A
agrupamiento, 194
lbum de Brodatz, 125
algoritmo de etiquetado de
componentes conexas, 134
algoritmo de las distancias
encadenadas, 195
algoritmo de retropropagacin del
gradiente, 233
algoritmo de Warshall, 135
algoritmo k-medias, 195, 197
algoritmo MaxMin, 195, 196
apertura, 113
aprendizaje, 175, 187, 225
axn, 223
C
cmara oscura, 26
cmaras, 36
camino, 140
campos aleatorios, 155
capacidad discriminante, 170
captura, 21, 26
caractersticas discriminantes, 165
CCDs, 42
CCITT Grupo 3, 51
CCITT Grupo 4, 51
clulas nerviosas, 224
centro ptico de una lente, 27
centroide, 177
cierre, 114
B
background, 126
bastones, 8
Bitmap, 56
- 263 -
2002 y 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
clases, 165
clasificacin, 21
clasificador de los k-vecinos, 194
clasificador estadstico, 181
clasificador eucldeo, 177
clasificadores, 165
clasificadores a posteriori, 175
clasificadores apriorsticos, 175
clasificadores deterministas, 176
clasificadores no deterministas, 176
clustering, 154, 194
clusters, 156
C-Mos, 42
CMY, 18
cociente de Fisher, 173
cdigo de cadena, 158
coeficiente de correlacin, 172
coincidencia estructural, 115
colores primarios, 16
colores secundarios, 16
complementario, 110
componente conexa, 61
componente de borde, 141
compresin, 46
compresin Huffman, 48
compresores con prdida, 53
conectividad, 58
cnico, 203
conjuncin, 66
conjunto de aprendizaje, 168
conjunto de entrenamiento, 168, 227
conjunto de test, 168
conjunto de test del entrenamiento,
227
conjunto de validacin, 169, 227
contornos, 101
contraste, 8
convolucin, 81
D
dendritas, 223
deteccin de bordes, 132
diafragma, 37
diana, 40
diferencia, 111
digitalizacin, 26
dilatacin, 111
dispersin, 2, 173
distancia chessboard, 61
distancia de Mahalanobis, 181
distancia del tablero de ajedrez, 61
distancia del taxista, 61
distancia Eucldea, 61
distancia focal, 27
distancia Geomtrica, 61
distancia Manhattan, 61
distribucin espectral de energa, 3
disyuncin, 66
divisin, 67
DVD, 53
E
efecto fotoelctrico, 2, 41
eje de mnima inercia, 161
eje ptico, 27
elemento estructurante, 111
enfoque, 28
entrada total, 228
- 264 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
G
generalizacin, 169
generalizar, 226
GIF, 56
grano, 39
factor de divisin, 82
falsas correspondencias, 215
FFT, 98
fiabilidad, 170
filtrado paso alto, 96
filtrado paso bajo, 96
filtrado paso banda, 96
filtro, 65
filtro de la mediana, 84
filtro de Prewitt, 88
filtro de Roberts, 88
filtro del bicho raro, 84
filtros espaciales de convolucin, 81
Flujo Luminoso, 5
flujo radiante, 4
foco, 27
fotones, 2
Fourier, 90
Foveon, 42
frontera, 141
funcin de activacin, 224
funcin de filtrado espacial, 82
funcin de salida, 224
histograma, 70
hit or miss, 115
homografa, 211
HSV, 17
I
1/2
imgenes 2 D, 220
imgenes binarias, 32
imgenes bitonales, 32
imgenes de profundidad, 220
imgenes de rango, 220
imgenes en color real, 32
imgenes en niveles de gris, 32
independencia, 170
ndice de refraccin, 28
inferometra hologrfica, 217
inhibicin lateral, 8
Intensidad Luminosa, 7
intrnsecos, 206
J
JFIF, 56
- 265 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
JPEG, 53
JPEG2000, 53, 110
K
k-medias, 154
k-vecinos, 194
L
LMS, 233
luminancia, 7
LZ77, 48
LZW, 48
N
negacin, 66
neuronas, 224
neuronas de entrada, 224
neuronas de salida, 224
neuronas intermedias, 224
neuronas ocultas, 224
no supervisado, 155
no supervisados, 176
Nyquist, 33
M
maestro, 176
mapas de profundidad, 220
marcadores bsicos, 152
mscara de convolucin, 82
matiz, 11
matriz de confusin, 244
matriz de convolucin, 82
matriz de covarianzas, 171
matriz de proyeccin perspectiva,
209
mximo, 67
mtodo de Moire, 217
mtodo de segmentacin
supervisado, 156
mtodos activos, 217
mtodos de segmentacin no
supervisados, 156
mtodos pasivos, 217
mnimo, 67
modelo cnico, 203
modelo de lente fina, 26
modelo de Tsai, 216
modelo Pin-Hole, 203
O
objetivo, 36
obturador, 37
oclusin, 215
OCR, 124
offset de la imagen, 58
onditas, 109
operacin apertura, 113
operacin cierre, 114
operacin complementario, 110
operacin de conjuncin, 66
operacin de disyuncin, 66
operacin de negacin, 66
operacin diferencia, 111
operacin dilatacin, 111
- 266 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
operacin divisin, 67
operacin erosin, 112
operacin escalado, 68
operacin hit or miss, 115
operacin multiplicacin, 67
operacin reflexin, 110
operacin resta, 67
operacin rotacin, 69
operacin suma, 66
operacin traslacin, 68, 110
operaciones aritmtico lgicas, 66
operaciones geomtricas, 68
operaciones morfolgicas, 110
Q
quadtree, 150
R
rachas, 51
rango dinmico, 71
rasgos, 165
razn de compresin, 47
reconocimiento, 21
redes de neuronas artificiales, 224
redundancia relativa, 47
reflexin, 110
regla Delta, 233
repetitividad, 215
resolucin espacial, 30
resolucin radiomtrica, 31
resta, 67
restriccin epipolar, 212
retina, 7
retropropagacin, 226, 233
revelado, 37
RGB, 17
rotacin, 69
runs, 51
P
paletas, 35
patrn, 166
pelcula, 37
percepcin visual, 8
perceptrn, 224, 229
perceptrn multicapa, 230
perfiles de superficie, 220
peso, 224
PGM, 56
Pin-Hole, 203
plano de formacin de la imagen, 27
posteriori, 175
principio de optimalidad, 142
priori, 175
probabilidad a posteriori, 183
probabilidad a priori, 183
problema de registro, 221
procesamiento previo, 21
procesos sinpticos, 223
profundidad de campo, 38
programacin dinmica, 142
prototipo, 177
S
saturacin, 11
segmentacin, 21
segmentacin completa, 124
segmentacin parcial, 124
semiumbralizacin, 129, 130
sensibilidad a la intensidad, 8
sensores de rango, 43
seal de vdeo, 40
- 267 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
series de Fourier, 90
Sobel, 87
sobreentrenamiento, 227
split and merge, 149
substraccin de fondo, 157
suma, 66
supervisado, 155
supervisados, 176
U
umbral, 228
umbralizacin, 126
umbralizacin adaptativa, 129, 131
umbralizacin de banda, 129
umbralizacin fija, 127
umbralizacin variable, 131
universo de trabajo, 165
T
tarjeta digitalizadora de vdeo, 40
tasa de aprendizaje, 233
teorema de muestreo, 33
teora aditiva, 13
teora corpuscular, 2
teora de filtros, 65
teora del color, 2
teora onda-corpsculo, 2
teora ondulatoria, 2
teora triestmulo, 13
txel, 125
textura, 125
tiempo de exposicin, 38
tiempo de vuelo, 44, 217
TIFF, 56
tono, 11
transformacin de watershed, 151
transformada de Fourier, 91
V
validacin cruzada, 170
vecindad, 58
vector de caractersticas, 155
ventanas de Sobel, 87
vidicon, 40
vxel, 44
W
watershed, 151
wavelets, 109
- 268 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn