Vision Por Comput Ad or

ndice
CAPTULO 1
1.1.
INTRODUCCIN A LA VISIN ARTIFICIAL ............... 1
MODELO FSICO DE LA LUZ .................................................................. 1
1.1.1 La luz en la historia .................................................................... 1

1.1.2 Definiciones ................................................................................ 3
1.2.
MODELO FISIOLGICO ......................................................................... 7
1.2.1 Percepcin acromtica ............................................................... 8

1.2.2 Percepcin cromtica ............................................................... 11
1.2.3 Diagrama cromtico y teora triestmulo ................................. 13
1.3.
VISIN ARTIFICIAL ............................................................................ 19
1.3.1 Representacin de la realidad .................................................. 19

1.3.2 Etapas de un sistema de visin artificial .................................. 21
1.3.3 Configuracin informtica de un sistema de visin artificial... 22
1.4.
BIBLIOGRAFA DEL CAPTULO ............................................................ 22
CAPTULO 2
2.1.
ADQUISICIN Y REPRESENTACIN DE IMGENES

DIGITALES .......................................................................... 25
CAPTURA Y DIGITALIZACIN DE IMGENES....................................... 26
2.1.1 Modelos de captura de imgenes.............................................. 26

2.1.2 La digitalizacin ....................................................................... 30
2.1.3 Dispositivos de captura............................................................. 36
2.2.
REPRESENTACIN DE LA IMAGEN Y ESTRUCTURAS DE DATOS .......... 45
2.2.1 Estructura del fichero de imagen.............................................. 45

2.2.2 Compresin de imgenes .......................................................... 46
2.2.3 Formatos comerciales de representacin ................................. 56
2.3.
RELACIONES BSICAS ENTRE PXELES ............................................... 58
2.3.1 Relaciones de proximidad ......................................................... 58

2.3.2 Relaciones de distancia............................................................. 61
2.4.
2.5.
CONCLUSIONES AL CAPTULO ............................................................ 62

BIBLIOGRAFA DEL CAPTULO ............................................................ 62
-i-
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
ndice
CAPTULO 3
3.1.
FILTRADO Y REALZADO DE IMAGEN ....................... 65
OPERACIONES BSICAS ENTRE PXELES............................................. 66
3.1.1 Operaciones aritmtico-lgicas ................................................ 66

3.1.2 Operaciones geomtricas.......................................................... 68
3.2.
OPERACIONES SOBRE EL HISTOGRAMA .............................................. 70
3.2.1 Aumento y reduccin de contraste ............................................ 72

3.2.2 Ecualizado del histograma........................................................ 76
3.3.
FILTRADO ESPACIAL........................................................................... 81
3.3.1 Filtros de suavizado .................................................................. 83

3.3.2 Filtros de obtencin de contornos ............................................ 85
3.3.3 Filtro de la laplaciana .............................................................. 88
3.4.
3.4.1
3.4.2
3.4.3
3.4.4
3.5.
OPERACIONES EN EL DOMINIO DE LA FRECUENCIA............................ 89
Transformada de Fourier.......................................................... 90
Filtrado frecuencial ................................................................ 105
Teorema de convolucin ......................................................... 109
Otros operadores en el dominio de la frecuencia.................. 110
OPERACIONES MORFOLGICAS ........................................................ 110
3.5.1 Definiciones bsicas ............................................................... 111

3.5.2 Filtros morfolgicos................................................................ 116
3.5.3 Operaciones morfolgicas bsicas en imgenes de niveles de
gris .......................................................................................... 119
3.5.4 Aplicaciones de la morfologa matemtica............................. 120
3.6.
3.7.
CONCLUSIONES AL CAPTULO .......................................................... 122

BIBLIOGRAFA DEL CAPTULO .......................................................... 123
CAPTULO 4
4.1.
SEGMENTACIN............................................................. 125
CONCEPTOS BSICOS SOBRE SEGMENTACIN.................................. 125
4.1.1 La textura ................................................................................ 127

4.1.2 El contorno.............................................................................. 128
4.2.
SEGMENTACIN BASADA EN LA UMBRALIZACIN ........................... 128
4.2.1 Umbralizacin fija .................................................................. 129

4.2.2 Umbralizacin generalizada................................................... 131
4.3.
TCNICAS BASADAS EN LA DETECCIN DE CONTORNOS .................. 134
4.3.1 Segmentacin basada en las componentes conexas................ 135

4.3.2 Deteccin de contornos con filtros de gradiente .................... 140
- ii 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
ndice
4.4.
4.4.1
4.4.2
4.4.3
4.4.4
4.5.
TCNICAS BASADAS CRECIMIENTO DE REGIONES ............................ 149
Unin de regiones ................................................................... 150

Divisin de regiones................................................................ 151
Divisin y unin de regiones (split and merge).................. 151
Segmentacin basada en morfologa: watershed............... 153
OTROS ENFOQUES PARA LA SEGMENTACIN ................................... 155
4.5.1 Segmentacin basada en el color............................................ 155

4.5.2 Segmentacin basada en la textura......................................... 157
4.5.3 Segmentacin basada en el movimiento ................................. 159
4.6.
REPRESENTACIN DE OBJETOS SEGMENTADOS ............................... 159
4.6.1 Descripcin basada en el cdigo de cadena........................... 160

4.6.2 Descripcin basada en los Momentos..................................... 161
4.6.3 Descripcin basada en la transformada de Fourier............... 164
4.7.
4.8.

CAPTULO 5
5.1.
INTRODUCCIN A LOS CLASIFICADORES ............ 167
CARACTERSTICAS DISCRIMINANTES ............................................... 167
5.1.1 La muestra de aprendizaje...................................................... 170

5.1.2 Criterios para la seleccin de caractersticas ........................ 172
5.1.3 Procedimiento de seleccin..................................................... 176
5.2.
TIPOLOGA DE LOS ALGORITMOS DE CLASIFICACIN DE PATRONES 177
5.2.1 Clasificadores a priori y a posteriori ..................................... 177

5.2.2 Clasificadores supervisados y no supervisados...................... 178
5.3.
5.3.1
5.3.2
5.3.3
5.3.4
5.4.
CLASIFICADORES BASADOS EN LA DISTANCIA ................................. 178
Clasificador de distancia eucldea determinista a priori ....... 179

Clasificador estadstico a priori ............................................. 182
Clasificador de distancia con aprendizaje supervisado ......... 188
Clasificador de k-vecinos ms cercanos ................................. 196
ALGORITMOS DE AGRUPACIN DE CLASES ...................................... 196
5.4.1 Algoritmo de distancias encadenadas..................................... 197

5.4.2 Algoritmo MaxMin.................................................................. 198
5.4.3 Algoritmo de las k-medias....................................................... 199
5.5.
5.6.

- iii -
ndice
CAPTULO 6
6.1.
6.1.1
6.1.2
6.1.3
6.1.4
6.2.
INTRODUCCIN A LA VISIN TRIDIMENSIONAL 203
MTODO DEL PAR ESTEREOSCPICO................................................ 204
Visin monocular .................................................................... 204

Calibracin ............................................................................. 207
Visin estereoscpica.............................................................. 213
Conclusiones a la visin estreoscpica................................. 216
OTROS ENFOQUES PARA LA VISIN 3D ............................................ 218
6.2.1 Ejemplos de otros enfoques..................................................... 218

6.2.2 Imgenes de rango .................................................................. 222
6.3.
6.4.
ANEXO A
A.1.

CLASIFICACIN CON EL PERCEPTRN
MULTICAPA ..................................................................... 225
INTRODUCCIN A LAS REDES DE NEURONAS ARTIFICIALES ............. 226
A.1.1 El proceso de aprendizaje de una red..................................... 227

A.2.
A.3.
ESTRUCTURA DEL PERCEPTRN MULTICAPA ................................... 230

PROPIEDADES DEL PERCEPTRN MULTICAPA .................................. 233
A.3.1 Seleccin del nmero de capas ocultas................................... 233

A.4.
ALGORITMOS DE APRENDIZAJE PARA EL PERCEPTRN MULTICAPA 235
A.4.1 La regla Delta ......................................................................... 235

A.4.2 Generalizacin de la regla Delta............................................ 239
A.5.
A.5.1
A.5.2
A.5.3
A.5.4
A.6.
A.7.
ANEXO B
B.1
B.2
B.3
EJEMPLO DE RECONOCIMIENTO DE CARACTERES A MQUINA......... 242
Vector de caractersticas......................................................... 243

Construccin de la muestra .................................................... 243
Estructura de la red ................................................................ 244
Entrenamiento y ajuste de la red ............................................ 244
CONCLUSIONES AL CAPTULO. ......................................................... 247
BIBLIOGRAFA DEL ANEXO ............................................................... 247
REFERENCIAS BIBLIOGRFICAS ............................. 249
BIBLIOGRAFA BSICA ..................................................................... 249
BIBLIOGRAFA ADICIONAL ............................................................... 250
MATERIAL COMPLEMENTARIO ......................................................... 254
B.3.1 Revistas ................................................................................... 254

B.3.2 Software .................................................................................. 255
- iv 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
ndice
B.3.3 Imgenes de test ...................................................................... 256

B.3.4 Paginas Web............................................................................ 256
B.3.5 Asociaciones relacionadas con visin computacional............ 260
ANEXO C
NDICE ALFABTICO .................................................... 263
-v 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
ndice
- vi 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 1
Introduccin a la
Visin Artificial
En este tema se introducen una serie de conceptos fsicos y fisiolgicos

imprescindibles para entender el por qu de muchas decisiones de diseo que se
toman al construir los sistemas de visin computacional.
1.1. Modelo fsico de la luz

En general, desde el punto de vista del procesado digital de imagen, basta
considerar la luz como una onda. Segn el modelo ondulatorio las caractersticas
de un rayo de luz vienen completamente determinadas por dos propiedades: su
amplitud y su longitud de onda. Sin embargo, como se ver en el siguiente
apartado, el modelo ondulatorio no fue el primero que se propuso, ni tampoco, el
que mejor explica los fenmenos observados respecto a la luz.
1.1.1 La luz en la historia

La primera teora sobre el comportamiento de la luz fue probablemente debida a
Euclides (330 antes de Cristo) que supona que la luz era una especie de rayo
lanzado por el ojo hacia la cosa vista. Esta teora tiene diversos errores, quizs el
ms patente consiste en que no explica la oscuridad.
-1 2002 y 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 1 - Introduccin a la Visin Artificial

Ya en el ao 1000 de nuestra era, el rabe Alhacen afirm que la luz se
dirige desde una fuente que la emite hasta nuestros ojos, despus de ser reflejada
por los objetos vistos. Pero fue en el siglo XVII cuando se realizaron los mayores
progresos de la mano de Newton, que hizo notables avances en la teora del color
y la dispersin. Newton era defensor de una teora corpuscular, segn la cual la
luz estaba formada por un flujo de partculas proyectadas por un cuerpo luminoso.
Al mismo tiempo, otros cientficos, como Hooke y Huygens, defendan
una teora ondulatoria que explicaba mejor ciertos hechos como por ejemplo que
dos haces luminosos se crucen sin perturbarse. En este modelo se define el
concepto de rayo de luz como una lnea imaginaria paralela a la direccin de
propagacin de la onda. El principal problema de aquella teora ondulatoria
estribaba en que no exista ninguna evidencia emprica del medio en el que se
propagaba la onda y que debera llenar el espacio. Este medio, que se denomin
ter, se razon que debera tener una dureza altsima para permitir la alta velocidad
de propagacin que caracteriza a la luz. Por todo ello, y tambin quizs debido al
peso de la autoridad de Newton, la teora corpuscular se impuso a la ondulatoria
durante doscientos aos.
En el siglo XIX, los trabajos de Young, Fresnel y Foucault salvaron la
mayora de las objeciones propuestas por Newton a la teora ondulatoria
cosechando numerosos xitos en el campo de la ptica. El impulso definitivo a
favor de la naturaleza ondulatoria de la luz lo dio Maxwell en 1873 con su teora
electromagntica. sta explicaba la luz como una radiacin de naturaleza
ondulatoria que se puede propagar en el vaco, haciendo innecesaria la idea del
ter.
Sin embargo, hacia 1900 se constat un nuevo fenmeno, denominado
efecto fotoelctrico, que proporcion evidencias experimentales de que la luz tena
carcter corpuscular en su interaccin con la materia. Esto llev de nuevo al
replanteamiento de la naturaleza de la luz. Albert Einstein, Louis de Broglie y
otros construyeron una nueva teora que llamaron teora onda-corpsculo. Esta
teora considera la luz formada por unas partculas, los fotones, cada una de las
cuales tiene asociada una ecuacin de ondas. As, cuando la luz interacta con la
materia, como en el efecto fotoelctrico, se invoca a un modelo corpuscular para
explicar tal interaccin, mientras que para explicar fenmenos relativos a su
propagacin, como en la difraccin de los rayos X, se recurre a un modelo
-2 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

ondulatorio. Este modelo dual, onda-corpsculo, permite explicar la totalidad de
los fenmenos observados hasta la fecha.
1.1.2 Definiciones
Aunque las ondas luminosas constituyen una parte muy pequea del conjunto de
ondas electromagnticas, son especialmente interesantes porque tienen la
particularidad de que son captadas por los ojos y procesadas en el cerebro. El ojo
humano es capaz de distinguir radiaciones de longitudes de onda comprendidas
entre 400 y 700 nanmetros (1 nanmetro = 10-9 metros).
Nuestro sistema sensorial visual interpreta las diferentes amplitudes y
longitudes de onda de la luz, produciendo las sensaciones que conocemos como
brillo y color respectivamente. As por ejemplo, una onda electromagntica que
viaja por el vaco con una longitud de onda predominante de 680 nanmetros se
interpreta en el cerebro como la sensacin del color rojo.
400
480
Ultravioleta Azul
520
572
Verde
602
Amarillo
700 (nm)
Rojo
InfraRojo
Figura 1.- La parte de la radiacin electromagntica que constituyen las ondas luminosas
abarca desde el fin del ultravioleta 400 nm hasta el comienzo del infrarrojo 700 nm.
Distribucin espectral de energa

Una curva de distribucin espectral de energa representa la cantidad de energa
(en vatios) asociada a cada longitud de onda en una radiacin electromagntica.
Si se representa el diagrama espectral de una radiacin electromagntica
que posee una longitud de onda igual a 680 nm, se obtiene un grfico con un pico
en la longitud correspondiente a 680 nm y 0 en el resto (ver Figura 2). Una luz de
estas caractersticas, compuesta por una radiacin con una longitud de onda
determinada, se denomina luz monocromtica.

Potencia (w)
680 nm
Figura 2.- Diagrama espectral ideal de una luz roja.
En general, las radiaciones no son tan puras y resultan de la mezcla de

diferentes haces con diferentes longitudes de onda. Adems, cuanto ms
monocromtico sea un haz de luz menos energa tendr asociada y por tanto ser
menos perceptible. Por ello, los diagramas espectrales de los objetos que
encontramos en la naturaleza son ms parecidos a los de la Figura 3.
Potencia (w)
Potencia (w)
520 nm
(a)
(b)
Figura 3.- Diagramas espectral de una luz (a) con predominio de verde y de una luz (b)
blanca.
Flujo radiante
El flujo radiante es la cantidad de energa emitida por una fuente de ondas
electromagnticas por unidad de tiempo y se mide en vatios (ver Figura 4).
Potencia elctrica
Prdida por
conduccin
(calor)
Flujo radiante
Flujo Luminoso
radiacin
visible
Flujo no luminoso
(radiacin no visible)
Figura 4.- De la energa usada para producir luz, el humano slo percibe una pequea parte
que se denomina flujo luminoso.
Flujo luminoso
El flujo luminoso es la parte del flujo radiante detectada por el ojo (ver Figura 4).
La unidad de flujo luminoso es el lumen (L). Un lumen corresponde al flujo
luminoso procedente de una abertura de 1/60 cm2 en un cilindro de material
refractario que contiene un material patrn que radia a travs de un cono de
radiacin de un estereorradin. El flujo luminoso se puede medir con un fotmetro
y se representa con el smbolo .
Mediante experimentacin se ha definido la curva de la Figura 5, que
permite obtener, en lmenes, el flujo luminoso correspondiente a una luz
monocromtica de cualquier longitud de onda que tenga un flujo radiante igual a
un vatio. De este diagrama se deduce, por ejemplo, que una luz monocromtica de
1 vatio de potencia, de 600 nm produce una sensacin de luminosidad en el ojo
humano igual a 420 lmenes. Adems, en l se aprecia que el mayor rendimiento
de flujo luminoso se obtiene para las longitudes de onda correspondientes a los
tonos verdes.
Eficiencia Luminosa (Lumenes/vatio)
800
700
600
500
400
300
200
100
0
360
440
520
600
680
Longitud de onda (nm)
Figura 5.- Esta curva expresa el rendimiento luminoso de un flujo monocromtico en

funcin de la longitud de onda.
Esta curva, que llamaremos V(), permite definir la relacin (1.1). sta
permite calcular el flujo luminoso de una radiacin cuando se conoce su
distribucin espectral P().
= P( ) V ( ) d
0
(L)
(1.1)
Ejemplo 1.El flujo luminoso, en lmenes, de una energa radiante de 27 vatios de una fuente
luminosa monocromtica con una longitud de onda de entre 600 nm y 601 nm se
puede calcular usando el diagrama de la Figura 5. Sobre ste se ve que una luz
monocromtica de 600 nm produce un flujo luminoso de aproximadamente 420
L/w, por tanto si la potencia es de 27 w:
= 27 420 = 11340 (L)

Intensidad luminosa
La intensidad luminosa (1.2) es el flujo luminoso emitido por unidad de ngulo
slido (Figura 6). Se representa como I, y su unidad es la buja (b), que se
corresponde a un lumen/estereorradin. Puede comprobarse que la intensidad
luminosa es independiente de la distancia a la que se encuentra el manantial, y slo
vara segn la orientacin de la medicin.
I=
d
(b)
d
(1.2)
Figura 6.- Representacin del flujo luminoso que atraviesa un estereorradin.
Luminancia o brillo
La luminancia o brillo de un manantial es la intensidad luminosa por unidad de
superficie. As, por ejemplo, si una noche, sobre una ventana parcelamos regiones
de reas iguales, y medimos el brillo para una estrella y el brillo para una lmpara
cercana, encontraremos que es mayor para esta ltima, pues la intensidad luminosa
por unidad de superficie ser mayor. Sin embargo, la intensidad luminosa de esa
estrella ser mucho mayor que la intensidad luminosa de cualquier objeto de
nuestro entorno (como una lmpara), pues ya se ha dicho que la intensidad
luminosa no depende de la distancia.
1.2. Modelo Fisiolgico

Hasta ahora se ha hablado de la luz desde un punto de vista fsico. Sin embargo, la
correspondencia entre los fenmenos fsicos y lo que perciben nuestros sentidos no
es directa. Hay experimentos que demuestran que a veces nuestro sistema de
percepcin confunde elementos que son iguales, y a veces encuentra diferencias
entre elementos que son idnticos. Esto se debe a que nuestro sistema visual
impone ciertas limitaciones, algunas de las cuales se analizarn en este apartado.
El ojo es un rgano que captura la luz y la transforma en un impulso
neuronal que transmite al cerebro para su procesamiento. La luz, tras atravesar una
lente llamada cristalino, incide en una capa de clulas receptoras llamada retina,
que est situada en la parte anterior del ojo. Estas clulas en presencia de luz
generan impulsos neuronales que se envan al cerebro mediante el nervio ptico.

El cerebro procesa la informacin que recibe y genera sensaciones, en lo que se
conoce como el proceso de percepcin visual. A continuacin se describe la
percepcin acromtica (slo teniendo en cuenta el brillo, es decir la cantidad de
energa), y despus la percepcin cromtica (que tiene en cuenta el color, esto es,
la forma de distribuirse la energa en distintas longitudes de onda).
1.2.1 Percepcin acromtica

La percepcin del brillo de una imagen la realizan en el ojo los bastones (ver
Figura 7). Los bastones son unas clulas especializadas que tenemos en la retina,
en un nmero superior a 100 millones, que son capaces de detectar y medir el
brillo de los haces luminosos que les llegan. La sensacin de brillo est
relacionada con dos fenmenos:
La sensibilidad a la intensidad.
La inhibicin lateral.
Bastn
Retina
Cono
Crnea
Disco ptico
Fotorreceptores
Humor Vitero
Pupila
Cristalino
Ncleo
Iris
Nervio ptico
Conexiones
sinpticas
Figura 7.- A la izquierda una seccin del ojo humano. A la derecha una visin esquemtica
de las clulas fotorreceptoras.
Sensibilidad a la intensidad luminosa y el contraste

La sensibilidad a la intensidad es lo que dota de la capacidad de distinguir un nivel
de intensidad de otro. La diferencia de intensidad se denomina contraste. Se dice

que una escena tiene gran contraste si las diferencias de intensidad que contiene
son pronunciadas.
La sensibilidad a la intensidad en el ser humano es alta siempre que los
elementos que se comparan son pocos. Cuando el nmero de intensidades
involucradas simultneamente es superior a unos 24 tonos se pierde la mayor parte
de esta sensibilidad. Esto implica que, en la mayora de casos prcticos, sea
suficiente el uso de 32 64 niveles de intensidad para representar una imagen.
Los seres humanos son capaces de distinguir un rango muy amplio de
intensidades. Sin embargo la relacin entre la intensidad real de la luz reflejada
por un pigmento y la intensidad percibida por un humano no es lineal. La curva A
de la Figura 8 representa el brillo apreciado en relacin con el brillo fsico
reflejado por un pigmento. Se aprecia que el humano es capaz de distinguir
pigmentos de intensidades poco diferentes (como el a1 y el a2) cuando los cuerpos
que tienen esos pigmentos estn prximos espacialmente. Sin embargo, los
contrastes acentuados hacen que esta sensibilidad decrezca. Por ello, cuando hay
involucrados pigmentos con intensidades muy dispares simultneamente, como el
b y el c, la distincin entre intensidades prximas decrece. De manera que la
percepcin de a2 y a1 se sita en curvas similares a la B y a la C respectivamente,
que como se aprecia las hacen percibir como lejanas (a1 y a2).
A
a1
a1
a2
Intensidad
percibida
b
B
a2
Intensidad real
Figura 8.- La lnea A representa la relacin entre el brillo distinguido por el ojo humano y
el nivel de brillo real.

En la Figura 9 se puede comprobar este efecto. En ella se percibe que los
rectngulos interiores tienen intensidades distintas, cuando en realidad tienen la
misma. Se concluye que, aunque el sistema visual es capaz de percibir y distinguir
un amplio rango de niveles de brillo, disminuye su precisin cuando hay muchos
niveles involucrados a la vez, necesitando periodos de adaptacin a cada situacin.
Figura 9.- El color gris del cuadrado interior de la figura de la derecha parece ms oscuro
que el cuadrado interior de la figura de la izquierda, a pesar de que ambos estn tintados
con el mismo gris.
Inhibicin lateral
El otro fenmeno que se indicaba, la inhibicin lateral, se origina en el hecho de
que las clulas de la retina, al detectar un nivel de intensidad, inhiben las clulas
vecinas, produciendo perturbaciones en las fronteras de cambio de intensidad. Este
fenmeno, que puede apreciarse en la Figura 10, tambin influye en que el brillo
percibido no est en proporcin directa con el brillo fsico.
Figura 10.- La tonalidad de cada una de las franjas verticales de la figura de la izquierda es
uniforme. Sin embargo, al observarlas, parece que son ms oscuras por la derecha y ms
claras por la izquierda. El brillo percibido para cada banda se refleja en el diagrama de la
derecha.
- 10 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
1.2.2 Percepcin cromtica

La percepcin del color de una imagen la realizan los conos (ver Figura 7). Son
unas clulas especializadas, dispuestas en la retina en un nmero cercano a los 6
millones, que son capaces de variar su comportamiento ante cambios en la longitud
de onda de una radiacin electromagntica. Basndose en la informacin aportada
por los conos el cerebro construye la sensacin de color.
Los conos del ojo humano tienen una sensibilidad menor que los bastones.
Se dice popularmente que de noche todos los gatos son pardos, reflejando el
hecho de que con poca luz slo los bastones captan suficiente energa para
activarse.
Estudios fisiolgicos han revelado que existen tres tipos de conos, que se
han denominado mediante las letras S, L, y M. Los conos de tipo S (short) son ms
sensibles a las radiaciones con longitud de onda corta (azules), los M (medium) a
las radiaciones de longitud media (verdes), y los L (large) a las de longitud larga
(rojos). As, la sensacin de color que percibimos est relacionada con la energa
que tiene a diferentes longitudes de onda una radiacin electromagntica. Para
explicar tal relacin se definen el matiz y la saturacin.
Matiz
Los colores que normalmente vemos no proceden de fuentes monocromticas (y
por tanto no se corresponden con una nica longitud de onda). Por ejemplo la luz
blanca resulta de la suma de numerosas longitudes de ondas, o los tonos prpuras
resultan de combinar los colores rojo y azul, ambos en extremos opuestos del
espectro.
El matiz o tono es un concepto que se deriva de la relacin que se produce
entre las activaciones de los distintos tipos de conos cuando sobre ellos incide la
luz. El matiz depende de la longitud de onda dominante, es decir, aqulla para la
que se encuentra ms energa en el diagrama espectral (ver Figura 11). El ser
humano es capaz de distinguir entre 125 y 150 matices distintos cuando estn
prximos, perdiendo esa capacidad si estn distanciados espacialmente.

Por otro lado se debe destacar que hay matices que nos producen diferente
sensacin de color dependiendo de la intensidad a la que estn asociados. Por
ejemplo el matiz naranja, si tiene baja intensidad es percibido como marrn.
Potencia (w)
Potencia (w)
680 nm
(b)
(a)
Figura 11.- La figura de la izquierda no tiene una longitud de onda dominante, su matiz es
blanco. La figura de la derecha corresponde a un objeto rojo, siendo la longitud de onda
dominante la correspondiente a 680 nm.
Saturacin
Mide la proporcin entre la longitud de onda dominante y el resto de longitudes de
onda. En la Figura 12 se presenta un ejemplo de dos diagramas espectrales con el
mismo matiz, pero con diferente saturacin.

Potencia (w)
Potencia (w)
680 nm
(a)
680 nm
(b)
Figura 12.- Dos espectros con el mismo matiz. El de la izquierda corresponde a un rojo
muy saturado. El de la derecha a una luz roja poco saturada.
Definidos los conceptos de matiz, saturacin y brillo se dice que se ve un

color determinado cuando se percibe una cierta combinacin de estos tres
elementos.
La existencia de slo tres tipos de receptores, para percibir todos los
colores, es la base de la teora triestmulo.
1.2.3 Diagrama cromtico y teora triestmulo

Se ha comprobado experimentalmente que la mezcla aditiva de la luz emitida por
tres linternas, una roja, otra verde y otra azul, permite obtener una amplia gama de
colores. Sobre este hecho se sustentan multitud de dispositivos que generan
imgenes en color, como los tubos de los televisores y monitores, las pantallas de
cristal lquido, las pantallas de plasma, etc. Sin embargo, se ha demostrado que no
es posible obtener todos los matices que el ojo humano puede distinguir (que como
se ha dicho son ms que los que aparecen en el espectro) mediante mezcla aditiva
de tres linternas. Estos resultados se encuentran dentro de la denominada teora
triestmulo o teora aditiva.
En la dcada de los aos 20 del siglo XX D. Wright y J. Guiad, de manera
independiente, realizaron una serie de experimentos relacionados con la
percepcin del color. Estos experimentos consistan en pedir a una serie de
personas que modificasen la intensidad de tres linternas para igualar el color

(matiz, saturacin y brillo) de una cuarta linterna. En estos experimentos se utiliz
una luz roja, una verde y una azul1.
Cuando en algn caso el sujeto no lograba igualar las luces, se le aada al
azar cierta cantidad de luz al color de la cuarta linterna. Esa misma luz se restaba
luego de la utilizada por el sujeto en las otras tres linternas. Tras estos
experimentos se obtuvieron tres curvas que se normalizaron de manera que la
curva para el verde se correspondiese con la del rendimiento luminoso (V()). Al
tener que usar una componente negativa queda patente que no es posible generar
toda la gama de colores que el ojo puede percibir mediante mezcla aditiva de tres
linternas. Sin embargo debe observarse que s es posible expresar
matemticamente todos los colores como combinacin lineal2 de tres linternas.
Posteriormente, en 1931 la Comisin Internacional de Iluminacin (C.I.I.)
adapt estos resultados con objeto de obtener una descripcin ms til del espacio
de color. Esta comisin convino expresar qu cantidad, en Lmenes, tiene que
emitir cada una de tres linternas patrn para expresar todos los matices del
espectro de manera aditiva (ver Figura 13). Los colores de estas tres linternas, que
se denominaron a, b y c, se encuentran fuera del dominio de los colores reales,
pero esto carece de importancia, puesto que las cantidades luz de estas linternas
necesarias para igualar cualquier matiz del espectro, se calculan por mtodos
matemticos a partir de las curvas de Wright y Guiad.
Para obtener un color determinado se toma A como la cantidad del
componente a, B como la cantidad del componente b, y C como la cantidad del
componente c. Ahora, con objeto de normalizar A, B y C, se plantean las siguientes
relaciones:
Las tres luces eran radiaciones monocromticas, la verde tena una longitud de onda de
546.1 nm, la azul de 435.8 nm, y la roja de 700 nm. Tanto la verde como la azul fueron
elegidas por ser fcilmente producidas por una lmpara de descarga de mercurio, mientras
que la roja se eligi por corresponder al valor ms alto de respuesta medido en el humano
para el rojo.
2
La mezcla aditiva puede realizarse en la realidad sin ms que mezclar la luz de las
linternas. La combinacin lineal debe permitir la resta de luces, cosa que no es posible
fsicamente.
x=
A
B
C
, y=
, z=
A+ B +C
A+ B+C
A+ B+C
Evidentemente x+y+z=1, con lo que el valor de z depende de los valores de

x e y. Por ello slo son necesarias las magnitudes x e y para definir cualquier color.
Representando en un plano XY el color asociado a cada punto (x,y,z) se obtiene el
grfico de la Figura 14 (a).
2,5
c
Lumenes
2
1,5
a
b
1
0,5
0
360
440
520
600
680
760
Longitud de onda (nm)
Figura 13.- Curvas fijadas por la C.I.I., mediante experimentacin con personas. Reflejan
el nmero de lmenes percibidos para cada una de las tres linternas monocromticas (a , b y
c) usados al igualar un vatio de flujo radiante de cada longitud de onda del espectro.

Verdes
Amarillos
Cyanes
Rojos
Magentas
Azules
(a)
(b)
Figura 14.- Diagrama Cromtico del C.I.I.
Este diagrama con forma de lengua representa los colores que en media
puede ver un humano. Los colores del borde curvo se corresponden con los del
espectro, mientras que los del borde recto no pueden obtenerse mediante luces
monocromticas.
El diagrama cromtico C.I.I cumple que tomando dos puntos P1 y P2
interiores a l, la gama de colores que se obtiene mezclando de manera aditiva la
luz de dos linternas con esos colores, se corresponde con los colores existentes
entre esos dos puntos en el diagrama. Sin embargo se debe sealar que las
proporciones de intensidad necesarias para obtener los colores intermedios entre P1
y P2 no varan de manera lineal.
Se observa que hay colores que se pueden obtener por mezcla aditiva de
otros. Estos colores, que en la teora aditiva se denominan primarios, se
corresponden con los matices de rojo, verde y azul. Los colores intermedios entre
el rojo, el verde y el azul son el cyan, el magenta y el amarillo, y se llaman
secundarios en la teora aditiva.

As, los matices comprendidos dentro del tringulo definido por los puntos
R, G y B3 de la Figura 14 (b) son aqullos que se pueden obtener por mezcla
aditiva de tres linternas con los matices correspondientes a los vrtices del
tringulo. Por eso en los televisores y en otros dispositivos similares, se debe elegir
cuidadosamente cada uno de los tres matices (rojo, verde y azul) que se usarn
para construir las imgenes. Esta eleccin debe realizarse de manera que el rea
del triangulo dentro del diagrama C.I.I. sea mxima, y as poder representar un
nmero mayor de colores.
El diagrama C.I.I. da lugar a otro tipo de representacin denominado HSV
(Matiz Saturacin y Luminosidad4). Esta representacin puede considerarse como
un superconjunto de una representacin RGB. Una descripcin ms amplia de los
modelos de representacin del color puede encontrarse en [F+97].
Figura 15.- A la izquierda mezcla aditiva de la luz tres linternas sobre una superficie blanca
no iluminada. A la derecha mezcla substractiva de tres tintes sobre un lienzo blanco.
Pigmentos
Cuando la luz choca con una superficie pigmentada no se produce una reflexin
especular. Al contrario, la luz penetra en el pigmento y sufre numerosos choques
3
RGB por red, green, blue.
Hue-Saturation-Value en ingls.

contra las molculas que lo componen. En cada choque la luz pierde aquellas
componentes que esa molcula del pigmento no refleja. Por ello, usando pigmentos
no se realiza una mezcla aditiva de haces de luz, sino una mezcla substractiva
resultado de restar a la luz blanca las componentes que absorbe el pigmento.
Puede entenderse que al mezclar dos pigmentos se est creando un nuevo
pigmento que slo refleja aquellas componentes de la luz que reflejaban a la vez
cada uno de los pigmentos originales. Nuevamente, se trata de escoger
adecuadamente una base de colores, para que la gama de matices que se pueda
representar mezclando componentes de esta base sea lo ms extensa posible.
Por ejemplo, si se toma la base: rojo, verde, y azul (RGB). Mezclando tinta
roja (cuyas partculas solo reflejan luz en torno al matiz rojo) y tinta verde (que
solo refleja luz en torno al matiz verde), se obtiene una tinta con partculas que
absorben casi toda la radiacin y no refleja ninguna, por lo que aparece el color
negro. Esto ocurre porque el solapamiento entre las regiones de no absorcin de
las dos tintas es pequeo. Mezclando rojo y azul o verde y azul ocurre lo mismo.
Por ello el rojo, el verde y el azul forman una base que, fuera de los tres colores
que posee, no permite obtener muchos ms de manera substractiva.
Si la base es celeste, magenta y amarillo (CMY5) el nmero de colores que
se pueden obtener de manera substractiva es mayor. Esto se debe a que estos
colores se perciben utilizando conos receptores para el rojo, el verde y el azul. As,
por ejemplo, al mezclar un tinte amarillo (que refleja luz con componentes desde
el rojo y al verde) con otro tinte magenta (que refleja componentes desde el azul y
al rojo) se obtiene un tinte que en conjunto absorbe el azul y el verde pero refleja
el rojo. As, mientras que la base RGB no permite obtener el color amarillo de
manera substractiva, la CMY s permite obtener el rojo. Este ejemplo ilustra por
qu los dispositivos que emiten rayos luminosos (como los tubos de rayos
catdicos y los dispositivos LCD de los monitores y de las televisiones) eligen la
base RGB, mientras que las impresoras, que usan papel y tinta, toman como base
la CMY.
Cyan, magenta, yellow.

Si representamos sobre los tres ejes de 3 cada una de las componentes
RGB y asignamos valor 1 al mximo brillo en cada componente encontraremos
que si el origen de la base RGB est en la posicin (0,0,0), el origen de la base
CMY estar en la posicin (1,1,1) y el sentido de los ejes ser opuesto. Esto se
puede expresar mediante la relacin (1.2).
r
c

g = 1 m
b
y

(1.2)
1.3. Visin Artificial

La visin artificial tiene como finalidad la extraccin de informacin del mundo
fsico a partir de imgenes, utilizando para ello un computador. Se trata de un
objetivo ambicioso y complejo que actualmente se encuentra en una etapa
primitiva.
1.3.1 Representacin de la realidad

Un sistema de Visin Artificial acta sobre una representacin de una realidad
que le proporciona informacin sobre brillo, colores, formas, etctera. Estas
representaciones suelen estar en forma de imgenes estticas, escenas
tridimensionales o imgenes en movimiento.
Imgenes
Una imagen bidimensional es una funcin que a cada par de coordenadas (x, y)
asocia un valor relativo a alguna propiedad del punto que representa (por ejemplo
su brillo o su matiz). Una imagen acromtica, sin informacin de color, en la que a
cada punto se le asocia informacin relativa al brillo, se puede representar como
una superficie (ver Figura 16), en la cual la altura de cada punto indica su nivel de
brillo. Una imagen en color RGB se puede representar asociando a cada punto una
terna de valores que indica la intensidad de tres linternas (una roja, otra verde y
otra azul). Una imagen de color de espectro completo se puede representar
asociando a cada punto un diagrama espectral de emisin de color.
Figura 16.- La imagen plana (2D) de la derecha puede presentarse como una superficie. En
ella la coordenada z para el punto (x, y) corresponde al brillo que tiene en la imagen plana.
Escenas 3D
Otra forma de representar la realidad consiste en asignar a cada punto del espacio
que pertenece a un objeto (x, y, z) una propiedad del punto (su existencia, su
intensidad, su matiz, etctera.). Al trabajar con imgenes 3D, como se tiene la
forma de los objetos, la informacin de brillo y color puede no ser tan relevante.
Secuencias animadas
Un punto con un brillo suficiente que parpadee con una frecuencia superior a 25
pulsos por segundo ser percibido como un punto brillante fijo por nuestros
sentidos. ste efecto es el usado en cine y televisin para crear la ilusin del
movimiento. As, cuando una cmara cinematogrfica toma sucesiones de
imgenes estticas que se capturan a una frecuencia determinada, si estas
sucesiones de imgenes se presentan luego a una frecuencia superior a 25
imgenes por segundo, el sistema visual humano no es capaz de distinguir el
cambio e interpreta movimiento.
1.3.2 Etapas de un sistema de visin artificial

Se ha visto que el ser humano captura la luz a travs de los ojos, y que esta
informacin circula a travs del nervio ptico hasta el cerebro donde se procesa.
Existen razones para creer que el primer paso de este procesado consiste en
encontrar elementos ms simples en los que descomponer la imagen (como
segmentos y arcos). Despus el cerebro interpreta la escena y por ltimo acta en
consecuencia. La visin artificial, en un intento de reproducir este
comportamiento, define tradicionalmente cuatro fases principales:
La primera fase, que es puramente sensorial, consiste en la captura o

adquisicin de las imgenes digitales mediante algn tipo de sensor.
La segunda etapa consiste en el tratamiento digital de las imgenes, con

objeto de facilitar las etapas posteriores. En esta etapa de procesamiento
previo es donde, mediante filtros y transformaciones geomtricas, se
eliminan partes indeseables de la imagen o se realzan partes interesantes
de la misma.
La siguiente fase se conoce como segmentacin, y consiste en aislar los

elementos que interesan de una escena para comprenderla.
Por ltimo se llega a la etapa de reconocimiento o clasificacin. En ella se

pretende distinguir los objetos segmentados, gracias al anlisis de ciertas
caractersticas que se establecen previamente para diferenciarlos.
Estas cuatro fases no se siguen siempre de manera secuencial, sino que en

ocasiones deben realimentarse hacia atrs. As, es normal volver a la etapa de
segmentacin si falla la etapa de reconocimiento, o a la de preproceso, o incluso a
la de captura, cuando falla alguna de las siguientes.
Captura
Preproceso
Segmentacin
Reconocimiento
Figura 17.- Diagrama de bloques de las etapas tpicas en un sistema de visin artificial.
1.3.3 Configuracin informtica de un sistema de visin

artificial
Aunque se pueden proponer configuraciones muy avanzadas, por ejemplo
incluyendo hardware especfico para acelerar ciertas operaciones, los elementos
imprescindibles son:
Un sensor ptico para captar la imagen: Una cmara de vdeo, una

cmara fotogrfica, una cmara digital, un escner... unindole un
conversor analgico-digital cuando sea preciso.
Un computador que almacene las imgenes y que ejecute los

algoritmos de preprocesado, segmentacin y reconocimiento de la
misma.
1.4. Bibliografa del captulo

[GW93] caps. 1 y 2.
[Bax94] caps. 1 y 2.
[F+97] cap. 13.
[Cas 85] caps. 32, 33 y 35.
Captulo 2
Adquisicin y
representacin de
imgenes digitales
Este captulo trata los aspectos ms relevantes del proceso de captura y

digitalizacin de una imagen, esto es, la adquisicin de la imagen del mundo fsico
y su paso al dominio discreto y virtual informtico.
Una vez digitalizada una imagen bidimensional digital est constituida por un
conjunto de elementos llamados pxeles6. Cada pxel ofrece cierta informacin
sobre una regin elemental de la imagen. En imgenes en niveles de gris esta
informacin es el brillo. En imgenes en color, la informacin corresponde a la
intensidad de cada una de las componentes de una base de color (por ejemplo
RGB). Dentro de este captulo tambin se repasan las tcnicas de compresin, que
buscan la forma ms eficiente de almacenar las imgenes digitales.
Se finaliza el captulo con el estudio de las relaciones bsicas que se pueden
establecer entre los pxeles de una imagen.
Del ingls pxel que abrevia a picture element.
- 25 2002 y 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 2 - Adquisicin y representacin de imgenes digitales
2.1. Captura y digitalizacin de imgenes

Las imgenes digitales son seales discretas, que suelen tener origen en una
seal continua. Por ejemplo, una cmara digital toma imgenes del mundo real
que es continuo (tanto el espacio, como el espectro de la radiacin reflejada por los
objetos se consideran continuos); otro ejemplo es el de un escner, el cual
digitaliza imgenes procedentes de documentos o fotografas que a efectos
prcticos tambin se consideran continuos.
En el proceso de obtencin de imgenes digitales se distinguen dos etapas.
La primera, conocida como captura, utiliza un dispositivo, generalmente ptico,
con el que obtiene informacin relativa a una escena. En la segunda etapa, que se
conoce como digitalizacin, se transforma esa informacin, que es una seal con
una o varias componentes continuas, en la imagen digital, que es una seal con
todas sus componentes discretas.
2.1.1 Modelos de captura de imgenes

A grandes rasgos, para capturar una imagen se suele distinguir entre dispositivos
pasivos (basados generalmente en el principio de cmara oscura) y dispositivos
activos (basados en el escaneo). Esta clasificacin no incluye todas las formas
posibles de creacin de imgenes, como por ejemplo la construccin de imgenes
sintticas.
El modelo de lente fina
Desde hace mucho tiempo es conocida la manera de formar una imagen utilizando
el principio de cmara oscura. Este dispositivo pasivo est constituido por una caja
cerrada, conocida como cmara, en una de cuyas paredes existe un orificio que
permite el paso de la luz. La luz, tras entrar en la cmara, se proyecta sobre la
pared opuesta a la que tiene el orificio, obtenindose all una imagen invertida de
la escena que est fuera de la cmara. Cardan, en 1550, tuvo la idea de colocar una
lente delante de dicho orificio para aumentar la luminosidad. Para explicar el
funcionamiento del conjunto se usa el modelo de lente fina.
El modelo de lente fina explica que una lente de grosor despreciable y
perfectamente biconvexa permite recoger la luz de una escena y proyectarla de

manera ntida sobre una superficie llamada plano de formacin de la imagen. Este
comportamiento es posible gracias a las propiedades que tiene tal lente:
Es una lente biconvexa de grosor despreciable que posee un plano de

simetra y un eje de simetra denominado eje ptico. El centro ptico es el
punto interior a la lente donde se corta el eje ptico y el plano de simetra.
Todo haz de luz que pasa por el centro ptico de una lente fina contina en
lnea recta (Figura 18 a).
Todos los haces paralelos que inciden perpendiculares al plano de simetra

de una lente fina, tras atravesarla, se cortan en un punto llamado foco
(Figura 18 a) situado sobre el eje ptico. Se define distancia focal como la
distancia del foco al centro ptico de la imagen.
Sea un punto P, que se encuentra a una distancia de la lente fina mucho

mayor a la distancia focal. Todos los rayos que provengan de P, tras
atravesar la lente, se cortan en un punto llamado punto de formacin de la
imagen (Figura 18 b).
Lente
Lente
Rayos de Luz
P lano de
formacin de la
Image n
Distancia Focal
Fo co
C
Eje ptico
Punto de fo rmacin
de la imagen
E je axial de la lente
C = Centro ptico de la lente
(a)
(b)
Figura 18.- Trayectoria seguida por la luz al atravesar una lente fina. (a) los haces paralelos
que inciden perpendiculares al eje de la lente se cortan en el foco. En (b) los haces
provenientes de un mismo punto objeto se cortan en el punto de formacin de la imagen.
De esta ltima propiedad se deduce que los puntos de formacin de la

imagen correspondientes a puntos P que estn a la misma distancia de la lente,
forman un plano perpendicular al eje ptico de la lente, que es el plano de

formacin de la imagen. As, a una figura formada por un conjunto de puntos P
que equidistan de la lente se corresponde una figura semejante, aunque invertida,
en el plano de formacin de la imagen.
La distancia del plano de formacin de la imagen al eje plano de simetra
de la lente est relacionada con la distancia del punto P al mismo y con la distancia
focal de la lente. Si llamamos S0 a la distancia del punto P a la lente, Si a la
distancia de la lente al plano de formacin de la imagen para ese punto P y f a la
distancia focal, se cumple la relacin:
1
1
1
=
Si S0
f
(2.1)
Sobre la Figura 18 se aprecia que el punto de formacin de la imagen est

contenido dentro del plano de formacin de la imagen. Sin embargo, de la formula
(2.1) se deduce que no es posible esta coincidencia simultneamente para puntos
que estn a diferentes distancias de la lente. As, la variacin de la distancia del
plano de formacin de la imagen respecto de la lente, permite concentrar ms o
menos los haces procedentes del punto P sobre tal plano. Este proceso se conoce
como enfoque.
Por otro lado Si/S0 corresponde a la relacin de aumento entre la imagen
real y la imagen proyectada.
Las lentes reales se construyen utilizando un material transparente llamado
vidrio ptico, mezcla de productos qumicos como el xido de bario, lantano y
tntalo. Las lentes se disean con una geometra tal que se obtengan los resultados
descritos, utilizando fundamentalmente una propiedad de la luz que consiste en su
cambio de direccin al pasar de un medio a otro. Segn esta propiedad el ngulo
del cambio de direccin depende del medio que se atraviese y del ngulo del rayo
de luz con la normal a la superficie que separa los dos medios. El ndice de
refraccin mide la dependencia de este cambio respecto al medio atravesado. Por
ejemplo, el vaco tiene ndice de refraccin 10, el agua 1333, el vidrio normal
1528 y el vidrio que se suele usar en ptica 1519.
Una lente como la descrita en el modelo de lente fina no puede
conseguirse en la realidad debido a problemas inherentes a la tecnologa de
fabricacin de componentes pticos. Por ejemplo, las lentes reales tienen un grosor

que no es despreciable y esto provoca aberraciones cromticas7. Otra diferencia
con el modelo de lente fina radica en que el grosor del vidrio vara a lo largo de la
lente y esto crea aberraciones esfricas8. Otros aspectos que desvan su
comportamiento del ideal son la existencia de defectos en el cristal o la no
ausencia total de color en el mismo.
Es por todo esto que las propiedades descritas para el modelo de lente fina
slo se cumplen de manera aproximada en la realidad, aunque en general, cuanto
mejor sea la calidad de una lente ms se aproximar su comportamiento al ideal.
La cmara oscura
El principio de cmara oscura, descrito en el punto anterior, se puede usar para
capturar imgenes de escenas tridimensionales (del mundo real) y proyectarlas en
un plano bidimensional. Dispositivos de este tipo son las cmaras fotogrficas y
las cmaras de vdeo. Este modelo adems se puede usar para capturar imgenes
de elementos bidimensionales, como fotografas y documentos, como por ejemplo
hacen los escneres de cmara. Tambin se pueden usar dos o ms cmaras para
capturar diferentes perspectivas de una misma escena y construir una
representacin 3D de la misma (ver Captulo 6).
El escaneo
Este esquema es fundamentalmente distinto del basado en cmara, ya que existe un
elemento activo (generalmente un haz de luz lser) que recorre la escena que se
desea capturar. Por tanto son imprescindibles dos dispositivos, uno emisor del haz
de luz y otro el receptor. El escner emite el haz de luz y ste, tras chocar con la
imagen que se escanea, es recogido en el detector de luz. Repitiendo este proceso
7
La aberracin cromtica se debe a que el ndice de refraccin es diferente segn la
longitud de onda de la luz que atraviesa la lente. As, diferentes colores dan lugar a
diferentes planos de formacin de la imagen, y esto da lugar a la aparicin de bandas de
colores en los bordes de los objetos dentro de una imagen.
8
La distorsin esfrica se origina al existir diferente plano de formacin de la imagen para

los rayos que atraviesan la zona ms gruesa de la lente que para los que atraviesan la zona
ms delgada de la misma.

de manera continua se puede construir una seal que corresponde a una
representacin de la escena.
Los dispositivos basados en el escaneo tambin se usan con diferentes
fines. As, los escneres-lser pueden capturar escenas 3D directamente, y los
escneres de tambor permiten capturar imgenes de elementos bidimensionales.
Los dispositivos basados en cmara aventajan a los basados en escaneo en
velocidad. Adems son ms simples y se parecen ms al sistema visual humano. Es
de prever que, con el tiempo, los modelos de cmara terminen superando tambin a
los de escaneo en cuanto a calidad de la imagen obtenida, ya que su principal
cuello de botella, que se encuentra actualmente en el elemento digitalizador,
parece que puede ser mejorado sensiblemente con nuevos desarrollos tecnolgicos.
2.1.2 La digitalizacin
Es el proceso de paso del mundo continuo (o analgico) al mundo discreto (o
digital). En la digitalizacin normalmente se distinguen dos procesos: el muestreo
(sampling) y la cuantizacin (quantization).
Muestreo
El muestreo de una seal continua consiste en la medicin a intervalos
(discretizacin) respecto de alguna variable (generalmente el tiempo o el espacio),
siendo su parmetro fundamental la frecuencia de muestreo, que representa el
nmero de veces que se mide un valor analgico por unidad de cambio.
Mediante el muestreo se convierte una imagen IC, que es algo continuo, en
una matriz discreta ID de NM pxeles. El nmero de muestras por unidad de
espacio sobre el objeto original conduce al concepto de resolucin espacial de la
imagen. sta se define como la distancia, sobre el objeto original, entre dos pxeles
adyacentes. Sin embargo la unidad de medida de resolucin espacial ms habitual
suele ser los pxeles por pulgada (comnmente DPIs9) siempre medidos sobre el
objeto original.
Dots per inch en ingls.

De esta forma, el proceso de muestreo, para una imagen, que asocia a cada
punto un valor real, cambia una imagen del formato:
IC(x, y) en donde x, y
al formato:
ID(x, y) en donde x, y N y 0xN-1 , 0yM-1
que se puede representar en forma matricial:
I D (0,1)
...
I D (0, M 1)
I D (0,0)
I D (1,1)
...
I D (1, M 1)
I D (1,0)
ID(x, y) =
...
...
I ( N 1,0) I ( N 1,1) ... I ( N 1, M 1)

D
D
D
Cuantizacin
La segunda operacin es la cuantizacin de la seal, que consiste en la
discretizacin de los posibles valores de cada pxel. Los niveles de cuantizacin
suelen ser potencias de 2 para facilitar el almacenamiento en el computador de las
imgenes, ya que stos utilizan el byte10 como unidad mnima de memoria
directamente direccionable. As, suelen usarse 2, 4, 16 256 niveles posibles. De
esta forma, ID que pertenece a se convierte en IDC (discreta cuantizada) que
pertenece a N. El nmero de niveles posibles define la resolucin radiomtrica.
IDC (x, y) N
10
Un byte est compuesto de 8 bits. Un bit es la unidad mnima de informacin en un
computador y puede tomar valores 0 y 1, lo que permite al byte representar 256 nmeros.

Donde,
x, y N y 0 x N-1 , 0 y M-1
0 IDC (x, y) 2q-1
Cuando las imgenes slo tienen informacin sobre el brillo se habla de
imgenes en niveles de gris y se suelen utilizar hasta 256 niveles para representar
los tonos intermedios desde el negro (0) hasta el blanco (255). Si slo se permiten
dos niveles de cuantizacin (normalmente blanco y negro) se habla de imgenes
bitonales o imgenes binarias. Para el caso del color suelen usarse 256 niveles
para representar la intensidad de cada uno de los tres colores primarios (RGB). De
esta forma se obtienen 16 millones de colores aproximadamente (256x256x256) y
se habla de imgenes en color real. En algunos casos puede necesitarse mayor
resolucin radiomtrica y se usan 4096 niveles por banda de color en vez de 256, o
incluso ms.
N
M
Bitonal
(N/8) x M bytes
N
M
256 colores
N x M bytes
N
M
3 x N x M bytes
Color real
Figura 19.- Diferentes tipos de imgenes digitales y su tamao en bytes.

En ocasiones el sistema de almacenamiento de imgenes impone
restricciones como que cada una de las M lneas que componen una imagen
ocupen un valor mltiplo de 1 byte o de 4 bytes. As, para el caso bitonal forzando
alineamiento de 32 bits el ancho en bytes sera: N/8 + (N%32 >> (N/32)). Y
forzndolo de 8 bits sera: N/8 + (N%8 >> (N/8)). En el caso de 256 colores y
forzando alineamiento de 32 bits el ancho sera: N + (N%4 >> (N/4)).
Eleccin de las resoluciones espaciales y radiomtricas
El proceso de digitalizacin requiere evaluar qu resolucin espacial y qu
resolucin radiomtrica se precisan para representar adecuadamente una imagen.
Dicho de otra forma, con qu frecuencia se muestrean los pxeles (frecuencia de
muestreo), y qu gama de colores se permite (eleccin de la paleta).
La conjetura de muestreo de Nyquist (posteriormente convertida en
teorema por Shannon) establece la frecuencia mnima que es preciso aplicar para
poder recuperar sin errores una seal. El teorema establece que la frecuencia de
muestreo debe ser al menos el doble de la mxima frecuencia con la que cambian
los elementos que se quieran capturar en la seal. Por ejemplo, si se ha impreso
una hoja de papel con una impresora configurada a 200 DPIs, el proceso de
escaneo, necesario para obtener una representacin fiel de tal papel, debe
realizarse muestreando al menos a 400 DPIs.
Tambin hay que tener en cuenta que dependiendo del uso que se vaya a
hacer de una imagen, la eleccin de los parmetros de digitalizacin puede variar
de una forma menos objetiva. As, para la publicacin de un peridico en blanco y
negro, 16 niveles de intensidad podran ser suficientes, pero elegir menos de 80
por 80 pxeles por pulgada de resolucin espacial sera inadmisible; mientras que
para una imagen, con vistas a su reconocimiento, aunque podra ser preciso utilizar
ms niveles de intensidad, se podra permitir una resolucin espacial menor.
Para ilustrar estos aspectos en la Figura 20 se presenta la imagen de Lena11
digitalizada con diferentes resoluciones espaciales y radiomtricas.
11
La imagen de Lena es una imagen clsica dentro del mundo del procesado digital de
imgenes. Es una imagen de una chica, aparecida en la publicacin Play Boy en 1972,
256 Niveles de intensidad

160 x 160 pxeles

80 x 80 pxeles

16 x 16 pxeles
160 x 160 pxeles
160 x 160 pxeles
160 x 160 pxeles
Figura 20.- En la fila superior se presenta la misma imagen, siempre a 256 niveles de
intensidad, usando diferentes resoluciones espaciales. En la fila inferior se mantiene la
resolucin espacial y se reduce el nivel de cuantizacin.
En la Figura 21b se presenta otro ejemplo, en l se aprecia cmo una

reduccin de la resolucin espacial de la imagen, conseguida dejando uno de cada
4 pxeles, produce una prdida de la legibilidad del documento binario de la Figura
21a. Dicha prdida no sera tan patente si se hubiese usado un mtodo de
reescalado ms adecuado, como por ejemplo el que consiste en construir una
imagen que interpola los valores de cada grupo de 4 pxeles aumentado la
resolucin radiomtrica para representarlos (ver Figura 21c). Este mtodo de
reescalado implica un intercambio no reversible de valores entre la resolucin
escaneada por un investigador desconocido. La ventaja de operar sobre imgenes estndar

radica en que permiten comparar los resultados que se obtienen con los que han obtenido
otros investigadores.

espacial (que disminuye) y la radiomtrica (que aumenta). En particular, en la
Figura 21c se construye cada pxel de la imagen reducida interpolando su valor a
partir de los 4 pxeles correspondientes de la imagen original.
(b)
)
(c)
(a)
Figura 21.- Efecto de la reduccin de resolucin sobre una imagen. La imagen (a)
corresponde a un texto y se ha tomado con un escner bitonal; en (b) la misma imagen tras
reducir su resolucin en un 50% respecto de la original conservando uno de cada cuatro
pxeles; en (c) la misma imagen tras reducir su resolucin en un 50% interpolando.
Muestreo y cuantificacin no uniformes

Hasta ahora se ha tratado el concepto de muestreo y cuatizacin como si fuese un
proceso uniforme. El muestreo no uniforme consiste en el uso de diferente
frecuencia de muestreo para diferentes zonas de la imagen. De esta forma, las
zonas ms interesantes pueden tener una resolucin espacial mayor que las menos
interesantes, consiguiendo un ahorro de los recursos del sistema.
La cuantizacin no uniforme se basa en el uso de paletas. Una paleta
consiste en un conjunto de colores a los que se les asigna una referencia. Los
pxeles de las imgenes que usan paletas contienen como valor la referencia al
color de la paleta que quieren presentar. Cuando el nmero de colores de una
imagen es pequeo, el uso de paletas permite, adems de un ahorro de memoria,
simplificar ciertas operaciones, como el cambio de un color por otro dentro de una

imagen, que slo exige el cambio de la paleta y no el cambio directo de todos los
pxeles de la imagen.
Ejemplo 2.Para saber cuntos bytes ocupa una imagen de 640x480 pxeles con 256 niveles de
intensidad cuando se representa en una pantalla de ordenador, se opera:
N de pxeles = 640 x 480 = 307.200 (pxeles)
Como se utilizan 256 niveles de intensidad para codificar 256 valores se
necesita 1 byte por pxel, as:
N de bytes = 307.200 x 1 300 (Kb)
Ejemplo 3.Para saber cuantos bytes ocupa una imagen de 1024 por 768 pxeles con
codificacin para 16 millones de colores (color Real) se opera:
N de pxeles = 1024 x 768 = 786.432 (pxeles)
En este caso cada pxel necesita 3 bytes (uno para codificar 256 niveles de
rojo, otro para 256 niveles de azul, y otro para 256 de verde), por tanto:
N de bytes = 786.432 x 3 = 2.359.296 (bytes) 23 (Mb)
2.1.3 Dispositivos de captura

En los siguientes apartados se analizan los principales dispositivos
(fundamentalmente cmaras y escneres) que se pueden encontrar en el mercado
para realizar procesos de captura. En la Figura 22 se muestra cmo se relacionan
estos dispositivos con un computador.

Cmara fotogrfica analgica
Bsicamente, una cmara fotogrfica est constituida por un recinto oscuro (la
cmara), en la que se ha montado un objetivo. El objetivo est formado por un
conjunto de lentes que tiene la misin de comportarse como una nica lente que
seguira el modelo ideal de lente fina, intentando corregir las aberraciones que se
producen al utilizar lentes reales.
Escaner 3D
Software de generacin
de imgenes sinteticas
Analgicas
Cmaras de Video
Cmaras Fotogrficas
Digitles (CCD)
Convencionales
Procesado Qumico
Disco duro
porttil
Tarjeta de
memoria
Papel
Transparencia
Conversor Analgico
Digital
Escaner plano
Negativo
Diapositiva
Escner de tambor,
esner plano de
pelcula y FotoCD
Ordenador
Figura 22.- Cuadro de relacin entre dispositivos y el computador.
El objetivo forma la imagen luminosa en el interior de la cmara, en el

plano de formacin de la imagen, donde hay una superficie sensible a la luz
llamada pelcula. Entre el objetivo y la superficie sensible se encuentra el
obturador, que slo deja pasar la luz en el momento de captura de la imagen. Este
momento lo determina el fotgrafo presionando el disparador. Para permitir al
usuario encuadrar el objeto el aparato dispone de un visor. Por ltimo, para
obtener la imagen, es necesario realizar un proceso qumico sobre la superficie
sensible, que se conoce como revelado. Este proceso no es reversible, por lo que la
pelcula es de slo un uso.
Normalmente las cmaras fotogrficas permiten variar la distancia a la que
se encuentra la lente ideal del plano de formacin de la imagen (donde est la
pelcula). Este proceso permite el enfoque, es decir el ajuste de la definicin de la
imagen de los objetos que se encuentren a una distancia determinada de la cmara.

Una cmara tambin suele permitir variar la cantidad de luz que entra en
ella mediante un dispositivo conocido como diafragma. Cuando se abre mucho el
diafragma, entran muchos rayos de luz por cada punto P de la escena, y de acuerdo
con los principios que se enunciaron para el modelo de lente fina, esto hace que
slo los elementos que estn a cierta distancia de la cmara aparezcan enfocados.
Por el contrario, cuanta menor es la apertura del diafragma menos rayos de luz
entran por cada punto P de la escena. En el lmite, cuando por cada punto P de la
escena slo incidiese un rayo en el plano de formacin de la imagen, toda la
imagen debera aparecer enfocada simultneamente. As, en el caso de poca
apertura se dice que se tiene gran profundidad de campo, y en el caso de mucha
apertura se dice que se tiene poca amplitud de campo.
Visor
Objetivo
Obturador
Pelcula
Diafragma
Figura 23.- Esquema de una cmara analgica de fotografa. La cmara presenta un visor
directo, un objetivo de focal fija y un diafragma formado por unas lminas superpuestas
mviles que permiten regular la cantidad de luz que entra en la misma.
Cuando la apertura es pequea el tiempo que debe dejarse abierto el

obturador (tiempo de exposicin) debe ser grande, pues en otro caso no entrara
suficiente luz como para impresionar la pelcula. Sin embargo, mantener mucho
tiempo abierto el obturador puede ocasionar que la imagen resultante aparezca
borrosa si durante este tiempo los objetos de la escena se mueven respecto a la
cmara.

Tambin es posible aumentar la sensibilidad de la pelcula, para que con
menos luz quede impresionada. Sin embargo, existe la contrapartida de que a
mayor sensibilidad de la pelcula menor definicin posee la misma (el grano de la
pelcula es ms grueso12).
Se debe sealar que existen multitud de objetivos con diferentes distancias
focales. Para cada distancia focal se obtiene diferente tamao en la representacin
de un objeto (ampliacin). Hay tambin objetivos de focal variable que permiten
cambiar la distancia focal dentro de un rango de valores (zoom). La problemtica
que introducen estos objetivos es ms compleja. En ellos, por ejemplo, las
aberraciones son ms difciles de corregir. Por ello slo son tiles para aquellos
problemas en los que la calidad de la imagen no sea un factor muy importante.
Por ltimo hay que decir que este esquema bsico se complica en la
realidad con multitud de detalles tcnicos que diferencian unas cmaras de otras.
As existen cmaras compactas, de doble objetivo, rflex, con obturador de cortina,
con autoenfoque, panormicas y un largo etctera de variantes para cuyo estudio se
remite al lector a [Lan99].
12
Se llama grano a cada partcula de haluro de plata. Este compuesto, utilizado en las
pelculas fotogrficas, es una sustancia reactiva a la luz que incide sobre ella. Cuanto mayor
es el grano, mayor sensibilidad a la intensidad se consigue, pero menor definicin y detalle
tiene la imagen debido a la menor densidad de granos.

Datos de una lnea de barrido
Voltios
Segundos
Seal de sincronizacin entre lneas de

barrido
Seal de sincronizacin entre

imgenes
Figura 24.- Representacin de una seal de video analgico.
Cmara de vdeo analgica

La cmara de vdeo es un aparato que transforma una secuencia de escenas pticas
en seales elctricas. Est constituida por un objetivo, un tubo de cmara y
diversos dispositivos electrnicos de control. La luz se enfoca dentro del tubo de
cmara sobre una superficie fotosensible que convierte la seal lumnica en una
seal elctrica denominada seal de vdeo. Esta seal consiste en una onda en la
cual la intensidad de cada punto de cada lnea de la pantalla se describe por la
amplitud de la onda. La onda contiene la informacin de cada lnea de la pantalla
separada por una seal de control, y a su vez, cada imagen que est separada de la
siguiente por otra seal de control (ver Figura 24).
La conversin de la seal lumnica en seal elctrica se realiza sobre una
superficie fotosensible, llamada diana, cuyo dimetro oscila entre 12 y 30 mm.
Cuanto mayor sea esta superficie mayor resolucin se puede obtener. En las
cmaras domsticas analgicas se utiliza un tipo de diana fotoconductora llamada
vidicon de unos 17 mm de dimetro.
Finalmente, para obtener una imagen digital se precisa una tarjeta
digitalizadora de vdeo. La calidad de este dispositivo depende del nmero de
muestras que es capaz de tomar de la seal de vdeo por unidad de tiempo, y de la
resolucin radiomtrica que es capaz de alcanzar.

Cmara digital de fotografa y vdeo
El esquema de ambas cmaras es idntico al de sus correspondientes analgicas,
con la diferencia de que el dispositivo sensible es un componente electrnico
constituido por una matriz de elementos fotosensibles, que se sita en el mismo
lugar que el plano de formacin de la imagen, de manera que se forma la imagen
sobre l.
El funcionamiento de estos elementos fotosensibles tiene su base en el
efecto fotoelctrico. Consisten en materiales que de manera espontnea emiten
electrones en una cantidad proporcional al nmero de fotones que reciben.
El nmero de elementos fotosensibles, junto con el rea que ocupan,
definen la resolucin espacial del dispositivo. El primer CCD comercial, constaba
de 120.000 elementos y tena un tamao de 05x025 pulgadas.
Por otro lado, cada uno de estos elementos fotosensibles es capaz de
obtener una carga elctrica proporcional a la intensidad de la luz que le incide.
Despus, la carga elctrica de cada elemento se transmite a un amplificador
elctrico. El tiempo que tarda esta operacin determina el nmero de imgenes por
segundo que puede tomar el dispositivo.
As, desde el punto de vista de la resolucin espacial estas matrices son
dispositivos digitales, mientras que desde el de la resolucin radiomtrica pueden
considerarse dispositivos analgicos. Aunque finalmente, esta informacin de
carga analgica es discretizada mediante un conversor analgico digital, fijndose
en este punto la resolucin radiomtrica.
Originalmente estos dispositivos registran nicamente la intensidad de luz
incidente. Una solucin para conseguir una imagen en color consiste en cubrir la
retcula de celdas con filtros que slo permitan el paso de cada una de las
componentes RGB. Al tener 3 componentes de color aparece un problema
geomtrico derivado de tener que teselar el plano mediante grupos de 3 receptores
por cada pxel. Por ello estos receptores se disponen en grupos de cuatro pues la
teselacin es ms sencilla (disposicin Bayer ver Figura 25). As, cada pxel
recibe la informacin de cuatro receptores (RGBG), disponiendo de paso dos
filtros para el verde para emular la mayor sensibilidad del ojo humano hacia ese
matiz.

Un problema que aparece con esta tcnica consiste en que los cuatro
receptores que aportan la informacin hacia un mismo pxel no ocupan la misma
posicin fsica. Por ello, en los bordes de los objetos que aparecen en las imgenes
pueden aparecer distorsiones del color. Para evitar estos problemas podran
utilizarse 3 matrices (una por cada plano de color), aunque esta solucin es ms
cara y voluminosa. Tambin podran tomarse tres imgenes diferentes usando un
filtro diferente cada vez, aunque esto exige que la escena no cambie de una toma a
otra.
Actualmente existen dos tecnologas para estos dispositivos: C-Mos y
CCD13. La tecnologa C-Mos es ms barata al basarse en elementos
semiconductores clsicos. Sin embargo la resolucin y la respuesta conseguida con
la tecnologa CCD ha sido hasta ahora mejor. Este panorama puede cambiar con
nuevos avances tecnolgicos, como el introducido por el sistema Foveon, el cual,
basado en la tecnologa C-Mos, permite incorporar los tres receptores (R, G y B)
en la misma posicin fsica mediante un sistema multicapa.
Registros de desplazamiento vertical
Conversor A/D
Fotodiodos
Filtros
Amplificador
Registro de desplazamiento horizontal
Figura 25.- Esquema de un CCD que utiliza un filtro Bayer.
13
Dispositivo de Carga Acoplada (Coupled Charge Device).

Escner de cmara
Este dispositivo recorre una imagen plana (un documento, una fotografa, un
plano...) con un CCD compuesto por una nica lnea de elementos fotosensibles,
llamado CCD lineal. En su recorrido, el CCD lineal construye una representacin
digital de la imagen.
Se pueden distinguir dos tipos de escneres de cmara: los fijos, que
mueven el haz de luz para recorrer el documento, y los de rodillo, que mantienen
fijo el haz de luz y mueven el documento a escanear. Los de rodillo tienen su
principal atractivo en la reduccin de espacio que ocupa el dispositivo, y en la
facilidad para la alimentacin automtica de documentos. Los fijos permiten un
ajuste ms exacto del papel (que no se mueve).
Una propiedad interesante de estos dispositivos es que mientras la
resolucin en una de las dimensiones viene determinada por el nmero de celdas
receptoras en el CCD lineal, la resolucin en la dimensin perpendicular depende
de la velocidad relativa a la que se desplace respecto al elemento escaneado.
Escner de tambor
Este tipo de escner se utiliza para digitalizar elementos planos (documentos,
fotografas, etc.). El elemento que se desea escanear se sita sobre un cilindro
denominado tambor. All, se escanea usando un dispositivo que emite un haz
puntual en direccin al tambor. Este haz, tras reflejarse en el elemento que se
escanea se recoge en un detector sensible. Despus se analiza el haz recibido y se
construye una representacin del elemento escaneado.
Escner 3D o sensor de rango
Los sensores de rango se utilizan para reconstruir la estructura 3D de una escena.
Capturan imgenes en las que est codificada la forma 3D de los objetos midiendo
la profundidad de sus superficies. Son apropiados en aplicaciones que requieren
medir distancias (por ejemplo para desviar objetos mviles de obstculos) o para
estimar la forma de la superficie de un objeto (por ejemplo en la inspeccin de
objetos en industrias).
Si para muestrear la superficie de un objeto un elemento mvil la recorre
tocndola, se denominan sensores de contacto (o tctiles). Este tipo de sensores

pueden ser manuales o automticos. Generalmente consisten en un brazo con
varias articulaciones que est fijado a un soporte, habiendo en el extremo del brazo
un puntero que se rastrea sobre la superficie del objeto a escanear.
Ms caros que los sensores tctiles son los sensores de rango no tctiles.
Estos sensores se clasifican a su vez en activos y pasivos. Son activos los que o
bien proyectan haces controlados de energa (luz o sonido sobre la escena) desde
una posicin y orientacin conocidas, o bien analizan el efecto de cambios
controlados en algn parmetro del sensor (por ejemplo el foco). Los sensores de
rango activos detectan la posicin del haz en el objeto para realizar una medida de
la distancia. Adems pueden utilizar una gran variedad de principios fsicos, entre
los que podemos sealar: radares, sonoros, interferometra hologrfica, enfoque y
la triangulacin activa. Si utilizan fenmenos pticos para adquirir las imgenes de
rango, se denominan tambin sensores de rango pticos.
Un ejemplo de sensor de rango ptico es el escner 3D lser. Este
dispositivo obtiene gran densidad de puntos de forma precisa pero es mucho ms
caro que un digitalizador tctil. Para obtener los puntos de la superficie de un
objeto utiliza un mtodo conocido como tiempo de vuelo, que bsicamente consiste
en medir el tiempo que tarda en recibirse el rebote del elemento que escanea y que
se conoce como vxel14. Si el objeto a percibir es oscuro, el lser no es reflejado,
por lo que las zonas negras o muy oscuras pueden no aparecer. Actualmente
existen digitalizadores 3D de tamao pequeo, de fcil uso, que realizan un
muestreo en menos de un segundo, generando hasta 200x200 puntos 3D,
informacin de color en cada punto, e informacin de la conectividad de los
mismos, proporcionando una representacin de superficie en forma de mallado
poligonal (ver Figura 26).
Los sensores pasivos son los no considerados como activos y se basan
normalmente en imgenes 2D de niveles de gris o de color para reconstruir la
profundidad. Un ejemplo de sensores pasivos lo constituyen los que se basan en la
visin estreo, cuyos principios se estudiarn en el captulo 6.
14
Del ingls voxel que juega con la abreviatura de volume element y con el parecido a la
palabra pxel.
Figura 26.- Imagen obtenida con un escner 3-D lser.
2.2. Representacin de la imagen y estructuras de

datos
Las imgenes suelen almacenarse en los ordenadores en forma de ficheros. En este
punto se analizarn las estructuras que se usan a tal efecto, los mtodos utilizados
para optimizar el espacio requerido y algunos de los diferentes formatos estndar
(TIFF, GIF, BMP, JPG...).
2.2.1 Estructura del fichero de imagen

Generalmente una imagen almacenada en un ordenador est constituida (ver
Figura 27) por un mapa de bits15 (sera mejor decir de pxeles) precedido por una
cabecera que describe sus caractersticas (tamao de la imagen, modo de color,
paleta, resolucin de la imagen...). Frecuentemente, cuando la imagen se encuentra
en la memoria principal del ordenador la cabecera y el mapa de bits no estn
contiguos.
15
Existen tambin ficheros vectoriales. Bsicamente estos ficheros almacenan pares de
coordenadas con los puntos que componen las figuras geomtricas de las figuras que
Figura 27.- Esquema de una imagen en fichero.
Ejemplo 4.Un formato de fichero muy sencillo para imgenes en niveles de gris podra
constar de:
Una cabecera, donde se indicara el tamao de la imagen mediante dos

nmeros enteros N y M.
Un mapa de bits con NxM nmeros, en formato ASCII y separados por

espacios. Utilizando el 0 para indicar el color negro, el 255 para indicar el
color blanco, y los nmeros intermedios para intensidades entre blanco y
negro.
Este ejemplo corresponde al formato grfico comercial PGM.
2.2.2 Compresin de imgenes

En ocasiones es impracticable el tratamiento directo de ciertas imgenes debido a
la gran cantidad de datos que requiere su almacenamiento o su transmisin. La
compresin de las imgenes trata este problema, mediante la reduccin de la
cantidad de datos necesarios para representar una imagen digital.
El primer punto que se debe tener en cuenta es que no son lo mismo
cantidad de datos usados para almacenar una imagen que la informacin que
contienen tales datos. Por ejemplo: la idea del nmero dos se puede representar
presentan. Estos ficheros no se consideran pues no se pueden obtener directamente

paritendo de un dispositivo de captura de imgenes.

como: 2, dos, II, 6-3-1... Cada representacin necesita diferente espacio para su
codificacin (1, 3, 2 y 5 caracteres respectivamente) pero codifican la misma
informacin.
Si n1 y n2 denotan el tamao de los datos necesarios para representar la
misma informacin en dos sistemas diferentes s1 y s2, definimos la razn de
compresin CR de n1 frente a n2 como:
CR =
n1
n2
Se define la redundancia relativa RD como:
RD = 1
1
CR
Estudiando estas frmulas se observa que:

Si n1 = n2 CR = 1
RD = 0
(no hay redundancia de n1 respecto a n2)
Si n1 >> n2 CR RD 1
(n1 es muy redundante respecto a n2)
Si n1 << n2 CR 0 RD -
(n2 es muy redundante respecto a n1)
As, se dice que un cdigo es ms redundante que otro cuando precisa ms

datos que aqul para describir la misma informacin. Clsicamente se distingue
tres tipos de redundancia:
Redundancia en la codificacin
Redundancia en la representacin espacial de los pxeles
Redundancia visual

Redundancia en la codificacin
Hasta ahora se ha usado un tamao fijo para representar la informacin de cada
punto de una imagen. Por ejemplo, se ha usado un byte para representar la
intensidad de cada punto de una imagen con un nivel de cuantizacin de 256
niveles de gris.
Sin embargo en una imagen suelen existir niveles de intensidad que son
ms probables que otros porque aparecen ms veces. La codificacin de tamao
variable es una tcnica de compresin que aprovecha esta circunstancia. Consiste
en asignarle un cdigo ms corto a los niveles de intensidad ms probables (que
aparecen ms veces) y ms largo a los menos probables (que aparecen menos
veces), consiguiendo una reduccin del tamao de los datos de la imagen. Un
ejemplo de este tipo de compresin lo define el mtodo de compresin Huffman.
El mtodo Huffman crea los cdigos en tres pasos. El primer paso precisa
de evaluar la probabilidad de ocurrencia de cada uno de los elementos a
representar. En el segundo paso se construye un rbol binario. Este rbol tiene
como nodos iniciales la probabilidad de cada uno de los cdigos. El rbol se
construye uniendo de dos en dos los nodos con menor probabilidad. Como
resultado de cada unin se crea un nodo con probabilidad igual a la suma de los
nodos unidos. Finalmente, en la tercera etapa se recorre de manera inversa el rbol
utilizando un criterio de asignacin de cdigos (por ejemplo cero a la izquierda y
uno a la derecha).
Otros algoritmos de compresin son LZW y el LZ77. LZW est sujeto a
patentes y por tanto su uso no ha sido muy extendido. LZ77 sin embargo es abierto
y es usado principalmente en el formato de ficheros ZIP. LZ77 lee los datos de un
flujo de entrada y escribe datos en flujo de salida. Si el dato ledo no se encuentra
dentro de cierto buffer con los ltimos datos codificados se escribe tal cual en el
flujo de salida. Si el dato ledo se encuentra en el buffer se escribe en el flujo de
salida la referencia y su longitud.
Ejemplo 5.Una imagen de 8 niveles de gris se codifica segn la Tabla 1. Para calcular el nivel
de redundancia de la codificacin de tamao fijo (que usa tres bits por pxel y tiene
50x50 pxeles de tamao) respecto de la que usa compresin mediante

codificacin de tamao variable se debe calcular la cantidad de memoria necesaria
para cada representacin. Con el cdigo original, para representar la imagen hacen
falta:
50x50x3 bits = 7500 bits
Cdigo
Probabilidad
de aparicin
000
001
010
011
100
101
110
111
019 025 021 016 008 006 003 002
Tabla 1.- Probabilidad de los cdigos en la imagen a comprimir.

0'03
0'02
0
0'06
0'05
0
0'08
0'11
0'19
0'19
0'16
0,4
0'21
0'35
0
0,75
0,25
Figura 28.- rbol generador del cdigo Huffman.
En la figura anterior se presenta el rbol de Huffman para este problema.

A partir de l se obtiene el cdigo de la Tabla 2.
Cdigo original
Probabilidad de
aparicin
Cdigo de tamao
variable
000
001
010
011
100
101
110
111
019
025
021
016
008
006
003
002
11
101
1000
1000
1001
Tabla 2.- Probabilidad de los cdigos en la imagen a comprimir.
Con el cdigo de tamao variable se tiene que para cada pxel, en media,
se usan:
3x(019)+1x(025)+3x(021)+3x(016)+4x(008) +5x(006)+5x(003)+5x(002) =
=28 bits
As, para representar la imagen se necesitaran:
50x50x28 = 7000 bits
Obteniendo unos valores para CR y RD:
CR =
7500
= 1'071428571
7000
RD = 1
)
1
= 0'06
1,071428571
Es decir, que segn esta codificacin de tamao variable,

aproximadamente el 10% del tamao de los datos representados por la
codificacin de tamao fijo son redundantes.
Redundancia en la representacin espacial de los pxeles
Una figura regular ofrece una alta correlacin entre sus pxeles. Esta correlacin
da lugar a una redundancia espacial o geomtrica si la forma de representacin no

es la adecuada. La forma ms usual de tratar esta redundancia es mediante el
empleo de rachas (runs) en la codificacin.
La codificacin mediante rachas indica cada vez el prximo elemento de la
imagen y cunto se repite. Si se aplica este mtodo a imgenes en blanco y negro,
se puede omitir cul es el prximo elemento ya que siempre ser distinto al
anterior (blanco-negro-blanco...), tomando la convencin de empezar siempre, por
ejemplo, por blanco.
La compresin mediante rachas se usa en el estndar CCITT16 Grupo 3
combinada con una compresin de cdigo variable. Luego el estndar CCITT
Grupo 4 defini una extensin bidimensional a la idea de compresin por rachas.
A grandes rasgos, la extensin a dos dimensiones de la idea de rachas, consiste en
indicar los cambios en las rachas respecto a la lnea anterior, en vez de indicar de
manera completa las rachas en cada lnea.
La codificacin por rachas puede extenderse a niveles de gris (o color) si
se almacenan en planos independientes cada uno de los bits que componen cada
uno de los bytes utilizados para codificar el valor de cada pxel. Sin embargo, el
nivel de compresin solo ser rentable en los bits ms significativos, ya que los
menos significativos parecern aleatorios.
Ejemplo 6.Estudiemos la redundancia de los datos asociados a la imagen bitonal de la usando
rachas respecto a una codificacin sin compresin.
0
10
15
20
25
30
35
40
45
50
16
Consultative Committee on International Telephone and Telegraphy. Comit que ha

estandarizado varios algoritmos de compresin con vistas a su transmisin en formato
digital. Ahora se conoce como UIT.

Figura 29.- Imagen bitonal que presenta rachas de pxeles.
Sin compresin, usando un byte por cada 8 pxeles, los datos de la imagen
son:
000, 001, 240, 003, 255, 253, 000
->
tamao = 7 bytes
255, 255, 255, 131, 255, 255, 224
->
tamao = 7 bytes
Mientras que la codificacin mediante rachas de estas dos lneas, tomando

la norma de comenzar por blanco, y usando como mximo un byte por racha,
queda como:
15, 5, 10, 15, 5
->
tamao = 5
0, 25, 5, 20
->
tamao = 4
Obteniendo unos valores para CR y RD:
CR =
)
(7 + 7) 14
=
= 1'5
(5 + 4) 9
RD = 1
1
0'35
14
9
As, segn esta forma de codificacin, aproximadamente el 35% del

tamao de los datos representados por el cdigo original son redundantes.
Redundancia visual
Como se ha explicado en el captulo 1, la imagen percibida por el ojo no se
corresponde exactamente con la imagen fsica. Por ejemplo, se ha estudiado que el
humano no es capaz de distinguir entre dos niveles de gris parecidos cuando hay
involucrados niveles de contraste elevados. As, desde el punto de vista de nuestra
percepcin, cierta informacin puede considerarse menos importante y por tanto
redundante.

Idealmente, los mtodos de eliminacin de redundancia visual modifican
la imagen de manera visualmente imperceptible con el objeto de obtener una
representacin que permita mayor compresin. Esta modificacin de la imagen
supone una prdida de informacin irreversible respecto de la imagen original, y
por ello estos mtodos se conocen como compresores con prdida o con error (ver
Figura 30). Esta prdida constituye la diferencia fundamental con los mtodos
precedentes, ya que en aqullos no se eliminaba informacin alguna, simplemente
se reduca la cantidad de datos necesarios para representarla.
El ejemplo ms caracterstico de algoritmo de compresin visual es el
definido por el estndar JPEG. Este algoritmo ha contribuido de manera
fundamental a la difusin de imgenes por Internet, pues el ancho de banda de los
canales de comunicacin impone restricciones importantes de tamao, que slo se
consiguen usando este tipo de compresin. Los estndares de vdeo MPEG y
MPEG2 (usados por los reproductores DVD) y el formato JPEG2000 tambin son
ejemplos de algoritmos de compresin visual.
(a)
(b)
(c)
(d)
Figura 30.- Efecto de la compresin JPEG, donde se aprecian los artefactos que introduce
la compresin con prdida. (a) imagen de Lena sin comprimir ocupa 30Kb; (b)
comprimiendo con el algoritmo JPEG el tamao se reduce a 3Kb. (c) detalle del sombrero
sin comprimir; (d) detalle del sombrero tras comprimir.
Bsicamente, el algoritmo JPEG divide la imagen I, que se desea

comprimir, en un conjunto de regiones cuadradas de igual tamao R, aproximando
los valores de los bits de cada una de estas regiones con un tipo de funcin
conocida como Transformada Discreta de Cosenos (2.2). Para cada una de las
regiones R, de dimensiones 8x8, se construye una matriz B (tambin de tamao
8x8) aplicando la transformada. Partiendo de esta matriz B es posible reconstruir la
regin original mediante la Transformada Discreta Inversa de Cosenos (2.3). La

transformada de cosenos tiene la propiedad de que condensa el mximo posible de
informacin en el menor nmero de variables posibles. As, unas pocas variables
de la matriz B contienen la mayor parte de la informacin necesaria para
reconstruir la imagen dentro de la regin R. La compresin se consigue porque no
se almacena la matriz B tal cual, sino una simplificacin B de la misma
(eliminando o cuantizando valores poco significativos). Lgicamente, cuanto ms
parecida sea B a la matriz B ms fiel ser el parecido de la regin interpolada a la
original.
N 1 M 1
k1
k 2
B (k1 , k 2 ) = C k1 C k2 4 I (i, j ) cos

(2i + 1) cos
(2 j + 1)
2 N
2 M
i =0 j =0
(2.2)
I (i , j ) =
1 N 1 M 1
k1
k 2
C k1 C k2 B (k1 , k 2 ) cos
( 2i + 1) cos
(2 j + 1)
4 k2 =0 k0 =0
2 N
2 M
(2.3)
Siendo C k =
1
2
para k = 0, y Ck = 1 para el resto.
Ejemplo 7.Almacenando solamente los 16 coeficientes ms significativos de la matriz B se

puede interpolar una regin de 8x8 bits, consiguiendo un parecido visual tal que
nuestro sistema visual es incapaz de distinguirlas a simple vista. Obteniendo unos
valores para CR y RD:
CR =
(8 8) 64
=
=4
(16)
16
RD = 1
1
= 0.75
4

Deducindose por tanto que el 75% del tamao de los datos representados
por el cdigo original son redundantes. En el prximo tema, se profundizar en las
propiedades de la transformada de cosenos cuando se estudie la transformada de
Fourier.
2.2.3 Formatos comerciales de representacin

Existen multitud de formatos de ficheros de imgenes de tipo mapa de bits. Se
puede hablar de ficheros tipo BMP, TIFF, GIF, JFIF, PGM... Cada uno ofrece
ciertas ventajas que otros formatos pueden no contemplar. La Tabla 3 recoge las
principales caractersticas de algunos de estos formatos.
Formato
Color Real
Paleta
Grises
Bitonal
Compresin
Origen
Multi-Imagen
Bitmap
SI
SI
SI
SI
Run-Length
Windows
NO
TIFF
SI
SI
SI
SI
JPG, LZW, Runs,

CCITT4, CCITT3,
PackBits
Estndar
SI
JFIF
SI
NO
SI
NO
JPEG
Estndar
NO
JPG2000
SI
NO
SI
NO
JPEG 2000
Estndar
NO
PCX
NO
SI
NO
NO
Propia
Windows
NO
PGM
NO
NO
SI
NO
NO
Unix
NO
GIF
NO
SI
SI
SI
LZW
Estndar
SI
Tabla 3.- Diferentes formatos para ficheros grficos y caractersticas principales.
Un ejemplo de formato comercial: El BITMAP de Windows

El Bitmap es el formato estndar dentro del sistema operativo Windows. Un
Bitmap es una estructura usada para crear, manipular (rotar, mover, representar...)
y almacenar imgenes.
Hay dos tipos de Bitmaps en Windows: los dependientes del dispositivo
(DDB) y los independientes del dispositivo (DIB). Los DDB se crean
especficamente para su presentacin en un dispositivo determinado. Son ms
compactos pues slo tienen la informacin precisa para que la imagen pueda
representarse correctamente sobre ese dispositivo concreto. Por otro lado los DIB

contienen informacin en la cabecera que los hacen relativamente independientes
del dispositivo donde se van a presentar, por ello los DIB son ms portables.
Desgraciadamente esto conlleva un considerable desperdicio de recursos, ya que se
almacena ms informacin de la estrictamente necesaria para representar la imagen
en un dispositivo concreto.
Los Bitmaps DIB, almacenados en disco, constan de una cabecera de
fichero (el BITMAPFILEHEADER), una cabecera de imagen (el
BITMAPINFOHEADER), una tabla de colores (la RGBQUAD), y el conjunto de
datos (referencias a la tabla de colores) que forman la imagen. La unin del
BITMAPINFOHEADER y la tabla RGBQUAD forma una estructura llamada
BITMAPINFO.
- Listado 1
typedef struct tagBITMAPFILEHEADER { // bmfh
WORD
bfType;
DWORD
bfSize;
WORD
bfReserved1;
WORD
bfReserved2;
DWORD
bfOffBits;
} BITMAPFILEHEADER;
typedef struct tagBITMAPINFO { // bmi
BITMAPINFOHEADER bmiHeader;
RGBQUAD
bmiColors[1];
} BITMAPINFO;
typedef struct tagBITMAPINFOHEADER{ // bmih
DWORD biSize;
LONG
biWidth;
LONG
biHeight;
WORD
biPlanes;
WORD
biBitCount
DWORD biCompression;
DWORD biSizeImage;
LONG
biXPelsPerMeter;
LONG
biYPelsPerMeter;
DWORD biClrUsed;
DWORD biClrImportant;
} BITMAPINFOHEADER;
typedef struct tagRGBQUAD { // rgbq
BYTE
rgbBlue;
BYTE
rgbGreen;
BYTE
rgbRed;
BYTE
rgbReserved;
} RGBQUAD;
La estructura BITMAPFILEHEADER contiene datos sobre el fichero

como el tamao del fichero en bytes y la distancia del primer byte del fichero al
primer byte de los datos de la imagen (offset de la imagen). Mientras que la
BITMAPINFOHEADER contiene informacin sobre la imagen: el ancho y el alto
en pxeles, el formato de color, si la imagen est o no comprimida, el tamao de la
imagen en bytes, la resolucin original de la imagen y el nmero de planos
necesarios para representarla (1 para bitonales, grises o paletas, 3 para imgenes
RGB), el nmero de bits por plano necesarios para representar un color (8 bits para
color real y para grises; 1 bit para bitonales; 1, 2, 4, 8 16 para paletas). Por
ltimo, la tabla de colores RGBQUAD define una paleta de colores en donde cada
color se define por la intensidad para cada una de las componentes RGB.
Para la creacin de Bitmaps dentro del sistema Windows se pueden
utilizar las funciones de la API estndar de Windows (CreateBitmap,
CreateBitmapIndirect...).
2.3. Relaciones bsicas entre pxeles

A continuacin, se definen ciertas relaciones que se establecen entre los pxeles de
una imagen.
2.3.1 Relaciones de proximidad

Dependiendo de la situacin de los pxeles y de los valores que tienen, se definen
ciertas relaciones de vecindad y conectividad.
Vecindad
Para todo punto p de coordenadas (x, y) se dice que un pxel q pertenece a sus 4vecinos y se escribe qN4(p) si y slo si q tiene coordenadas:
(x-1,y) (x,y-1) (x+1,y) (x,y+1)
Para todo punto p de coordenadas (x, y) se dice que un pxel q pertenece a
sus 8-vecinos y se escribe qN8(p) si y slo si q tiene coordenadas:

(x-1,y) (x,y-1) (x+1,y) (x,y+1) (x-1,y-1) (x-1,y+1) (x+1,y-1) (x+1,y+1)
B A B
A p A
B A B
Figura 31.- Los 4-vecinos de p son los puntos A. Los 8-vecinos de p son los puntos A y B.
Conectividad
Se ha visto que una imagen se asimila a una matriz cada uno de cuyos elementos es
un pxel. Entre los pxeles de esta matriz se puede definir una relacin que define
dos pxeles como conectados cuando son vecinos y sus valores son similares desde
algn punto de vista. Formalmente, se define un conjunto V que representa los
valores compatibles para que dos pxeles que sean vecinos se diga que estn
conectados:
V = {Valores de los pxeles que definen conectividad}
Se dice que dos pxeles p y q con valores en V estn 4-conectados si q
pertenece a N4(p).
Se dice que dos pxeles p y q con valores en V estn 8-conectados si q
pertenece a N8(p).
El uso de la 8 conectividad puede dar lugar a ciertas ambigedades en
ciertos anlisis de conectividad. Para eliminar esta ambigedad se define la mconectividad. Se dice que dos pxeles p y q con valores en V estn m-conectados si
[q N4(p)] [q N8(p) y x / x (N4(q) N4(p)) x no tiene valores en V]. Es
decir estn m-conectados si estn cuatro conectados o si estn 8 conectados y no
tienen ningn 4 vecino comn 4 conectado.
Para imgenes bitonales V puede ser el conjunto {1} o el conjunto {0}.
Para imgenes en niveles de gris, con 256 niveles, V puede tener diferentes
configuraciones segn el inters est en unos niveles o en otros (por ejemplo
V={0,1,....,127} para obtener los elementos oscuros, o V={0,1,....,64} para obtener

los muy oscuros, o V={200,201,...255} para los claros, etc.). Para imgenes en
color se procede de forma similar definiendo rangos en las tripletas RGB.
Ejemplo 8.La Figura 32 representa las relaciones de conectividad 4, 8 y m para
V={0,1.....128} de la imagen A, que est definida por la siguiente matriz:
255 120 240
Imagen A = 80 100 220

60 225 80
Se aprecia que segn la conectividad-4 el pxel de la esquina inferior

derecha no est 4-conectado con el resto, mientras que la conectividad-8 y la
conectividad-m si lo consideran conectado al resto de pxeles. Adems, mientras
que el pxel de la esquina inferior izquierda est m-conectado slo a otro pxel est
8-conectado a dos pxeles.
(a)
(b)
(c)
(d)
Figura 32.- Ejemplo de tipos de conectividad: (a) corresponde a una imagen en niveles de
gris. (b), (c) y (d) representan en negro los pxeles de (a) que estn dentro de un V
determinado y muestran la relacin de conexin entre ellos: (b) 4-conexin, (c) 8-conexin,
(d) m-conexin.

Camino
Un camino desde el pxel p, de coordenadas (x, y), al pxel q, de coordenadas (s, t),
es una secuencia de pxeles distintos de coordenadas:
(x0, y0), (x1, y1), ... , (xn, yn)
Donde (x0, y0)=(x, y) y (xn, yn)=(s, t) y (xi, yi) est conectado a (xi-1, yi-1),
siendo n la longitud del camino. Se puede hablar de 4, 8 y m-caminos dependiendo
del tipo de conexin involucrada.
Componente conexa
Para todo pxel p de una imagen, el conjunto de los pxeles hasta los que hay una
camino desde p se dice que forman su componente conexa. Adems se cumple que
dos componentes conexas distintas tienen conjuntos de pxeles disjuntos.
2.3.2 Relaciones de distancia

Sin duda la relacin de distancia ms utilizada en todos los campos es la distancia
geomtrica o distancia eucldea. Se define la distancia euclidea entre el pxel p de
coordenadas (x, y) y el pxel q de coordenadas (s, t) como la raz cuadrada de la
diferencia de coordenadas al cuadrado. Es decir:
d ( p, q ) = ( x s ) 2 + ( y t ) 2
Siempre que slo sea importante desde un punto de vista comparativo, esto
es para comprar distancias, se puede prescindir del clculo de la raz cuadrada, lo
que redundar en una mayor velocidad de clculo.
Otra relacin de distancia usual es la distancia Manhattan o distancia del
taxista, que se define entre los mismos puntos p y q como:
d ( p, q ) = x s + y t
Tambin puede citarse la distancia del tablero de ajedrez o distancia
chessboard que se define como:
d ( p, q) = max( x s , y t )
Ntese que con la distancia Manhattan slo los vecinos 4 conexos de un
pxel estn a distancia unidad, mientras que con la distancia de tablero de ajedrez
todos los vecinos 8 conexos estn a la distancia unidad.
Figura 33.- Representacin grfica de la distancia Manhattan y de la distancia eucldea

entre dos puntos.
2.4. Conclusiones al captulo

Tras el estudio de este captulo se comprende la importancia de la adecuada
eleccin de los dispositivos de captura, su configuracin y el formato de
representacin en un sistema informtico. Se ha visto que esta eleccin debe
depender del uso que se vaya a dar a la informacin capturada.
Tambin se han introducido algunos conceptos de las imgenes digitales que
acompaarn al lector a lo largo del resto de captulos.

[GW93] caps. 2 y 5,
[Esc01] cap. 3,
[Bax94] cap. 6,

[Lan99]
[Mic96]
Captulo 3
Filtrado y Realzado de
Imagen
En este captulo se tratan las operaciones y transformaciones que se aplican sobre

las imgenes digitales en una etapa de procesamiento previa a las de segmentacin
y reconocimiento. Su objeto es mejorar o destacar algn elemento de las imgenes,
de manera que sea posible realizar las etapas posteriores de segmentacin y
clasificacin.
Todas las operaciones que se van a describir en este captulo se pueden
explicar desde la perspectiva ofrecida por la teora de filtros. Un filtro puede verse
como un mecanismo de cambio o transformacin de una seal de entrada a la que
se le aplica una funcin, conocida como funcin de transferencia, para obtener una
seal de salida. En este contexto se entiende por seal una funcin de una o varias
variables independientes. Los sonidos y las imgenes son ejemplos tpicos de
seales.
S
H
Figura 34.- Esquema de funcionamiento de un filtro.
Captulo 3 Filtrado y realzado de imagen

En el diagrama de la Figura 34 se presenta el esquema general de
funcionamiento de un filtro, siendo E la funcin de entrada, S la de salida y H la
funcin de transferencia del filtro. Todas estas seales y funciones pueden ser
discretas o continuas. Aunque en el tratamiento de imgenes digitales se procesan
seales y funciones discretas, suele recurrirse al caso continuo para explicar sus
comportamientos, ya que sobre las funciones continuas es posible emplear
herramientas ms potentes de clculo matemtico.
En el resto del captulo se describe las principales operaciones que se
puede realizar sobre las imgenes digitales. La mayora de las explicaciones se
realizarn, por simplicidad, sobre imgenes en niveles de gris. Su extensin a
imgenes en color (RGB) suele consistir en repetir el tratamiento que se describe
para cada una de las componentes de color. En los casos en que esto no sea posible
se indicar el procedimiento adecuado.
3.1. Operaciones bsicas entre pxeles

La operaciones directas sobre pxeles se pueden clasificar en operaciones
aritmtico-lgicas y operaciones geomtricas.
3.1.1 Operaciones aritmtico-lgicas

Estas operaciones son, con diferencia, las ms usadas a cualquier nivel en un
sistema de tratamiento de imgenes, ya que son las que se utilizan para leer y dar
valores a los pxeles de las imgenes. Las operaciones bsicas son:
Conjuncin.- Operacin lgica AND entre los bits de dos imgenes. Se usa
para borrar pxeles en una imagen.
Disyuncin.- Operacin lgica OR entre los bits de dos imgenes. Se usa

para aadir pxeles a una imagen.
Negacin.- Inversin de los bits que forman una imagen. Se usa para
obtener el negativo de una imagen.
Suma.- Suma de los valores de los pxeles de dos imgenes.

- 66 -
Resta.- Resta de los valores de los pxeles de dos imgenes.
Multiplicacin.- Multiplicacin de los valores de los pxeles de una

imagen por los de otra. Se usa para aadir textura a una imagen.
Divisin.- Divisin de los valores de los pxeles de una imagen entre los de
otra.
Se ha visto que en imgenes en niveles de gris se suele utilizar el valor 255

para representar el blanco y el 0 para el negro. As, la operacin de conjuncin
entre negro y blanco da como resultado negro. Si para el negro se utilizase 255 y
para el blanco 0 los resultados de las operaciones conjuncin y disyuncin estaran
intercambiados. En la Figura 35 se pueden apreciar los resultados de diferentes
operaciones sobre las imgenes en niveles de gris A y B. Sobre imgenes en color
los resultados seran similares.
-A
A and B
(A+B)/2
max(0,A-B)
A or B
Figura 35.- Ejemplos de operaciones aritmticas y lgicas. Los pxeles a negro

corresponden a bits a 0, los blancos a bits a 255.
Cuando se realiza operaciones aritmticas se debe tener la precaucin de

verificar que el resultado R de una operacin cae dentro del dominio de valores
permitidos. En caso contrario se puede dividir el valor R por un factor que consiga
que el resultado pertenezca al dominio deseado. Si se desea que los valores no
salgan de un rango [m ... M] se puede ajustar el resultado usando las funciones
mximo y mnimo de dos valores. Para ello se toma como resultado definitivo el
mximo entre R y el valor mnimo permitido m y luego el mnimo con el mximo

permitido M, consiguiendo de esta forma que los valores nunca salgan del rango
especificado.
Al implementar algoritmos que realizan operaciones aritmtico-lgicas es
una buena idea utilizar mltiplos del tamao de la palabra del procesador en las
transacciones con memoria, a fin de minimizar el nmero de operaciones de acceso
a la misma. Tambin se debe implementar los algoritmos de forma tal que en
accesos consecutivos se referencien posiciones de memoria cercanas, de manera
que el criterio de proximidad referencial, usado por las memorias cach, permita
un rendimiento ptimo.
3.1.2 Operaciones geomtricas

Si se expresa los puntos en coordenadas homogneas, todas las transformaciones
se pueden tratar mediante multiplicacin de matrices. Las operaciones geomtricas
ms usuales son:
Traslacin.- Movimiento de los pxeles de una imagen segn un vector de

movimiento. La siguiente transformacin muestra el resultado de trasladar
el punto (x, y) segn el vector (dx, dy), obteniendo el punto (x, y).
x' 1 0 d x x

y' = 0 1 d y y
1 0 0 1 1

Escalado.- Cambio del tamao de una imagen. La siguiente

transformacin muestra el resultado de escalar el punto (x, y) en un factor
(sx, sy), obteniendo el punto (x, y).
x' s x

y' = 0
1 0

sy
0
0 x

0 y
1 1
Rotacin.- Giro de los pxeles de una imagen en torno al origen de

coordenadas. La siguiente transformacin muestra el resultado de rotar el
punto (x, y) un ngulo , obteniendo el punto (x, y).
x' cos( ) sen( ) 0 x

y ' = sen( ) cos( ) 0 y
1 0
0
1 1

Las operaciones geomtricas matriciales se pueden agrupar multiplicando
las matrices. De esta forma, por ejemplo, es posible tener una nica matriz que
realice un desplazamiento, un giro, otro desplazamiento, y un reescalado en un
solo paso. Al realizar esta composicin de operaciones se debe recordar que el
producto de matrices no cumple la propiedad conmutativa.
Ejemplo 9.Para rotar un ngulo la casa de la Figura 36 respecto al punto P, de coordenadas
(x, y), se debe crear la matriz que lleva el punto P al origen de coordenadas, luego
la matriz que realiza el giro respecto de este origen, y luego la matriz que desplaza
el punto P a su posicin original. Esto se consigue con la siguiente matriz.
T ( x,y ) R( ) ( x, y ) =
1 0 x cos( ) sen( ) 0 1 0 x
= 0 1 y sen( ) cos( ) 0 0 1 y =
0 0 1 0
0
1 0 0 1

cos( ) sen( ) x(1 cos( )) + ysen( )
= sen( ) cos( ) y (1 cos( )) xsen( )

0
0
1
(-x,-y)
(a)
(b)
(c)
(x,y)
(d)
Figura 36.- Ejemplo de rotacin. (a) Imagen original que se desea rotar en torno al punto P
de coordenadas (x,y); (b) resultado de la primera traslacin; (c) resultado del giro; (d)
resultado final despus de la ltima traslacin.
3.2. Operaciones sobre el histograma

Se conoce como histograma de los niveles de cuantizacin de la imagen, o
simplemente histograma de la imagen, a un diagrama de barras en el que cada
barra tiene una altura proporcional al nmero de pxeles que hay para un nivel de
cuantizacin determinado. Habitualmente, en el eje de abscisas se disponen los
diferentes niveles de cuantizacin de valores que pueden tomar los pxeles de tal
imagen, mientras el eje de ordenadas refleja el nmero de pxeles que habr para
cada nivel de cuantizacin.
200
puntos
0 (negro)
Niveles intermedios de gris
255 (blanco)
Figura 37.- Imagen en niveles de gris de Lena y su correspondiente histograma.

Se debe notar que los histogramas no dicen nada sobre la disposicin
espacial de los pxeles. Por ello, un histograma es una forma de representacin de
imgenes en la que se produce prdida de informacin. A partir del histograma de
una imagen es imposible deducir la imagen que lo origin. Se deriva que aunque
una imagen slo puede tener un histograma, imgenes diferentes podran tener el
mismo histograma.
El histograma de una imagen en niveles de gris proporciona informacin
sobre el nmero de pxeles que hay para cada nivel de intensidad (ver Figura 37).
En imgenes en color RGB se usan 3 histogramas, uno por cada componente de
color. En el caso de imgenes de paleta, el histograma, si bien se puede calcular,
tiene una utilidad menos evidente.
Al construir histogramas, para evitar la dependencia entre el nmero de
pxeles o el nmero de niveles de cuantizacin y el tamao del histograma, suelen
normalizarse los ejes entre 0 y 1. Esta es la razn por la que en los ejes no suelen
aparecer las unidades.
Se conoce como rango dinmico de una imagen al conjunto de todos los
posibles valores de los pxeles que efectivamente se encuentran presentes en ella.
Cuando el rango dinmico de una imagen es pequeo, generalmente, se trata de
imgenes con poco contraste, en las cuales se desaprovechan los recursos de
captura. Tambin puede darse el caso contrario, que ocurre cuando el histograma
posee altos valores en los extremos de la escala, teniendo forma de U, en este
caso se dice que la imagen est saturada.
(b)
(a)
Figura 38.- (a) histograma de una imagen con poco contraste. (b) histograma de una
imagen saturada.
El anlisis del histograma de una imagen permite conocer detalles sobre la

calidad de la misma y del proceso de captura que se ha utilizado para obtenerla.

As, las imgenes consideradas de calidad suelen tener un rango dinmico amplio y
no saturado. Las imgenes saturadas y las imgenes con un rango dinmico
pequeo contienen menos informacin que las imgenes con un rango dinmico
amplio y no saturado. No hace falta decir que para tareas de reconocimiento es
mejor utilizar imgenes con mucha informacin. Tambin es importante para las
tareas de reconocimiento que las imgenes tengan un alto nivel de contraste (sin
llegar a estar saturadas), ya que esto implica que los detalles discriminantes se
perciben con mayor claridad.
Cuando la calidad de una imagen digital es pobre, bien porque est
saturada, bien porque su rango dinmico sea pequeo, suele deberse a un mal
ajuste del dispositivo de captura. Por ello, siempre que sea posible, la mejor opcin
consiste en repetir la captura y variar los parmetros del dispositivo de captura o
las condiciones de iluminacin de la escena. Debe recordarse, que aunque sobre
una imagen digital se pueden realizar filtrados que visualmente produzcan efectos
de aumento de contraste, disminucin de la saturacin o realzado de contornos,
desde el punto de vista de la teora de la informacin estos cambios slo implican
una perdida de la informacin que contiene la imagen. Nunca un filtrado digital
aumenta la informacin de una imagen, en el mejor de los casos no altera la
informacin presente en la misma. An as, estos filtrados pueden resultar tiles
para destacar elementos de la imagen que se necesiten en la etapa de
reconocimiento.
3.2.1 Aumento y reduccin de contraste

Las modificaciones del histograma se pueden visualizar eficazmente mediante las
funciones de transferencia del histograma. Estas funciones corresponden a
aplicaciones, pues para cada punto del dominio solo tiene un valor imagen. Estas
aplicaciones estn acotadas entre 0 y 1 tanto en la abcisa, que se hacer
corresponder con la entrada IE del filtro, como en la ordenada, que se corresponde
con la salida IS del filtro.
En la Figura 39 se presentan tres ejemplos de funciones de transferencia:
la funcin lineal, la funcin cuadrado y la funcin raz cuadrada. La funcin de
transferencia lineal (a) no introduce modificacin alguna sobre el histograma, al
coincidir exactamente los niveles de intensidad de la entrada y de la salida. La
funcin cuadrado produce un oscurecimiento general de la imagen (en la figura (b)
se aprecia que el rango entre 0 y 05 se hace corresponder con el rango entre 0 y

025 que es ms oscuro). Por ltimo, la funcin raz cuadrada (c) produce un
aclarado general de la imagen.
1
0.5
0.5
0.5
0
0
0.5
(a)
0
0
0.5
(b)
0.5
(c)
Figura 39.- De izquierda a derecha las funciones lineal, cuadrado y raz cuadrada.
En el primer captulo se defini contraste como la diferencia de intensidad

pronunciada. Ahora, en este contexto, se puede hablar de alto contraste en una
imagen digital en niveles de gris si sobre el histograma se aprecia masas separadas.
En este contexto, un buen indicador del contraste de una imagen podra consistir
en el clculo de la desviacin tpica de su histograma.
Una funcin de transferencia que aclare los niveles claros y oscurezca los
niveles oscuros, conseguir sobre el conjunto de la imagen un efecto visual de
aumento de contraste. Una funcin tal se puede obtener componiendo una funcin
de transferencia del histograma que hasta el valor de 05 se comporte como la
funcin cuadrado y que en adelante se comporte como la funcin raz. En la Figura
40 se ha representado esta funcin de transferencia. La funcin (b) de la misma
figura produce el efecto contrario, esto es una disminucin del contraste.

1
0.5
0.5
0
0
0.5
(a)
0.5
(b)
Figura 40.- Funciones de transferencia para aumento y reduccin de contraste.
En general, una funcin de transferencia con una pendiente inferior a la

unidad produce un efecto de reduccin de contraste. Esto se debe a que concentra
los valores de las intensidades de un rango R en un rango ms pequeo R. Por otro
lado una funcin de transferencia con una pendiente superior a la unidad produce
un efecto de aumento de contraste por razones inversas.
Las imgenes de Lena de la Figura 41, en las que respectivamente se ha
aumentado y reducido el contraste, han sido obtenidas aplicando estas funciones
de transferencia. As, al aplicar el filtro de aumento de contraste se aprecia en su
histograma que se ha saturado los tonos claros y los oscuros, mientras que se ha
reducido la densidad en la parte central del histograma. Esto quiere decir que,
proporcionalmente, hay muchos ms pxeles asociados a los tonos blancos y
negros que al resto de tonos.
El filtro de reduccin de contraste produce una imagen en la que se
aprecia una reduccin del rango dinmico del histograma. Esto tambin significa
que la imagen contiene menos informacin que otra en la que el rango dinmico
sea ms amplio, ya que se ha homogeneizado zonas de la imagen que antes eran
diferentes.
Aunque todas las transformaciones de histograma suelen expresarse
matemticamente con frmulas que hay que aplicar sobre cada pxel (x, y), en la
prctica, suelen tabularse. Es decir, se usa una tabla para acceder al valor
correspondiente a la transformacin en vez de realizar el clculo cada vez. De esta

forma, se aceleran las operaciones, ms teniendo en cuenta el reducido nmero de
niveles de intensidad involucrados (normalmente 256).
(a)
(b)
(c)
Figura 41.- Transformaciones del histograma sobre la imagen de Lena: (a) imagen original
con su correspondiente histograma; (b) resultado de una operacin de disminucin de
contraste; (c) aumento de contraste.
3.2.2 Ecualizado del histograma

El proceso de ecualizado tiene por objetivo obtener un nuevo histograma, a partir
del histograma original, con una distribucin uniforme de los diferentes niveles de
intensidad.
Al transformar cualquier distribucin continua en una distribucin
uniforme se est maximizando la cantidad de informacin que contiene. Y aunque
ya se ha dicho que en el caso discreto es imposible aumentar la cantidad de
informacin, el ecualizado del histograma puede mejorar la calidad visual de
imgenes parcialmente saturadas. Este efecto se debe a que se cambian los valores
de intensidad de las zonas saturadas, en las que originalmente existen objetos que
no se distinguen adecuadamente al inspeccionar visualmente la imagen.
Para exponer el ecualizado del histograma se modifica ligeramente la
representacin del histograma para asimilarla a la de una funcin de densidad de
probabilidad. Para ello se precisa normalizar el histograma, de manera que los
niveles de intensidad pasen a ser una variable aleatoria R que vare entre 0 y 1, y el
rea del histograma normalizado sea igual a la unidad. Para conseguir esto, se
normaliza el nmero de intensidades a valores entre 0 y 1 (igual que se coment en
el punto 3.2.1) y se divide cada elemento del histograma por el nmero de pxeles
de la imagen (para que su suma sea 1).
Se ha dicho que el objetivo del ecualizado es transformar la distribucin
del histograma PR en una distribucin uniforme PS. Como el rea bajo PR ser igual
al rea bajo PS, y el rea bajo PR es igual a 1, PS debe ser una distribucin uniforme
con la forma PS=1.
PR
PS
a
a
0
Figura 42.- Si s es el valor transformado de r, el proceso de ecualizado exige que el rea a

la izquierda de r debe ser la misma que la que hay a la izquierda de s.
Adems, cualquier transformacin del histograma cumple que el rea a la

izquierda de un punto r sobre la distribucin original PR es igual al rea a la
izquierda del correspondiente punto transformado s en la distribucin PS. Es decir,
el rea (a) bajo PR de la Figura 42 debe ser igual al rea (a) bajo PS si el nivel
original r se corresponde con s en el histograma ecualizado.
Todas estas restricciones se escriben como:
r
0
PR ( )d = PS ( )d = d = s
(3.1)
Pasando al caso discreto se tiene que PR(r), la probabilidad de que un pxel

tenga la intensidad r, se expresa como:
PR (r ) =
nr
n
(3.2)
Donde n es el nmero total de pxeles en la imagen, y nr el nmero de

pxeles con nivel de intensidad r, perteneciendo r al conjunto V de posibles valores
de intensidad. Por ello si en la frmula (3.1) se cambia la integral por un sumatorio
y se sustituye (3.2) se obtiene:

j<r
nj
jV
s(r ) =
(3.3)
Ejemplo 10.Para ecualizar la imagen de 3x4 de la Figura 43 (a), que posee 6 niveles de gris, se
debe en primer lugar normalizar los niveles de intensidad para que tomen valores
entre 0 y 1, obteniendo la imagen (b) y el histograma (c) de la Figura 43.
Figura 43.- (a) imagen original; (b) histograma de (a).
Aplicando (3.3) se obtiene:

s(0) = 2/12 = 0
s(4) = 7/12 = 058
s(1) = 2/12 = 016
s(5) = 9/12 = 075
s(2) = 3/12 = 025
s(6) = 12/12 = 1
s(3) = 6/12 = 05
s(7) = 12/12 = 1
La siguiente tabla muestra como debe realizarse la conversin de los

niveles de intensidad. Estos valores han sido obtenidos al aplicar redondeo al ms
prximo, y en caso de igualdad redondeo hacia abajo, sobre S.
Nivel original
Valor Ecualizado
Rango
Nivel Ecualizado
[0, 0125)
016
[0125, 025)
025
[025, 0375)
05
[0375, 05)
058
[05, 0625)
075
[0625, 075)
[075, 0875)
[0875, 1]
Tabla 4
Cambiando estos valores se obtiene la imagen (a) y el histograma (c) de la

Figura 44. Se aprecia que la transformacin no ha devuelto un histograma
uniforme. Esto se debe a la naturaleza discreta de los elementos, que impide

dividir un nivel de intensidad concreto en varios distintos, y que tambin impide
que aparezcan valores no enteros de intensidad.
(a)
(b)
Figura 44.- (a) Resultado de la ecualizacin de la Figura 41; (b) histograma

ecualizado.
En la Figura 45 se aprecia el efecto del ecualizado sobre la imagen de

Lena.
0
1
Figura 45.- Ecualizado del histograma sobre la imagen de Lena: (a) imagen original con su
correspondiente histograma; (b) ecualizado del histograma.
3.3. Filtrado espacial

Los filtros espaciales son filtros que se realizan directamente sobre la imagen y por
tanto en el dominio del espacio. Aunque hay diferentes tipos de filtros espaciales,
los ms usados son los filtros espaciales de convolucin.
La convolucin es una operacin matemtica que suma una funcin f
consigo misma repetidas veces en todo el dominio de otra funcin h, utilizando en
cada suma como valor de escala el valor de h en ese punto de su dominio. Su
formulacin matemtica es:
f ( x ) h( x ) =
f ( x)h(u x)dx

Aunque la operacin de convolucin es conmutativa, en teora de filtros
una de las funciones corresponde a la seal y la otra corresponde al filtro que se
desea aplicar, denominando a esta ltima funcin impulsional.
En el caso bidimensional discreto, la operacin de convolucin se define
mediante la siguiente ecuacin:
1 N 1 N 1
I (i, j ) h( x i, y j )
N 2 i =0 j = 0
x, y = 0,1,..., N 1
I ' ( x, y ) = I ( x, y ) h ( x, y ) =
donde I es una matriz de tamao N y h es una funcin peridica de periodo N. As,

para el caso bidimensional discreto de una imagen de tamao NxN, la transformada
inversa (h) del filtro resulta ser una matriz tambin de tamao NxN, que se conoce
como funcin de filtrado espacial o matriz o mscara de convolucin.
En principio la carga computacional de esta operacin es elevada si N es
grande. Sin embargo es posible que la funcin de transferencia h tenga un nmero
de elementos muy inferior a NxN al estar muchos de sus valores a cero. Utilizando
una funcin de convolucin de tamao menor al de la imagen obtenemos la
siguiente expresin:
I ' ( x, y ) =
1 n n
I (i, j ) h( x i, y j)
D i =0 j =0
x, y = 0,1,..., N 1
donde D es un factor de escala que se conoce como factor de divisin. El siguiente

ejemplo muestra la aplicacin de un filtrado espacial con una mscara de
convolucin de 3x3.
Ejemplo 11.Supngase una funcin impulsional h de tamao 3x3 igual a la matriz que sigue:
h1
h = h4
h
7
h2
h5
h8
h3
h6
h9
La imagen de salida I resultante de aplicar el filtrado espacial viene dada

por la expresin:
I(x,y) = I(x,y) * h =
h1 I(x-1, y-1) + h2 I(x, y-1) + h3 I(x+1, y-1) +

h4 I(x-1, y) + h5 I(x, y) + h6 I(x+1, y) +
h7 I(x-1, y+1) + h8 I(x, y+1) + h9 I(x+1, y+1)
Se aprecia que, para una matriz de convolucin de 3x3, el valor del pxel
I(x,y) tras el filtrado depende nicamente del valor del pxel I(x,y) y de sus ocho
vecinos antes del filtrado.
En la prctica se suele omitir el clculo para los pxeles del borde de la
imagen, por lo que la imagen convolucionada es ms pequea que la original.
Adems, para mantener el resultado de la operacin dentro de un rango
representable se suele aadir a la expresin anterior un factor de divisin y
despus un factor de suma.
3.3.1 Filtros de suavizado

El filtrado de suavizado espacial se basa en el promediado de los pxeles
adyacentes al pxel que se evala. Quizs el filtro de suavizado ms simple que se
puede disear se corresponde con una matriz de 3x3 con todos los elementos a 1.
El resultado de la convolucin de cada pxel se deber dividir por 9 para asegurar
el obtener valores dentro del rango de la paleta. En la figura adjunta se puede
apreciar el resultado de la aplicacin de este filtro.

Las siguientes matrices de convolucin definen otros filtros de suavizado:
1 1 1
1
h = 1 2 1
10
1 1 1
1 2 1
1
h = 2 4 2
16
1 2 1
Otro filtro de suavizado es el filtro de la mediana. ste se basa en sustituir

el valor de un pxel por el de la mediana del conjunto formado por el mismo y sus
ocho vecinos.
El filtro del bicho raro es otro ejemplo de filtro suavizado. Consiste en
comparar la intensidad de un pxel con la de sus 8 vecinos. Si la diferencia es
superior a cierto umbral U (que debe elegirse previamente), se sustituye tal pxel
por el valor promedio de los pxeles vecinos, en otro caso se mantiene su valor de
intensidad.
Debe observarse que tanto el filtro de la mediana, como el filtro del bicho
raro son filtros no lineales17, y por tanto no se pueden obtener mediante una
operacin de convolucin.
17
Un operador O sobre imgenes bidimensionales se dice que es lineal si cumple que:

O[k1I1(x, y)+k2I2(x, y)] = k1O[I1(x, y)] + k2O[I2(x, y)]
siendo k1 y k2 dos constantes e I1 e I2 dos imgenes bidimensionales.
1 1 1
1
1 1 1
9
1 1 1
Original
Suavizado
Figura 46.- Aplicacin de un filtrado espacial de suavizado.
3.3.2 Filtros de obtencin de contornos

El clculo de la derivada direccional de una funcin permite conocer cmo se
producen los cambios en una direccin determinada. Tales cambios suelen
corresponder a los contornos de los objetos presentes en las imgenes.
Partiendo de que el operador gradiente se define como:
( I ( x, y )) =
I r
I r
ux + uy
x
y
Se definen los filtrados de convolucin Gx, y Gy:
Gx =
I
= I ( x, y ) * h1 ( x, y )
x
(3.11)
Gy =
I
= I ( x, y ) * h2 ( x, y )
y
(3.12)
Obteniendo h1 y h2 mediante una aproximacin a la derivada con la resta.

Es decir, si se consideran los pxeles de la siguiente figura:
z1
z4
z7
z2
z5
z8
z3
z6
z9
I
= z5 z 6
x
I
= z 5 z8
y
Las derivadas seran:
Sustituyendo en (3.11) y (3.12) se deduce que las matrices de convolucin

h1 y h2 sern:
0 0 0
h1 = 0 1 1
0 0 0
0 0 0
h2 = 0 1 0
0 1 0
Por ejemplo la matriz h1 proporciona un filtrado en el que un cambio de

brillo entre dos pxeles adyacentes en horizontal produce un valor distinto de cero.
En particular los cambios de claro a oscuro se marcan con un valor positivo y los
cambios de oscuro a claro con un valor negativo. Por otro lado, cuando dos pxeles
adyacentes tienen el mismo valor la convolucin con h1 en ese punto devuelve
cero.
En el caso de que no se desee considerar la direccin del vector gradiente,
sino slo su mdulo, se puede utilizar:
I G ( x, y ) = G x2 ( x, y ) + G y2 ( x, y )
Con el fin de reducir la carga computacional la expresin anterior puede
sustituirse por esta otra que produce un resultado similar:
I G ( x, y ) =
1
G x ( x, y ) + G y ( x, y )
2

Una aproximacin mejor al gradiente est dada por las expresiones:
I
= ( z1 + 2 z 4 + z 7 ) ( z 3 + 2 z 6 + z 9 )
x
I
= ( z1 + 2 z 2 + z3 ) ( z 7 + 2 z8 + z 9 )
y
Dando lugar a las matrices h1 y h2. a las que tambin se le debe aadir un
factor de divisin y uno de suma para evitar que se salga de rango el resultado.
1 0 1
h1 = 2 0 2
1 0 1
2
1
1
0
0
h2 = 0
1 2 1
Estas matrices se conocen como ventanas de Sobel, que fue quien las
propuso. Mediante ellas se calcula el gradiente en las direcciones horizontal y
vertical. En la Figura 47 se ve cmo el resultado de aplicar h1 sobre la imagen de
Lena produce una imagen en la que aparecen los contornos horizontales de la
figura de la imagen original. Ese resultado se obtiene utilizando un factor de
divisin de 4 y presentando el valor absoluto de la convolucin, utilizando niveles
de gris en escala desde 0 como blanco hasta 255 como negro.
Una alternativa muy comn al uso de valor absoluto para evitar los valores
fuera de rango consiste en el uso de un factor de suma que se aplica tras la
convolucin y la divisin. Por ejemplo, en el caso del filtro de Sobel un factor de
divisin de 8 y un factor de suma de 128 evitaran los valores fuera de rango.
1 0 1
2 0 2
1 0 1
Original
Sobel
Figura 47.- Filtrado de Sobel en la direccin x en valor absoluto.
Otros sencillos filtros espaciales de localizacin de contornos que se

pueden encontrar en la bibliografa son los de Roberts y los de Prewitt.
1 0 0 1
y
Robert :
0 1 1 0
1 1 1 1 0 1
Prewitt : 0 0 0 y 1 0 1
1 1 1 1 0 1
3.3.3 Filtro de la laplaciana

El operador laplaciano de una funcin bidimensional I(x,y) es el escalar:
( I ( x, y )) = (( I ( x, y ))) =
2I r 2I r
ux + 2 u y
x 2
y
Este operador, que se basa en la segunda derivada, se hace cero cuando la

primera derivada se hace mximo, es decir cuando aparece un cambio de signo en
la primera derivada. Su clculo parte del de la primera derivada.
z1
z4
z
7
z2
z5
z8
z3
z 6 y derivando se obtiene
z 9
z1 ' z 2 ' z 3 '
z 4 ' z5 ' z 6 '

z ' z ' z '
8
9
7

siendo:
z4' = z4 z5
z5' = z5 z6
y por tanto:
z4'' = z4' z5' = (z4 z5)-( z5 z6) = z4 2z5 + z6
Procediendo de igual forma en la direccin vertical se obtiene:
Z2 2z5 + z8
Sumando ambas ecuaciones y prescindiendo por tanto
direccionalidad se obtiene la matriz de convolucin de la figura adjunta.
de
la
0 1 0
1 4 1
0 1 0
Original
Laplaciana
Figura 48.- Laplaciana de la imagen de Lena. Para su presentacin a 255 niveles de gris se
ha usado un factor de divisin de 8 y un factor de suma de 128.
3.4. Operaciones en el dominio de la frecuencia

Se ha visto que una imagen digital es una representacin que se refiere
directamente a la intensidad luminosa de puntos de un espacio, por eso se dice que
una imagen digital es una representacin en el dominio del espacio. Existen otras
representaciones, que contienen la misma informacin, pero que no estn en el
dominio del espacio. Es el caso de las representaciones en el dominio de la
frecuencia.

Las representaciones en el dominio de la frecuencia, detallan con cunta
frecuencia se repiten ciertos patrones en una imagen, y con ello consiguen
representar la informacin de tal imagen. Esta representacin puede ser
especialmente til, ya que teniendo la frecuencia de repeticin de tales patrones se
pueden detectar y alterar directamente elementos presentes en las imgenes como
el ruido, los contornos o las texturas.
3.4.1 Transformada de Fourier

Las series de Fourier son unas herramientas matemticas especialmente tiles para
describir fenmenos peridicos y para aproximar funciones no lineales.
Las series de Fourier se basan en las series trigonomtricas. Se llama serie
trigonomtrica de coeficientes {an} y {bn} a una serie funcional de la forma:
a0
+ a n cos(nx) + bm sen (mx)
2 n =1
m =1
Se llama serie de Fourier de la funcin peridica f(x) definida en el

intervalo [-, ] a la serie trigonomtrica que tiene de coeficientes:
an =
f ( x) cos(nx )dx

bm =
f ( x)sen (mx) dx

n = 0,1,2,...
m = 1,2,3...
En adelante se entender por coeficiente cada uno de los pares (ai, bi). As
el coeficiente ensimo define la amplitud de las series de cosenos y senos de
frecuencia ensima.
Se puede demostrar que una serie trigonomtrica definida en base a estos
coeficientes converge a la funcin f(x) que le da origen, salvo a lo sumo en un
nmero finito de puntos. As, una serie de Fourier puede verse como la suma de un
conjunto de funciones sinusoidales de diferentes frecuencias, promediada por unos
coeficientes, con el objetivo de aproximarse a una funcin f(x). Estos coeficientes

evalan qu peso tiene cada una de las funciones sinusoidales a la hora de
construir la funcin f(x). Por eso, el conjunto de seales sinusoidales, debe verse
como una base en el dominio de la frecuencia. Al conjunto de coeficientes
correspondientes a la serie de Fourier de una funcin se le denomina transformada
de Fourier de la funcin.
En la Figura 49 se ha calculado la transformada de Fourier de una funcin
cuadrada (a). Se ha obtenido un conjunto de coeficientes, en los que la parte bm es
cero y an toma valores 1, 2/, 0, 2/(3), 0, 2/(5)...
Se aprecia cmo la suma promediada de las sinusoidales (b), (c) y (d)
resulta en una funcin (e), que aproxima la funcin cuadrada (a). Adems se
aprecia que usando los 10 primeros coeficientes se obtiene (f) que se aproxima an
ms fielmente a la funcin cuadrada. Esto se generaliza en una propiedad
importante de las series de Fourier, segn la cual cuanto mayor es el nmero de
coeficientes mejor es la aproximacin de la serie a la funcin f(x).
Figura 49.- En esta figura se presenta el resultado del clculo de varios coeficientes de la
transformada de Fourier de una funcin (a). Las grficas (b), (c) y (d) presentan las seales
sinusoidales correspondientes a los 3 primeros coeficientes de Fourier. La figura (e)
corresponde a la suma de esas tres primeras seales sinusoidales. Por ltimo, (f)
corresponde a la suma de las 10 primeras componentes.

Representacin de la transformada de Fourier
El resultado de la transformada de Fourier de una funcin suele representarse
mediante dos diagramas. Uno indica el mdulo de cada coeficiente de Fourier (an,
bm), el otro indica su direccin o fase. Para funciones unidimensionales estos
diagramas son dos histogramas, que representan respectivamente el valor del
mdulo y el de la fase para cada frecuencia.
Transformada discreta de Fourier
En los prrafos precedentes se ha tratado el caso de una funcin continua. Sin
embargo en un ordenador las seales que se utilizan son siempre discretas. El
concepto bsico de seal discreta o muestreada es que est constituida por un
conjunto finito de N valores.
f(x) = {f(0), f(1), ... f(N-1)}
Estos valores se obtienen de acuerdo al proceso de muestreo o
digitalizacin que se defini del captulo 2. Las principales propiedades que se
necesitan para el desarrollo que sigue son:
que estas muestras se hayan tomado a intervalos fijos de tiempo o espacio.
que se hayan tomado con la resolucin adecuada para asegurar que no se

pierde informacin.
Para poder utilizar la transformada de Fourier sobre estas seales discretas

es necesario realizar algunos cambios sobre su definicin. En primer lugar, se debe
pasar de la definicin continua a una definicin discreta. Esto se consigue
cambiando las integrales por sumatorios. En segundo lugar, es necesario realizar
un cambio de variable sobre los coeficientes (an, bn), para que la funcin se defina
en un intervalo general [0, N-1] en vez de en el intervalo [-, ]. Por ltimo, se
puede utilizar la frmula de Euler18 a fin de encontrar una notacin ms compacta,
transformado el coeficiente (an, bn) en un nmero complejo.
18
ei = cos() + i sen()

As, para una seal temporal f(k) el coeficiente ensimo de la serie de
Fourier discreta es:
F ( f , n) =
1
N
N 1
f (k ) e
2
kn
N
n = 0,1,..., N 1
(3.4)
k =0
siendo n la frecuencia de la seal transformada. En resumen, se ha pasado de tener

una seal discreta en el dominio del tiempo:
f(x) = {f(0), f(1), ... f(N-1)}
a tener una seal discreta en el dominio de la frecuencia:
F(f,n) = { F (f,0), F (f,1), ... F (f,N-1)}
Propiedades de la transformada de Fourier
La transformada de Fourier cumple las siguientes propiedades relativas a la
traslacin:
F f ( x )e
j 2
n0 x
N
, n = F(f , n n0)
F(f(x-x0) , n) = F(f , n) e
2
n0 x
N
F f ( x)(1) x , n = F(f , n
F f (x
N
)
2
N
), n = F(f , n) (1) n
2
Respecto a la rotacin podemos decir que rotar una imagen en el dominio

del espacio equivale a rotarla en el dominio de la frecuencia.
Tambin cumple las siguientes propiedades respecto a la escala:

F(af(x) , n) = a F(f , n)
F(f(ax) , n) =
1
F(f , n/a)
a
La transformada de Fourier cumple la siguiente propiedad distributiva:

F(f(x) + g(x) , n) = F(f(x) , n) + F(g(x) , n)
La transformada de Fourier cumple las siguientes propiedades respecto a
su periodicidad:
f ( x) = f ( x + N )
F ( f , n) = F ( f , n + N )
F(f, n) = F ( f , n) 19
Transformada discreta inversa de Fourier

Ya que la transformada discreta de Fourier no implica prdida de informacin es
posible el paso inverso. Esto es, a partir de los coeficientes de la transformada de
Fourier obtener la seal en el dominio del tiempo. Para el caso discreto la
transformada inversa de Fourier se define como:
N 1
f(x) = F-1(F(f,n) , x)=
F ( f , n) e
2
kn
N
x = 0,1,..., N 1
n =0
19
El conjugado de un nmero complejo tiene igual parte real y la parte imaginaria cambiada
de signo, esto tambin puede interpretarse como mismo mdulo y fase cambiada de signo.

Aplicaciones de la transformada de Fourier
Si se tuviese una seal compuesta de dos seales sinusoidales, por ejemplo
correspondientes al sonido resultante de la mezcla de dos notas producidas por un
piano, en el dominio de la frecuencia sera fcil aislar una de la otra. Slo habra
que realizar la transformada de Fourier, localizar las dos frecuencias dominantes,
poner a cero el trmino de la transformada de Fourier correspondiente a la nota
que se desea eliminar, y hacer la transformada inversa, obteniendo la seal
correspondiente a una de las notas. Este tipo de filtrado se conoce como filtrado
paso banda. La Figura 50 muestra diferentes ejemplos de filtrado paso banda.
1
0.5
0.5
0.5
0
0
0.5
0
0
0.5
0.5
Figura 50.- De izquierda a derecha un filtro paso alto, un filtro paso bajo y un filtro paso
banda.
La misma idea sirve para eliminar el ruido de alta frecuencia existente en

una seal. Si se sabe que una seal que contiene cierta informacin puede cambiar
con una velocidad mxima, los cambios que se produzcan a una velocidad mayor
correspondern a ruido. En la Figura 51 se presenta un ejemplo de una seal (a) a
la que se le ha sumado un ruido de alta frecuencia (b) obteniendo (c). Calculando
la transformada de Fourier, eliminando los coeficientes correspondientes a las altas
frecuencias se obtiene (e), y recuperando la seal mediante la transformada inversa
se obtiene (f) que es la seal original sin el ruido. Este tipo de operacin que
elimina el ruido de alta frecuencia se conoce como filtrado paso bajo.
Con un razonamiento similar es posible obtener slo las componentes
correspondientes a la alta frecuencia, en lo que se conoce como filtrado paso alto.
Otra aplicacin se encuentra en el campo de la compresin de imgenes
con prdida. En el captulo 2 se introdujo la transformada de cosenos para explicar
la compresin con prdida del algoritmo JPG, la cual es muy similar a la

transformada de Fourier. La compresin se obtiene al guardar con mayor
resolucin las componentes de Fourier con valores altos, las de mayor energa20, y
guardar con menor resolucin las que tengan valores bajos. Al hacer esto se
consigue reducir el tamao de los datos, ya que no se precisan tantos bits como
cuando se tiene que guardar todas las componentes con la misma resolucin.
(a)
(b)
(c)
(d)
(e)
(f)
Figura 51.- (a) Seal que contiene ciertos datos, (b) ruido aleatorio, (c) datos ms ruido, (d)
representacin de los mdulos de los coeficientes de Fourier, (e) representacin de los
mdulos tras eliminar los de menor energa, (f) el resultado de la transformada inversa de
Fourier sobre los coeficientes modificados corresponde a la seal inicial sin ruido.
N 1
20
La energa de una seal se define como
E = f (k )
k =0

Adems, para un amplio rango de imgenes, se ha comprobado que la
seal obtenida al realizar la transformada inversa de estas componentes
cuantizadas, se aproxima, visualmente, de manera notable a la seal original.
Transformada rpida de Fourier
El clculo de los coeficientes de Fourier es muy costoso. La ecuacin (3.4) revela
que hay que hacer un bucle para calcular cada coeficiente. Por tanto el clculo de
todos los coeficientes exige un doble bucle y por eso su complejidad es O(n2).
Adems las operaciones de divisin y multiplicacin involucradas en el clculo
son muy costosas. Es por esto que la optimizacin del clculo de la transformada
de Fourier es importante si se desea hacer un uso intensivo de ella.
La transformada rpida de Fourier (FFT21) no es otra cosa que una
manera rpida de calcular la transformada discreta de Fourier, gracias a la
aplicacin de algunas tcnicas matemticas y a algunas optimizaciones en su
implementacin. En los siguientes prrafos se analizan las optimizaciones que
utiliza la FFT para calcular de manera ms eficiente los coeficientes de Fourier.
La primera optimizacin consiste en trasladar el clculo de la exponencial
fuera del sumatorio. Esto se puede hacer precalculando los N posibles productos.
As, partiendo de la frmula (3.4) se ve que el trmino -j2/N es constante,
mientras que kn cambia en cada iteracin. Se aprecia adems que cada vez que kn
sobrepasa el valor de N-1, el resultado de la exponencial es el mismo (ya que esta
exponencial es una funcin peridica de periodo N). Precalculando estas
exponenciales y almacenndolas en un array llamado PRE, la formula (3.4) queda
como:
F(f,n) =
21
1
N
N 1
f (k ) PRE(nk mod N )
n = 0,1,..., N 1
k =0
Fast Fourier Transform en ingls.

La segunda optimizacin que realiza la FFT se basa en la observacin de
que si N es par se pueden computar por separado los trminos pares de los impares
de la serie de Fourier.
As, en los trminos pares, cuando n tiene la forma 2n, PRE(2nk mod N)
es igual que PRE(2n(k+N/2) mod N). Por ello, sacando factor comn, los trminos
pares tienen la forma:
1
F(f,2n) =
N
N
1
2
SUM (k ) PRE(2nk mod N )
n = 0,1,...,
k =0
N
1
2
(3.5)
donde:
SUM (k ) = f (k ) + f (k +
N
)
2
De la misma manera, para los trminos impares (si n=2n+1) se cumple

que PRE((2n+1)(k+N/2) mod N) es igual a -PRE((2n+1)(k+N/2) mod N) por lo
que dichos trminos tienen la forma:
1
F(f,2n+1) =
N
N
1
2
DIF (k ) PRE((2n + 1)k mod N )
n = 0,1,...,
k =0
N
1 (3.6)
2
donde:
DIF ( k ) = f ( k ) f ( k +
N
)
2
Esta optimizacin hace que para el clculo de cualquier trmino de la serie

sean necesarios slo N/2 productos, frente a los N que se necesitaban con (3.4),
reduciendo con esto el tiempo de cmputo a la mitad.
Si el nmero de valores N de la funcin a aproximar es potencia de dos, la
idea de calcular de manera independiente trminos pares e impares se puede
aplicar de manera sucesiva sobre las frmulas (3.5) y (3.6), creando un algoritmo

de tipo divide y vencers. Esta optimizacin reduce la complejidad del algoritmo
a O(nlog(n)), por lo que suele forzarse a que las imgenes a transformar tengan el
mismo ancho que alto y su lado sea potencia de dos.
Transformada de Fourier de imgenes digitales
Para el tratamiento de imgenes digitales en niveles de gris I(x,y) se debe ampliar
la definicin de la transformada de Fourier para funciones bidimensionales. As,
los coeficientes IC(n , m) se calculan segn:
IC (n , m) = F(I ,n ,m) =
1
N
N 1 N 1
I ( x, y) e
2xn
N
2my
N
(3.7)
x = 0 y =0
n, m = 0,1,...N 1
Debe apreciarse que esta definicin slo resulta aplicable sobre imgenes
cuadradas.
En la Figura 52 se presenta las matrices correspondientes a los mdulos y
a las fases de los coeficientes de Fourier de la transformada de la imagen de Lena.
Los valores de estas matrices han sido ecualizados y han sido representados en
falso color para que se distingan con claridad.
(a)
(b)
(c)
Figura 52.- En esta figura se muestra una imagen de Lena (a) sobre la que se realiza una
transformada de Fourier, obtenindose (b) y (c), que corresponden respectivamente a la
representacin matricial de los mdulos y de las fases de los coeficientes de Fourier
normalizados entre 0 y 1 y en falso color.
La matriz de mdulos contiene la informacin relativa a los valores de

intensidad de la imagen (las amplitudes de las sinusoides). La matriz de fase
contiene la informacin relativa a la posicin de los pxeles (la posicin de los
flancos de subida y bajada de las sinusoides). Es por eso que si se realiza la
transformada inversa teniendo en cuenta slo la matriz de fase se obtiene una
imagen parecida al trazado de los contornos o bordes de los objetos presentes en la
imagen. Por otro lado, la realizacin de la transformada inversa teniendo en cuenta
slo la matriz de mdulos proporciona una imagen de manchas con tonos
parecidos a los de la imagen original.
La inversa de la transformada de Fourier de una imagen digital viene dada
por:
j
1 N 1 N 1
I C ( n, m ) e
N n=0 m=0
x, y = 0,1,...N 1
I (x , y) = F-1(IC , x , y) =
2xn
N
2my
N

De nuevo estas transformaciones se pueden realizar sobre imgenes en
color (RGB) sin ms que repetir el tratamiento que se describe para cada una de las
componentes de color.
Ejemplo 12.Este ejemplo ilustra el clculo de los coeficientes de Fourier para la siguiente
imagen de 2x2.
100
50
255
Sus coeficientes de Fourier:
1
( I (0,0)e 0 e 0 + I (0,1)e 0 e 0 + I (1,0)e 0 e 0 + I (1,1)e 0 e 0 ) =
2
1
405
= (100 + 255 + 50 + 0) =
2
2
1
I C (0,1) = ( I (0,0)e 0 e 0 + I (0,1)e 0 e i + I (1,0)e 0 e 0 + I (1,1)e 0 e i ) =
2
1
105
= (100 255 + 50 + 0) =
2
2
1
I C (1,0) = ( I (0,0)e 0 e 0 + I (0,1)e 0 e 0 + I (1,0)e i e 0 + I (1,1)e i e 0 ) =
2
1
305
= (100 + 255 50 + 0) =
2
2
1
I C (1,1) = ( I (0,0)e 0 e 0 + I (0,1)e 0 e i + I (1,0)e i e 0 + I (1,1)e i e i ) =
2
1
205
= (100 255 50 + 0) =
2
2
I C (0,0) =

Su matriz de fase en este caso tan simple sale toda a cero, mientras que su
matriz de mdulos es:
202.5
152.5
-52.5
-102.5
El clculo inverso de la imagen a partir de los coeficientes produce como

resultado la imagen original:
1
( I C (0,0)e 0 e 0 + I C (0,1)e 0 e 0 + I C (1,0)e 0 e 0 + I C (1,1)e 0 e 0 ) =
2
1 405 105 + 305 205
400
= (
)=
= 100
2
2
4
1
I (0,1) = ( I C (0,0)e 0 e 0 + I C (0,1)e 0 e i + I C (1,0)e 0 e 0 + I C (1,1)e 0 e i ) =
2
1 405 + 105 + 305 + 205 1020
= (
)=
= 255
2
2
4
1
I (1,0) = ( I C (0,0)e 0 e 0 + I C (0,1)e 0 e 0 + I C (1,0)e i e 0 + I C (1,1)e i e 0 ) =
2
1 405 105 305 + 205
200
= (
)=
= 50
2
2
4
1
I (1,1) = ( I C (0,0)e 0 e 0 + I C (0,1)e 0 e i + I C (1,0)e i e 0 + I C (1,1)e i e i ) =
2
1 405 + 105 305 205
0
= (
)= =0
2
2
4
I (0,0) =
Propiedades de la transformada de Fourier bidimensional

La transformada de Fourier cumple las siguientes propiedades relativas a la
traslacin:
F f ( x , y )e
j 2
( n0 x + m 0 y )
N
, n, m = F(f , n n0 , m m0)
F(f(x-x0 , y-y0) , m , n) = F(f , n , m) e
F f ( x, y )(1) x + y , n, m = F(f , n
F f (x
2
( n 0 x +m 0 y )
N
N
N
,m
)
2
2
(3.8)
N
N
, y ), n, m = F(f , n , m) (1) m + n
2
2
Respecto a la rotacin podemos decir que rotar una imagen en el dominio

del espacio equivale a rotarla en el dominio de la frecuencia.
Tambin cumple las siguientes propiedades respecto a la escala:
F(af(x , y) , n , m) = a F(f , n , m)
F(f(ax , by) , n , m) =
1
F(f , n/a , m/b)
ab
La transformada de Fourier cumple la siguiente propiedad distributiva:

F(f(x , y) + g(x , y) , n , m) = F(f(x , y) , n , m) + F(g(x , y) , n , m)
La transformada de Fourier cumple las siguientes propiedades respecto a
su periodicidad:
f ( x, y ) = f ( x + N , y ) = f ( x, y + N ) = f ( x + N , y + N )
F ( f , m, n) = F ( f , m + N , n) = F ( f , m, n + N ) = F ( f , m + N , n + N )

F(f, n , m) = F ( f , n, m) 22
(3.9)
Finalmente podemos hablar de la separabilidad de la transformada de

Fourier:
F ( f ( x, y ), m, n) =
1 N j
e
N x=0
2mx
N
2my
j
1 N
f ( x , y )e N
N y =0
(3.10)
Transformada rpida bidimensional

La Transformada discreta de Fourier bidimensional tiene una complejidad O(n4),
ya que hay que calcular (3.7) para cada pxel de la imagen. Afortunadamente, el
algoritmo FFT descrito para el caso unidimensional es aplicable al caso
bidimensional, pues segn (3.10) una transformada discreta de Fourier
multidimensional puede verse como una composicin de transformadas
unidemensionales. Utilizando la FFT bidimensional la complejidad del clculo de
los coeficientes de Fourier se reduce a O(n2log(n)).
3.4.2 Filtrado frecuencial

Una vez conocida la formulacin de la transformada de Fourier para imgenes en
niveles de gris ya es posible transformar una imagen del dominio del espacio al
dominio de la frecuencia. Como ya se ha visto, una vez en el dominio de la
frecuencia, es sencillo realizar filtrados que eliminen elementos que aparezcan con
cierto periodo. La Figura 53 presenta la situacin de los coeficientes
correspondientes a las altas y a las bajas frecuencias sobre la matriz de
coeficientes. Como ocurra en el caso unidimensional, las componentes cercanas a
cero (en este caso las esquinas de la matriz) corresponden a las bajas frecuencias,
mientras que las del centro corresponden a las altas frecuencias. En los siguientes
apartados se tratan en detalle los procesos de filtrado paso bajo, filtrado paso alto y
filtrado paso banda para imgenes digitales.
22
El conjugado de un nmero complejo tiene igual parte real y la parte imaginaria cambiada
de signo, esto tambin puede interpretarse como mismo mdulo y fase cambiada de signo.

0,0
Bajas Frecuencias
Altas frecuencias
N-1,N- 1
Figura 53.- Situacin de los valores correspondientes a las altas y a las bajas frecuencias
sobre la matriz de coeficientes de la transformada discreta de Fourier bidimensional.
Como se deduce fcilmente de (3.9), en la matriz resultado de la

transformada de Fourier sobre una imagen digital la mitad de los valores relativos
al mdulo estn repetidos, y los relativos a la fase tambin se repiten excepto por
el signo.
Tambin se debe comentar que algunos autores prefieren intercambiar los
4 cuadrantes de la transformada de Fourier 2D para que las bajas frecuencias
aparezcan centradas y las altas frecuencias aparezcan en los bordes de la matriz.
Filtro paso bajo ideal
Los filtros paso bajo son filtros que eliminan las frecuencias altas, dejando pasar
las bajas frecuencias. Para realizar un filtrado de este tipo basta con poner a cero
los mdulos de los coeficientes de Fourier relativos a las altas frecuencias, dejando
sin modificar los relativos a las bajas frecuencias. Es importante elegir un valor de
corte adecuado a partir del cual se considera que una frecuencia es alta o baja.
En la Figura 54 se presenta la imagen de Lena de la Figura 52 sobre la que
se ha aplicado un filtrado paso bajo. Sobre la matriz de mdulos (a) se ha marcado
en azul los valores que han sido puestos a cero. Se observa que slo han pasado los
mdulos de las frecuencias inferiores a 30 pxeles.
(a)
(b)
(c)
Figura 54.- Modificacin sobre las matrices de coeficientes poniendo a cero el mdulo
correspondiente a las altas frecuencias (a), y manteniendo las fases (b). El resultado de la
transformada inversa sobre las matrices de coeficientes modificadas corresponde a la
imagen (c) donde se aprecia que los contornos han sido suavizados.
Filtro paso alto ideal

Los filtros paso alto son filtros que eliminan las bajas frecuencias, permaneciendo
las altas frecuencias. Para realizar un filtrado paso alto hay que poner a cero los
mdulos de los coeficientes de Fourier relativos a las bajas frecuencias, dejando
sin modificar los relativos a las altas frecuencias. De nuevo hay que elegir un valor
de corte adecuado a partir del cual se considera que una frecuencia es alta o baja.
En la Figura 55 se presenta la imagen de Lena de la Figura 52 sobre la que
se ha aplicado un filtrado paso alto. Sobre la matriz de mdulos (a) se aprecia que
se ha pasado los mdulos de las frecuencias superiores a 30 pxeles, el resto, en
azul, est a cero. Sobre (c) se aprecia que las altas frecuencias se corresponden con
los contornos de la figura de Lena, ya que los contornos corresponden a los
cambios rpidos de intensidad de los pxeles.
(a)
(b)
(c)
Figura 55.- Modificacin realizada sobre las matrices de coeficientes poniendo a cero el
mdulo correspondiente a las bajas frecuencias (a), y manteniendo las fases (b). El
resultado de la transformada inversa sobre las matrices de coeficientes modificadas
corresponde a la imagen (c) donde se aprecia slo la informacin de los contornos y el
ruido de alta frecuencia.
Filtros paso banda ideal

Los filtros paso banda son filtros en los que permanece inalterado un rango (o
banda) de frecuencias determinado y son eliminados los coeficientes
correspondientes al resto de frecuencias. As, los filtros paso alto y paso bajo
constituyen dos casos lmites del filtro paso banda.
En la imagen de la Figura 56 se ha preparado una imagen de Lena a la que
se le ha aadido un ruido con estructura. Sobre la representacin de la matriz de
mdulos se aprecia unos valores altos para las frecuencias cercanas a los puntos
(0,80), (0,180), (255,80) y (255,180) que en la Figura 52 no existan.
Posteriormente se ha realizado un filtrado paso banda en el que se ha eliminado
dos bandas de radio 25 en torno a los puntos que concentraban las frecuencias de
ruido. Sobre la figura se puede apreciar que los pxeles de las lneas que interferan
han sido rellenados con valores prximos a los de sus vecinos.
Figura 56.- Arriba la imagen de Lena a la que se le aade un ruido con estructura que
consiste en la desaparicin de 1 de cada 3 lneas de la imagen. Abajo el resultado de un
filtrado paso banda ajustado a la zona del histograma de Fourier en el que aparecen las
frecuencias que corresponden al ruido.
3.4.3 Teorema de convolucin

Es posible demostrar que la transformada de Fourier de la convolucin de dos
funciones es igual al producto punto a punto de las transformadas de Fourier de las
dos funciones.
F(f*h)= F(f) F(h)
(3.13)
Este teorema abre multitud de posibilidades al establecer una

correspondencia entre los filtrados en el dominio del espacio y los filtrados en el
dominio de la frecuencia.

Aceleracin del filtrado espacial
Cuando la matriz de convolucin h tiene un tamao muy grande la operacin de
convolucin puede ser ms lenta que el paso al dominio de la frecuencia, el
filtrado como un producto punto a punto, y la aplicacin de la transformada
inversa (usando la transformada rpida de Fourier en cada caso).
Restauracin de imgenes digitales
Si la aplicacin sobre una imagen de un filtro espacial en el dominio de la
frecuencia consiste en la multiplicacin punto a punto de dos matrices, es claro
que deshacer ese filtrado se puede hacer con la divisin punto a punto de las dos
matrices.
3.4.4 Otros operadores en el dominio de la frecuencia

Existen multitud de operadores que tambin operan en el dominio de la frecuencia
y que no se estudian en este captulo por motivos de espacio. En general su
operativa es similar a la estudiada para la Transformada de Fourier. Sin embargo,
cada uno aporta sus propias ventajas e inconvenientes. Por ejemplo, se puede citar
la transformada de cosenos que se introdujo brevemente en el captulo 2.
No se debe terminar esta seccin sin citar las transformadas de onditas
(wavelets) que suponen una generalizacin al concepto de transformada de Fourier
en el que la base del espacio vectorial no son las funciones senos y cosenos sino
cualquier tipo de funcin dentro de una amplia familia (Haar, Gausiana, Mexican
Hat, etc...). Estos operadores estn obteniendo gran aplicacin debido a la
particularizacin que supone elegir adecuadamente la funcin de la base para cada
problema concreto y a la reduccin del coste computacional de los algoritmos
asociados a su clculo respecto a la transformada de Fourier. As, por ejemplo, el
estndar de compresin de imgenes JPEG2000 usa compresin por onditas.
3.5. Operaciones morfolgicas

Clsicamente la morfologa ha sido una parte de la biologa que estudia la forma
de los animales y de las plantas. De la misma forma, la morfologa matemtica
consiste en un conjunto de tcnicas matemticas que permiten tratar problemas que

involucran formas en una imagen. La morfologa matemtica tiene su origen en la
teora de conjuntos. Para lla las imgenes binarias son conjuntos de puntos 2D,
que representan los puntos activos de una imagen, y las imgenes en niveles de
gris son conjuntos de puntos 3D, donde la tercera componente corresponde al nivel
de intensidad. En este apartado se tratar detalladamente la morfologa sobre
imgenes bitonales, para luego presentar los operadores bsicos sobre imgenes en
niveles de gris.
3.5.1 Definiciones bsicas

Sea A un conjunto (con las operaciones habituales entre conjuntos) de Z2 (con las
aplicaciones habituales entre vectores). Cualquier punto a de A se representa
mediante un par (a1, a2). A continuacin se definen las siguientes operaciones
sobre A:
Traslacin de A por X = (x1, x2), como:
(A)x = {c / c = a + x, a A}
Reflexin de A como:
= {x / x = - a, a A}
Complementario de A como:
Ac = {x / x A}
Tambin se define la operacin diferencia entre dos conjuntos A y B
como:
A - B = {x / x A y x B}
Una propiedad interesante que se deriva de las operaciones anteriores es:
A - B = A Bc

Dilatacin
Siendo A y B dos conjuntos en Z2, la dilatacin de A con B, denotada como A B,
se define como:
A B = {x / x = a + b
a A y b B}
El elemento B es el elemento que dilata al elemento A, y se conoce como

elemento estructurante de la dilatacin.
Es interesante notar que la dilatacin cumple la propiedad conmutativa.

AB=BA
La implementacin directa de la dilatacin segn la definicin dada es
demasiado costosa. La siguiente formulacin, que puede demostrarse que es
equivalente, da pistas para una implementacin mucho ms eficiente.
A B = {x /( B ) x A }
Escrito de otra forma:
A B = {x /[( B ) x A] A}
Intuitivamente esta operacin produce el efecto de dilatar el aspecto del
elemento A usando para ello a B. En la Figura 57 se presentan tres objetos conexos
sobre un fondo blanco. El primer objeto se etiqueta como A y el segundo como B.
El tercero corresponde a la dilatacin de A con B. La posicin del elemento B
respecto del eje de ordenadas es importante, ya que influye en el proceso de
dilatacin, por ello suele indicarse su centro con un punto.
A B
B
Figura 57.- Ejemplo de dilatacin en el que se ha sealado con un punto negro el origen del
elemento B.
Erosin
Siendo A y B dos conjuntos en Z2, la erosin de A con B, denotada como AB, se
define:
AB = {x / x + b A
b B}
Nuevamente puede definirse con otra forma cuyo coste computacional es

mucho ms reducido.
AB = {x /( B ) x A}
La erosin adelgaza la imagen sobre la que se aplica siendo, en un sentido
no estricto, opuesta a la dilatacin. Si sobre la Figura 57 se erosiona A
B con B se
obtiene de nuevo A, aunque esto no tiene por qu ocurrir en otro caso distinto. En
la Figura 58 se ha erosionado A con B.
A B
Figura 58.- Ejemplo de erosin.
Se cumple que la dilatacin y la erosin son duales respecto al

complemento y a la reflexin. Es decir:
(AB)c = A c B
Esta propiedad se puede demostrar fcilmente con el siguiente desarrollo:
(AB)c = { x /( B ) x A}c = {x /( B) x A c = }c =
= {x /( B) x Ac } = Ac B
Apertura
La apertura de A con B se define como:
A B = (A B) B
Sus propiedades son:
A B es un subconjunto de A.
(A B) B = A B.
Si C es subconjunto de D C B es subconjunto de D B.
- 114 -

Intuitivamente la apertura de A con un elemento estructurante B equivale a
determinar los puntos en los que puede situarse alguna parte de B cuando se
desplaza por el interior de A (ver Figura 59). La apertura abre, o agranda, las zonas
de pxeles inactivos presentes en una zona de pxeles activos.
A B
A B
Figura 59.- Arriba se presenta la figura A y el elemento estructurante B. En medio se
presenta la ejecucin de la operacin de apertura y su resultado. Abajo se presenta la
operacin de cierre.
Cierre
El cierre de A con B se define como:
A B = (A B) B
Sus propiedades son:
A es un subconjunto de A B.
(A B) B = A B.
- 115 -
Si C es subconjunto de D C B es subconjunto de D B.
Intuitivamente el cierre de A con un elemento estructurante B equivale a

los puntos a los que no puede acceder ninguna parte de B cuando se desplaza por
el exterior de A (ver Figura 59). El cierre elimina zonas de pxeles inactivos
presentes en el interior de una zona de pxeles activos.
Coincidencia estructural
Si el elemento B se define teniendo en cuenta los puntos a blanco que lo rodean, se
tiene la descripcin de un objeto B1 y su entorno B2. La operacin de coincidencia
estructural, o Hit or Miss, busca la parte de la imagen A que cumpla que los
puntos activos de B estn en A y los puntos del entorno de B estn en Ac.
A * B = (A B1) (Ac B2)
El elemento estructurante B suele definirse sobre una cuadrcula donde: un
cuadro sombreado indica que el pxel pertenece a B1, un cuadro blanco indica que
el pxel pertenece a B2, un cuadro con una cruz indica que el cuadro no debe
tenerse en cuenta.
A*B
Figura 60.- Ejemplo de operacin de coincidencia estructural.
3.5.2 Filtros morfolgicos

Los siguientes puntos ilustran cmo emplear morfologa para construir filtros.

Eliminacin de ruido
Este filtro elimina los objetos de una imagen que tienen un tamao menor que un
elemento estructurante B determinado.
Limpiar(A) = (A B) B
En el proceso de apertura elimina los objetos menores que B, luego intenta
recuperar la misma forma que antes con el proceso de cierre (aunque los procesos
de apertura y cierre no son estrictamente inversos).
Extraccin de contornos
Este filtro obtiene los contornos de una figura A restndole su interior.
Contornos (A) = A (A B)
A-(A B)
Figura 61.- Ejemplo de extraccin morfolgica de contornos.
Relleno de agujeros
Este filtro precisa de un proceso iterativo que concluye cuando no se producen ms
cambios sobre la imagen. Se parte de X0 igual a un punto del agujero que se desea
rellenar. Luego se aplica de manera iterativa:
Xk = (Xk-1 B) Ac

Adelgazamiento
Esta operacin adelgaza los elementos de una imagen hasta que se reducen a un
esqueleto interior a la misma. Para poder realizar esta operacin es preciso definir
la siguiente operacin:
A B = A (A * B)
Este paso, utilizando la operacin de coincidencia estructural, elimina un
punto de A cuando tanto B como su entorno encajan en A. Eligiendo
cuidadosamente un conjunto de elementos B, que slo deben erosionar los bordes
de A, y repitiendo esta operacin sucesivamente se obtiene el resultado deseado.
A {B} = (((((A B1) B2) B3) B4) Bn)
La siguiente figura ilustra el proceso de adelgazamiento de un objeto
mediante esta operativa.

B1
Inicial
tras B3
Tras B6,B7 y B8
B2
B3
B4
B5
tras B1
tras B4
tras B1
B6
B7
B8
tras B2
Tras B5
Tras B2,B3,B4,B5,B6,B7,B8 y B1
Figura 62.- Ejemplo de aplicacin del algoritmo de adelgazamiento. Las mscaras

definidas van erosionando por el borde la figura original, en iteraciones sucesivas.
3.5.3 Operaciones morfolgicas bsicas en imgenes de

niveles de gris
Considerando las imgenes en niveles de gris como superficies I(x, y) y tomando
como elemento estructural una funcin b(x, y) se definen las operaciones de
erosin y dilatacin como:
I(x, y) b = max{I(x - i, y - j) + b(i, j) / (x - i, y - j)Dom(I) y (i, j)Dom(b)}
I(x, y) b = min{I(x - i, y - j) - b(i, j) / (x - i, y - j)Dom(I) y (i, j)Dom(b)}

Las operaciones de apertura y cierre se definen igual que para el caso
bitonal. Intuitivamente estas operaciones se corresponden con el desplazamiento
del elemento estructurante b sobre la superficie I(x, y) en la apertura y bajo la
misma en el cierre.
(a)
(b)
(c)
(d)
Figura 63.-Aplicacin de filtros morfolgicos sobre la imagen de Lena (a):

dilatacin (b), erosin (c) y extraccin de contornos (d). En todos los casos se
utiliz un elemento estructurante de 3x3 con valores a cero.
3.5.4 Aplicaciones de la morfologa matemtica

En general, la morfologa matemtica se puede emplear para realizar cualquier tipo
de operacin sobre una imagen. Se puede realizar filtrados lineales y no lineales,
operaciones geomtricas, aritmtico-lgicas, etc. De hecho, para cualquier

operacin que se desee realizar sobre una imagen digital se podra encontrar un
equivalente morfolgico.
La Figura 64 presenta a imagen bitonal sobre la que se ha usado una
dilatacin en blanco y negro con el elemento estructurante c para reconstruir un
cdigo de barras defectuoso. Antes del filtrado era imposible la lectura del cdigo
de barras con un dispositivo convencional, tras este filtrado la lectura del cdigo
de barras es ms sencilla.
(a)
(b)
(c)
Figura 64.- Ejemplo de reconstruccin de un cdigo de barras degradado (a). Se utiliza una
operacin dilatacin con elemento estructurante vertical de 1x9 (c) y se obtiene (b).
La Figura 65 muestra un ejemplo de eliminacin de ruido sobre una

imagen bitonal. Se realiza mediante la aplicacin sucesiva de una operacin de
erosin y una de dilatacin con (c). Se aprecia que antes del filtrado (Figura 65a)
era ms difcil localizar los objetos que corresponden a los caracteres a reconocer
que despus del filtrado (Figura 65b).
(a)
(b)
Figura 65.- Ejemplo de eliminacin de ruido de la figura (a) mediante una erosin y una
dilatacin posterior con un elemento estructural de 3x3, resultando la figura (b).
Normalmente, la aplicacin directa de un conjunto de operaciones

morfolgicas usando concatenacin de operadores genricos es impracticable
debido a su coste computacional. Por ello, suele aplicarse de manera restringida,
utilizando software muy optimizado, o utilizando hardware especfico. Queda no
obstante la utilidad de usar la morfologa para realizar primeras aproximaciones a
problemas y para realizar demostraciones, gracias a su carcter intuitivo y a la
formalidad matemtica que aporta.

En este captulo se ha estudiado diferentes operaciones que usadas adecuadamente
facilitan las etapas posteriores de anlisis de las imgenes.
Sin embargo, debe recordarse que realizando estas u otras manipulaciones
nunca se gana informacin, slo se promociona o se descarta informacin ya
existente en la imagen. Por ello siempre que la calidad de una imagen sea pobre,
resultando insuficiente para el uso al que se destina, debe pensarse en la
posibilidad de variar las condiciones de captura.

[GW93] caps. 3 y 4,
[JKS95] caps. 4 y 5,
[Esc01] caps. 4 y 5,
[Par97] caps. 1 y 2
Captulo 4
Segmentacin
La segmentacin es un proceso que consiste en dividir una imagen digital en

regiones homogneas con respecto a una o ms caractersticas (como por ejemplo
el brillo o el color) con el fin de facilitar un posterior anlisis o reconocimiento
automtico. Localizar la cara de una persona dentro de la imagen de una fotografa
o encontrar los lmites de una palabra dentro de una imagen de un texto,
constituyen ejemplos de problemas de segmentacin.
En este captulo se estudiarn diferentes enfoques para realizar el proceso
de segmentacin, aunque en la prctica se demuestra que la segmentacin no tiene
reglas estrictas a seguir, y dependiendo del problema en cuestin, puede ser
necesario idear tcnicas a medida.
Tambin se tratar, al final del captulo, el problema de la descripcin de
los objetos resultantes de la segmentacin. Entonces, se estudiarn mtodos que
permiten una descripcin de los objetos segmentados independiente de la posicin
y de la escala de los mismos.
4.1. Conceptos bsicos sobre segmentacin

La segmentacin debe verse como un proceso que a partir de una imagen, produce
otra en la que cada pxel tiene asociada una etiqueta distintiva del objeto al que
Captulo 4 Segmentacin
pertenece. As, una vez segmentada una imagen, se podra formar una lista de
objetos consistentes en las agrupaciones de los pxeles que tengan la misma
etiqueta.
La segmentacin termina cuando los objetos extrados de la imagen se
corresponden unvocamente con las distintas regiones disjuntas a localizar en la
misma. En este caso se habla de segmentacin completa de la escena o imagen y
en el caso contrario, de segmentacin parcial. En una escena compleja, el
resultado de la segmentacin podra ser un conjunto de regiones homogneas
superpuestas y en este caso, la imagen parcialmente segmentada deber ser
sometida despus a un tratamiento posterior con el fin de conseguir una
segmentacin completa.
El proceso de segmentacin de una imagen depende del problema que se
desee resolver. Por ejemplo, sobre una imagen de una pgina de texto se pueden
segmentar las lneas de texto (si el objetivo es localizar la estructura de los
prrafos), o las palabras y los caracteres que las forman (si se desea hacer OCR23
de los mismos), o los logotipos y membretes (si se desea clasificar el documento),
etc. Por ello, dentro de una misma imagen pueden realizarse diferentes
segmentaciones.
En general, el proceso de la segmentacin suele resultar complejo debido,
por un lado, a que no se tiene una informacin adecuada de los objetos a extraer y,
por otro, a que en la escena a segmentar aparece normalmente ruido. Es por esto
que el uso de conocimiento sobre el tipo de imagen a segmentar o alguna otra
informacin de alto nivel puede resultar muy til para conseguir la segmentacin
de la imagen.
Algunos ejemplos tpicos de procesos de segmentacin son: tratar de
separar los caracteres que forman una palabra dentro de una imagen de un texto,
detectar ciertos tipos de clulas en imgenes mdicas, extraer los vehculos que
aparecen en una imagen de una carretera.
23
Optical Character Recognition, reconocimiento ptico de caracteres.
Los diferentes objetos que aparecen en una imagen pueden ser localizados
atendiendo a aspectos como: sus contornos o su textura. Cada una de las tcnicas
que se estudiarn en este captulo atienden a alguna de estas caractersticas, y para
su estudio han sido englobadas en tres grupos: tcnicas basadas en umbralizacin,
basadas en deteccin de los contornos de los objetos y tcnicas basadas en
propiedades locales de las regiones.
4.1.1 La textura
Intuitivamente la textura de un objeto dentro de una imagen es el conjunto de
formas que se aprecia sobre su superficie y que lo dota de cierto grado de
regularidad. Una definicin clsica de textura es la siguiente: uno o ms patrones
locales que se repiten de manera peridica.
Para el estudio y comparacin de algoritmos sobre imgenes que presentan
texturas suelen utilizarse como referencia las imgenes de Brodatz, conocidas
como lbum de Brodatz (P. Brodatz, "Textures: A Photographic Album for Artists
and Designers", Dover Publications, New York, 1966). Este lbum contiene 154
imgenes. La Figura 66 muestra algunas imgenes de este lbum.
Figura 66.- Diversas imgenes del lbum de Brodatz, utilizadas en el anlisis de texturas.
Existen dos enfoques para definir una textura: uno descendente (topdown) y otro ascendente (bottom-up). El enfoque descendente se basa en la
existencia de un elemento bsico de textura, llamado txel, y en una regla de
formacin. Esta regla define cmo y dnde se sitan estos elementos bsicos. Este
enfoque funciona bien cuando la textura es bastante regular, por ejemplo en la
imagen de una pared de ladrillos. Por otro lado, el enfoque ascendente se basa en
que la textura es una propiedad que se puede derivar de estadsticos (como la
media y la varianza) de pequeos grupos de pxeles. Este enfoque funciona bien
para texturas donde resulta difcil ver los componentes individuales, por ejemplo la
textura de la hierba o el cuarzo. No obstante, la lnea divisoria entre los dos
enfoques no es clara.
4.1.2 El contorno
El contorno de un objeto en una imagen digital corresponde al mnimo conjunto de
pxeles que separa ese objeto del fondo o background de la imagen. Normalmente
estos contornos se corresponden con los puntos donde se producen
discontinuidades en los valores de pxeles adyacentes (cambios en el matiz o el
brillo) o con los puntos donde cambia un patrn que se repite (cambios de textura).
4.2. Segmentacin basada en la umbralizacin

La umbralizacin es un proceso que permite convertir una imagen de niveles de
gris o de color en una imagen binaria, de tal forma que los objetos de inters se
etiqueten con un valor distinto al de los pxeles del fondo. En adelante slo se
hablar de imgenes en niveles de gris, aunque la extensin a color es inmediata si
slo se usa una de las componentes RGB o alguna mezcla de las tres.
La umbralizacin es una tcnica de segmentacin rpida, que tiene un
coste computacional bajo y que puede ser realizada en tiempo real durante la
captura de la imagen usando un computador personal de propsito general.
Por otro lado, como ya se ha expuesto en el captulo 3, el histograma de
una imagen no tiene en cuenta la informacin espacial sino solamente la
distribucin de grises en la imagen. Por ello, dos imgenes muy diferentes pueden
tener el mismo histograma. Esto hace que, los mtodos de segmentacin basados
en la umbralizacin, como nico medio de segmentacin, resulten limitados en
muchos problemas reales. Aunque s se usan con frecuencia como complemento de
otros mtodos.
4.2.1 Umbralizacin fija

El caso ms sencillo, conocido como umbralizacin fija, se puede usar en aquellas
imgenes en las que existe suficiente contraste entre los diferentes objetos que se
desea separar. Consiste en establecer un valor fijo sobre el histograma (ver
captulo 3) que marque el umbral de separacin. Para obtener dicho umbral se debe
disponer de informacin sobre los niveles de intensidad de los objetos a segmentar
y del fondo de la imagen. De esta forma, la imagen binaria resultante B(i, j) se
define a partir de la imagen digital original I(i, j) en funcin de un valor U que
corresponde al umbral de separacin seleccionado segn la siguiente frmula.
1, si I (i, j ) U
B (i , j ) =
0, si I (i, j) < U
La eleccin de un valor de umbral correcto resulta decisiva para llevar a
cabo la segmentacin de una imagen de manera satisfactoria. La obtencin del
umbral suele basarse en el histograma de la imagen. Cuando en el histograma se
aprecian uno o ms lbulos, stos suelen corresponder con una o varias zonas de la
imagen, que comparten niveles de intensidad similares. Estos objetos pueden ser
directamente los objetos a segmentar o corresponder a partes homogneas de
objetos ms complejos. Lgicamente, la transicin de un lbulo a otro se
corresponde con un mnimo del histograma, correspondiendo estos mnimos a los
puntos que fijan el valor umbral. La bsqueda de dichos mnimos (basada por
ejemplo en el clculo de derivadas) se encuentra dificultada por la naturaleza
ruidosa del histograma. Para atenuar este problema puede aplicarse un filtro paso
bajo sobre el histograma de la imagen.
La Figura 67 ilustra el proceso descrito. En ella se distinguen una zona de
tierra y otra de mar en una foto de satlite (a). El histograma (b) presenta dos
lbulos que tras ser suavizados (c) usando un filtro espacial de paso bajo, muestra
un mnimo de separacin en el valor 42. Eligiendo dicho mnimo como umbral de
separacin entre tierra y mar, se obtiene el resultado de la figura (d).
El algoritmo siguiente resume los pasos descritos para realizar una
umbralizacin sobre el histograma h(p). En el algoritmo, los pxeles de la imagen
de niveles de gris I(x,y) estn representados por p(x,y), y toman valores entre 0 y
255.
(a)
(b)
(c)
(d)
Figura 67.- La eleccin adecuada del umbral de binarizacin permite separar la tierra del
mar en esta imagen de satlite, aunque la sombra de las nubes sobre la tierra y las nubes
sobre el mar producen ciertos errores. Sera preciso realizar algn posproceso para obtener
una segmentacin completa.
- Algoritmo de localizacin de mnimos locales Paso 1.- Filtrado paso bajo de la imagen I(x, y) usando una ventana de tamao V.
1
Repetir k {V/2 k 255 V/2}:
hF(pk) =
h(p(k-V/2))
V
Paso 2.- Clculo de la primera y de la segunda derivada de hF. Para ello se puede usar la
aproximacin de la derivada como resta de valores de posiciones consecutivas:
hF(k) = hF(k+1) hF(k)
hF(k) = hF(k+1) hF(k)
Paso 3.- Si hF(k) U, siendo U un umbral positivo, y hF(k) > 0, entonces hay que marcar
k como candidato a mnimo local.
Paso 4.- Agrupacin de candidatos a mnimos locales y umbralizacin basada en stos.
4.2.2 Umbralizacin generalizada.

En general, la obtencin de un nico valor de umbral fijo no es til en imgenes
complejas. Por ejemplo, sobre imgenes de documentos con fondos complejoso
sobrecenas con iluminacin no uniforme, el estudio del histograma de la imagen
puede revelar la inexistencia de un nico valor umbral que permita separar los
objetos del fondo o background. Esto lleva a considerar otros tipos de
umbralizacin que resultan de generalizar la idea de umbral. A continuacin, se
definen la umbralizacin de banda, la multiumbralizacin, la semiumbralizacin y
la umbralizacin adaptativa.
Umbralizacin de banda
La umbralizacin de banda permite segmentar una imagen en la que los objetos
(regiones de pxeles) contienen niveles de gris dentro de un rango de valores y el
fondo tiene pxeles con valores en otro rango disjunto. As,
1 si I (i, j ) R
B (i , j ) =
0 en otro caso
donde R representa un rango de valores correspondientes a niveles de gris que
definen a los elementos a extraer de la imagen digital.
Multiumbralizacin
La multiumbralizacin, como su nombre indica, consiste en la eleccin de
mltiples valores de umbral dentro del proceso, permitiendo separar a diferentes
objetos dentro de una escena cuyos niveles de gris difieran. El resultado no ser
ahora una imagen binaria sino que los diferentes objetos (regiones) tendrn
etiquetas diferentes:
IS(i,j)
= 1,
si I(i,j) R1
= 2,
si I(i,j) R2
= 3,
si I(i,j) R3
= n,
si I(i,j) Rn
= 0,
en otro caso
donde I(i, j) es la imagen original, IS(i, j) es la imagen segmentada y R1, R2, , Rn

representan los n diferentes rangos de niveles de gris usados para umbralizar.
Semiumbralizacin
La semiumbralizacin persigue obtener una imagen resultado en niveles de gris, y
para ello pone a cero el fondo de la imagen conservando los niveles de gris de los
objetos a segmentar que aparecen en la imagen inicial. Su formulacin es:
I (i, j ) si I (i, j ) U
I S (i , j ) =
en otro caso
0
Umbralizacin adaptativa
En las tcnicas anteriores, los rangos de umbralizacin se consideran fijos con
independencia de las caractersticas locales de la imagen considerada. En muchas
imgenes, donde la iluminacin no es uniforme, puede ocurrir que pxeles del
mismo objeto a segmentar tengan niveles de gris muy diferentes. Ello conlleva que
no sea posible elegir un nico umbral que, sobre toda la imagen, distinga los
pxeles de un objeto de los de otro. La umbralizacin adaptativa o variable
permite resolver este problema haciendo que el valor del umbral vare segn una
funcin que depende de las caractersticas locales del entorno del punto que se
evala.
- Algoritmo de umbralizacin adaptativa Paso 1.- Dividir la imagen original I(i,j) en subimgenes Ik(i,j) donde se supone que los
cambios de iluminacin no son tan fuertes.
Paso 2.- Determinar independientemente un umbral Uk para cada subimagen Ik(i,j).
Paso 3.- Si en alguna subimagen no se puede determinar su umbral, calcularlo mediante la
interpolacin de los valores de los umbrales de subimgenes vecinas.
Paso 4.- Procesar cada subimagen con respecto a su umbral local.
La Figura 68 presenta un ejemplo (a) en el que la umbralizacin global no

es capaz de rescatar simultneamente el texto manuscrito y el preimpreso. Esto se
debe a que el texto manuscrito se superpone a un fondo del mismo nivel de
intensidad que el utilizado para el propio texto preimpreso. Por ello, ni tomando el
umbral global en H1 (b), ni en H2 (c) se obtienen resultados aceptables. Sin
embargo, el uso del umbral adaptativo (f) permite obtener una imagen umbralizada
(d) que s rescata simultneamente tanto texto manuscrito como preimpreso.
(a)
H1
H2
(e)
(b)
(c)
Valor de la media
Negro
(f)
Blanco
(d)
Valor del pxel
Figura 68.- Comparacin entre la umbralizacin global y la umbralizacin adaptativa.
4.3. Tcnicas basadas en la deteccin de contornos

La segmentacin basada en deteccin de contornos agrupa un gran nmero de
tcnicas que usan la informacin proporcionada por las fronteras de los objetos
que aparecen en una imagen.
Puesto que se desea encontrar los objetos individuales presentes en una
imagen, parece lgico que si se encuentran las fronteras de tales objetos con el
fondo se podra segmentar los objetos de la escena general.
4.3.1 Segmentacin basada en las componentes conexas

Utilizando el concepto de componente conexa, estudiado en el captulo 2, se puede
plantear el detectar los objetos presentes en una imagen sin ms que encontrar las
componentes conexas de la misma. Esto ocurre cuando los objetos tienen un color
uniforme y distinto del fondo, lo que permite asegurar que los contornos del objeto
se corresponden con los bordes de la componente conexa.
En el caso de imgenes en blanco y negro las componentes conexas suelen
corresponder a los objetos directamente. As por ejemplo en un documento
escaneado los objetos de color negro suelen ser los caracteres que se desea
reconocer, y un etiquetado de componentes conexas basta para encontrarlos (ver
Figura 69). Esto tambin ocurre en el caso de imgenes a contraluz, o de imgenes
umbralizadas.
Figura 69.- Ejemplo de segmentacin basada en componentes 8-conexas.
En el caso de imgenes en niveles de gris o en color, la eleccin del

conjunto de puntos V que definen la conectividad es fundamental para que el
etiquetado de componentes conexas aporte informacin vlida sobre los objetos de
una imagen.
De cualquier manera, el estudio de las componentes conexas suele ser un
paso fundamental para la segmentacin, aunque insuficiente por si solo. Puede
observarse en la Figura 69 que la t y la r de la palabra introduce forman la
misma componente conexa. Por ello, posteriormente suele aplicarse heursticas
particulares para conseguir una segmentacin completa.
Algoritmo de etiquetado de componentes conexas
En este punto se expone un algoritmo eficiente de etiquetado de componentes
conexas. Este algoritmo tendr por entrada una imagen y devolver una etiqueta
asociada a cada pxel que indicar a qu componente conexa pertenece.
Un algoritmo de este tipo se puede construir fcilmente usando un
esquema recursivo de bsqueda con retroceso. Tal algoritmo recorre la imagen de
izquierda a derecha y de arriba a abajo. Cuando encuentra un pxel a negro le
asigna una etiqueta de un contador que posee y entra en una funcin recursiva que
recorre los pxeles adyacentes, siguiendo un orden determinado, marcndolos
como visitados y asignndoles el mismo valor del contador. Una vez recorridos
todos los pxeles de ese objeto incrementa el contador y sigue recorriendo la
imagen en busca del siguiente pxel a negro.
El algoritmo explicado no es eficiente por dos motivos:
El uso de la recursividad no es una buena idea cuando el nmero de

llamadas recursivas que se va a realizar es grande. Una llamada recursiva a
una funcin implica la copia del estado del sistema y la asignacin de
nuevas variables, siendo en general poco eficiente en cuanto a tiempo y
memoria. Realizar este tipo de operaciones por cada pxel de una imagen
puede implicar varios millones de llamadas a funcin, lo que termina
generalmente con un error por falta de memoria y en el mejor de los casos
en una implementacin lenta.
Se puede llegar a preguntar varias veces por cada pxel de la imagen.

Cuando se encuentra el primer pxel de un objeto se visitan los puntos de
ese objeto, puntos por los que luego se va a volver a preguntar, aunque ya
han sido visitados.
El primer problema se puede subsanar usando una pila y un bucle para

imitar el comportamiento de la recursividad. Con este pequeo cambio se
consigue aumentar la velocidad y que el algoritmo funcione incluso sobre
imgenes grandes.
r
t p
Figura 70.- Los pxeles r y t son los vecinos a tener en cuenta al evaluar el pxel p en el
algoritmo de etiquetado de componentes conexas.
La solucin del segundo problema se resuelve con una implementacin

diferente que es ms eficiente (ver el algoritmo del cuadro adjunto). Esta
implementacin tambin recorre los pxeles de la imagen de izquierda a
derecha y de arriba abajo. Cuando encuentra un pxel activo mira si el vecino
superior o el vecino anterior estaban etiquetados (ver Figura 70). En caso
afirmativo, le pone la misma etiqueta que tenga alguno de estos y contina el
proceso. En caso contrario, toma una nueva etiqueta de un contador que acto
seguido incrementa. Adems, cuando encuentra dos pxeles activos adyacentes
con diferente etiqueta anota su equivalencia en una lista.
Cuando termina de recorrer la imagen, se necesita calcular la matriz del
cierre transitivo de la lista para conocer las equivalencias finales entre los
pxeles que se ha ido etiquetando. Esto se puede resolver aplicando el
algoritmo de Warshall que agrupa los pxeles en clases de equivalencia. Este
algoritmo permite una optimizacin del clculo tradicional de la matriz M del
cierre transitivo, que consiste en el producto binario de la matriz de adyacencia
por s misma hasta que no se produzcan cambios. Luego, como representante
de cada clase de equivalencia basta con tomar el mnimo valor.
De nuevo, el clculo de esta matriz puede ser muy costoso, sobre todo
cuando el nmero de componentes conexas sea elevado, por lo que es
preferible recurrir a tcnicas alternativas que permitan calcular la ltima
implicacin de cada elemento de la lista antes que la matriz del cierre
transitivo. Una de las formas posibles consiste en construir la lista de manera
que sus elementos siempre tengan la forma mn donde m>n. Luego basta con
iterar sobre los elementos de tal lista hasta conseguir que todos los elementos
de la lista impliquen al menor posible, con lo que se consigue que todas las
implicaciones de la lista, que se refieran a la misma componente conexa,
apunten al mismo elemento.
Por ltimo, a la hora de implementar de manera ptima ste y otros
algoritmos, no debe olvidarse que en ltima instancia las imgenes se
almacenan en la memoria fsica en el ordenador. As, cuando sea posible, el
realizar operaciones que traten la memoria fsica directamente, en vez de
abstracciones como pxeles y colores, suele redundar en un aumento de la
eficiencia de la implementacin.
- Algoritmo de Etiquetado de componentes 4 conexas Paso 1.- V={valores que indican pxel activo}, cont = 1 y M(x, y) = 0 x, y
Paso 2.- Segn la Figura 70, si pV
Si rV y tV
Etiq(p) cont
cont++
M(cont,cont) = 1
Si rV y tV
Etiq(p) Etiq(t)
Si rV y tV
Etiq(p) Etiq(r)
Si rV y tV y Etiq(t) = Etiq(r) Etiq(p) Etiq(t)

Si rV y tV y Etiq(t) Etiq(r) Etiq(p) Etiq(t)
M(Etiq(r), Etiq(t)) = 1
M(Etiq(t), Etiq(r)) = 1
Paso 3.- Hacer p igual al siguiente pxel, siguiendo el orden de izquierda a derecha y de
arriba a abajo. Si queda ms pxeles ir al paso 2.
Paso 4.- Calcular el cierre transitivo de la matriz M y sustituir la etiqueta de cada pxel
por su equivalente de orden menor. Este paso puede simplificarse a seguir las
implicaciones para cada elemento de la lista hasta alcanzar el menor posible y crear con
una nueva lista de implicaciones hacia el menor.
Ejemplo 13.Para etiquetar cada pxel de la Figura 71a segn la componente conexa a la que
pertenezcan se aplica el algoritmo 1. Al llegar al paso 4 da como resultado la
imagen (b) de la Figura 71, y la siguiente matriz M.
1
M =
1
(a)
1 1 0
1 0 0
0 1 0
0 0 1
1
2
1
3
2
1 1 1 1 1
1
1
1
1
1
1 1 1 1 1
4 4
4 4
(b)
(c)
Figura 71.- La figura (a) representa un mapa de bits donde los cuadros oscuros representan
pxeles negros y los cuadros blancos pxeles blancos. La figura (b) presenta los pxeles
etiquetados antes del clculo de la matriz del cierre transitivo. Finalmente (c) presenta el
resultado del algoritmo de etiquetado.
El clculo de la matriz MT del cierre transitivo, consiste en un producto

sucesivo, de M por si misma, hasta que no se producen cambios:
M0 = M
1
M1 = M 0 M 0 =
1
1 1 0 1

1 0 0 1
0 1 0 1

0 0 1 0
1 1 0 1

1 0 0 1
=
0 1 0 1

0 0 1 0
1 1 0
1 1 0
1 1 0
0 0 1
1
M 2 = M1 M1 =
1
1 1 0 1

1 1 0 1
1 1 0 1

0 0 1 0
1 1 0 1

1 1 0 1
=
1 1 0 1

0 0 1 0
1 1 0
1 1 0
= MT
1 1 0
0 0 1
De la matriz MT se deduce:
2 1, 31
Sustituyendo los puntos afectados se obtiene la imagen (c) de la Figura 71.
4.3.2 Deteccin de contornos con filtros de gradiente

En el caso de que los objetos no tengan un color uniforme, o que este color pueda
cambiar dependiendo del objeto y del fondo, es preciso utilizar tcnicas que
permitan detectar cambios entre los valores de los pxeles de las imgenes, ms
que fijar de antemano cules corresponden a objetos y cules no.
En el captulo precedente se ha estudiado cmo un filtro paso alto permite
la obtencin de los pxeles de la imagen donde se produce un cambio brusco de
intensidad. Sobre la imagen obtenida tras el filtrado, que est en niveles de gris, se
puede realizar un umbralizado que separe los pxeles con valores altos del resto.
Los contornos as obtenidos constituyen precisamente la frontera de los objetos
con el fondo.
En general, la segmentacin basada en deteccin de contornos presenta
varios problemas. El ms importante quizs consiste en la no aparicin de un
contorno o frontera que s exista en la imagen real. Adems, junto con los
contornos suele aparecer ruido que se deriva de la propia naturaleza de la imagen y
esto hace que pueda aparecer un contorno fantasma que no exista en la realidad.
Por otra parte, tras el filtrado y el umbralizado, los contornos suelen aparecer con
un grosor apreciable de varios pxeles, mientras que sera deseable que los
contornos slo tuviesen un pxel de grosor. Por ltimo, los contornos obtenidos
rara vez aparecen de forma conexa, por lo que en vez de una lnea que describe el
contorno del objeto de manera continua, se tiene una serie de fragmentos de los
contornos de mayor o menor longitud. Para solucionar estos problemas suelen
usarse enfoques y algoritmos basados en heursticas particulares.
Tanto el filtro de la primera derivada (basado en el operador de gradiente)
como el de la segunda (basado en el operador de la laplaciana) son muy sensibles
al ruido, por ello suele aplicarse previamente un filtro de suavizado para
eliminarlo. El filtro del gradiente suele producir contornos gruesos, mientras que el
filtro de la laplaciana, suele producir imgenes con el grosor de los contornos a un
pxel. Sin embargo, el filtro de segunda derivada es ms sensible al ruido que el de
gradiente. Por ello suelen usarse combinados considerndose como contorno
aquellos pxeles donde el mdulo del gradiente supera un umbral y adems se
produce cambio de signo en la segunda derivada, que corresponde a un paso por
cero. Hay que notar que raramente coincide el valor cero con el valor de un pxel
tras la aplicacin de la laplaciana; ese cero se produce a resolucin subpxel y slo
es detectable por un cambio de signo en el resultado de la segunda derivada.
Finalmente, para localizar los contornos a partir de la imagen resultado del
filtrado suelen aplicarse ciertos algoritmos que procesan los resultados y
devuelven los segmentos que corresponden a los posibles contornos. En los
siguientes puntos se presentan tres tcnicas distintas que hacen esto.
Unin de segmentos mediante procesado local
Sea una imagen digital I. Decimos que el gradiente () del pxel (x, y), que est
en la vecindad del pxel (x, y), tiene magnitud similar a la del pxel (x, y) si y slo
si:
|I(x, y) - I(x, y)| U
siendo U un umbral no negativo.
Anlogamente, el pxel (x, y), vecino de (x, y), tiene un ngulo similar a
ste si y slo si:
|(x,y) - (x,y)| A
siendo A un ngulo umbral y (x, y) = arctg (Gy/Gx).
Dado un punto (x, y) etiquetado como perteneciente al contorno, su vecino
es similar si los gradientes de ambos puntos son similares en magnitud y en
ngulo. Un proceso iterativo que etiqueta como perteneciente al contorno a los
pxeles similares a los de las fronteras de una imagen, y que se repite hasta que no
se producen cambios, permite la obtencin de una imagen de contornos en las que
habrn atenuado las discontinuidades. El proceso representado en la Figura 72
permite una obtencin de contornos robusta.
Bordes Sobel
Bordes sin ruido

no conexos
Imagen
Bordes = Bordes
+ Similares
Bordes Laplace
SI
NO
Cambios?
Bordes sin ruido

y conexos
Figura 72.- Mtodo para la obtencin de contornos continuos en una imagen digital.
Unin de segmentos mediante tcnicas basadas en grafos

Algunas definiciones sobre grafos pueden ser de utilidad en este apartado. Un
grafo G = (N, A) est formado por una conjunto finito y no vaco de nodos N, y un
conjunto A de pares (ni, nj), ordenados o no, entre elementos de N llamados arcos.
Un grafo en el que todos los arcos estn ordenados (orientados) se llama grafo
dirigido, y en caso contrario el grafo se llama no dirigido. Si un arco es dirigido
(ni, nj) desde el nodo ni hasta el nodo nj, entonces ni es el nodo padre o antecesor y
nj es el nodo sucesor. Si cada arco (ni, nj) se le asocia un coste correspondiente
c(ni, nj), se dice que el grafo es ponderado o valorado. Un camino en un grafo
dirigido G es una secuencia de nodos: n1,n2,..., nk, donde los arcos (n1, n2), ..., (nk-1,
nk) pertenecen al conjunto de arcos. El coste de dicho camino c viene dado por la
expresin:
c = c(ni-1, ni)
1<ik
Se pueden usar estos conceptos en la deteccin de contornos. Para ello se
comienza representando mediante un grafo los segmentos extrados de una imagen
tras una operacin de deteccin de contornos con filtros de gradiente. A
continuacin se ver un algoritmo que busca en dicho grafo los caminos de coste
mnimo que representarn las fronteras de las regiones identificadas.
Un componente de contorno es la frontera entre dos pxeles p y q, tal que p
y q son vecinos 4-conexos. En este contexto un contorno o frontera se puede
definir como una secuencia de componentes de contorno. En este contexto, el
coste de un componente de contorno, definido por los pxeles p y q, viene dado
por:
c(p, q) = H |I(p) I(q)|
(4.1)
siendo H en valor de intensidad ms alto en la imagen (en imgenes de niveles de

gris es 255), e I(p) e I(q) los valores de intensidad correspondientes a los pxeles p
y q, respectivamente.
La Figura 73 muestra una imagen de contornos, donde se ha representado
slo las componentes significativas. A partir de ellas puede obtenerse un grafo
(ponderado) construido a partir de la imagen de contornos segn el procedimiento
descrito. Luego sobre el grafo construido puede definirse un algoritmo de
bsqueda heurstica que permite obtener el camino de menor coste entre dos
nodos, nO y nD, del grafo. El algoritmo es el siguiente:
(a)
(b)
Figura 73.- La cuadrcula representa un mapa de pxeles sobre el que se superpone el grafo
de los contornos: (a) direcciones de los contornos, y (b) grafo correspondiente.
- Algoritmo de bsqueda del camino de menor coste Paso 1.- Expandir el nodo origen nO y poner todos sus sucesores {ni} en una lista L. En ella
todos los nodos tiene un puntero hacia detrs a nO. Evaluar la funcin de coste r(ni) a todo
nodo expandido ni desde nO, que inicialmente valdr c(nO, ni) segn la expresin (4.1).
Paso 2.- Si la lista L es vaca, acabar con fallo; en otro caso, determinar el nodo nj de la lista
L cuya funcin de coste asociada r(nj) sea la menor y quitar nj de la lista L. Si nj = nD (nodo
final del camino), recorrer el camino de punteros hacia detrs, encontrar el valor mnimo
y acabar con xito.
Paso 3.- Si la opcin de parar no fue tomada en el paso 2, expandir el nodo especificado nj
y poner sus sucesores en la lista L con punteros hacia detrs a nj. Calcular los costes
segn la funcin r (si nk es un sucesor de nj en L, su coste viene dado por el coste r(nj) para
ir de ni a nj ms el coste del arco c(nj, nk) ). Volver al paso 2.
Para la aplicacin del algoritmo anterior, la funcin de costes r debe ser

separable y montona con respecto de la longitud del camino. Adems, los costes
locales de componentes de contornos deben ser no negativos. Este algoritmo puede
presentar problemas al poder aparecer, siguiendo el proceso descrito, un ciclo
infinito en la bsqueda del camino. Este problema puede resolverse llevando una
lista de nodos visitados y no expandiendo un nodo ya visitado. En general, el
encontrar un camino de coste mnimo entre dos nodos puede resultar costoso
computacionalmente. Normalmente, se prefiere perder algo de eficiencia con tal de
tener un algoritmo ms rpido.
Tambin, basndose en un modelo de grafo puede aplicarse la tcnica de
programacin dinmica. La programacin dinmica se basa en el principio de
optimalidad. Este principio, aplicado al problema de un camino entre dos nodos de
un grafo (o bsqueda de una frontera entre pxeles) significa que: si el camino
optimal entre el nodo origen nO y el nodo destino nD pasa por un nodo intermedio
nE, entonces los subcaminos que van desde nO y nE, y entre nE y nD,
respectivamente, son tambin optimales. El problema planteado es equivalente a
encontrar un camino de coste optimal en un grafo multietapa, cuya formulacin
matemtica puede consultarse en un libro sobre tcnicas de diseo de algoritmos.
El grafo multietapa se construye a partir de la imagen de gradientes tras
aplicar las reglas de conexin de contornos discontinuos. Por ejemplo, usando
estos datos se define el grafo multietapa de la Figura 74. Los costes asociados a los
arcos indican la magnitud de los valores del gradiente de los contornos, mientras
que las direcciones de gradiente se usan para definir las reglas de conexin. Los
arcos en trazo grueso de la figura sealan el camino optimal (aqul de coste
mximo) que indica los contornos ms probables entre un nodo origen y otro
destino.
Figura 74.- Grafo 4-etapas y su camino ptimo (de coste 16).
Transformada de Hough
Al igual que las tcnicas basadas en grafos, la transformada de Hough es un
mtodo de anlisis global que se dise para detectar lneas rectas y curvas a
partir de las posiciones de n puntos. Una ventaja de esta tcnica es la robustez de
los resultados de segmentacin conseguidos al aplicarla; sin embargo, su coste
computacional es elevado.
El algoritmo propuesto por Hough en 1962, conocido como transformada
Hough, permite determinar el conjunto de rectas que probablemente forman una
nube de puntos. Este algoritmo parte de la consideracin de que para cualquier
punto (xi,yi), todas las rectas que pasan por l cumplen la ecuacin:
yi = a xi + b
(4.2)
siendo a y b, los parmetros que determinan las infinitas rectas que pasan por el
punto (xi,yi). Para otro punto (xj,yj), las rectas que pasan por l siguen la ecuacin:
yj = a xj + b
(4.3)
donde a y b son parmetros variables de nuevo. La recta que pasa a la vez por
(xi,yi) y por (xj,yj) tiene como valores de los parmetros (a,b) el resultado de
resolver el sistema planteado por (4.2) y (4.3), que llamaremos a y b.
y
b
b'
a'x+
=
y
(x2,y2)
b'
(x1,y1)
a'
(a)
(b)
Figura 75.- Representacin de la recta y = ax + b en el espacio (x,y) y en el espacio de

parmetros (a,b).
Si se representa el espacio de los parmetros (a,b), el nmero de veces que

una recta pasa por el punto (a,b) determina el nmero de pxeles que comparten
la misma recta. Por ello, el simple conteo de las veces que se repiten los mismos
valores para a y b sirve de indicador para encontrar las rectas que existen en una
imagen.
Ms concretamente, si se representa el espacio de parmetros (a,b) de las
rectas que pasan por los puntos (x1,y1) y (x2,y2) se obtiene la Figura 75b. La
interseccin de las rectas de esta figura determina el punto (a,b) que se
corresponde con los parmetros de la recta y=ax+b, que contiene los puntos
(x1,y1) y (x2,y2). De manera prctica, suele discretizarse el plano de los parmetros
(a,b), para realizar el conteo. Adems, la representacin y=ax+b plantea el
problema de que ni los valores de a ni los de b estn acotados, complicndose an
ms en el caso de las rectas verticales en los que el parmetro a tiende a infinito.
Es por esto que se usa la representacin en polares de una recta:
xi cos + yi sen =
siendo y los nuevos parmetros que determinan los infinitos puntos que pasan
por xi e yi. Ntese que en esta ecuacin el parmetro est acotado en el intervalo
[0,).
Ejemplo 14.Determinar las dos rectas que con mayor probabilidad aparecen en la imagen de la
Figura 76, obtenida mediante un filtrado de Sobel.
x
y
0
1
2
3
4
5
6
Figura 76.- La figura presenta un mapa de bits de ejemplo para la aplicacin de la

transformada de Hough.
Para el punto de coordenadas (1,5), las rectas que pueden encontrarse

tienen los parmetros: ( =0, = 1) ( =10, = 116) ( =20, = 128)
., que se deducen de la ecuacin: xicos + yisen = . Calculando el valor de
para cada posible (en intervalos de diez en diez grados), se obtienen los
resultados que aparecen en la Tabla 5.
X
1
2
3
4
5
6
1
2
3
4
5
6
Y
1
1
2
2
3
3
5
5
5
5
5
5
10
20
30
40
50
60
70
80
1
2
3
4
5
6
1
2
3
4
5
6
1,16
2,14
3,3
4,29
5,44
6,43
1,85
2,84
3,82
4,81
5,79
6,78
1,28
2,22
3,5
4,44
5,72
6,66
2,65
3,59
4,53
5,47
6,41
7,35
1,37
2,23
3,6
4,46
5,83
6,7
3,37
4,23
5,1
5,96
6,83
7,7
1,41
2,17
3,58
4,35
5,76
6,52
3,98
4,75
5,51
6,28
7,04
7,81
1,41
2,05
3,46
4,1
5,51
6,15
4,47
5,12
5,76
6,4
7,04
7,69
1,37
1,87
3,23
3,73
5,1
5,6
4,83
5,33
5,83
6,33
6,83
7,33
1,28
1,62
2,91
3,25
4,53
4,87
5,04
5,38
5,72
6,07
6,41
6,75
1,16
1,33
2,49
2,66
3,82
4
5,1
5,27
5,44
5,62
5,79
5,97
90 100 110 120 130 140 150 160 170

1
1
2
2
3
3
5
5
5
5
5
5
0,81
0,64
1,45
1,28
2,09
1,91
4,75
4,58
4,4
4,23
4,06
3,88
0,6
0,26
0,85
0,51
1,11
0,77
4,36
4,01
3,67
3,33
2,99
2,65
0,37
-0,1
0,23
-0,3
0,1
-0,4
3,83
3,33
2,83
2,33
1,83
1,33
0,12
-0,5
-0,4
-1
-0,9
-1,6
3,19
2,54
1,9
1,26
0,62
-0
-0,1
-0,9
-1
-1,8
-1,9
-2,7
2,45
1,68
0,92
0,15
-0,6
-1,4
-0,4
-1,2
-1,6
-2,5
-2,8
-3,7
1,63
0,77
-0,1
-1
-1,8
-2,7
-0,6
-1,5
-2,1
-3,1
-3,7
-4,6
0,77
-0,2
-1,1
-2
-3
-3,9
-0,8
-1,8
-2,6
-3,6
-4,4
-5,4
-0,1
-1,1
-2,1
-3,1
-4,1
-5
Tabla 5.- Representacin del valor de a partir de las coordenadas de un punto (x,y) y del
ngulo .
Redondeando al valor entero ms prximo y agrupando las repeticiones de

las parejas (, ) se obtiene la Tabla 6. En ella se aprecia que para ( = 90, = 5),
y para ( = 120, = 1), se obtienen dos valores mximos locales que se
corresponden a sendas rectas que aparecen en la Figura 77.
\
8
7
6
5
4
3
2
1
0
-1
-2
-3
-4
-5
-6
-7
-8
0
0
0
2
2
2
2
2
2
0
0
0
0
0
0
0
0
0
10
0
1
2
2
2
2
2
1
0
0
0
0
0
0
0
0
0
20
0
2
2
2
3
1
1
1
0
0
0
0
0
0
0
0
0
30
1
2
2
1
3
1
1
1
0
0
0
0
0
0
0
0
0
40
1
2
3
1
3
0
1
1
0
0
0
0
0
0
0
0
0
50
1
1
4
1
2
1
1
1
0
0
0
0
0
0
0
0
0
60
0
2
3
3
1
1
1
1
0
0
0
0
0
0
0
0
0
70
0
1
3
4
0
2
1
1
0
0
0
0
0
0
0
0
0
80
0
0
3
3
2
1
1
2
0
0
0
0
0
0
0
0
0
90 100 110 120 130 140 150 160 170

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
6
2
0
0
0
0
0
0
0
0
4
3
1
0
0
0
0
0
2
0
3
2
2
0
0
0
0
2
2
0
2
1
2
1
0
0
2
4
5
1
2
1
1
1
0
0
0
1
6
3
2
2
1
1
0
0
0
0
3
4
2
2
2
0
0
0
0
1
2
3
3
2
0
0
0
0
0
1
2
2
2
0
0
0
0
0
0
1
2
3
0
0
0
0
0
0
0
1
2
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Tabla 6.- Representacin del conteo de los valores de parmetros considerados, que
describen las rectas ms probables que aparecen tras la aplicacin de la transformada
Hough.
x
120
90
1
0
1
2
3
4
5
6
y
Figura 77.-Rectas obtenidas por la aplicacin de la transformada de Hough representadas
sobre el mapa de bits de la Figura 76.
4.4. Tcnicas basadas crecimiento de regiones

Las tcnicas agrupadas bajo el nombre de crecimiento de regiones determinan
zonas dentro de una imagen basndose en criterios de similaridad y proximidad
entre los pxeles de la misma. En estas tcnicas la homogeneidad (o falta de
homogeneidad) entre regiones adyacentes es el criterio utilizado para unir (o
dividir) regiones de la imagen. Dicha homogeneidad se puede definir a partir de
criterios como: el nivel de gris medio, el color, la forma, etc. El resultado de la
segmentacin es una particin de la imagen en regiones homogneas.
Las tcnicas de segmentacin basadas en contornos tratan de encontrar
fronteras entre regiones. En general, las tcnicas basadas en regiones trabajan
mejor en imgenes con ruido, en donde los contornos son difciles de localizar. La
segmentacin resultante de una deteccin de contornos y la basada en crecimiento
de regiones, aplicadas a una misma imagen no producen normalmente el mismo
resultado. Es posible combinar los resultados producidos por ambos tipos de
segmentaciones.
4.4.1 Unin de regiones

Este procedimiento agrupa pxeles de la imagen formando regiones de similares
caractersticas. Inicialmente se elige una coleccin de pxeles de manera aleatoria
que actan como semillas para comenzar el crecimiento. A estos puntos de la
imagen se les agrega los adyacentes cuando tienen valores que cumplen algn
criterio de homogeneidad con los puntos semilla. Si ocurre esto, pertenecen a la
misma regin y pasan a tener los mismos valores que los puntos semilla. El criterio
de homogeneidad ms usual suele consistir en que un pxel, adyacente a una
regin, se agregue a sta si su intensidad es similar a la media de las intensidades
de los pxeles de la regin. El principal inconveniente del mtodo se deriva de que
el resultado depende de la eleccin inicial de los puntos semilla.
En la Figura 78 se presenta un ejemplo en el que se ha usado unin de
regiones para segmentar objetos. La figura corresponde a una fotografa de dos
cartulinas circulares de colores sobre un tablero negro. El objetivo es localizar las
dos cartulinas. El criterio de agregacin en este caso consisti en la similitud de la
terna RGB asociada a cada pxel.
Figura 78.- Segmentacin de objetos por unin de regiones. Las regiones correspondientes
a los colores amarillo, rojo azul y verde crecen por agregacin de pxeles con matiz similar.
4.4.2 Divisin de regiones

Es un proceso en cierta forma opuesto al de unin de regiones. Se parte una nica
regin que representa a toda la imagen, y si dicha regin no satisface el criterio de
homogeneidad establecido, la regin inicial se divide, de manera secuencial, en
subregiones de las que se estudia su homogeneidad. Si una subregin est formada
por puntos homogneos, no se subdivide; si no, se sigue dividiendo. Los criterios
utilizados para dividir regiones son similares a los usados para agruparlas, y slo
se diferencian en la direccin en que se aplican.
4.4.3 Divisin y unin de regiones (split and merge)

Horowitz y Pavlidis propusieron en 1976 un mtodo que solventa el problema de
la eleccin arbitraria de semillas para agrupar regiones. El algoritmo recibe la
imagen a segmentar y devuelve una imagen resultado formada por regiones
homogneas. El algoritmo propuesto sigue la tcnica de divide y vencers y tiene
dos fases: dividir la imagen en subimgenes o regiones (split) y luego agrupar
subimgenes similares (merge).
Para implementar el algoritmo primero se debe definir una medida que
determine la similitud entre regiones de la imagen. Por ejemplo, se podran utilizar
los valores de la media y la desviacin tpica de los niveles de gris de los pxeles
de la regin. Una vez definida, dicha medida se aplica inicialmente a toda la
imagen. Si esta medida supera un cierto umbral, la imagen inicial se divide en
cuatro subimgenes de igual tamao (cuadrantes). Despus, se vuelve a calcular
esta medida sobre cada una de las cuatro subimgenes. Si la medida en alguna de
las imgenes resultantes de la divisin vuelve a sobrepasar de nuevo el umbral,
sta se vuelve a subdividir en cuatro partes iguales, y as sucesivamente. Cuando la
medida sobre alguna de las regiones no supera el umbral, se la etiqueta como
indivisible con el valor calculado. En caso contrario, la subdivisin contina hasta
que el tamao de la regin considerada sea de un pxel, momento en que dicha
regin se etiqueta igualmente con el valor de la medida correspondiente.
La segunda fase del algoritmo consiste en unir pares de regiones
adyacentes que presenten un valor similar de la medida (de acuerdo a un nuevo
umbral). El procedimiento se itera hasta que no quedan zonas adyacentes con
similares caractersticas que sigan separadas. La aplicacin del criterio de unin
mediante fuerza bruta puede ser costoso en imgenes grandes. Con objeto de
minimizar el nmero de comparaciones puede usarse una estructura de tipo
quadtree para almacenar la representacin de las regiones (ver figura adjunta).
Esta representacin permite aplicar reglas como la de que regiones de tipo A slo
adyacen a regiones de tipo B y C. Con estas reglas el nmero de posibles
comparaciones se reduce.
A
A
A
A
C
A
(a)
(b)
Figura 79.- Representacin en quadtree (a) de las regiones de la imagen (b).
Horowitz y Pavlidis utilizaron como criterio de referencia la media de los

valores de intensidad de los pxeles de la regin, aunque el criterio de referencia
puede ser cualquier otro.
La Figura 80 muestra la aplicacin de este mtodo de segmentacin para la
localizacin de la oreja en una imagen facial tomada de perfil. El criterio adoptado
asume que las zonas con alta desviacin tpica corresponden a la oreja y a la
frontera del rostro con el fondo. En esta implementacin no se ha continuado la
divisin de regiones no homogneas hasta el lmite de un pxel, sino que si la
regin a evaluar era menor de 1010 pxeles y su desviacin tpica superaba el
umbral fijado, dicha regin se etiquetaba como una zona candidata a contener la
oreja. En la Figura 80 (a) se presenta la imagen inicial, en (b) se aprecia las
regiones resultantes de aplicar el algoritmo de divisin y unin de regiones
propuesto, (c) muestra las regiones independientes de alta varianza que aparecen
en la imagen. Finalmente la regin seleccionada para contener la oreja debe
cumplir ciertos criterios heursticos. En este ejemplo, un criterio heurstico final
para extraer la oreja consisti en establecer que la regin que la contuviese debera
cumplir unas proporciones determinadas (ancho/alto0,625). Esto se hizo porque
se observ que de las regiones de alta varianza obtenidas aplicando el
procedimiento de divisin y mezcla, slo la regin que contiene la oreja cumple
estas proporciones.
(a)
(b)
(c)
Figura 80.- Segmentacin de objetos mediante el algoritmo Split and Merge. Aplicacin de
la segmentacin a la extraccin de la oreja en una imagen de perfil.
4.4.4 Segmentacin basada en morfologa: watershed

La tcnica de watershed (en espaol: lnea de divisin de aguas) es un
procedimiento de segmentacin, basado en morfologa matemtica, que permite
extraer las fronteras de las regiones que hay en una imagen. Esta tcnica aplicada
en el procesamiento de imgenes fue introducida por C. Latuejoul como
transformacin de watershed y ms tarde mejorada juntamente con S. Beucher, y
denominada watershed.
Inicialmente, la imagen puede verse como una representacin topogrfica
de un terreno, donde a cada pxel se le asocia como valor de altura su nivel de
gris correspondiente. A continuacin, imaginemos que se comienza a inundar esta
superficie topogrfica desde los niveles ms bajos de altura (valores mnimos
locales, que constituyen cuencas de inundacin). Llega un momento en el que,
siguiendo este proceso de inundacin, las aguas de cuencas contiguas se unen. Las
lneas de unin, que representan las fronteras de regiones homogneas, constituyen
el resultado de la segmentacin. Por lo tanto, esta transformacin de watershed
particiona una imagen en niveles de gris en otra formada por regiones
significativas, separadas por las lneas resultantes mencionadas. El proceso se
ilustra en la Figura 81.
Figura 81.- Una imagen que ilustra el smil del watershed en una superficie de un terreno.
La obtencin de las lneas de divisin de aguas de una imagen digital no es

tarea sencilla. Este tipo de algoritmos suelen ser lentos (y, a veces, poco precisos).
Se ha investigado y desarrollado diferentes versiones del watershed para hacerlo
ms eficiente y rpido. El uso de colas ordenadas por niveles de gris permite
mejorar la eficiencia de esta tcnica de segmentacin.
En este tipo de algoritmos es necesario implementar un paso previo a la
segmentacin, del cual depender el buen resultado del proceso genrico. En el
caso de las imgenes en niveles de grises, el concepto de zona contenida dentro de
un contorno se refiere a todos los puntos que an estando cercanos no existe entre
ellos un salto radical en la escala de gris. Basndose en este punto de partida, el
algoritmo comenzar con la deteccin de unos marcadores bsicos. Estos
marcadores se escogern entre los mnimos locales de la imagen. A partir de stos
se empieza el proceso de inundacin. Tras este paso, cada objeto que aparece en la
imagen deber tener un marcador diferente asociado.
Est tcnica de segmentacin est aconsejada para imgenes con texturas
homogneas y con gradientes de intensidad dbiles. Finalmente, los objetos
resultantes de la segmentacin se corresponden con los mnimos del gradiente
morfolgico y con los contornos de las lneas de divisin de aguas del gradiente.
Uno de los problemas de este algoritmo es el de la sobresegmentacin.
Este problema se caracteriza por la deteccin de un nmero de regiones excesivo,
muchas de las cuales no son importantes dentro de la imagen, o no representan
objetos existentes en la imagen original. El origen del problema suele estar en que
la eleccin de marcadores no ha sido adecuada, por ejemplo se ha seleccionado
marcadores que eran producidos por ruido en la imagen original. Es por ello que
previo a este algoritmo suele aplicarse un filtrado de suavizado para eliminar
marcadores no significativos.
Para finalizar este apartado se sealan algunos criterios a tener en cuenta
para obtener un buen resultado en este proceso:
Filtrar las imgenes para dejar slo las zonas importantes de ella.
Elegir unos marcadores adecuados. Dependiendo del problema que se

trate, se tendr que definir una heurstica diferente para elegir los
marcadores con los que se tendr que empezar el proceso.
4.5. Otros enfoques para la segmentacin

Actualmente, la segmentacin de imgenes contina siendo un rea activa de
investigacin. Existen numerosas tcnicas de segmentacin, aparte de las
explicadas hasta ahora, que no pueden ser englobadas estrictamente en ninguno de
los tres grupos descritos. Por ello, en los siguientes puntos, se repasa, brevemente
y de manera separada, las tcnicas basadas en el uso del color, en el anlisis de la
textura y en el movimiento (obtenido como una sucesin de imgenes consecutivas
en el tiempo).
4.5.1 Segmentacin basada en el color

El aumento de resolucin radiomtrica siempre aporta nueva informacin que
puede facilitar el proceso de segmentacin. Sin embargo siempre debe tenerse en
cuenta que los requisitos computacionales aumentan considerablemente respecto a
las tcnicas basadas en imgenes en niveles de gris o bitonales.
Ya se ha estudiado que el color se puede representar como la unin de tres
planos, cada uno con la informacin relativa a la intensidad de cada punto respecto
a cada una de las componentes de una base de color (rojo, verde y azul en el
modelo RGB). Una tcnica comn de segmentacin en color consiste en separar el
proceso en dos fases. En la primera se aplican las tcnicas que se han estudiado
para niveles de gris a cada uno de los tres planos RGB. En la segunda se integran
los resultados de la primera para producir como resultado la segmentacin de la
imagen en color.
Una tcnica de este tipo es aquella basada en el crecimiento de regiones.
En concreto, se aplica una variante que contempla el color del algoritmo de splitand-merge, descrito al explicar la segmentacin basada en regiones. El algoritmo
queda de la siguiente forma:
- Algoritmo Split and Merge para segmentacin basada en el colorPaso 1.- Se calculan las caractersticas de color usando los valores de las componentes de
los planos rojo, verde y azul de una imagen RGB.
Paso 2.- La imagen se divide en regiones cuadradas de igual tamao, usando la estructura
de datos de rbol cuaternario o quadtree.
Paso 3.- Cuatro cuadrantes situados a un mismo nivel de subdivisin son mezclados si se
satisface un cierto criterio de homogeneidad. Un cuadrante se subdivide en otros cuatro si
no se satisface una condicin de homogeneidad.
A continuacin, se enumeran otras dos tcnicas descritas en la literatura

sobre la segmentacin basada en el color:
Umbralizacin global de la componente de color usando el espacio de

representacin HSV (ver captulo 1).
Uso de algoritmos de agrupamiento o clustering (ver captulo 5 de estos

apuntes); en particular, la aplicacin del algoritmo de las k-medias sobre
los pxeles de la imagen en color.
La Figura 82 muestra un ejemplo de segmentacin de imagen en color.
Figura 82.- Ejemplo de segmentacin de una imagen en color.
4.5.2 Segmentacin basada en la textura

En este enfoque se definen modelos de texturas para pensar en una imagen no
como en una coleccin de pxeles, sino para tratarla como una funcin I(x,y). El
propsito del modelo es transformar una ventana de una imagen en una coleccin
de valores que constituyen un vector de caractersticas. Este vector ser un punto
de un espacio n-dimensional. La representacin corresponder a la textura si
ventanas tomadas de la misma muestra de textura estn cercanas en el espacio de
caractersticas, y si ventanas de la imagen con diferentes patrones de texturas
quedan alejadas en el espacio de caractersticas considerado. Los modelos de
textura se dividen, a grandes rasgos, en tres categoras: basados en estructuras
piramidales, que tratan de capturar las frecuencias espaciales a distintos niveles de
resolucin; basados en campos aleatorios24, que asumen que los valores de un
pxel son seleccionados mediante un proceso estocstico bidimensional; y los
basados en mtodos estadsticos, que utilizan matrices de co-ocurrencias
construidas a partir de las imgenes y de estas matrices se extraen una serie de
medidas como la media, la varianza, la entropa, la energa y la correlacin entre
los pxeles. Una descripcin detallada de los tres modelos de texturas queda fuera
de este texto, remitimos nuevamente al lector a la bibliografa del captulo.
24
Random fields en ingls
Una vez caracterizada la textura de una imagen hay que aplicar un
algoritmo de segmentacin que podr ser supervisado o no supervisado. La
diferencia entre ambos enfoques radica en un conocimiento a priori o no de la
tarea especfica que el algoritmo lleva a cabo (en otras palabras, en el supervisado
se conocen de antemano los tipos de texturas presentes y en el no supervisado, no
se conocen).
Si se asume que el nmero de texturas diferentes presentes en la imagen es
pequeo y que todas las texturas son distintas unas de otras, entonces es posible
describir regiones pequeas de textura homognea, extraer vectores de
caractersticas usando los modelos mencionados, y usar estos vectores como
representantes de clases en el espacio de caractersticas. Ahora, todos los dems
vectores de textura se pueden etiquetar asocindose al representante de clase ms
cercano. Se pueden usar redes neuronales u otro tipo de algoritmos, para ajustar
mejor el sistema al modelo. Se est, en este caso, usando un mtodo de
segmentacin supervisado.
Si sucede que el nmero de texturas posibles es muy grande y no se
pueden realizar suposiciones sobre los tipos de texturas presentes en la imagen, se
puede recurrir a usar mtodos de segmentacin no supervisados. Ahora se necesita
realizar un anlisis estadstico sobre la distribucin de vectores de caractersticas.
El objetivo es reconocer clusters o agrupaciones de vectores en la distribucin y
asignar la misma etiqueta a los componentes de cada uno de ellos (ver captulo 5).
En general, estos mtodos no supervisados son ms difciles de realizar. Ambos
tipos de mtodos requieren de una medida de distancia entre vectores de
caractersticas; cuando los componentes son homogneas puede usarse la distancia
eucldea, y en otros casos funciones de distancia ms complejas o incluso
heursticas basadas en experimentacin.
Una vez segmentada la imagen se puede evaluar el resultado conseguido.
En general, deber apreciarse una particin de la imagen en un nmero reducido de
regiones, de tamao grande y ms o menos convexas. La siguiente imagen,
muestra un ejemplo de imagen texturada y de cmo resultara su segmentacin.
Figura 83.- (a) Imagen inicial, y (b) resultado de su segmentacin.
4.5.3 Segmentacin basada en el movimiento

El movimiento puede constituir una potente herramienta para la segmentacin de
objetos animados sobre fondos estticos. Las tcnicas bsicas consisten en el
estudio de la imagen resultante de la resta de dos imgenes consecutivas de una
secuencia animada. Est tcnica se conoce con el nombre de substraccin de
fondo. Los objetos que se desplazan entre estas dos imgenes producen en la
imagen resta un conjunto de pxeles con valores distintos a cero. Mientras, los
elementos estticos de la imagen, por no variar, producen cero tras la resta.
As, partiendo de dos imgenes It e It+1 de dos instantes consecutivos los
objetos tras esta segmentacin seran los pxeles a uno en la imagen Id.
1 si I t ( x, y ) I t ( x, y ) > U
d t ,t +1 ( x, y ) =
en otro caso
0
Siendo U un valor umbral que depende de la variacin de la iluminacin
entre los instantes t y t+1.
4.6. Representacin de objetos segmentados

Una vez segmentada una imagen es importante considerar la forma de describir los
objetos localizados. En este apartado se ver que usando descripciones apropiadas
puede conseguirse una representacin nica e independiente de la posicin, la
orientacin y el tamao del objeto descrito.
4.6.1 Descripcin basada en el cdigo de cadena

Para representar el contorno de un objeto suele usarse una representacin conocida
como cdigo de cadena. Para obtenerlo se parte de un pxel cualquiera del
contorno. Se toma un criterio para recorrer el contorno (por el ejemplo el de la
mano izquierda). Luego se va construyendo una cadena resultado de concatenar el
smbolo correspondiente al paso que se da en cada momento utilizando el convenio
de la Figura 84. Se consigue as una cadena de smbolos que determinan
unvocamente al objeto.
1
2
3
0
1
0
Figura 84.- Direcciones del cdigo de cadena para 4 y 8 vecinos.
Con el fin de lograr invarianza frente a rotaciones se codifican las

diferencias entre los dgitos del cdigo y no el cdigo mismo. Esta diferencia se
realiza en mdulo ocho o en mdulo cuatro dependiendo del caso, no debiendo
olvidar codificar tambin la diferencia entre el primer y el ltimo dgito de la
cadena. Adems es importante que se elija un convenio, por ejemplo en contra del
movimiento de las agujas del reloj, a la hora de elegir un sentido para realizar la
codificacin.
Dependiendo del punto en el que se comience a recorrer el objeto el
cdigo de cadena puede ser diferente. As, dos cdigos del mismo objeto pueden
tener los mismos dgitos aunque los dgitos de uno parecern desplazados respecto
a los del otro. Para lograr invarianza respecto al punto de inicio, los dgitos del
cdigo obtenido se deben disponer de forma que si se lee el cdigo se obtenga el
menor entero posible con esa secuencia de dgitos. Para ello se desplazan los
dgitos a la izquierda o a la derecha hasta obtenerlo, teniendo la precaucin de que
los nmeros que salgan por la izquierda entren por la derecha.
Por ltimo, para evitar que pequeos cambios en el contorno de un objeto
produzca cdigos muy diferentes, suele usarse algn filtrado de suavizado o algn
cambio de escala sobre el objeto.
Ejemplo 15.En este ejemplo se desea codificar en cdigo de cadena para 4 vecinos el objeto de
la Figura 85 (a). Para ello, previamente, se reduce la resolucin a la cuadrcula que
se presenta en la Figura 85 (b).
(a)
(b)
Figura 85.- Recorrido del objeto usando cdigo de cadena de conectividad 4. El punto
grueso indica el nodo de inicio.
Inicialmente se obtiene: 3030012122. Codificando las diferencias se

obtiene: 0113101131. Finalmente desplazndolo para obtener el mnimo queda:
0012122303.
4.6.2 Descripcin basada en los Momentos

Dada una funcin f(x,y) continua y acotada, se define el momento general de orden
p+q como la siguiente integral doble:
m pq =
x p y q f ( x, y ) dxdy
p, q = 0,1,....
Se puede ver que, para una funcin acotada en el plano, existen infinitos
momentos generales obtenidos haciendo variar p y q de cero a infinito.
Se puede demostrar que dada una funcin f(x,y) existe un nico conjunto
de momentos generales que la definen y viceversa.
f ( x, y ) {m pq }
p, q = 0,1,....
En la prctica se comprueba que una cantidad menor de momentos puede

describir cualquier funcin f(x,y) con suficiente precisin. La determinacin del
nmero de momentos necesarios es particular a cada caso de estudio.
Particularizando para el caso de imgenes digitales los momentos toman la
forma:
N 1 N 1
m pq = x p y q I D ( x, y )
p, q = 0,1,....
x =0 y =0
siendo ID(x,y) una funcin discreta que toma valor 1 cuando el pxel pertenece al
objeto y 0 cuando pertenece al fondo.
Momentos de orden cero y orden uno
El momento de orden cero (p=q=0) coincide con el rea del objeto descrito.
N 1 N 1
m00 = I D ( x, y )
x =0 y =0
Los momentos de orden uno (p=0, q=1 y p=1, q=0), junto al de orden cero,
determinan el centro de gravedad de los objetos.
N 1 N 1
N 1 N 1
x = m10 = xI D ( x, y )
y = m01 = yI D ( x, y )
x =0 y =0
x =0 y =0
Invarianza a traslaciones
Los momentos generales se pueden hacer invariantes a las traslaciones. Para ello
basta con referirlos al centro de gravedad del objeto, es decir a los momentos de
orden cero y uno. Estos momentos, que se conocen como momentos centrales,
tienen la siguiente forma:
N 1 N 1
mc pq = ( x x ) p ( y y ) q I D ( x, y )
p, q = 0,1,....
x =0 y =0
De manera ms simple puede escribirse la expresin equivalente:

p q
p q
mc pq = ( x ) r ( y ) s m p r ,q s
r =0 s =0 r s
p, q = 0,1,....
Invarianza a giros
La invarianza a giros se consigue disponiendo de una direccin de referencia para
cada objeto. La direccin que se suele tomar es la que marca el eje de mnima
inercia del objeto.
La inercia respecto a un eje se define como la suma de las distancias del
eje a los puntos de la figura promediados por el peso de cada punto. As, es fcil
demostrar que si (a,b) es un punto del eje y al ngulo formado con la horizontal,
la inercia es:
I = [( x a)sen ( y b) cos ] I D ( x, y )
2
El eje de mnima inercia corresponder aqul que haga cero las derivadas
parciales respecto a cada variable:
dI
=0
dx
dI
=0
dy
dI
=0
d
Desarrollando las derivadas se obtiene:
a=x
b= y
1
2
2mc11
mc20 mc02
= arctg
- 163 -
Debe evitarse esta formulacin cuando el denominador se acerque a 90 ,es
decir con ejes de inercia verticales.
El giro del objeto y el posterior clculo de los momentos centrales puede
resumirse en la siguiente ecuacin:
p q
p q
mcg pq = ( 1) q s (cos ) p r + s (sen ) q s + r mc p r + q s ,r + s
r =0 s =0
r s
p, q = 0,1,....
Invarianza a homotecias o cambios de escala

Para evitar que la escala del objeto influya en su descripcin se puede dividir los
momentos por el rea elevada a un factor dependiente del momento que se
calcule.
mcgh pq =
mcg pq
m00
donde =
p+q
2
p, q = 0,1,....
4.6.3 Descripcin basada en la transformada de Fourier

Pasando del dominio de la cadena al dominio de la frecuencia se puede tratar el
problema de la invarianza a las transformaciones geomtricas desde un punto de
vista que ofrece mejores resultados. En este punto se ver la utilidad de aplicar la
transformada de Fourier sobre el cdigo de cadena de un objeto.
Invarianza a traslaciones
Las componentes de Fourier de dos objetos iguales, que se hallen desplazados uno
respecto a otro, slo se diferencian en la componente de frecuencia cero (F(0)).
Por tanto, la eliminacin de esta componente proporciona una descripcin
invariante a traslaciones.
Invarianza a giros
La transformada de Fourier de un objeto girado radianes respecto a otro igual
pero que no est girado se diferencia en un factor multiplicativo ej. Por ello, suele
usarse slo los mdulos que no cambian si el objeto est girado.
Invarianza a homotecias o cambios de escala
La transformada discreta de Fourier (3.4) de una secuencia de valores respecto a la
de una secuencia igual pero con unos valores proporcionalmente diferentes se
diferencia en que todos los elementos de la transformada han sido multiplicados
por un valor k que depende del cambio de tamao. Por ello si se dividen todas las
componentes por una de ellas (normalmente suele tomarse la primera no nula) se
obtiene una representacin invariante a homotecias en la intensidad.
La invarianza a homotecias de tamao es ms difcil de conseguir. En este
caso las frecuencias de aparicin de las componentes varan proporcionalmente.
Para eliminar esta variabilidad deberan dividirse todas las frecuencias por la
primera frecuencia distinta de cero. Sin embargo este enfoque puede ser muy
sensible al ruido presente en el cdigo de cadena.

A lo largo del captulo se ha introducido multitud de conceptos tiles a la hora de
generar caractersticas descriptoras de los objetos. Sin embargo, cada uno de estos
enfoques por separado suele resultar insuficiente para describir los objetos de la
mayora de los problemas reales. Por ello, suele usarse combinaciones de varios de
los mtodos propuestos y tambin suele realizarse modificaciones para ajustar
estos mtodos al problema particular que se trate.

[GW93] caps. 7 y 8,
[SHB99] cap. 5.
Captulo 5
Introduccin a los
clasificadores
En este captulo se estudiarn diferentes algoritmos que permiten clasificar los

elementos que aparecen dentro de una escena para poder entenderla. Los
algoritmos de clasificacin tienen la misin de distinguir entre objetos diferentes
de un conjunto predefinido llamado universo de trabajo. Normalmente, el universo
de trabajo se considera dividido en una coleccin K de clases (1, 2... K),
perteneciendo los diferentes objetos a algunas de estas clases.
En este captulo se estudiarn diferentes mtodos que permiten determinar,
de manera automtica, en qu clase se encuentra un objeto de un universo de
trabajo. Estos mtodos se conocen como clasificadores.
5.1. Caractersticas discriminantes

Para poder realizar el reconocimiento automtico de los objetos se realiza una
transformacin que convierte un objeto del universo de trabajo en un vector25 X
cuyas N componentes se llaman caractersticas discriminantes o rasgos.
25
En el resto del captulo se usarn las maysculas para los vectores.
Captulo 5 Introduccin a los clasificadores

Estas caractersticas deben permitir discriminar a qu clases puede
pertenecer cualquier objeto del universo de trabajo.
X = (x1, x2,... xN)
con
NN y xi
i = 1...N
El valor del vector de caractersticas para un objeto concreto se conoce

como patrn. Es decir, un patrn es una instancia particular de un vector de
caractersticas determinado.
La determinacin de las N caractersticas discriminantes es un proceso
difcil que suele requerir del uso de la imaginacin. En general, suelen usarse
caractersticas como los momentos de los objetos a reconocer, alguna
transformacin de los mismos (Fourier, cosenos...), las propias imgenes, o
cualquier caracterstica que se pueda obtener de los objetos mediante algn
procedimiento algortmico.
Una vez determinadas las caractersticas discriminantes para un problema
concreto, la clasificacin de un objeto comienza por la obtencin de su patrn. El
siguiente paso consiste en determinar la proximidad o grado de pertenencia de este
patrn a cada una de las clases existentes. A este efecto se definen las funciones
discriminantes o funciones de decisin como aquellas funciones que asignan a un
patrn un grado de semejanza respecto a cada una de las diferentes clases.
Clases a las que
pertence X
patron X
Extraccin de
caractersticas
Funcin
discriminante
Conocimiento
respecto a las
clases
Figura 86.- Esquema general de funcionamiento de un clasificador.

Ejemplo 16.Supngase una cinta transportadora transparente por la que circulan tornillos,
arandelas y tuercas. Se precisa desarrollar un sistema que cuente cuntas unidades
de cada tipo hay en cada momento en un intervalo de la cinta. Se supone que la
iluminacin se realiza a contraluz con lo que se obtienen siluetas similares a las de
la Figura 87. Se debe pues construir un sistema que identifique cada silueta como
correspondiente a una de las tres clases de objetos.
Figura 87.- Muestra de las diferentes piezas entre las que se desea distinguir, obtenidas con
una cmara e iluminacin a contraluz.
El primer problema, previo al reconocimiento, consiste en la segmentacin

de los objetos. Este paso es necesario para luego poder realizar la extraccin de
caractersticas de cada uno de los objetos. En general es preciso aplicar una o
varias de las tcnicas de segmentacin estudiadas en el captulo anterior, hasta
conseguir separar los objetos de una escena. En este caso particular, si no se
contempla el problema de superposicin de piezas, la segmentacin puede
reducirse al estudio de las componentes conexas
El segundo problema consiste en la determinacin de aquellas
caractersticas de los objetos que van a permitir su reconocimiento. En este caso se
propone usar como caractersticas el nmero de agujeros presentes en la figura
(uno en la tuerca y en la arandela y ninguno en el tornillo) y la desviacin tpica de
las distancias del permetro al centro del objeto (siempre cerca de cero en la
arandela y con un valor mayor a cero en los tornillos y en las tuercas).

La Figura 88 presenta los valores de estas caractersticas para una muestra
aleatoria obtenida durante 10 minutos de operacin del sistema. En este grfico se
aprecia que las caractersticas seleccionadas permiten una representacin en la que
los diferentes patrones aparecen claramente separados.
Nmero de agujeros
Tornillos
Tuercas
Arandelas
0.1
0.2
0.3
0.4
0.5
Desviacin tpica del radio de la figura

Figura 88.- Uso de dos caractersticas discriminantes (pxeles de la figura y pxeles del
rectngulo que la inscribe) para distinguir entre diferentes tipos de elementos de ferretera.
5.1.1 La muestra de aprendizaje

Para poder realizar el clculo de las funciones discriminantes suele precisarse la
existencia de un conjunto de patrones similares a los que se desea reconocer, que
se denomina conjunto de aprendizaje o conjunto de entrenamiento. Los patrones
de este conjunto se utilizan a modo de modelos para crear la funcin discriminante
que clasificar correctamente los patrones del universo de trabajo. Por eso, el
conjunto de aprendizaje debe estar constituido por un subconjunto representativo
del universo de trabajo.
Cuando la muestra es abundante suele crearse otro conjunto con ella. Este
segundo conjunto se utiliza para probar los resultados de las funciones
discriminantes calculadas, y se conoce como conjunto de test. Es importante que el
conjunto de aprendizaje y el de test sean independientes. Como norma general, en

el caso de un universo de trabajo grande, la independencia queda asegurada si el
conjunto de aprendizaje y el de test no tienen elementos en comn. Esta
independencia permite cierta confianza emprica en que el clasificador
desarrollado posee la propiedad de generalizacin. Esta propiedad garantiza que
un sistema clasifica correctamente patrones que no ha visto durante el proceso de
clculo de funciones discriminantes.
Si una vez construidos los clasificadores se prueban, usando el conjunto de
test, y se obtienen unos resultados deficientes, debe descartarse el conjunto de test
y volver a comenzar de nuevo con un nuevo clasificador y nuevos conjuntos. Si
para mejorar los resultados de test se volviese a realizar otro clculo de las
funciones discriminantes se estara usando el conjunto de test de manera indirecta
en el proceso de ajuste del clasificador. Para evitar esto, cuando hay suficiente
muestra, suele crearse un tercer conjunto independiente de los otros dos, llamado
conjunto de validacin. Este conjunto se utiliza para probar el sistema mientras se
est construyendo, por lo que ste s se utiliza en el proceso de clculo de las
funciones discriminantes. El objetivo de este tercer conjunto es el de impedir que
el conjunto de test se use ms de una vez.
Normalmente se recomienda tomar alrededor del 60% de la muestra para
construir el conjunto de aprendizaje, un 30% para el conjunto de test y el 10%
restante para el conjunto de validacin.
Validacin cruzada
Cuando la muestra es escasa, puede no ser factible utilizar el 40% de la misma
para realizar las pruebas, ya que en tal caso, no se dispondra del suficiente nmero
de ejemplos para poder calcular las funciones discriminantes de manera correcta.
Como utilizar el mismo conjunto para el aprendizaje y para el test ya se ha dicho
que no es aconsejable, se suele usar un procedimiento que, si bien es mucho ms
lento, permite obtener una prueba estadsticamente significativa y adems permite
usar toda la muestra para calcular las funciones discriminantes.

El procedimiento, que se conoce como validacin cruzada26, consiste en el
clculo las funciones discriminantes del clasificador utilizando toda la muestra
menos un elemento al azar, utilizando ese elemento para probar el sistema. Luego
se repite el clculo descartando otro elemento diferente, y as sucesivamente.
Con este procedimiento se consigue realizar una prueba que cumple los
principios necesarios para probar la propiedad de generalizacin. Luego, una vez
demostrada esta propiedad, se construye el sistema utilizando toda la muestra. Este
mtodo presenta el problema de la lentitud, y de que no se prueba el sistema final,
sino que se prueban una serie de sistemas similares al final. Sin embargo, es una
solucin vlida cuando la muestra es necesariamente reducida.
5.1.2 Criterios para la seleccin de caractersticas

En general se busca el conjunto mnimo de caractersticas que permiten determinar
de manera unvoca a qu clase pertenecen todos los objetos del universo de
trabajo. Una eleccin mala de las caractersticas discriminantes puede hacer que el
sistema sea innecesariamente caro y lento, o que sea imposible construir un
clasificador para resolver un problema utilizando tales caractersticas.
Se pueden exigir cinco propiedades que deben poseer las caractersticas
que se seleccionen: economa, velocidad, fiabilidad, capacidad discriminante e
independencia con respecto a otras caractersticas.
Economa
El mecanismo preciso para el clculo o la obtencin de las caractersticas
discriminantes (sensores, etc..) debe tener un coste razonable.
Velocidad
El tiempo de clculo no debe superar el umbral que lo haga inviable.
26
cross-validation en ingls

Independencia
Las caractersticas no deben estar correladas entre ellas. Una caracterstica que
depende fuertemente del resto no aade informacin discriminante y por tanto
puede eliminarse sin que esto suponga ninguna prdida de capacidad
discriminante.
La covarianza cX,Y permite medir la independencia lineal entre dos
variables aleatorias X e Y. La estimacin de la covarianza entre dos variables X e Y
de las que hay P ocurrencias responde a la siguiente frmula:
P
c X ,Y = ( X p m X )(Y p mY )
p =0
siendo mX y mY los vectores medias correspondientes a los valores de las variables

X e Y.
La matriz de covarianzas de las caractersticas permite medir la
independencia lineal de cada par de ellas dentro de una clase. Para ello, si se
dispone de N caractersticas, se construye una matriz de NxN para cada clase, de
manera que cada elemento de la matriz se corresponde con la varianza de un par de
caractersticas para esa clase. Debe notarse que es necesario disponer de un
nmero significativo de muestras para construir cada una de las matrices, pues en
otro caso los resultados no tendran ninguna validez. As por ejemplo, para la clase
k se calcula la matriz Ck, usando las Pk muestras de aprendizaje para esa clase. En
ella cada coeficiente cij corresponde a la covarianza entre la caracterstica i y la j
para los patrones de la clase k:
c1,1
c2 ,1
Ck =
...
c
N ,1
c1, 2
c2,2
...
c N ,2
... c N , N
... c1, N
... c 2 , N
... ...
para la muestra de una clase k
Que se desarrolla como:
( X p1 mk1 )( X p1 mk1 )
( X p 2 mk 2 )( X p1 mk1 )
1
Ck =
...
Pk p =1
( X m )( X m )
kN
p1
k1
pN
... ( X p1 mk1 )( X pN mkN )
... ( X p 2 mk 2 )( X pN mkN )
...
...
... ( X pN mkN )( X pN mkN )
Pk
clase k con k = 1,2 ... K
(5.1)
siendo mk el vector media de las Pk muestras de la clase k
mk =
1
Pk
X que peretenece a la clase k
y siendo mkn la caracterstica n del vector mk.

El parmetro cij mide la dependencia lineal entre las caractersticas i y j.
En vez de usarse cij suele usarse un parmetro rij que es independiente de la escala
y que se conoce como coeficiente de correlacin. Este parmetro toma valores
entre 1 y 1. Se cumple que si las caractersticas i y j son linealmente
independientes, entonces el valor de rij debe estar prximo a cero27. Por otro lado,
valores cercanos a 1 a 1 para rij indican la existencia de fuertes relaciones
lineales entre las caractersticas i y j.
rij =
cij
cii c jj
i,j = 1,2 ... N
Cuando una caracterstica est linealmente correlada con alguna otra, y

esto ocurre para todas las clases, puede decidirse eliminarla, ya que ello indica que
tal caracterstica no aporta informacin relevante para el reconocimiento.
27
La independencia lineal entre dos caractersticas i y j no implica la independencia

estadstica, ya que pueden existir dependencias no lineales. Por el contrario, la dependencia
lineal s implica dependencia estadstica.

Fiabilidad
La fiabilidad implica que objetos de la misma clase deben tener vectores de
caractersticas con valores numricos similares. Esto se cumple si los vectores de
caractersticas de una clase tienen poca dispersin. La dispersin se puede medir
sobre la diagonal de la matriz de covarianzas. Cuanto mayores son los valores de la
diagonal, mayor es la dispersin.
Capacidad discriminante
La capacidad discriminante de una caracterstica determinada se puede describir
como una propiedad que asegura que patrones de clases distintas tienen valores
numricos claramente diferenciados.
La capacidad discriminante se puede medir usando el cociente de Fisher.
La siguiente frmula permite el clculo de este parmetro para una caracterstica
respecto a dos clases i y j.
Fij =
( mi m j ) 2
si2 + s 2j
, donde s k2 =
1
Pk
Pk
(X
p =1
mk ) 2
Segn esta formulacin una caracterstica es tanto ms discriminante

cuanto mayor es su ratio de Fisher. Se puede ver que este parmetro tiene en
cuenta la distancia entre las medias de las clases y de manera inversa las
desviaciones tpicas de las mismas. Por un lado se ve que, cuanto mayor distancia
exista entre los centros de masas de las clases mayor es el ratio. Por otro lado, el
numerador hace que cuanto menor sea la desviacin tambin mayor sea el ratio.
La expresin para el caso general de K clases y Pk muestras para cada
clase resulta en el siguiente vector F:
F=
1
K
(m
j =1
m)2
1 K Pk
( X ki mk ) 2
K P k =1 i =1
- 175 -

siendo
m=
1
N
m
j =1
P = Pk
k =1
5.1.3 Procedimiento de seleccin

A veces, por motivos de eficiencia, puede ser necesario seleccionar las mejores
caractersticas. Si las caractersticas son estadsticamente independientes se
pueden tomar las que posean mayor ratio de Fisher en un primer lugar, y luego, si
los criterios de economa y velocidad se cumplen, continuar aadiendo el resto de
caractersticas por orden.
Si no fuesen independientes, clsicamente, se proponen tres
procedimientos: fuerza bruta, eliminacin e incorporacin. Aunque en la literatura
se pueden encontrar multitud de aproximaciones al problema (anlisis factorial,
anlisis discriminante, etc.).
Fuerza bruta
Se construyen todos los conjuntos posibles de caractersticas y se selecciona al que
mejor cumpla los criterios de seleccin. Este procedimiento garantiza encontrar el
mejor conjunto de caractersticas. En algunos casos es inviable debido a la
multitud de combinaciones posibles.
Eliminacin
En principio se calcula el rendimiento de N-1 clasificadores resultantes de quitar
una caracterstica distinta cada vez al conjunto de N caractersticas. Se elige el
vector de caractersticas de aquel clasificador en el que la reduccin del
rendimiento sobre el inicial es menor.
Incorporacin
Se van aadiendo caractersticas siguiendo el criterio de aadir aqulla que
provoca un mayor incremento del rendimiento. ste es el modo ms rpido de
obtener un buen conjunto, aunque generalmente no se obtiene el ptimo.
5.2. Tipologa de los algoritmos de clasificacin de

patrones
Los clasificadores se pueden ordenar atendiendo a diferentes criterios (la forma de
construirse, el tipo de muestra, la informacin disponible, etc.). En los siguientes
puntos se presentarn los principales criterios.
5.2.1 Clasificadores a priori y a posteriori

Atendiendo a la forma en que se construye un clasificador se dice que es de tipo a
priori o a posteriori.
Los clasificadores a priori construyen el clasificador en un solo paso,
utilizando la muestra de aprendizaje para el clculo de las funciones
discriminantes y un clculo exacto.
Los clasificadores a posteriori o con aprendizaje se construyen siguiendo
un procedimiento iterativo, o entrenamiento, en el cual el clasificador aprende a
reconocer de una manera progresiva los patrones de la muestra de aprendizaje.
Para ello suelen utilizar tcnicas aproximadas (como el descenso de gradiente o el
mtodo de aproximacin de Newton), lo que implica que el tiempo de aprendizaje
puede no ser despreciable.
Adems debe decirse que los clasificadores a posteriori normalmente
precisan de un experto que decida el momento de detener el proceso de
aprendizaje, ya que un entrenamiento excesivo puede perjudicar la propiedad de
generalizacin que se persigue. Adems, Clasificadores deterministas y no
deterministas.
Todo esto hace que la construccin de los clasificadores a posterior sea
ms compleja que en el caso a priorstico. Sin embargo, los clasificadores a
posteriori son la nica opcin en problemas en los no puede obtenerse una
solucin exacta debido a la complejidad de los clculos que deberan realizarse
para obtener una solucin exacta.
Atendiendo a la forma en que se distribuyen los patrones de la muestra se
puede hablar de que se cumple o no la hiptesis determinista: cada clase se puede

representar por un nico vector que se llama prototipo representante de la clase.
Segn esta hiptesis se puede hablar de dos tipos de clasificadores: clasificadores
deterministas y clasificadores no deterministas.
Dependiendo de las caractersticas seleccionadas puede ser necesario el
uso de uno u otro tipo. Cuando las caractersticas elegidas hacen que los patrones
de clases diferentes se siten en regiones disjuntas, los clasificadores deterministas
darn buenos resultados. Si las regiones no son disjuntas ofrecern mejores
resultados los clasificadores no deterministas.
5.2.2 Clasificadores supervisados y no supervisados

Atendiendo a la informacin que se proporciona en el proceso de construccin del
clasificador se puede hablar de dos tipos de clasificadores: con maestro o
supervisados, sin maestros o no supervisados.
En los supervisados, la muestra la divide el maestro en las diferentes
clases ya conocidas en las que se desea clasificar. A grandes rasgos las etapas en la
construccin de un clasificador con maestro son: determinacin de las clases,
eleccin y test de las caractersticas discriminantes, seleccin de la muestra,
clculo de funciones discriminantes y test del clasificador.
En los no supervisados este proceso se realiza de manera automtica, sin la
necesidad de ningn supervisor externo. Para ello se emplean tcnicas de
agrupamiento, gracias a las cuales el sistema selecciona y aprende los patrones que
poseen caractersticas similares, determinndose automticamente las clases.
En el siguiente punto se tratan tres clasificadores bsicos que cubren
diferentes tipos de clasificadores supervisados. En el se hablar del clasificador a
priori por distancia eucldea, del clasificador a priori de Bayes y del clasificador
eucldeo con aprendizaje. Seguidamente, en el apartado 5.4, se plantean diferentes
tcnicas no supervisadas de agrupamiento de clases.
5.3. Clasificadores basados en la distancia

Existen multitud de clasificadores diferentes. Algunos, como los que se van a
estudiar en este captulo, se basan en el concepto de distancia entre los vectores de

caractersticas. Sin embargo, hay que decir que existen muchos otros enfoques.
As, por ejemplo, estn aqullos que se basan en medidas de probabilidad de
pertenencia a una u otra clase (como los clasificadores basados en Modelos
Ocultos de Markov), o los que usan lgica borrosa para la clasificacin en base a
reglas, o a los que utilizan redes de neuronas artificiales (ver el apndice A).
A continuacin, se exponen diferentes clasificadores basados en distancias,
que permiten por su simplicidad y variedad una aproximacin didctica y adecuada
al problema de la clasificacin.
5.3.1 Clasificador de distancia eucldea determinista a priori

Es ste un clasificador determinstico, supervisado y a priori. Se basa en el clculo
de un prototipo o centroide para cada una de las K clases en las que se divide el
universo de trabajo. Este prototipo puede verse como un representante ejemplar
de cmo debera de ser un vector de caractersticas de esa clase. As, ante un
patrn desconocido se calcula la distancia eucldea del patrn que se desea
clasificar a cada uno de los K prototipos. Un patrn desconocido X se clasificar
como correspondiente a la clase cuyo prototipo est a menor distancia segn la
distancia eucldea:
dE (X , Zk ) =
X T X 2 X T Z k + Z kT Z k
(5.1)
As, el clasificador eucldeo divide el espacio de caractersticas en

regiones mediante hiperplanos equidistantes de los centroides. La figura adjunta
presenta el caso de 3 clases y 2 caractersticas. Cada lnea punteada separa los
puntos del espacio ms cercano a cada uno de los centroides (representados por
puntos negros).
Figura 89.- Ejemplo de separacin lineal entre clases.
As, para el caso de K clases: 1, 2, ... K, se necesitan K prototipos: Z1,

Z2 ... ZK. Al clasificar un patrn se sigue el esquema de la Figura 90. Segn este
esquema, para clasificar el patrn X se calcula la distancia del vector de
caractersticas X a los vectores de caractersticas de cada uno de los K prototipos
(Z1, Z1 ... ZK), clasificando X como perteneciente a la clase cuyo prototipo est ms
prximo.
dE(x,z1)
X?
dE(x,z2)
fd1(x)
fd2(x)
Xi
Mnimo
.
.
.
dE(x,zN)
fdN(x)
Figura 90.- Esquema del clasificador eucldeo.

La funcin discriminante (5.1) puede simplificarse eliminando la raz
cuadrada, ya que es una transformacin que mantiene la relacin de distancia.
Tambin se puede eliminar el trmino XTX pues es igual para todas las clases.
Finalmente suele cambiarse el signo y dividirse por 2 obteniendo la expresin
(5.2). Debido al cambio de signo ser ahora la funcin discriminante con valor
mximo la que marcar la clase a la que pertenece el patrn X.
fd k ( X ) = X T Z k
1 T
Zk Zk
2
k = 1K
(5.2)
El proceso de clculo de los prototipos es un proceso heurstico. El mtodo

que suele usarse para construir el prototipo de una clase consiste en el clculo de la
media ponderada de un conjunto de P elementos de esa clase. Esto hace que para
el clculo de prototipos se necesite un conjunto de muestra que incluya varios
individuos para cada una de las N clases. El tamao de este conjunto debe ser tal
que sea representativo de la clase de elementos a la que corresponda.
Zk =
1
Pk
Pk
X
p =1
X p patrn de la clase k
Ejemplo 17.Supngase que se tienen que distinguir patrones de dos clases, 1 y 2, y que se
dispone de la siguiente muestra:
1 2 0 1

5 3 1 3
1 = , , ,
6 4 5 5
1 2 3 2
6 7 8

8 9 7
2 = , ,
1 3 1
6 6 9
El primer paso consiste en calcular los centroides de las dos clases.
1

3
z1 =
5

1

7

8
z2 =
1

7

Luego se calculan las funciones discriminantes asociadas a cada clase:
1
1

r T 3 1 3
fd 1 = X
5 2 5

1
1

1

3
5

1

7
7

r T 8 1 8
fd 2 = X
1 2 1

7
7

7

8
1

7

As, el vector X=(3,1,3,1) , pertenece a la clase 1 pues:
3

1
fd 1 =
3

1

3

1
fd 2 =
3

1

1
1

3 1 3
5 2 5

1
1

7
7

8 1 8
1 2 1

7
7

1

1
3
5 = 3 + 3 + 15 + 1 2 (1 + 9 + 25 + 1) = 4

1

7

1
8
1 = 21 + 8 + 3 + 7 2 (49 + 64 + 1 + 49) = 42.5

7

De manera que fd1(X) > fd2(X) X1
5.3.2 Clasificador estadstico a priori

En las situaciones en que los vectores de alguna clase presenten una dispersin
significativa respecto a la media, o en aqullas en las que no existe posible
separacin lineal entre las clases, puede ofrecer mejores resultados la sustitucin

de la distancia eucldea por la distancia de Mahalanobis. Esta medida, que tiene en
cuenta la desviacin tpica de los vectores de caractersticas de los patrones de la
muestra, puede proporcionar regiones de separacin entre clases que sigan curvas
cnicas. Por ello, este clasificador ofrece ms garantas al tratar de separar
patrones para los que no se encuentra una separacin lineal. Adems se ver que el
clasificador estadstico proporciona probabilidades de pertenencia a las clases, por
lo que se debe incluir en el grupo de los clasificadores no deterministas.
La distancia de Mahalanobis de un punto X a una clase k viene dada por
la expresin (5.3), donde mk corresponde a la media y Ck a la matriz de covarianzas
de la clase k. En el siguiente punto se explicar cmo aparece esta distancia de
manera natural al enfocar el problema de la clasificacin desde un punto de vista
probabilista.
d M ( X , k ) = ( X mk ) T C k1 ( X mk )
(5.3)
2
Figura 91.- En un clasificador estadstico la regin de separacin no es determinista.
Adems crea separaciones no lineales de dos clases (curvas cnicas como las parbolas,
elipses, hiprbolas y, por su puesto, rectas).
2
1
m1
fd
m2
Figura 92.- La funcin discriminante depende de la desviacin tpica de las clases.
Clasificacin probabilista
Cuando existe diferente dispersin de los valores de una caracterstica en dos o
ms clases, una medida de la distancia que tenga en cuenta la desviacin tpica de
la clase ofrecer mejores resultados que otra que slo tenga en cuenta la distancia
eucldea entre los centroides de las clases. La Figura 92 ejemplifica la disposicin
de los patrones de dos clases respecto de una caracterstica particular. En la figura
se aprecia que la funcin discriminante no equidista de los centroides del 1 y de
2 sino que est ms cerca del centroide de 2 porque su desviacin tpica es
menor.
El teorema de Bayes puede ayudar a decidir la funcin discriminate, ya
que ste enuncia que:
P ( i / X ) =
P ( X / i ) P ( i )
P( X )
donde,
P(i) es la probabilidad de que un patrn al azar sea de la clase i.
P(X) es la probabilidad de que se presente exactamente un patrn

con el vector de caractersticas X. Cumplindose que:
K
P ( X ) = P ( X / k ) P ( k )
k =1
P(X/i) es la probabilidad de que sabiendo que el patrn a

clasificar pertenece a la clase i sea precisamente aquel que tiene
el vector de caractersticas X. En otras palabras es la funcin de
densidad de la clase i y se denomina probabilidad a priori.
P(i/X) se conoce como probabilidad a posteriori.y corresponde a

la probabilidad de que un X conocido pertenezca a la clase i.
Es claro que utilizando la probabilidad a posteriori se puede construir un

clasificador no determinista que asigne a un patrn determinado la probabilidad de
pertenencia a cada clase.
Adems, aunque el clasificador estadstico sea no determinista, cuando se
precise una respuesta concreta puede transformarse en determinista aadiendo la
siguiente regla:
Xi P(i /X) > P(j /X) ij, j = 1,2 ... N
Como P(X) es un trmino constante para todos los clculos de P(i /X), el
clculo puede simplificarse eliminando ese factor. Con esto la funcin
discriminante para la clase i es:
fdi(X) = P(X/i)P(i)
i = 1,2 ... N
Y se dice que:
Xi fdi(X) > fdj(X) ij, j = 1,2 ... N

Diseo de un clasificador estadstico a priori
El diseo de un clasificador exige conocer la distribucin de probabilidad P(X/i).
Para el caso ms simple la distribucin de probabilidad P(X/i) sigue una
distribucin normal o gausiana unidimensional. Es por esto que suele hacerse la
hiptesis de normalidad. Caso de no cumplirse debe proponerse una distribucin
de probabilidad adecuada. El siguiente desarrollo supone la hiptesis de
normalidad.
La siguiente frmula presenta la funcin de probabilidad para un vector
una sola caracterstica con una distribucin de probabilidad normal.
P( X / i ) =
2 i
1 ( X mi ) 2
2 i2
i = 1,2 ... N
(5.4)
siendo mi la media y i la desviacin tpica de la distribucin para la clase i.

Si la probabilidad de obtener objetos de diferentes clases es la misma los
clculos se simplifican. Ya que si P(i) = P(k) para cualquier clase i y k es
termino no influye en el clculo. As, para el caso de dos clases se obtiene:
X1 P(1 /X) > P(2 /X) P(X/1) > P(X/2)
Esta expresin puede simplificarse sustituyendo (5.4) y tomando
logaritmos neperianos:
( X m1 ) 2
<
2
1
( X m2 ) 2
2
2
+ 2 ln(
2
)
1
Para el caso n-dimensional la funcin de probabilidad normal es:
P( X / k ) =
(2 )
n
2
Ck
1
2
r r
1 r r
( X mk )T Ck1 ( X mk )
2
k = 1,2 ... N
siendo Ck la matriz de covarianzas (5.1).


Teniendo en cuenta los resultados precedentes, la funcin general
discriminante para una clase, cuando las probabilidades de ocurrencia de las
diferentes clases son iguales, y tras hacer logaritmos para eliminar el termino
exponencial, resulta:
fd i ( X ) =
1 r T 1 r r T 1 r 1 r T 1 r 1
X C i X + X C i mi mi C i mi ln C i
2
2
2
i = 1,2 ... N
Puede comprobarse que en el caso de que las matrices de covarianza

fuesen iguales la funcin discriminante se simplifica a:
r
r 1 r
r
fd i ( X ) = X T C i1mi miT C i1 mi i = 1,2 ... N
2
Si adems la matriz de covarianza es diagonal, con covarianzas a cero, y
con todas las desviaciones tpicas iguales se obtiene una formula idntica a la del
clasificador eucldeo:
r r 1 r
fd i ( X ) = X T mi miT mi i = 1,2 ... N
2
Hay que sealar que en la prctica los valores que se obtienen para las
desviaciones nunca son exactamente iguales, ni las covarianzas son exactamente
cero, pero estas reglas se aplican igualmente si se aproximan suficientemente a
tales valores.
Ejemplo 18.Se dispone de la siguiente muestra, correspondiente a objetos de dos clases 1 y 2
equiprobables. Se desea construir un clasificador de Bayes que clasifique
correctamente los patrones de la muestra sabiendo que los patrones tienen
caractersticas que siguen distribuciones normales.
1 2 3 2 3
8 9 9 8 7
1 : , , , , 2 : , , , ,
2 2 1 3 2
10 8 9 9 9

Sobre la muestra anterior se calculan las medias y las matrices de covarianza
que resultan ser:
8.2
0.56 0.2
0.56 0.2
r 2.2 r
C 2 =
m1 = m2 = C1 =
2
9
0.2 0.4
0.2 0.4
Como se observa que C1 = C2 y adems se ha dicho en el enunciado que
los patrones de ambas clases son equiprobables y sus distribuciones normales se
puede usar la funcin discriminante:
1
fd i ( X ) = X T C 1mi miT C 1 mi
2
obteniendo:
C 1
50
= 23
25
23
25
23
70
23
y por tanto:
fd 1 ( X ) =
160
195
378
X1 +
X2
23
23
23
fd 2 ( X ) =
435
835
6361
X1 +
X2
23
23
23
5.3.3 Clasificador de distancia con aprendizaje supervisado

El problema de la clasificacin de un vector X en una de K clases puede plantearse
como un problema de optimizacin. Ms formalmente, para un conjunto de K
clases {1,2,...K} la solucin al problema de clasificar un vector X desconocido
consiste en asociarlo a aquella clase cuya funcin discriminante fdi(X) d un
resultado mximo, es decir:

xk fdk(x) > fdj(x)
j = 1, 2, , K / j k
En el siguiente desarrollo se utilizan como funciones discriminantes las

funciones lineales, aunque sera posible utilizar otro tipo de formulacin no lineal
como se hace en el apndice de redes neuronales.
Para el caso lineal las funciones discriminantes tiene la forma:
fdk(X) = WkT X
k = 1, 2, , K
donde X es el vector de caractersticas al que se le ha aadido un valor de

1 para contemplar en la notacin matricial el termino independiente de las
ecuaciones lineales (coordenadas homogneas). Por tanto, el objetivo es encontrar
los valores Wk que hagan de fdk una funcin discriminante. En el argot del
reconocimiento de patrones este proceso de bsqueda se denomina aprendizaje o
entrenamiento.
La diferencia con los reconocedores apriorsticos (sin aprendizaje)
consiste en que en aqullos se calculaba a priori las funciones discriminantes,
mientras que en stos, las funciones discriminantes se calculan mediante un
procedimiento iterativo.
Maestro
X?
X
Error
Reconocedor
Minimiza el
error
Figura 93.- Esquema de reconocimiento con aprendizaje. El maestro permite calcular el
error y as decidir cmo modificar los parmetros del clasificador para minimizarlo.

Algoritmo de aprendizaje
Los algoritmos de aprendizaje se caracterizan por partir de un conjunto de
funciones discriminantes con unos valores en sus parmetros que ofrecen un
rendimiento bajo o nulo. En ocasiones estos parmetros se inician al azar. Luego,
mediante algn algoritmo aproximado como el descenso del gradiente o el mtodo
de Newton, estos parmetros se varan buscando optimizar las funciones
discriminantes respecto al nmero de patrones clasificados acertadamente. El
proceso suele terminar cuando la mayor parte de los patrones de entrenamiento se
clasifican correctamente.
En un instante cualquiera se tienen unas funciones discriminantes que
cometen un cierto error al clasificar los patrones de aprendizaje. El algoritmo de
aprendizaje se encarga de cambiar los valores de los parmetros de las funciones
discriminantes para que se reduzca el error que se comete al reconocer. Este
proceso se repite iterativamente. As, partiendo de unas funciones discriminantes
aleatorias se va disminuyendo el error que se comete al clasificar los patrones de
manera progresiva.
El error cometido depende de lo que se quiere obtener (el patrn
clasificado de acuerdo a lo que fija el maestro) y lo que se obtiene con las
funciones discriminantes en su estado actual.
Error = diferencia entre lo que se desea obtener y lo que se obtiene
El error se puede visualizar como una hipersuperficie que es funcin de los
valores de W, que son los parmetros del clasificador. Por tanto, el error slo
depende de los valores de los vectores Wi pues son los que determinan las
funciones discriminantes. En la Figura 94 se presenta un ejemplo en el que slo
hay una caracterstica y por tanto, como el vector Wi normalizado tiene dimensin
2, es posible representar el error mediante una superficie.
Error
Error
W
W1,2
W1,1
Figura 94.- El error debe verse como una hipersuperficie que es funcin de los parmetros
W del clasificador, en la que la derivada marca la direccin en la que disminuye el error. En
este caso, como W slo tiene dimensin 2, el error puede representarse como una superficie.
La derivada de la funcin Error respecto de W marca la direccin de

mxima pendiente dentro de esa superficie. Por ello, la direccin en la que se
reduce el error viene determinada por la direccin de la derivada. As, si se deriva
la funcin del error respecto de W se obtiene la direccin en la que hay que variar
W para que disminuya el error. El proceso de cambio de los W para reducir el
error, se conoce como aprendizaje, y consiste en variar los valores de W en la
direccin de la derivada sobre la superficie del error. Es decir:
W (t + 1) = W (t )
Error
W
(5.5)
El factor determina la proporcin en que cambian los valores de W y con

ello la velocidad del proceso de aprendizaje. Su valor se debe determinar de

manera emprica (normalmente por ensayo y error) para cada problema, ya que
depende de la superficie del error que se est considerando, y por tanto del
conjunto de muestra utilizado. La eleccin de un valor pequeo para puede hacer
que el aprendizaje sea lento o que el proceso se estanque en un mnimo local.
Mientras que un valor grande puede hacer que se salten soluciones (al no entrar
dentro de los hoyos de la hipersuperficie) y el proceso no converja.
Desgraciadamente los conceptos de grande y pequeo dependen de cada
problema particular, pues al cambiar los patrones de entrenamiento cambia la
superficie de error.
Para el clasificador eucldeo se toma la siguiente funcin para el error:
Error =
1
( fdm Wi T X ) 2
4
siendo:
+ 1 si
fdm =
1 si
X i
X i
Si se define:
e = ( fdm WiT X )
se obtiene que:
Error =
Error 1
1
= 2( fdm Wi T X )( X ) Error = eX
W
4
2
y por tanto:
W (t + 1) = W (t ) +
1
eX
2
Esta expresin muestra como deben cambiarse los pesos de todas las
funciones discriminantes en cada iteracin para que el error disminuya

progresivamente. El algoritmo se repite hasta que el error cae por debajo de un
mnimo admisible, o hasta que los vectores W convergen.
El algoritmo de aprendizaje queda detallado en el siguiente pseudocdigo.
- Algoritmo de aprendizaje para el clasificador eucldeo Paso1.- Se dispone un conjunto de P muestras de aprendizaje o conjunto de entrenamiento.
CE = {X0, X1, ... XP-1}
Se inician al azar los valores de Wi(1). Se inicia t = 1 y p = 0. Se fija un nivel de error
mximo aceptable E.
Paso 2.- Se presenta la muestra de entrenamiento Xp (que el maestro sabe que pertenece a
k) y se calculan las K funciones discriminantes.
fd1(Xp), fd2(Xp), fdK(Xp)
Paso 3.- Para cada fd calcular el error que se comete. Si el error es menor al E fijado
PARAR, en otro caso actualizar W segn:
W(t+1) = W(t) + 05 . error . X
Ir al paso 2.
Una ventaja del algoritmo expuesto frente al ajuste realizado por el

clasificador eucldeo a priori consisten en que la lnea que separa las clases no
tiene porqu disponerse equidistante de los centroides sino que puede adoptar una
disposicin que se ajuste mejor a la distribucin de los patrones.
Ejemplo 19.Determinar los vectores W1 y W2 de las funciones discriminantes fd1 y fd2 para el
problema de clasificacin de dos clases para las que se dispone de la siguiente
muestra de aprendizaje:
1
1
1
1
x1 = 1 , x 2 = 2 , x3 = 1 , x 4 = 2
1
1
1
1
Primeramente se aade un valor constante a 1 a cada vector para permitir
la operacin matricial.
1
1
1
1

x1 = 1 1 , x 2 = 1 2 , x3 = 1 1 , x 4 = 1 2
1
1
1
1

Utilizando el algoritmo de aprendizaje descrito, con =0.5 y partiendo en
t=1 de:
0

W1 (1) = W2 (1) = 0
0

En t = 1 se obtiene:
X(1) = x1 1
T
fd1(X(1)) = W1 (1 ) X(1) = 0
T
fd2(X(1)) = W2(1) X(1) = 0
error1(1) = 1
error2(1) = -1
W1(2) = W1(1) + 05 error1(1) X(1) = (-1/4, -1/4, 1/4)
W2(2) = W2(1) + 05 error2(1) X(1) = (1/4, 1/4, -1/4)
Si se contina el cculo se obtiene:
En t = 2:
X(2) = x2 2
fd1(X(2)) = 1/4
fd2(X(2)) = -1/4
error1(2) = -5/4
error2(2) = 5/4
W1(2) = (1/16, -9/16, -1/16)
W2(2) = (-1/16, 9/16, 1/16)
En t = 3:

X(3) = x3 1
fd1(X(3)) = 9/16
fd2(X(3)) = -9/16
error1(3) = 7/16
error2(3) = -7/16
W1(4) = (11/64, -43/64, 3/64)
W2(4) = (-11/64, 43/64, -3/64)
X(6) = x2 2
fd1(X(6)) = -08544922
fd2(X(6)) = 08544922
error1(6) = -01455
error2(6) = 01455
W1(7) = (-000756, -09240, -00471)
W2(7) = (000756, 09240, 00471)
En t = 4:
X(4) = x4 2
fd1(X(4)) = -29/64
fd2(X(4)) = 29/64
error1(4) = -35/64
error2(4) = 35/64
W1(5) = (00351, -0,808, -0,0898)
W2(5) = (-00351, 0808, 00898)
En t = 7:
X(7) = x3 1
fd1(X(7)) = 08693848
fd2(X(7)) = -08693848
error1(7) = 01306152
error2(7) = -01306152
W1(8) = (002508, -09567, -001446)
W2(8) = (-002508, 09567, 001446)
En t = 5:
X(5) = x1 1
fd1(X(5)) = 06835
fd2(X(5)) = -06835
error1(5) = 03164
error2(5) = 03164
W1(6) = (-00439, -08876, -00107)
W2(6) = (00439, 08876, 00107)
En t = 8:
X(8) = x4 2
fd1(X(8)) = -0946106
fd2(X(8)) = 0946106
error1(8) = -005389
error2(8) = 005389
W1(9) = (001611, -09701, -002793)
W2(9) = (-001611, 09701, 002793)
En t = 6:
Se aprecia que los valores del error cada vez son menores. Adems, se
puede comprobar que este proceso de convergencia contina en sucesivas
iteraciones. Si en este momento (t = 8) se detiene el proceso y se asume que el
error que se comete no influye en el proceso de clasificacin, las funciones
discriminantes son:
x1

fd 1 ( X ) = (0'01611 0'9701 0'02793) x 2 = 0'01611x1 0'97 x 2 0'02793
1

x1

fd 2 ( X ) = ( 0'01611 0'9701 0'02793) x 2 = 0'01611x1 + 0'97 x 2 + 0'02793
1

En este ejemplo se ha usado un reducido nmero de patrones para entrenar
durante unas pocas iteraciones. Normalmente se dispone de muchos patrones de
muestra por cada clase durante la fase de entrenamiento, la cual a su vez suele
constar de varios cientos de ciclos. Obviamente estas simplificaciones se deben a
motivos didcticos, ya que un conjunto mayor de entrenamiento o un nmero
mayor de iteraciones no pueden presentarse en unas pocas lneas.
5.3.4 Clasificador de k-vecinos ms cercanos

En aquellos casos en los que la regin de clasificacin no es lineal ni sigue una
curva cnica puede usarse el clasificador de los k-vecinos ms cercanos.
Intuitivamente este clasificador supervisado apriorstico es uno eucldeo con
mltiples centroides por cada clase. Un patrn se clasifica como perteneciente a la
clase a la que pertenezca la mayora de los k centroides ms prximos.
La principal ventaja de este clasificador reside en su potencia. Su principal
desventaja estriba en la dificultad para la eleccin de k, para la determinacin del
nmero de centroides por clase y su disposicin, tareas que en general son
eminentemente empricas. Adems, el tiempo de clculo puede ser
significativamente mayor si el nmero de centroides llega a ser muy elevado.
5.4. Algoritmos de agrupacin de clases

Hasta ahora se ha tratado algunos mtodos de clasificacin supervisados. En
ocasiones no existe la figura del maestro que determina los patrones que
pertenecen a una clase o a otra. En estos casos los algoritmos de agrupamiento o
clustering permiten realizar esta tarea de manera automtica. Estos algoritmos
tambin se conocen como algoritmos de clasificacin autoorganizados.

Los algoritmos de agrupacin de clases se suelen utilizar cuando no existe
conocimiento a priori de las clases en que se pueden distribuir los objetos, cuando
las clases no son interpretables por un humano, o cuando el nmero de clases es
muy elevado para un procesado no automtico. En los siguientes puntos se
exponen el algoritmo de distancias encadenadas, el algoritmo MaxMin y el
algoritmo de las k-medias. No debe terminar este punto introductorio sin que se
cite otros algoritmos clsicos en la problemtica de la agrupacin de clases como
los dendrogramas o los algoritmos de clustering jerrquico, aunque no los
abordaremos por su ineficacia en problemas en los que la muestra tiene un tamao
grande.
5.4.1 Algoritmo de distancias encadenadas

El algoritmo de las distancias encadenadas construye una cadena partiendo de un
patrn al azar y encadenando cada vez el patrn que est ms cerca del extremo de
dicha cadena. El algoritmo crea automticamente nuevas clases cuando la distancia
entre dos patrones consecutivos supera cierto umbral. Para fijar la sensibilidad en
la determinacin de las clases, este algoritmo necesita del ajuste previo de dicho
umbral.
El algoritmo toma de entre los patrones de la muestra de aprendizaje X1,
X2,...XP uno al azar Xi y lo denomina Xi(0). Seguidamente ordena los patrones
segn la sucesin:
Xi(0), Xi(1), Xi(2)...Xi(P-1)
donde a cada patrn le sigue el patrn que est ms prximo segn la distancia
eucldea. Es decir, Xi(1) ser el ms prximo a Xi(0), Xi(2) ser el ms prximo a
Xi(1), y as sucesivamente.
Finalmente se elige un valor umbral, que est relacionado con la distancia
mxima que puede haber entre patrones de una clase. El primer elemento
pertenece a la clase 0. Si la distancia entre dos patrones consecutivos de la
sucesin es superior al umbral, en ese punto de la sucesin, comienza una nueva
clase, en otro caso, el patrn analizado pertenece a la misma clase que el patrn
anterior.

- Algoritmo Chain Map Paso 1.- Se saca un patrn X al azar del conjunto de muestras de aprendizaje M y se le
llama V. Se mete V en C[0]. Se inicia a = 0.
Paso 2.- Se calcula la distancia de V al resto de patrones de M y se toma el patrn X con
menor distancia a V.
Paso 3.- Si la distancia de X a V es mayor al umbral se hace a = a + 1.
Paso 4.- Se mete en la clase C[a], se hace V = X y se elimina X de M.
Paso 5.- Si M est vaco se finaliza, en otro caso ir al paso 2.
Este algoritmo tiene la ventaja de precisar poca informacin sobre las

clases, y de que se realiza en un solo paso, por lo que puede ser muy rpido. Sus
principales inconvenientes se encuentran en la dificultad de fijar el valor del
umbral, y en que la solucin que se obtiene puede depender del patrn que se tome
al iniciar el algoritmo.
5.4.2 Algoritmo MaxMin

El algoritmo MaxMin elige paulatinamente representantes de entre los patrones de
muestra, determinando la distancia a la que se encuentran el resto de patrones de
los mismos. Si para algn patrn esta distancia supera cierto umbral se crea una
nueva clase con ese patrn como representante. El proceso se repite hasta que no
se producen cambios.
Es un algoritmo tiene la ventaja de que slo precisa la determinacin de un
umbral para la autoorganizacin de las clases. Adems este valor puede
interpretarse como el radio de las clases entorno al representante de cada una.
Tambin se pueden sealar dos desventajas principales. Por un lado su
resultado es dependiente respecto a la eleccin del patrn inicial. Por otro lado, la
dificultad de fijar a priori el valor del umbral.

- Algoritmo Max Min Paso 1.- Se fija un valor umbral h. Se toma al azar un patrn de los P disponibles y se toma
como representante de la clase 1.
Paso 2.- Se calculan las distancias eucldeas del representante de 1 a los P-1 patrones no
agrupados y se toma la mxima distancia, formando una nueva clase con aqul patrn que la
maximiza como representante.
Paso 3.- Se distribuyen los restantes patrones en la clase ms prxima de las existentes,
anotando el patrn V que est a mayor distancia de su respectivo representante.
Paso 4.- Si la distancia de V a su representante es superior al valor umbral h se crea una
clase con ese patrn como representante y se vuelve al paso 3. En otro caso se termina.
5.4.3 Algoritmo de las k-medias

El algoritmo k-medias permite determinar la posicin de k centroides que
distribuyan de manera equitativa un conjunto de patrones. Debe notarse que, a
diferencia de los algoritmos anteriores, este algoritmo tiene la particularidad de
necesitar conocer a priori el nmero k de clases existentes.
La Figura 95 muestra un ejemplo de aplicacin del algoritmo de k-medias
sobre un conjunto de patrones formados por dos caractersticas (por lo que se
pueden presentar en un plano). El problema es tal que inicialmente no se conoce
qu patrones pertenecen a cada una de las clases, pero se sabe que la muestra est
dividida en dos clases, por lo que se aplica el algoritmo de k-medias con k=2. En el
instante t=1 se toman como centroides dos patrones al azar. En la figura se muestra
en gris la zona en la que estn los patrones que estn ms cerca de ese centroide.
Sern los patrones de cada una de las zonas los que se usen para calcular el nuevo
centroide en la siguiente iteracin. En los instantes sucesivos se aprecia como los
centroides van viajando hasta su ubicacin definitiva. En la tercera iteracin los
centroides alcanzan una posicin estable que no cambiar en sucesivas iteraciones,
por lo que el algoritmo finaliza.
t=0
t=1
t=2
t = 3,4...
Figura 95.- Ilustracin de la posicin de los centroides (puntos negros) al aplicar el

algoritmo de k-medias (con k=2), durante varias iteraciones para una muestra compuesta de
vectores bidimensionales (cruces grises).
- Algoritmo k Medias Paso 1.- Se hace t = 1. Se toman al azar k vectores de los P existentes y se convierten en
centroides de cada una de las k clases respectivamente.
Z1(1) de 1
...
Zk(1) de k
Paso 2.- Se distribuyen las P muestras entre las k clases. Se asigna cada vector x a la clase
cuyo centroide est ms prximo.
x j x-zj(t)< x-zi(t) i = 1,2,...k / ij
Paso 3.- Se calculan los centroides de las clases como la media ponderada de los vectores
de cada clase.
Paso 4.- Si alguno de los k centroides Zk(t) es distinto de los nuevos centroides Zk(t+1)
hacer t = t+1 e ir al paso 2, en otro caso finalizar el algoritmo.

Este algoritmo goza de una amplia difusin debido a que es simple, a que
suele ofrecer unos resultados fiables, y a que no depende de ningn umbral
heurstico. Tiene la desventaja de que es preciso conocer de antemano el nmero
de clases en que se divide la muestra. Aunque esto, en las ocasiones en que se
dispone de tal dato, es ms una ventaja que un inconveniente. Tambin debe
observarse que la solucin obtenida puede ser dependiente de la eleccin que se
haga de los patrones iniciales, por lo que debe ponerse cuidado en este punto. Esta
variacin del resultado dependiendo de los patrones iniciales ocurre sobre todo
cuando la distincin entre clases no est muy clara, o cuando no se estima
adecuadamente el nmero de clases.

El resultado de la etapa de clasificacin suele corresponder al ltimo objetivo de
un sistema de visin artificial. Por ejemplo, es aqu donde un sistema
reconocimiento de caracteres clasifica una imagen como una letra determinada, o
un sistema de reconocimiento biomtrico identifica la imagen de un individuo
como tal o cual persona. Es por tanto importante no apresurarse en esta ltima
etapa.
Se ha visto que al clasificar un patrn se puede obtener un valor sobre la
confianza de tal clasificacin. Este valor puede corresponder incluso a una
probabilidad para algunos tipos de clasificadores. Es el momento de hacer notar
que, en la mayora de las ocasiones, si la confianza en el resultado no es alta puede
volverse a etapas anteriores (filtrado o segmentacin) para, aplicando otros
enfoques, obtener un resultado de mayor confianza.

La experiencia de los autores en los sistemas de visin artificial
desarrollados demuestra que el usuario final suele ser poco comprensivo con los
errores de la mquina en la clasificacin, sobre todo en aquellos casos en los que el
error es poco justificable desde el punto de vista humano. Por ello casi siempre es
mejor aplicar diferentes enfoques de preprocesamiento, segmentacin y
clasificacin y obtener tantos resultados independientes como se pueda. Estos
resultados pueden combinarse a su vez mediante otros clasificadores o mediante
tcnicas de votacin28. En el peor de los casos se puede decidir que el sistema, ante
un patrn dudoso, no ofrezca resultado, a fin de que ofrezca fiabilidad a los
usuarios finales.

[GW93] caps. 9,
[JKS95] cap. 15,
[Mar93] caps. 2, 4 y 6,
[Loo97] cap. 5
28
Entre estas tcnicas se pueden citar el algoritmo del elemento ms votado, el algoritmo
de la votacin promediada y el algoritmo BKS. El primero devuelve el resultado del
clasificador que ms se repita. El segundo devuelve el resultado del clasificador que
promediado con los dems con cierto coeficiente obtenga un resultado ms alto. El ltimo
utiliza los resultados de N clasificadores sobre una muestra de ensayo para construir una
matriz de dimensin N que ofrece resultados para cada combinacin de resultados de los N
clasificadores.
Captulo 6
Introduccin a la
Visin Tridimensional
Cuando un bho acecha una presa realiza rpidos y precisos movimientos con la
cabeza. Estos movimientos le permiten obtener distintas perspectivas de la escena
que observa. El cerebro del bho usa estas diferentes perspectivas para calcular
con precisin la distancia y la direccin en la que se nueve su prximo bocado.
El obtener la estructura tridimensional de una escena ha sido, y sigue
siendo, uno de los retos de la visin artificial. Quizs debido a que es la forma en
que los humanos ven, el problema central que clsicamente se considera en visin
tridimensional es el de la reconstruccin de una escena 3D a partir de una o varias
proyecciones del mundo real sobre superficies fotosensibles. Este captulo se
dedica a la formulacin ms bsica de este problema que se conoce como el
mtodo del par estereoscpico.
Existen multitud de enfoques alternativos que tambin permiten intentar
recuperar una escena tridimensional. Estos enfoques se introducen brevemente en
el ltimo punto de este tema.
Captulo 6 Introduccin a la Visin Tridimensional
6.1. Mtodo del par estereoscpico

A continuacin se revisa el modelo de cmara presentado en el captulo 2 para con
l tratar de reconstruir una escena 3D partir de una imagen digital (visin
monocular). Se expondrn las ecuaciones que relacionan un punto de una escena y
su correspondiente dentro de la imagen digital, as como el proceso de calibracin
necesario para estimar los parmetros que gobiernan estas ecuaciones.
Posteriormente, se explicar por qu no es posible reconstruir una escena
3D a partir de una nica imagen 2D, y como surge la necesidad de tener distintas
proyecciones de la misma escena para calcular, por triangulacin, una
representacin tridimensional de la misma. Por eso, con el fin de eliminar las
limitaciones que subyacen al enfoque monocular, se plantear la visin
estereoscpica o binocular, y se expondrn sus capacidades, ventajas e
inconvenientes.
6.1.1 Visin monocular

El problema, en su formulacin ms simple, se plantea como el de averiguar,
utilizando una representacin bidimensional de una escena tridimensional, la
posicin de un punto de un objeto de la escena respecto a una base tambin
relativa a la escena.
Relacin entre una imagen digital y la escena que la origin
Formalmente, el problema que plantea la visin monocular, consiste en saber
cules son las coordenadas (x, y, z) de cierto punto P, a partir de una imagen
bidimensional I que corresponde a una perspectiva de la escena, en la que aparece
ese punto P en el pxel (i, j). Las variables que se deben contemplar para resolver
el problema son:
O.- Origen del sistema de referencia de la escena.
P.- Punto de la escena tridimensional.
U, V, A.- Sistema de referencia que define la posicin de
la cmara.

C.- Posicin del foco de la cmara.
P.- Punto de coordenadas (i, j), dentro de la imagen
digital, que se corresponde al punto P. O de otra forma,
proyeccin de P en la imagen digital.
Representando todos los elementos de este problema se obtiene la Figura
96, que se conoce como modelo Pin-Hole o cnico. Este modelo supone una
simplificacin del modelo de lente fina (ver captulo 2) ya que, por un lado, hace
coincidir la posicin del plano de formacin de la imagen con el foco de la lente, y
por otro, reduce el tamao de la lente a un punto.
El modelo Pin-Hole tiene la ventaja de su simplicidad, pero slo es
aplicable cuando la distancia a la que estn los objetos es mucho mayor que la
distancia focal.
I
V
P(x, y, z)
f
D
U
A
P (u, v)
Z
Y
X
Figura 96.- Modelo Pin-Hole o perspectiva cnica. Obsrvese que todos los puntos de la
recta CP se proyectan en el mismo punto P de la imagen.
Observando la proyeccin sobre el plano perpendicular al vector U de la

Figura 96 se obtiene la Figura 97. Sobre sta se aprecia la proyeccin de D sobre V
que resulta del producto escalar DV y la proyeccin de D sobre A que es DA.

P(x, y, z)
I
D
f
C
-v
A
P(u, v)
Figura 97.- Proyeccin lateral del modelo Pin-Hole.
Aplicando semejanza de tringulos se obtiene:
D V cos( D, V )
v D V
=
=
f D A D A cos( D, A)
Y como v y a son vectores unitarios se obtiene:
v cos( D,V )
cos( D,V )
=
v = f
f cos( D, A)
cos( D, A)
Para la proyeccin, sobre el plano perpendicular al vector V de la figura

Figura 96, con un razonamiento similar se obtiene:
u = f
cos( D,U )
cos( D, A)
Sobre estas frmulas se puede cambiar D por P-C, con lo que el problema
estar expresado directamente en los parmetros que inicialmente se propusieron.
Por ltimo, slo resta transformar las coordenadas (u, v) del plano de
formacin de la imagen en coordenadas (i ,j) del plano digital de la imagen. Para
hacer esta transformacin se debe tener en cuenta la relacin de tamao de los
pxeles dentro del plano de formacin de la imagen, por lo que se llamar al ancho
de un pxel m, y al alto n. Tambin se deben conocer las coordenadas (i0, j0) del
punto del plano digital de la imagen que se corresponden con las del centro del
plano de formacin de la imagen.

Cuando u vale 0, i vale i0, y cuando i vale i0+1 u toma valor igual al ancho
de un pxel, es decir m. Aplicando un razonamiento similar para calcular la
relacin entre j y v se obtienen las igualdades:
u = m (i - i0)
v = - n (j - j0)
Sustituyendo finalmente se obtiene:
i=
f (P C) U
+ i0
m (P C) A
(6.1)
j=
f (P C) V
+ j0
n (P C) A
(6.2)
Estas frmulas permiten, a partir de las coordenadas (i, j) de un pxel en

una imagen digital, conocer cules son los valores (x, y, z) posibles del punto P
dentro de la escena tridimensional. Como slo hay dos ecuaciones y tres
incgnitas, no ser posible conocer sus coordenadas sino la relacin entre ellas y
un parmetro. As, si alguna de las tres coordenadas se conociese,
automticamente se obtendran las otras dos (por ejemplo, si se sabe que un objeto
est sobre el suelo y el suelo tiene coordenada z = 0).
6.1.2 Calibracin
Las ecuaciones (6.1) y (6.2) permiten conocer la relacin entre los pxeles de una
imagen digital, y los puntos de los que son proyeccin en la escena tridimensional.
No debe pasarse por alto, sin embargo, que es preciso obtener los valores de todos
los parmetros que aparecen en estas ecuaciones. La calibracin es el proceso que
se encarga de determinar los valores de los parmetros que intervienen en el
proceso de formacin de la imagen. En este modelo la calibracin consiste
precisamente en obtener el valor de los parmetros de estas ecuaciones (ver Tabla
7).
Estos parmetros se pueden dividir en dos grandes grupos: los intrnsecos
(interiores a la cmara), y los extrnsecos (los exteriores). Para determinar los

valores de tales parmetros suele utilizarse una imagen de calibracin que dispone
de N puntos de los que se conocen sus posiciones. Esto suele conseguirse
recurriendo a una imagen de la escena en la que aparece una plantilla de
calibracin, que es un elemento formado por uno o varios paneles en los que
aparecen N puntos de posiciones conocidas (ver Figura 98).
Figura 98.- Plantilla de calibracin consistente en un cubo con N marcas.
Conociendo la posicin de los N puntos de la plantilla de calibracin se

pueden plantear 2N ecuaciones, en ellas ser posible despejar los parmetros
desconocidos.
A, U, V
Orientacin de la cmara respecto

al sistema de referencia externo
Posicin de la cmara respecto al

sistema de referencia externo
i0, j0
Punto focal
f/n, f/m
Pxeles horizontales y verticales

que ocupa la focal
Extrnsecos
Intrnsecos
Tabla 7.- Clasificacin de los parmetros del modelo de visin monocular en funcin de su
relacin con el dispositivo de captura.

Clculo matricial
En el siguiente apartado se realiza un desarrollo que culmina en una formulacin
que permite realizar el proceso de calibracin.
En lo que sigue se utilizarn coordenadas homogneas, esto es,
coordenadas a las que a las habituales x, y, z se aade una coordenada (con
0) que posibilita el clculo matricial. Como 0 siempre es posible deshacer su
intrusin.
Partiendo de (6.1) se desarrolla:
i=
f P U C U
f
Ut P
f
U t C
+
+ i0
+ i0 i =
m (P V ) A m (P C) A
m (P C) A
Igualmente partiendo de (6.2) se obtiene:
j=
f
Vt P
f
V t C

+ j0
n (P C ) A n (P C ) A
Llamando
= ( P C ) A = At P At C
se obtiene el sistema
f rt
f t
i = m u P + m U C + i0
f t
f t
j = V P V C + j 0
n
n
= At P At C
que se puede escribir en forma matricial, poniendo atencin a la matriz central que
slo contiene parmetros intrnsecos.
i0
t
t
U P U C
j0 V t P V t C
t
t
1 A PA C
i m

j = 0

0
f
n
0
Desarrollando la matriz de la derecha, y poniendo P como un producto

externo, se obtiene:
i m

j = 0

0
0
f
n
0
i0
u x
j0 v x

1 ax
uy
vy
uz
vz
ay
az
x
U tC
y
V tC
z
A t C
1
El uso de notacin fasorial para la tercera matriz permite observar

fcilmente que contiene dos componentes. La primera, que contiene slo
parmetros intrnsecos, determina la orientacin de la cmara en la escena. La
segunda se refiere a la posicin del origen de coordenadas de la escena respecto al
sistema de referencia de la cmara que, recordemos, est en C.
i m

j = 0

0
0
f
n
0
i0
x
t
U U C
y
j0 V V t C

z
t
1 A A C
1
Llamando a la matriz de intrnsecos K, a la orientacin de la cmara en la

escena R, y a la posicin del origen de referencia de la escena respecto al sistema
de referencia de la cmara T, se obtiene:
x

i
y
j = K [R T ]
z

1

En la mayora de las ocasiones29 es posible transformar el sistema anterior
en uno de la forma:
i w1,1

j = w2,1
w
3,1
w1, 2
w1,3
w2 , 2
w3, 2
w2 ,3
w3,3
x
w1, 4
y
w2, 4
z
w3, 4
1
donde la matriz W se denomina matriz de proyeccin perspectiva, y es tal que

aplicada a un punto del espacio tridimensional proporciona su proyeccin en la
imagen.
Aqu, el proceso de calibracin consiste en calcular los valores de las
componentes de esta matriz. Desarrollando la expresin anterior, despejando y
sustituyendo en las dos primeras ecuaciones, se obtiene el siguiente sistema de
ecuaciones de 12 incgnitas:
29
Esto no es posible cuando el ngulo que forma el plano de la imagen con el eje de la lente
de la cmara es distinto de cero. En estos casos es posible tal cambio si se introduce un
parmetro en la posicin (1,2) de la matriz de intrnsecos.
w1,1
w1, 2
w
1,3
w1, 4
w
2,1
1
0
0
0
0
x
y
z
xi
yi
zi
w2 , 2

=0
0 0 0 0 x y z 1 xj yj zj j w2,3
w2 , 4
w3,1
w
3, 2
w3,3
w
3, 4
O ms concisamente:
x y z 1 0 0 0 0 xi yi zi i
W = 0
0 0 0 0 x y z 1 xj yj zj j
As, conociendo las coordenadas (x, y, z) del espacio tridimensional de un
punto P, y las coordenadas (i, j) de su proyeccin correspondiente sobre el plano
digital se tienen 2 ecuaciones con las 12 componentes de la matriz W como
incgnitas. Se aprecia que para cumplir el objetivo de determinar completamente
la matriz W, se necesitarn al menos 6 puntos, para tener 12 ecuaciones con las que
determinar los 12 parmetros de W. Adems, estos 6 puntos no debern estar todos
en el mismo plano, o el sistema resultar indeterminado30.
30
Puesto que se trabaja con coordenadas homogneas la escala es irrelevante. En este caso
es posible establecer por ejemplo el valor de w3,4 a 1 y el resultado no cambiar. As, el
sistema tendr 12 ecuaciones y 11 incgnitas y estar sobredeterminado. En este caso puede
utilizarse algoritmos de minimizacin del error, como el mtodo de mnimos cuadrados,
para estimar W en vez de proceder a su clculo directo.
6.1.3 Visin estereoscpica

A partir de las coordenadas (i, j) de un punto P de una imagen obtenida con una
cmara calibrada no se pueden calcular las coordenadas (x, y, z) en las que un
punto P est situado dentro de la escena. Esto se debe a que slo se dispone de 2
ecuaciones y sin embargo existen 3 incgnitas (ver ecuaciones (6.1) y (6.2)). La
utilizacin de varias imgenes (con diferentes perspectivas del objeto) proporciona
una va para resolver este problema. Con dos imgenes diferentes en las que
aparezca P se tendrn 4 ecuaciones y slo 3 incgnitas, por lo que el problema
podra resolverse.
El problema de correspondencia
Sin embargo, el uso de ms de una imagen plantea un problema que se conoce
como el problema de correspondencia. Este problema se encuentra al intentar
hacer corresponder los puntos de 2 imgenes digitales distintas. Es decir,
conociendo las coordenadas (i1, j1) de un pxel dentro de la imagen digital I1 que
corresponde a un punto P de una escena tridimensional, cules son las coordenadas
(i2, j2) correspondientes a la representacin del mismo punto P en la imagen digital
I2. Este problema se resuelve si se encuentra una transformacin que relacione las
diferentes proyecciones de un punto. Este tipo de transformacin entre los puntos
P1 y P2 se denomina homografa.
Restriccin epipolar
Existe una propiedad geomtrica, que posee todo sistema de visin estreo, que
ayudar a resolver el problema de correspondencia. Esta propiedad se conoce
como la restriccin epipolar.
La restriccin epipolar dice que dado un pxel P1 sobre el plano de imagen
I1, su correspondencia, en el plano de imagen I2, debe estar dentro de la recta R2
que resulta de la interseccin del plano epipolar con la imagen I2. Siendo el plano
epipolar el que definen los tres puntos C1,C2 y P (ver Figura 99).
Dado un punto P del mundo real tridimensional y dadas sus proyecciones
P1 y P2 en dos imgenes que ofrecen distintas perspectivas se obtienen las
siguientes ecuaciones:
1 P1 = K 1 [R1 T1 ] P
P2 = K 2 [R2
T2 ] P
Que pueden escribirse de una forma menos compacta como:
P1 = K1 R1 P + K1 T1
P2 = K 2 R2 P + K 2 T2
(6.3)
E1
C1
C2
P1
P2
I2
I1
Figura 99.- Representacin del problema de correspondencia en la visin estreo. El punto

P tiene una representacin P1 en el plano de la imagen I1 y otra distinta P2 en el plano de la
imagen I2. La recta epipolar es la que definen los puntos E1 y P2.
Si por simplicidad se supone que el sistema de referencia coincide con el

de I1 la primera ecuacin se transforma en:
1 P1 = K 1 [I 0]PP 1 P1 = K 1 P
Usando la ecuacin anterior sobre (6.3) se obtiene:
P2 = K 2 R2 K1 1 P1 + K 2 T2
- 214 -
P2 = 1 K 2 R2 K 1 P1 + K 2 T2
142
4 44
3
123
H
(6.4)
que suele escribirse:
2 P2 = 1 H P1 + e
El parmetro H se conoce como la homografa del infinito, ya que
relaciona las proyecciones de un punto que se encuentre en el infinito. En la
frmula se puede ver que si se elimina e la posicin del observador T no aparece y
H es una homografa que slo tiene en cuenta los intrnsecos K y R. La no
influencia de la posicin de la cmara respecto a la escena observada ocurre
cuando los puntos observados estn en el infinito. En la prctica basta con que la
distancia al punto sea mucho mayor que las distancias focales. Por ejemplo,
cuando se mira montaas que se encuentran en el horizonte la posicin en la que se
encuentra el observador es indiferente respecto al punto de la retina en el que se
proyectan las montaas.
Multiplicando escalarmente por K2-1 a ambos lados de la ecuacin:
2 K 2 1 P2 = 1 R2 K 1 1 P1 + T2
Multiplicando vectorialmente por t2, y sabiendo que t2 x t2 = 0 se obtiene:
2 T K 2 1 P2 = 1 T R2 K1 1 P1
Multiplicando por K 2
P2 que es perpendicular a T K 2 P2 se
obtiene:
0 = 1 K 2 P2 T R2 K 1 P1
1
0 = P2 K 2 T R2 K 1 P1
144
42444
3
F
que agrupando queda:

0 = P2 F P1
(6.5)
Siendo F una matriz, con determinante distinto de cero, conocida como

matriz fundamental, que relaciona puntos de la imagen I1 con los de la imagen I2.
Clculo de la matriz fundamental
Si ambas cmaras estn calibradas se conocen todos los parmetros del siguiente
sistema, con lo que el clculo de P1 y P2 se puede abordar para los puntos de
calibracin.
1 P1 = K1 [R1 T1 ] P
P2 = K 2 [R2
T2 ] P
Conociendo las coordenadas de suficientes puntos P1 y P2 se puede

determinar la matriz F, planteando ecuaciones iguales a (6.5) sobre los puntos de
calibracin. Una vez conocida la matriz F es posible, a partir de un punto P1
determinar cul es su correspondiente P2, con lo que se salvara el problema de
correspondencia.
6.1.4 Conclusiones a la visin estreoscpica

Se ha visto cmo se puede obtener informacin tridimensional de una escena
(concretamente puntos 3D de la superficie de los objetos que contiene) mediante
visin estereoscpica. Sin embargo la realidad es ms compleja que el modelo que
se ha presentado, en este punto se discuten algunos de los problemas que surgen
cuando se construyen sistemas de visin 3D de este tipo.
La metodologa general para abordar el problema pasa en primer lugar por
realizar una precisa calibracin de las cmaras. Luego se debe seleccionar en una
de las imgenes los puntos de los que se desea conocer las coordenadas.
Posteriormente se realiza la identificacin de esos puntos en la otra imagen,
resolviendo el problema de correspondencia. Finalmente se procede a la obtencin
de las coordenadas de los puntos en la escena.

Problemas de la visin estreo
El primer problema se encuentra en la relizacin de una correcta calibracin de las
cmaras. Tarea que se complica cuando stas deben moverse (p.e. si estn sobre un
robot mvil).
Tambin es importante el problema de la correspondencia, y aunque se
pueden encontrar mltiples propuestas que intentan resolverlo ninguna da una
solucin a su totalidad debido a los problemas de oclusin, falsas
correspondencias, y repetitividad.
El primer problema estriba en que es necesario que los puntos cuyas
coordenadas 3D se desea calcular mediante visin estreo estn visibles en las dos
imgenes. Sin embargo, las dos imgenes no ven la misma porcin de la escena, y
puntos de una imagen pueden no estar visibles en la segunda imagen (por estar
ocluidos o por no pertenecer al campo de visin de la segunda cmara) lo que
dificulta el establecimiento de correspondencias. Para minimizar este problema se
pueden aadir ms observadores (ms cmaras) de tal manera que puntos que no se
vean desde una cmara puedan ser captados por otras, aunque esta solucin
complicar la calibracin del sistema.
El segundo problema consiste en que es posible que el sistema encuentre
falsas correspondencias, al tener que elegir entre varios candidatos en una imagen
a ser correspondencia de un punto en otra imagen. Este inconveniente se reduce
mediante el empleo de restricciones como la restriccin epipolar.
El tercer problema relacionado con el de correspondencia es el de la
repetitividad. Se debe a que un rasgo de una imagen se compone de varios pxeles,
por lo que hay que decidir uno concreto entre ellos a la hora de seleccionarlo. Esta
limitacin se presenta tanto en el proceso de seleccin de correspondencias de
puntos como en el de seleccin de puntos en la etapa de calibracin. El efecto
negativo del posible error cometido en la seleccin de puntos para calibracin
puede reducirse si se usan muchos ms puntos que los estrictamente necesarios.
Por otra parte, los modelos de las cmaras aproximan el funcionamiento de
las mismas en el paso de puntos 3D a puntos 2D proyectados en la imagen. Sin
embargo, existen muchos parmetros que determinan el proceso de formacin de
la imagen y no se contemplan todos en el modelo de lente fina que se ha planteado.
Existen modelos de cmaras en los que intervienen ms parmetros, para

modelizar el proceso de formacin de la imagen de una forma ms realista. El ms
popular es el modelo de Tsai, en el que intervienen del orden de 21 parmetros,
entre los que se puede destacar los relativos a la distorsin radial de la lente. Este
modelo es no lineal, a diferencia del modelo Pin-Hole comentado anteriormente
que s lo era.
Se podran citar muchos ms problemas (iluminacin de la escena, texturas
de las superficies de los objetos, etc.) que imposibilitan actualmente el uso de
sistemas de visin estreo en problemas generales, restringiendo su uso a
escenarios especficos y muy controlados. Debido a estos problemas actualmente
existe una gran atencin en la investigacin de nuevos enfoques.
6.2. Otros enfoques para la visin 3D

Los mtodos de reconstruccin 3D clsicamente se pueden clasificar en dos
grupos: los mtodos activos y los mtodos pasivos. Los activos son los que exigen
un observador que debe realizar alguna operacin o cumplir algn requisito, o que
necesitan de una interferencia sobre la escena que se observa. Los pasivos son los
que no precisan de ninguno de estos elementos basndose nicamente en imgenes
de intensidad para reconstruir la triangulacin.
As por ejemplo son mtodos activos: aqullos en los que se proyectan
haces controlados de energa (luz o sonido sobre la escena) desde una posicin y
orientacin conocida, o los que utilizan un observador activo (aqul que se
encuentra implicado en algn tipo de actividad encaminada a controlar la
geometra utilizada para la discretizacin). Como mtodo pasivo se puede citar el
que se ha descrito en este captulo basado en visin estereoscpica.
6.2.1 Ejemplos de otros enfoques

Entre los mtodos activos se pueden citar los mtodos basados en la proyeccin de
luz estructurada, los de tiempo de vuelo, el mtodo de Moire, inferometra
hologrfica, etc. La distincin entre mtodos activos y pasivos no es clara, as el
proceso de calibracin puede hacer que el mtodo estereoscpico que se ha
explicado se pueda considerar un mtodo activo. Algunos ejemplos de mtodos
puramente pasivos son los mtodos de clculo a partir del sombreado, interseccin
de volmenes, secuencia de imgenes y visin estereoscpica sin calibrar. En los

siguientes puntos se realiza un descripcin superficial de algunos de estos
mtodos.
Tiempo de vuelo
Mtodo activo en el que se mide el tiempo invertido por una seal de velocidad
conocida en recorrer la distancia que separa una regin de la escena del dispositivo
emisor-receptor. La seal suele ser de naturaleza acstica o electromagntica.
Plantean problemas relacionados con la baja energa reflejada. Es por ello
que son usados principalmente sobre objetos cercanos (para tareas de modelado
3D por ejemplo). Adems los escneres 3D son caros y voluminosos en
comparacin con las cmaras convencionales.
Inferometra de Moir
El motivo de interferencia obtenido al iluminar y observar una escena a travs de
sendos dispositivos idnticos de tipo rejilla permite la recuperacin de la
informacin tridimensional. Se basa en que la superposicin de dos motivos de la
misma frecuencia espacial produce una interferencia de baja frecuencia que
nicamente vara con la diferencia de fase. Los inconvenientes son que los
gradientes de la superficie del objeto han de ser acotados, y ha de existir
continuidad. La Figura 100 muestra la disposicin de un sistema de este tipo.
rejilla
rejilla
proyector de luz
cmara
Figura 100.- Disposicin de un sistema de adquisicin de datos 3D basado en el mtodo de

Interferometra de Moir.
Proyeccin de luz estructurada

La obtencin de los puntos 3D se realiza mediante triangulacin activa, empleando
una cmara de imgenes intensidad y un proyector de luz de direccin controlada.
El proyector de elevada potencia lumnica origina fuertes gradientes de luminancia
en zonas arbitrarias de la escena. Para muestrear toda la escena ha de haber un
mecanismo de barrido que asegure la iluminacin secuencial. Este mtodo
proporciona mapas tridimensionales densos y precisos.
P(x,y,z)
p(U,V)
Proyecto
r
Cmara
Figura 101.- Disposicin de un sistema de visin 3D mediante proyeccin de luz

estructurada. La obtencin de puntos 3D se basa en el mtodo de triangulacin activa:
conocidos b, f, U y V, es posible obtener las coordenadas 3D de P.
(b)
(a)
Figura 102.- .- (a) Patrn de luz estructurada utilizado para la proyeccin de luz
estructrurada, y (b) objeto reflejando ese patrn de luz. Los puntos iluminados se pueden
obtener mediante triangulacin activa.
6.2.2 Imgenes de rango

La representacin digital de estas imgenes 3D se realiza mediante las imgenes de
rango. Las imgenes de rango son una clase especial de imgenes digitales. Cada
pxel de una imagen de rango expresa la distancia entre un sistema de referencia
conocido y un punto visible en la escena. Una imagen de rango reproduce la
estructura 3D de una escena mediante una representacin realista de la superficie
muestreada.
Las imgenes de rango pueden venir dadas, bien mediante una lista de
coordenadas 3D de puntos sin especificaciones de orden ni conectividad entre
ellos, como se muestra en la Figura 103 (a esta forma de representacin se la
denomina nube de puntos), o bien mediante una matriz de valores de profundidad
de puntos a lo largo de las direcciones x e y de la imagen. Las imgenes que vienen
dadas de esta forma se denominan imgenes de profundidad, mapas de
profundidad, perfiles de superficie, o imgenes 21/2D.
Figura 103.- Nube de puntos de la superficie de un crneo humano adquirida con un

digitalizador manual tctil.
Las imgenes de rango constituidas por nubes de puntos requieren una

etapa de aproximacin de esa nube de puntos a una superficie matemtica. La
problemtica de la eleccin del tipo de malla (triangular, cuadrangular...), la forma

de aproximar la malla (interpolacin mediante tringulos de Bezier, triangulacin
de Delaunay, etc...), la eliminacin de puntos no significativos para acelerar los
clculos (usando por ejemplo tcnicas de erosin 3D) son an problemas abiertos.
Figura 104.- Imagen de rango adquirida mediante un sensor de rango 3D lser que emplea
triangulacin activa para el clculo de las coordenadas 3D. La imagen de la izquierda
presenta la vista frontal del objeto y permite apreciar la resolucin del escner. La de la
derecha esta rotada para que pueda apreciarse su forma.
Los mapas de profundidad suelen denominarse 2D. Para construir

representaciones 3D completas, son necesarios varios mapas de proyeccin y un
mtodo de integracin entre distintos mapas. En este proceso de integracin surge
nuevamente el problema de correspondencia, conocido en este mbito como
problema de registro.

Los mtodos activos se estn mostrando tiles en problemas industriales donde la
interferencia con la escena es posible. Sin embargo, en muchos casos esta
interferencia es inadmisible, por ejemplo en ambientes exteriores. Por ello los
mtodos pasivos son ms fciles de integrar en problemas reales.

Actualmente se estn estudiando otros mtodos de recuperacin de la
forma tridimensional como aqullos que actan a partir de la sombra y aquellos
que lo hacen a partir de la textura.
En cualquier caso este tema, como otros que han sido descritos en este libro,
constituye un problema abierto que seguro encontrar nuevas soluciones en los
prximos aos.

[JKS95] cap. 12,
[TV98] caps. 6, 7 y 10,
[Gon00] caps. 9 y 10.
Anexo A
Clasificacin con el
perceptrn multicapa
El sistema nervioso se encarga de recoger los impulsos del mundo que nos rodea y
de coordinar y dirigir todas las actividades de los rganos de acuerdo a lo que ha
percibido de ese exterior. Este complejo sistema tiene como unidad funcional un
nico tipo de clulas: las neuronas. Las neuronas disponen de un elemento que se
llaman axn que permite trasmitir a otras neuronas a travs de las dendritas
impulsos elctricos de diferente intensidad. Estas clulas se disponen en forma de
complejas redes y mediante unos procesos, conocidos como procesos sinpticos,
segn los cuales se excitacin o se inhiben unas a otras, son las responsables de las
capacidades de aprendizaje y comprensin que caracterizan a los seres vivos que
las poseen.
axn
sinapsis
soma
ncleo
dendritas
Figura 105.- Modelo biolgico que representa la conexin entre dos neuronas.
Anexo A Clasificacin de patrones con el perceptrn multicapa

En un intento de imitar el funcionamiento de estas estructuras naturales
surgen las redes de neuronas artificiales. Reproducir el sistema nervioso an est
lejos de nuestro alcance, pero an as, se han creado unos modelos que, aunque
mucho ms simples en su proceso que los modelos biolgicos actuales, se
muestran extremadamente tiles en problemas de clasificacin. En este anexo se
aborda un tipo especial de redes de neuronas artificiales, que se conocen como
perceptrones, que pese a su simplicidad se adecuan de manera notable a los
problemas de reconocimiento de patrones.
A.1. Introduccin a las redes de neuronas artificiales

El funcionamiento de las redes de neuronas artificiales tiene su base en la
interaccin de unos elementos, las clulas nerviosas o neuronas, a travs de unas
conexiones llamadas conexiones sinpticas. Tales conexiones tienen su origen en
una neurona y su destino en otra neurona. Estas conexiones tienen asociadas un
valor real variable que determina la influencia de la misma y que se denomina
peso. Como una misma neurona puede ser destino de varias conexiones sinpticas,
las entradas que una neurona recibe se procesan, mediante la funcin de
activacin, para definir el estado de activacin de la clula nerviosa. A partir de la
funcin de activacin se genera la salida de la neurona mediante la funcin de
salida31.
Se pueden distinguir tres tipos principales de neuronas artificiales (ver
Figura 106). Las neuronas de entrada, son aqullas por donde se introducen los
datos, a partir de los cuales la red producir la respuesta. Son las nicas neuronas
cuyo estado de activacin se impone directamente desde el exterior. Las neuronas
de salida son las que con su estado de activacin definen la respuesta de la red
ante el estmulo suministrado a su entrada. Puede haber, por ltimo, una serie de
neuronas intermedias, llamadas neuronas ocultas, que procesan y propagan
informacin desde la entrada hasta la salida. Como se puede apreciar, por esta
31
En su definicin ms general se definen tres funciones asociadas a cada neurona. La

funcin de entrada, la funcin de activacin y la funcin de salida, aunque como la funcin
de salida suele ser la funcin identidad en general no se tiene en cuenta. Hay autores que
denominan funcin de transferencia al conjunto formado por la funcin de activacin y la
funcin de salida.

descripcin que se ha realizado de las redes de neuronas, la salida de una red slo
depende: de la entrada, de las conexiones que existan entre las clulas y de los
pesos que stas tengan asociados.
Figura 106.- Ejemplo de una red de neuronas genrica. Se presentan en negro y ms

pequeas las neuronas de entrada y, sombreadas las de salida. El resto son neuronas
intermedias u ocultas.
A.1.1 El proceso de aprendizaje de una red

El clculo de los pesos que deben poseer las conexiones de una red de neuronas
para que realice la funcin que se desea se conoce como aprendizaje. En redes
triviales el ajuste de estos pesos se puede hacer manualmente, pero la tarea se
vuelve imposible en redes de una complejidad mnima. Se han inventado
diferentes algoritmos que realizan esta tarea de manera ms o menos automtica
sobre distintos tipos de redes, aunque todos tienen inconvenientes32.
Desde un punto de vista puramente matemtico, dejando de lado lo que las
entradas o las salidas de la red significan en este contexto, el problema consiste en
encontrar el valor de unas incgnitas (los pesos) para que unas funciones (las
ecuaciones de las neuronas) obtengan ciertos valores (la salida deseada) cuando se
dan unos valores determinados a sus parmetros (las entradas a la red). En caso de
no poder obtenerse exactamente el valor buscado se podra pensar en minimizar el
error entre la salida deseada y la obtenida. Esto lleva al problema de encontrar el
32
El proceso de aprendizaje de un conjunto de neuronas reales constituye un tema por

descubrir para la biologa actual.

mnimo global de una funcin cualquiera, problema para el que en general no se
conoce solucin. Son aplicables sin embargo una infinidad de procedimientos
numricos, basados generalmente en mtodos del gradiente, que desgraciadamente
slo permiten obtener soluciones locales a este problema. El algoritmo ms
popular es el de aprendizaje por retropropagacin.
Propiedad de generalizacin de las redes de neuronas
Durante el entrenamiento las salidas de una red de neuronas se aproximan a ciertos
valores objetivo. Esto puede bastar para ciertas aplicaciones, pero el mayor inters
despertado por las redes de neuronas se debe a su capacidad para generalizar. Se
llama generalizar a la propiedad que le permite generar salidas adecuadas frente a
entradas que no se encuentran en el conjunto de entrenamiento y que por tanto la
red no ha aprendido previamente. La generalizacin no siempre es posible. Se
destacan tres condiciones necesarias para que pueda conseguirse generalizacin:
Que las entradas contengan suficiente informacin para que se pueda

alcanzar las salidas deseadas al menos en el entrenamiento. Si la red no es
capaz de aprender algo difcilmente ser capaz de generalizar
posteriormente.
Que la funcin a interpolar sea, en cierto sentido, suave. Es decir, que un

pequeo cambio en la entrada debe producir un pequeo cambio en la
salida. Esto implica que la funcin que se emula sea continua hasta la
primera derivada. Por ello las salidas de funciones como los generadores
de nmeros pseudo-aleatorios o algoritmos como los de encriptacin no
pueden ser emuladas con una red de neuronas.
Que el conjunto de entrenamiento sea suficientemente grande. Esto se

debe a que la generalizacin se produce en dos sentidos: interpolando y
extrapolando. La interpolacin en general da buenos resultados, pero la
extrapolacin no, por ello se deben tener suficientes casos de
entrenamiento de manera que se que evite la extrapolacin.

Conjuntos necesarios para entrenar una red
Para el ajuste de los pesos de las redes de neuronas, se precisan unos patrones con
las entradas a la red y otros con las salidas deseadas frente a esos estmulos,
constituyendo lo que se llama conjunto de entrenamiento (CE). Se usar este
conjunto para entrenar la red, mediante un procedimiento iterativo, que consiste en
variar los pesos buscando minimizar la funcin de error que se haya determinado.
Clsicamente se distingue otro conjunto, denominado conjunto de test del
entrenamiento (CTE), que se usa para saber en qu momento se debe detener el
entrenamiento. Una red sobreentrenada ha memorizado demasiado, y es incapaz de
generalizar a nuevos patrones distintos a los del entrenamiento. O de otra forma,
un sobreentrenamiento hace que la red ajuste los pesos en exceso, curvando
mucho, para ello, la superficie formada por los pesos, de manera que entradas
prximas, pero no iguales, obtienen resultados muy diferentes. Mientras que con
un entrenamiento menos exhaustivo las entradas prximas daran resultados
similares, pues la superficie formada por los pesos es ms suave y se produce un
proceso de interpolacin. El punto de generalizacin ptimo sera aquel a partir
del cual la red memoriza en demasa, y antes del cual la red puede mejorar sus
resultados con los conjuntos CTE y CE (ver Figura 107).
Una vez terminado el entrenamiento se debe disponer de un tercer
conjunto, llamado conjunto de validacin (CV), con el que se evala la red. Es
importante que CV se use slo como comprobacin final, pero nunca para entrenar
la red. Si no, la red aprender este conjunto tambin, y no se sabr si es capaz de
generalizar.

ENTRENAMIENTO
INSUFICIENTE
SOBREENTRENAMIENTO
ErrorCPE
Error 1
Error 2
ErrorCE
Error 3
Punto de Generalizacin ptima
Figura 107.- Si se detiene el entrenamiento antes de alcanzar el punto de generalizacin

ptimo la red an puede mejorarse. Si se sobreentrena la red pierde la capacidad de
generalizar.
A.2. Estructura del perceptrn multicapa

Cumpliendo el esquema que se ha planteado se pueden construir multitud de
modelos. Uno de los ms sencillos es aqul en que el estado de activacin de
cualquier clula j es funcin de la entrada total a la misma, siendo la entrada total
el resultado de sumar todos las salidas correspondientes a las diferentes neuronas
que son entradas de j multiplicadas cada una por el peso de la conexin que las une
y restndole al total una variable que slo depende de la neurona j. Llamaremos a
esta variable umbral debido a la funcin inhibidora que puede ejercer. As la
entrada total a la neurona j toma la forma de la expresin (A.1).
entrada j = umbral j + Salida i Pesoi j
(A.1)
Para simplificar los clculos suele cambiarse el umbral por una entrada de
peso igual a umbralj, conectando este axn a una neurona especial que siempre
tendr estado de activacin 1. De esta forma la entrada total a la neurona j ser:
entrada j = Salidai Pesoi j
(A.2)
De igual forma, las funciones de activacin clsicas son, en el caso

discreto, la funcin escaln (A.3), y en el caso continuo, la funcin sigmoide (A.4).
Como se puede ver en la Figura 108, estas funciones hacen que si la entrada total
es negativa la salida de la neurona sea 0 ( prxima a cero) y que si es positiva la
salida sea 1 (o prxima a 1).
0 Entrada _ Total j < 0

salida j =
1 Entrada _ Total j 0
salida j =
(A.3)
1
1+ e
(A.4)
Entrada _ Total j
1
Funcin Escaln
0
1
Funcin Sigmoide
Figura 108.- Aspecto de las funciones de activacin escaln (arriba) y sigmoide (abajo).
As, el modelo ms sencillo consistir en una red compuesta por una nica
neurona, en la que la salida viene determinada por la sigmoide (A.4) de la entrada
total. Es sencillo demostrar que este esquema es idntico al del clasificador
eucldeo. As, una red con una sola capa puede separar conjuntos de patrones
mediante un hiperplano (ver Figura 109).
Un paso por encima en complejidad se encuentra una red compuesta por
varias de estas unidades que operan de forma independiente, es decir, que la salida
de cualquiera de ellas no influye en el funcionamiento del resto. Esta
configuracin, conocida como perceptrn de una sola capa, o simplemente

perceptrn, equivale a varios clasificadores eucldeos. El perceptrn multicapa es
la red compuesta por varios niveles sucesivos de perceptrones de una sola capa
(ver Figura 110), de manera que las salidas de las unidades de una capa son
entradas de las unidades del nivel siguiente. En el siguiente punto se estudiarn las
ventajas que aporta est estructura multicapa.
Figura 109.- Patrones 2D separados por un hiperplano (en este caso una recta).
Salidas
Salidas
...
...
Unico Nivel (Salida)

i unidades (i>0)
...
Nivel N>0 (Salida)

k unidades (k>0)
Resto de niveles
ocultos
...
...
Entradas
Nivel 1 (Oculto)
i unidades (i>0)
...
Entradas
Figura 110.- En estas figuras se presentan los esquemas generales de un perceptrn de

simple capa (a la izquierda) y de uno multicapa (a la derecha).
A.3. Propiedades del perceptrn multicapa

El perceptrn multicapa tiene una serie de propiedades que lo hacen especialmente
interesante al usarlo como clasificador. stas son:
Robustez frente al ruido aleatorio. Lo que conlleva la seleccin automtica

de las caractersticas importantes dentro del vector de caractersticas que
es entrada a la red.
Separacin de regiones complejas dependiendo de la estructura de la red.

Una red puede separar clases a pesar de que la hipersuperficie de
separacin entre ambas sea arbitriamente compleja, o incluso no sea nica.
Capacidad de generalizacin. Los algoritmos de descenso del gradiente

han demostrado en la prctica que obtienen buenas interpolaciones para
patrones con los que no se ha entrenado el sistema.
A.3.1 Seleccin del nmero de capas ocultas

Se ha dicho que una red con una neurona de salida y sin unidades ocultas, es
equivalente a un clasificador eucldeo, siendo capaz de discriminar mediante un
hiperplano dos conjuntos de patrones linealmente separables.
Para poder discriminar dos conjuntos sea cual sea la disposicin de sus
patrones se puede utilizar una red con una sola capa oculta. En los siguientes
prrafos se ofrece una demostracin informal de este hecho.
Primeramente debe notarse que siempre es posible agrupar los patrones de
cualquier clase formando subconjuntos convexos. Estos subconjuntos convexos
tienen la particularidad de que pueden separarse linealmente del resto de
elementos mediante varios hiperplanos (ver Figura 111). As, un patrn interior a
un subconjunto convexo queda clasificado por la interseccin de las regiones
definidas por varios hiperplanos.
Es fcil demostrar que este primer paso de separacin mediante hiperplanos
se puede resolver con una red perceptrn sin unidades ocultas, con una neurona de
salida por hiperplano necesario. Cuando, ante un patrn, todas las neuronas de

salida de una de estas intersecciones se activan simultneamente indica que ese
patrn pertenece a ese subconjunto convexo.
Figura 111.- Los patrones de una muestra siempre se pueden agrupar en regiones convexas.
El siguiente paso consiste en la unin de los resultados de estos

subconjuntos convexos en las clases que les dieron origen. Se puede demostrar que
esta tarea la puede realizar una red perceptrn, sin unidades ocultas y con una
neurona de salida por cada clase a discriminar. En particular, una neurona de
salida, correspondiente a una clase C, tendr un umbral H. Para que esta neurona
se active slo cuando un patrn corresponda a la clase C, el umbral H puede
tomarse ligeramente menor al nmero de hiperplanos necesarios para separar cada
uno de los subconjuntos convexos de la clase C.
Por tanto, concatenando las dos redes descritas, es decir, construyendo una
red con una capa oculta y tantas neuronas de salida como clases, se pueden separar
regiones con forma cualquiera.
As, al menos tericamente, el comportamiento de cualquier red de dos o
ms capas se puede obtener con una red de slo una capa oculta. Sin embargo, los
algoritmos de aprendizaje que se conocen no garantizan que esta bsqueda tenga
xito. Es ms, la mayora de las veces estos algoritmos obtienen buenos resultados
cuando se disponen varias capas ocultas, y malos resultados cuando slo se
dispone una capa oculta.
A.4. Algoritmos de aprendizaje para el perceptrn

multicapa
Resumiendo lo visto, un algoritmo para el ajuste de los pesos de una red de
neuronas artificiales debe minimizar alguna funcin que est relacionada con el
error cometido en las unidades de salida al presentarle una entrada. Si para cada
configuracin posible de los pesos de una red se conoce el error que comete a la
salida al presentarle una entrada determinada, el error puede verse como una
superficie cuya altura depende de las coordenadas de los pesos en que se tenga.
La bsqueda del mnimo de estas superficies ha dado lugar a varios
algoritmos basados en su mayora en mtodos de descenso del gradiente. Entre
todos destaca, por su simplicidad y buenos resultados, el algoritmo de
retropropagacin del gradiente, descubierto en 1974 por Werbos y redescubierto
de manera independiente en 1985 por Le Cun y Parker. En la base del algoritmo de
retropropagacin del gradiente est la regla delta.
A.4.1 La regla Delta

Para el perceptrn existe un algoritmo, conocido como regla delta o algoritmo
LMS (Least Minimum Squares), que cambia los pesos, pesoij, en la direccin de
mxima pendiente dentro de la superficie del error. Las diferentes componentes
del vector de direccin de mxima pendiente vienen determinadas por las
derivadas parciales segn cada componente de la funcin error.
pesoi j =
Error
pesoi j
(A.5)
En la ecuacin anterior se aprecia que se ha aadido un trmino cuya

funcin es determinar la velocidad de variacin de los pesos, este trmino se
conoce como tasa de aprendizaje. Un valor de pequeo puede hacer que se caiga
fcilmente en mnimos locales, mientras que un valor de grande puede hacer que
se est siempre oscilando, sin converger nunca. Desgraciadamente el concepto de
grande y pequeo vara segn la superficie de error que se est considerando,
la cual a priori es desconocida ya que depende de la muestra que se use para el
entrenamiento, por lo que su ajuste constituye un proceso experimental.

Elementos de la red
De (A.5) se deduce que se debe disponer de una medida para el error. La medida
ms comn de ste consiste en la suma de las diferencias cuadrticas entre los
valores obtenidos y los deseados, en las numN neuronas de salida, despus de
presentar cada patrn de entrenamiento. Esta frmula (A.6) se conoce como error
cuadrtico medio.
Error =
1
numN
numN
(salida
N =1
deseada N ) 2
(A.6)
Donde se ha tomado la salida de una neurona j como una funcin F de la

entrada total a la misma (A.2), de acuerdo con la definicin de funcin de
activacin y funcin de salida.
salida j = F ( entrada j )
(A.7)
Clculo del incremento del peso

Si se aplica sobre (A.6) la regla de la cadena, se puede escribir:
Error
Error entrada j
=
pesoi j entrada j pesoi j
(A.8)
De la ecuacin (A.2) deducimos:
entrada j
= salida i
pesoi j
(A.9)
Definimos ahora:
cambio j =
Error
entrada j
(A.10)

As que uniendo las frmulas (A.9) y (A.10) se puede reescribir la
expresin (A.5), que determina la variacin de los pesos en su bsqueda del
mnimo, como:
pesoi j = cambio j salidai
(A.11)
El parmetro cambioj se obtiene aplicando de nuevo la regla de la cadena:
cambio j =
Error
entrada j
Error salida j
salida j entrada j
(A.12)
El segundo trmino de la ltima frmula de la ecuacin anterior equivale a

derivar respecto de entradaj la ecuacin (A.7).
salida j
= F '(entrada j )
entrada j
(A.13)
Si la neurona j es una neurona de salida, en la ecuacin (A.6) uno de los

trminos considerados ser la misma neurona j. En tal caso el primer trmino de la
ecuacin (A.12) puede calcularse directamente derivando en (A.6) respecto de
salidaj. Consecuentemente, la aplicacin de esta frmula para el error se realiza
slo en los casos en que la funcin de activacin de las neuronas es continua y
derivable.
Error
= ( deseada j salida j )
salida j
(A.14)
cambio j = (deseada j salida j ) F (entrada j )
(A.15)

Este algoritmo constituye la regla delta y viene acompaado con un
teorema que asegura la convergencia del mtodo siempre que el problema de
clasificacin tenga solucin. Este teorema no asegura, sin embargo, la
convergencia hacia el mnimo absoluto de la superficie, sino que el descenso
puede ser a un mnimo local de la superficie del error.
Funciones de activacin
Como se desprende de (A.15) la aplicacin de la regla delta depende de la derivada
de la funcin de activacin. La funcin de activacin ms comn es la sigmoide,
pero tambin suelen usarse la funcin tangente hiperblica y la funcin identidad.
Si la funcin de activacin fuese la identidad se tiene:
salidaj = F(entradaj) = entradaj
(A.16)
F(entradaj) =1
(A.17)
Derivando:
Si la funcin es la sigmoide se puede escribir:

salidaj = F(entradaj) =
1
1+ e
entrada j
entrada j
1
1 (A.18)
salida j
Derivando:
entrada j
1
e
entrada j
1+ e entrada j
1+ e
F(entradaj) =
= salidaj (1- salidaj) (A.19)
Segn se ha visto la funcin de activacin debe ser derivable, y si no lo es

la regla delta se encuentra con un escollo. ste se debe a la funcin de error que se
est usando. Tomando otro tipo de funcin para el error se puede seguir aplicando
el algoritmo a funciones no derivables.

Por ejemplo, en el caso de la funcin escaln F(entradaj) vale 0 en todo
menos en el 0 que no existe. Esto hace que (A.13) no pueda calcularse. La

solucin es hacer que no sea necesario su clculo, por ejemplo haciendo que el
error tenga tal forma que cambioj pueda calcularse directamente como la derivada
del error respecto de la entrada. Para ello se define m como aquel valor umbral tal
que, si la entrada es mayor que l entonces la salida es 1, y si la entrada es menor
entonces la salida es 0. Definiendo el error para una neurona determinada con una
funcin derivable respecto de la entrada como (A.20), se puede obtener (A.21) que
permite usar la regla delta con la funcin escaln.
0
1
Error = (m entrada j ) 2
2
1 (m + entrada j ) 2
2
Si la salida es correcta
Si la salida es 0 y debera ser 1
(A.20)
Si la salida es 1 y debera ser 0
0
Si la salida es correcta
cambio j =
= entrada j m Si la salida es 0 y debera ser 1
entrada j
entrada j + m Si la salida es 1 y debera ser 0
Error
(A.21)
A.4.2 Generalizacin de la regla Delta

El algoritmo de retropropagacin supone una generalizacin de la regla delta de
manera que pueda aplicarse a perceptrones multicapa. En ests redes las frmulas
(A.15) y (A.19) permiten el clculo del incremento de los pesos para las neuronas
de la ltima capa. Sin embargo, en las neuronas intermedias no se conoce el valor
deseado para su salida, por lo que estas frmulas no se pueden aplicar
directamente.
La idea central de la retropropagacin est en que el valor deseado para
una neurona de una capa intermedia J (ver Figura 112) puede derivarse del valor
deseado para las neuronas de la siguiente capa K. La aplicacin de esta idea de

manera recursiva nos conducir a la ltima capa para la que s se conoce el valor
deseado a la salida.
.
.
.
Neuronas
de
Entrada
.
.
.
...
.
.
.
.
.
.
.
.
.
i
.
.
.
j
pesoij
Capa A
Capa I
.
.
.
...
.
.
.
Capa K
Capa J
Neuronas
de
Salida
.
.
.
Capa N
Figura 112.- Esquema general de una conexin entre dos neuronas en un perceptrn
multicapa. Se presenta el caso de una conexin cualquiera, que une la neurona i de la capa
intermedia I y la neurona j de la capa intermedia J.
En un perceptrn multicapa, el error cometido por la red se puede escribir

como una funcin E de las entradas a cualquier capa intermedia de la red, sin ms
que ir sustituyendo en (A.6) los trminos salida por sus correspondientes de (A.7).
As para un nivel J cualquiera, de un perceptrn multicapa, en el que se encuentran
las neuronas 1,2,... j,...,numJ se puede expresar el error en funcin de las entradas a
este nivel.
Error=E(entrada1, entrada2,... entradaj,...,entradanumJ)
(A.22)
Teniendo en cuenta la definicin previa y usando la regla de la cadena se

puede simplificar el primer trmino de la ecuacin (A.11) para cualquier neurona
de la red.
numK
Error entrada K
Error
=
=
salida j
salida j
K =1 entrada K
(A.23)
numJ
numK
Error
K =1
entrada K
( peso J K salida J )
J =1
salida j
(A.24)

Realizando la derivada y usando el resultado de la ecuacin (A.12) se llega
a:
numK
Error
K =1
entrada K
peso j K =
numK
cambio
K =1
peso j K
(A.25)
Sustituyendo esta ecuacin y la (A.13) en la (A.12) se obtiene:
cambio j = F ' (entrada j )
numK
cambio
K =1
peso j K
(A.26)
Esta frmula nos permite conocer el factor cambio para una capa siempre
que se conozca el factor cambio para la capa siguiente. Este proceso tiene fin en la
ltima capa de la que se conoce el valor cambio gracias a (A.15). Constituye por
tanto un mtodo constructivo para ir calculando el incremento de los pesos que
minimiza el error segn (A.6), y que exige que la funcin de activacin de cada
neurona sea derivable respecto de la entrada total a la misma.
Una vez conocidos estos resultados, se puede resumir el algoritmo de
Retropropagacin en los pasos que se detallan en el listado adjunto.
- Algoritmo de Retropropagacin del Gradiente Paso 1.- Iniciar los pesos de las conexiones de la red con valores aleatorios pequeos.
Paso 2.- Presentar uno de los conjuntos de entrada de la muestra a la red y calcular la salida
que se obtiene.
Paso 3.- Si no coincide la salida obtenida con la deseada ajustar los pesos como sigue:
j = N (N es el nmero de neuronas)
i=j
Mientras que j 0
{

Mientras que i 0
{
pesoij(t+1)= cambioj(t) salidai(t)
pesoij(t+1)=pesoij(t)+ pesoij(t+1)
i = i 1
}
j = j-1
}
En esta forma los pesos se modifican tras cada iteracin constituyendo la variante on-line.
Tambin podran sumarse cuando han pasado todos los conjuntos de entrada en lo que sera
la variante Batch.
cambioj es una medida del error cometido en la neurona j. En este algoritmo este error
depende del tipo de neurona. Si la neurona j es de salida, cambioj, tendr en cuenta la
diferencia entre el valor deseado y el obtenido:
cambioj(t)= F(entradaj(t)) (deseadoj(t)-estadoj(t))
mientras que si es una neurona intermedia medir el error de las neuronas a las que
alimenta:
cambioj(t)= F(entradaj(t)) k(cambiok(t) pesojk(t))
Tomado k los valores de todas las neuronas por encima de la neurona j.
Paso 4.- Si han coincidido todas las salidas obtenidas con las esperadas despus de
presentar todos las entradas de nuestro conjunto de entrenamiento terminar. En otro caso
hacer t = t + 1 e ir al paso 2. Como es posible que el proceso no logre obtener siempre la
salida deseada frente al patrn de entrada, siempre se puede detener el proceso cuando
alcance un valor de error que se considere aceptable.
A.5. Ejemplo de reconocimiento de caracteres a

mquina
En este punto se va a presentar un ejemplo real, consistente en el reconocimiento
de caracteres numricos escritos a maquina. Dejando aparte el problema, no trivial,
de la segmentacin de los caracteres a partir de la imagen de una pgina escrita a
mquina, el problema se puede formular como: tomar una serie de imgenes
correspondientes a caracteres de una fuente concreta (p.e Arial) y determinar a qu
carcter corresponde cada una de las imgenes.
A.5.1 Vector de caractersticas

En primer lugar se determina el siguiente vector de caractersticas discriminantes.
min(ancho/alto,1).-
Un valor entre 0 y 1 que representa las

proporciones del carcter si es ms ancho que
alto.
min(alto/ancho,1).-
Un valor entre 0 y 1 que representa las

proporciones del carcter si es ms alto que
ancho.
densidad normalizada.-
Un valor entre 0 y 1 que mide la proporcin

de pxeles activos entre pxeles totales de la
caja que contiene al carcter.
min(n objetos / 3,1).-
Un valor entre 0 y 1 proporcional al nmero

de elementos conexos de la imagen si est
numero es menor a tres.
imagen de 8x8.-
La imagen del carcter normalizada a un

tamao de 8x8 y con valores entre 0 y 1.
A.5.2 Construccin de la muestra

El siguiente paso consiste en la construccin de los conjuntos de entrenamiento y
de test. Para ello se recopilan 600 caracteres de cada uno de los tipos (ver Figura
113) y se utilizan 360 para entrenamiento, 60 para el proceso de validacin durante
el entrenamiento y 180 para el test final del clasificador.
Figura 113.- Ejemplo de algunos de los caracteres usados para construir los conjuntos de
entrenamiento, validacin y test final del clasificador.
A.5.3 Estructura de la red

El vector de caractersticas obliga a que la red de neuronas tenga 68 neuronas de
entrada (1+1+1+1+64). El nmero de neuronas de salida viene determinado por el
nmero de clases a reconocer. As, como se desea reconocer 10 dgitos diferentes,
se disponen 10 neuronas de salida.
Por ltimo es necesario decidir si disponer o no capas ocultas, y en caso
afirmativo, determinar su nmero y el nmero de unidades por capa. En este caso
el procedimiento que se sigue consiste en el viejo mtodo de ensayo y error.
Comenzando por probar una red sin unidades ocultas y probando redes con ms
unidades ocultas cada vez
A.5.4 Entrenamiento y ajuste de la red

Con la muestra construida es posible iniciar el proceso de entrenamiento. Durante
el entrenamiento se obtiene un error cuadrtico medio de 03 para los patrones de
validacin. Como el error se considera alto se cambia la estructura de la red y se
prueban tres redes con una capa oculta, con 40, 20 y 10 unidades respectivamente.
Tras el entrenamiento se obtiene un error medio de 005 para la de 40 y la de 20 y
de 01 para la de 10. En funcin de estos datos se decide optar por usar la red de
20 unidades ocultas. Tambin se prueba a usar dos capas ocultas con 20 neuronas
cada una, pero los resultados no ofrecen ninguna mejora.
Figura 114.- Imagen de una red de neuronas con 68 unidades de entrada (verde), 20
unidades ocultas (amarillo) y 10 de salida (rojo).
20 y 40 unidades ocultas
y dos capas ocultas
Error cuadrtico medio
10 unidades ocultas
Sin unidades ocultas
Iteraciones de entrenamiento
Figura 115.- Resultado obtenido durante el entrenamiento de varios perceptrones multicapa
con diferentes estructuras, para el problema de reconocimiento de dgitos.
Tras elegir la configuracin de red se vuelve a entrenar utilizando el

conjunto de entrenamiento y el de validacin del entrenamiento para determinar el
punto ptimo de generalizacin en el que se debe detener el entrenamiento.
Error cuadrtico medio
Curva de error para

los patrones de entrenamiento
Curva de error para lospatrones
de validacin del entrenamiento
Punto timo
de generalizacin
Iteraciones de entrenamiento
Figura 116.- Curva que presenta el error obtenido con los patrones de entrenamiento y con
los de validacin del entrenamiento. El punto ptimo de generalizacin indica el punto en el
que se debe interrumpir el entrenamiento.
Patrn ledo por la red
0
0
1
Patrn presentado
2
17
1
17
1
17
1
18
17
17
16
17
18
18
Tabla 8
Los resultados obtenidos al presentar el conjunto de test aparecen en la

Tabla 8. Esta tabla se conoce como matriz de confusin y presenta cada
reconocimiento mediante un par de coordenadas, la horizontal indica que elemento
se presento al clasificador, y la vertical en que clase lo ha clasificado. Se observa

que los elementos que se encuentran exactamente sobre la diagonal noroeste de la
matriz corresponden a los patrones que han sido identificados con xito.
A.6. Conclusiones al captulo.

El proceso desarrollado en el ltimo ejemplo no es completo ni pretende serlo.
Slo ofrece un conjunto de reglas heursticas que permiten resolver una amplia
variedad de problemas. Obsrvese que deja preguntas sin respuestas, entre
ellas:Otra una red con diferente numero de capas, o distinto tipo de neuronas, o
entrenada durante ms ciclos, o entrenada con otro algoritmo, dara una mejor
solucin al problema?
Estas cuestiones abiertas, unidas al hecho de que una red entrenada no
ofrece explicaciones de por qu clasifica un patrn en una clase, constituyen las
principales objeciones que se suelen exponer contra su uso. Por otro lado, la gran
cantidad de problemas reales resueltos usando estas arquitecturas suponen los
puntos a favor.
A.7. Bibliografa del anexo

[HKP91] cap. 6,
[Loo97] cap. 5
[Z+95]
Anexo B
Referencias
Bibliogrficas
B.1 Bibliografa bsica

[Bax94] G.A. Baxes, Digital Image Processing: Principles and Applications, J.
Wiley & Sons, 1994.
[Esc01]
A. de la Escalera, Visin por computador: Fundamentos y mtodos,

Pearson- Prentice Hall, 2001.
[F+97]
J.D. Foley, A. van Dam, S.K. Feiner y J.F. Hughes, Computer

Graphics: Principles and Practice, 2nd edition in C, Addison-Wesley,
1997.
[Gon00]
J. Gonzlez , Visin por computador, Ed. Paraninfo, 2000.
[GW93]
R.C. Gonzlez y R.E. Woods, Digital Image Processing, Addison

Wesley, 1993.
[HKP91] J. Hertz, A. Krogh y R.G. Palmer, Introduction to the Theory of Neural

Computation, Addison Wesley, 1991.

[JKS95]
R. Jain, R. Kasturi y B.G. Schunk, Machine Vision, McGraw-Hill,

1995.
[Loo97]
C.G. Looney, Pattern Recognition using Neural Networks: Theory and

Algorithms for Engineers and Scientists, Oxford University Press,
1997.
[Mar93]
D. Maravall, Reconocimiento de Formas y Visin Artificial, Ed. Ra-Ma,

1993.
[Par97]
J.R. Parker, Algorithms for Image Processing and Computer Vision, J.

Wiley and Sons, 1997.
[SHB99] M. Sonka, V. Hlavac y R. Boyle, Image Processing, Analysis and

Machine Vision, PWS Publishing, 1999.
[TV98]
E. Trucco y A. Verri, Introductory Techniques for 3-D Computer

Vision, Prentice Hall, 1998.
[Z+95]
A. Zell et al, Stuttgart Neural Network Simulator: User Manual v. 4.0,

1995.
B.2 Bibliografa adicional

La bibliografa adicional est formada por otras referencias que permitirn
completar el estudio de los temas explicados en esta obra.
[BS96]
K. Bowyer y G. Stockman (organiz.), Themes for Improved Teaching

of Image-Related Computation, 1997 IEEE Computer Society
Workshop on Undergraduate Education and Image-Related
Computation,
disponible
en
la
web:
http://marathon.csee.usf.edu/teaching_resources.html, 1997.
[B+00]
K. Bowyer et al (eds.), Proc. Second IEEE CS Workshop on

Undergraduate Education & Image Computation, disponible en:
http://figment.csee.usf.edu/educ-ws-00.html, 2000.

[BB88]
G. Brassard y P. Bratley, Algorithmics. Theory and Practice, PrenticeHall, 1988.
[Cas96]
K. Castleman, Digital Image Processing, 2nd Edition, Prentice-Hall,

1996.
[CC01]
ACM/IEEE
Curriculum Committee on Computer Science,

ACM/IEEE-CS Computing Curricula 2001, CC2001 Steelman
Draft,
2001.
Disponible
en
la
web:
http://www.acm.org/sigcse/cc2001/steelman.
[CI01]
D. Cojocaru y M. Ivanescu, An Analyse of a Computer Vision Course

for EE Students, Proc. IASTED Intl. Conf. On Visualization Imaging,
and Image Processing, sept. 2001, pp. 636-641.
[Dom94] A. Domingo Ajenjo, Tratamiento digital de imgenes, Ed. Anaya

Multimedia, 1994.
[Ett97]
D.M. Etter, Solucin de Problemas de Ingeniera con Matlab, 2

Edicin, Prentice Hall, 1997.
[Fau93]
O.D. Faugeras, Three-Dimensional Computer Vision: A Geometric

Viewpoint, MIT Press, 1993.
[Fau00]
M. Fandez Zanuy, Tratamiento Digital de Voz e Imagen y Aplicacin

a la Multimedia, Marcombo, 2000.
[FH01]
E. Fink y M. Heath, Image-Processing Projects for an Algorithms

Course, International Journal on Pattern Recognition and Artificial
Intelligence, vol. 15, n. 5, agosto 2001, pp. 859-868.
[GH01]
A. Gruen y T.S. Huang, Calibration and Orientation of Cameras in

Computer Vision, Springer, 2001.
[Gue99]
C. Guerra, Visin and Image Processing Algorithms, en: Algorithms

and Theory of Computation Handbook (M.K. Atallah, ed.), CRC Press,
1999.
- 251 -

[HS90]
E. Horowitz y S. Sahni, Fundamentals of Data Structures in Pascal,

Computer Science Press, 3 edicin, 1990.
[HS92]
R. Haralick and L. Shapiro, Computer and Robot Vision, AddisonWesley, 1992.
[JHG99] B. Jahne, H. Hauecker and P. GeiBler (editores) , Computer Vision and

Applications Handbook (vol. III: Systems and Applications), Academic
Press, 1999.
[Kab99]
I. Kabir, High Performance Computer Imaging, Manning, 1999.
[KSK98] R. Klette, K. Schlns y A. Koschan, Computer Vision: ThreeDimensional Data From Images, Springer, 1998.
[Lan99]
M. Langford, Tratado de fotografa, Omega, 1999.
[Mat99]
Matrox Electronic Systems Ltd, Matrox Imaging Library: User Guide

v. 6.0, 1999.
[Mat01]
The Mathworks, Matlab Image Processing Toolbox v 3.1: Users

Guide, 2001.
[Max98] B. A. Maxwell, "Teaching computer vision to computer scientists:

issues and a comparative textbook review, International Journal of
Pattern Recognition and Artificial Intelligence, vol. 12, n 8, pp. 10351051, agosto 1998.
[Max01] B. A. Maxwell, A Survey of Computer Vision Education and Text
Resources, International Journal on Pattern Recognition and
Artificial Intelligence, vol. 15, n. 5, pp. 757-774, agosto 2001.
[Mic96]
Microsoft Corportation, Microsoft Win32 Programmers Reference,

1996.
[Mur98] R.R. Murphy, Teaching Image Computation in an Upper Level Elective

on Robotics, International Journal on Pattern Recognition and
Artificial Intelligence, vol. 12, n 8, 1998.

[MvR94] J.D. Murray y W. Van Ryper, Encyclopedia of Graphics File Formats,
2nd edition, oReilly & Associates, 1994.
[MW93] H.R. Myler y A.R. Weeks, Computer Imaging Recipes in C, Prentice
Hall, 1993.
[PC01]
G. Pajares y J.M. de la Cruz, Visin por computador: Imgenes

digitales y aplicaciones, Ed. Ra-Ma, 2001.
[PG01]
M.W. Powell y D. Goldgof, Software Toolkit for Teaching Image

Processing, International Journal on Pattern Recognition and
Artificial Intelligence, vol. 15, n. 5, agosto 2001, pp. 833-844.
[SV+01] A. Snchez, Jos F. Vlez, A.B. Moreno y J.L. Esteban, Introducing

Algorithm Design Techniques in Undergraduate Digital Image
Processing Courses, International Journal on Pattern Recognition and
Artificial Intelligence, vol. 15, n. 5, pp. 789-803, agosto 2001.
[SG98]
S. Sarkar y D. Goldgof, Integrating Image Computation in

Undergraduated Level Data-Structure Education, International Journal
on Pattern Recognition and Artificial Intelligence, vol. 12, n 8, 1998.
[SMB98] J.L. Starck, F. Murtagh y A. Bijaoui, Image Processing and Data

Analysis. The Multiscale Approach, Cambridge University Press, 1998.
[SS01]
G. Stockman y L. Shapiro, Computer Vision, Prentice-Hall, 2001.
[Tsa87]
R. Y. Tsai, "A Versatile Camera Calibration Technique for High

Accuracy 3D Machine Vision Metrology Using Off-the-Shelf TV
Cameras and Lenses", IEEE Trans. on Robotics and Automation, Vol
RA-3 (4), pp. 323-344, 1987.
[Ull96]
S. Ullman, High-level Vision: Object Recognition and Visual

Cognition, MIT Press, 1996.
[Umb99] S.E. Umbaugh, Computer Vision and Image Processing: A Practical

Approach using CVIPtools, Prentice Hall, 1999.

[Ver91]
D. Vernon, Machine Vision: Automated Visual Inspection and Robot

Vision, Prentice Hall, 1991.
[Zue00]
N. Zuech, Understanding and Applying Machine Vision, Marcel

Dekker, 2000.
B.3 Material complementario

Aparte de los libros, existen otras fuentes de informacin relacionadas con los
temas abordados en la asignatura (principalmente artculos de revistas
especializadas y pginas Web), que podran complementar a los contenidos
explicados en clase, dar a conocer el estado de la investigacin actual en estos
temas y ofrecer una ayuda inestimable para la realizacin de las prcticas. A
continuacin, se resean algunas de estas fuentes de informacin.
B.3.1 Revistas
El lector interesado en el tratamiento digital de imgenes y visin artificial puede
consultar multitud de revistas dedicadas a la materia explicada. Tienen especial
relevancia:
Computer Vision and Image Understanding

(http://www.apnet.com/www/journal/iv.htm).
IEEE Trans. Pattern Analysis and Machine Intelligence
(http://www.computer.org/tpami/).
Pattern Recognition
(http://www.elsevier.nl/inca/publications/store/3/2/8/).
IEEE Transactions on Image Processing
(http://www.ieee.org/organizations/pubs/pub_preview/ip_toc.html).
Pattern Recognition Letters
(http://www.elsevier.nl/inca/publications/store/5/0/5/6/1/9/).
Image and Vision Computing (http://www.elsevier.nl/locate/imavis).
IJCV - International Journal of Computer Vision
(http://kapis1.wkap.nl/kapis/CGIBIN/WORLD/journalhome.htm?0920-5691).
- 254 -
Journal of Mathematical Imaging and Vision

(http://www.ics.forth.gr/ecvnet/publications/jmiv/jmiv.html).
Real-Time Imaging (http://www.academicpress.com/rti).
International Journal on Pattern Recognition and Artificial
Intelligence (http://www.worldscinet.com/journals/ijprai/ijprai.shtml).
IEEE Transactions on Medical Imaging
(http://www.ieee.org/organizations/pubs/pub_preview/mi_toc.html).
Machine Vision and Applications
(http://link.springer.de/link/service/journals/00138/).
IEE Proceedings - Vision, Image and Signal Processing
(http://www.iee.org.uk/Publish/Journals/Profjourn/Proc/vis/).
Advanced Imaging (http://www.advancedimaging.com).
Entre las principales editoriales de publicaciones (libros, revistas u material

en cualquier otro soporte), relacionados con estas materias, hay que mencionar las
siguientes:
IEEE Press.
Springer Verlag.
Academic Press.
Prentice Hall.
Kluwer Academic Publishers.
Elsevier Science.
Addison Wesley.
World Scientific Publishing Company.
John Wiley & Sons.
MIT Press.
CRC Press.
B.3.2 Software
Existen numerosas heramientas software que pueden adaptarse, total o
parcialmente para la enseanza de la visin por computador. Las mejores
herramientas son de pago, aunque tambin hay software libre que se puede utilizar
para estos propsitos. En la pgina web: The Computer Vision Homepage de la
Universidad de Carnegie Mellon (cuyo enlace aparece en esta seccin) existe un
apartado de software donde puede encontrarse una lista extensa de programas,

libreras, entornos de programacin software para imgenes. Remitimos al lector a
la consulta de dicha pgina, donde tambin aparecen los enlaces web de las
herramientas referenciadas. Se referencian, a continuacin algunas ms conocidas:
Image Processing Toolbox de MATLAB.

Khoros.
Matrox Imaging Library (MIL).
Tina.
VISILOG.
HIPS .
B.3.3 Imgenes de test

Cuando se trata de demostrar el resultado de una determinada tcnica (novedosa o
no) de visin artificial, los investigadores y dems usuarios se han puesto de
acuerdo en utilizar un conjunto de imgenes de test comunes. Por ejemplo, son
conocidas las imgenes de: Lena, el hombre de la cmara, etc. Tambin para
determinadas aplicaciones se han creado bases de datos conteniendo una muestra
de imgenes lo suficientemente grande, que libra al usuario en muchos casos de
crearla. Para una informacin ms detallada sobre imgenes de prueba en
aplicaciones de visin, se remite (nuevamente al lector) a la pgina: : The
Computer Vision Homepag, y dentro de ella al enlace:
http://www-2.cs.cmu.edu/afs/cs/project/cil/ftp/html/v-images.html,
donde
se
pueden encontrar informacin de muchas bases de datos, imgenes asiladas y
secuencias de imgenes estndar de prueba.
B.3.4 Paginas Web

Las pginas web relacionadas con esta materia han sido subdivididas en dos
grupos: aqullas que son ms generales y las relacionadas con la enseanza.
Pginas web sobre tratamiento digital de imgenes y visin computacional
The Computer Vision Homepage at Carnegie Mellon University
(http://www-2.cs.cmu.edu/afs/cs/project/cil/ftp/html/vision.html)
Creada en la Universidad de Carnegie Mellon University en 1994, es la pgina ms
conocida sobre tratamiento digital de imgenes y visin computacional. Centraliza

una coleccin de enlaces web orientados hacia la investigacin en tratamiento de
imgenes y visin por computador. La pgina est organizada en subpginas que
contienen, respectivamente, la siguiente informacin:
Grupos de investigacin que trabajan en visin artificial.

Hardware: sistemas de investigacin y productos comerciales
Software: cdigo de programas para investigacin, libreras para
procesamiento de imgenes, generadores de datos sistticos, etc.
Imgenes de test.
Congresos sobre visin artificial.
Publicaciones: referencias de artculos en congresos y revistas, libros,
tutoriales, etc.
Informacin general: grupos de noticias, FAQs, archivos, etc.
Otros enlaces relacionados

CVonline: The Evolving, Distributed, Non-Proprietary, On-Line Compendium of
Computer Vision
(http://www.dai.ed.ac.uk/CVonline/CVentry.htm).
Se trata de una coleccin de resmenes en hipertexto sobre las aspectos principales
de la visin artificial. Est pgina est mantenida por Robert Fisher de la
Universidad de Edimburgo. El ndice est organizado en alrededor de 700 puntos.
La idea ofrecer a la comunidad cientfica que trabaja en estos temas una coleccin
de material comn de manera gratuita. El compendio trata de ser un resumen de
mtodos y aplicaciones de la visin por computador, estando organizado por
secciones que abarcan las reas ms importantes de investigacin y de aplicacin
prctica. A continuacin, se enumeran algunos de los tpicos que aparecen al
primer nivel de la jerarqua de hiperenlaces:
1.
2.
3.
4.
5.
6.
7.
8.
Aplicaciones.
Bases de datos e ndices.
Sistemas de visin famosos.
Tcnicas de visin genricas.
Mtodos de extraccin de caractersticas geomtricas.
Fsica de la imagen.
Transformaciones y filtrados sobre imgenes.
Movimiento, seguimiento y anlisis de secuencias de imgenes.
- 257 -

9.
10.
11.
12.
Hardware para tratamiento de imgenes.

Modelos de representacin de objetos, del mundo y de escenas.
Mtodos de reconocimiento y de registro.
Interpretacin de imgenes.
USC Annotated Computer Vision Bibliography

(http://iris.usc.edu/Vision-Notes/bibliography/contents.html).
Es una coleccin de bibliografa comentada, mantenida en la sobre visin por
ordenador, tratamiento de imgenes y otras reas relacionadas. Contiene una
introduccin que describe todo lo que est contenido en esta pgina, como
referenciar la bibliografa y tpicos relacionados. He aqu la estructura
(incompleta) del ndice principal:
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
Ayuda, FAQs, Cmo localizar entradas y conseguir artculos

Nombres de revistas y listado de conferencias
Libros y surveys
Tcnicas de bajo nivel, sensores, representacin de imgenes, ...
Tratamiento del color, codificacin y restauracin de imgenes.
Deteccin y anlisis de bordes y lneas .
Anlisis de caractersticas 2D y textura .
Tcnicas de segmentacin de regiones 2D.
Extraccin de formas 3D.
Visin estereoscpica.
Machine Vision Online

(http://www.machinevisiononline.org).
Se trata de una sociedad americana dedicada a la visin por computador desde una
perspectiva ms industrial y profesional. Ofrece en sus enlaces una gua de
compradores, consejos para aplicar con xito la visin por computador, recursos
educativos, eventos, enlaces, etc.
Pginas Web sobre cursos y sobre la enseanza de la visin computacional
Computer Vision Courses

(http://www.palantir.swarthmore.edu/~maxwell/visionCourses.htm).
Pgina creada por Bruce A. Maxwell, Swarthmore College en el 2000. Contiene
enlaces a 33 cursos diferentes sobre tratamiento de imgenes y visin
computacional impartidos en distintas universidades del mundo (en esa pgina
aparece una referencia y un enlace a nuestro curso en la Universidad Rey Juan
Carlos). Algunos de los cursos presentados tienen un enfoque clsico; otros
presentan una orientacin interdisciplinar (por ejemplo, cursos que ralacionan la
visin con la percepcin biolgica, los interfaces de usuario, los grficos por
computador, etc). Muchos de los cursos incluyen su propio material docente
usado: apuntes del curso, prcticas de laboratorio, enlaces de inters, etc.
Hypermedia Image Processing Reference

(http://www.dai.ed.ac.uk/HIPR2).
Hypermedia Image Processing Reference(HIPR) es una fuente de asistencia online para los usuarios de sistemas basados en el tratamiento de imgenes en todo el
mundo. HIPR ha sido desarrollada en el Departamento de Inteligencia Artificial de
la Universidad de Edimburgo con vistas a proporcionar material de tipo tutorial
para cursos sobre tratamiento de imgenes y visin por computador. El paquete
software desarrollado ofrece informacin on-line sobre un gran nmero de
operaciones de tratamiento de imgenes, con numerosos ejemplos sobre imgenes
digitalizadas. Entre los servicios ofrecidos por HIPR estn:
Referencias sobre unas cincuenta clases de operaciones sobre imgenes

ms habituales.
Descripcin detallada sobre cmo trabaja cada operacin.
Una demostracin en JAVA sobre cada operacin y el cdigo fuente de los

algoritmos.
Ejemplos de imgenes de datos y de resultados para mostrar grficamente

cmo funciona cada operacin.
Un gran nmero de ejercicios.
Informacin bibliogrfica.
- 259 -
Tablas de operadores equivalentes en varios paquetes de tratamiento de

imgenes: VISILOG, Khoros, la librera de tratamiento de imgenes
(toolbox) de MATLAB y HIPS.
B.3.5 Asociaciones relacionadas con visin computacional

IEEE Computer Society
(www.computer.org).
La IEEE Computer Society es una de las 36 sociedades dentro de IEEE (Institute
of Electrical and Electronic Engineers). Hoy da, IEEE es la sociedad profesional
tcnica mayor del mundo (370.000 asociados en 150 paises). IEEE Computer
Society, fundada en 1946, tiene 100.000 asociados y su objetivo es proporcionar
informacin tcnica y servicios a los profesionales de la informtica a nivel
mundial. Por medio de las conferencias organizadas, publicaciones, captulos de
estudiantes, comits tcnicos, y grupos de trabajo, se promueve el intercambio de
informacin y la innovacin tecnolgica entre sus miembros.
En relacin con las conferencias promovidas por IEEE Computer Society sobre
visin artificial conviene destacar: la Conference on Computer Vision and Pattern
Recognition (CVPR) y la International Conference on Computer Vision (ICCV).
International Association for Pattern Recognition (IAPR)

(http://www.iapr.org/ind2.html).
La Asociacin Internacional sobre Reconocimiento de Patrones (IAPR) es una
asociacin cientfico-profesional no lucrativa involucrada en temas de
reconocimiento de patrones, visin artificial y tratamiento de imgenes en un
sentido amplio. Esta organizada por paises (una organizacin por pas) y las
personas interesadas en participar en las actividades organizadas por la IAPR
realizadan dichas actividades adhirindose a su organizacin nacional. IAPR nace
en 1978 y organiza bienalmente el Congreso Internacional sobre Reconocimiento
de Patrones. Tambin, co-esponsoriza algunas otras conferencias en esta rea. Para
conocer en detalle los objetivos y actividades de esta organizacin, se remite al
lector a la pgina web de la asociacin.
Asociacin Espaola de Reconocimiento de Fromas y Anlisis de Imgenes

(AERFAI)
(http://decsai.ugr.es/aerfai/information.html).
Se trata de la asociacin espaola que desde 1982 constituye la organizacin
espaola dentro de la IAPR. La AERFAI tambin organiza cada dos aos un
congreso nacional: el Simposio Nacional de Reconocimiento de Formas y Anlisis
de Imgenes. Adems, publica peridicamente un boletn para los miembros de la
asociacin y algunos libros sobre temas relacionados a nivel nacional.
Anexo C
ndice alfabtico
BMP, 56
borde, 141
bordes, 101
brillo, 7
buja, 7
byte, 31
A
agrupamiento, 194
lbum de Brodatz, 125
algoritmo de etiquetado de
componentes conexas, 134
algoritmo de las distancias
encadenadas, 195
algoritmo de retropropagacin del
gradiente, 233
algoritmo de Warshall, 135
algoritmo k-medias, 195, 197
algoritmo MaxMin, 195, 196
apertura, 113
aprendizaje, 175, 187, 225
axn, 223
C
cmara oscura, 26
cmaras, 36
camino, 140
campos aleatorios, 155
capacidad discriminante, 170
captura, 21, 26
caractersticas discriminantes, 165
CCDs, 42
CCITT Grupo 3, 51
CCITT Grupo 4, 51
clulas nerviosas, 224
centro ptico de una lente, 27
centroide, 177
cierre, 114
B
background, 126
bastones, 8
Bitmap, 56
- 263 -
2002 y 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Anexo C ndice alfabtico

correspondencia, 211
coste, 140
coste de un componente de borde,
141
crecimiento de regiones, 147
cross-validation, 170
cuantizacin no uniforme, 35
clases, 165
clasificacin, 21
clasificador de los k-vecinos, 194
clasificador estadstico, 181
clasificador eucldeo, 177
clasificadores, 165
clasificadores a posteriori, 175
clasificadores apriorsticos, 175
clasificadores deterministas, 176
clasificadores no deterministas, 176
clustering, 154, 194
clusters, 156
C-Mos, 42
CMY, 18
cociente de Fisher, 173
cdigo de cadena, 158
coeficiente de correlacin, 172
coincidencia estructural, 115
colores primarios, 16
colores secundarios, 16
complementario, 110
componente conexa, 61
componente de borde, 141
compresin, 46
compresin Huffman, 48
compresores con prdida, 53
conectividad, 58
cnico, 203
conjuncin, 66
conjunto de aprendizaje, 168
conjunto de entrenamiento, 168, 227
conjunto de test, 168
conjunto de test del entrenamiento,
227
conjunto de validacin, 169, 227
contornos, 101
contraste, 8
convolucin, 81
D
dendritas, 223
deteccin de bordes, 132
diafragma, 37
diana, 40
diferencia, 111
digitalizacin, 26
dilatacin, 111
dispersin, 2, 173
distancia chessboard, 61
distancia de Mahalanobis, 181
distancia del tablero de ajedrez, 61
distancia del taxista, 61
distancia Eucldea, 61
distancia focal, 27
distancia Geomtrica, 61
distancia Manhattan, 61
distribucin espectral de energa, 3
disyuncin, 66
divisin, 67
DVD, 53
E
efecto fotoelctrico, 2, 41
eje de mnima inercia, 161
eje ptico, 27
elemento estructurante, 111
enfoque, 28
entrada total, 228
- 264 -

funcin de transferencia, 65, 224
funcin escaln, 229
funcin impulsional, 82
funcin sigmoide, 229
funciones de decisin, 166
funciones discriminantes, 166
entradas sinpticas, 224

entrenamiento, 187
erosin, 112
error cuadrtico medio, 234
escalado, 68
escaln, 237
escaneo, 26
escner 3D lser, 44
escners, 36
estructuras piramidales, 155
ter, 2
extrnsecos, 206
G
generalizacin, 169
generalizar, 226
GIF, 56
grano, 39
factor de divisin, 82
falsas correspondencias, 215
FFT, 98
fiabilidad, 170
filtrado paso alto, 96
filtrado paso bajo, 96
filtrado paso banda, 96
filtro, 65
filtro de la mediana, 84
filtro de Prewitt, 88
filtro de Roberts, 88
filtro del bicho raro, 84
filtros espaciales de convolucin, 81
Flujo Luminoso, 5
flujo radiante, 4
foco, 27
fotones, 2
Fourier, 90
Foveon, 42
frontera, 141
funcin de activacin, 224
funcin de filtrado espacial, 82
funcin de salida, 224
histograma, 70
hit or miss, 115
homografa, 211
HSV, 17
I
1/2
imgenes 2 D, 220
imgenes binarias, 32
imgenes bitonales, 32
imgenes de profundidad, 220
imgenes de rango, 220
imgenes en color real, 32
imgenes en niveles de gris, 32
independencia, 170
ndice de refraccin, 28
inferometra hologrfica, 217
inhibicin lateral, 8
Intensidad Luminosa, 7
intrnsecos, 206
J
JFIF, 56
- 265 -

modelos de texturas, 155
momento general, 159
momentos centrales, 160
monocromtica, 3
morfologa matemtica, 110
MPEG, 53
MPEG2, 53
muestreo no uniforme, 35
multiplicacin, 67
multiumbralizacin, 129, 130
JPEG, 53
JPEG2000, 53, 110
K
k-medias, 154
k-vecinos, 194
L
LMS, 233
luminancia, 7
LZ77, 48
LZW, 48
N
negacin, 66
neuronas, 224
neuronas de entrada, 224
neuronas de salida, 224
neuronas intermedias, 224
neuronas ocultas, 224
no supervisado, 155
no supervisados, 176
Nyquist, 33
M
maestro, 176
mapas de profundidad, 220
marcadores bsicos, 152
mscara de convolucin, 82
matiz, 11
matriz de confusin, 244
matriz de convolucin, 82
matriz de covarianzas, 171
matriz de proyeccin perspectiva,
209
mximo, 67
mtodo de Moire, 217
mtodo de segmentacin
supervisado, 156
mtodos activos, 217
mtodos de segmentacin no
supervisados, 156
mtodos pasivos, 217
mnimo, 67
modelo cnico, 203
modelo de lente fina, 26
modelo de Tsai, 216
modelo Pin-Hole, 203
O
objetivo, 36
obturador, 37
oclusin, 215
OCR, 124
offset de la imagen, 58
onditas, 109
operacin apertura, 113
operacin cierre, 114
operacin complementario, 110
operacin de conjuncin, 66
operacin de disyuncin, 66
operacin de negacin, 66
operacin diferencia, 111
operacin dilatacin, 111
- 266 -

punto de formacin de la imagen, 27
punto de generalizacin ptimo, 227
operacin divisin, 67
operacin erosin, 112
operacin escalado, 68
operacin hit or miss, 115
operacin multiplicacin, 67
operacin reflexin, 110
operacin resta, 67
operacin rotacin, 69
operacin suma, 66
operacin traslacin, 68, 110
operaciones aritmtico lgicas, 66
operaciones geomtricas, 68
operaciones morfolgicas, 110
Q
quadtree, 150
R
rachas, 51
rango dinmico, 71
rasgos, 165
razn de compresin, 47
reconocimiento, 21
redes de neuronas artificiales, 224
redundancia relativa, 47
reflexin, 110
regla Delta, 233
repetitividad, 215
resolucin espacial, 30
resolucin radiomtrica, 31
resta, 67
restriccin epipolar, 212
retina, 7
retropropagacin, 226, 233
revelado, 37
RGB, 17
rotacin, 69
runs, 51
P
paletas, 35
patrn, 166
pelcula, 37
percepcin visual, 8
perceptrn, 224, 229
perceptrn multicapa, 230
perfiles de superficie, 220
peso, 224
PGM, 56
Pin-Hole, 203
plano de formacin de la imagen, 27
posteriori, 175
principio de optimalidad, 142
priori, 175
probabilidad a posteriori, 183
probabilidad a priori, 183
problema de registro, 221
procesamiento previo, 21
procesos sinpticos, 223
profundidad de campo, 38
programacin dinmica, 142
prototipo, 177
S
saturacin, 11
segmentacin, 21
segmentacin completa, 124
segmentacin parcial, 124
semiumbralizacin, 129, 130
sensibilidad a la intensidad, 8
sensores de rango, 43
seal de vdeo, 40
- 267 -

transformada de Hough, 143
Transformada Discreta de Cosenos,
54
transformada rpida de Fourier, 98
traslacin, 68, 110
series de Fourier, 90
Sobel, 87
sobreentrenamiento, 227
split and merge, 149
substraccin de fondo, 157
suma, 66
supervisado, 155
supervisados, 176
U
umbral, 228
umbralizacin, 126
umbralizacin adaptativa, 129, 131
umbralizacin de banda, 129
umbralizacin fija, 127
umbralizacin variable, 131
universo de trabajo, 165
T
tarjeta digitalizadora de vdeo, 40
tasa de aprendizaje, 233
teorema de muestreo, 33
teora aditiva, 13
teora corpuscular, 2
teora de filtros, 65
teora del color, 2
teora onda-corpsculo, 2
teora ondulatoria, 2
teora triestmulo, 13
txel, 125
textura, 125
tiempo de exposicin, 38
tiempo de vuelo, 44, 217
TIFF, 56
tono, 11
transformacin de watershed, 151
transformada de Fourier, 91
V
validacin cruzada, 170
vecindad, 58
vector de caractersticas, 155
ventanas de Sobel, 87
vidicon, 40
vxel, 44
W
watershed, 151
wavelets, 109

Vision Por Comput Ad or

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Vision Por Comput Ad or

Cargado por

Copyright:

Formatos disponibles

ndice

INTRODUCCIN A LA VISIN ARTIFICIAL ............... 1

MODELO FSICO DE LA LUZ .................................................................. 1

1.1.1 La luz en la historia .................................................................... 1

MODELO FISIOLGICO ......................................................................... 7

1.2.1 Percepcin acromtica ............................................................... 8

VISIN ARTIFICIAL ............................................................................ 19

1.3.1 Representacin de la realidad .................................................. 19

BIBLIOGRAFA DEL CAPTULO ............................................................ 22

ADQUISICIN Y REPRESENTACIN DE IMGENES

CAPTURA Y DIGITALIZACIN DE IMGENES....................................... 26

2.1.1 Modelos de captura de imgenes.............................................. 26

REPRESENTACIN DE LA IMAGEN Y ESTRUCTURAS DE DATOS .......... 45

2.2.1 Estructura del fichero de imagen.............................................. 45

RELACIONES BSICAS ENTRE PXELES ............................................... 58

2.3.1 Relaciones de proximidad ......................................................... 58

CONCLUSIONES AL CAPTULO ............................................................ 62

FILTRADO Y REALZADO DE IMAGEN ....................... 65

OPERACIONES BSICAS ENTRE PXELES............................................. 66

3.1.1 Operaciones aritmtico-lgicas ................................................ 66

OPERACIONES SOBRE EL HISTOGRAMA .............................................. 70

3.2.1 Aumento y reduccin de contraste ............................................ 72

3.3.1 Filtros de suavizado .................................................................. 83

OPERACIONES EN EL DOMINIO DE LA FRECUENCIA............................ 89

3.5.1 Definiciones bsicas ............................................................... 111

CONCLUSIONES AL CAPTULO .......................................................... 122

CONCEPTOS BSICOS SOBRE SEGMENTACIN.................................. 125

4.1.1 La textura ................................................................................ 127

SEGMENTACIN BASADA EN LA UMBRALIZACIN ........................... 128

4.2.1 Umbralizacin fija .................................................................. 129

TCNICAS BASADAS EN LA DETECCIN DE CONTORNOS .................. 134

4.3.1 Segmentacin basada en las componentes conexas................ 135

TCNICAS BASADAS CRECIMIENTO DE REGIONES ............................ 149

Unin de regiones ................................................................... 150

4.5.1 Segmentacin basada en el color............................................ 155

REPRESENTACIN DE OBJETOS SEGMENTADOS ............................... 159

4.6.1 Descripcin basada en el cdigo de cadena........................... 160

CONCLUSIONES AL CAPTULO .......................................................... 165

INTRODUCCIN A LOS CLASIFICADORES ............ 167

CARACTERSTICAS DISCRIMINANTES ............................................... 167

5.1.1 La muestra de aprendizaje...................................................... 170

TIPOLOGA DE LOS ALGORITMOS DE CLASIFICACIN DE PATRONES 177

5.2.1 Clasificadores a priori y a posteriori ..................................... 177

CLASIFICADORES BASADOS EN LA DISTANCIA ................................. 178

Clasificador de distancia eucldea determinista a priori ....... 179

5.4.1 Algoritmo de distancias encadenadas..................................... 197

CONCLUSIONES AL CAPTULO .......................................................... 201

INTRODUCCIN A LA VISIN TRIDIMENSIONAL 203

MTODO DEL PAR ESTEREOSCPICO................................................ 204

Visin monocular .................................................................... 204

6.2.1 Ejemplos de otros enfoques..................................................... 218

CONCLUSIONES AL CAPTULO .......................................................... 223

A.1.1 El proceso de aprendizaje de una red..................................... 227

ESTRUCTURA DEL PERCEPTRN MULTICAPA ................................... 230

A.3.1 Seleccin del nmero de capas ocultas................................... 233

ALGORITMOS DE APRENDIZAJE PARA EL PERCEPTRN MULTICAPA 235

A.4.1 La regla Delta ......................................................................... 235

EJEMPLO DE RECONOCIMIENTO DE CARACTERES A MQUINA......... 242

Vector de caractersticas......................................................... 243

B.3.1 Revistas ................................................................................... 254

B.3.3 Imgenes de test ...................................................................... 256

NDICE ALFABTICO .................................................... 263

En este tema se introducen una serie de conceptos fsicos y fisiolgicos