Está en la página 1de 54

Captulo 5

Segmentaci
on
5.1

Introducci
on

Las tecnicas empleadas para extraer informacion de una imagen se agrupan en lo que se denomina
Analisis de Imagenes. El primer paso dentro del Analisis de imagenes es la Segmentaci
on que se
encarga de la subdivision de la misma en sus partes constitutivas u objetos. El nivel al que se lleva
a cabo esta subdivision depende del problema a resolver, es decir la segmentaci
on debera detenerse
cuando se hayan aislado los objetos de interes. En general la tarea de la segmentaci
on autonoma
es una de las mas difciles del procesamiento de imagenes pues determina el exito o el fracaso del
analisis. Por esta razon se debe poner especial cuidado en aumentar la probabilidad de tener una
segmentacion robusta. Los dise
nadores de sistemas de procesamiento de imagenes con experiencia
prestan invariablemente una considerable atencion a esta etapa del procesamiento de imagenes.
Los algoritmos de segmentacion de imagenes monocromaticas generalmente se basan en una de dos
propiedades de niveles de gris,
discontinuidad
similitud

5.2

Detecci
on de Discontinuidades

El metodo consiste en dividir una imagen basandose en los cambios bruscos de nivel de gris. Existen
tres tipos basicos de discontinuidades: puntos, lneas y bordes. En la practica la forma mas com
un
de ver las discontinuidades es pasar una mascara a traves de la imagen. La respuesta de la misma
para cada pixel es,

R = w1 z1 + w2 z2 + + w9 z9 =

9
X
i=1

155

wi zi


CAPITULO 5. SEGMENTACION

156

Figura 5.1: Imagen original y despues de la deteccion de puntos

5.2.1

Detecci
on de Puntos

La deteccion de puntos aislados de una imagen es directa. Utilizando una mascara se sabe que se
ha detectado un punto en la posicion en la que esta centrada si,
|R| > T
donde T es un umbral no negativo, y R es la medicion con la mascara del pixel evaluado. Basicamente,
todo lo que hace esta formulacion es medir las diferencias ponderadas entre el punto central y sus
vecinos, partiendo de la base que el nivel de gris de un punto aislado sera bastante diferente que el
de sus vecinos.
Una de las mascaras mas utilizadas con este proposito es,

1 1 1
1 8 1
1 1 1
Las imagenes de las figuras 5.1 y 5.2 muestran la deteccion de puntos utilizando la mascara antes
mencionada.

5.2.2

Detecci
on de Lneas

El siguiente nivel de complejidad despues de la deteccion de puntos es la deteccion de lneas. Las


siguientes mascaras logran que se detecten lneas en distintas orientaciones:

2 1 1
1 2 1
1 1 2
1 1 1
2
2
2 1 2 1 1 2 1 1 2 1
1 1 2
1 2 1
2 1 1
1 1 1

DE DISCONTINUIDADES
5.2. DETECCION

157

Figura 5.2: Imagen original y despues de la deteccion de puntos. Es notable la desaparicion del
fondo, as como la textura de la piel de los animales.

Figura 5.3: Imagen Original.

es decir, lneas horizontales, a 45 , verticales y a 135 . Sean R1 , R2 , R3 y R4 las respuestas de las


mascaras en el pixel central de una imagen. Si en un punto de la imagen se cumple,
|Ri | > |Rj |

j 6= i

el punto i es el que tendra mayor probabilidad de estar asociado con una lnea en la direccion de
la mascara i. Las imagenes del cangrejo ara
na de las figuras 5.3, 5.4 y 5.5 muestran la deteccion
de lneas en distintas orientaciones.

5.2.3

Detecci
on de Bordes

Este es el metodo mas com


un para detectar discontinuidades significativas en los niveles de grises
de pixeles.

158

CAPITULO 5. SEGMENTACION

Figura 5.4: Deteccion de lneas horizontales y verticales.

Figura 5.5: Deteccion de lneas a 135 y a 45 .

DE DISCONTINUIDADES
5.2. DETECCION

159

En el caso de la deteccion de bordes en general, podemos decir que:


Un borde es una frontera entre 2 propiedades diferentes de los niveles de gris.
Normalmente se utilizan operadores similares a la derivada.
La primera derivada es cero en todos los niveles excepto cuando hay transiciones de niveles
de gris (donde comienzan y terminan).
La magnitud de la primera derivada dice si el pixel esta en lo oscuro (fondo) o claro (objeto).
El signo de la segunda derivada es positivo en el borde oscuro y negativo en el claro.
El realce de bordes se puede calcular a partir del filtrado espacial. Las mascaras de convoluci
on
que se emplean com
unmente son:
Desplazamiento y sustraccion
Gradiente
Laplaciano
Todos estos tipos de procesamiento se basan en el analisis de la pendiente de la intensidad luminosa.
En cualquier tecnica de deteccion de bordes el calculo se realiza a traves de un operador local de
derivacion. El diagrama de la figura 5.6 ejemplifica esto para un perfil unidimensional. Se obtiene
a partir de este la derivada primera y la derivada segunda.
Desplazamiento y Sustracci
on
Este es el metodo mas simple de realce de bordes y permite obtener informacion en las direcciones
horizontales o verticales. Al desplazar una imagen a la izquierda y restarla de la imagen original,
se realzan los bordes verticales. Esto es el equivalente a efectuar una operacion de derivaci
on.
El mismo proceso se puede efectuar para realzar los bordes horizontales. El resultado de estas
operaciones produce la impresion de tener un grabado. Las imagenes de la figura 5.7 muestran este
proceso.
El Gradiente
El gradiente de una imagen f (x, y) en la posicion (x, y) es el vector,

f =
q
fm = mag(f ) =

Gx
Gy

"

f
x
f
y

G2x + G2y . Se sabe del analisis vectorial que el gradiente de un vector indica

la direccion de la maxima variacion de la funcion f en (x, y). Un valor importante para la deteccion

160

CAPITULO 5. SEGMENTACION

Figura 5.6: Perfil unidimensional, priemra derivada y derivada segunda.

DE DISCONTINUIDADES
5.2. DETECCION

161

Figura 5.7: Imagen original y proceso de desplazamiento y sustraccion.

de bordes es la magnitud del vector gradiente, el cual normalmente se lo denomina de igual manera.
El calculo de este valor puede hacerse por dos caminos diferentes, es decir,
fm = mag(f ) =

q
G2x + G2y

o,
fm = mag(f ) |Gx | + |Gy |
La direccion del vector gradiente es tambien una cantidad importante. Del analisis vectorial el
angulo de direccion del vector gradiente en el punto (x, y) con respecto al eje x es,

(x, y) = tan

Gy
Gx

El calculo de las derivadas parciales en forma digital se puede realizar de diversas maneras, especificando la mascara mas conveniente. Las mascaras mas simples que se pueden realizar son,

1
1

1 1


CAPITULO 5. SEGMENTACION

162

Figura 5.8: Imagen Original y detector de Roberts.

que dan lugar a las ecuaciones,


Gx = f (x, y) f (x + 1, y)
Gy = f (x, y) f (x, y + 1)
El calculo de estas derivadas por aplicacion de estas mascaras tiene la desventaja de ser sensible a
orientaciones locales.
El operador de Roberts analiza dos diferencias de direcciones a angulos rectos para determinar
el gradiente. Desde el punto de vista matricial, los operadores de Roberts se definen como:

0 1
1 0

1 0
0 1

Este operador tiene varias deficiencias: El resultado es sensible a las direcciones y al ruido. En las
figuras 5.8 y 5.9 se muestran los resultados de este operador para las imagenes de prueba.
Los operadores de Sobel tratan de aprovechar el hecho de que, si se calculan las derivadas en dos
direcciones y se combinan como la raz cuadrada de la suma de cuadrados se obtiene un resultado
independiente de la orientacion.
La forma general de las mascaras se pueden formular como,

DE DISCONTINUIDADES
5.2. DETECCION

163

Figura 5.9: Imagen Original y detector de Roberts.

1 0 1
2 0 2
1 0 1

1 2 1
0
0
0
1
2
1

En la practica se calcula solamente en 2 direcciones ortogonales y luego se calcula el modulo. Se tiene


la ventaja de que con una mascara de 3 x 3 pixeles, se obtiene un alisado adicional (diferenciacion
+ suavizado) que no existe en los operadores 2 2 tipo Roberts. De esta manera el procesamiento
es mas inmune al ruido. En las imagenes de las figuras 5.10, 5.11 y 5.12 se muestran los resultados
del empleo del gradiente, siguiendo la operacion edge en Matlab, con la definicion del operador
Sobel.
Las imagenes de las figuras 5.13, 5.14 y 5.15 se muestra la aplicacion del operador Sobel como
matriz de convolucion.
Los kernels de convolucion siguientes corresponden al operador de Prewitt.

1 1 1
0
0
0
1
1
1

1 0 1
1 0 1
1 0 1

Cada punto de la imagen debe convolucionarse con las dos mascaras y el resultado es el valor
maximo. Las figuras 5.16, 5.17 y 5.18 ejemplifican el uso del operador de Prewitt.
El Operador de Kirsh esta deducido a partir de ocho kernels de convoluci
on:

164

CAPITULO 5. SEGMENTACION

Figura 5.10: Imagen original.

Figura 5.11: Detector de sobel vertical y horizontal.

DE DISCONTINUIDADES
5.2. DETECCION

Figura 5.12: Resultado de la suma de los dos operadores de Sobel.

Figura 5.13: Imagen original.

Figura 5.14: Gradiente en x y en y.

165

166

CAPITULO 5. SEGMENTACION

Figura 5.15: Gradiente de Sobel en ambas direcciones.

Figura 5.16: Imagen original.

DE DISCONTINUIDADES
5.2. DETECCION

Figura 5.17: Prewitt horizontal y vertical.

Figura 5.18: Suma de la salida de los dos operadores de Prewitt.

167


CAPITULO 5. SEGMENTACION

168

Figura 5.19: Imagen original.

Figura 5.20: Resultado de las primeras 4 mascaras de Kirsh.

5
5
5
3 0 3
3 3 3
3 3 3
3 0 3
5
5
5

3 5
5
3 0
5
3 3 3
3 3 3
5
0 3
5
5 3

3 3 5
3 3 3
3 0 5 3 0
5
3 3 5 3 5
5
5
5 3
5 3 3
0 3
5 0 3 5
3 3 3
5 3 3

Cada punto de la imagen debe convolucionarse por las ocho mascaras. Cada mascara responde de
manera maxima a un borde en una orientacion particular. El valor maximo en las ocho orientaciones
es el valor de salida para la imagen de la magnitud del borde.
Las figuras 5.19, 5.20 y 5.21 muestran el resultado de la aplicacion de cada una de las mascaras
de Kirsh. Otro ejemplo es ejemplificado con las imagenes de las figuras 5.22, 5.23 y 5.24.

DE DISCONTINUIDADES
5.2. DETECCION

Figura 5.21: Resultado de las ultimas 4 mascaras de Kirsh.

Figura 5.22: Imagen original.

Figura 5.23: Resultado de las primeras 4 mascaras de Kirsh.

Figura 5.24: Resultado de las ultimas 4 mascaras de Kirsh.

169


CAPITULO 5. SEGMENTACION

170

Figura 5.25: Imagen original y laplaciano.

El Laplaciano
Para una funcion bidimensional el operador Laplaciano se define como,
2 f =

2f
2f
+
x2
y 2

Las mascaras para el Laplaciano mas frecuentemente utilizadas son,

0 1 0
1 4 1
0 1 0

1 1 1
1 8 1
1 1 1

Como no solo se obtienen valores positivos, com


unmente se le suma a la imagen un valor medio
de gris, para que los valores de cero esten en este valor y los valores mas oscuros correspondan a
los valores negativos producidos por esta operacion. Al restarse esta imagen de la imagen original,
se restablece la variacion de niveles de gris y se incrementa el contraste en los lugares donde hay
discontinuidades. Las imagenes de las figuras 5.25, 5.26 y 5.27 muestran al Laplaciano y el resultado
de la sustraccion mencionada.
Parte de la explicacion del incremento de calidad visual se debe a las caractersticas del sistema
visual humano, el cual concentra su atencion en los bordes y tiende a ignorar regiones con peque
nos
niveles de variacion. Seg
un [Russ, 1995] esta capacidad esta integrada a nivel de la retina. Las
celulas horizontales de la segunda capa promedia la informacion de varios conos o bastones, mientras
que las celulas bipolares en la tercer capa restan esta se
nal de la entrada original. Este fenomeno
de inhibicion es muy parecido a la operacion del Laplaciano y facilita la deteccion de bordes.
El Laplaciano al ser una derivada de segundo orden es inaceptablemente sensible al ruido, ademas

DE DISCONTINUIDADES
5.2. DETECCION

Figura 5.26: Imagen original y laplaciano.

Figura 5.27: Imagen original y resultado de la diferencia.

171


CAPITULO 5. SEGMENTACION

172

Figura 5.28: Imagen original y procesada por el operador Marr-Hildreth.

produce bordes dobles. Un empleo mas adecuado para este operador consiste en encontrar la
ubicacion del borde a traves de su propiedad de paso por cero. Este concepto esta basado en la
convolucion de una imagen con el laplaciano de una funcion gaussiana de la forma,
2

x + y2
h(x, y) = exp
2 2
Este operador tambien recibe el nombre de operador de Marr-Hildreth. La ecuacion del laplaciano
para esta funcion se puede escribir como,

h=

r2 2
4

r2
exp 2 ,
2

r2 = x2 + y 2

las imagenes de las figuras 5.28 y 5.29 muestran el resultado de la aplicacion de este operador.
La utilidad de este operador esta en realidad en sus cruces por cero, figura 5.30.

5.2.4

Enlazado de Bordes y Detecci


on de Lmites

Las tecnicas descriptas anteriormente deberan obtener solo pixeles situados en el limite entre
regiones. En la practica esto no sucede debido al ruido, a las interrupciones debido a iluminacion

DE DISCONTINUIDADES
5.2. DETECCION

173

Figura 5.29: Imagen original y procesada por el operador Marr-Hildreth.

Figura 5.30: Imagen original y resultado de la convoluci


on con la funcion Laplaciano de una
gaussiana. binarizacion de la imagen anterior por deteccion de los cruces por cero y la imagen de
los cruces por cero.


CAPITULO 5. SEGMENTACION

174

no uniforme as como otras discontinuidades espurias. Por esta razon despues de la deteccion de
contornos se continua con procedimientos de enlazado y de deteccion de limites apropiados para
reunir los pixeles del borde en limites que posean sentido.
Para esto se utilizan varias tecnicas, como,
Procesamiento local
Transformada de Hough
Teora de grafos
Uno de los procedimientos mas simples para enlazar puntos de borde consiste en analizar las
caractersticas de los pixeles en una vecindad de cada uno de los puntos (x, y) de una imagen que
ha sufrido una deteccion de bordes. De esta manera todos los puntos que son similares en alg
un
sentido se enlazan formando un lmite.
Las dos propiedades principales utilizadas para esto son:
La intensidad de la respuesta del operador gradiente
La direccion del gradiente
La primera propiedad esta dada por la magnitud del gradiente como se vio anteriormente. De este
modo un pixel del borde de coordenadas (x0 , y 0 ) y en la vecindad predefinida de (x, y), es similar
en modulo al pixel de (x, y) si,

f (x, y) f (x0 , y 0 ) T
donde T es un umbral no negativo.
La direccion del vector gradiente se utiliza como segunda propiedad. As, un pixel del borde en
(x0 , y 0 ) en la vecindad predefinida de (x, y) tiene un angulo similar al del pixel en (x, y) si,

(x, y) (x0 , y 0 ) A
donde A es un umbral angular.
Como conclusion decimos que, un punto de la vecindad predefinida de (x, y) esta enlazado con el
pixel (x, y) si se satisfacen los criterios de modulo y direccion. Este proceso se repite para cada
punto en la imagen.
Transformada de Hough
La Transformada de Hough es una tecnica que se puede usar para aislar caractersticas de una
forma particular dentro de una imagen. Debido a que se requiere que las caractersticas deseadas

DE DISCONTINUIDADES
5.2. DETECCION

175

Figura 5.31: Transformada de Hough.

se especifiquen en alguna forma parametrica, la transformada de Hough clasica normalmente se


utiliza para la deteccion de curvas regulares como lneas, crculos, elipses, etc. La transformada de
Hough generalizada se puede emplear en aplicaciones donde no es posible una descripcion analtica
simple de una curva. Debido a la complejidad computacional del algoritmo de Hough generalizado,
nosotros restringimos el enfoque principal de esta discusion a la transformada de Hough clasica.
Sin perdida de generalidad la mayora de las aplicaciones contienen caracteristicas de limites que
se pueden describir por curvas regulares. La ventaja principal de la tecnica de la transformada de
Hough es que no necesita del enalzado de puntos de bordes para su utilizacion.
Funcionamiento
Considerese un punto cualquiera, (xi , yi ) y la ecuacion general de una recta en forma explcita,
yi = axi + b. A traves de este punto pasan infinitas rectas, pero cada una de ellas satisfacen la
ecuacion anterior para diversos valores de a y b. Si ahora escribimos la ecuacion anterior en la
forma, b = xi a + yi y considerando el plano a b (espacio parametro) se obtiene la ecuacion de
una u
nica lnea para un par determinado (xi , yi ). Ademas, un segundo punto (xj , yj ) tambien tiene
una lnea en el espacio parametro asociado con el, y esta lnea corta a la lnea asociada con (xi , yi )
en (a0 , b0 ). Esto se muestra en la figura 5.31.
El atractivo del calculo de la transformada de Hough surge de la subdivision del espacio parametro
en las denominadas celulas acumulador donde (amin , amax ) y (bmin , bmax ) son los rangos esperados
de la pendiente y ordenada al origen, como se observa en la figura 5.32. La celula de coordenadas
(i, j), con valor de acumulador A(i, j), corresponde al cuadrado asociado con las coordenadas del
espacio parametro (ai , bj ). Inicialmente estas celulas estan en cero. Despues para cada punto
(xk , yk ) del plano imagen, se fija el parametro a igual a cada uno de los valores permitidos de subdivision en el espacio parametro y se resuelve para el b correspondiente, por medio de la ecuacion
b = xk a + yk . Las b resultantes se redondean a los valores permitidos para estas en el espacio
parametro. Si una eleccion ap resulta ser la solucion bq , se incrementa el acumulador correspondiente, es decir, A(p, q) = A(p, q) + 1. Al final de este procedimiento, un valor de M en el acumulador
A(i, j) indica que M puntos del plano imagen estan situados en la lnea y = ai x + bj . La presicion
de la colinearidad de estos puntos esta determinada por el n
umero de subdivisiones del plano a b.
Un problema que aparece al utilizar la ecuacion explicita de la recta


CAPITULO 5. SEGMENTACION

176

Figura 5.32: Espacio parametro, celulas acumulador.

y = ax + b
es que tanto la pendiente como la ordenada al origen tienden a infinito cuando la lnea se acerca a
la vertical. Una forma de evitar esto es expresar la ecuacion de la recta en forma normal, es decir,
x cos + y sin =
donde es la longitud de una normal desde el origen a esta lnea y es la orientaci
on con respecto
al X-eje, figura 5.33. Para cualquier punto (x, y) en esta lnea, y es constante. El empleo de esta
representacion en la construccion de una tabla de acumuladores es identico al metodo expuesto para
la representacion punto-pendiente. Sin embargo, en lugar de lneas rectas, los lugares geometricos
son curvas sinusoidales en el plano .
El rango del angulo es 90 , medidos respecto del eje horizontal. Entonces una recta horizontal
posee un de 0 , siendo igual a la x positiva. De forma similar, una lnea vertical tiene un de
90 , siendo igual a la y positiva o = 90 y igual a la y negativa. En la figura 5.34 se observa
la grafica de la recta en forma polar y el espacio parametro con las celulas acumulador.
Se puede usar este mismo procedimiento para detectar otras caractersticas con descripciones
analticas. Por ejemplo, en el caso de crculos, la ecuacion parametrica es,
(x a)2 + (y b)2 = r2
donde a y b son las coordenadas del centro del crculo y r es el radio. En este caso, la complejidad
computacional del algoritmo se incrementa pues se tienen tres coordenadas en el espacio parametro
y un acumulador 3D. (En general, el calculo y el tama
no del arreglo de acumuladores se incrementa

DE DISCONTINUIDADES
5.2. DETECCION

Figura 5.33: Grfica de una recta en forma polar.

Figura 5.34: Recta polar y espacio parametro.

177

178

CAPITULO 5. SEGMENTACION

Figura 5.35: Imagen original e imagen procesada por un detector de contorno. Aqu se puede ver
el contorno total en la imagen, pero este resultado nada dice acerca de la identidad y cantidad de
puntos. Se puede entonces utilizar la transformada de Hough (deteccion de lneas) para detectar
los ocho segmentos de lnea recta separados e identificar la estructura geometrica verdadera de la
imagen.

polinomicamente con el n
umero de parametros. As, la tecnica de Hough basica descrita aqu es
solo practica para curvas simples.)
La transformada de Hough se usa para identificar los parametros de una curva que mejor se ajuste a
un conjunto de puntos dados. Esta descripcion de borde normalmente se obtiene de un operador de
deteccion de contorno como el operador de Roberts, Sobel o detector Canny. El resultado de esta
operacion puede ser ruidosa, es decir puede contener multiple fragmentos de bordes correspondiente
a un u
nico contorno total. Ademas, como la salida de un descriptor de bordes solo define donde esta
el contorno en una imagen, el trabajo de la transformada de Hough es determinar cuales puntos
forman parte del contorno y cuantos de ellos existen en la imagen.
Para ilustrar la transformada de Hough en detalle, nosotros comenzamos con la imagen simple de
dos rectangulos, uno debajo del otro, que se muestra en la figura 5.35.
Aplicando la transformada de Hough se genera una curva en el espacio polar para cada punto del
contorno en el espacio cartesiano. El arreglo de acumuladores visto como una imagen toma la forma
de la figura 5.36
Las curvas generadas por puntos colineales en la imagen gradiente se interceptan en picos en el
espacio de la transformada de Hough. Estos puntos intersecci
on caracterizan los segmentos de
lneas rectas de la imagen original. Existen metodos que se pueden emplear para extraer estos
puntos brillantes , o maximos locales, del arreglo de acumuladores. Por ejemplo, un metodo simple
involucra una umbralizacion y luego la aplicacion de alguna tecnica de afinado para aislar grupos

DE DISCONTINUIDADES
5.2. DETECCION

179

Figura 5.36: Espacio parametro visto como una imagen. Las imagenes corresponden al espacio
parametro original y con compresion de rango dinamico.

de puntos brillantes. Tambien se puede usar una umbralizaci


on relativa para extraer los puntos
correspondientes a cada segmento de lnea recta que corresponden al contorno en la imagen original.
(En otras palabras se toman solo aquellos maximos locales en el arreglo acumulador cuyos valores
son iguales o mas grandes que alg
un porcentaje fijo del maximo global. Antitransformando se
obtiene un conjunto de descripciones de lneas. Solapando la imagen original con la obtenida por
la antitransformada se confirma el resultado de los 8 segmentos obtenidos por la transformada de
Hough y se revela la geometra oculta de la escena oculta. La imagen de la figura 5.37 muestra las
lneas detectadas por este metodo.
Notar que la exactitud del alineamiento de la lneas en la imagen original y detectadas no es perfecto,
esto se debe a la cuantizacion del arreglo acumulador. Tambien hay que notar que un segmento
en la imagen original da lugar a m
ultiples lneas detectadas, debido a picos con valores similares y
cercanos en el espacio parametro. Existen tecnicas para controlar esta efecto. Las lneas generadas
por la transformada de Hough tienen longitud infinita. Si se desea identificar los segmentos de
lneas reales se requiere de un analisis de imagen posterior para ver que porciones de estas lneas
pertenecen a un objeto.
Para ilustrar la robustez de la transformada de Hough frente al ruido, se ha sumado un 1% de ruido
tipo sal y pimienta a la imagen entregada por el detector de contorno como se observa en la figura
5.38
El resultado obtenido en este caso es se muestra en la figura 5.39.
Se puede analizar la sensibilidad de la transformada de Hough a discontinuidades en el contorno
detectado, por ejemplo las figuras 5.40 y 5.41 muestran la imagen original, el espacio parametro
obtenido y la deteccion de lneas.

180

CAPITULO 5. SEGMENTACION

Figura 5.37: Lneas detectadas por la transformada de Hough.

Figura 5.38: Imagen con ruido y espacio parametro.

DE DISCONTINUIDADES
5.2. DETECCION

Figura 5.39: Lneas detectadas en una imagen contaminada con ruido.

Figura 5.40: Imagen con bordes discontinuos y espacio parametro obtenido.

181


CAPITULO 5. SEGMENTACION

182

Figura 5.41: Lneas detectadas y superpuestas con la imagen original.

Ahora se muestra el uso de la transformada de Hough con imagenes reales. En el primer caso, la
imagen de una ciudad donde los edificios estan obstruidos por la niebla, figuras 5.42 y 5.43. La
imagen de la figura 5.44 muestra una umbralizaci
on menos selectiva lo que produce mayor cantidad
de lneas detectadas.

5.2.5

Teora de Grafos

El metodo presentado anteriormente esta basado en la obtencion de un conjunto de puntos del borde
por medio de una operacion gradiente. Como el gradiente es una derivada, rara vez es apropiada
en situaciones caracterizadas por un alto contenido de ruido. En esta seccion vamos a presentar un
metodo global basado en la representacion de segmentos del borde en forma de grafo y buscando
en el los caminos de menor coste que corresponden a bordes significativos. Esta representaci
on
proporciona una aproximacion robusta que presenta un buen rendimiento en presencia de ruido.
Como era de esperar, el procedimiento es considerablemente mas complicado y necesita un mayor
tiempo de procesamiento que en los metodos expuestos anteriormente.
Comenzaremos el desarrollo con algunas definiciones basicas.
Un grafo G = (N, A) es un conjunto finito, no vaco de N nodos, junto con un conjunto de A pares
desordenados de distintos elementos de N . Cada par (ni , nj ) de A se denomina arco.
Un grafo cuyos arcos tienen una direccion se denomina grafo dirigido. Si un arco esta dirigido del
nodo ni al nj , entonces nj se dice que es un sucesor de su nodo padre ni . El proceso de identificar
a los sucesores de un nodo se denomina expansion del nodo. En cada grafo se definen niveles, de
los que el nivel cero se compone de un solo nodo simple, denominado nodo de salida, y los nodos

DE DISCONTINUIDADES
5.2. DETECCION

Figura 5.42: Imagen de una ciudad y la deteccion de contornos realizada.

Figura 5.43: Espacio parametro y deteccion de lneas. Umbral relativo del 70%.

183


CAPITULO 5. SEGMENTACION

184

Figura 5.44: Imagen de lneas detectadas con un umbral relativo mas generoso, es decir del 50%.

del u
ltimo nivel se denominan nodos destino. Se puede asociar un coste c(ni , nj ) con cada arco
(ni , nj ). Una sucesion de nodos nl , n2 , . . . , nk en la que cada nodo ni es un sucesor del nodo nil
se denomina un camino desde nl a nk , siendo el coste del camino:

c=

k
X

c(ni1 , ni )

i=2

Finalmente, un elemento del borde es el lmite entre dos pixeles p y q, tales que p y q son 4-vecinos.
En este contexto, un borde es una sucesion de elementos del borde.
Se puede comprobar la aplicacion de los conceptos precedentes a la deteccion de bordes con la
imagen 3 3 que se muestra en la Figura, donde los n
umeros externos son coordenadas de pixeles
y los n
umeros entre parentesis representan la intensidad, figura 5.45. Cada elemento del borde
definido por los pixeles p y q tiene un coste asociado, definido como:
c(p, q) = H [f (p) f (q)]
donde H es el mayor valor de la intensidad en la imagen (7 en este caso), f (p) es el valor de la
intensidad de p y f (q) es el valor de la intensidad de q.
La figura 5.46 muestra el grafo de este problema. Cada nodo corresponde a un elemento de un
borde, y existe un arco entre dos nodos si los dos elementos correspondientes incluyen una sucesion
que puede ser parte de un borde. El coste de cada elemento del borde, calculado al utilizar la
ecuacion anterior, es el arco que conduce a el, y los nodos destino se muestran como rectangulos
sombreados. Cada camino entre el nodo de salida y el nodo destino es un posible borde.

DE DISCONTINUIDADES
5.2. DETECCION

Figura 5.45: Porci


on de imagen.

Figura 5.46: Grafo correspondiente a la imagen anterior.

185


CAPITULO 5. SEGMENTACION

186

Para simplificar, se supone que el borde comienza en la fila superior y termina en la ultima fila,
de forma que el primer elemento de un borde puede ser solamente [(0, 0), (0, 1)] o [(0, 1), (0, 2)] y el
u
ltimo elemento [(2, 0), (2, 1)] o [(2, 1), (2, 2)]. Las lneas de trazos representan el camino de coste
mnimo, calculado al utilizar la ecuacion anterior. En general, el problema de encontrar un camino
de coste mnimo no es trivial en terminos de calculo. De forma caracterstica, el metodo consiste
en sacrificar optimizacion en beneficio de la velocidad, y los algoritmos siguientes representan a
una clase de procedimientos que utilizan heursticas con el fin de reducir el esfuerzo de b
usqueda.
Sea r(n) una estimacion del coste de un camino de coste mnimo desde el nodo de salida s hasta el
nodo destino, con la restriccion de que el camino debe pasar por n. Este coste se puede expresar
como la estimacion del coste de un camino de coste mnimo desde s a n m
as la estimacion del coste
de ese camino desde n hasta el nodo destino, esto es:
r(n) = g(n) + h(n)
Aqu, g(n) se puede elegir como el camino de menor coste desde s hasta n de los encontrados hasta
ahora, y h(n) se obtiene utilizando cualquier informacion heurstica disponible (como el expandir
solamente ciertos nodos basandose en costes previos obtenidos de dicho nodo). A continuaci
on se
muestra un algoritmo que utiliza r(n) como base para llevar a cabo una b
usqueda en grafos:
Paso 1 Marcar el nodo de salida como ABIERTO y poner g(s) = 0.
Paso 2 Si no hay ning
un nodo ABIERTO terminar con incidencia; en caso contrario, continuar.
Paso 3 Marcar como CERRADO el nodo ABIERTO n cuya estimacion r(n) calculada por la
ecuacion anterior es la menor de todas. (Limitar al mnimo los valores de r que se han
resuelto arbitrariamente, pero siempre en favor de un nodo destino).
Paso 4 Si n es un nodo destino, terminar con el camino solucion obtenido al volver hacia atras
seg
un los punteros; en caso contrario, continuar.
Paso 5 Expandir el nodo n, generando todos sus sucesores. (Si no hay sucesores, ir al paso 2.)
Paso 6 Si un sucesor ni no esta marcado, poner:
r(ni ) = g(n) + c(n, ni )
marcarlo como ABIERTO, y dirigir punteros desde el hacia n.
Paso 7 Si un sucesor ni esta marcado como CERRADO o ABIERTO, actualizar su valor poniendo:
g 0 (ni ) = min[g(ni ), g(n) + c(n, ni )]
Marcar como ABIERTO a los sucesores de CERRADO cuyos valores g 0 han disminuido en
consecuencia y redirigir hacia n punteros desde todos los nodos cuyos valores g 0 han disminuido. Ir al paso 2.

DE DISCONTINUIDADES
5.2. DETECCION

187

En general, este algoritmo no garantiza un camino de coste mnimo; su ventaja es que aumenta la
velocidad por medio de la utilizacion de heursticas. Sin embargo, si h(n) es un lmite inferior del
coste del camino de coste mnimo del nodo n al nodo destino, el procedimiento produce realmente un
camino optimo hacia el nodo destino (Hart, Nilsson y Raphael [19681). Si se dispone de informacion
no heurstica (esto es, hcoincide con 0), el procedimiento se reduce al algoritmo de coste uniforme
de Dijkstra [1959].

5.2.6

Umbralizaci
on (Thresholding)

Descripci
on
En muchas aplicaciones de vision artificial, es u
til poder separar las regiones de la imagen que
corresponden a objetos en los que se esta interesado, de las regiones de la imagen que corresponde
al fondo. La umbralizacion (Thresholding) proporciona a menudo una manera facil y conveniente
de realizar esta segmentacion en base a intensidades diferentes o colores entre el el fondo y los
objetos.
Ademas, es a menudo u
til poder ver que areas de una imagen consisten en pixeles cuyos valores
yacen dentro de un rango especificado, o banda de intensidades (o colores). Thresholding tambien
puede usarse para esto.
Funcionamiento
La entrada a una operacion de thresholding es tpicamente una imagen de niveles de gris o una
imagen color. En la aplicacion mas simple, la salida es una imagen binaria que representa la
segmentacion.
Los pixeles negros corresponden al fondo y los pixeles blancos correspondan al primer plano (o
viceversa). En aplicaciones simples, la segmentaci
on se determina por un solo parametro conocido
como el umbral de intensidad. En un solo paso, cada pixel en la imagen se compara con este umbral.
Si la intensidad del pixel es mas alta que el umbral, el pixel se coloca por ejemplo en blanco en la
salida. Si es menor que el umbral, se coloca en negro.
En aplicaciones mas sofisticadas, se pueden especificar umbrales m
ultiples, tal que una banda de
valores de intensidad pueda ponerse en blanco mientras que todo lo demas se coloca en negro. Para
imagenes color o multi-espectrales, puede ser posible colocar umbrales diferentes para cada canal
de color, y as seleccionar exactamente aquellos pixeles dentro de un cubo especfico en el espacio
de RGB. Otra variante com
un es colocar en negro todos aquellos pixeles que corresponden al fondo,
pero dejar los pixeles del primer plano con su color/intensidad original (como opuesto a forzarlos a
blanco), para que esa informacion no se pierda.
No todas las imagenes se pueden segmentar facilmente en objetos y fondo usando la tecnica de
thresholding. Si una imagen se puede o no segmentar correctamente se determina analizando el
histograma de intensidad de la imagen.
Si es posible separar el primer plano de una imagen en base a la intensidad de los pixeles, entonces, la

188

CAPITULO 5. SEGMENTACION

Figura 5.47: Histogramas tpicos y sus umbrales.

Figura 5.48: Imagen y su histograma bi-modal.

intensidad de los pixeles dentro de los objetos del primer plano deben ser diferentes de la intensidad
de los pixeles del fondo. En este caso, se espera ver un pico distinto en el histograma que corresponde
al primer plano tal que se pueda escoger un umbral que permita aislar este pico. Si tal pico no
existe, entonces es improbable que la tecnica de thresholding produzca una buena segmentaci
on.
En este caso, la tecnica de thresholding adaptable pueden ser una alternativa mejor.
La figura 5.47 muestra algunos histogramas tpicos junto con las opciones mas convenientes de
umbral.
La Figura 5.47A) muestra una distribucion de intensidad bi-modal clasica. Esta imagen que usa
un solo umbral T1 se puede segmentar con exito. la figura 5.47B) muestra que la segmentaci
on
con umbral u
nico es mas complicada de obtener. Aqu se supone que el pico central representa los
objetos de interes y por lo tanto se necesitan dos umbrales: T1 y T2 . En la figura 5.47C), los dos
picos de la distribucion bi-modal estan como fusionados y no es posible segmentar esta imagen con
exito utilizando un u
nico umbral global.
Por ejemplo, la figura 5.48 muestra una imagen y su histograma. Este muestra una distribucion
bimodal. El pico menor representa el objeto y el mas alto el fondo. La imagen se puede segmentar
utilizando un umbral u
nico de valor 120. La figura 5.49 muestra el resultado de la umbralizaci
on
antes mencionada.

DE DISCONTINUIDADES
5.2. DETECCION

189

Figura 5.49: Resultado de la umbralizaci


on con valor 120.

Las tecnicas de thresholding se pueden dividir en:


Thresholding global simple.
Thresholding optimo.
Thresholding basado en las caractersticas de lmite.
Thresholding Adaptable.
Thresholding Global Simple
La mas sencilla de todas las tecnicas de umbralizaci
on es la particion del histograma de una imagen
utilizando un umbral u
nico, T . La segmentaci
on se completa entonces escaneando la imagen pixel
a pixel y etiquetando cada pixel como perteneciente al objeto o al fondo, dependiendo de que el
nivel de gris de ese pixel sea mayor o menor que el valor de T . Como se indico antes, el exito de
este metodo depende totalmente de como se pueda dividir el histograma. El objetivo clave de la
segmentacion por esta tecnica no es mas que generar una imagen binaria. En la practica, el tipo
de umbralizacion global que se acaba de describir se puede esperar que tenga exito en los entornos
muy bien controlados. Uno de los campos en los que esto es posible a veces es en las aplicaciones de
inspeccion industrial, donde habitualmente es factible el control de la iluminacion. Se recuerda que
la iluminacion desempe
na un papel determinante en el establecimiento de la forma del histograma
de la imagen resultante.
Thresholding Optimo
Supongase que una imagen contiene solamente dos regiones de brillo principales. El histograma
de una imagen de este tipo se puede considerar como una estimacion de la funcion densidad de


CAPITULO 5. SEGMENTACION

190

probabilidad de brillo, p(z). Esta funcion de densidad total es la suma o mezcla de dos densidades
unimodales, una para las regiones claras de la imagen y la otra para las oscuras. Ademas, los
parametros de la mezcla son proporcionales a las superficies de cada region de brillo. Si se conoce
o se supone la forma de las densidades de probabilidad, se puede determinar un umbral optimo (en
terminos del error mnimo) para segmentar la imagen en las dos regiones de brillo.
Supongamos que una imagen contiene dos valores combinados con ruido aditivo gaussiano. La
funcion de densidad de probabilidad de la mezcla es:
p(z) = P1 p1 (z) + P2 p2 (z)
que para el caso gaussiano , es:

P1
(z 1 )2
(z 2 )2
P2
p(z) =
exp
exp
+
212
222
21
22
donde 1 y 2 son los valores medios de los dos niveles de brillo, 1 y 2 son las desviaciones
estandar respecto a la media, y P1 y P2 son las probabilidades a priori de los dos niveles. Se debe
satisfacer la restriccion:
P1 + P2 = 1
por lo que la densidad de la mezcla tiene cinco parametros desconocidos. Si se conocen todos los
parametros, se puede determinar con facilidad el umbral optimo.
Sup
ongase que las regiones oscuras corresponden al fondo y que las claras corresponden a los
objetos. En este caso 1 < 2 , y se puede definir un umbral T de forma que todos los pixels con
nivel de gris superior a T se consideren puntos objeto.
La probabilidad de clasificar (erroneamente) un punto objeto como un punto del fondo es:
ZT
E1 (T ) =

p2 (z)dz

De forma similar, la probabilidad de clasificar un punto del fondo como un punto objeto es:
Z
E2 (T ) =

p1 (z)dz
T

Por lo tanto, la probabilidad total del error es:


E(T ) = P2 E1 (T ) + P1 E2 (T )

DE DISCONTINUIDADES
5.2. DETECCION

191

Para encontrar el valor del umbral para el que el error sea mnimo se necesita derivar E(T ) con
respecto a T (utilizando la regla de Leibnitz) e igualar el resultado a 0. As:
P1 p1 (T ) = P2 p2 (T )
Aplicando este resultado a la densidad gaussiana, tomando logaritmos, y simplificando, se obtiene
la ecuacion cuadratica:
AT 2 + BT + C = 0
donde:
A = 12 22 B = 2(1 22 2 12 )
C = 12 22 22 21 + 212 22 ln( 12 PP21 )
La posibilidad de tener dos soluciones indica que se pueden necesitar dos valores de umbral para
obtener la solucion optima.
Si las varianzas son iguales, = 1 = 2 , es sufciente con un umbral u
nico:
T =

1 + 2
2
P2
+
ln( )
2
1 2
P1

Si las probabilidades anteriores son iguales, P1 = P2 el umbral optimo es el promedio de las medias.
Lo mismo es valido para = 0. La determinacion del umbral optimo se puede realizar de forma
similar para otras densidades de un solo modo de la forma conocida, tales como la de Raleigh y
la normal. Se puede utilizar un metodo de error medio por mnimos cuadrados para estimar los
parametros de una imagen a partir de un histograma. Por ejemplo, el error cuadratico medio entre
la densidad de la mezcla p(z) y el histograma experimental h(zi ) es:
ems =

1
n

n
P
i=1

[p(zi ) h(zi )]2

donde se ha supuesto un histograma de n puntos.


En general, la determinacion analtica de los parametros que minimizan este error cuadratico medio
no es un tema sencillo. No obstante, para el caso gaussiano, el calculo directo de igualar las
derivadas parciales a 0 conduce a un conjunto de ecuaciones simult
aneas trascendentes que normalmente solo se pueden resolver por procedimientos numericos. Dado que el gradiente se puede
calcular facilmente, es posible utilizar para minimizar ems un gradiente conjugado o un metodo
de Newton para ecuaciones no lineales simult
aneas. Con cualquiera de estos metodos iterativos,
se pueden especificar los valores de salida. Puede ser suficiente con suponer que a priori todas las
probabilidades son iguales. Los valores de salida para las medias y las varianzas se pueden determinar detectando modos en el histograma o simplemente dividiendo el histograma en dos partes


CAPITULO 5. SEGMENTACION

192

respecto a su valor medio, y calculando las medias y varianzas de las dos partes para utilizarlas
como valores de salida.
Thresholding basado en el Lmite
Uno de los aspectos mas importantes de la seleccion de umbral es la capacidad de identificar
fidedignamente los picos del modo de un histograma dado. Esta capacidad es particularmente
importante para la seleccion automatica de umbrales en situaciones donde las caractersticas de
una imagen pueden variar en un amplio rango de distribuciones de intensidad. Basandose en la
presentacion anterior, es evidente de forma intuitiva que las posibilidades de seleccionar un buen
umbral aumentan considerablemente si los picos del histograma son altos, estrechos, simetricos y
separados por valles profundos. Un metodo de mejorar la forma de los histogramas es considerar
solamente aquellos pixels que estan situados en el lmite entre los objetos y el fondo o cerca de el.
Una de las evidentes e inmediatas mejoras es que los histogramas podran ser menos dependientes
de los tama
nos relativos de los objetos y el fondo. Por ejemplo, el histograma de intensidad de una
imagen compuesta por una gran zona de fondo aproximadamente constante y un objeto peque
no
podra estar dominado por un gran pico como consecuencia de la alta concentraci
on de pixels del
fondo.
Pero, si solamente se utilizan los pixeles que estan sobre o cerca del limite entre el objeto y el
fondo, el histograma resultante podra tener picos de aproximadamente la misma altura. Ademas,
la probabilidad de que cualquiera de los pixels dados este situado en un objeto podra ser aproximadamente igual a la probabilidad de que este situado en el fondo, y de este modo se mejora la
simetra de los picos del histograma. Finalmente, el empleo de pixeles que satisfacen alguna de las
medidas sencillas basadas en los operadores gradiente y laplaciano tienen tendencia a hacer mas
profundos los valles entre los picos del histograma. El principal problema del metodo que se acaba
de presentar es la suposicion implcita de que se conoce el lmite entre los objetos y el fondo. Esta
informacion no esta claramente disponible durante la segmentaci
on, si se encuentra una division
entre objetos y fondo, precisamente porque la segmentaci
on esta por todas partes.
Ademas, el empleo del laplaciano puede proporcionar informacion respecto a si un pixel dado esta
situado en la parte oscura (fondo) o clara (objeto) de un borde. El valor medio del laplaciano es cero
en la transicion de un borde, por lo que en la practica los valles de los histogramas formados por los
pixeles seleccionados por un criterio de gradiente/laplaciano, se puede esperar que esten escasamente
poblados. Esta propiedad produce los deseados valles profundos presentados anteriormente. El
gradiente en cualquier punto (x, y) de una imagen y el Laplaciano estan dados por las ecuaciones
vistas anteriormente. Estas dos cantidades se pueden utilizar para formar una imagen de tres
niveles, de la siguiente forma:

0 si f < T
+ si f T y 2 f 0
s(x, y) =

si f T y 2 f < 0
donde los smbolos 0, + y - representan tres niveles de gris cualquiera distintos, T es un umbral, y
el gradiente y el laplaciano se calculan para todos los puntos (x, y). Para un objeto oscuro sobre

DE DISCONTINUIDADES
5.2. DETECCION

193

fondo claro se produce una imagen s(x, y) en la que todos los pixeles que no estan en un borde estan
marcados con 0, todos los del lado oscuro de un borde estan marcados con +, y todos los del lado
claro estan marcados con -. Los smbolos + y - de la ecuacion anterior se invierten en el caso de un
objeto claro sobre un fondo oscuro. La informacion que se obtiene al utilizar este procedimiento
se puede emplear para generar una imagen binaria segmentada en la que los 1 corresponden a los
objetos de interes y los 0 al fondo. La transicion (a lo largo de una lnea de exploracion horizontal
o vertical) desde un fondo claro a un objeto oscuro debe estar caracterizada por la aparicion en
s(x, y) de un - seguido de un +. El interior del objeto esta compuesto de pixeles marcados bien
como 0 o como +. Finalmente, la transicion desde el objeto hacia el fondo esta caracterizada por
la aparicion de un + seguido de un -.
De este modo, una lnea de exploracion horizontal o vertical que contiene una seccion de un objeto
tiene la siguiente estructura:
(. . .)(, +)(0o+)(+, )(. . .)
donde (. . .) representa cualquier combinaci
on de +, - y 0. Los parentesis mas internos contienen
puntos objeto y estan marcados con 1. Todos los otros pixeles sobre la misma lnea de exploracion
estan etiquetados con 0, con la excepcion de cualquier otra sucesion de (0 o +) encerrada entre
(, +) y (+, ).
Thresholding Adaptivo
Mientras las tecnicas de thresholding convencional utiliza un umbral global para todos los pixeles,
el thresholing adaptivo cambia el umbral dinamicamente para todos los pixeles. Esta versi
on mas
sofisticada de thresholding puede acomodar el valor del umbral a cambios en las condiciones de
iluminacion, por ejemplo, aquellas que ocurren como resultado de un gradiente de iluminacion
alto o sombras. La tecnica de thresholding adaptivo tpicamente toma como entrada una imagen
monocromatica o color y en su implementaci
on mas simple genera como salida una imagen binaria
representando la segmentacion. Para cada pixel en la imagen, se debe calcular un umbral. Si el
valor del pixel esta por debajo del umbral, este se coloca con el valor del fondo, en otro caso asume
el valor del frente.
Existen 2 metodos para encontrar el umbral:
1. El metodo de Chow y Kanenko
2. El thresholding local
La suposicion detras de ambos metodos es que regiones mas peque
nas de la imagen poseen iluminacion mas uniforme, siendo mas adecuadas para seleccionar un umbral. Chow y Kanenko dividen
una imagen en un arreglo de subimagenes que se solapan y luego encuentran el mejor umbral para


CAPITULO 5. SEGMENTACION

194

cada subimagen investigando su histograma. El umbral para cada pixel se encuentra por interpolacion de los resultados de las subimagenes. La desventaja de este metodo es la complejidad
computacional y por lo tanto no es apropiado para aplicaciones en tiempo real.
Una alternativa para encontrar el umbral local es examinar estadsticamente los valores de intensidad de la vecindad local de cada pixel. Funciones estadsticas simples y rapidas incluyen la media
de la distribucion de intensidades local,
T = media
el valor de la mediana,
T = mediana
o la media de los valores maximos y mnimos,
T =

(max min)
2

El tama
no de la vecindad debe ser lo suficientemente grande para cubrir suficientes pixeles del frente
y del fondo. Por otro lado, eligiendo regiones demasiado grandes pueden violar la suposicion de
iluminacion uniforme. Ese metodo es menos costoso computacionalmente que el anterior y produce
resultados bastante buenos para muchas aplicaciones.
Ejemplos de Umbralizaci
on
La figura 5.50 muestra una imagen y su histograma. Claramente se observa que este no es bimodal.
La obtencion de un umbral apropiado es dificil como se puede observar en las figuras 5.51 y 5.52.
Debido al severo gradiente de iluminacion en la escena, los picos correspondientes al frente y al
fondo y la tecnica de thresholding global no arroja buenos resultados T = 80 y T = 120.
La tecnica de Thresholding se utiliza para filtrar la salida de otros operadores. Por ejemplo, la salida
de un detector de contornos como Sobel dejara brillante regiones de la imagen con alto gradiente
espacial. Si solo estamos interesados en el contorno, entonces se puede usar thresholding para
seleccionar el contorno mas agudo y colocar todo lo demas en negro. Como un ejemplo considere
la imagen de la figura 5.53. La figura 5.54 muestra la aplicacion del detector de bordes de Sobel y
posteriormente la umbralizacin correspondiente.
La tecnica de thresholding se puede usar para extraer un subconjunto de estructuras interesantes
las cuales deben ser pasadas a otro operador en la cadena de procesamiento. Por ejemplo, la imagen
de la figura 5.55 muestra tejido del cerebro en el cual se pueden apreciar las celulas nerviosas (es
decir, grandes globulos grises con n
ucleos circulares mas oscuros en el centro) y otras celulas (es
decir, los crculos negros, peque
nos aislados. Se puede umbralizar esta imagen tal que los niveles
de gris entre 0 y 150 se conviertan en pixeles del frente y lo demas en el fondo

DE DISCONTINUIDADES
5.2. DETECCION

Figura 5.50: La imagen y su histograma.

Figura 5.51: Resultado de umbralizaci


on con valor 80.

195

196

CAPITULO 5. SEGMENTACION

Figura 5.52: Resultado de umbralizaci


on con valor 120.

Figura 5.53: Imagen de un cuadrado.

DE DISCONTINUIDADES
5.2. DETECCION

Figura 5.54: Imagen de la deteccion de bordes y la umbralizaci


on.

Figura 5.55: Imagen de un preparado de celulas nerviosas.

197

198

CAPITULO 5. SEGMENTACION

Figura 5.56: Resultado de la umbralizaci


on y etiquetado por colores.

La imagen resultante se puede conectar y etiquetar para contar el numero total de celulas en la
imagen original, como se muestra en la figura 5.56,
Si se desea conocer cuantas celulas nerviosas hay en la imagen original, se podra aplicar una umbralizacion doble para seleccionar u
nicamente los pixeles que corresponden a las celulas nerviosas.
En sensado remoto y aplicaciones en medicina, tal umbral se denomina seccion de densidad. Aplicando un umbral a la banda de 130-150 conduce a la imagen que se muestra en la figura 5.57.
Mientras la mayora de los pixeles blancos corresponden a celulas nerviosas, estan tan desconectadas entre si que no se pueden etiquetar. Alternativamente, se podran obtener mejores resultados
investigando algunos atributos, por ejemplo, tama
no.
Una tarea adecuada para thresholding adaptivo es en la segmentaci
on de texto. Por ejemplo la
imagen de la figura 5.58.
Debido a que esta imagen posee un alto gradiente de iluminacion, la tecnica de thresholding global
produce resultados poco satisfactorios, figura 5.59.
Usando la media de una vecindad de 7 7 elementos, el thresholding adaptivo conduce a la imagen
que se muestra en la figura 5.60. El metodo es exitoso en el area alrededor del texto debido a que
hay suficientes pixeles del fondo y del texto en la vecindad local. Es decir, el valor medio yace entre
los valores de intensidad del frente y del fondo y por lo tanto pueden separarse facilmente. Sobre
el margen, sin embargo, la media del area local no es adecuada como un umbral, debido a que el
rango de valores de intensidad dentro de la vecindad local es muy peque
na y su media esta muy
cerca del valor del pixel central.
La situacion anterior se puede mejorar si el umbral empleado no es la media sino la media-C, donde
C es una constante. Usando esta funcion estadstica, a todos los pixeles que existen en una vecindad

DE DISCONTINUIDADES
5.2. DETECCION

Figura 5.57: Resultado de la segunda umbralizaci


on.

Figura 5.58: Imagen de una hoja con texto y gradiente de iluminacion.

199

200

CAPITULO 5. SEGMENTACION

Figura 5.59: Resultado de la umbralizaci


on global simple.

Figura 5.60: Aplicacxion de la umbralizaci


on adaptiva.

DE DISCONTINUIDADES
5.2. DETECCION

201

Figura 5.61: Umbralizacion adaptiva con media-C, para una vecindad de 7 7 y C = 7.

uniforme (por ejemplo en los margenes) se les coloca la intensidad del fondo. Los resultados para
una vecindad de 7 7 y C = 7, y para una vecindad de 75 75 y C = 10, se muestran en las figuras
5.60 y 5.61.
En el ejemplo anterior, la vecindad mas grande conduce a resultados mas pobres, ya que es mas
afectado por el gradiente de iluminacion. Tambien, notar que desde el punto de vista computacional
es mas costoso que usar una vecindad peque
na. La imagen de la figura 5.62 muestra el resultado
de usar la mediana en lugar de la media (la vecindad en este caso es de 7 7 y C=4). El resultado
muestra que para esta aplicacion la mediana no es una buena eleccion de funcion estadstica.
Considerese otro ejemplo, de una imagen con un alto gradiente de iluminacion, figura 5.63. Esta
imagen (a) no puede segmentarse con un umbral global (T = 80) (b).
Sin embargo, como la imagen contiene un objeto grande, es difcil aplicar la tecnica de thresholding
adaptivo. Usando la media-C como un umbral local se obtiene la imagen de la figura 5.64 (a) para
una vecindad V = 7 7 y C = 4, la figura (b) para una vecindad V = 140 140 y C = 8.
Todos los pixeles que pertenecen al objeto pero no tiene pixeles del fondo en la vecindad se colocan
con el nivel de gris del fondo. La ultima imagen muestra un resultado mucho mejor que el obtenido
con el umbral global, pero aun se pierden pixeles en el centro del objeto. En muchas aplicaciones,
el calculo de la media de una vecindad (para cada pixel) cuyo tama
no es del orden de 140 140
puede tomar demasiado tiempo. En este caso la tecnica de Chow y Kanenko generara resultados
mejores.

202

CAPITULO 5. SEGMENTACION

Figura 5.62: Umbralizacion adaptiva con mediana, para una vecindad de 7 7 y C = 4.

Figura 5.63: Imagen y su umbralizaci


on global.

ORIENTADA A REGIONES
5.3. SEGMENTACION

203

Figura 5.64: Resultado de la umbralizaci


on adaptiva para dos vecindades y valor de constante
diferente.

La simulacion del efecto producido por un thresholding adaptivo se puede lograr los siguientes
pasos:
1. Convolucionar la imagen con un operador estadstico adecuado, media o mediana
2. Restar la imagen original de la convolucionada
3. Umbralizar la imagen diferencia con C
4. Invertir la imagen obtenida en el paso anterior.

5.3

Segmentaci
on Orientada a Regiones

El objetivo de estas tecnicas de segmentaci


on es dividir una imagen en regiones.

5.3.1

Formulaci
on

Sea R la representacion de la region completa de una imagen. Se puede pensar en la segmentaci


on
como un proceso que divide a R en n subregiones, R1 , R2 , . . . , Rn de forma tal que,
ni=1 Ri = R
Ri es una region conexa, para todo i.
Ri Rj = , i, j i 6= j
P (Ri ) =VERDADERO para i = 1, 2, . . . , n


CAPITULO 5. SEGMENTACION

204

Figura 5.65: Subimagen para el estudio de la tecnica de crecimiento de regiones.

P (Ri Rj ) = FALSO para i distinto de j.


donde P (Ri ) es un predicado logico sobre los puntos del conjunto Ri y es el conjunto vaco. La
primera condicion indica que la segmentacion debe ser completa, esto es, cada pixel de la imagen
debe estar en una region. La segunda condicion requiere que los puntos de una region sean conexos.
La tercera condicion establece que las regiones deben ser disjuntas. La cuarta condicion trata de
las propiedades que deben satisfacer los pixeles de una region segmentada. Finalmente la u
ltima
condicion indica que las regiones Ri y Rj son diferentes en el sentido del predicado P .
La tecnica de segmentacion orientada a regiones se puede estudiar a partir de dos metodos diferentes,
Crecimiento de regiones por agregacion de pixeles.
Division y Fusion de regiones.

5.3.2

Crecimiento de regiones

Este procedimiento agrupa pixeles o subregiones dentro de regiones mas grandes. La sencillez del
metodo radica en la agregacion de pixeles, que comienza con un conjunto de puntos generadores
a partir de los que van creciendo las regiones al agregar a cada uno de estos puntos los pixeles
proximos que tienen propiedades similares (nivel de gris, textura, color, etc.).
Para estudiar este procedimiento se utiliza la subimagen de la figura 5.65,
representada por una matriz en la cual se desea efectuar una particion en dos regiones, A y B,
siguiendo la propiedad: |p q| < T , es decir, un umbral con respecto a los niveles. Si tomamos
como umbral a T = 3, se obtiene el resultado mostrado en la figura 5.66.
En este caso, no importa la seleccion de las races para ninguna de las regiones, sin embargo, resulta
mas importante la seleccion del valor de umbral T . Si T = 8, se obtiene una sola region commo se
muestra en la figura 5.67.

ORIENTADA A REGIONES
5.3. SEGMENTACION

Figura 5.66: Resultado de considerar un umbral T = 3.

Figura 5.67: Resultado de considerar un umbral T = 8.

205

206

CAPITULO 5. SEGMENTACION

Figura 5.68: a) Imagen Original que muestra el punto generador. b)Primeras etapas del crecimiento
de la region.

Figura 5.69: c) etapas intermedias, d) region final encontrada.

Las caractersticas importantes para este metodo son la determinacion de las races iniciales y la
naturaleza de la propiedad de agrupacion.
En el caso de imagenes a color, se emplean los componentes RGB y reglas de segmentaci
on de la
forma:

P (R, x, t) : (fR (k, l) < TR )(fG (k, l) < TG )(fB (k, l) < TB )

Un ejemplo de crecimiento de regiones, para una imagen monocromatica es el mostrado en las


figuras 5.68 y 5.69.

ORIENTADA A REGIONES
5.3. SEGMENTACION

207

Figura 5.70: Arbol Cuaadruple.

5.3.3

Divisi
on y Fusi
on de Regiones

Una alternativa distinta a la anterior consiste en subdividir una imagen inicialmente en un conjunto
de regiones arbitrarias disjuntas y despues fusionar y/o dividir las regiones intentando satisfacer las
condiciones mencionadas anteriormente. Supongase que R representa la region imagen completa
y se selecciona un predicado P de la forma que se menciono anteriormente. Para una imagen
rectangular, un metodo consiste en subdividir sucesivamente en cuadrantes cada vez mas peque
nos
de forma que, para cualquier region Ri , P (Ri ) =VERDADERO. Esto es, si P (R) =FALSO, se
divide la imagen en cuadrantes. Si P es FALSO para cualquier cuadrante, se divide el cuadrante
en subcuadrantes, y as sucesivamente. Esta tecnica de division posee una representaci
on adecuada
en
arbol cu
adruple, como se muestra en la figura 5.70. Observese que la raz del arbol corresponde
a la imagen completa y que cada nodo corresponde a una subdivision.
Si solamente se utiliza la division , la particion final probablemente contenga regiones adyacentes
con propiedades identicas. Este inconveniente puede solucionarse permitiendo tanto fusiones como
divisiones. La satisfaccion de las restricciones requiere fusionar solamente regiones adyacentes cuyos
pixeles combinados satisfacen el predicado P ; esto es, dos regiones adyacentes Rj y Rk se fusionaran
si P (Rj Rk ) =VERDADERO.
Este procedimiento se puede resumir por medio de los siguientes pasos:
1. Dividir en cuatro cuadrantes disjuntos cualquier region Ri donde P (Ri ) =FALSO.
2. Fusionar las regiones adyacentes Rj y Rk para las que se cumpla P (Rj Rk ) =VERDADERO.
3. Detenerse cuando no sea posible realizar mas divisiones o fusiones.
Las iamgenes de las figuras 5.71 y 5.72 ejemplifican este metodo de segmentaci
on.

208

CAPITULO 5. SEGMENTACION

Figura 5.71: Proceso de division y fusion de regiones.

Figura 5.72: Proceso de division y fusion de regiones.

También podría gustarte