Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Segmentaci
on
5.1
Introducci
on
Las tecnicas empleadas para extraer informacion de una imagen se agrupan en lo que se denomina
Analisis de Imagenes. El primer paso dentro del Analisis de imagenes es la Segmentaci
on que se
encarga de la subdivision de la misma en sus partes constitutivas u objetos. El nivel al que se lleva
a cabo esta subdivision depende del problema a resolver, es decir la segmentaci
on debera detenerse
cuando se hayan aislado los objetos de interes. En general la tarea de la segmentaci
on autonoma
es una de las mas difciles del procesamiento de imagenes pues determina el exito o el fracaso del
analisis. Por esta razon se debe poner especial cuidado en aumentar la probabilidad de tener una
segmentacion robusta. Los dise
nadores de sistemas de procesamiento de imagenes con experiencia
prestan invariablemente una considerable atencion a esta etapa del procesamiento de imagenes.
Los algoritmos de segmentacion de imagenes monocromaticas generalmente se basan en una de dos
propiedades de niveles de gris,
discontinuidad
similitud
5.2
Detecci
on de Discontinuidades
El metodo consiste en dividir una imagen basandose en los cambios bruscos de nivel de gris. Existen
tres tipos basicos de discontinuidades: puntos, lneas y bordes. En la practica la forma mas com
un
de ver las discontinuidades es pasar una mascara a traves de la imagen. La respuesta de la misma
para cada pixel es,
R = w1 z1 + w2 z2 + + w9 z9 =
9
X
i=1
155
wi zi
CAPITULO 5. SEGMENTACION
156
5.2.1
Detecci
on de Puntos
La deteccion de puntos aislados de una imagen es directa. Utilizando una mascara se sabe que se
ha detectado un punto en la posicion en la que esta centrada si,
|R| > T
donde T es un umbral no negativo, y R es la medicion con la mascara del pixel evaluado. Basicamente,
todo lo que hace esta formulacion es medir las diferencias ponderadas entre el punto central y sus
vecinos, partiendo de la base que el nivel de gris de un punto aislado sera bastante diferente que el
de sus vecinos.
Una de las mascaras mas utilizadas con este proposito es,
1 1 1
1 8 1
1 1 1
Las imagenes de las figuras 5.1 y 5.2 muestran la deteccion de puntos utilizando la mascara antes
mencionada.
5.2.2
Detecci
on de Lneas
2 1 1
1 2 1
1 1 2
1 1 1
2
2
2 1 2 1 1 2 1 1 2 1
1 1 2
1 2 1
2 1 1
1 1 1
DE DISCONTINUIDADES
5.2. DETECCION
157
Figura 5.2: Imagen original y despues de la deteccion de puntos. Es notable la desaparicion del
fondo, as como la textura de la piel de los animales.
j 6= i
el punto i es el que tendra mayor probabilidad de estar asociado con una lnea en la direccion de
la mascara i. Las imagenes del cangrejo ara
na de las figuras 5.3, 5.4 y 5.5 muestran la deteccion
de lneas en distintas orientaciones.
5.2.3
Detecci
on de Bordes
158
CAPITULO 5. SEGMENTACION
DE DISCONTINUIDADES
5.2. DETECCION
159
f =
q
fm = mag(f ) =
Gx
Gy
"
f
x
f
y
G2x + G2y . Se sabe del analisis vectorial que el gradiente de un vector indica
la direccion de la maxima variacion de la funcion f en (x, y). Un valor importante para la deteccion
160
CAPITULO 5. SEGMENTACION
DE DISCONTINUIDADES
5.2. DETECCION
161
de bordes es la magnitud del vector gradiente, el cual normalmente se lo denomina de igual manera.
El calculo de este valor puede hacerse por dos caminos diferentes, es decir,
fm = mag(f ) =
q
G2x + G2y
o,
fm = mag(f ) |Gx | + |Gy |
La direccion del vector gradiente es tambien una cantidad importante. Del analisis vectorial el
angulo de direccion del vector gradiente en el punto (x, y) con respecto al eje x es,
(x, y) = tan
Gy
Gx
El calculo de las derivadas parciales en forma digital se puede realizar de diversas maneras, especificando la mascara mas conveniente. Las mascaras mas simples que se pueden realizar son,
1
1
1 1
CAPITULO 5. SEGMENTACION
162
0 1
1 0
1 0
0 1
Este operador tiene varias deficiencias: El resultado es sensible a las direcciones y al ruido. En las
figuras 5.8 y 5.9 se muestran los resultados de este operador para las imagenes de prueba.
Los operadores de Sobel tratan de aprovechar el hecho de que, si se calculan las derivadas en dos
direcciones y se combinan como la raz cuadrada de la suma de cuadrados se obtiene un resultado
independiente de la orientacion.
La forma general de las mascaras se pueden formular como,
DE DISCONTINUIDADES
5.2. DETECCION
163
1 0 1
2 0 2
1 0 1
1 2 1
0
0
0
1
2
1
1 1 1
0
0
0
1
1
1
1 0 1
1 0 1
1 0 1
Cada punto de la imagen debe convolucionarse con las dos mascaras y el resultado es el valor
maximo. Las figuras 5.16, 5.17 y 5.18 ejemplifican el uso del operador de Prewitt.
El Operador de Kirsh esta deducido a partir de ocho kernels de convoluci
on:
164
CAPITULO 5. SEGMENTACION
DE DISCONTINUIDADES
5.2. DETECCION
165
166
CAPITULO 5. SEGMENTACION
DE DISCONTINUIDADES
5.2. DETECCION
167
CAPITULO 5. SEGMENTACION
168
5
5
5
3 0 3
3 3 3
3 3 3
3 0 3
5
5
5
3 5
5
3 0
5
3 3 3
3 3 3
5
0 3
5
5 3
3 3 5
3 3 3
3 0 5 3 0
5
3 3 5 3 5
5
5
5 3
5 3 3
0 3
5 0 3 5
3 3 3
5 3 3
Cada punto de la imagen debe convolucionarse por las ocho mascaras. Cada mascara responde de
manera maxima a un borde en una orientacion particular. El valor maximo en las ocho orientaciones
es el valor de salida para la imagen de la magnitud del borde.
Las figuras 5.19, 5.20 y 5.21 muestran el resultado de la aplicacion de cada una de las mascaras
de Kirsh. Otro ejemplo es ejemplificado con las imagenes de las figuras 5.22, 5.23 y 5.24.
DE DISCONTINUIDADES
5.2. DETECCION
169
CAPITULO 5. SEGMENTACION
170
El Laplaciano
Para una funcion bidimensional el operador Laplaciano se define como,
2 f =
2f
2f
+
x2
y 2
0 1 0
1 4 1
0 1 0
1 1 1
1 8 1
1 1 1
DE DISCONTINUIDADES
5.2. DETECCION
171
CAPITULO 5. SEGMENTACION
172
produce bordes dobles. Un empleo mas adecuado para este operador consiste en encontrar la
ubicacion del borde a traves de su propiedad de paso por cero. Este concepto esta basado en la
convolucion de una imagen con el laplaciano de una funcion gaussiana de la forma,
2
x + y2
h(x, y) = exp
2 2
Este operador tambien recibe el nombre de operador de Marr-Hildreth. La ecuacion del laplaciano
para esta funcion se puede escribir como,
h=
r2 2
4
r2
exp 2 ,
2
r2 = x2 + y 2
las imagenes de las figuras 5.28 y 5.29 muestran el resultado de la aplicacion de este operador.
La utilidad de este operador esta en realidad en sus cruces por cero, figura 5.30.
5.2.4
Las tecnicas descriptas anteriormente deberan obtener solo pixeles situados en el limite entre
regiones. En la practica esto no sucede debido al ruido, a las interrupciones debido a iluminacion
DE DISCONTINUIDADES
5.2. DETECCION
173
CAPITULO 5. SEGMENTACION
174
no uniforme as como otras discontinuidades espurias. Por esta razon despues de la deteccion de
contornos se continua con procedimientos de enlazado y de deteccion de limites apropiados para
reunir los pixeles del borde en limites que posean sentido.
Para esto se utilizan varias tecnicas, como,
Procesamiento local
Transformada de Hough
Teora de grafos
Uno de los procedimientos mas simples para enlazar puntos de borde consiste en analizar las
caractersticas de los pixeles en una vecindad de cada uno de los puntos (x, y) de una imagen que
ha sufrido una deteccion de bordes. De esta manera todos los puntos que son similares en alg
un
sentido se enlazan formando un lmite.
Las dos propiedades principales utilizadas para esto son:
La intensidad de la respuesta del operador gradiente
La direccion del gradiente
La primera propiedad esta dada por la magnitud del gradiente como se vio anteriormente. De este
modo un pixel del borde de coordenadas (x0 , y 0 ) y en la vecindad predefinida de (x, y), es similar
en modulo al pixel de (x, y) si,
f (x, y) f (x0 , y 0 ) T
donde T es un umbral no negativo.
La direccion del vector gradiente se utiliza como segunda propiedad. As, un pixel del borde en
(x0 , y 0 ) en la vecindad predefinida de (x, y) tiene un angulo similar al del pixel en (x, y) si,
(x, y) (x0 , y 0 ) A
donde A es un umbral angular.
Como conclusion decimos que, un punto de la vecindad predefinida de (x, y) esta enlazado con el
pixel (x, y) si se satisfacen los criterios de modulo y direccion. Este proceso se repite para cada
punto en la imagen.
Transformada de Hough
La Transformada de Hough es una tecnica que se puede usar para aislar caractersticas de una
forma particular dentro de una imagen. Debido a que se requiere que las caractersticas deseadas
DE DISCONTINUIDADES
5.2. DETECCION
175
CAPITULO 5. SEGMENTACION
176
y = ax + b
es que tanto la pendiente como la ordenada al origen tienden a infinito cuando la lnea se acerca a
la vertical. Una forma de evitar esto es expresar la ecuacion de la recta en forma normal, es decir,
x cos + y sin =
donde es la longitud de una normal desde el origen a esta lnea y es la orientaci
on con respecto
al X-eje, figura 5.33. Para cualquier punto (x, y) en esta lnea, y es constante. El empleo de esta
representacion en la construccion de una tabla de acumuladores es identico al metodo expuesto para
la representacion punto-pendiente. Sin embargo, en lugar de lneas rectas, los lugares geometricos
son curvas sinusoidales en el plano .
El rango del angulo es 90 , medidos respecto del eje horizontal. Entonces una recta horizontal
posee un de 0 , siendo igual a la x positiva. De forma similar, una lnea vertical tiene un de
90 , siendo igual a la y positiva o = 90 y igual a la y negativa. En la figura 5.34 se observa
la grafica de la recta en forma polar y el espacio parametro con las celulas acumulador.
Se puede usar este mismo procedimiento para detectar otras caractersticas con descripciones
analticas. Por ejemplo, en el caso de crculos, la ecuacion parametrica es,
(x a)2 + (y b)2 = r2
donde a y b son las coordenadas del centro del crculo y r es el radio. En este caso, la complejidad
computacional del algoritmo se incrementa pues se tienen tres coordenadas en el espacio parametro
y un acumulador 3D. (En general, el calculo y el tama
no del arreglo de acumuladores se incrementa
DE DISCONTINUIDADES
5.2. DETECCION
177
178
CAPITULO 5. SEGMENTACION
Figura 5.35: Imagen original e imagen procesada por un detector de contorno. Aqu se puede ver
el contorno total en la imagen, pero este resultado nada dice acerca de la identidad y cantidad de
puntos. Se puede entonces utilizar la transformada de Hough (deteccion de lneas) para detectar
los ocho segmentos de lnea recta separados e identificar la estructura geometrica verdadera de la
imagen.
polinomicamente con el n
umero de parametros. As, la tecnica de Hough basica descrita aqu es
solo practica para curvas simples.)
La transformada de Hough se usa para identificar los parametros de una curva que mejor se ajuste a
un conjunto de puntos dados. Esta descripcion de borde normalmente se obtiene de un operador de
deteccion de contorno como el operador de Roberts, Sobel o detector Canny. El resultado de esta
operacion puede ser ruidosa, es decir puede contener multiple fragmentos de bordes correspondiente
a un u
nico contorno total. Ademas, como la salida de un descriptor de bordes solo define donde esta
el contorno en una imagen, el trabajo de la transformada de Hough es determinar cuales puntos
forman parte del contorno y cuantos de ellos existen en la imagen.
Para ilustrar la transformada de Hough en detalle, nosotros comenzamos con la imagen simple de
dos rectangulos, uno debajo del otro, que se muestra en la figura 5.35.
Aplicando la transformada de Hough se genera una curva en el espacio polar para cada punto del
contorno en el espacio cartesiano. El arreglo de acumuladores visto como una imagen toma la forma
de la figura 5.36
Las curvas generadas por puntos colineales en la imagen gradiente se interceptan en picos en el
espacio de la transformada de Hough. Estos puntos intersecci
on caracterizan los segmentos de
lneas rectas de la imagen original. Existen metodos que se pueden emplear para extraer estos
puntos brillantes , o maximos locales, del arreglo de acumuladores. Por ejemplo, un metodo simple
involucra una umbralizacion y luego la aplicacion de alguna tecnica de afinado para aislar grupos
DE DISCONTINUIDADES
5.2. DETECCION
179
Figura 5.36: Espacio parametro visto como una imagen. Las imagenes corresponden al espacio
parametro original y con compresion de rango dinamico.
180
CAPITULO 5. SEGMENTACION
DE DISCONTINUIDADES
5.2. DETECCION
181
CAPITULO 5. SEGMENTACION
182
Ahora se muestra el uso de la transformada de Hough con imagenes reales. En el primer caso, la
imagen de una ciudad donde los edificios estan obstruidos por la niebla, figuras 5.42 y 5.43. La
imagen de la figura 5.44 muestra una umbralizaci
on menos selectiva lo que produce mayor cantidad
de lneas detectadas.
5.2.5
Teora de Grafos
El metodo presentado anteriormente esta basado en la obtencion de un conjunto de puntos del borde
por medio de una operacion gradiente. Como el gradiente es una derivada, rara vez es apropiada
en situaciones caracterizadas por un alto contenido de ruido. En esta seccion vamos a presentar un
metodo global basado en la representacion de segmentos del borde en forma de grafo y buscando
en el los caminos de menor coste que corresponden a bordes significativos. Esta representaci
on
proporciona una aproximacion robusta que presenta un buen rendimiento en presencia de ruido.
Como era de esperar, el procedimiento es considerablemente mas complicado y necesita un mayor
tiempo de procesamiento que en los metodos expuestos anteriormente.
Comenzaremos el desarrollo con algunas definiciones basicas.
Un grafo G = (N, A) es un conjunto finito, no vaco de N nodos, junto con un conjunto de A pares
desordenados de distintos elementos de N . Cada par (ni , nj ) de A se denomina arco.
Un grafo cuyos arcos tienen una direccion se denomina grafo dirigido. Si un arco esta dirigido del
nodo ni al nj , entonces nj se dice que es un sucesor de su nodo padre ni . El proceso de identificar
a los sucesores de un nodo se denomina expansion del nodo. En cada grafo se definen niveles, de
los que el nivel cero se compone de un solo nodo simple, denominado nodo de salida, y los nodos
DE DISCONTINUIDADES
5.2. DETECCION
Figura 5.43: Espacio parametro y deteccion de lneas. Umbral relativo del 70%.
183
CAPITULO 5. SEGMENTACION
184
Figura 5.44: Imagen de lneas detectadas con un umbral relativo mas generoso, es decir del 50%.
del u
ltimo nivel se denominan nodos destino. Se puede asociar un coste c(ni , nj ) con cada arco
(ni , nj ). Una sucesion de nodos nl , n2 , . . . , nk en la que cada nodo ni es un sucesor del nodo nil
se denomina un camino desde nl a nk , siendo el coste del camino:
c=
k
X
c(ni1 , ni )
i=2
Finalmente, un elemento del borde es el lmite entre dos pixeles p y q, tales que p y q son 4-vecinos.
En este contexto, un borde es una sucesion de elementos del borde.
Se puede comprobar la aplicacion de los conceptos precedentes a la deteccion de bordes con la
imagen 3 3 que se muestra en la Figura, donde los n
umeros externos son coordenadas de pixeles
y los n
umeros entre parentesis representan la intensidad, figura 5.45. Cada elemento del borde
definido por los pixeles p y q tiene un coste asociado, definido como:
c(p, q) = H [f (p) f (q)]
donde H es el mayor valor de la intensidad en la imagen (7 en este caso), f (p) es el valor de la
intensidad de p y f (q) es el valor de la intensidad de q.
La figura 5.46 muestra el grafo de este problema. Cada nodo corresponde a un elemento de un
borde, y existe un arco entre dos nodos si los dos elementos correspondientes incluyen una sucesion
que puede ser parte de un borde. El coste de cada elemento del borde, calculado al utilizar la
ecuacion anterior, es el arco que conduce a el, y los nodos destino se muestran como rectangulos
sombreados. Cada camino entre el nodo de salida y el nodo destino es un posible borde.
DE DISCONTINUIDADES
5.2. DETECCION
185
CAPITULO 5. SEGMENTACION
186
Para simplificar, se supone que el borde comienza en la fila superior y termina en la ultima fila,
de forma que el primer elemento de un borde puede ser solamente [(0, 0), (0, 1)] o [(0, 1), (0, 2)] y el
u
ltimo elemento [(2, 0), (2, 1)] o [(2, 1), (2, 2)]. Las lneas de trazos representan el camino de coste
mnimo, calculado al utilizar la ecuacion anterior. En general, el problema de encontrar un camino
de coste mnimo no es trivial en terminos de calculo. De forma caracterstica, el metodo consiste
en sacrificar optimizacion en beneficio de la velocidad, y los algoritmos siguientes representan a
una clase de procedimientos que utilizan heursticas con el fin de reducir el esfuerzo de b
usqueda.
Sea r(n) una estimacion del coste de un camino de coste mnimo desde el nodo de salida s hasta el
nodo destino, con la restriccion de que el camino debe pasar por n. Este coste se puede expresar
como la estimacion del coste de un camino de coste mnimo desde s a n m
as la estimacion del coste
de ese camino desde n hasta el nodo destino, esto es:
r(n) = g(n) + h(n)
Aqu, g(n) se puede elegir como el camino de menor coste desde s hasta n de los encontrados hasta
ahora, y h(n) se obtiene utilizando cualquier informacion heurstica disponible (como el expandir
solamente ciertos nodos basandose en costes previos obtenidos de dicho nodo). A continuaci
on se
muestra un algoritmo que utiliza r(n) como base para llevar a cabo una b
usqueda en grafos:
Paso 1 Marcar el nodo de salida como ABIERTO y poner g(s) = 0.
Paso 2 Si no hay ning
un nodo ABIERTO terminar con incidencia; en caso contrario, continuar.
Paso 3 Marcar como CERRADO el nodo ABIERTO n cuya estimacion r(n) calculada por la
ecuacion anterior es la menor de todas. (Limitar al mnimo los valores de r que se han
resuelto arbitrariamente, pero siempre en favor de un nodo destino).
Paso 4 Si n es un nodo destino, terminar con el camino solucion obtenido al volver hacia atras
seg
un los punteros; en caso contrario, continuar.
Paso 5 Expandir el nodo n, generando todos sus sucesores. (Si no hay sucesores, ir al paso 2.)
Paso 6 Si un sucesor ni no esta marcado, poner:
r(ni ) = g(n) + c(n, ni )
marcarlo como ABIERTO, y dirigir punteros desde el hacia n.
Paso 7 Si un sucesor ni esta marcado como CERRADO o ABIERTO, actualizar su valor poniendo:
g 0 (ni ) = min[g(ni ), g(n) + c(n, ni )]
Marcar como ABIERTO a los sucesores de CERRADO cuyos valores g 0 han disminuido en
consecuencia y redirigir hacia n punteros desde todos los nodos cuyos valores g 0 han disminuido. Ir al paso 2.
DE DISCONTINUIDADES
5.2. DETECCION
187
En general, este algoritmo no garantiza un camino de coste mnimo; su ventaja es que aumenta la
velocidad por medio de la utilizacion de heursticas. Sin embargo, si h(n) es un lmite inferior del
coste del camino de coste mnimo del nodo n al nodo destino, el procedimiento produce realmente un
camino optimo hacia el nodo destino (Hart, Nilsson y Raphael [19681). Si se dispone de informacion
no heurstica (esto es, hcoincide con 0), el procedimiento se reduce al algoritmo de coste uniforme
de Dijkstra [1959].
5.2.6
Umbralizaci
on (Thresholding)
Descripci
on
En muchas aplicaciones de vision artificial, es u
til poder separar las regiones de la imagen que
corresponden a objetos en los que se esta interesado, de las regiones de la imagen que corresponde
al fondo. La umbralizacion (Thresholding) proporciona a menudo una manera facil y conveniente
de realizar esta segmentacion en base a intensidades diferentes o colores entre el el fondo y los
objetos.
Ademas, es a menudo u
til poder ver que areas de una imagen consisten en pixeles cuyos valores
yacen dentro de un rango especificado, o banda de intensidades (o colores). Thresholding tambien
puede usarse para esto.
Funcionamiento
La entrada a una operacion de thresholding es tpicamente una imagen de niveles de gris o una
imagen color. En la aplicacion mas simple, la salida es una imagen binaria que representa la
segmentacion.
Los pixeles negros corresponden al fondo y los pixeles blancos correspondan al primer plano (o
viceversa). En aplicaciones simples, la segmentaci
on se determina por un solo parametro conocido
como el umbral de intensidad. En un solo paso, cada pixel en la imagen se compara con este umbral.
Si la intensidad del pixel es mas alta que el umbral, el pixel se coloca por ejemplo en blanco en la
salida. Si es menor que el umbral, se coloca en negro.
En aplicaciones mas sofisticadas, se pueden especificar umbrales m
ultiples, tal que una banda de
valores de intensidad pueda ponerse en blanco mientras que todo lo demas se coloca en negro. Para
imagenes color o multi-espectrales, puede ser posible colocar umbrales diferentes para cada canal
de color, y as seleccionar exactamente aquellos pixeles dentro de un cubo especfico en el espacio
de RGB. Otra variante com
un es colocar en negro todos aquellos pixeles que corresponden al fondo,
pero dejar los pixeles del primer plano con su color/intensidad original (como opuesto a forzarlos a
blanco), para que esa informacion no se pierda.
No todas las imagenes se pueden segmentar facilmente en objetos y fondo usando la tecnica de
thresholding. Si una imagen se puede o no segmentar correctamente se determina analizando el
histograma de intensidad de la imagen.
Si es posible separar el primer plano de una imagen en base a la intensidad de los pixeles, entonces, la
188
CAPITULO 5. SEGMENTACION
intensidad de los pixeles dentro de los objetos del primer plano deben ser diferentes de la intensidad
de los pixeles del fondo. En este caso, se espera ver un pico distinto en el histograma que corresponde
al primer plano tal que se pueda escoger un umbral que permita aislar este pico. Si tal pico no
existe, entonces es improbable que la tecnica de thresholding produzca una buena segmentaci
on.
En este caso, la tecnica de thresholding adaptable pueden ser una alternativa mejor.
La figura 5.47 muestra algunos histogramas tpicos junto con las opciones mas convenientes de
umbral.
La Figura 5.47A) muestra una distribucion de intensidad bi-modal clasica. Esta imagen que usa
un solo umbral T1 se puede segmentar con exito. la figura 5.47B) muestra que la segmentaci
on
con umbral u
nico es mas complicada de obtener. Aqu se supone que el pico central representa los
objetos de interes y por lo tanto se necesitan dos umbrales: T1 y T2 . En la figura 5.47C), los dos
picos de la distribucion bi-modal estan como fusionados y no es posible segmentar esta imagen con
exito utilizando un u
nico umbral global.
Por ejemplo, la figura 5.48 muestra una imagen y su histograma. Este muestra una distribucion
bimodal. El pico menor representa el objeto y el mas alto el fondo. La imagen se puede segmentar
utilizando un umbral u
nico de valor 120. La figura 5.49 muestra el resultado de la umbralizaci
on
antes mencionada.
DE DISCONTINUIDADES
5.2. DETECCION
189
CAPITULO 5. SEGMENTACION
190
probabilidad de brillo, p(z). Esta funcion de densidad total es la suma o mezcla de dos densidades
unimodales, una para las regiones claras de la imagen y la otra para las oscuras. Ademas, los
parametros de la mezcla son proporcionales a las superficies de cada region de brillo. Si se conoce
o se supone la forma de las densidades de probabilidad, se puede determinar un umbral optimo (en
terminos del error mnimo) para segmentar la imagen en las dos regiones de brillo.
Supongamos que una imagen contiene dos valores combinados con ruido aditivo gaussiano. La
funcion de densidad de probabilidad de la mezcla es:
p(z) = P1 p1 (z) + P2 p2 (z)
que para el caso gaussiano , es:
P1
(z 1 )2
(z 2 )2
P2
p(z) =
exp
exp
+
212
222
21
22
donde 1 y 2 son los valores medios de los dos niveles de brillo, 1 y 2 son las desviaciones
estandar respecto a la media, y P1 y P2 son las probabilidades a priori de los dos niveles. Se debe
satisfacer la restriccion:
P1 + P2 = 1
por lo que la densidad de la mezcla tiene cinco parametros desconocidos. Si se conocen todos los
parametros, se puede determinar con facilidad el umbral optimo.
Sup
ongase que las regiones oscuras corresponden al fondo y que las claras corresponden a los
objetos. En este caso 1 < 2 , y se puede definir un umbral T de forma que todos los pixels con
nivel de gris superior a T se consideren puntos objeto.
La probabilidad de clasificar (erroneamente) un punto objeto como un punto del fondo es:
ZT
E1 (T ) =
p2 (z)dz
De forma similar, la probabilidad de clasificar un punto del fondo como un punto objeto es:
Z
E2 (T ) =
p1 (z)dz
T
DE DISCONTINUIDADES
5.2. DETECCION
191
Para encontrar el valor del umbral para el que el error sea mnimo se necesita derivar E(T ) con
respecto a T (utilizando la regla de Leibnitz) e igualar el resultado a 0. As:
P1 p1 (T ) = P2 p2 (T )
Aplicando este resultado a la densidad gaussiana, tomando logaritmos, y simplificando, se obtiene
la ecuacion cuadratica:
AT 2 + BT + C = 0
donde:
A = 12 22 B = 2(1 22 2 12 )
C = 12 22 22 21 + 212 22 ln( 12 PP21 )
La posibilidad de tener dos soluciones indica que se pueden necesitar dos valores de umbral para
obtener la solucion optima.
Si las varianzas son iguales, = 1 = 2 , es sufciente con un umbral u
nico:
T =
1 + 2
2
P2
+
ln( )
2
1 2
P1
Si las probabilidades anteriores son iguales, P1 = P2 el umbral optimo es el promedio de las medias.
Lo mismo es valido para = 0. La determinacion del umbral optimo se puede realizar de forma
similar para otras densidades de un solo modo de la forma conocida, tales como la de Raleigh y
la normal. Se puede utilizar un metodo de error medio por mnimos cuadrados para estimar los
parametros de una imagen a partir de un histograma. Por ejemplo, el error cuadratico medio entre
la densidad de la mezcla p(z) y el histograma experimental h(zi ) es:
ems =
1
n
n
P
i=1
CAPITULO 5. SEGMENTACION
192
respecto a su valor medio, y calculando las medias y varianzas de las dos partes para utilizarlas
como valores de salida.
Thresholding basado en el Lmite
Uno de los aspectos mas importantes de la seleccion de umbral es la capacidad de identificar
fidedignamente los picos del modo de un histograma dado. Esta capacidad es particularmente
importante para la seleccion automatica de umbrales en situaciones donde las caractersticas de
una imagen pueden variar en un amplio rango de distribuciones de intensidad. Basandose en la
presentacion anterior, es evidente de forma intuitiva que las posibilidades de seleccionar un buen
umbral aumentan considerablemente si los picos del histograma son altos, estrechos, simetricos y
separados por valles profundos. Un metodo de mejorar la forma de los histogramas es considerar
solamente aquellos pixels que estan situados en el lmite entre los objetos y el fondo o cerca de el.
Una de las evidentes e inmediatas mejoras es que los histogramas podran ser menos dependientes
de los tama
nos relativos de los objetos y el fondo. Por ejemplo, el histograma de intensidad de una
imagen compuesta por una gran zona de fondo aproximadamente constante y un objeto peque
no
podra estar dominado por un gran pico como consecuencia de la alta concentraci
on de pixels del
fondo.
Pero, si solamente se utilizan los pixeles que estan sobre o cerca del limite entre el objeto y el
fondo, el histograma resultante podra tener picos de aproximadamente la misma altura. Ademas,
la probabilidad de que cualquiera de los pixels dados este situado en un objeto podra ser aproximadamente igual a la probabilidad de que este situado en el fondo, y de este modo se mejora la
simetra de los picos del histograma. Finalmente, el empleo de pixeles que satisfacen alguna de las
medidas sencillas basadas en los operadores gradiente y laplaciano tienen tendencia a hacer mas
profundos los valles entre los picos del histograma. El principal problema del metodo que se acaba
de presentar es la suposicion implcita de que se conoce el lmite entre los objetos y el fondo. Esta
informacion no esta claramente disponible durante la segmentaci
on, si se encuentra una division
entre objetos y fondo, precisamente porque la segmentaci
on esta por todas partes.
Ademas, el empleo del laplaciano puede proporcionar informacion respecto a si un pixel dado esta
situado en la parte oscura (fondo) o clara (objeto) de un borde. El valor medio del laplaciano es cero
en la transicion de un borde, por lo que en la practica los valles de los histogramas formados por los
pixeles seleccionados por un criterio de gradiente/laplaciano, se puede esperar que esten escasamente
poblados. Esta propiedad produce los deseados valles profundos presentados anteriormente. El
gradiente en cualquier punto (x, y) de una imagen y el Laplaciano estan dados por las ecuaciones
vistas anteriormente. Estas dos cantidades se pueden utilizar para formar una imagen de tres
niveles, de la siguiente forma:
0 si f < T
+ si f T y 2 f 0
s(x, y) =
si f T y 2 f < 0
donde los smbolos 0, + y - representan tres niveles de gris cualquiera distintos, T es un umbral, y
el gradiente y el laplaciano se calculan para todos los puntos (x, y). Para un objeto oscuro sobre
DE DISCONTINUIDADES
5.2. DETECCION
193
fondo claro se produce una imagen s(x, y) en la que todos los pixeles que no estan en un borde estan
marcados con 0, todos los del lado oscuro de un borde estan marcados con +, y todos los del lado
claro estan marcados con -. Los smbolos + y - de la ecuacion anterior se invierten en el caso de un
objeto claro sobre un fondo oscuro. La informacion que se obtiene al utilizar este procedimiento
se puede emplear para generar una imagen binaria segmentada en la que los 1 corresponden a los
objetos de interes y los 0 al fondo. La transicion (a lo largo de una lnea de exploracion horizontal
o vertical) desde un fondo claro a un objeto oscuro debe estar caracterizada por la aparicion en
s(x, y) de un - seguido de un +. El interior del objeto esta compuesto de pixeles marcados bien
como 0 o como +. Finalmente, la transicion desde el objeto hacia el fondo esta caracterizada por
la aparicion de un + seguido de un -.
De este modo, una lnea de exploracion horizontal o vertical que contiene una seccion de un objeto
tiene la siguiente estructura:
(. . .)(, +)(0o+)(+, )(. . .)
donde (. . .) representa cualquier combinaci
on de +, - y 0. Los parentesis mas internos contienen
puntos objeto y estan marcados con 1. Todos los otros pixeles sobre la misma lnea de exploracion
estan etiquetados con 0, con la excepcion de cualquier otra sucesion de (0 o +) encerrada entre
(, +) y (+, ).
Thresholding Adaptivo
Mientras las tecnicas de thresholding convencional utiliza un umbral global para todos los pixeles,
el thresholing adaptivo cambia el umbral dinamicamente para todos los pixeles. Esta versi
on mas
sofisticada de thresholding puede acomodar el valor del umbral a cambios en las condiciones de
iluminacion, por ejemplo, aquellas que ocurren como resultado de un gradiente de iluminacion
alto o sombras. La tecnica de thresholding adaptivo tpicamente toma como entrada una imagen
monocromatica o color y en su implementaci
on mas simple genera como salida una imagen binaria
representando la segmentacion. Para cada pixel en la imagen, se debe calcular un umbral. Si el
valor del pixel esta por debajo del umbral, este se coloca con el valor del fondo, en otro caso asume
el valor del frente.
Existen 2 metodos para encontrar el umbral:
1. El metodo de Chow y Kanenko
2. El thresholding local
La suposicion detras de ambos metodos es que regiones mas peque
nas de la imagen poseen iluminacion mas uniforme, siendo mas adecuadas para seleccionar un umbral. Chow y Kanenko dividen
una imagen en un arreglo de subimagenes que se solapan y luego encuentran el mejor umbral para
CAPITULO 5. SEGMENTACION
194
cada subimagen investigando su histograma. El umbral para cada pixel se encuentra por interpolacion de los resultados de las subimagenes. La desventaja de este metodo es la complejidad
computacional y por lo tanto no es apropiado para aplicaciones en tiempo real.
Una alternativa para encontrar el umbral local es examinar estadsticamente los valores de intensidad de la vecindad local de cada pixel. Funciones estadsticas simples y rapidas incluyen la media
de la distribucion de intensidades local,
T = media
el valor de la mediana,
T = mediana
o la media de los valores maximos y mnimos,
T =
(max min)
2
El tama
no de la vecindad debe ser lo suficientemente grande para cubrir suficientes pixeles del frente
y del fondo. Por otro lado, eligiendo regiones demasiado grandes pueden violar la suposicion de
iluminacion uniforme. Ese metodo es menos costoso computacionalmente que el anterior y produce
resultados bastante buenos para muchas aplicaciones.
Ejemplos de Umbralizaci
on
La figura 5.50 muestra una imagen y su histograma. Claramente se observa que este no es bimodal.
La obtencion de un umbral apropiado es dificil como se puede observar en las figuras 5.51 y 5.52.
Debido al severo gradiente de iluminacion en la escena, los picos correspondientes al frente y al
fondo y la tecnica de thresholding global no arroja buenos resultados T = 80 y T = 120.
La tecnica de Thresholding se utiliza para filtrar la salida de otros operadores. Por ejemplo, la salida
de un detector de contornos como Sobel dejara brillante regiones de la imagen con alto gradiente
espacial. Si solo estamos interesados en el contorno, entonces se puede usar thresholding para
seleccionar el contorno mas agudo y colocar todo lo demas en negro. Como un ejemplo considere
la imagen de la figura 5.53. La figura 5.54 muestra la aplicacion del detector de bordes de Sobel y
posteriormente la umbralizacin correspondiente.
La tecnica de thresholding se puede usar para extraer un subconjunto de estructuras interesantes
las cuales deben ser pasadas a otro operador en la cadena de procesamiento. Por ejemplo, la imagen
de la figura 5.55 muestra tejido del cerebro en el cual se pueden apreciar las celulas nerviosas (es
decir, grandes globulos grises con n
ucleos circulares mas oscuros en el centro) y otras celulas (es
decir, los crculos negros, peque
nos aislados. Se puede umbralizar esta imagen tal que los niveles
de gris entre 0 y 150 se conviertan en pixeles del frente y lo demas en el fondo
DE DISCONTINUIDADES
5.2. DETECCION
195
196
CAPITULO 5. SEGMENTACION
DE DISCONTINUIDADES
5.2. DETECCION
197
198
CAPITULO 5. SEGMENTACION
La imagen resultante se puede conectar y etiquetar para contar el numero total de celulas en la
imagen original, como se muestra en la figura 5.56,
Si se desea conocer cuantas celulas nerviosas hay en la imagen original, se podra aplicar una umbralizacion doble para seleccionar u
nicamente los pixeles que corresponden a las celulas nerviosas.
En sensado remoto y aplicaciones en medicina, tal umbral se denomina seccion de densidad. Aplicando un umbral a la banda de 130-150 conduce a la imagen que se muestra en la figura 5.57.
Mientras la mayora de los pixeles blancos corresponden a celulas nerviosas, estan tan desconectadas entre si que no se pueden etiquetar. Alternativamente, se podran obtener mejores resultados
investigando algunos atributos, por ejemplo, tama
no.
Una tarea adecuada para thresholding adaptivo es en la segmentaci
on de texto. Por ejemplo la
imagen de la figura 5.58.
Debido a que esta imagen posee un alto gradiente de iluminacion, la tecnica de thresholding global
produce resultados poco satisfactorios, figura 5.59.
Usando la media de una vecindad de 7 7 elementos, el thresholding adaptivo conduce a la imagen
que se muestra en la figura 5.60. El metodo es exitoso en el area alrededor del texto debido a que
hay suficientes pixeles del fondo y del texto en la vecindad local. Es decir, el valor medio yace entre
los valores de intensidad del frente y del fondo y por lo tanto pueden separarse facilmente. Sobre
el margen, sin embargo, la media del area local no es adecuada como un umbral, debido a que el
rango de valores de intensidad dentro de la vecindad local es muy peque
na y su media esta muy
cerca del valor del pixel central.
La situacion anterior se puede mejorar si el umbral empleado no es la media sino la media-C, donde
C es una constante. Usando esta funcion estadstica, a todos los pixeles que existen en una vecindad
DE DISCONTINUIDADES
5.2. DETECCION
199
200
CAPITULO 5. SEGMENTACION
DE DISCONTINUIDADES
5.2. DETECCION
201
uniforme (por ejemplo en los margenes) se les coloca la intensidad del fondo. Los resultados para
una vecindad de 7 7 y C = 7, y para una vecindad de 75 75 y C = 10, se muestran en las figuras
5.60 y 5.61.
En el ejemplo anterior, la vecindad mas grande conduce a resultados mas pobres, ya que es mas
afectado por el gradiente de iluminacion. Tambien, notar que desde el punto de vista computacional
es mas costoso que usar una vecindad peque
na. La imagen de la figura 5.62 muestra el resultado
de usar la mediana en lugar de la media (la vecindad en este caso es de 7 7 y C=4). El resultado
muestra que para esta aplicacion la mediana no es una buena eleccion de funcion estadstica.
Considerese otro ejemplo, de una imagen con un alto gradiente de iluminacion, figura 5.63. Esta
imagen (a) no puede segmentarse con un umbral global (T = 80) (b).
Sin embargo, como la imagen contiene un objeto grande, es difcil aplicar la tecnica de thresholding
adaptivo. Usando la media-C como un umbral local se obtiene la imagen de la figura 5.64 (a) para
una vecindad V = 7 7 y C = 4, la figura (b) para una vecindad V = 140 140 y C = 8.
Todos los pixeles que pertenecen al objeto pero no tiene pixeles del fondo en la vecindad se colocan
con el nivel de gris del fondo. La ultima imagen muestra un resultado mucho mejor que el obtenido
con el umbral global, pero aun se pierden pixeles en el centro del objeto. En muchas aplicaciones,
el calculo de la media de una vecindad (para cada pixel) cuyo tama
no es del orden de 140 140
puede tomar demasiado tiempo. En este caso la tecnica de Chow y Kanenko generara resultados
mejores.
202
CAPITULO 5. SEGMENTACION
ORIENTADA A REGIONES
5.3. SEGMENTACION
203
La simulacion del efecto producido por un thresholding adaptivo se puede lograr los siguientes
pasos:
1. Convolucionar la imagen con un operador estadstico adecuado, media o mediana
2. Restar la imagen original de la convolucionada
3. Umbralizar la imagen diferencia con C
4. Invertir la imagen obtenida en el paso anterior.
5.3
Segmentaci
on Orientada a Regiones
5.3.1
Formulaci
on
CAPITULO 5. SEGMENTACION
204
5.3.2
Crecimiento de regiones
Este procedimiento agrupa pixeles o subregiones dentro de regiones mas grandes. La sencillez del
metodo radica en la agregacion de pixeles, que comienza con un conjunto de puntos generadores
a partir de los que van creciendo las regiones al agregar a cada uno de estos puntos los pixeles
proximos que tienen propiedades similares (nivel de gris, textura, color, etc.).
Para estudiar este procedimiento se utiliza la subimagen de la figura 5.65,
representada por una matriz en la cual se desea efectuar una particion en dos regiones, A y B,
siguiendo la propiedad: |p q| < T , es decir, un umbral con respecto a los niveles. Si tomamos
como umbral a T = 3, se obtiene el resultado mostrado en la figura 5.66.
En este caso, no importa la seleccion de las races para ninguna de las regiones, sin embargo, resulta
mas importante la seleccion del valor de umbral T . Si T = 8, se obtiene una sola region commo se
muestra en la figura 5.67.
ORIENTADA A REGIONES
5.3. SEGMENTACION
205
206
CAPITULO 5. SEGMENTACION
Figura 5.68: a) Imagen Original que muestra el punto generador. b)Primeras etapas del crecimiento
de la region.
Las caractersticas importantes para este metodo son la determinacion de las races iniciales y la
naturaleza de la propiedad de agrupacion.
En el caso de imagenes a color, se emplean los componentes RGB y reglas de segmentaci
on de la
forma:
P (R, x, t) : (fR (k, l) < TR )(fG (k, l) < TG )(fB (k, l) < TB )
ORIENTADA A REGIONES
5.3. SEGMENTACION
207
5.3.3
Divisi
on y Fusi
on de Regiones
Una alternativa distinta a la anterior consiste en subdividir una imagen inicialmente en un conjunto
de regiones arbitrarias disjuntas y despues fusionar y/o dividir las regiones intentando satisfacer las
condiciones mencionadas anteriormente. Supongase que R representa la region imagen completa
y se selecciona un predicado P de la forma que se menciono anteriormente. Para una imagen
rectangular, un metodo consiste en subdividir sucesivamente en cuadrantes cada vez mas peque
nos
de forma que, para cualquier region Ri , P (Ri ) =VERDADERO. Esto es, si P (R) =FALSO, se
divide la imagen en cuadrantes. Si P es FALSO para cualquier cuadrante, se divide el cuadrante
en subcuadrantes, y as sucesivamente. Esta tecnica de division posee una representaci
on adecuada
en
arbol cu
adruple, como se muestra en la figura 5.70. Observese que la raz del arbol corresponde
a la imagen completa y que cada nodo corresponde a una subdivision.
Si solamente se utiliza la division , la particion final probablemente contenga regiones adyacentes
con propiedades identicas. Este inconveniente puede solucionarse permitiendo tanto fusiones como
divisiones. La satisfaccion de las restricciones requiere fusionar solamente regiones adyacentes cuyos
pixeles combinados satisfacen el predicado P ; esto es, dos regiones adyacentes Rj y Rk se fusionaran
si P (Rj Rk ) =VERDADERO.
Este procedimiento se puede resumir por medio de los siguientes pasos:
1. Dividir en cuatro cuadrantes disjuntos cualquier region Ri donde P (Ri ) =FALSO.
2. Fusionar las regiones adyacentes Rj y Rk para las que se cumpla P (Rj Rk ) =VERDADERO.
3. Detenerse cuando no sea posible realizar mas divisiones o fusiones.
Las iamgenes de las figuras 5.71 y 5.72 ejemplifican este metodo de segmentaci
on.
208
CAPITULO 5. SEGMENTACION