Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Segmentacion
5.1 Introduccion
Las tecnicas empleadas para extraer informacion de una imagen se agrupan en lo que se denomina
Analisis de Imagenes. El primer paso dentro del Analisis de imagenes es la Segmentacion que se
encarga de la subdivision de la misma en sus partes constitutivas u objetos. El nivel al que se lleva
a cabo esta subdivision depende del problema a resolver, es decir la segmentacion debera detenerse
cuando se hayan aislado los objetos de interes. En general la tarea de la segmentacion autonoma
es una de las mas difciles del procesamiento de imagenes pues determina el exito o el fracaso del
analisis. Por esta razon se debe poner especial cuidado en aumentar la probabilidad de tener una
segmentacion robusta. Los disenadores de sistemas de procesamiento de imagenes con experiencia
prestan invariablemente una considerable atencion a esta etapa del procesamiento de imagenes.
Los algoritmos de segmentacion de imagenes monocromaticas generalmente se basan en una de dos
propiedades de niveles de gris,
discontinuidad
similitud
El metodo consiste en dividir una imagen basandose en los cambios bruscos de nivel de gris. Existen
tres tipos basicos de discontinuidades: puntos, lneas y bordes. En la practica la forma mas comun
de ver las discontinuidades es pasar una mascara a traves de la imagen. La respuesta de la misma
para cada pixel es,
9
X
R = w1 z1 + w2 z2 + + w9 z9 = wi zi
i=1
155
156 CAPITULO 5. SEGMENTACION
La deteccion de puntos aislados de una imagen es directa. Utilizando una mascara se sabe que se
ha detectado un punto en la posicion en la que esta centrada si,
|R| > T
donde T es un umbral no negativo, y R es la medicion con la mascara del pixel evaluado. Basicamente,
todo lo que hace esta formulacion es medir las diferencias ponderadas entre el punto central y sus
vecinos, partiendo de la base que el nivel de gris de un punto aislado sera bastante diferente que el
de sus vecinos.
Una de las mascaras mas utilizadas con este proposito es,
1 1 1
1 8 1
1 1 1
Las imagenes de las figuras 5.1 y 5.2 muestran la deteccion de puntos utilizando la mascara antes
mencionada.
1 1 1 1 1 2 1 2 1 2 1 1
2 2 2 1 2 1 1 2 1 1 2 1
1 1 1 2 1 1 1 2 1 1 1 2
5.2. DETECCION DE DISCONTINUIDADES 157
Figura 5.2: Imagen original y despues de la deteccion de puntos. Es notable la desaparicion del
fondo, as como la textura de la piel de los animales.
el punto i es el que tendra mayor probabilidad de estar asociado con una lnea en la direccion de
la mascara i. Las imagenes del cangrejo arana de las figuras 5.3, 5.4 y 5.5 muestran la deteccion
de lneas en distintas orientaciones.
Este es el metodo mas comun para detectar discontinuidades significativas en los niveles de grises
de pixeles.
158 CAPITULO 5. SEGMENTACION
La primera derivada es cero en todos los niveles excepto cuando hay transiciones de niveles
de gris (donde comienzan y terminan).
La magnitud de la primera derivada dice si el pixel esta en lo oscuro (fondo) o claro (objeto).
El signo de la segunda derivada es positivo en el borde oscuro y negativo en el claro.
El realce de bordes se puede calcular a partir del filtrado espacial. Las mascaras de convolucion
que se emplean comunmente son:
Desplazamiento y sustraccion
Gradiente
Laplaciano
Desplazamiento y Sustraccion
Este es el metodo mas simple de realce de bordes y permite obtener informacion en las direcciones
horizontales o verticales. Al desplazar una imagen a la izquierda y restarla de la imagen original,
se realzan los bordes verticales. Esto es el equivalente a efectuar una operacion de derivacion.
El mismo proceso se puede efectuar para realzar los bordes horizontales. El resultado de estas
operaciones produce la impresion de tener un grabado. Las imagenes de la figura 5.7 muestran este
proceso.
El Gradiente
" #
f
Gx x
f = = f
Gy y
q
fm = mag(f ) = G2x + G2y . Se sabe del analisis vectorial que el gradiente de un vector indica
la direccion de la maxima variacion de la funcion f en (x, y). Un valor importante para la deteccion
160 CAPITULO 5. SEGMENTACION
de bordes es la magnitud del vector gradiente, el cual normalmente se lo denomina de igual manera.
El calculo de este valor puede hacerse por dos caminos diferentes, es decir,
q
fm = mag(f ) = G2x + G2y
o,
La direccion del vector gradiente es tambien una cantidad importante. Del analisis vectorial el
angulo de direccion del vector gradiente en el punto (x, y) con respecto al eje x es,
1 Gy
(x, y) = tan
Gx
El calculo de las derivadas parciales en forma digital se puede realizar de diversas maneras, especi-
ficando la mascara mas conveniente. Las mascaras mas simples que se pueden realizar son,
1
1 1
1
162 CAPITULO 5. SEGMENTACION
Gx = f (x, y) f (x + 1, y)
Gy = f (x, y) f (x, y + 1)
El calculo de estas derivadas por aplicacion de estas mascaras tiene la desventaja de ser sensible a
orientaciones locales.
El operador de Roberts analiza dos diferencias de direcciones a angulos rectos para determinar
el gradiente. Desde el punto de vista matricial, los operadores de Roberts se definen como:
0 1 1 0
y
1 0 0 1
Este operador tiene varias deficiencias: El resultado es sensible a las direcciones y al ruido. En las
figuras 5.8 y 5.9 se muestran los resultados de este operador para las imagenes de prueba.
Los operadores de Sobel tratan de aprovechar el hecho de que, si se calculan las derivadas en dos
direcciones y se combinan como la raz cuadrada de la suma de cuadrados se obtiene un resultado
independiente de la orientacion.
La forma general de las mascaras se pueden formular como,
5.2. DETECCION DE DISCONTINUIDADES 163
1 0 1 1 2 1
2 0 2 y 0 0 0
1 0 1 1 2 1
1 1 1 1 0 1
0 0 0 y 1 0 1
1 1 1 1 0 1
Cada punto de la imagen debe convolucionarse con las dos mascaras y el resultado es el valor
maximo. Las figuras 5.16, 5.17 y 5.18 ejemplifican el uso del operador de Prewitt.
El Operador de Kirsh esta deducido a partir de ocho kernels de convolucion:
164 CAPITULO 5. SEGMENTACION
5 5 5 3 5 5 3 3 5 3 3 3
3 0 3 3 0 5 3 0 5 3 0 5
3 3 3 3 3 3 3 3 5 3 5 5
3 3 3 3 3 3 5 3 3 5 5 3
3 0 3 5 0 3 5 0 3 5 0 3
5 5 5 5 5 3 5 3 3 3 3 3
Cada punto de la imagen debe convolucionarse por las ocho mascaras. Cada mascara responde de
manera maxima a un borde en una orientacion particular. El valor maximo en las ocho orientaciones
es el valor de salida para la imagen de la magnitud del borde.
Las figuras 5.19, 5.20 y 5.21 muestran el resultado de la aplicacion de cada una de las mascaras
de Kirsh. Otro ejemplo es ejemplificado con las imagenes de las figuras 5.22, 5.23 y 5.24.
5.2. DETECCION DE DISCONTINUIDADES 169
El Laplaciano
2f 2f
2 f = +
x2 y 2
0 1 0 1 1 1
1 4 1 1 8 1
0 1 0 1 1 1
Como no solo se obtienen valores positivos, comunmente se le suma a la imagen un valor medio
de gris, para que los valores de cero esten en este valor y los valores mas oscuros correspondan a
los valores negativos producidos por esta operacion. Al restarse esta imagen de la imagen original,
se restablece la variacion de niveles de gris y se incrementa el contraste en los lugares donde hay
discontinuidades. Las imagenes de las figuras 5.25, 5.26 y 5.27 muestran al Laplaciano y el resultado
de la sustraccion mencionada.
Parte de la explicacion del incremento de calidad visual se debe a las caractersticas del sistema
visual humano, el cual concentra su atencion en los bordes y tiende a ignorar regiones con pequenos
niveles de variacion. Segun [Russ, 1995] esta capacidad esta integrada a nivel de la retina. Las
celulas horizontales de la segunda capa promedia la informacion de varios conos o bastones, mientras
que las celulas bipolares en la tercer capa restan esta senal de la entrada original. Este fenomeno
de inhibicion es muy parecido a la operacion del Laplaciano y facilita la deteccion de bordes.
El Laplaciano al ser una derivada de segundo orden es inaceptablemente sensible al ruido, ademas
5.2. DETECCION DE DISCONTINUIDADES 171
produce bordes dobles. Un empleo mas adecuado para este operador consiste en encontrar la
ubicacion del borde a traves de su propiedad de paso por cero. Este concepto esta basado en la
convolucion de una imagen con el laplaciano de una funcion gaussiana de la forma,
2
x + y2
h(x, y) = exp
2 2
Este operador tambien recibe el nombre de operador de Marr-Hildreth. La ecuacion del laplaciano
para esta funcion se puede escribir como,
2 r2 2 r2
h= exp 2 , r2 = x2 + y 2
4 2
las imagenes de las figuras 5.28 y 5.29 muestran el resultado de la aplicacion de este operador.
La utilidad de este operador esta en realidad en sus cruces por cero, figura 5.30.
Las tecnicas descriptas anteriormente deberan obtener solo pixeles situados en el limite entre
regiones. En la practica esto no sucede debido al ruido, a las interrupciones debido a iluminacion
5.2. DETECCION DE DISCONTINUIDADES 173
Figura 5.30: Imagen original y resultado de la convolucion con la funcion Laplaciano de una
gaussiana. binarizacion de la imagen anterior por deteccion de los cruces por cero y la imagen de
los cruces por cero.
174 CAPITULO 5. SEGMENTACION
no uniforme as como otras discontinuidades espurias. Por esta razon despues de la deteccion de
contornos se continua con procedimientos de enlazado y de deteccion de limites apropiados para
reunir los pixeles del borde en limites que posean sentido.
Para esto se utilizan varias tecnicas, como,
Procesamiento local
Transformada de Hough
Teora de grafos
Uno de los procedimientos mas simples para enlazar puntos de borde consiste en analizar las
caractersticas de los pixeles en una vecindad de cada uno de los puntos (x, y) de una imagen que
ha sufrido una deteccion de bordes. De esta manera todos los puntos que son similares en algun
sentido se enlazan formando un lmite.
Las dos propiedades principales utilizadas para esto son:
La primera propiedad esta dada por la magnitud del gradiente como se vio anteriormente. De este
modo un pixel del borde de coordenadas (x0 , y 0 ) y en la vecindad predefinida de (x, y), es similar
en modulo al pixel de (x, y) si,
f (x, y) f (x0 , y 0 ) T
(x, y) (x0 , y 0 ) A
Transformada de Hough
La Transformada de Hough es una tecnica que se puede usar para aislar caractersticas de una
forma particular dentro de una imagen. Debido a que se requiere que las caractersticas deseadas
5.2. DETECCION DE DISCONTINUIDADES 175
y = ax + b
es que tanto la pendiente como la ordenada al origen tienden a infinito cuando la lnea se acerca a
la vertical. Una forma de evitar esto es expresar la ecuacion de la recta en forma normal, es decir,
x cos + y sin =
donde es la longitud de una normal desde el origen a esta lnea y es la orientacion con respecto
al X-eje, figura 5.33. Para cualquier punto (x, y) en esta lnea, y es constante. El empleo de esta
representacion en la construccion de una tabla de acumuladores es identico al metodo expuesto para
la representacion punto-pendiente. Sin embargo, en lugar de lneas rectas, los lugares geometricos
son curvas sinusoidales en el plano .
El rango del angulo es 90 , medidos respecto del eje horizontal. Entonces una recta horizontal
posee un de 0 , siendo igual a la x positiva. De forma similar, una lnea vertical tiene un de
90 , siendo igual a la y positiva o = 90 y igual a la y negativa. En la figura 5.34 se observa
la grafica de la recta en forma polar y el espacio parametro con las celulas acumulador.
Se puede usar este mismo procedimiento para detectar otras caractersticas con descripciones
analticas. Por ejemplo, en el caso de crculos, la ecuacion parametrica es,
(x a)2 + (y b)2 = r2
donde a y b son las coordenadas del centro del crculo y r es el radio. En este caso, la complejidad
computacional del algoritmo se incrementa pues se tienen tres coordenadas en el espacio parametro
y un acumulador 3D. (En general, el calculo y el tamano del arreglo de acumuladores se incrementa
5.2. DETECCION DE DISCONTINUIDADES 177
Figura 5.35: Imagen original e imagen procesada por un detector de contorno. Aqu se puede ver
el contorno total en la imagen, pero este resultado nada dice acerca de la identidad y cantidad de
puntos. Se puede entonces utilizar la transformada de Hough (deteccion de lneas) para detectar
los ocho segmentos de lnea recta separados e identificar la estructura geometrica verdadera de la
imagen.
polinomicamente con el numero de parametros. As, la tecnica de Hough basica descrita aqu es
solo practica para curvas simples.)
La transformada de Hough se usa para identificar los parametros de una curva que mejor se ajuste a
un conjunto de puntos dados. Esta descripcion de borde normalmente se obtiene de un operador de
deteccion de contorno como el operador de Roberts, Sobel o detector Canny. El resultado de esta
operacion puede ser ruidosa, es decir puede contener multiple fragmentos de bordes correspondiente
a un unico contorno total. Ademas, como la salida de un descriptor de bordes solo define donde esta
el contorno en una imagen, el trabajo de la transformada de Hough es determinar cuales puntos
forman parte del contorno y cuantos de ellos existen en la imagen.
Para ilustrar la transformada de Hough en detalle, nosotros comenzamos con la imagen simple de
dos rectangulos, uno debajo del otro, que se muestra en la figura 5.35.
Aplicando la transformada de Hough se genera una curva en el espacio polar para cada punto del
contorno en el espacio cartesiano. El arreglo de acumuladores visto como una imagen toma la forma
de la figura 5.36
Las curvas generadas por puntos colineales en la imagen gradiente se interceptan en picos en el
espacio de la transformada de Hough. Estos puntos interseccion caracterizan los segmentos de
lneas rectas de la imagen original. Existen metodos que se pueden emplear para extraer estos
puntos brillantes , o maximos locales, del arreglo de acumuladores. Por ejemplo, un metodo simple
involucra una umbralizacion y luego la aplicacion de alguna tecnica de afinado para aislar grupos
5.2. DETECCION DE DISCONTINUIDADES 179
Figura 5.36: Espacio parametro visto como una imagen. Las imagenes corresponden al espacio
parametro original y con compresion de rango dinamico.
de puntos brillantes. Tambien se puede usar una umbralizacion relativa para extraer los puntos
correspondientes a cada segmento de lnea recta que corresponden al contorno en la imagen original.
(En otras palabras se toman solo aquellos maximos locales en el arreglo acumulador cuyos valores
son iguales o mas grandes que algun porcentaje fijo del maximo global. Antitransformando se
obtiene un conjunto de descripciones de lneas. Solapando la imagen original con la obtenida por
la antitransformada se confirma el resultado de los 8 segmentos obtenidos por la transformada de
Hough y se revela la geometra oculta de la escena oculta. La imagen de la figura 5.37 muestra las
lneas detectadas por este metodo.
Notar que la exactitud del alineamiento de la lneas en la imagen original y detectadas no es perfecto,
esto se debe a la cuantizacion del arreglo acumulador. Tambien hay que notar que un segmento
en la imagen original da lugar a multiples lneas detectadas, debido a picos con valores similares y
cercanos en el espacio parametro. Existen tecnicas para controlar esta efecto. Las lneas generadas
por la transformada de Hough tienen longitud infinita. Si se desea identificar los segmentos de
lneas reales se requiere de un analisis de imagen posterior para ver que porciones de estas lneas
pertenecen a un objeto.
Para ilustrar la robustez de la transformada de Hough frente al ruido, se ha sumado un 1% de ruido
tipo sal y pimienta a la imagen entregada por el detector de contorno como se observa en la figura
5.38
El resultado obtenido en este caso es se muestra en la figura 5.39.
Se puede analizar la sensibilidad de la transformada de Hough a discontinuidades en el contorno
detectado, por ejemplo las figuras 5.40 y 5.41 muestran la imagen original, el espacio parametro
obtenido y la deteccion de lneas.
180 CAPITULO 5. SEGMENTACION
Ahora se muestra el uso de la transformada de Hough con imagenes reales. En el primer caso, la
imagen de una ciudad donde los edificios estan obstruidos por la niebla, figuras 5.42 y 5.43. La
imagen de la figura 5.44 muestra una umbralizacion menos selectiva lo que produce mayor cantidad
de lneas detectadas.
El metodo presentado anteriormente esta basado en la obtencion de un conjunto de puntos del borde
por medio de una operacion gradiente. Como el gradiente es una derivada, rara vez es apropiada
en situaciones caracterizadas por un alto contenido de ruido. En esta seccion vamos a presentar un
metodo global basado en la representacion de segmentos del borde en forma de grafo y buscando
en el los caminos de menor coste que corresponden a bordes significativos. Esta representacion
proporciona una aproximacion robusta que presenta un buen rendimiento en presencia de ruido.
Como era de esperar, el procedimiento es considerablemente mas complicado y necesita un mayor
tiempo de procesamiento que en los metodos expuestos anteriormente.
Comenzaremos el desarrollo con algunas definiciones basicas.
Un grafo G = (N, A) es un conjunto finito, no vaco de N nodos, junto con un conjunto de A pares
desordenados de distintos elementos de N . Cada par (ni , nj ) de A se denomina arco.
Un grafo cuyos arcos tienen una direccion se denomina grafo dirigido. Si un arco esta dirigido del
nodo ni al nj , entonces nj se dice que es un sucesor de su nodo padre ni . El proceso de identificar
a los sucesores de un nodo se denomina expansion del nodo. En cada grafo se definen niveles, de
los que el nivel cero se compone de un solo nodo simple, denominado nodo de salida, y los nodos
5.2. DETECCION DE DISCONTINUIDADES 183
Figura 5.43: Espacio parametro y deteccion de lneas. Umbral relativo del 70%.
184 CAPITULO 5. SEGMENTACION
Figura 5.44: Imagen de lneas detectadas con un umbral relativo mas generoso, es decir del 50%.
del ultimo nivel se denominan nodos destino. Se puede asociar un coste c(ni , nj ) con cada arco
(ni , nj ). Una sucesion de nodos nl , n2 , . . . , nk en la que cada nodo ni es un sucesor del nodo nil
se denomina un camino desde nl a nk , siendo el coste del camino:
k
X
c= c(ni1 , ni )
i=2
Finalmente, un elemento del borde es el lmite entre dos pixeles p y q, tales que p y q son 4-vecinos.
En este contexto, un borde es una sucesion de elementos del borde.
Se puede comprobar la aplicacion de los conceptos precedentes a la deteccion de bordes con la
imagen 3 3 que se muestra en la Figura, donde los numeros externos son coordenadas de pixeles
y los numeros entre parentesis representan la intensidad, figura 5.45. Cada elemento del borde
definido por los pixeles p y q tiene un coste asociado, definido como:
Para simplificar, se supone que el borde comienza en la fila superior y termina en la ultima fila,
de forma que el primer elemento de un borde puede ser solamente [(0, 0), (0, 1)] o [(0, 1), (0, 2)] y el
ultimo elemento [(2, 0), (2, 1)] o [(2, 1), (2, 2)]. Las lneas de trazos representan el camino de coste
mnimo, calculado al utilizar la ecuacion anterior. En general, el problema de encontrar un camino
de coste mnimo no es trivial en terminos de calculo. De forma caracterstica, el metodo consiste
en sacrificar optimizacion en beneficio de la velocidad, y los algoritmos siguientes representan a
una clase de procedimientos que utilizan heursticas con el fin de reducir el esfuerzo de busqueda.
Sea r(n) una estimacion del coste de un camino de coste mnimo desde el nodo de salida s hasta el
nodo destino, con la restriccion de que el camino debe pasar por n. Este coste se puede expresar
como la estimacion del coste de un camino de coste mnimo desde s a n mas la estimacion del coste
de ese camino desde n hasta el nodo destino, esto es:
Aqu, g(n) se puede elegir como el camino de menor coste desde s hasta n de los encontrados hasta
ahora, y h(n) se obtiene utilizando cualquier informacion heurstica disponible (como el expandir
solamente ciertos nodos basandose en costes previos obtenidos de dicho nodo). A continuacion se
muestra un algoritmo que utiliza r(n) como base para llevar a cabo una busqueda en grafos:
Paso 2 Si no hay ningun nodo ABIERTO terminar con incidencia; en caso contrario, continuar.
Paso 3 Marcar como CERRADO el nodo ABIERTO n cuya estimacion r(n) calculada por la
ecuacion anterior es la menor de todas. (Limitar al mnimo los valores de r que se han
resuelto arbitrariamente, pero siempre en favor de un nodo destino).
Paso 4 Si n es un nodo destino, terminar con el camino solucion obtenido al volver hacia atras
segun los punteros; en caso contrario, continuar.
Paso 5 Expandir el nodo n, generando todos sus sucesores. (Si no hay sucesores, ir al paso 2.)
Paso 7 Si un sucesor ni esta marcado como CERRADO o ABIERTO, actualizar su valor poniendo:
Marcar como ABIERTO a los sucesores de CERRADO cuyos valores g 0 han disminuido en
consecuencia y redirigir hacia n punteros desde todos los nodos cuyos valores g 0 han dis-
minuido. Ir al paso 2.
5.2. DETECCION DE DISCONTINUIDADES 187
En general, este algoritmo no garantiza un camino de coste mnimo; su ventaja es que aumenta la
velocidad por medio de la utilizacion de heursticas. Sin embargo, si h(n) es un lmite inferior del
coste del camino de coste mnimo del nodo n al nodo destino, el procedimiento produce realmente un
camino optimo hacia el nodo destino (Hart, Nilsson y Raphael [19681). Si se dispone de informacion
no heurstica (esto es, hcoincide con 0), el procedimiento se reduce al algoritmo de coste uniforme
de Dijkstra [1959].
Descripcion
En muchas aplicaciones de vision artificial, es util poder separar las regiones de la imagen que
corresponden a objetos en los que se esta interesado, de las regiones de la imagen que corresponde
al fondo. La umbralizacion (Thresholding) proporciona a menudo una manera facil y conveniente
de realizar esta segmentacion en base a intensidades diferentes o colores entre el el fondo y los
objetos.
Ademas, es a menudo util poder ver que areas de una imagen consisten en pixeles cuyos valores
yacen dentro de un rango especificado, o banda de intensidades (o colores). Thresholding tambien
puede usarse para esto.
Funcionamiento
La entrada a una operacion de thresholding es tpicamente una imagen de niveles de gris o una
imagen color. En la aplicacion mas simple, la salida es una imagen binaria que representa la
segmentacion.
Los pixeles negros corresponden al fondo y los pixeles blancos correspondan al primer plano (o
viceversa). En aplicaciones simples, la segmentacion se determina por un solo parametro conocido
como el umbral de intensidad. En un solo paso, cada pixel en la imagen se compara con este umbral.
Si la intensidad del pixel es mas alta que el umbral, el pixel se coloca por ejemplo en blanco en la
salida. Si es menor que el umbral, se coloca en negro.
En aplicaciones mas sofisticadas, se pueden especificar umbrales multiples, tal que una banda de
valores de intensidad pueda ponerse en blanco mientras que todo lo demas se coloca en negro. Para
imagenes color o multi-espectrales, puede ser posible colocar umbrales diferentes para cada canal
de color, y as seleccionar exactamente aquellos pixeles dentro de un cubo especfico en el espacio
de RGB. Otra variante comun es colocar en negro todos aquellos pixeles que corresponden al fondo,
pero dejar los pixeles del primer plano con su color/intensidad original (como opuesto a forzarlos a
blanco), para que esa informacion no se pierda.
No todas las imagenes se pueden segmentar facilmente en objetos y fondo usando la tecnica de
thresholding. Si una imagen se puede o no segmentar correctamente se determina analizando el
histograma de intensidad de la imagen.
Si es posible separar el primer plano de una imagen en base a la intensidad de los pixeles, entonces, la
188 CAPITULO 5. SEGMENTACION
intensidad de los pixeles dentro de los objetos del primer plano deben ser diferentes de la intensidad
de los pixeles del fondo. En este caso, se espera ver un pico distinto en el histograma que corresponde
al primer plano tal que se pueda escoger un umbral que permita aislar este pico. Si tal pico no
existe, entonces es improbable que la tecnica de thresholding produzca una buena segmentacion.
En este caso, la tecnica de thresholding adaptable pueden ser una alternativa mejor.
La figura 5.47 muestra algunos histogramas tpicos junto con las opciones mas convenientes de
umbral.
La Figura 5.47A) muestra una distribucion de intensidad bi-modal clasica. Esta imagen que usa
un solo umbral T1 se puede segmentar con exito. la figura 5.47B) muestra que la segmentacion
con umbral unico es mas complicada de obtener. Aqu se supone que el pico central representa los
objetos de interes y por lo tanto se necesitan dos umbrales: T1 y T2 . En la figura 5.47C), los dos
picos de la distribucion bi-modal estan como fusionados y no es posible segmentar esta imagen con
exito utilizando un unico umbral global.
Por ejemplo, la figura 5.48 muestra una imagen y su histograma. Este muestra una distribucion
bimodal. El pico menor representa el objeto y el mas alto el fondo. La imagen se puede segmentar
utilizando un umbral unico de valor 120. La figura 5.49 muestra el resultado de la umbralizacion
antes mencionada.
5.2. DETECCION DE DISCONTINUIDADES 189
Thresholding optimo.
Thresholding Adaptable.
La mas sencilla de todas las tecnicas de umbralizacion es la particion del histograma de una imagen
utilizando un umbral unico, T . La segmentacion se completa entonces escaneando la imagen pixel
a pixel y etiquetando cada pixel como perteneciente al objeto o al fondo, dependiendo de que el
nivel de gris de ese pixel sea mayor o menor que el valor de T . Como se indico antes, el exito de
este metodo depende totalmente de como se pueda dividir el histograma. El objetivo clave de la
segmentacion por esta tecnica no es mas que generar una imagen binaria. En la practica, el tipo
de umbralizacion global que se acaba de describir se puede esperar que tenga exito en los entornos
muy bien controlados. Uno de los campos en los que esto es posible a veces es en las aplicaciones de
inspeccion industrial, donde habitualmente es factible el control de la iluminacion. Se recuerda que
la iluminacion desempena un papel determinante en el establecimiento de la forma del histograma
de la imagen resultante.
Thresholding Optimo
Supongase que una imagen contiene solamente dos regiones de brillo principales. El histograma
de una imagen de este tipo se puede considerar como una estimacion de la funcion densidad de
190 CAPITULO 5. SEGMENTACION
probabilidad de brillo, p(z). Esta funcion de densidad total es la suma o mezcla de dos densidades
unimodales, una para las regiones claras de la imagen y la otra para las oscuras. Ademas, los
parametros de la mezcla son proporcionales a las superficies de cada region de brillo. Si se conoce
o se supone la forma de las densidades de probabilidad, se puede determinar un umbral optimo (en
terminos del error mnimo) para segmentar la imagen en las dos regiones de brillo.
Supongamos que una imagen contiene dos valores combinados con ruido aditivo gaussiano. La
funcion de densidad de probabilidad de la mezcla es:
P1 (z 1 )2 P2 (z 2 )2
p(z) = exp + exp
21 212 22 222
donde 1 y 2 son los valores medios de los dos niveles de brillo, 1 y 2 son las desviaciones
estandar respecto a la media, y P1 y P2 son las probabilidades a priori de los dos niveles. Se debe
satisfacer la restriccion:
P1 + P2 = 1
por lo que la densidad de la mezcla tiene cinco parametros desconocidos. Si se conocen todos los
parametros, se puede determinar con facilidad el umbral optimo.
Supongase que las regiones oscuras corresponden al fondo y que las claras corresponden a los
objetos. En este caso 1 < 2 , y se puede definir un umbral T de forma que todos los pixels con
nivel de gris superior a T se consideren puntos objeto.
La probabilidad de clasificar (erroneamente) un punto objeto como un punto del fondo es:
ZT
E1 (T ) = p2 (z)dz
De forma similar, la probabilidad de clasificar un punto del fondo como un punto objeto es:
Z
E2 (T ) = p1 (z)dz
T
E(T ) = P2 E1 (T ) + P1 E2 (T )
5.2. DETECCION DE DISCONTINUIDADES 191
Para encontrar el valor del umbral para el que el error sea mnimo se necesita derivar E(T ) con
respecto a T (utilizando la regla de Leibnitz) e igualar el resultado a 0. As:
P1 p1 (T ) = P2 p2 (T )
AT 2 + BT + C = 0
donde:
A = 12 22 B = 2(1 22 2 12 )
C = 12 22 22 21 + 212 22 ln( 12 PP21 )
La posibilidad de tener dos soluciones indica que se pueden necesitar dos valores de umbral para
obtener la solucion optima.
Si las varianzas son iguales, = 1 = 2 , es sufciente con un umbral unico:
1 + 2 2 P2
T = + ln( )
2 1 2 P1
Si las probabilidades anteriores son iguales, P1 = P2 el umbral optimo es el promedio de las medias.
Lo mismo es valido para = 0. La determinacion del umbral optimo se puede realizar de forma
similar para otras densidades de un solo modo de la forma conocida, tales como la de Raleigh y
la normal. Se puede utilizar un metodo de error medio por mnimos cuadrados para estimar los
parametros de una imagen a partir de un histograma. Por ejemplo, el error cuadratico medio entre
la densidad de la mezcla p(z) y el histograma experimental h(zi ) es:
P
n
ems = 1
n [p(zi ) h(zi )]2
i=1
respecto a su valor medio, y calculando las medias y varianzas de las dos partes para utilizarlas
como valores de salida.
0 si f < T
s(x, y) = + si f T y 2 f 0
si f T y 2 f < 0
donde los smbolos 0, + y - representan tres niveles de gris cualquiera distintos, T es un umbral, y
el gradiente y el laplaciano se calculan para todos los puntos (x, y). Para un objeto oscuro sobre
5.2. DETECCION DE DISCONTINUIDADES 193
fondo claro se produce una imagen s(x, y) en la que todos los pixeles que no estan en un borde estan
marcados con 0, todos los del lado oscuro de un borde estan marcados con +, y todos los del lado
claro estan marcados con -. Los smbolos + y - de la ecuacion anterior se invierten en el caso de un
objeto claro sobre un fondo oscuro. La informacion que se obtiene al utilizar este procedimiento
se puede emplear para generar una imagen binaria segmentada en la que los 1 corresponden a los
objetos de interes y los 0 al fondo. La transicion (a lo largo de una lnea de exploracion horizontal
o vertical) desde un fondo claro a un objeto oscuro debe estar caracterizada por la aparicion en
s(x, y) de un - seguido de un +. El interior del objeto esta compuesto de pixeles marcados bien
como 0 o como +. Finalmente, la transicion desde el objeto hacia el fondo esta caracterizada por
la aparicion de un + seguido de un -.
De este modo, una lnea de exploracion horizontal o vertical que contiene una seccion de un objeto
tiene la siguiente estructura:
(, +) y (+, ).
Thresholding Adaptivo
Mientras las tecnicas de thresholding convencional utiliza un umbral global para todos los pixeles,
el thresholing adaptivo cambia el umbral dinamicamente para todos los pixeles. Esta version mas
sofisticada de thresholding puede acomodar el valor del umbral a cambios en las condiciones de
iluminacion, por ejemplo, aquellas que ocurren como resultado de un gradiente de iluminacion
alto o sombras. La tecnica de thresholding adaptivo tpicamente toma como entrada una imagen
monocromatica o color y en su implementacion mas simple genera como salida una imagen binaria
representando la segmentacion. Para cada pixel en la imagen, se debe calcular un umbral. Si el
valor del pixel esta por debajo del umbral, este se coloca con el valor del fondo, en otro caso asume
el valor del frente.
Existen 2 metodos para encontrar el umbral:
2. El thresholding local
La suposicion detras de ambos metodos es que regiones mas pequenas de la imagen poseen ilumi-
nacion mas uniforme, siendo mas adecuadas para seleccionar un umbral. Chow y Kanenko dividen
una imagen en un arreglo de subimagenes que se solapan y luego encuentran el mejor umbral para
194 CAPITULO 5. SEGMENTACION
cada subimagen investigando su histograma. El umbral para cada pixel se encuentra por inter-
polacion de los resultados de las subimagenes. La desventaja de este metodo es la complejidad
computacional y por lo tanto no es apropiado para aplicaciones en tiempo real.
Una alternativa para encontrar el umbral local es examinar estadsticamente los valores de intensi-
dad de la vecindad local de cada pixel. Funciones estadsticas simples y rapidas incluyen la media
de la distribucion de intensidades local,
T = media
el valor de la mediana,
T = mediana
(max min)
T =
2
El tamano de la vecindad debe ser lo suficientemente grande para cubrir suficientes pixeles del frente
y del fondo. Por otro lado, eligiendo regiones demasiado grandes pueden violar la suposicion de
iluminacion uniforme. Ese metodo es menos costoso computacionalmente que el anterior y produce
resultados bastante buenos para muchas aplicaciones.
Ejemplos de Umbralizacion
La figura 5.50 muestra una imagen y su histograma. Claramente se observa que este no es bimodal.
La obtencion de un umbral apropiado es dificil como se puede observar en las figuras 5.51 y 5.52.
Debido al severo gradiente de iluminacion en la escena, los picos correspondientes al frente y al
fondo y la tecnica de thresholding global no arroja buenos resultados T = 80 y T = 120.
La tecnica de Thresholding se utiliza para filtrar la salida de otros operadores. Por ejemplo, la salida
de un detector de contornos como Sobel dejara brillante regiones de la imagen con alto gradiente
espacial. Si solo estamos interesados en el contorno, entonces se puede usar thresholding para
seleccionar el contorno mas agudo y colocar todo lo demas en negro. Como un ejemplo considere
la imagen de la figura 5.53. La figura 5.54 muestra la aplicacion del detector de bordes de Sobel y
posteriormente la umbralizacin correspondiente.
La tecnica de thresholding se puede usar para extraer un subconjunto de estructuras interesantes
las cuales deben ser pasadas a otro operador en la cadena de procesamiento. Por ejemplo, la imagen
de la figura 5.55 muestra tejido del cerebro en el cual se pueden apreciar las celulas nerviosas (es
decir, grandes globulos grises con nucleos circulares mas oscuros en el centro) y otras celulas (es
decir, los crculos negros, pequenos aislados. Se puede umbralizar esta imagen tal que los niveles
de gris entre 0 y 150 se conviertan en pixeles del frente y lo demas en el fondo
5.2. DETECCION DE DISCONTINUIDADES 195
La imagen resultante se puede conectar y etiquetar para contar el numero total de celulas en la
imagen original, como se muestra en la figura 5.56,
Si se desea conocer cuantas celulas nerviosas hay en la imagen original, se podra aplicar una um-
bralizacion doble para seleccionar unicamente los pixeles que corresponden a las celulas nerviosas.
En sensado remoto y aplicaciones en medicina, tal umbral se denomina seccion de densidad. Apli-
cando un umbral a la banda de 130-150 conduce a la imagen que se muestra en la figura 5.57.
Mientras la mayora de los pixeles blancos corresponden a celulas nerviosas, estan tan desconec-
tadas entre si que no se pueden etiquetar. Alternativamente, se podran obtener mejores resultados
investigando algunos atributos, por ejemplo, tamano.
Una tarea adecuada para thresholding adaptivo es en la segmentacion de texto. Por ejemplo la
imagen de la figura 5.58.
Debido a que esta imagen posee un alto gradiente de iluminacion, la tecnica de thresholding global
produce resultados poco satisfactorios, figura 5.59.
Usando la media de una vecindad de 7 7 elementos, el thresholding adaptivo conduce a la imagen
que se muestra en la figura 5.60. El metodo es exitoso en el area alrededor del texto debido a que
hay suficientes pixeles del fondo y del texto en la vecindad local. Es decir, el valor medio yace entre
los valores de intensidad del frente y del fondo y por lo tanto pueden separarse facilmente. Sobre
el margen, sin embargo, la media del area local no es adecuada como un umbral, debido a que el
rango de valores de intensidad dentro de la vecindad local es muy pequena y su media esta muy
cerca del valor del pixel central.
La situacion anterior se puede mejorar si el umbral empleado no es la media sino la media-C, donde
C es una constante. Usando esta funcion estadstica, a todos los pixeles que existen en una vecindad
5.2. DETECCION DE DISCONTINUIDADES 199
uniforme (por ejemplo en los margenes) se les coloca la intensidad del fondo. Los resultados para
una vecindad de 7 7 y C = 7, y para una vecindad de 75 75 y C = 10, se muestran en las figuras
5.60 y 5.61.
En el ejemplo anterior, la vecindad mas grande conduce a resultados mas pobres, ya que es mas
afectado por el gradiente de iluminacion. Tambien, notar que desde el punto de vista computacional
es mas costoso que usar una vecindad pequena. La imagen de la figura 5.62 muestra el resultado
de usar la mediana en lugar de la media (la vecindad en este caso es de 7 7 y C=4). El resultado
muestra que para esta aplicacion la mediana no es una buena eleccion de funcion estadstica.
Considerese otro ejemplo, de una imagen con un alto gradiente de iluminacion, figura 5.63. Esta
imagen (a) no puede segmentarse con un umbral global (T = 80) (b).
Sin embargo, como la imagen contiene un objeto grande, es difcil aplicar la tecnica de thresholding
adaptivo. Usando la media-C como un umbral local se obtiene la imagen de la figura 5.64 (a) para
una vecindad V = 7 7 y C = 4, la figura (b) para una vecindad V = 140 140 y C = 8.
Todos los pixeles que pertenecen al objeto pero no tiene pixeles del fondo en la vecindad se colocan
con el nivel de gris del fondo. La ultima imagen muestra un resultado mucho mejor que el obtenido
con el umbral global, pero aun se pierden pixeles en el centro del objeto. En muchas aplicaciones,
el calculo de la media de una vecindad (para cada pixel) cuyo tamano es del orden de 140 140
puede tomar demasiado tiempo. En este caso la tecnica de Chow y Kanenko generara resultados
mejores.
202 CAPITULO 5. SEGMENTACION
Figura 5.64: Resultado de la umbralizacion adaptiva para dos vecindades y valor de constante
diferente.
La simulacion del efecto producido por un thresholding adaptivo se puede lograr los siguientes
pasos:
5.3.1 Formulacion
ni=1 Ri = R
Ri Rj = , i, j i 6= j
donde P (Ri ) es un predicado logico sobre los puntos del conjunto Ri y es el conjunto vaco. La
primera condicion indica que la segmentacion debe ser completa, esto es, cada pixel de la imagen
debe estar en una region. La segunda condicion requiere que los puntos de una region sean conexos.
La tercera condicion establece que las regiones deben ser disjuntas. La cuarta condicion trata de
las propiedades que deben satisfacer los pixeles de una region segmentada. Finalmente la ultima
condicion indica que las regiones Ri y Rj son diferentes en el sentido del predicado P .
La tecnica de segmentacion orientada a regiones se puede estudiar a partir de dos metodos diferentes,
Este procedimiento agrupa pixeles o subregiones dentro de regiones mas grandes. La sencillez del
metodo radica en la agregacion de pixeles, que comienza con un conjunto de puntos generadores
a partir de los que van creciendo las regiones al agregar a cada uno de estos puntos los pixeles
proximos que tienen propiedades similares (nivel de gris, textura, color, etc.).
Para estudiar este procedimiento se utiliza la subimagen de la figura 5.65,
representada por una matriz en la cual se desea efectuar una particion en dos regiones, A y B,
siguiendo la propiedad: |p q| < T , es decir, un umbral con respecto a los niveles. Si tomamos
como umbral a T = 3, se obtiene el resultado mostrado en la figura 5.66.
En este caso, no importa la seleccion de las races para ninguna de las regiones, sin embargo, resulta
mas importante la seleccion del valor de umbral T . Si T = 8, se obtiene una sola region commo se
muestra en la figura 5.67.
5.3. SEGMENTACION ORIENTADA A REGIONES 205
Figura 5.68: a) Imagen Original que muestra el punto generador. b)Primeras etapas del crecimiento
de la region.
Las caractersticas importantes para este metodo son la determinacion de las races iniciales y la
naturaleza de la propiedad de agrupacion.
En el caso de imagenes a color, se emplean los componentes RGB y reglas de segmentacion de la
forma:
P (R, x, t) : (fR (k, l) < TR )(fG (k, l) < TG )(fB (k, l) < TB )
Una alternativa distinta a la anterior consiste en subdividir una imagen inicialmente en un conjunto
de regiones arbitrarias disjuntas y despues fusionar y/o dividir las regiones intentando satisfacer las
condiciones mencionadas anteriormente. Supongase que R representa la region imagen completa
y se selecciona un predicado P de la forma que se menciono anteriormente. Para una imagen
rectangular, un metodo consiste en subdividir sucesivamente en cuadrantes cada vez mas pequenos
de forma que, para cualquier region Ri , P (Ri ) =VERDADERO. Esto es, si P (R) =FALSO, se
divide la imagen en cuadrantes. Si P es FALSO para cualquier cuadrante, se divide el cuadrante
en subcuadrantes, y as sucesivamente. Esta tecnica de division posee una representacion adecuada
en arbol cuadruple, como se muestra en la figura 5.70. Observese que la raz del arbol corresponde
a la imagen completa y que cada nodo corresponde a una subdivision.
Si solamente se utiliza la division , la particion final probablemente contenga regiones adyacentes
con propiedades identicas. Este inconveniente puede solucionarse permitiendo tanto fusiones como
divisiones. La satisfaccion de las restricciones requiere fusionar solamente regiones adyacentes cuyos
pixeles combinados satisfacen el predicado P ; esto es, dos regiones adyacentes Rj y Rk se fusionaran
si P (Rj Rk ) =VERDADERO.
Este procedimiento se puede resumir por medio de los siguientes pasos:
2. Fusionar las regiones adyacentes Rj y Rk para las que se cumpla P (Rj Rk ) =VERDADERO.
Las iamgenes de las figuras 5.71 y 5.72 ejemplifican este metodo de segmentacion.
208 CAPITULO 5. SEGMENTACION