Capitulo5 - Segmentación

Captulo 5
Segmentacion
5.1 Introduccion
Las tecnicas empleadas para extraer informacion de una imagen se agrupan en lo que se denomina
Analisis de Imagenes. El primer paso dentro del Analisis de imagenes es la Segmentacion que se
encarga de la subdivision de la misma en sus partes constitutivas u objetos. El nivel al que se lleva
a cabo esta subdivision depende del problema a resolver, es decir la segmentacion debera detenerse
cuando se hayan aislado los objetos de interes. En general la tarea de la segmentacion autonoma
es una de las mas difciles del procesamiento de imagenes pues determina el exito o el fracaso del
analisis. Por esta razon se debe poner especial cuidado en aumentar la probabilidad de tener una
segmentacion robusta. Los disenadores de sistemas de procesamiento de imagenes con experiencia
prestan invariablemente una considerable atencion a esta etapa del procesamiento de imagenes.
Los algoritmos de segmentacion de imagenes monocromaticas generalmente se basan en una de dos
propiedades de niveles de gris,
discontinuidad
similitud
5.2 Deteccion de Discontinuidades
El metodo consiste en dividir una imagen basandose en los cambios bruscos de nivel de gris. Existen
tres tipos basicos de discontinuidades: puntos, lneas y bordes. En la practica la forma mas comun
de ver las discontinuidades es pasar una mascara a traves de la imagen. La respuesta de la misma
para cada pixel es,
9
X
R = w1 z1 + w2 z2 + + w9 z9 = wi zi
i=1
155
156 CAPITULO 5. SEGMENTACION
Figura 5.1: Imagen original y despues de la deteccion de puntos
5.2.1 Deteccion de Puntos
La deteccion de puntos aislados de una imagen es directa. Utilizando una mascara se sabe que se
ha detectado un punto en la posicion en la que esta centrada si,
|R| > T
donde T es un umbral no negativo, y R es la medicion con la mascara del pixel evaluado. Basicamente,
todo lo que hace esta formulacion es medir las diferencias ponderadas entre el punto central y sus
vecinos, partiendo de la base que el nivel de gris de un punto aislado sera bastante diferente que el
de sus vecinos.
Una de las mascaras mas utilizadas con este proposito es,

1 1 1
1 8 1
1 1 1
Las imagenes de las figuras 5.1 y 5.2 muestran la deteccion de puntos utilizando la mascara antes
mencionada.
5.2.2 Deteccion de Lneas
El siguiente nivel de complejidad despues de la deteccion de puntos es la deteccion de lneas. Las

siguientes mascaras logran que se detecten lneas en distintas orientaciones:

1 1 1 1 1 2 1 2 1 2 1 1
2 2 2 1 2 1 1 2 1 1 2 1
1 1 1 2 1 1 1 2 1 1 1 2
5.2. DETECCION DE DISCONTINUIDADES 157
Figura 5.2: Imagen original y despues de la deteccion de puntos. Es notable la desaparicion del
fondo, as como la textura de la piel de los animales.
Figura 5.3: Imagen Original.
es decir, lneas horizontales, a 45 , verticales y a 135 . Sean R1 , R2 , R3 y R4 las respuestas de las

mascaras en el pixel central de una imagen. Si en un punto de la imagen se cumple,
|Ri | > |Rj | j 6= i
el punto i es el que tendra mayor probabilidad de estar asociado con una lnea en la direccion de
la mascara i. Las imagenes del cangrejo arana de las figuras 5.3, 5.4 y 5.5 muestran la deteccion
de lneas en distintas orientaciones.
5.2.3 Deteccion de Bordes
Este es el metodo mas comun para detectar discontinuidades significativas en los niveles de grises
de pixeles.
Figura 5.4: Deteccion de lneas horizontales y verticales.
Figura 5.5: Deteccion de lneas a 135 y a 45 .

En el caso de la deteccion de bordes en general, podemos decir que:
Un borde es una frontera entre 2 propiedades diferentes de los niveles de gris.
Normalmente se utilizan operadores similares a la derivada.
La primera derivada es cero en todos los niveles excepto cuando hay transiciones de niveles
de gris (donde comienzan y terminan).
La magnitud de la primera derivada dice si el pixel esta en lo oscuro (fondo) o claro (objeto).
El signo de la segunda derivada es positivo en el borde oscuro y negativo en el claro.
El realce de bordes se puede calcular a partir del filtrado espacial. Las mascaras de convolucion
que se emplean comunmente son:
Desplazamiento y sustraccion
Gradiente
Laplaciano
Todos estos tipos de procesamiento se basan en el analisis de la pendiente de la intensidad luminosa.

En cualquier tecnica de deteccion de bordes el calculo se realiza a traves de un operador local de
derivacion. El diagrama de la figura 5.6 ejemplifica esto para un perfil unidimensional. Se obtiene
a partir de este la derivada primera y la derivada segunda.
Desplazamiento y Sustraccion
Este es el metodo mas simple de realce de bordes y permite obtener informacion en las direcciones
horizontales o verticales. Al desplazar una imagen a la izquierda y restarla de la imagen original,
se realzan los bordes verticales. Esto es el equivalente a efectuar una operacion de derivacion.
El mismo proceso se puede efectuar para realzar los bordes horizontales. El resultado de estas
operaciones produce la impresion de tener un grabado. Las imagenes de la figura 5.7 muestran este
proceso.
El Gradiente
El gradiente de una imagen f (x, y) en la posicion (x, y) es el vector,
" #
f
Gx x
f = = f
Gy y
q
fm = mag(f ) = G2x + G2y . Se sabe del analisis vectorial que el gradiente de un vector indica
la direccion de la maxima variacion de la funcion f en (x, y). Un valor importante para la deteccion
Figura 5.6: Perfil unidimensional, priemra derivada y derivada segunda.

Figura 5.7: Imagen original y proceso de desplazamiento y sustraccion.
de bordes es la magnitud del vector gradiente, el cual normalmente se lo denomina de igual manera.
El calculo de este valor puede hacerse por dos caminos diferentes, es decir,
q
fm = mag(f ) = G2x + G2y
o,
fm = mag(f ) |Gx | + |Gy |
La direccion del vector gradiente es tambien una cantidad importante. Del analisis vectorial el
angulo de direccion del vector gradiente en el punto (x, y) con respecto al eje x es,

1 Gy
(x, y) = tan
Gx
El calculo de las derivadas parciales en forma digital se puede realizar de diversas maneras, especi-
ficando la mascara mas conveniente. Las mascaras mas simples que se pueden realizar son,

1
1 1
1
Figura 5.8: Imagen Original y detector de Roberts.
que dan lugar a las ecuaciones,
Gx = f (x, y) f (x + 1, y)
Gy = f (x, y) f (x, y + 1)
El calculo de estas derivadas por aplicacion de estas mascaras tiene la desventaja de ser sensible a
orientaciones locales.
El operador de Roberts analiza dos diferencias de direcciones a angulos rectos para determinar
el gradiente. Desde el punto de vista matricial, los operadores de Roberts se definen como:

0 1 1 0
y
1 0 0 1
Este operador tiene varias deficiencias: El resultado es sensible a las direcciones y al ruido. En las
figuras 5.8 y 5.9 se muestran los resultados de este operador para las imagenes de prueba.
Los operadores de Sobel tratan de aprovechar el hecho de que, si se calculan las derivadas en dos
direcciones y se combinan como la raz cuadrada de la suma de cuadrados se obtiene un resultado
independiente de la orientacion.
La forma general de las mascaras se pueden formular como,
Figura 5.9: Imagen Original y detector de Roberts.

1 0 1 1 2 1
2 0 2 y 0 0 0
1 0 1 1 2 1
En la practica se calcula solamente en 2 direcciones ortogonales y luego se calcula el modulo. Se tiene

la ventaja de que con una mascara de 3 x 3 pixeles, se obtiene un alisado adicional (diferenciacion
+ suavizado) que no existe en los operadores 2 2 tipo Roberts. De esta manera el procesamiento
es mas inmune al ruido. En las imagenes de las figuras 5.10, 5.11 y 5.12 se muestran los resultados
del empleo del gradiente, siguiendo la operacion edge en Matlab, con la definicion del operador
Sobel.
Las imagenes de las figuras 5.13, 5.14 y 5.15 se muestra la aplicacion del operador Sobel como
matriz de convolucion.
Los kernels de convolucion siguientes corresponden al operador de Prewitt.

1 1 1 1 0 1
0 0 0 y 1 0 1
1 1 1 1 0 1
Cada punto de la imagen debe convolucionarse con las dos mascaras y el resultado es el valor
maximo. Las figuras 5.16, 5.17 y 5.18 ejemplifican el uso del operador de Prewitt.
El Operador de Kirsh esta deducido a partir de ocho kernels de convolucion:
Figura 5.10: Imagen original.
Figura 5.11: Detector de sobel vertical y horizontal.

Figura 5.12: Resultado de la suma de los dos operadores de Sobel.
Figura 5.14: Gradiente en x y en y.

Figura 5.15: Gradiente de Sobel en ambas direcciones.

Figura 5.17: Prewitt horizontal y vertical.
Figura 5.18: Suma de la salida de los dos operadores de Prewitt.

Figura 5.20: Resultado de las primeras 4 mascaras de Kirsh.

5 5 5 3 5 5 3 3 5 3 3 3
3 0 3 3 0 5 3 0 5 3 0 5
3 3 3 3 3 3 3 3 5 3 5 5
3 3 3 3 3 3 5 3 3 5 5 3
3 0 3 5 0 3 5 0 3 5 0 3
5 5 5 5 5 3 5 3 3 3 3 3
Cada punto de la imagen debe convolucionarse por las ocho mascaras. Cada mascara responde de
manera maxima a un borde en una orientacion particular. El valor maximo en las ocho orientaciones
es el valor de salida para la imagen de la magnitud del borde.
Las figuras 5.19, 5.20 y 5.21 muestran el resultado de la aplicacion de cada una de las mascaras
de Kirsh. Otro ejemplo es ejemplificado con las imagenes de las figuras 5.22, 5.23 y 5.24.
Figura 5.21: Resultado de las ultimas 4 mascaras de Kirsh.
Figura 5.23: Resultado de las primeras 4 mascaras de Kirsh.
Figura 5.24: Resultado de las ultimas 4 mascaras de Kirsh.

Figura 5.25: Imagen original y laplaciano.
El Laplaciano
Para una funcion bidimensional el operador Laplaciano se define como,
2f 2f
2 f = +
x2 y 2
Las mascaras para el Laplaciano mas frecuentemente utilizadas son,

0 1 0 1 1 1
1 4 1 1 8 1
0 1 0 1 1 1
Como no solo se obtienen valores positivos, comunmente se le suma a la imagen un valor medio
de gris, para que los valores de cero esten en este valor y los valores mas oscuros correspondan a
los valores negativos producidos por esta operacion. Al restarse esta imagen de la imagen original,
se restablece la variacion de niveles de gris y se incrementa el contraste en los lugares donde hay
discontinuidades. Las imagenes de las figuras 5.25, 5.26 y 5.27 muestran al Laplaciano y el resultado
de la sustraccion mencionada.
Parte de la explicacion del incremento de calidad visual se debe a las caractersticas del sistema
visual humano, el cual concentra su atencion en los bordes y tiende a ignorar regiones con pequenos
niveles de variacion. Segun [Russ, 1995] esta capacidad esta integrada a nivel de la retina. Las
celulas horizontales de la segunda capa promedia la informacion de varios conos o bastones, mientras
que las celulas bipolares en la tercer capa restan esta senal de la entrada original. Este fenomeno
de inhibicion es muy parecido a la operacion del Laplaciano y facilita la deteccion de bordes.
El Laplaciano al ser una derivada de segundo orden es inaceptablemente sensible al ruido, ademas
Figura 5.26: Imagen original y laplaciano.
Figura 5.27: Imagen original y resultado de la diferencia.

Figura 5.28: Imagen original y procesada por el operador Marr-Hildreth.
produce bordes dobles. Un empleo mas adecuado para este operador consiste en encontrar la
ubicacion del borde a traves de su propiedad de paso por cero. Este concepto esta basado en la
convolucion de una imagen con el laplaciano de una funcion gaussiana de la forma,
2
x + y2
h(x, y) = exp
2 2
Este operador tambien recibe el nombre de operador de Marr-Hildreth. La ecuacion del laplaciano
para esta funcion se puede escribir como,

2 r2 2 r2
h= exp 2 , r2 = x2 + y 2
4 2
las imagenes de las figuras 5.28 y 5.29 muestran el resultado de la aplicacion de este operador.
La utilidad de este operador esta en realidad en sus cruces por cero, figura 5.30.
5.2.4 Enlazado de Bordes y Deteccion de Lmites
Las tecnicas descriptas anteriormente deberan obtener solo pixeles situados en el limite entre
regiones. En la practica esto no sucede debido al ruido, a las interrupciones debido a iluminacion
Figura 5.29: Imagen original y procesada por el operador Marr-Hildreth.
Figura 5.30: Imagen original y resultado de la convolucion con la funcion Laplaciano de una
gaussiana. binarizacion de la imagen anterior por deteccion de los cruces por cero y la imagen de
los cruces por cero.
no uniforme as como otras discontinuidades espurias. Por esta razon despues de la deteccion de
contornos se continua con procedimientos de enlazado y de deteccion de limites apropiados para
reunir los pixeles del borde en limites que posean sentido.
Para esto se utilizan varias tecnicas, como,
Procesamiento local
Transformada de Hough
Teora de grafos
Uno de los procedimientos mas simples para enlazar puntos de borde consiste en analizar las
caractersticas de los pixeles en una vecindad de cada uno de los puntos (x, y) de una imagen que
ha sufrido una deteccion de bordes. De esta manera todos los puntos que son similares en algun
sentido se enlazan formando un lmite.
Las dos propiedades principales utilizadas para esto son:
La intensidad de la respuesta del operador gradiente
La direccion del gradiente
La primera propiedad esta dada por la magnitud del gradiente como se vio anteriormente. De este
modo un pixel del borde de coordenadas (x0 , y 0 ) y en la vecindad predefinida de (x, y), es similar
en modulo al pixel de (x, y) si,

f (x, y) f (x0 , y 0 ) T
donde T es un umbral no negativo.

La direccion del vector gradiente se utiliza como segunda propiedad. As, un pixel del borde en
(x0 , y 0 ) en la vecindad predefinida de (x, y) tiene un angulo similar al del pixel en (x, y) si,

(x, y) (x0 , y 0 ) A
donde A es un umbral angular.

Como conclusion decimos que, un punto de la vecindad predefinida de (x, y) esta enlazado con el
pixel (x, y) si se satisfacen los criterios de modulo y direccion. Este proceso se repite para cada
punto en la imagen.
Transformada de Hough
La Transformada de Hough es una tecnica que se puede usar para aislar caractersticas de una
forma particular dentro de una imagen. Debido a que se requiere que las caractersticas deseadas
Figura 5.31: Transformada de Hough.
se especifiquen en alguna forma parametrica, la transformada de Hough clasica normalmente se

utiliza para la deteccion de curvas regulares como lneas, crculos, elipses, etc. La transformada de
Hough generalizada se puede emplear en aplicaciones donde no es posible una descripcion analtica
simple de una curva. Debido a la complejidad computacional del algoritmo de Hough generalizado,
nosotros restringimos el enfoque principal de esta discusion a la transformada de Hough clasica.
Sin perdida de generalidad la mayora de las aplicaciones contienen caracteristicas de limites que
se pueden describir por curvas regulares. La ventaja principal de la tecnica de la transformada de
Hough es que no necesita del enalzado de puntos de bordes para su utilizacion.
Funcionamiento
Considerese un punto cualquiera, (xi , yi ) y la ecuacion general de una recta en forma explcita,
yi = axi + b. A traves de este punto pasan infinitas rectas, pero cada una de ellas satisfacen la
ecuacion anterior para diversos valores de a y b. Si ahora escribimos la ecuacion anterior en la
forma, b = xi a + yi y considerando el plano a b (espacio parametro) se obtiene la ecuacion de
una unica lnea para un par determinado (xi , yi ). Ademas, un segundo punto (xj , yj ) tambien tiene
una lnea en el espacio parametro asociado con el, y esta lnea corta a la lnea asociada con (xi , yi )
en (a0 , b0 ). Esto se muestra en la figura 5.31.
El atractivo del calculo de la transformada de Hough surge de la subdivision del espacio parametro
en las denominadas celulas acumulador donde (amin , amax ) y (bmin , bmax ) son los rangos esperados
de la pendiente y ordenada al origen, como se observa en la figura 5.32. La celula de coordenadas
(i, j), con valor de acumulador A(i, j), corresponde al cuadrado asociado con las coordenadas del
espacio parametro (ai , bj ). Inicialmente estas celulas estan en cero. Despues para cada punto
(xk , yk ) del plano imagen, se fija el parametro a igual a cada uno de los valores permitidos de sub-
division en el espacio parametro y se resuelve para el b correspondiente, por medio de la ecuacion
b = xk a + yk . Las b resultantes se redondean a los valores permitidos para estas en el espacio
parametro. Si una eleccion ap resulta ser la solucion bq , se incrementa el acumulador correspondi-
ente, es decir, A(p, q) = A(p, q) + 1. Al final de este procedimiento, un valor de M en el acumulador
A(i, j) indica que M puntos del plano imagen estan situados en la lnea y = ai x + bj . La presicion
de la colinearidad de estos puntos esta determinada por el numero de subdivisiones del plano a b.
Un problema que aparece al utilizar la ecuacion explicita de la recta
Figura 5.32: Espacio parametro, celulas acumulador.
y = ax + b
es que tanto la pendiente como la ordenada al origen tienden a infinito cuando la lnea se acerca a
la vertical. Una forma de evitar esto es expresar la ecuacion de la recta en forma normal, es decir,
x cos + y sin =
donde es la longitud de una normal desde el origen a esta lnea y es la orientacion con respecto
al X-eje, figura 5.33. Para cualquier punto (x, y) en esta lnea, y es constante. El empleo de esta
representacion en la construccion de una tabla de acumuladores es identico al metodo expuesto para
la representacion punto-pendiente. Sin embargo, en lugar de lneas rectas, los lugares geometricos
son curvas sinusoidales en el plano .
El rango del angulo es 90 , medidos respecto del eje horizontal. Entonces una recta horizontal
posee un de 0 , siendo igual a la x positiva. De forma similar, una lnea vertical tiene un de
90 , siendo igual a la y positiva o = 90 y igual a la y negativa. En la figura 5.34 se observa
la grafica de la recta en forma polar y el espacio parametro con las celulas acumulador.
Se puede usar este mismo procedimiento para detectar otras caractersticas con descripciones
analticas. Por ejemplo, en el caso de crculos, la ecuacion parametrica es,
(x a)2 + (y b)2 = r2
donde a y b son las coordenadas del centro del crculo y r es el radio. En este caso, la complejidad
computacional del algoritmo se incrementa pues se tienen tres coordenadas en el espacio parametro
y un acumulador 3D. (En general, el calculo y el tamano del arreglo de acumuladores se incrementa
Figura 5.33: Grfica de una recta en forma polar.
Figura 5.34: Recta polar y espacio parametro.

Figura 5.35: Imagen original e imagen procesada por un detector de contorno. Aqu se puede ver
el contorno total en la imagen, pero este resultado nada dice acerca de la identidad y cantidad de
puntos. Se puede entonces utilizar la transformada de Hough (deteccion de lneas) para detectar
los ocho segmentos de lnea recta separados e identificar la estructura geometrica verdadera de la
imagen.
polinomicamente con el numero de parametros. As, la tecnica de Hough basica descrita aqu es
solo practica para curvas simples.)
La transformada de Hough se usa para identificar los parametros de una curva que mejor se ajuste a
un conjunto de puntos dados. Esta descripcion de borde normalmente se obtiene de un operador de
deteccion de contorno como el operador de Roberts, Sobel o detector Canny. El resultado de esta
operacion puede ser ruidosa, es decir puede contener multiple fragmentos de bordes correspondiente
a un unico contorno total. Ademas, como la salida de un descriptor de bordes solo define donde esta
el contorno en una imagen, el trabajo de la transformada de Hough es determinar cuales puntos
forman parte del contorno y cuantos de ellos existen en la imagen.
Para ilustrar la transformada de Hough en detalle, nosotros comenzamos con la imagen simple de
dos rectangulos, uno debajo del otro, que se muestra en la figura 5.35.
Aplicando la transformada de Hough se genera una curva en el espacio polar para cada punto del
contorno en el espacio cartesiano. El arreglo de acumuladores visto como una imagen toma la forma
de la figura 5.36
Las curvas generadas por puntos colineales en la imagen gradiente se interceptan en picos en el
espacio de la transformada de Hough. Estos puntos interseccion caracterizan los segmentos de
lneas rectas de la imagen original. Existen metodos que se pueden emplear para extraer estos
puntos brillantes , o maximos locales, del arreglo de acumuladores. Por ejemplo, un metodo simple
involucra una umbralizacion y luego la aplicacion de alguna tecnica de afinado para aislar grupos
Figura 5.36: Espacio parametro visto como una imagen. Las imagenes corresponden al espacio
parametro original y con compresion de rango dinamico.
de puntos brillantes. Tambien se puede usar una umbralizacion relativa para extraer los puntos
correspondientes a cada segmento de lnea recta que corresponden al contorno en la imagen original.
(En otras palabras se toman solo aquellos maximos locales en el arreglo acumulador cuyos valores
son iguales o mas grandes que algun porcentaje fijo del maximo global. Antitransformando se
obtiene un conjunto de descripciones de lneas. Solapando la imagen original con la obtenida por
la antitransformada se confirma el resultado de los 8 segmentos obtenidos por la transformada de
Hough y se revela la geometra oculta de la escena oculta. La imagen de la figura 5.37 muestra las
lneas detectadas por este metodo.
Notar que la exactitud del alineamiento de la lneas en la imagen original y detectadas no es perfecto,
esto se debe a la cuantizacion del arreglo acumulador. Tambien hay que notar que un segmento
en la imagen original da lugar a multiples lneas detectadas, debido a picos con valores similares y
cercanos en el espacio parametro. Existen tecnicas para controlar esta efecto. Las lneas generadas
por la transformada de Hough tienen longitud infinita. Si se desea identificar los segmentos de
lneas reales se requiere de un analisis de imagen posterior para ver que porciones de estas lneas
pertenecen a un objeto.
Para ilustrar la robustez de la transformada de Hough frente al ruido, se ha sumado un 1% de ruido
tipo sal y pimienta a la imagen entregada por el detector de contorno como se observa en la figura
5.38
El resultado obtenido en este caso es se muestra en la figura 5.39.
Se puede analizar la sensibilidad de la transformada de Hough a discontinuidades en el contorno
detectado, por ejemplo las figuras 5.40 y 5.41 muestran la imagen original, el espacio parametro
obtenido y la deteccion de lneas.
Figura 5.37: Lneas detectadas por la transformada de Hough.
Figura 5.38: Imagen con ruido y espacio parametro.

Figura 5.39: Lneas detectadas en una imagen contaminada con ruido.
Figura 5.40: Imagen con bordes discontinuos y espacio parametro obtenido.

Figura 5.41: Lneas detectadas y superpuestas con la imagen original.
Ahora se muestra el uso de la transformada de Hough con imagenes reales. En el primer caso, la
imagen de una ciudad donde los edificios estan obstruidos por la niebla, figuras 5.42 y 5.43. La
imagen de la figura 5.44 muestra una umbralizacion menos selectiva lo que produce mayor cantidad
de lneas detectadas.
5.2.5 Teora de Grafos
El metodo presentado anteriormente esta basado en la obtencion de un conjunto de puntos del borde
por medio de una operacion gradiente. Como el gradiente es una derivada, rara vez es apropiada
en situaciones caracterizadas por un alto contenido de ruido. En esta seccion vamos a presentar un
metodo global basado en la representacion de segmentos del borde en forma de grafo y buscando
en el los caminos de menor coste que corresponden a bordes significativos. Esta representacion
proporciona una aproximacion robusta que presenta un buen rendimiento en presencia de ruido.
Como era de esperar, el procedimiento es considerablemente mas complicado y necesita un mayor
tiempo de procesamiento que en los metodos expuestos anteriormente.
Comenzaremos el desarrollo con algunas definiciones basicas.
Un grafo G = (N, A) es un conjunto finito, no vaco de N nodos, junto con un conjunto de A pares
desordenados de distintos elementos de N . Cada par (ni , nj ) de A se denomina arco.
Un grafo cuyos arcos tienen una direccion se denomina grafo dirigido. Si un arco esta dirigido del
nodo ni al nj , entonces nj se dice que es un sucesor de su nodo padre ni . El proceso de identificar
a los sucesores de un nodo se denomina expansion del nodo. En cada grafo se definen niveles, de
los que el nivel cero se compone de un solo nodo simple, denominado nodo de salida, y los nodos
Figura 5.42: Imagen de una ciudad y la deteccion de contornos realizada.
Figura 5.43: Espacio parametro y deteccion de lneas. Umbral relativo del 70%.
Figura 5.44: Imagen de lneas detectadas con un umbral relativo mas generoso, es decir del 50%.
del ultimo nivel se denominan nodos destino. Se puede asociar un coste c(ni , nj ) con cada arco
(ni , nj ). Una sucesion de nodos nl , n2 , . . . , nk en la que cada nodo ni es un sucesor del nodo nil
se denomina un camino desde nl a nk , siendo el coste del camino:
k
X
c= c(ni1 , ni )
i=2
Finalmente, un elemento del borde es el lmite entre dos pixeles p y q, tales que p y q son 4-vecinos.
En este contexto, un borde es una sucesion de elementos del borde.
Se puede comprobar la aplicacion de los conceptos precedentes a la deteccion de bordes con la
imagen 3 3 que se muestra en la Figura, donde los numeros externos son coordenadas de pixeles
y los numeros entre parentesis representan la intensidad, figura 5.45. Cada elemento del borde
definido por los pixeles p y q tiene un coste asociado, definido como:
c(p, q) = H [f (p) f (q)]
donde H es el mayor valor de la intensidad en la imagen (7 en este caso), f (p) es el valor de la

intensidad de p y f (q) es el valor de la intensidad de q.
La figura 5.46 muestra el grafo de este problema. Cada nodo corresponde a un elemento de un
borde, y existe un arco entre dos nodos si los dos elementos correspondientes incluyen una sucesion
que puede ser parte de un borde. El coste de cada elemento del borde, calculado al utilizar la
ecuacion anterior, es el arco que conduce a el, y los nodos destino se muestran como rectangulos
sombreados. Cada camino entre el nodo de salida y el nodo destino es un posible borde.
Figura 5.45: Porcion de imagen.
Figura 5.46: Grafo correspondiente a la imagen anterior.

Para simplificar, se supone que el borde comienza en la fila superior y termina en la ultima fila,
de forma que el primer elemento de un borde puede ser solamente [(0, 0), (0, 1)] o [(0, 1), (0, 2)] y el
ultimo elemento [(2, 0), (2, 1)] o [(2, 1), (2, 2)]. Las lneas de trazos representan el camino de coste
mnimo, calculado al utilizar la ecuacion anterior. En general, el problema de encontrar un camino
de coste mnimo no es trivial en terminos de calculo. De forma caracterstica, el metodo consiste
en sacrificar optimizacion en beneficio de la velocidad, y los algoritmos siguientes representan a
una clase de procedimientos que utilizan heursticas con el fin de reducir el esfuerzo de busqueda.
Sea r(n) una estimacion del coste de un camino de coste mnimo desde el nodo de salida s hasta el
nodo destino, con la restriccion de que el camino debe pasar por n. Este coste se puede expresar
como la estimacion del coste de un camino de coste mnimo desde s a n mas la estimacion del coste
de ese camino desde n hasta el nodo destino, esto es:
r(n) = g(n) + h(n)
Aqu, g(n) se puede elegir como el camino de menor coste desde s hasta n de los encontrados hasta
ahora, y h(n) se obtiene utilizando cualquier informacion heurstica disponible (como el expandir
solamente ciertos nodos basandose en costes previos obtenidos de dicho nodo). A continuacion se
muestra un algoritmo que utiliza r(n) como base para llevar a cabo una busqueda en grafos:
Paso 1 Marcar el nodo de salida como ABIERTO y poner g(s) = 0.
Paso 2 Si no hay ningun nodo ABIERTO terminar con incidencia; en caso contrario, continuar.
Paso 3 Marcar como CERRADO el nodo ABIERTO n cuya estimacion r(n) calculada por la
ecuacion anterior es la menor de todas. (Limitar al mnimo los valores de r que se han
resuelto arbitrariamente, pero siempre en favor de un nodo destino).
Paso 4 Si n es un nodo destino, terminar con el camino solucion obtenido al volver hacia atras
segun los punteros; en caso contrario, continuar.
Paso 5 Expandir el nodo n, generando todos sus sucesores. (Si no hay sucesores, ir al paso 2.)
Paso 6 Si un sucesor ni no esta marcado, poner:
r(ni ) = g(n) + c(n, ni )
marcarlo como ABIERTO, y dirigir punteros desde el hacia n.
Paso 7 Si un sucesor ni esta marcado como CERRADO o ABIERTO, actualizar su valor poniendo:
g 0 (ni ) = min[g(ni ), g(n) + c(n, ni )]
Marcar como ABIERTO a los sucesores de CERRADO cuyos valores g 0 han disminuido en
consecuencia y redirigir hacia n punteros desde todos los nodos cuyos valores g 0 han dis-
minuido. Ir al paso 2.
En general, este algoritmo no garantiza un camino de coste mnimo; su ventaja es que aumenta la
velocidad por medio de la utilizacion de heursticas. Sin embargo, si h(n) es un lmite inferior del
coste del camino de coste mnimo del nodo n al nodo destino, el procedimiento produce realmente un
camino optimo hacia el nodo destino (Hart, Nilsson y Raphael [19681). Si se dispone de informacion
no heurstica (esto es, hcoincide con 0), el procedimiento se reduce al algoritmo de coste uniforme
de Dijkstra [1959].
5.2.6 Umbralizacion (Thresholding)
Descripcion
En muchas aplicaciones de vision artificial, es util poder separar las regiones de la imagen que
corresponden a objetos en los que se esta interesado, de las regiones de la imagen que corresponde
al fondo. La umbralizacion (Thresholding) proporciona a menudo una manera facil y conveniente
de realizar esta segmentacion en base a intensidades diferentes o colores entre el el fondo y los
objetos.
Ademas, es a menudo util poder ver que areas de una imagen consisten en pixeles cuyos valores
yacen dentro de un rango especificado, o banda de intensidades (o colores). Thresholding tambien
puede usarse para esto.
Funcionamiento
La entrada a una operacion de thresholding es tpicamente una imagen de niveles de gris o una
imagen color. En la aplicacion mas simple, la salida es una imagen binaria que representa la
segmentacion.
Los pixeles negros corresponden al fondo y los pixeles blancos correspondan al primer plano (o
viceversa). En aplicaciones simples, la segmentacion se determina por un solo parametro conocido
como el umbral de intensidad. En un solo paso, cada pixel en la imagen se compara con este umbral.
Si la intensidad del pixel es mas alta que el umbral, el pixel se coloca por ejemplo en blanco en la
salida. Si es menor que el umbral, se coloca en negro.
En aplicaciones mas sofisticadas, se pueden especificar umbrales multiples, tal que una banda de
valores de intensidad pueda ponerse en blanco mientras que todo lo demas se coloca en negro. Para
imagenes color o multi-espectrales, puede ser posible colocar umbrales diferentes para cada canal
de color, y as seleccionar exactamente aquellos pixeles dentro de un cubo especfico en el espacio
de RGB. Otra variante comun es colocar en negro todos aquellos pixeles que corresponden al fondo,
pero dejar los pixeles del primer plano con su color/intensidad original (como opuesto a forzarlos a
blanco), para que esa informacion no se pierda.
No todas las imagenes se pueden segmentar facilmente en objetos y fondo usando la tecnica de
thresholding. Si una imagen se puede o no segmentar correctamente se determina analizando el
histograma de intensidad de la imagen.
Si es posible separar el primer plano de una imagen en base a la intensidad de los pixeles, entonces, la
Figura 5.47: Histogramas tpicos y sus umbrales.
Figura 5.48: Imagen y su histograma bi-modal.
intensidad de los pixeles dentro de los objetos del primer plano deben ser diferentes de la intensidad
de los pixeles del fondo. En este caso, se espera ver un pico distinto en el histograma que corresponde
al primer plano tal que se pueda escoger un umbral que permita aislar este pico. Si tal pico no
existe, entonces es improbable que la tecnica de thresholding produzca una buena segmentacion.
En este caso, la tecnica de thresholding adaptable pueden ser una alternativa mejor.
La figura 5.47 muestra algunos histogramas tpicos junto con las opciones mas convenientes de
umbral.
La Figura 5.47A) muestra una distribucion de intensidad bi-modal clasica. Esta imagen que usa
un solo umbral T1 se puede segmentar con exito. la figura 5.47B) muestra que la segmentacion
con umbral unico es mas complicada de obtener. Aqu se supone que el pico central representa los
objetos de interes y por lo tanto se necesitan dos umbrales: T1 y T2 . En la figura 5.47C), los dos
picos de la distribucion bi-modal estan como fusionados y no es posible segmentar esta imagen con
exito utilizando un unico umbral global.
Por ejemplo, la figura 5.48 muestra una imagen y su histograma. Este muestra una distribucion
bimodal. El pico menor representa el objeto y el mas alto el fondo. La imagen se puede segmentar
utilizando un umbral unico de valor 120. La figura 5.49 muestra el resultado de la umbralizacion
antes mencionada.
Figura 5.49: Resultado de la umbralizacion con valor 120.
Las tecnicas de thresholding se pueden dividir en:
Thresholding global simple.
Thresholding optimo.
Thresholding basado en las caractersticas de lmite.
Thresholding Adaptable.
Thresholding Global Simple
La mas sencilla de todas las tecnicas de umbralizacion es la particion del histograma de una imagen
utilizando un umbral unico, T . La segmentacion se completa entonces escaneando la imagen pixel
a pixel y etiquetando cada pixel como perteneciente al objeto o al fondo, dependiendo de que el
nivel de gris de ese pixel sea mayor o menor que el valor de T . Como se indico antes, el exito de
este metodo depende totalmente de como se pueda dividir el histograma. El objetivo clave de la
segmentacion por esta tecnica no es mas que generar una imagen binaria. En la practica, el tipo
de umbralizacion global que se acaba de describir se puede esperar que tenga exito en los entornos
muy bien controlados. Uno de los campos en los que esto es posible a veces es en las aplicaciones de
inspeccion industrial, donde habitualmente es factible el control de la iluminacion. Se recuerda que
la iluminacion desempena un papel determinante en el establecimiento de la forma del histograma
de la imagen resultante.
Thresholding Optimo
Supongase que una imagen contiene solamente dos regiones de brillo principales. El histograma
de una imagen de este tipo se puede considerar como una estimacion de la funcion densidad de
probabilidad de brillo, p(z). Esta funcion de densidad total es la suma o mezcla de dos densidades
unimodales, una para las regiones claras de la imagen y la otra para las oscuras. Ademas, los
parametros de la mezcla son proporcionales a las superficies de cada region de brillo. Si se conoce
o se supone la forma de las densidades de probabilidad, se puede determinar un umbral optimo (en
terminos del error mnimo) para segmentar la imagen en las dos regiones de brillo.
Supongamos que una imagen contiene dos valores combinados con ruido aditivo gaussiano. La
funcion de densidad de probabilidad de la mezcla es:
p(z) = P1 p1 (z) + P2 p2 (z)
que para el caso gaussiano , es:

P1 (z 1 )2 P2 (z 2 )2
p(z) = exp + exp
21 212 22 222
donde 1 y 2 son los valores medios de los dos niveles de brillo, 1 y 2 son las desviaciones
estandar respecto a la media, y P1 y P2 son las probabilidades a priori de los dos niveles. Se debe
satisfacer la restriccion:
P1 + P2 = 1
por lo que la densidad de la mezcla tiene cinco parametros desconocidos. Si se conocen todos los
parametros, se puede determinar con facilidad el umbral optimo.
Supongase que las regiones oscuras corresponden al fondo y que las claras corresponden a los
objetos. En este caso 1 < 2 , y se puede definir un umbral T de forma que todos los pixels con
nivel de gris superior a T se consideren puntos objeto.
La probabilidad de clasificar (erroneamente) un punto objeto como un punto del fondo es:
ZT
E1 (T ) = p2 (z)dz

De forma similar, la probabilidad de clasificar un punto del fondo como un punto objeto es:
Z
E2 (T ) = p1 (z)dz
T
Por lo tanto, la probabilidad total del error es:
E(T ) = P2 E1 (T ) + P1 E2 (T )
Para encontrar el valor del umbral para el que el error sea mnimo se necesita derivar E(T ) con
respecto a T (utilizando la regla de Leibnitz) e igualar el resultado a 0. As:
P1 p1 (T ) = P2 p2 (T )
Aplicando este resultado a la densidad gaussiana, tomando logaritmos, y simplificando, se obtiene

la ecuacion cuadratica:
AT 2 + BT + C = 0
donde:
A = 12 22 B = 2(1 22 2 12 )
C = 12 22 22 21 + 212 22 ln( 12 PP21 )
La posibilidad de tener dos soluciones indica que se pueden necesitar dos valores de umbral para
obtener la solucion optima.
Si las varianzas son iguales, = 1 = 2 , es sufciente con un umbral unico:
1 + 2 2 P2
T = + ln( )
2 1 2 P1
Si las probabilidades anteriores son iguales, P1 = P2 el umbral optimo es el promedio de las medias.
Lo mismo es valido para = 0. La determinacion del umbral optimo se puede realizar de forma
similar para otras densidades de un solo modo de la forma conocida, tales como la de Raleigh y
la normal. Se puede utilizar un metodo de error medio por mnimos cuadrados para estimar los
parametros de una imagen a partir de un histograma. Por ejemplo, el error cuadratico medio entre
la densidad de la mezcla p(z) y el histograma experimental h(zi ) es:
P
n
ems = 1
n [p(zi ) h(zi )]2
i=1
donde se ha supuesto un histograma de n puntos.

En general, la determinacion analtica de los parametros que minimizan este error cuadratico medio
no es un tema sencillo. No obstante, para el caso gaussiano, el calculo directo de igualar las
derivadas parciales a 0 conduce a un conjunto de ecuaciones simultaneas trascendentes que nor-
malmente solo se pueden resolver por procedimientos numericos. Dado que el gradiente se puede
calcular facilmente, es posible utilizar para minimizar ems un gradiente conjugado o un metodo
de Newton para ecuaciones no lineales simultaneas. Con cualquiera de estos metodos iterativos,
se pueden especificar los valores de salida. Puede ser suficiente con suponer que a priori todas las
probabilidades son iguales. Los valores de salida para las medias y las varianzas se pueden deter-
minar detectando modos en el histograma o simplemente dividiendo el histograma en dos partes
respecto a su valor medio, y calculando las medias y varianzas de las dos partes para utilizarlas
como valores de salida.
Thresholding basado en el Lmite
Uno de los aspectos mas importantes de la seleccion de umbral es la capacidad de identificar

fidedignamente los picos del modo de un histograma dado. Esta capacidad es particularmente
importante para la seleccion automatica de umbrales en situaciones donde las caractersticas de
una imagen pueden variar en un amplio rango de distribuciones de intensidad. Basandose en la
presentacion anterior, es evidente de forma intuitiva que las posibilidades de seleccionar un buen
umbral aumentan considerablemente si los picos del histograma son altos, estrechos, simetricos y
separados por valles profundos. Un metodo de mejorar la forma de los histogramas es considerar
solamente aquellos pixels que estan situados en el lmite entre los objetos y el fondo o cerca de el.
Una de las evidentes e inmediatas mejoras es que los histogramas podran ser menos dependientes
de los tamanos relativos de los objetos y el fondo. Por ejemplo, el histograma de intensidad de una
imagen compuesta por una gran zona de fondo aproximadamente constante y un objeto pequeno
podra estar dominado por un gran pico como consecuencia de la alta concentracion de pixels del
fondo.
Pero, si solamente se utilizan los pixeles que estan sobre o cerca del limite entre el objeto y el
fondo, el histograma resultante podra tener picos de aproximadamente la misma altura. Ademas,
la probabilidad de que cualquiera de los pixels dados este situado en un objeto podra ser aprox-
imadamente igual a la probabilidad de que este situado en el fondo, y de este modo se mejora la
simetra de los picos del histograma. Finalmente, el empleo de pixeles que satisfacen alguna de las
medidas sencillas basadas en los operadores gradiente y laplaciano tienen tendencia a hacer mas
profundos los valles entre los picos del histograma. El principal problema del metodo que se acaba
de presentar es la suposicion implcita de que se conoce el lmite entre los objetos y el fondo. Esta
informacion no esta claramente disponible durante la segmentacion, si se encuentra una division
entre objetos y fondo, precisamente porque la segmentacion esta por todas partes.
Ademas, el empleo del laplaciano puede proporcionar informacion respecto a si un pixel dado esta
situado en la parte oscura (fondo) o clara (objeto) de un borde. El valor medio del laplaciano es cero
en la transicion de un borde, por lo que en la practica los valles de los histogramas formados por los
pixeles seleccionados por un criterio de gradiente/laplaciano, se puede esperar que esten escasamente
poblados. Esta propiedad produce los deseados valles profundos presentados anteriormente. El
gradiente en cualquier punto (x, y) de una imagen y el Laplaciano estan dados por las ecuaciones
vistas anteriormente. Estas dos cantidades se pueden utilizar para formar una imagen de tres
niveles, de la siguiente forma:

0 si f < T
s(x, y) = + si f T y 2 f 0

si f T y 2 f < 0
donde los smbolos 0, + y - representan tres niveles de gris cualquiera distintos, T es un umbral, y
el gradiente y el laplaciano se calculan para todos los puntos (x, y). Para un objeto oscuro sobre
fondo claro se produce una imagen s(x, y) en la que todos los pixeles que no estan en un borde estan
marcados con 0, todos los del lado oscuro de un borde estan marcados con +, y todos los del lado
claro estan marcados con -. Los smbolos + y - de la ecuacion anterior se invierten en el caso de un
objeto claro sobre un fondo oscuro. La informacion que se obtiene al utilizar este procedimiento
se puede emplear para generar una imagen binaria segmentada en la que los 1 corresponden a los
objetos de interes y los 0 al fondo. La transicion (a lo largo de una lnea de exploracion horizontal
o vertical) desde un fondo claro a un objeto oscuro debe estar caracterizada por la aparicion en
s(x, y) de un - seguido de un +. El interior del objeto esta compuesto de pixeles marcados bien
como 0 o como +. Finalmente, la transicion desde el objeto hacia el fondo esta caracterizada por
la aparicion de un + seguido de un -.
De este modo, una lnea de exploracion horizontal o vertical que contiene una seccion de un objeto
tiene la siguiente estructura:
(. . .)(, +)(0o+)(+, )(. . .)
donde (. . .) representa cualquier combinacion de +, - y 0. Los parentesis mas internos contienen

puntos objeto y estan marcados con 1. Todos los otros pixeles sobre la misma lnea de exploracion
estan etiquetados con 0, con la excepcion de cualquier otra sucesion de (0 o +) encerrada entre
(, +) y (+, ).
Thresholding Adaptivo
Mientras las tecnicas de thresholding convencional utiliza un umbral global para todos los pixeles,
el thresholing adaptivo cambia el umbral dinamicamente para todos los pixeles. Esta version mas
sofisticada de thresholding puede acomodar el valor del umbral a cambios en las condiciones de
iluminacion, por ejemplo, aquellas que ocurren como resultado de un gradiente de iluminacion
alto o sombras. La tecnica de thresholding adaptivo tpicamente toma como entrada una imagen
monocromatica o color y en su implementacion mas simple genera como salida una imagen binaria
representando la segmentacion. Para cada pixel en la imagen, se debe calcular un umbral. Si el
valor del pixel esta por debajo del umbral, este se coloca con el valor del fondo, en otro caso asume
el valor del frente.
Existen 2 metodos para encontrar el umbral:
1. El metodo de Chow y Kanenko
2. El thresholding local
La suposicion detras de ambos metodos es que regiones mas pequenas de la imagen poseen ilumi-
nacion mas uniforme, siendo mas adecuadas para seleccionar un umbral. Chow y Kanenko dividen
una imagen en un arreglo de subimagenes que se solapan y luego encuentran el mejor umbral para
cada subimagen investigando su histograma. El umbral para cada pixel se encuentra por inter-
polacion de los resultados de las subimagenes. La desventaja de este metodo es la complejidad
computacional y por lo tanto no es apropiado para aplicaciones en tiempo real.
Una alternativa para encontrar el umbral local es examinar estadsticamente los valores de intensi-
dad de la vecindad local de cada pixel. Funciones estadsticas simples y rapidas incluyen la media
de la distribucion de intensidades local,
T = media
el valor de la mediana,
T = mediana
o la media de los valores maximos y mnimos,
(max min)
T =
2
El tamano de la vecindad debe ser lo suficientemente grande para cubrir suficientes pixeles del frente
y del fondo. Por otro lado, eligiendo regiones demasiado grandes pueden violar la suposicion de
iluminacion uniforme. Ese metodo es menos costoso computacionalmente que el anterior y produce
resultados bastante buenos para muchas aplicaciones.
Ejemplos de Umbralizacion
La figura 5.50 muestra una imagen y su histograma. Claramente se observa que este no es bimodal.
La obtencion de un umbral apropiado es dificil como se puede observar en las figuras 5.51 y 5.52.
Debido al severo gradiente de iluminacion en la escena, los picos correspondientes al frente y al
fondo y la tecnica de thresholding global no arroja buenos resultados T = 80 y T = 120.
La tecnica de Thresholding se utiliza para filtrar la salida de otros operadores. Por ejemplo, la salida
de un detector de contornos como Sobel dejara brillante regiones de la imagen con alto gradiente
espacial. Si solo estamos interesados en el contorno, entonces se puede usar thresholding para
seleccionar el contorno mas agudo y colocar todo lo demas en negro. Como un ejemplo considere
la imagen de la figura 5.53. La figura 5.54 muestra la aplicacion del detector de bordes de Sobel y
posteriormente la umbralizacin correspondiente.
La tecnica de thresholding se puede usar para extraer un subconjunto de estructuras interesantes
las cuales deben ser pasadas a otro operador en la cadena de procesamiento. Por ejemplo, la imagen
de la figura 5.55 muestra tejido del cerebro en el cual se pueden apreciar las celulas nerviosas (es
decir, grandes globulos grises con nucleos circulares mas oscuros en el centro) y otras celulas (es
decir, los crculos negros, pequenos aislados. Se puede umbralizar esta imagen tal que los niveles
de gris entre 0 y 150 se conviertan en pixeles del frente y lo demas en el fondo
Figura 5.50: La imagen y su histograma.
Figura 5.51: Resultado de umbralizacion con valor 80.

Figura 5.52: Resultado de umbralizacion con valor 120.
Figura 5.53: Imagen de un cuadrado.

Figura 5.54: Imagen de la deteccion de bordes y la umbralizacion.
Figura 5.55: Imagen de un preparado de celulas nerviosas.

Figura 5.56: Resultado de la umbralizacion y etiquetado por colores.
La imagen resultante se puede conectar y etiquetar para contar el numero total de celulas en la
imagen original, como se muestra en la figura 5.56,
Si se desea conocer cuantas celulas nerviosas hay en la imagen original, se podra aplicar una um-
bralizacion doble para seleccionar unicamente los pixeles que corresponden a las celulas nerviosas.
En sensado remoto y aplicaciones en medicina, tal umbral se denomina seccion de densidad. Apli-
cando un umbral a la banda de 130-150 conduce a la imagen que se muestra en la figura 5.57.
Mientras la mayora de los pixeles blancos corresponden a celulas nerviosas, estan tan desconec-
tadas entre si que no se pueden etiquetar. Alternativamente, se podran obtener mejores resultados
investigando algunos atributos, por ejemplo, tamano.
Una tarea adecuada para thresholding adaptivo es en la segmentacion de texto. Por ejemplo la
imagen de la figura 5.58.
Debido a que esta imagen posee un alto gradiente de iluminacion, la tecnica de thresholding global
produce resultados poco satisfactorios, figura 5.59.
Usando la media de una vecindad de 7 7 elementos, el thresholding adaptivo conduce a la imagen
que se muestra en la figura 5.60. El metodo es exitoso en el area alrededor del texto debido a que
hay suficientes pixeles del fondo y del texto en la vecindad local. Es decir, el valor medio yace entre
los valores de intensidad del frente y del fondo y por lo tanto pueden separarse facilmente. Sobre
el margen, sin embargo, la media del area local no es adecuada como un umbral, debido a que el
rango de valores de intensidad dentro de la vecindad local es muy pequena y su media esta muy
cerca del valor del pixel central.
La situacion anterior se puede mejorar si el umbral empleado no es la media sino la media-C, donde
C es una constante. Usando esta funcion estadstica, a todos los pixeles que existen en una vecindad
Figura 5.57: Resultado de la segunda umbralizacion.
Figura 5.58: Imagen de una hoja con texto y gradiente de iluminacion.

Figura 5.59: Resultado de la umbralizacion global simple.
Figura 5.60: Aplicacxion de la umbralizacion adaptiva.

Figura 5.61: Umbralizacion adaptiva con media-C, para una vecindad de 7 7 y C = 7.
uniforme (por ejemplo en los margenes) se les coloca la intensidad del fondo. Los resultados para
una vecindad de 7 7 y C = 7, y para una vecindad de 75 75 y C = 10, se muestran en las figuras
5.60 y 5.61.
En el ejemplo anterior, la vecindad mas grande conduce a resultados mas pobres, ya que es mas
afectado por el gradiente de iluminacion. Tambien, notar que desde el punto de vista computacional
es mas costoso que usar una vecindad pequena. La imagen de la figura 5.62 muestra el resultado
de usar la mediana en lugar de la media (la vecindad en este caso es de 7 7 y C=4). El resultado
muestra que para esta aplicacion la mediana no es una buena eleccion de funcion estadstica.
Considerese otro ejemplo, de una imagen con un alto gradiente de iluminacion, figura 5.63. Esta
imagen (a) no puede segmentarse con un umbral global (T = 80) (b).
Sin embargo, como la imagen contiene un objeto grande, es difcil aplicar la tecnica de thresholding
adaptivo. Usando la media-C como un umbral local se obtiene la imagen de la figura 5.64 (a) para
una vecindad V = 7 7 y C = 4, la figura (b) para una vecindad V = 140 140 y C = 8.
Todos los pixeles que pertenecen al objeto pero no tiene pixeles del fondo en la vecindad se colocan
con el nivel de gris del fondo. La ultima imagen muestra un resultado mucho mejor que el obtenido
con el umbral global, pero aun se pierden pixeles en el centro del objeto. En muchas aplicaciones,
el calculo de la media de una vecindad (para cada pixel) cuyo tamano es del orden de 140 140
puede tomar demasiado tiempo. En este caso la tecnica de Chow y Kanenko generara resultados
mejores.
Figura 5.62: Umbralizacion adaptiva con mediana, para una vecindad de 7 7 y C = 4.
Figura 5.63: Imagen y su umbralizacion global.

5.3. SEGMENTACION ORIENTADA A REGIONES 203
Figura 5.64: Resultado de la umbralizacion adaptiva para dos vecindades y valor de constante
diferente.
La simulacion del efecto producido por un thresholding adaptivo se puede lograr los siguientes
pasos:
1. Convolucionar la imagen con un operador estadstico adecuado, media o mediana
2. Restar la imagen original de la convolucionada
3. Umbralizar la imagen diferencia con C
4. Invertir la imagen obtenida en el paso anterior.
5.3 Segmentacion Orientada a Regiones
El objetivo de estas tecnicas de segmentacion es dividir una imagen en regiones.
5.3.1 Formulacion
Sea R la representacion de la region completa de una imagen. Se puede pensar en la segmentacion

como un proceso que divide a R en n subregiones, R1 , R2 , . . . , Rn de forma tal que,
ni=1 Ri = R
Ri es una region conexa, para todo i.
Ri Rj = , i, j i 6= j
P (Ri ) =VERDADERO para i = 1, 2, . . . , n

Figura 5.65: Subimagen para el estudio de la tecnica de crecimiento de regiones.
P (Ri Rj ) = FALSO para i distinto de j.
donde P (Ri ) es un predicado logico sobre los puntos del conjunto Ri y es el conjunto vaco. La
primera condicion indica que la segmentacion debe ser completa, esto es, cada pixel de la imagen
debe estar en una region. La segunda condicion requiere que los puntos de una region sean conexos.
La tercera condicion establece que las regiones deben ser disjuntas. La cuarta condicion trata de
las propiedades que deben satisfacer los pixeles de una region segmentada. Finalmente la ultima
condicion indica que las regiones Ri y Rj son diferentes en el sentido del predicado P .
La tecnica de segmentacion orientada a regiones se puede estudiar a partir de dos metodos diferentes,
Crecimiento de regiones por agregacion de pixeles.
Division y Fusion de regiones.
5.3.2 Crecimiento de regiones
Este procedimiento agrupa pixeles o subregiones dentro de regiones mas grandes. La sencillez del
metodo radica en la agregacion de pixeles, que comienza con un conjunto de puntos generadores
a partir de los que van creciendo las regiones al agregar a cada uno de estos puntos los pixeles
proximos que tienen propiedades similares (nivel de gris, textura, color, etc.).
Para estudiar este procedimiento se utiliza la subimagen de la figura 5.65,
representada por una matriz en la cual se desea efectuar una particion en dos regiones, A y B,
siguiendo la propiedad: |p q| < T , es decir, un umbral con respecto a los niveles. Si tomamos
como umbral a T = 3, se obtiene el resultado mostrado en la figura 5.66.
En este caso, no importa la seleccion de las races para ninguna de las regiones, sin embargo, resulta
mas importante la seleccion del valor de umbral T . Si T = 8, se obtiene una sola region commo se
muestra en la figura 5.67.
Figura 5.66: Resultado de considerar un umbral T = 3.
Figura 5.67: Resultado de considerar un umbral T = 8.

Figura 5.68: a) Imagen Original que muestra el punto generador. b)Primeras etapas del crecimiento
de la region.
Figura 5.69: c) etapas intermedias, d) region final encontrada.
Las caractersticas importantes para este metodo son la determinacion de las races iniciales y la
naturaleza de la propiedad de agrupacion.
En el caso de imagenes a color, se emplean los componentes RGB y reglas de segmentacion de la
forma:
P (R, x, t) : (fR (k, l) < TR )(fG (k, l) < TG )(fB (k, l) < TB )
Un ejemplo de crecimiento de regiones, para una imagen monocromatica es el mostrado en las

figuras 5.68 y 5.69.
Figura 5.70: Arbol Cuaadruple.
5.3.3 Division y Fusion de Regiones
Una alternativa distinta a la anterior consiste en subdividir una imagen inicialmente en un conjunto
de regiones arbitrarias disjuntas y despues fusionar y/o dividir las regiones intentando satisfacer las
condiciones mencionadas anteriormente. Supongase que R representa la region imagen completa
y se selecciona un predicado P de la forma que se menciono anteriormente. Para una imagen
rectangular, un metodo consiste en subdividir sucesivamente en cuadrantes cada vez mas pequenos
de forma que, para cualquier region Ri , P (Ri ) =VERDADERO. Esto es, si P (R) =FALSO, se
divide la imagen en cuadrantes. Si P es FALSO para cualquier cuadrante, se divide el cuadrante
en subcuadrantes, y as sucesivamente. Esta tecnica de division posee una representacion adecuada
en arbol cuadruple, como se muestra en la figura 5.70. Observese que la raz del arbol corresponde
a la imagen completa y que cada nodo corresponde a una subdivision.
Si solamente se utiliza la division , la particion final probablemente contenga regiones adyacentes
con propiedades identicas. Este inconveniente puede solucionarse permitiendo tanto fusiones como
divisiones. La satisfaccion de las restricciones requiere fusionar solamente regiones adyacentes cuyos
pixeles combinados satisfacen el predicado P ; esto es, dos regiones adyacentes Rj y Rk se fusionaran
si P (Rj Rk ) =VERDADERO.
Este procedimiento se puede resumir por medio de los siguientes pasos:
1. Dividir en cuatro cuadrantes disjuntos cualquier region Ri donde P (Ri ) =FALSO.
2. Fusionar las regiones adyacentes Rj y Rk para las que se cumpla P (Rj Rk ) =VERDADERO.
3. Detenerse cuando no sea posible realizar mas divisiones o fusiones.
Las iamgenes de las figuras 5.71 y 5.72 ejemplifican este metodo de segmentacion.
Figura 5.71: Proceso de division y fusion de regiones.
Figura 5.72: Proceso de division y fusion de regiones.

Capitulo5 - Segmentación

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Capitulo5 - Segmentación

Cargado por

Copyright:

Formatos disponibles

Captulo 5

5.2 Deteccion de Discontinuidades

Figura 5.1: Imagen original y despues de la deteccion de puntos

5.2.1 Deteccion de Puntos

5.2.2 Deteccion de Lneas

El siguiente nivel de complejidad despues de la deteccion de puntos es la deteccion de lneas. Las

Figura 5.3: Imagen Original.

es decir, lneas horizontales, a 45 , verticales y a 135 . Sean R1 , R2 , R3 y R4 las respuestas de las

|Ri | > |Rj | j 6= i

5.2.3 Deteccion de Bordes

Figura 5.4: Deteccion de lneas horizontales y verticales.

Figura 5.5: Deteccion de lneas a 135 y a 45 .

En el caso de la deteccion de bordes en general, podemos decir que:

Un borde es una frontera entre 2 propiedades diferentes de los niveles de gris.

Normalmente se utilizan operadores similares a la derivada.

Todos estos tipos de procesamiento se basan en el analisis de la pendiente de la intensidad luminosa.

El gradiente de una imagen f (x, y) en la posicion (x, y) es el vector,

Figura 5.6: Perfil unidimensional, priemra derivada y derivada segunda.

Figura 5.7: Imagen original y proceso de desplazamiento y sustraccion.

fm = mag(f ) |Gx | + |Gy |

Figura 5.8: Imagen Original y detector de Roberts.

que dan lugar a las ecuaciones,

Figura 5.9: Imagen Original y detector de Roberts.

En la practica se calcula solamente en 2 direcciones ortogonales y luego se calcula el modulo. Se tiene

Figura 5.10: Imagen original.

Figura 5.11: Detector de sobel vertical y horizontal.

Figura 5.12: Resultado de la suma de los dos operadores de Sobel.

Figura 5.13: Imagen original.

Figura 5.14: Gradiente en x y en y.

Figura 5.15: Gradiente de Sobel en ambas direcciones.

Figura 5.16: Imagen original.

Figura 5.17: Prewitt horizontal y vertical.

Figura 5.18: Suma de la salida de los dos operadores de Prewitt.

Figura 5.19: Imagen original.

Figura 5.20: Resultado de las primeras 4 mascaras de Kirsh.

Figura 5.21: Resultado de las ultimas 4 mascaras de Kirsh.

Figura 5.22: Imagen original.

Figura 5.23: Resultado de las primeras 4 mascaras de Kirsh.

Figura 5.24: Resultado de las ultimas 4 mascaras de Kirsh.

Figura 5.25: Imagen original y laplaciano.

Para una funcion bidimensional el operador Laplaciano se define como,

Las mascaras para el Laplaciano mas frecuentemente utilizadas son,

Figura 5.26: Imagen original y laplaciano.

Figura 5.27: Imagen original y resultado de la diferencia.

Figura 5.28: Imagen original y procesada por el operador Marr-Hildreth.

5.2.4 Enlazado de Bordes y Deteccion de Lmites

Figura 5.29: Imagen original y procesada por el operador Marr-Hildreth.

La intensidad de la respuesta del operador gradiente

La direccion del gradiente

donde T es un umbral no negativo.

donde A es un umbral angular.

Figura 5.31: Transformada de Hough.

se especifiquen en alguna forma parametrica, la transformada de Hough clasica normalmente se

Figura 5.32: Espacio parametro, celulas acumulador.

Figura 5.33: Grfica de una recta en forma polar.

Figura 5.34: Recta polar y espacio parametro.

Figura 5.37: Lneas detectadas por la transformada de Hough.

Figura 5.38: Imagen con ruido y espacio parametro.

Figura 5.39: Lneas detectadas en una imagen contaminada con ruido.

Figura 5.40: Imagen con bordes discontinuos y espacio parametro obtenido.

Figura 5.41: Lneas detectadas y superpuestas con la imagen original.

5.2.5 Teora de Grafos

Figura 5.42: Imagen de una ciudad y la deteccion de contornos realizada.