Está en la página 1de 22

A)Baciloscopía Fluorescente B)Baciloscopía Fluorescente C)Baciloscopía Fluorescente

por método directo por método concentrado por método diluido


Figura 2.4. Ejemplos baciloscopía con entintado Auramina.

2.2. Fundamentos de procesamiento digital de imágenes


En esta sección se describen los fundamentos teóricos que son la base del presente
trabajo. Estos fundamentos ponen en claro algunos conceptos básicos como son los
principios del procesamiento de imágenes, fundamentos de color, umbralización,
etiquetado de objetos, etc. Estos fundamentos serán empleados para la parte de pre-
procesamiento de las imágenes en el Capítulo III.

2.2.1. Definición de pixel


La palabra píxel es una abreviatura de "elemento de figura", el cual constituye el
elemento más pequeño de una imagen digital y contiene un valor numérico que es la unidad
básica de información de la imagen con una resolución espacial y el nivel de cuantificación.
Comúnmente, los píxeles contienen la respuesta de color o la intensidad de la imagen
como una muestra de pequeño punto de luz de color de la escena. Sin embargo, no todas
las imágenes contienen necesariamente información estrictamente visual. Una imagen no
es más que una señal de 2-D digitalizada como una cuadrícula de píxeles, los valores de
los cuales pueden estar relacionados con otras propiedades que no sean de color o
intensidad de la luz [10].

2.2.2. Imagen digital en escala de grises


Una imagen puede ser definida como una función de dos dimensiones, 𝑓(𝑎𝑓 , 𝑎𝑐 ), donde
𝑎𝑓 y 𝑎𝑐 son las coordenadas espaciales, y la amplitud de 𝑓(𝑎𝑓 , 𝑎𝑐 ) en cualquier par de
coordenadas (𝑎𝑓 , 𝑎𝑐 ) se llama la intensidad o nivel de gris de la imagen en ese punto como
se aprecia en la Figura 2.5 y Ecuación (2.1). Cuando 𝑎𝑓 y 𝑎𝑐 , y los valores de amplitud de
𝑓(𝑎𝑓 , 𝑎𝑐 ) son cantidades discretas finitas, se le llama a la imagen digital [11].

30
Figura 2.5. Matriz de una imagen digital en escala de grises [13].

𝑓(0,0) 𝑓(0,1) 𝑓(0,2) … 𝑓(0, 𝑁 − 1)


𝑓(1,0) 𝑓(1,1) 𝑓(1,2) … 𝑓(1, 𝑁 − 1)
𝑓(𝑎𝑓 , 𝑎𝑐 ) = 𝑓(2,0) 𝑓(2,1) 𝑓(2,2) … 𝑓(2, 𝑁 − 1) (2.1)
⋮ ⋮ ⋮ … ⋮
[𝑓(𝑀 − 1,0) 𝑓(𝑀 − 1,1) 𝑓(𝑀 − 1,2) … 𝑓(𝑀 − 1, 𝑁 − 1)]

2.2.3. Modelos de color


El propósito de un modelo de color es facilitar la especificación de colores en alguna
forma estándar. En esencia, un modelo de color es una especificación de un sistema
coordenado de tres dimensiones y de un sub espacio dentro de tal sistema, donde cada
color se representa por un punto [12].

Los modelos de color que se emplean frecuentemente en el procesamiento digital de


imágenes son el “RGB (sigla en inglés de red, green y blue, en español rojo, verde y azul)”,
el “YIQ (sigla en inglés de luminance, in-phase y quadrature, en español luminancia, fase
y cuadratura)”, el “HSI (sigla en inglés de hue, saturation y intensity, en español «matiz,
saturación e intensidad»)”” y el “YCbCr (sigla en inglés de luminance, blue crominance y red
crominance, en español luminancia, crominancia azul y crominancia roja)” [11]. En el
presente trabajo se utilizan los modelos de color 𝑅𝐺𝐵 y 𝑌𝐶𝑏 𝐶𝑟 r.

2.2.3.1. Modelo de color RGB


La visión humana está restringida a las longitudes de onda denominadas visibles. El
color con el que se percibe un objeto está determinado por la luz reflejada de dicho objeto.
Por lo que, el rango de colores que se puedan apreciar es el resultado de mezclas de luz
de diferentes longitudes de onda, lo que se puede resumir en la unión de tres matrices para
mostrar la imagen a color como se puede apreciar en la Figura 2.6 y Ecuación (2.2) [12].

31
Figura 2.6. Combinación de colores primarios [13].

𝑓(0,0, 𝑙) 𝑓(0,1, 𝑙) 𝑓(0,2, 𝑙) … 𝑓(0, 𝑁 − 1, 𝑙)


𝑓(1,0, 𝑙) 𝑓(1,1, 𝑙) 𝑓(1,2, 𝑙) … 𝑓(1, 𝑁 − 1, 𝑙)
𝑓(𝑎𝑓 , 𝑎𝑐 , 𝑙) = 𝑓(2,0, 𝑙) 𝑓(2,1, 𝑙) 𝑓(2,2, 𝑙) … 𝑓(2, 𝑁 − 1, 𝑙) (2.2)
⋮ ⋮ ⋮ … ⋮
[𝑓(𝑀 − 1,0, 𝑙) 𝑓(𝑀 − 1,1, 𝑙) 𝑓(𝑀 − 1,2, 𝑙) … 𝑓(𝑀 − 1, 𝑁 − 1, 𝑙)]

Donde 𝑙 representa el índice de la componente de color; para este caso son tres
componentes correspondientes al color rojo (𝑙 = 1), verde (𝑙 = 2) y azul (𝑙 = 3) para formar
la imagen digital en formato color verdadero.

Con respecto a los colores o tonos que se pueden reproducir, estos dependen de la
cantidad de bits que sean asignados a cada componente. En este caso el color debe
traducirse a un código digital de ceros y unos. Muchos ordenadores utilizan 8 bits para
representar valores de color, lo que significa que existen 256 colores individuales como se
observa en la Figura 2.7. En general, los monitores de última generación entremezclan tres
canales de color de 8 bits; por lo que cada canal tiene 256 valores, que equivale a 16,7
millones posibles combinaciones de valores de color [12].

2.2.3.2. Modelo de color YCbCr


Se trata de una codificación no lineal del espacio 𝑅𝐺𝐵 . El parámetro 𝑌 indica la
luminancia, los parámetros 𝐶𝑏 y 𝐶𝑟 indican la crominancia: 𝐶𝑏 ubica el color en una escala
entre el azul y el amarillo, mientras 𝐶𝑟 indica la ubicación del color entre el rojo y el
verde.

32
La transformación de 𝑅𝐺𝐵 a 𝑌𝐶𝑏 𝐶𝑟 (ver Figura 2.7), puede ser ejecutada empleando la
siguiente expresión [12]:

𝑌 0.299 0.587 0.114 𝑅 0


[𝐶𝑏 ] = [−0.169 −0.331 0.500 ] [𝐺 ] + [128] (2.3)
𝐶𝑟 0.500 −0.419 −0.081 𝐵 128

Figura 2.7. Transformación de “RGB” a “YCbCr” [12].

2.2.4. Etiquetado de imágenes


La segmentación de imágenes basada en el etiquetado de píxeles nos permite
identificar de manera individual los objetos presentes en una imagen. El algoritmo de
etiquetado etiqueta aquellos píxeles activos próximos como pertenecientes al mismo objeto.
La entrada al algoritmo es la imagen binarizada que contiene los píxeles activos
correspondientes a los objetos a identificar y la salida es una matriz de etiquetas para cada
uno de los píxeles de la imagen, en donde cada etiqueta identifica el objeto al cual dicho
pixel pertenece. En la Figura 2.8 se muestra un ejemplo de etiquetado de componentes,
donde la imagen de salida contiene una etiqueta que la diferencia de los otros objetos.

Figura 2.8. Etiquetado de una imagen binaria.

33
Para entender el algoritmo de etiquetado es necesario conocer algunos conceptos
básicos de vecindad entre pixeles, conectividad de objetos y eliminación de clases
equivalentes. Los conceptos se detallarán en las siguientes secciones del presente capitulo.

2.2.4.1. Vecindad entre pixeles


Sea p un píxel de coordenadas (𝑎𝑓 , 𝑎𝑐 ), donde af representa a las filas y ac a las
columnas, que tiene cuatro vecinos horizontales y verticales. Estos son denominados los
4 vecinos del píxel 𝑝 (Figura 2.9.a). Sus coordenadas se definen por la siguiente ecuación:

𝑉4−𝐻𝑉 = {(𝑎𝑓 − 1, 𝑎𝑐 ), (𝑎𝑓 , 𝑎𝑐 − 1), (𝑎𝑓 , 𝑎𝑐 + 1), (𝑎𝑓 + 1, 𝑎𝑐 )} (2.4)

También se tiene a los cuatro vecinos en diagonal (Figura 2.9.b) del píxel 𝑝 (Figura
2.10.b). Sus coordenadas se definen por la Ecuación (2.5).

𝑉4−𝐷 = {(𝑎𝑓 − 1, 𝑎𝑐 − 1), (𝑎𝑓 − 1, 𝑎𝑐 + 1), (𝑎𝑓 + 1, 𝑎𝑐 − 1), (𝑎𝑓 + 1, 𝑎𝑐 + 1)} (2.5)

a) Vecinos Horizontales y Verticales. b) Vecinos Diagonales.


Figura 2.9. Distintos tipos de vecinos de un pixel [14].

Estos puntos junto a los cuatro vecinos de píxel 𝑝, se denominan los ocho vecinos del
píxel 𝑝 (Figura 2.10). Algunos de estos 8 vecinos caen fuera de la imagen si (𝑎𝑓 , 𝑎𝑐 ) está
en el borde de la misma.

8 vecinos de un pixel.
Figura 2.10. Distintos tipos de vecinos de un pixel [14].

34
2.2.4.2. Etiquetado
Teniendo en cuenta que es una imagen binaria, es decir de unos y ceros y que el valor
del píxel de interés es igual a “1”, se procede a describir el siguiente procesamiento.

Suponiendo que se hiciera un barrido de la imagen píxel a píxel, de izquierda a derecha


y de arriba abajo. Sea 𝑝 el píxel en cada paso del proceso de barrido. La secuencia de
barrido asegura que cuando se está en el píxel 𝑝 de coordenadas (𝑎𝑓 , 𝑎𝑐 ), los píxeles 𝑟 de
coordenadas (𝑎𝑓 , 𝑎𝑐 − 1) , 𝑠 de coordenadas (𝑎𝑓 − 1, 𝑎𝑐 + 1) , 𝑡 de coordenadas (𝑎𝑓 −
1, 𝑎𝑐 ) y 𝑢 de coordenadas (𝑎𝑓 − 1, 𝑎𝑐 − 1) ya han sido encontrados y etiquetados si fuesen
unos [14].

Con lo anteriormente descrito se considera el siguiente procedimiento: si el valor de 𝑝


es cero, simplemente se continúa hasta la siguiente posición de barrido. Si el valor de 𝑝 es
uno, se examinan los píxeles 𝑟, 𝑠, 𝑡 y 𝑢. Si todos estos son cero, se asigna una nueva
etiqueta a 𝑝. Si solo uno de los píxeles es uno, se asigna su etiqueta a 𝑝. Si todos los
píxeles son uno y tienen la misma etiqueta, se asigna esta etiqueta a 𝑝. Si todos son unos
y tienen etiquetas diferentes se asigna a 𝑝 la etiqueta más antigua, y se hace referencia
que esta es equivalente a las otras tres, es decir, los píxeles 𝑟, 𝑠, 𝑡 y 𝑢 están conectados a
través de 𝑝 [14].

Si todos los píxeles son uno y solo algunos de estos tuvieran etiquetas iguales y el
resto diferentes, se asignaría a 𝑝 la etiqueta más antigua y se hace la referencia que esta
etiqueta es equivalente a las demás de ese entorno. Para el caso en el que solo dos o tres
píxeles sean uno y se tienen etiquetas iguales o diferentes, igualmente se asignaría a 𝑝 la
etiqueta más antigua y se hace la referencia de etiquetas equivales. Al final del barrido,
todos los píxeles con valor igual a 1 han sido etiquetados, aunque algunas de estas
etiquetas puedan ser equivalentes. Todo lo que se tiene que hacer ahora es clasificar todos
los pares de etiquetas equivalentes y agruparlas en una sola, por ejemplo, si las etiquetas
de 𝑟 y de 𝑡 son equivalentes con la etiqueta de 𝑝, los píxeles 𝑟 y 𝑡 toman el valor de la
etiqueta de 𝑝, de esta manera se asigna una sola etiqueta para los pares de etiquetas que
sean equivalentes. El proceso de etiquetado se puede ver con mayor detalle en [14].

35
2.2.5. Histograma
El histograma de una imagen digital con niveles de gris en el rango [0, 2𝐵 − 1], donde
𝐵 es el número de bits por pixel, es una función discreta, la cual está definida por la
Ecuación (2.6) [10].

ℎ(𝑟𝑘 ) = 𝑛𝑘 (2.6)

Donde 𝑟𝑘 es el nivel de gris k-ésimo y 𝑛𝑘 es el número de pixeles en la imagen con nivel


de gris 𝑟𝑘 .

Para normalizar el histograma se divide cada uno de sus valores entre el número total
de pixeles (𝑀 × 𝑁) en la imagen, denotado como 𝑝(𝑟𝑘 ). Así, el histograma normalizado se
convierte en la función de densidad de probabilidad de la imagen 𝑝(𝑟𝑘 ).

𝑛𝑘
𝑝(𝑟𝑘 ) =
𝑀×𝑁 (2.7)
𝑏
𝑘 = 0, 1, … , 2 − 1

En la Figura 2.11 se ven 4 ejemplos de histogramas para 4 imágenes: oscura, clara,


bajo contraste y alto contraste. El eje horizontal de los histogramas es el valor de los niveles
𝑘 𝑛
de gris, 𝑟𝑘 y el eje vertical corresponde a los valores de ℎ(𝑟𝑘 ) = 𝑛𝑘 o 𝑝(𝑟𝑘 ) = 𝑀×𝑁 si los

valores están normalizados [10].

Figura 2.11. Ejemplos de histogramas para 4 variaciones de una imágen [11].

36
2.2.6. Operaciones aritméticas lógicas entre pixeles
Las operaciones aritmético lógicas, son operaciones aplicadas directamente sobre los
pixeles.

2.2.6.1. Negación
Se aplica la operación lógica 𝑁𝑂𝑇(𝑓(𝑎𝑓 , 𝑎𝑐 )) a los píxeles de una imagen binaria. Es
decir, si el valor era “1” ahora será “0” y viceversa. En la Figura 2.12 se puede apreciar un
ejemplo.

a) Imagen Original b) Imagen Negada


Figura 2.12. Ejemplo de negación.

2.2.6.2. Adición
La suma de dos imágenes 𝑓(𝑎𝑓 , 𝑎𝑐 ) y ℎ(𝑎𝑓 , 𝑎𝑐 ) es expresada como se indica en la
Ecuación (2.8) y en la Figura 2.13 donde se muestra un ejemplo.

𝑔(𝑎𝑓 , 𝑎𝑐 ) = |𝑓(𝑎𝑓 , 𝑎𝑐 ) + ℎ(𝑎𝑓 , 𝑎𝑐 )| (2.8)

+ =

𝑓(𝑎𝑓 , 𝑎𝑐 ) ℎ(𝑎𝑓 , 𝑎𝑐 ) 𝑔(𝑎𝑓 , 𝑎𝑐 )


Figura 2.13. Ejemplo de adición.

2.2.6.3. Substracción
La diferencia entre dos imágenes 𝑓(𝑎𝑓 , 𝑎𝑐 ) y ℎ(𝑎𝑓 , 𝑎𝑐 ), es expresada como se indica en
la Ecuación (2.9) y en la Figura 2.14 se muestra un ejemplo.

37
𝑔(𝑎𝑓 , 𝑎𝑐 ) = |𝑓(𝑎𝑓 , 𝑎𝑐 ) − ℎ(𝑎𝑓 , 𝑎𝑐 )| (2.9)

- =

𝑓(𝑎𝑓 , 𝑎𝑐 ) ℎ(𝑎𝑓 , 𝑎𝑐 ) 𝑔(𝑎𝑓 , 𝑎𝑐 )


Figura 2.14. Ejemplo de sustracción.

2.2.7. Binarización de una imagen


La binarización es una técnica que permite convertir imágenes con niveles de gris, en
una imagen binaria (blanco y negro). De acuerdo a la técnica, los valores del píxel, en la
imagen de entrada que son menores a un cierto umbral pre-especificado, son convertidos
a blanco, mientras que los píxeles con valores mayores al umbral, son convertidos a negro.
Esto se muestra en la Ecuación (2.10). Así mismo este proceso puede darse de manera
inversa.

255 , 𝐼(𝑎𝑓 , 𝑎𝑐 ) ≥ 𝑢𝑚𝑏𝑟𝑎𝑙


𝐼𝐵𝑖𝑛𝑎𝑟𝑖𝑎 (𝑎𝑓 , 𝑎𝑐 ) = { (2.10)
0 , 𝐼(𝑎𝑓 , 𝑎𝑐 ) < 𝑢𝑚𝑏𝑟𝑎𝑙

Donde 𝐼𝐵𝑖𝑛𝑎𝑟𝑖𝑎 (𝑎𝑓 , 𝑎𝑐 ) es la imagen binaria e 𝐼(𝑎𝑓 , 𝑎𝑐 ) es la imagen en escala de grises

2.2.8. Segmentación de imágenes


La segmentación de imágenes se define como la partición de una imagen en unidades
significativas o regiones (no traslapadas) que presentan alguna característica similar (por
ejemplo, nivel de intensidad). Esta región es comúnmente llamada objeto.

2.2.8.1. Segmentación basada en umbralización


La umbralización es una de las técnicas de segmentación más simple que existe, dado
que realiza un análisis sobre el histograma. Después de seleccionar el valor del umbral (𝑈),
cualquier valor de pixel que cumpla con la condición 𝑓(𝑎𝑓 , 𝑎𝑐 ) > 𝑈, serán etiquetados como
objeto; caso contrario será considerados como parte del fondo.

38
2.2.9. Operaciones morfológicas
Son procesos que se basan en el análisis topológico de las estructuras de los objetos
de una imagen. Las operaciones morfológicas se aplican sobre imágenes binarias y se
centran en la extracción de estructuras de un conjunto (objeto dentro de una imagen); para
lo cual se requiere de otro conjunto, llamado elemento estructurante, el cual puede ser
considerado como una máscara de filtraje.

Los operadores morfológicos tratan a las imágenes como conjuntos de puntos; por lo
que la teoría de conjuntos es usada comúnmente en una descripción matemática de estos
conceptos. De esta manera, un objeto perteneciente a una imagen, constituye un conjunto
y el fondo de la imagen representa su complemento.

Las operaciones morfológicas se suelen utilizar para eliminar puntos aislados que no
pertenecen al objeto de interés, y que es parte de la imagen que se está analizando.

2.2.9.1. Dilatación binaria


La dilatación se describe como un crecimiento de pixeles (ver Figura 2.15), es decir, se
marca con uno la parte del fondo de la imagen que toque un pixel que forma parte de la
región. Esto permite que aumente un pixel alrededor de la circunferencia de cada región y
así poder incrementar dimensiones, lo cual ayuda a rellenar hoyos dentro de la región.

Dada una imagen 𝐴, y un elemento estructural 𝑆, (ambas imágenes binarias con fondo
negro), la dilatación de 𝐴 por 𝑆 se define como:

𝐴 ⊕ 𝑆 = {𝑒|(𝑆̂)𝑒 ⋂𝐴 ≠ 0} (2.11)

Tener en cuenta que, para la intersección sólo se consideran píxeles blancos de 𝐴 y 𝑆.

⊕ =
S
A A⊕S
Figura 2.15. Ejemplo de dilatación.

2.2.9.2. Erosión binaria


La erosión es la operación morfológica dual de la dilatación y se concibe usualmente
como una reducción de la imagen original (ver Figura 2.16).

39
La erosión de 𝐴, por un elemento estructural 𝑆, es el conjunto de todos los elementos e
para los cuales 𝑆 trasladado por e está contenido en 𝐴:

𝐴 ⊝ 𝑆 = {𝑒|(𝑆̂)𝑒 ⊆ 𝐴} (2.12)

Tener en cuenta que, para la condición 𝑆 ⊆ 𝐴, sólo se consideran los píxeles blancos
de 𝐴 y 𝑆.

⊝ =
S

𝐴 𝐴⊝𝑆
Figura 2.16. Ejemplo de erosión.

2.2.10. Descriptores
En esta sección se desarrollarán matemáticamente los descriptores que se emplearán
para describir a los bacilos. Se explicará los momentos de Hu y los descriptores
geométricos y fotométricos. Cabe recalcar, que cada descriptor será calculado para cada
objeto de interés que fue segmentado en la imagen. En el caso del cálculo de momento
de Hu y descriptores se empleará la enésima sub-imagen que fue segmentada y binarizada
(0 cuando el pixel en las tres sub-bandas era 0 y 1 cuando el pixel en las tres sub-bandas
es distinto a cero).

2.2.10.1. Momentos de Hu
Los momentos de Hu, son momentos que cumplen con el requerimiento de ser
invariantes a la rotación, traslación o escalamiento, por lo que permitiría describir a los
bacilos sin importar si estos están inclinados o son más grandes que otros. En total se han
calculado los primeros 7 momentos y el momento 11. Para poder calcularlos, primero es
necesario calcular un parámetro llamado momento ( 𝑚𝑝𝑞 ), para lo cuál se emplea la
Ecuación (2.13) [11].

𝑚 𝑛

𝑚𝑝𝑞 = ∑ ∑ 𝑎𝑝 𝑏 𝑞 𝑓(𝑎𝑓 , 𝑎𝑐 ) (2.13)


𝑎𝑓 =1 𝑎𝑐 =1

40
Donde 𝑝 y 𝑞 indican el orden del momento. Una vez calculado 𝑚𝑝𝑞 , se calcula los
momentos centrales, para esto se emplea la Ecuación (2.14) [11]:

𝑚 𝑛

𝑎𝑓 𝑝 (𝑎𝑐 − ̅̅̅)
𝑢𝑝𝑞 = ∑ ∑ (𝑎𝑓 − ̅̅̅) 𝑎𝑐 𝑞 𝑓(𝑎𝑓 , 𝑎𝑐 ) (2.14)
𝑎𝑓 =1 𝑎𝑐 =1

Donde: ̅̅̅
𝑎𝑓 y ̅̅̅
𝑎𝑐 se calculan empleando la Ecuación (2.15) y (2.16) respectivamente [11]:

𝑚10
̅̅̅
𝑎𝑓 = (2.15)
𝑚00
𝑚01
𝑎𝑐 =
̅̅̅ (2.16)
𝑚00

Calculado los momentos centrales, se puede calcular los 8 momentos de Hu empleando


las Ecuaciones (2.17) a (2.24) que se van a emplear [11]:

I1 = η20 + η02 (2.17)


2
I2 = (η20 − η02 )2 + 4η11 (2.18)
2 2
I3 = (η30 − 3η12 ) + (3η21 − η03 ) (2.19)
2 2
I4 = (η30 + η12 ) + (η21 + η03 ) (2.20)
I5 = (η30 − 3η12 )(η30 − η12 )[(η30 + η12 )2 − 3(η21 + η03 )2 ]
(2.21)
+ (3η21 − η03 )(η21 + η03 )[3(η30 + η12 )2 − (η21 + η03 )2 ]
I6 = (η20 − η02 )[(η30 + η12 )2 − (η21 + η03 )2 + 4η11 (η30 + η12 )(η21 + η03 )] (2.22)
I7 = (3η21 − η03 )(η30 + η12 )[(η30 + η12 )2 − 3(η21 + η03 )2 ] + (η30 − 3η12 )(η21 +
(2.23)
η03 )[3(η30 + η12 )2 − (η21 + η03 )2 ]
I11 = η40 − 2η22 + η04 (2.24)

Donde "ηpq " se calcula empleando la Ecuación (2.25) [11]:

μpq p+q
ηpq = γ
, donde Υ = +1 (2.25)
μ00 2

2.2.10.2. Descriptores geométricos


Además de calcular 8 momentos de Hu, se describirá geométricamente al bacilo. Para
llevar a cabo esto, los objetos candidatos a bacilo se segmentarán en una nueva sub-
imagen que los contenga y los siguientes parámetros se calcularán:

41
1. Área: Se define como la cantidad de pixeles que conforman al objeto. En este caso,
el área del enésimo objeto segmentado de la imagen 𝐹𝑝 (𝑎𝑓 , 𝑎𝑐 ), donde 𝑝 = 1 indica
que el método de preparación de la muestra biológica fue directo, 𝑝 = 2 para pellet
y 𝑝 = 3 pellet diluido se define como:

𝑀𝑛,𝑝 −1 𝑁𝑛,𝑝 −1

𝐴𝑛,𝑝 = ∑ ∑ 𝑂𝐴𝑛,𝑝 (𝑎𝑓 , 𝑎𝑐 ) (2.26)


𝑥=0 𝑦=0

Donde 𝑂𝐴𝑛,𝑝 (𝑎𝑓 , 𝑎𝑐 ) es la sub-imagen que contiene al enésimo objeto segmentado


de 𝐹𝑝 (𝑎𝑓 , 𝑎𝑐 ); 𝑀𝑛,𝑝 y 𝑁𝑛,𝑝 constituyen el número de filas y columnas de la sub-
imagen respectivamente.

2. Diámetro Equivalente: Línea recta que une dos puntos de una circunferencia. En
este caso, se calcula el diámetro de un círculo con la misma zona que la región, su
Ecuación es la (2.27) [11].

2
𝐷𝐴𝑛,𝑝 = √4 𝐴𝑛,𝑝 / 𝜋 (2.27)

3. Excentricidad: Para cada objeto extraído de segmentado de la imagen 𝐹𝑝 (𝑎𝑓 , 𝑎𝑐 ) se


determinó la elipse que aloja con mayor precisión el objeto. Luego, se calculó el
tamaño del semieje mayor (en número de píxeles) y la distancia entre el centro de
la elipse y uno de sus enfoques (en número de píxeles). Con esto la excentricidad
del objeto se obtiene de la siguiente manera:

𝑑𝑛,𝑝
𝐸𝑛,𝑝 = (2.28)
𝑙𝑛,𝑝

Donde 𝑑𝑛,𝑝 es la distancia desde el centro de la elipse a uno de sus focos para el
enésimo objeto extraído de 𝐹𝑝 (𝑎𝑓 , 𝑎𝑐 ) y 𝑙𝑛,𝑝 es el tamaño del correspondiente
semieje mayor.
4. Extensión: Relación entre los píxeles de objeto y los píxeles en el cuadro delimitador
del objeto, su Ecuación es la siguiente:

𝐴𝑛,𝑝
𝐿𝑛,𝑝 = (2.29)
𝑀𝑛,𝑝 × 𝑁𝑛,𝑝

42
5. Relación de aspecto: Relación entre el ancho y el largo de los bacilos. En este caso,
se calculó el cociente entre el semieje mayor y el semieje menor de la elipse
obtenido en el cálculo de la excentricidad.

𝑙𝑛,𝑝
𝑅𝑛,𝑝 = (2.30)
𝑤𝑛,𝑝

Donde 𝑤𝑛,𝑝 es el tamaño del semieje menor correspondiente a la elipse (en número
de píxeles).

6. Perímetro: Suma de las longitudes de los lados del objeto. En este caso definimos
el perímetro (en número de píxeles) del enésimo objeto segmentado de 𝐹𝑝 (𝑎𝑓 , 𝑎𝑐 )
como 𝑃𝑛,𝑝 .

7. Solidez: Cociente entre el área del objeto en número de píxeles y el área convexa
(también se expresa en número de píxeles). Para obtener el área convexa de un
objeto, se determinó el área del polígono que albergaba exactamente el objeto en
su interior. La cantidad de píxeles que formaron este polígono se definió como el
área convexa del objeto.

𝐴𝑛,𝑝
𝑆𝑛,𝑝 = (2.31)
𝐶𝑛,𝑝

Donde 𝐶𝑛,𝑝 es el área convexa del enésimo objeto.

2.2.10.3. Descriptores fotométricos


Por último, se propone describir también al bacilo desde el punto de vista fotométrico.
Para llevar a cabo esto, se tomará en consideración los siguientes parámetros:

1. Mayor tonalidad en la banda roja (𝑅𝑚𝑎𝑥𝑛,𝑝 ).


2. Menor tonalidad en la banda roja (𝑅𝑚𝑖𝑛𝑛,𝑝 ).
3. Tonalidad promedio del bacilo en la banda roja (𝑅𝑚𝑒𝑎𝑛𝑛,𝑝 ).
4. Mayor tonalidad en la banda verde (𝐺𝑚𝑎𝑥𝑛,𝑝 ).
5. Menor tonalidad en la banda verde (𝐺𝑚𝑖𝑛𝑛,𝑝 ).
6. Tonalidad promedio del bacilo en la banda verde (𝐺𝑚𝑒𝑎𝑛𝑛,𝑝 ).

43
2.3. Clasificadores de patrones
En este Sub-capítulo se explicarán los fundamentos de los clasificadores que se
emplearán para saber si el objeto que fue segmentado por procesamiento de imágenes es
o no bacilo. En primer lugar, se definirán los conceptos de regresión logística y en segundo
lugar máquina de soporte vectorial (SVM).

En la Figura 2.17 se muestra un ejemplo de dos características, a las cuales se quiere


aplicar un clasificador para diferenciar entre cuadrados rojos y cuadrados verdes. Para
dicho caso, no existe una única manera de trazar un plano (Figura 2.17.b) que los separe.

a) Características a clasificar. b) Ejemplo de distintos tipos de solución


para la clasificación.
Figura 2.17. Ejemplos de solución para clasificación [15].

En general, se puede afirmar que para abordar el problema planteado en la Figura


2.17.a, existen dos alternativas:

A) Empleo de modelos generativos: son modelos que tratan de construir las fronteras
de separación entre clases a partir de la estimación de la función de densidad de
probabilidad(fdp) que se puede asociar a cada una de las clases. Ejemplos de estos
métodos serían los clasificadores de Bayes o el análisis discriminante de Fisher [15].

B) Empleo de modelos discriminativos: estos tratan de clasificar las muestras sin tener
que generar estas funciones de densidad de probabilidad de las clases y, por lo
tanto, encuentra la frontera a partir de un conjunto de entrenamiento que sea

44
suficientemente representativo. Algunos ejemplos de estos métodos serían la
regresión logística, redes neuronales y máquina de soporte vectorial (SVM) [15].

2.3.1. Regresión logística


La regresión logística es una técnica probabilística útil para clasificación de objetos. En
la Figura 2.18 se muestra un ejemplo de cómo se aplica la regresión logística para poder
categorizar si la entrada corresponde a personas o no [16].

Figura 2.18. Ejemplo de regresión logística [15].

En la Figura 2.18, 𝐱 representa a los descriptores de las entradas( personas y no


personas); si 𝐰T 𝐱 da como resultado un valor menor a cero indicara que no se trata de una
persona, caso contrario, indicará que si se trata de una persona. El vector 𝐰 tiene la forma
de (𝑤0 , 𝑤1 , 𝑤2 , … , 𝑤𝑛 )𝑇 , donde n es igual al número de características que tengan las
entradas; de igual manera, 𝐱 es un vector de la forma (1, 𝑥1 , 𝑥2 , … 𝑥𝑛−1 ). Para obtener el
valor de 𝐰T 𝐱, se emplea la Ecuación (2.32):

1
𝑅𝐿 = T 𝐱)
(2.32)
1 + 𝑒 −(𝐰

La solución si se trabaja sobre un espacio bidimensional (solamente dos características)


será una línea. Si se trabaja con 3 características la solución será un plano y si se trabaja
con 4 o más dimensiones, la solución será un hiperplano [15].

2.3.2. Máquina de soporte vectorial (SVM)


En esta sección se van a definir los conceptos básicos para poder entender las
máquinas de soporte vectorial y los modelos matemáticos correspondientes.

45
2.3.2.1. Fundamentos
La máquina de soporte vectorial es un sistema de clasificación binario (permite
distinguir entre dos clases). La principal característica de esta técnica es que su solución
se basa en encontrar el máximo margen entre las dos clases a partir de unos vectores
determinados que se conocen como vectores de soporte. En una SVM la solución siempre
va a ser un hiperplano que permita dividir el espacio de características en dos regiones
completamente disjuntas [15].

En la Figura 2.19, se muestra como se escoge a los vectores de soporte para las
características que se muestran en la Figura 2.17.a.

Figura 2.19. Elección de vectores de soporte para la Figura 2.17.a [15].

Los vectores de soporte deben cumplir la condición de que la distancia, que se conoce
como el margen entre los planos que los contienen, sea máxima. Esta condición de margen
máximo implica que lo que se busca es una región entre vectores de soporte más amplia
posible que esté vacía de muestras de entrenamiento de cualquiera de las dos clases,
como se apreciar en la Figura 2.20 [15].

46
Figura 2.20. Hiperplano solución para el ejemplo de la Figura 2.17.a [15].

A manera general, se puede afirmar que una máquina de soporte vectorial es una
solución a un problema de optimización en el cual lo que se busca encontrar el mejor
margen entre las distintas clases que puedan haber.

El ejemplo que se mostró en la Figura 2.17.a es un ejemplo donde las dos


características son linealmente separables. Sin embargo, en un caso práctico puede que
las variables no sean separables linealmente. Ante este inconveniente, existen dos
soluciones: 1) Soft Margin: se aplica un margen suave para el hiperplano a través de la
tolerancia al error (vectores que no cumplen la condición del margen), ver Figura 2.21. 2)
Empleo de Kernel: se extiende el modelo de forma que pueda trabajar en conjuntos que no
sean linealmente separables mediante la transformación del espacio de características en
otro que sí lo sea [15].

Figura 2.21. Hiperplano solución con condición soft margin [15].

47
El empleo del Kernel lo que permite es añadir una dimensión al conjunto de datos para
poder volverlos linealmente separables. Por ejemplo, en la Figura 2.22 se tiene un conjunto
de datos, que están en una dimensión, que no son linealmente separables, pero al
momento de aplicar el Kernel se vuelven linealmente separables (ahora están en 2
dimensiones) [15].

Figura 2.22. Aplicación del Kernel para volver linealmente separables los datos [15].

2.3.2.2. Modelos matemáticos


Del ejemplo de la Figura 2.17.a, se va a definir a cada clase como 𝑦1 (cuadrados rojos)
y 𝑦2 (cuadrados verdes) y se les asignará la etiqueta +1 y −1 respectivamente. Para poder
determinar el hiperplano que separe a ambas clases se empleará el modelo matemático
de la Ecuación (2.33):
(𝐰 T 𝐱𝐢 ) + 𝑏 = 0 (2.33)

Donde 𝐱𝐢 es el vector de características de entrada, el vector 𝐰 es ortogonal al


hiperplano ℎ y 𝑏 es el coeficiente de intersección. Dado que existen dos vectores de clase
(vector de clase 1 y vector de clase 2), existirán dos hiperplanos de soporte (uno por cada
vector de soporte). Dichos hiperplanos (Figura 2.23) están definidos por la Ecuación (2.34)
y (2.35), los cuales pueden reescribirse empleando la Ecuación (2.36).

ℎ+ → (𝐰 T 𝐱𝐢 ) + 𝑏 = 1 (2.34)
ℎ− → (𝐰 T 𝐱𝐢 ) + 𝑏 = −1 (2.35)
𝑦𝑖 (𝐰 T 𝐱𝐢 + 𝑏) ≥ 1 (2.36)

48
Figura 2.23. Hiperplanos de los vectores de soporte [15].

El margen entre un hiperplano de vector de soporte con el hiperplano está dado por la
Ecuación (2.37) y la distancia entre ambos hiperplanos de soporte está dado por la
Ecuación (2.38). De manera gráfica, en la Figura 2.24 se muestran las distancias de cada
hiperplano [15].

|𝐰 T 𝐱𝐢 + 𝑏| 1
𝑑+ = 𝑑− = = (2.37)
‖𝐰‖ ‖𝐰‖
2
𝑚𝑎𝑟𝑔𝑒𝑛 = 𝑑+ + 𝑑− = (2.38)
‖𝐰‖

Figura 2.24. Distancia entre hiperplanos de los vectores de soporte [15].

Como se explicó en el Sub-capítulo 2.3.2.1, el objetivo de la SVM es maximizar el


margen, lo que es equivalente a minimizar el problema inverso, para esto se emplea la
Ecuación (2.39).

‖𝐰‖2 = 𝐰 T 𝐰 (2.39)

49
‖𝐰‖2 𝐰 T 𝐰
𝑀𝑖𝑛𝑖𝑚𝑖𝑧𝑎𝑟 𝜑(𝐰) = =
2 2 (2.40)
T
𝑆𝑢𝑗𝑒𝑡𝑜 𝑎 𝑦𝑖 (𝐰 𝐱𝐢 + 𝑏) ≥ 1

Para poder resolver la Ecuación (2.40), se emplea una función auxiliar conocida como
Lagrangiano (𝐿), que se construye a partir de la función que se desea optimizar más las
restricciones a las que está sujeta, para esto se emplea la Ecuación (2.41).

𝐿(x, 𝛼) = 𝑄(𝑥) + ∑ 𝛼𝑖 𝑔𝑖 (𝐱) , ∀ 𝛼𝑖 > 0 (2.41)


𝑖

Donde 𝛼𝑖 es el multiplicador 𝑖 de Lagrange, 𝑄(x) es la función a optimizar y


𝑔𝑖 (x) representa a una de las restricciones. Reescribiendo esta Ecuación con las variables
del ejemplo de la Figura 2.15, se obtiene le Ecuación (2.42).

𝐰𝐓𝐰
𝐿(𝐰, 𝑏, 𝛼) = − ∑ 𝛼𝑖 [𝑦𝑖 (𝐰 T 𝐱𝐢 + 𝑏) − 1] (2.42)
2 𝑖

La minimización de 𝐿 implica emplear derivadas parciales respecto a 𝐰 y 𝑏 . El


resultado de las derivadas parciales se puede apreciar en la Ecuación (2.43) y (2.44).

𝜕𝐿
= 𝐰 − ∑ 𝛼𝑖 𝑦𝑖 𝐱i = 0 => 𝐰 = ∑ 𝛼𝑖 𝑦𝑖 𝐱𝐢 (2.43)
𝜕𝑤 𝑖 𝑖
𝜕𝐿 (2.44)
= − ∑ 𝛼𝑖 𝑦𝑖 = 0 => ∑ 𝛼𝑖 𝑦𝑖 = 0 𝛼𝑖 ≥ 0
𝜕𝑏 𝑖 𝑖

Reemplazando los resultados obtenidos en las Ecuaciones (2.43) y (2.44) en la


Ecuación (2.42) se obtiene la Ecuación (2.45).

𝑇
(∑𝑖 𝛼𝑖 𝑦𝑖 𝐱𝐢 )𝑇 (∑𝑖 𝛼𝑖 𝑦𝑖 𝐱𝐢 )
𝐿(𝑤, 𝑏, 𝛼) = − ∑ 𝛼𝑖 𝑦𝑖 (∑ 𝛼𝑗 𝑦𝑗 𝐱𝐣 ) 𝐱𝐢 + ∑ 𝛼𝑖
2 𝑖 𝑗 𝑖
(2.45)
1
𝐿(𝑤, 𝑏, 𝛼) = − ∑ ∑ 𝛼𝑖 𝛼𝑗 𝑦𝑖 𝑦𝑗 𝐱𝐢 T 𝐱𝐣 + ∑ 𝛼𝑖
2 𝑖
𝑖 𝑗

A partir de la Ecuación (2.45), se va a obtener una nueva función 𝜃(𝛼), tal como se
puede apreciar en la Ecuación (2.46):

50
1
𝑀𝑎𝑥𝑖𝑚𝑖𝑧𝑎𝑟 𝜃(𝛼) = − ∑ ∑ 𝛼𝑖 𝛼𝑗 𝑦𝑖 𝑦𝑗 𝐱𝐢 T 𝐱𝐣 + ∑ 𝛼𝑖
2 𝑖
𝑖 𝑗
(2.46)
𝑆𝑢𝑗𝑒𝑡𝑜 𝑎 ∑ 𝛼𝑖 𝑦𝑖 = 0 𝛼𝑖 ≥ 0
𝑖

La maximización de 𝜃(𝛼), sujeta a la condición de ∑𝑖 𝛼𝑖 𝑦𝑖 = 0 para todo 𝛼𝑖 ≥ 0 dará


como resultado la solución a la máquina de soporte vectorial [15].

Cuando los datos no son linealmente separables, para poder resolver la Ecuación (2.25),
como se había explicado en el Sub-capítulo 2.3.2.1, se hace uso de una función de mapeo
que permita aumentar una dimensión a las características,
𝐱 → 𝜑(𝐱), con la espereza de que si sean linealmente separables. A este proceso se le
había denominado empleo del método Kernel (𝐾) y se puede apreciar en la Ecuación (2.47).

𝐾(𝐱, 𝐳) = 𝜑(𝐱)𝑇 𝜑(𝐳) (2.47)

Empleando la Ecuación (2.45) en la Ecuación (2.46) se obtiene la Ecuación (2.48).

1
𝑀𝑎𝑥𝑖𝑚𝑖𝑧𝑎𝑟 𝜃(𝛼) = − ∑ ∑ 𝛼𝑖 𝛼𝑗 𝑦𝑖 𝑦𝑗 𝐾(𝐱i , 𝐱j ) + ∑ 𝛼𝑖
2 𝑖
𝑖 𝑗

𝑏 = 𝑦𝑖 − 𝐰 T 𝜑(𝐱𝐢 ) = 𝑦𝑖 − ∑ 𝛼𝑖 𝑦𝑗 𝐾(𝐱𝐣 , 𝐱𝐢 ) (2.48)


𝑗

𝑄(𝐱) = 𝑠𝑔𝑛 (∑ 𝛼𝑖 𝑦𝑖 𝐾(𝐱, 𝐱i ) + 𝑏)


𝑖

En la literatura científica ya se han desarrollado diversos Kernels, en la Tabla 2.1 se


muestran algunos de los más conocidos.

Tabla 2.1. Ejemplos de función Kernel [15].


Tipo de Función Ecuación Matemática
Polinomial (𝑑 indica el grado ) 𝐾(x, z) = ⟨x, z⟩𝑑
2 /(2𝜎)
Base Radial 𝐾(x, z) = 𝑒 −‖x−z‖
Sigmoide 𝐾(x, z) = 𝑡𝑎𝑛ℎ(𝐾(x, z) − 𝛿)

51

También podría gustarte