Documentos de Académico
Documentos de Profesional
Documentos de Cultura
30
Figura 2.5. Matriz de una imagen digital en escala de grises [13].
31
Figura 2.6. Combinación de colores primarios [13].
Donde 𝑙 representa el índice de la componente de color; para este caso son tres
componentes correspondientes al color rojo (𝑙 = 1), verde (𝑙 = 2) y azul (𝑙 = 3) para formar
la imagen digital en formato color verdadero.
Con respecto a los colores o tonos que se pueden reproducir, estos dependen de la
cantidad de bits que sean asignados a cada componente. En este caso el color debe
traducirse a un código digital de ceros y unos. Muchos ordenadores utilizan 8 bits para
representar valores de color, lo que significa que existen 256 colores individuales como se
observa en la Figura 2.7. En general, los monitores de última generación entremezclan tres
canales de color de 8 bits; por lo que cada canal tiene 256 valores, que equivale a 16,7
millones posibles combinaciones de valores de color [12].
32
La transformación de 𝑅𝐺𝐵 a 𝑌𝐶𝑏 𝐶𝑟 (ver Figura 2.7), puede ser ejecutada empleando la
siguiente expresión [12]:
33
Para entender el algoritmo de etiquetado es necesario conocer algunos conceptos
básicos de vecindad entre pixeles, conectividad de objetos y eliminación de clases
equivalentes. Los conceptos se detallarán en las siguientes secciones del presente capitulo.
También se tiene a los cuatro vecinos en diagonal (Figura 2.9.b) del píxel 𝑝 (Figura
2.10.b). Sus coordenadas se definen por la Ecuación (2.5).
𝑉4−𝐷 = {(𝑎𝑓 − 1, 𝑎𝑐 − 1), (𝑎𝑓 − 1, 𝑎𝑐 + 1), (𝑎𝑓 + 1, 𝑎𝑐 − 1), (𝑎𝑓 + 1, 𝑎𝑐 + 1)} (2.5)
Estos puntos junto a los cuatro vecinos de píxel 𝑝, se denominan los ocho vecinos del
píxel 𝑝 (Figura 2.10). Algunos de estos 8 vecinos caen fuera de la imagen si (𝑎𝑓 , 𝑎𝑐 ) está
en el borde de la misma.
8 vecinos de un pixel.
Figura 2.10. Distintos tipos de vecinos de un pixel [14].
34
2.2.4.2. Etiquetado
Teniendo en cuenta que es una imagen binaria, es decir de unos y ceros y que el valor
del píxel de interés es igual a “1”, se procede a describir el siguiente procesamiento.
Si todos los píxeles son uno y solo algunos de estos tuvieran etiquetas iguales y el
resto diferentes, se asignaría a 𝑝 la etiqueta más antigua y se hace la referencia que esta
etiqueta es equivalente a las demás de ese entorno. Para el caso en el que solo dos o tres
píxeles sean uno y se tienen etiquetas iguales o diferentes, igualmente se asignaría a 𝑝 la
etiqueta más antigua y se hace la referencia de etiquetas equivales. Al final del barrido,
todos los píxeles con valor igual a 1 han sido etiquetados, aunque algunas de estas
etiquetas puedan ser equivalentes. Todo lo que se tiene que hacer ahora es clasificar todos
los pares de etiquetas equivalentes y agruparlas en una sola, por ejemplo, si las etiquetas
de 𝑟 y de 𝑡 son equivalentes con la etiqueta de 𝑝, los píxeles 𝑟 y 𝑡 toman el valor de la
etiqueta de 𝑝, de esta manera se asigna una sola etiqueta para los pares de etiquetas que
sean equivalentes. El proceso de etiquetado se puede ver con mayor detalle en [14].
35
2.2.5. Histograma
El histograma de una imagen digital con niveles de gris en el rango [0, 2𝐵 − 1], donde
𝐵 es el número de bits por pixel, es una función discreta, la cual está definida por la
Ecuación (2.6) [10].
ℎ(𝑟𝑘 ) = 𝑛𝑘 (2.6)
Para normalizar el histograma se divide cada uno de sus valores entre el número total
de pixeles (𝑀 × 𝑁) en la imagen, denotado como 𝑝(𝑟𝑘 ). Así, el histograma normalizado se
convierte en la función de densidad de probabilidad de la imagen 𝑝(𝑟𝑘 ).
𝑛𝑘
𝑝(𝑟𝑘 ) =
𝑀×𝑁 (2.7)
𝑏
𝑘 = 0, 1, … , 2 − 1
36
2.2.6. Operaciones aritméticas lógicas entre pixeles
Las operaciones aritmético lógicas, son operaciones aplicadas directamente sobre los
pixeles.
2.2.6.1. Negación
Se aplica la operación lógica 𝑁𝑂𝑇(𝑓(𝑎𝑓 , 𝑎𝑐 )) a los píxeles de una imagen binaria. Es
decir, si el valor era “1” ahora será “0” y viceversa. En la Figura 2.12 se puede apreciar un
ejemplo.
2.2.6.2. Adición
La suma de dos imágenes 𝑓(𝑎𝑓 , 𝑎𝑐 ) y ℎ(𝑎𝑓 , 𝑎𝑐 ) es expresada como se indica en la
Ecuación (2.8) y en la Figura 2.13 donde se muestra un ejemplo.
+ =
2.2.6.3. Substracción
La diferencia entre dos imágenes 𝑓(𝑎𝑓 , 𝑎𝑐 ) y ℎ(𝑎𝑓 , 𝑎𝑐 ), es expresada como se indica en
la Ecuación (2.9) y en la Figura 2.14 se muestra un ejemplo.
37
𝑔(𝑎𝑓 , 𝑎𝑐 ) = |𝑓(𝑎𝑓 , 𝑎𝑐 ) − ℎ(𝑎𝑓 , 𝑎𝑐 )| (2.9)
- =
38
2.2.9. Operaciones morfológicas
Son procesos que se basan en el análisis topológico de las estructuras de los objetos
de una imagen. Las operaciones morfológicas se aplican sobre imágenes binarias y se
centran en la extracción de estructuras de un conjunto (objeto dentro de una imagen); para
lo cual se requiere de otro conjunto, llamado elemento estructurante, el cual puede ser
considerado como una máscara de filtraje.
Los operadores morfológicos tratan a las imágenes como conjuntos de puntos; por lo
que la teoría de conjuntos es usada comúnmente en una descripción matemática de estos
conceptos. De esta manera, un objeto perteneciente a una imagen, constituye un conjunto
y el fondo de la imagen representa su complemento.
Las operaciones morfológicas se suelen utilizar para eliminar puntos aislados que no
pertenecen al objeto de interés, y que es parte de la imagen que se está analizando.
Dada una imagen 𝐴, y un elemento estructural 𝑆, (ambas imágenes binarias con fondo
negro), la dilatación de 𝐴 por 𝑆 se define como:
𝐴 ⊕ 𝑆 = {𝑒|(𝑆̂)𝑒 ⋂𝐴 ≠ 0} (2.11)
⊕ =
S
A A⊕S
Figura 2.15. Ejemplo de dilatación.
39
La erosión de 𝐴, por un elemento estructural 𝑆, es el conjunto de todos los elementos e
para los cuales 𝑆 trasladado por e está contenido en 𝐴:
𝐴 ⊝ 𝑆 = {𝑒|(𝑆̂)𝑒 ⊆ 𝐴} (2.12)
Tener en cuenta que, para la condición 𝑆 ⊆ 𝐴, sólo se consideran los píxeles blancos
de 𝐴 y 𝑆.
⊝ =
S
𝐴 𝐴⊝𝑆
Figura 2.16. Ejemplo de erosión.
2.2.10. Descriptores
En esta sección se desarrollarán matemáticamente los descriptores que se emplearán
para describir a los bacilos. Se explicará los momentos de Hu y los descriptores
geométricos y fotométricos. Cabe recalcar, que cada descriptor será calculado para cada
objeto de interés que fue segmentado en la imagen. En el caso del cálculo de momento
de Hu y descriptores se empleará la enésima sub-imagen que fue segmentada y binarizada
(0 cuando el pixel en las tres sub-bandas era 0 y 1 cuando el pixel en las tres sub-bandas
es distinto a cero).
2.2.10.1. Momentos de Hu
Los momentos de Hu, son momentos que cumplen con el requerimiento de ser
invariantes a la rotación, traslación o escalamiento, por lo que permitiría describir a los
bacilos sin importar si estos están inclinados o son más grandes que otros. En total se han
calculado los primeros 7 momentos y el momento 11. Para poder calcularlos, primero es
necesario calcular un parámetro llamado momento ( 𝑚𝑝𝑞 ), para lo cuál se emplea la
Ecuación (2.13) [11].
𝑚 𝑛
40
Donde 𝑝 y 𝑞 indican el orden del momento. Una vez calculado 𝑚𝑝𝑞 , se calcula los
momentos centrales, para esto se emplea la Ecuación (2.14) [11]:
𝑚 𝑛
𝑎𝑓 𝑝 (𝑎𝑐 − ̅̅̅)
𝑢𝑝𝑞 = ∑ ∑ (𝑎𝑓 − ̅̅̅) 𝑎𝑐 𝑞 𝑓(𝑎𝑓 , 𝑎𝑐 ) (2.14)
𝑎𝑓 =1 𝑎𝑐 =1
Donde: ̅̅̅
𝑎𝑓 y ̅̅̅
𝑎𝑐 se calculan empleando la Ecuación (2.15) y (2.16) respectivamente [11]:
𝑚10
̅̅̅
𝑎𝑓 = (2.15)
𝑚00
𝑚01
𝑎𝑐 =
̅̅̅ (2.16)
𝑚00
μpq p+q
ηpq = γ
, donde Υ = +1 (2.25)
μ00 2
41
1. Área: Se define como la cantidad de pixeles que conforman al objeto. En este caso,
el área del enésimo objeto segmentado de la imagen 𝐹𝑝 (𝑎𝑓 , 𝑎𝑐 ), donde 𝑝 = 1 indica
que el método de preparación de la muestra biológica fue directo, 𝑝 = 2 para pellet
y 𝑝 = 3 pellet diluido se define como:
𝑀𝑛,𝑝 −1 𝑁𝑛,𝑝 −1
2. Diámetro Equivalente: Línea recta que une dos puntos de una circunferencia. En
este caso, se calcula el diámetro de un círculo con la misma zona que la región, su
Ecuación es la (2.27) [11].
2
𝐷𝐴𝑛,𝑝 = √4 𝐴𝑛,𝑝 / 𝜋 (2.27)
𝑑𝑛,𝑝
𝐸𝑛,𝑝 = (2.28)
𝑙𝑛,𝑝
Donde 𝑑𝑛,𝑝 es la distancia desde el centro de la elipse a uno de sus focos para el
enésimo objeto extraído de 𝐹𝑝 (𝑎𝑓 , 𝑎𝑐 ) y 𝑙𝑛,𝑝 es el tamaño del correspondiente
semieje mayor.
4. Extensión: Relación entre los píxeles de objeto y los píxeles en el cuadro delimitador
del objeto, su Ecuación es la siguiente:
𝐴𝑛,𝑝
𝐿𝑛,𝑝 = (2.29)
𝑀𝑛,𝑝 × 𝑁𝑛,𝑝
42
5. Relación de aspecto: Relación entre el ancho y el largo de los bacilos. En este caso,
se calculó el cociente entre el semieje mayor y el semieje menor de la elipse
obtenido en el cálculo de la excentricidad.
𝑙𝑛,𝑝
𝑅𝑛,𝑝 = (2.30)
𝑤𝑛,𝑝
Donde 𝑤𝑛,𝑝 es el tamaño del semieje menor correspondiente a la elipse (en número
de píxeles).
6. Perímetro: Suma de las longitudes de los lados del objeto. En este caso definimos
el perímetro (en número de píxeles) del enésimo objeto segmentado de 𝐹𝑝 (𝑎𝑓 , 𝑎𝑐 )
como 𝑃𝑛,𝑝 .
7. Solidez: Cociente entre el área del objeto en número de píxeles y el área convexa
(también se expresa en número de píxeles). Para obtener el área convexa de un
objeto, se determinó el área del polígono que albergaba exactamente el objeto en
su interior. La cantidad de píxeles que formaron este polígono se definió como el
área convexa del objeto.
𝐴𝑛,𝑝
𝑆𝑛,𝑝 = (2.31)
𝐶𝑛,𝑝
43
2.3. Clasificadores de patrones
En este Sub-capítulo se explicarán los fundamentos de los clasificadores que se
emplearán para saber si el objeto que fue segmentado por procesamiento de imágenes es
o no bacilo. En primer lugar, se definirán los conceptos de regresión logística y en segundo
lugar máquina de soporte vectorial (SVM).
A) Empleo de modelos generativos: son modelos que tratan de construir las fronteras
de separación entre clases a partir de la estimación de la función de densidad de
probabilidad(fdp) que se puede asociar a cada una de las clases. Ejemplos de estos
métodos serían los clasificadores de Bayes o el análisis discriminante de Fisher [15].
B) Empleo de modelos discriminativos: estos tratan de clasificar las muestras sin tener
que generar estas funciones de densidad de probabilidad de las clases y, por lo
tanto, encuentra la frontera a partir de un conjunto de entrenamiento que sea
44
suficientemente representativo. Algunos ejemplos de estos métodos serían la
regresión logística, redes neuronales y máquina de soporte vectorial (SVM) [15].
1
𝑅𝐿 = T 𝐱)
(2.32)
1 + 𝑒 −(𝐰
45
2.3.2.1. Fundamentos
La máquina de soporte vectorial es un sistema de clasificación binario (permite
distinguir entre dos clases). La principal característica de esta técnica es que su solución
se basa en encontrar el máximo margen entre las dos clases a partir de unos vectores
determinados que se conocen como vectores de soporte. En una SVM la solución siempre
va a ser un hiperplano que permita dividir el espacio de características en dos regiones
completamente disjuntas [15].
En la Figura 2.19, se muestra como se escoge a los vectores de soporte para las
características que se muestran en la Figura 2.17.a.
Los vectores de soporte deben cumplir la condición de que la distancia, que se conoce
como el margen entre los planos que los contienen, sea máxima. Esta condición de margen
máximo implica que lo que se busca es una región entre vectores de soporte más amplia
posible que esté vacía de muestras de entrenamiento de cualquiera de las dos clases,
como se apreciar en la Figura 2.20 [15].
46
Figura 2.20. Hiperplano solución para el ejemplo de la Figura 2.17.a [15].
A manera general, se puede afirmar que una máquina de soporte vectorial es una
solución a un problema de optimización en el cual lo que se busca encontrar el mejor
margen entre las distintas clases que puedan haber.
47
El empleo del Kernel lo que permite es añadir una dimensión al conjunto de datos para
poder volverlos linealmente separables. Por ejemplo, en la Figura 2.22 se tiene un conjunto
de datos, que están en una dimensión, que no son linealmente separables, pero al
momento de aplicar el Kernel se vuelven linealmente separables (ahora están en 2
dimensiones) [15].
Figura 2.22. Aplicación del Kernel para volver linealmente separables los datos [15].
ℎ+ → (𝐰 T 𝐱𝐢 ) + 𝑏 = 1 (2.34)
ℎ− → (𝐰 T 𝐱𝐢 ) + 𝑏 = −1 (2.35)
𝑦𝑖 (𝐰 T 𝐱𝐢 + 𝑏) ≥ 1 (2.36)
48
Figura 2.23. Hiperplanos de los vectores de soporte [15].
El margen entre un hiperplano de vector de soporte con el hiperplano está dado por la
Ecuación (2.37) y la distancia entre ambos hiperplanos de soporte está dado por la
Ecuación (2.38). De manera gráfica, en la Figura 2.24 se muestran las distancias de cada
hiperplano [15].
|𝐰 T 𝐱𝐢 + 𝑏| 1
𝑑+ = 𝑑− = = (2.37)
‖𝐰‖ ‖𝐰‖
2
𝑚𝑎𝑟𝑔𝑒𝑛 = 𝑑+ + 𝑑− = (2.38)
‖𝐰‖
‖𝐰‖2 = 𝐰 T 𝐰 (2.39)
49
‖𝐰‖2 𝐰 T 𝐰
𝑀𝑖𝑛𝑖𝑚𝑖𝑧𝑎𝑟 𝜑(𝐰) = =
2 2 (2.40)
T
𝑆𝑢𝑗𝑒𝑡𝑜 𝑎 𝑦𝑖 (𝐰 𝐱𝐢 + 𝑏) ≥ 1
Para poder resolver la Ecuación (2.40), se emplea una función auxiliar conocida como
Lagrangiano (𝐿), que se construye a partir de la función que se desea optimizar más las
restricciones a las que está sujeta, para esto se emplea la Ecuación (2.41).
𝐰𝐓𝐰
𝐿(𝐰, 𝑏, 𝛼) = − ∑ 𝛼𝑖 [𝑦𝑖 (𝐰 T 𝐱𝐢 + 𝑏) − 1] (2.42)
2 𝑖
𝜕𝐿
= 𝐰 − ∑ 𝛼𝑖 𝑦𝑖 𝐱i = 0 => 𝐰 = ∑ 𝛼𝑖 𝑦𝑖 𝐱𝐢 (2.43)
𝜕𝑤 𝑖 𝑖
𝜕𝐿 (2.44)
= − ∑ 𝛼𝑖 𝑦𝑖 = 0 => ∑ 𝛼𝑖 𝑦𝑖 = 0 𝛼𝑖 ≥ 0
𝜕𝑏 𝑖 𝑖
𝑇
(∑𝑖 𝛼𝑖 𝑦𝑖 𝐱𝐢 )𝑇 (∑𝑖 𝛼𝑖 𝑦𝑖 𝐱𝐢 )
𝐿(𝑤, 𝑏, 𝛼) = − ∑ 𝛼𝑖 𝑦𝑖 (∑ 𝛼𝑗 𝑦𝑗 𝐱𝐣 ) 𝐱𝐢 + ∑ 𝛼𝑖
2 𝑖 𝑗 𝑖
(2.45)
1
𝐿(𝑤, 𝑏, 𝛼) = − ∑ ∑ 𝛼𝑖 𝛼𝑗 𝑦𝑖 𝑦𝑗 𝐱𝐢 T 𝐱𝐣 + ∑ 𝛼𝑖
2 𝑖
𝑖 𝑗
A partir de la Ecuación (2.45), se va a obtener una nueva función 𝜃(𝛼), tal como se
puede apreciar en la Ecuación (2.46):
50
1
𝑀𝑎𝑥𝑖𝑚𝑖𝑧𝑎𝑟 𝜃(𝛼) = − ∑ ∑ 𝛼𝑖 𝛼𝑗 𝑦𝑖 𝑦𝑗 𝐱𝐢 T 𝐱𝐣 + ∑ 𝛼𝑖
2 𝑖
𝑖 𝑗
(2.46)
𝑆𝑢𝑗𝑒𝑡𝑜 𝑎 ∑ 𝛼𝑖 𝑦𝑖 = 0 𝛼𝑖 ≥ 0
𝑖
Cuando los datos no son linealmente separables, para poder resolver la Ecuación (2.25),
como se había explicado en el Sub-capítulo 2.3.2.1, se hace uso de una función de mapeo
que permita aumentar una dimensión a las características,
𝐱 → 𝜑(𝐱), con la espereza de que si sean linealmente separables. A este proceso se le
había denominado empleo del método Kernel (𝐾) y se puede apreciar en la Ecuación (2.47).
1
𝑀𝑎𝑥𝑖𝑚𝑖𝑧𝑎𝑟 𝜃(𝛼) = − ∑ ∑ 𝛼𝑖 𝛼𝑗 𝑦𝑖 𝑦𝑗 𝐾(𝐱i , 𝐱j ) + ∑ 𝛼𝑖
2 𝑖
𝑖 𝑗
51