Procesamiento de Imágenes Biomédicas: Representación de Una Imagen

Procesamiento de Imágenes
Biomédicas
Representación de una imagen
¿Qué es una imagen?
Definición de Imagen
Una imagen puede ser definida matemáticamente por una
función:
F(x,y)
donde x e y son coordenadas espaciales de la imagen sobre
el plano y f es la intensidad o nivel de gris en ese punto
coordenado
Imagen digital
Si las coordenasas x e y,
junto con la amplitud de
los valores de f, son
cantidades discretas,
entonces hablamos de
una imagen digital o mapa
de bits.
Pixel
Unidad más pequeña
de información que
compone una
imagen.
La cantidad de pixeles
de una imagen
determina el tamaño
en BYTES que esta
tendrá.
Mapa de Bits
Las imágenes mapa de bits
se refieren a que la imagen
estará construida por una
cuadrícula discreta que va a
contener información acerca
del color de cada una de
ellas.
Profundidad de Pixel
A las imágenes en mapa de bits

se las suele definir por la
cantidad de pixeles, tamaño de
la imagen y por su profundidad
de color (en bits por píxel), que
determina la calidad del color
de la imagen.
La cantidad y
profundidad de los
píxeles que
componen una
imagen tiene un
importante efecto
sobre la percepción
de la misma.
Vecindad entre Píxeles
Es importante primero clarificar de
qué manera serán tomas los ejes
cartesianos, que definen el plano
de una imagen. En principio uno
podría poner los ejes en cualquier
lugar que desee, pero de forma
conveniente se suele usar como
origen de coordenadas el extremo
superior derecho de la imagen.
Un píxel P ubicado en las coordenadas (x,y) posee dos
vecinos verticales y dos vecinos verticales y sus coordenadas
serán expresadas por:
★ (x-1,y);(x+1,y) en dirección horizontal 0º.

★ (x,y-1);(x,y+1) en dirección vertical 90º.
Este se conjunto se denomina vecindad-4 o vecindad r=1 de

Von Neumann de P y lo pueden encontrar bajo la notación
N4(P).
Vecindad de Von
Neumann de radio uno.
Los píxeles horizontales y
verticales, más cercanos,
que rodean al que
tomamos como central
P(x,y).
Un píxel P ubicado en las coordenadas (x,y) posee también
cuatro vecinos diagonales cuyas coordenadas serán:
★ (x-1,y+1);(x+1,y-1) en dirección diagonal positiva 45º.

★ (x-1,y-1);(x+1,y+1) en dirección diagonal negativa 135º.
Este se conjunto se suma al anterior para determinan un

nuevo escenario denominado vecindad-8 o vecindad r=1 de
Moore de P y lo pueden encontrar bajo la notación N8(P).
Vecindad de Moore de radio

uno. Los píxeles diagonales
más cercanos se suman a los
cuatro vecinos horizontales y
verticales que rodean al
central P(x,y).
Estas vecindades se pueden expandir abarcando más
cantidad de píxeles cercanos. Podemos pensar vecindades
como círculos (Von Neumann) o cuadrados (Moore)
concéntricos.
Modos de Color
Los modos de color son la base para la representación de
esos valores de color de cada píxel del sensor.
Modos de Color
Estas bases son las
que toman los
diferentes soportes en
los que podemos
representar una
imagen digital para
mostrarnos el color
que tiene cada píxel.
Espacios de Color
El espacio de color más
comúnmente utilizado es el
RBG. Define tres canales:
uno rojo R, uno verde G y
uno azul B, como colores
primarios. Donde cada
canal está en su valor
máximo y los otros dos a
cero.
Espacios de Color
YUV es un espacio de color
típicamente usado como parte de
un sistema de procesamiento de
imagen en color. Una imagen en
color se codifica en este espacio
teniendo en cuenta la percepción
humana. Define un espacio de color
en términos de una componente de
luminancia y dos componentes de
crominancia (UV).
Espacios de Color
Logrando un ancho de banda reducido para los
componentes de diferencia de color o crominancia, de esta
forma, hace que los errores, o las imperfecciones, de color se
oculten de manera eficiente a la percepción del ojo humano.
FOV (field of view)
El campo de visión (FOV)

es la porción del universo
que se incluye en la
imagen. Cuanto mayor
sea el FOV mayor será el
área de la que se obtiene
la imagen.
Histograma
El histograma es una
representación gráfica de
la distribución de los
distintos tonos de una
imagen.
Histograma
Percepción de imágenes
BRILLO
Propiedad de la imagen que
nos permite ver con mayor
claridad los objetos. El brillo
aumenta la luminosidad
total de la imagen, por
ejemplo aclarando los
colores oscuros y
blanqueando los claros.
CONTRASTE
Diferencia relativa en intensidad
que existe entre un punto de una
imagen y sus alrededores.
Cuando el contraste es nulo,
resulta imposible distinguir un
objeto de su fondo. En cambio, a
mayor contraste, mayor facilidad
para la diferenciación.
NITIDEZ
La nitidez de una imagen,

en términos de percepción,
es el grado de claridad con
que el observador ve los
detalles de una imagen.
Viene determinada por dos
elementos principales, la
resolución y el contraste.
RUIDO
La aparición aleatoria de
rastros y de variaciones del
brillo o del color en la imagen
digital. Estos rastros suelen
presentarse en la mayoría de
los casos como puntos de
tamaño variable, pero también
se pueden considerar otros
artefactos.
Resolución Espacial
La habilidad de un sistema
de imágenes de demostrar
pequeños detalles de un
objeto es conocida como
resolución espacial.
Depende del tamaño del
pixel, el tamaño de la matriz
y el algoritmo de
reconstrucción.
Resolución Espacial
Resolución en contraste
La resolución en contraste
es la capacidad de
distinguir estructuras que
tienen un contraste similar.
Lo ideal es tener una buena
resolución espacial y una
buena resolución de
contraste, pero no siempre
es posible.
Resolución en contraste
Rango Dinámico
Es la capacidad de captar
el detalle en las luces y en
las sombras dentro una
misma imagen. Es decir,
nuestro objetivo ideal es
conseguir negros y
blancos casi puros con
gran cantidad de valores
intermedios.
Calidad de imagen
Etapas del procesamiento
de imágenes
Proceso mediante el
cual se toma una
imagen y se produce
una versión
modificada de la
misma. Todo esto
por medio de un
sistema de cómputo.
Etapas del procesamiento
de imágenes
Biomédicas
Adquisición de Imágenes:
Generalidades
¿Cómo obtenemos una
imagen con fines
diagnósticos?
Diagnóstico por
imágenes
El diagnóstico por imágenes
permite a los médicos observar el
interior del cuerpo para buscar
indicios sobre una afección
médica. Una variedad de aparatos
y técnicas pueden crear imágenes
de las estructuras y actividades
dentro del cuerpo.
Modalidad de Imágenes
Médicas
Los sistemas de imágenes
médicas detectan diferentes
señales físicas que surgen de un
paciente, al interactuar con
distintas emisiones, y producen
imágenes. Una modalidad de
imagen es un sistema de
adquisición de información que
utiliza una técnica particular.
Modalidades de
Imágenes Médicas
Algunas de estas
modalidades usan
radiación ionizante:
emisiones
electromagnéticas con
suficiente energía para
ionizar átomos y
moléculas dentro del
cuerpo.
Modalidades de
Imágenes Médicas
La radiación ionizante en
las imágenes médicas
deben usarse con
prudencia para evitar
causar daños graves al
organismo y a su
genoma.
Imágenes de rayos X
Esta modalidad de
obtención de imágenes se
han utilizado en el
diagnóstico clínico casi
desde el momento en que
Roentgen descubrió los
rayos X. Estas emisiones
se generan mediante un
tubo de rayos X
Tubo de rayos X
El calentamiento de un
filamento de tungsteno
dentro del cátodo libera
electrones por excitación
térmica. Una diferencia de
potencial acelera los
electrones hacia el ánodo
positivo (50-120 kV), donde
golpean un objetivo de
tungsteno, produciendo
rayos X.
Espectro de rayos X
Los electrones pierden su
energía cinética cuando se
desaceleran al chocar con
el objetivo (target).
Alrededor del 99% de esa
energía se disipa como
calor y sólo el 1% restante
se convierte en rayos X.
Interacción de rayos X
Los rayos X interactúan con el
cuerpo ya sea por absorción
EFECTO FOTOELÉCTRICO, o
por dispersión EFECTO
COMPTON. El primero
contribuye a la dosis de
radiación (energía absorbida por
unidad de masa) y, en
consecuencia, al riesgo de daño
biológico para el paciente.
Formación de la imagen
La consecuencia de estas interacciones es que se reduce la
intensidad del haz. Distintos tejidos afectan el haz en
diferentes cantidades, dependiendo de su grosor (t) y el
coeficiente de atenuación (μ) del material.
I(t)=I0e-𝝻t
Imagen de Rayos X
En la placa, o radiografía, de
rayos X plana la imagen es
una simple proyección
bidimensional, o un
diagrama de sombras, de un
objeto tridimensional. La
superposición 2D de tejidos
del paciente en el campo de
visión circunscripto por el
colimador del equipo.
Resolución espacial
El desenfoque total, o la falta de nitidez, de un sistema
comprende una combinación de fuentes contribuyentes:
Utot≈(Ug2+Um2+Ud2+Ui2)½
Estos factores degradan la imagen, esencialmente su

resolución espacial: el tamaño de la característica detectable
más pequeña, o la separación mínima resoluble de
características en el interior del paciente.
Resolución espacial:Ug
Resolución espacial:Um
Resolución espacial:Ud
Resolución espacial:Ui
Contraste
El efecto de la dispersión de
los rayos en el interior del
paciente produce una
intensidad de fondo
aproximadamente
constante, IS, superpuesta a
la imagen real y, en
consecuencia, reduce el
contraste.
Contraste
Un principio general: cuanto
mejor sea la calidad de imagen
requerida, más radiación se
necesitará para lograrlo. En las
imágenes de rayos X, se debe
buscar un compromiso entre la
dosis de radiación del paciente
y la calidad de la imagen.
Radiografía
Convencional
Radiografía Digital
Radiografía Digital
Mamografía
Fluoroscopía
Fluoroscopía: DSA
Tomografía Computada
Es una técnica que se
desarrolló para producir
imágenes transversales,
escaneando una porción de
tejido desde múltiples
direcciones utilizando un
haz estrecho en forma de
abanico.
Los datos de cada dirección

comprenden una proyección
unidimensional del objeto, y
una imagen transversal se
puede reconstruir
retrospectivamente a partir
de múltiples proyecciones.
Así, se puede producir una
imagen transversal como si
fuera una rebanada
seleccionada vista de frente. Si
se obtienen muchas imágenes
transversales, los datos se
pueden presentar como una
imagen en cualquier plano, o
incluso como una imagen
compuesta tridimensional.
La tarea de la reconstrucción de
imágenes, en tomografía
computarizada por rayos X, es
resolver los coeficientes de
atenuación individuales de cada
estructura del paciente y asignar
un valor que dependa de los
coeficientes de atenuación a cada
píxel en una matriz bidimensional
que luego describe la imagen
transversal.
Medicina Nuclear
La medicina nuclear es una modalidad
de obtención de imágenes
diagnósticas en la que se utilizan
radiotrazadores o radiofármacos.
Estos radiofármacos se aplican dentro
del organismo humano por diversas
vías. Una vez introducido dentro del
organismo, se distribuye. Esta
distribución es detectada por un
aparato llamado cámara gamma.
Medicina Nuclear:
Gammagrafía
Medicina Nuclear:
SPECT
Medicina Nuclear: PET
Eventos de coincidencia
Emisores de positrones
Medicina Nuclear: PET
Modalidad de Imágenes
Médicas
Existe un segundo
conjunto de
modalidades de
obtención de imágenes
que utiliza radiación
no-ionizante como
método de adquisición.
Resonancia Magnética:
MRI
La resonancia magnética (MRI) utiliza el
fenómeno de la resonancia magnética
nuclear: los nucleones no apareados se
orientan en un campo magnético, y los
pulsos de radiofrecuencia se utilizan
para cambiar el equilibrio de sus
orientaciones. Cuando el sistema
restablece el equilibrio, produce las
señales que forman la imagen.
MRI
Las imágenes de resonancia
magnética proporcionan detalles
anatómicos y fisiológicos, es decir,
estructura y función de tejidos,
excelente visualización de los
mismos y alta una alta resolución
espacial. El método más versátil y
completo.
MRI
La resonancia magnética se basa en la
resonancia magnética nuclear. Los
nucleones no apareados se comportan
como pequeños imanes, con un
momento magnético asociado. El núcleo
de hidrógeno, un solo protón, es de
particular importancia en las imágenes
de resonancia magnética debido a su
abundancia en los tejidos biológicos.
MRI
MRI
Un campo magnético oscilante
aplicado como un pulso puede
rotar la magnetización en la
muestra y colocarla en el plano
transverso. Cuando el pulso de
excitación termina, la
magnetización transversa en la
muestra precesa alrededor del
campo constante.
MRI
Ecografía
El ultrasonido para uso
diagnóstico utiliza sonido de
alta frecuencia y una técnica
simple de pulso-eco. Cuando
un haz de ultrasonido se
extiende a través de un
volumen de interés, se puede
formar una imagen transversal
a partir de un mapeo de
intensidades de eco.
Ecografía
Las imágenes se obtienen mediante el
procesamiento de los haces
ultrasónicos (ecos) reflejados por las
estructuras corporales. Luego,
mediante un complejo proceso
electrónico se transforma en una
imagen en la pantalla. El porcentaje
del haz que es reflejado, se determina
mediante la diferencia en la
impedancia acústica entre los dos
medios.
Ecografía
El ultrasonido se define como una
serie de ondas mecánicas,
generalmente longitudinales,
originadas por la vibración de un
cuerpo elástico (cristal
piezoeléctrico) y propagadas por
un medio material (tejidos
corporales) cuya frecuencia
supera a la del sonido audible por
el humano.
Ecografía
Cuando un haz ultrasónico es
propagado de un medio a otro,
parte de él se propaga a través del
segundo medio, mientras que un
pequeño porcentaje es reflejado a
manera de «eco» y llega al
transductor ( receptor) en donde
se transforma en un pequeño
pulso de voltaje.
Ecografía
Las imágenes ecográficas están
formadas por una matriz de
elementos fotográficos. Las
imágenes en escala de grises
están producidas por la
visualización de los ecos
regresando al transductor como
elementos fotográficos ( píxeles)
variando en brillo en proporción
a la intensidad del eco.
Ecografía
Biomédicas
Mejoramiento de Imágenes I: Dominio
Espacial
¿Qué significa mejorar
una imagen?
Muestreo y
Cuantización
Si deseamos pasar una imagen
continua f(x,y) a forma digital,
tenemos que muestrear la función
en ambas coordenadas y en
amplitud. La digitalización de los
valores de coordenadas se llama
muestreo. La digitalización de los
valores de amplitud se llama
cuantización.
Aliasing
El teorema de muestreo de Nysquist-Shannon nos dice

que, si la función se muestrea a una velocidad igual o
mayor que el doble de su frecuencia más alta, es posible
recuperar completamente la función original de sus
muestras. Si la función está submuestreada, entonces un
fenómeno llamado aliasing corrompe la imagen
muestreada.
Patrones de Moiré
Mejoramiento de
Imágenes
● Procesar una imagen de tal modo que la Imagen
resultante sea más adecuada que la original para una
aplicación específica.
● La medida del “Más adecuada”, depende de cada
aplicación.
● Un método para mejorar una imagen para una aplicación,
puede no ser el más adecuado para otra.
Mejoramiento de
Imágenes
● Dominio Espacial : (en el plano de la imagen)
○ Las técnicas se basan en la manipulación directa de los
píxeles de la imagen.
● Dominio de la Frecuencia :
○ Las técnicas se basan en modificar la Transformada de
Fourier de la Imagen.
Hay técnicas de mejoramiento que se basan en
combinaciones de los métodos de las dos categorías
anteriores.
Fuentes de Degradación
Imperfección A la
del sistema condición
de imagen atmosférica
Al movimiento
Imperfección relativo entre el
en el canal de objeto y la
transmisión cámara
Ruido
El ruido digital es la
variación aleatoria (que no
se corresponde con la
realidad) del brillo, o el
color, en las imágenes
digitales producido por el
dispositivo de entrada
(sistema de adquisición).
Tipos de Ruidos
Muy a menudo, una imagen
se corrompe por el ruido,
que puede surgir en el
proceso de adquisición de la
imagen, o durante su
transmisión, incluso durante
la reproducción de la
imagen.
Tipos de Ruidos
Dependiendo de la
naturaleza del ruido,
como el tipo de ruido
aditivo o
multiplicativo, existen
varios enfoques para
eliminar el ruido de
una imagen.
Ruido Aditivo
Ruido que es independiente de la señal de la imagnes.
Matemáticamente podemos expresarlo de la siguiente
manera:
g(x,y)=f(x,y)+η(x,y)
Donde f(x,y) es la imagnes original y η(x,y) la función

componente de ruido. Existen distintos modelos de ruido,
según las funciones de densidad de probabilidad que sigan
sus intensidades η(x,y).
Ruido multiplicativo
Ruido que es dependiente de la señal de la imagnes.
Matemáticamente podemos representarlo de la siguiente manera:
g(x,y)=f(x,y)+f(x,y)η(x,y)
g(x,y)=f(x,y)(1+η(x,y))
Si η(x,y) la función componente de ruido es cero las imágenes no

se modifican. Pero si η(x,y) es más grande que 1 la señal de
entrada multiplica a la del ruido, y éste pasa a depender de esa
señal: g(x,y)=f(x,y)η(x,y).
Ruido Gaussiano
Ruido Gaussiano (o normal)
Modela el ruido producido
por los circuitos electrónicos
o ruido de los sensores por
falta de iluminación y/o altas
temperaturas. La intensidad
de todos los píxeles se ve
afectada.
Ruido Sal y Pimienta
Se observa la imagen cubierta
de forma dispersa por una serie
de píxeles blancos y negros.
Suele aparecer cuando la señal
de la imagen es afectada por
intensas y repentinas
perturbaciones. Se produce
normalmente en la cuantificación
al digitalizar la imagen.
Ruido Uniforme
Toma valores en un
determinado intervalo de
forma equiprobable. Se
da en un menor número
de situaciones reales.
Imagen Mejorada
➔ Para la percepción visual humana:
◆ La evaluación de la calidad de una imagen es un
proceso bastante subjetivo.
◆ Es difícil normalizar la definición de lo que es una
buena imagen.
➔ Para un programa:
◆ La evaluación es más fácil.
◆ Una buena imagen es la que produce el mejor
resultado del algoritmo de reconocimiento.
Filtrado Digital
Operaciones que se realizan directamente sobre pixels.
g(x,y) = T[f(x,y)]
donde, f(x,y) es la imagen de entrada, g(x,y) es la imagen

resultante T es un operador sobre f, definido sobre un
entorno del punto (x,y).
El método en el
dominio espacial
Las operaciones espaciales de filtrado se definen
en un entorno de vecindad del punto a
transformar (x,y). El entorno del píxel, sobre el
cual se opera para obtener la nueva imagen, se
define con una máscara.
El centro de esta, se mueve

recorriendo todos los píxeles de la
imagen original.
Transformación punto a
punto
Cuando la máscara es = 1x1 píxeles:
★ g(x,y) depende solo del valor de f en (x,y).

★ T = función que transforma el nivel de gris del punto.
s = T( r)
★ Donde
○ r = nivel de gris de f(x,y)
○ s = nivel de gris de g(x,y)
Mejoramiento del
contraste
Una aplicación es el
mejoramiento del contraste:
● Se oscurecen los niveles de
gris por debajo de m
● Se hacen más brillantes los
grises por encima de m
Umbralización
Un caso extremo de la
operación anterior es la
umbralización.
Produce un imagen
(binaria) con dos niveles,
blanco y negro.
Convolución
Convolución
Convolución
Para poder aplicar también la convolución en los píxeles del
borde de la imagen existen varias alternativas, algunas de
las cuales son:
I. Completar con ceros los valores de alrededor.
II. Repetir los valores en el borde.
III. Completar con los valores de la parte simétrica opuesta.
Filtros
Existen muchos
tipos de filtros,
que cumplen
distintas
funciones.
Filtros
★ Suavizar la imagen: reducir las variaciones de intensidad
entre píxeles vecinos.
★ Eliminar ruido: modificar aquellos píxeles cuyo nivel de
intensidad es muy diferente al de sus vecinos.
★ Realzar la imagen: aumentar las variaciones de
intensidad, allí donde se producen.
★ Detectar bordes: detectar aquellos píxeles donde se
produce un cambio brusco en la función intensidad.
Máscaras más utilizadas
Filtrado del Ruido
Se prefieren los filtros espaciales:
● Tienen un mejor rendimiento con un

menor costo en memoria y tiempo
de ejecución.
● Sin embargo, no existe un único
filtro lineal o no lineal que sea
óptimo para todas las imágenes.
Filtro Promediador
Se usa para suavizar imágenes. Es
es el más simple, intuitivo y fácil
de implementar. Su función es
reducir la cantidad de variaciones
de intensidad entre píxeles
vecinos. Se visita cada píxel de la
imagen y se reemplaza por la
media de los píxeles vecinos.
Filtro Promediador
Desventajas:
➔ El filtro de la media es bastante sensible a cambios

locales.
➔ El filtro de la media puede crear nuevas intensidades de

grises que no aparecían en la imagen.
Filtro Promediador
Filtro Gaussiano
El filtro gaussiano se usa para
emborronar imágenes y eliminar
ruido. Es similar al filtro de media
pero se usa una máscara diferente,
modelizando la función gaussiana:
G(x,y)=1/2πσ2(e -(x2+y2)/2σ2)
Filtro Gaussiano
Algunas Ventajas:
➔ Es separable: es decir, en lugar de realizar una

convolución bidimensional, podemos realizar dos
convoluciones unidimensionales. Una en sentido
horizontal y otra en sentido vertical.
➔ El filtro gaussiano produce un suavizado más uniforme

que el filtro promediador.
Filtro Gaussiano
Filtro Gaussiano
Tanto el filtro gaussiano como el

promediador se utilizan para eliminar
el ruido gaussiano.
Filtro Mediana
Se visita cada píxel de la imagen y
se reemplaza por la mediana de los
píxeles vecinos. La mediana se
calcula ordenando los valores de
los pixeles vecinos en orden y
seleccionado el que queda en
medio.
Filtro Mediana
Desventajas:
➔ Este filtro no es lineal. Dadas dos imágenes A y B,

mediana(A+B) ≠ mediana(A)+mediana(B)
Ventajas:
➔ El filtro de Mediana es el más eficiente para eliminar

ruido de tipo sal y pimienta.
Filtro Mediana
Biomédicas
Mejoramiento de Imágenes II:
Detección de Bordes y Ec. Histograma
¿A qué denominamos
bordes de una
imagen?
Definición de Bordes
Los bordes de una imagen

digital se pueden definir
como transiciones entre dos
regiones de niveles de gris
significativamente distintos.
Filtros Espaciales
Los filtros espaciales tienen como
objetivo modificar la contribución de
determinados rangos de frecuencias a
la formación de la imagen. El término
espacial se refiere al hecho de que el
filtro se aplica directamente a la
imagen y no a una transformada de la
misma, es decir, el nivel de gris de un
píxel se obtiene directamente en
función del valor de sus vecinos.
Filtros Espaciales:
Recordemos que...
La forma de operar de los
filtros lineales es por medio de
la utilización de máscaras que
recorren toda la imagen
centrando las operaciones
sobre los píxeles que se
encuadran en la región de la
imagen original que coincide
con la máscara (convolución).
Clasificación de Filtros
Los filtros espaciales pueden clasificarse basándose en su
linealidad:
❖ Filtros Lineales:
➢ Pasa Bajo
➢ Paso Alto
➢ Pasa Banda
❖ Filtros No-Lineales
Otra Clasificación
Basándose en su finalidad:
★ Filtros de suavizado, Smoothing

★ Filtros de realce, Sharpening
★ Filtros diferenciales: Laplaciano, Prewitt, Sobel, por
mencionar algunos.
Filtros de Suavizado:
Pasa Bajos
El suavizado de imágenes se
utiliza normalmente bajo dos
supuestos:
● Dar a una imagen un
difuminado o efecto especial.
● Para la eliminación de ruido.
El suavizado borra los detalles más finos de una imagen,
atenuando las altas frecuencias.
Filtros de Realce: Pasa
Altos
● Los filtros pasa altos disminuyen el
número de grises presentes,
aumentando el contraste global de
la imagen.
● Se mejora la nitidez y los detalles al
procesar la imagen. Estos detalles se
verán realzados.
Para realce se usan los filtros sharpen
Filtros Diferenciales
El hacer un promedio de unos
píxeles sobre una región de la
imagen, tiende a emborronar los
detalles de una imagen. Como el
promedio es similar a la
integración, la diferenciación
tendrá el efecto opuesto y ello
realzará los detalles de una
imagen.
Filtros Diferenciales
El método de diferenciación más común en el proceso de
aplicaciones es el gradiente. Para una función f(x,y), el
gradiente de f en las coordenadas (x,y) se define como el
vector:
∇f=[∂f/∂x, ∂f/∂y]
Cuya magnitud y dirección se calculan a partir de:
∇f~[(∂f/∂y)2+(∂f/∂x)2]½
θ=arctg[∂f/∂x/∂f/∂y]
Detección de Borde
Detectar los bordes de una imagen se
trata de localizar los cambios
abruptos en la función intensidad de
la imagen y resaltarlos.
La mayoría de las técnicas para
detectar bordes emplean operadores
locales basados en distintas
aproximaciones discretas de la
primera y segunda derivada entre los
niveles de grises de la imagen.
Detección de Bordes
Por lo tanto, detectar un borde
consiste en encontrar, para cada
(x, y):
➢ La magnitud de ∇f (x, y)
➢ Y el ángulo α(x,y), que forma

el vector gradiente con el eje x
Detección de Bordes
El gradiente es perpendicular a la dirección del borde
La dirección del gradiente es la

dirección de máximo crecimiento
de la función, o sea, es la
dirección de máxima variación.
El borde queda determinado por
los pixels con más alto valor de
magnitud.
Primer Aproximación
Considerando la región de la
imagen, donde I son los valores de y
nivel de gris, la aproximación más
simple es emplear la diferencia (I5-I6)
en la dirección de x e (I5-I8) en la
dirección de y.
Entonces: x
∇ƒ≈[(I5-I6)2+(I5-I8)2]1/2
Segunda Aproximación
Otra buena aproximación a la
derivada primera es tomar la
diferencia cruzada:
∇ƒ≈[(I6-I8)2+(I5-I9)2]1/2
Las ecuaciones anteriores pueden implementarse pensando

en kernels de 2x2. Estas máscaras se llaman operadores de
Roberts.
Tercer Aproximación
Otra aproximación es emplear máscaras de
tamaño 3x3:
∇ƒ≈|(I7+I8+I9)-(I1+I2+I3)|+
|(I3+I6+I9)-(I1+I4+I7)|
La diferencia entre la tercera y primera filas

del núcleo, aproxima la derivada en la
dirección x y la diferencia entre la tercera y
la primera columna a la derivada en la
Tercer Aproximación
Los filtros que implementan esta última aproximación se
denominan filtros de Prewitt y/o Sobel:
PREWITT SOBEL
Ejemplo Filtro Roberts
Ejemplo Filtro Prewitt y
Sobel
Filtros Diferenciales: Método
de Derivadas Segundas
Si solamente nos interesa la magnitud (sin la orientación)
definimos el operador lineal Laplaciano:
∇2f(x,y)=∂2f/∂x2 + ∂2f/∂y2
★ Tiene las mismas propiedades en todas las direcciones

★ Es invariante a rotaciones
★ Se utiliza para el zero-crossing (cruce por cero de la derivada
segunda)
★ Desventajas: más sensitivo al ruido y produce bordes dobles
Filtro Laplasiano
Este tipo de filtro se basa en
un operador derivativo, por
lo que acentúa las zonas que
tienen gran discontinuidad
en la imagen.
Se puede aproximar como:
Filtro Laplasiano
La ubicación de los bordes se encuentra haciendo zero
crossing.
Se detectan los bordes buscando

los lugares de la imagen en donde
el laplaciano se hace cero,esto
implica un cambio de concavidad
en la intensidad y, por lo tanto, se
asume que es un punto de
existencia de borde.
Zero-crossing
● Los resultados del Laplaciano generan muchos bordes falsos
● Zero-crossing, es donde aparecen cambios de signo, índice
de que hay un borde.
Un método para remover falsos contornos consiste en chequear
que la varianza local sea suficientemente grande en esos
puntos.
Filtro Canny
Para que un detector de bordes pueda ser considerado
óptimo debe cumplir los siguientes puntos:
★ Buena detección: el algoritmo debe marcar el mayor
número de bordes reales de la imagen como sea posible.
★ Buena localización: los bordes deben estar lo más cerca
posible del borde de la imagen real.
★ Respuesta mínima: El borde de una imagen sólo debe ser
marcado una vez, y siempre que sea posible, el ruido de la
imagen no debe crear falsos bordes.
Algoritmo de Canny
Para satisfacer estos requisitos Canny utiliza el cálculo de
variaciones:
★ Obtención del gradiente:obtener magnitud y orientación
del vector gradiente en cada pixel.
★ Supresión de no máxima: Conseguir el adelgazamiento del
ancho de los bordes hasta lograr que sean de un pixel de
ancho.
★ Histéresis de umbral: Aplicar esta función de histéresis
que está basada en dos umbrales.
Obtención del Gradiente
Aplicar un filtro Gaussiano para eliminar ruido y suavizar la
imagen gradiente en cada pixel
Luego se aplica un filtro de
detección de bordes (Roberts,
Prewitt, Sobel, por ejemplo) a
partir de esto, se pueden
determinar el gradiente de
borde y la dirección.
Se obtienen dos imágenes: Im, de la magnitud del gradiente,
e Io, de la orientación del gradiente.
Supresión no máxima
Posteriormente se observa si el valor de la magnitud de
gradiente es más pequeño que al menos uno de sus dos
vecinos en la dirección del ángulo obtenida:
➔ De ser así se asigna el valor 0 al píxel,

➔ En caso contrario se asigna el valor que tenga la magnitud
del gradiente.
Histéresis con
Umbralización
★ Se fijan dos umbrales H1 < H2.
★ Se recorre la matriz salida, de la supresión de no
máximos. Si la magnitud del píxel supera el umbral H2
se interpreta como píxel fuerte. Si, por el contrario, la
magnitud del píxel es superior a H1 pero inferior a H2
es interpretado como píxel débil.
★ Consideramos borde a todos los píxeles fuertes más
los píxeles débiles que sean vecinos de los píxeles
fuertes. Obteniendo una detección mucho más limpia.
Filtro Canny
Histograma
El histograma de una imagen digital con
L niveles de intensidad en el rango
[0,L-1] es definido como la función
discreta:
h( rk)=nk
donde rk es el k-ésimo nivel de

intensidad en el intervalo [0,L-1] y nk es
el número de pixels en la imagen con
intensidad rk.
Histograma
Normalizado
A menudo es útil trabajar con
histogramas normalizados.
Para esto dividimos todos los
elementos del histograma por
el número total de pixels de la
imagen:
p( rk)=h( rk)/n=nk/n
Histograma Acumulado
La funcion del histograma

acumulativo se define como
una funcion monotona
creciente en donde todos los
valores a partir del segundo
valor son recalculados con la
suma de su valor inmediato
anterior.
Ecualización del
Histograma
Para modificar una imagen
también se pueden utilizar
operaciones globales, como lo es
la ecualización de histograma,
que tiene como objetivo acentuar
el contraste visual, aprovechando
de mejor manera el rango de
valores de intensidad disponible.
Ecualización del
Histograma
El histograma se considera
ecualizado si todos los niveles de
intensidad tienen una frecuencia
lo más similar posible. Para lograr
esto en la práctica, basta con
lograr que el histograma
acumulado de la imagen se
aproxime a una recta
Ecualización del
Histograma
Para generar una imagen con el histograma ecualizado se
requieren varios pasos:
1. Calcular el histograma de la imagen
2. Normalizar el histograma (dividirlo entre el número total de
píxeles)
3. Calcular el histograma acumulado (ir sumando los píxeles
desde el valor 0 al 255)
4. Se aplica el algoritmo, g(x,y) = (H(f(x,y))-1)*255/H(255)
Imagen Ecualizada
Escalamiento
Esta técnica consiste en determinar un rango de intensidades
de interés [f1,f2] que se busca escalar, como máximo, a una
intensidad fmax.
Entonces, se definen las funciones:
★ e = {f si f incluido en [f1,f2] ; 0 si no}
★ g = ((e-f1)/(f1-f2)).fmax
De modo tal que si f se encuentra en el rango deseado, su

valor se verá escalado a ((f-f1)/(f1-f2)).fmax. Caso contrario, se
le asignará (-f1/(f2-f1)).fmax siempre.
Escalamiento
Ecualización Local
La ecualización local se realiza

por bloques de la imagen que se
ecualizan de forma
independiente. Permite revelar
estructuras finas de la imagen en
algunas situaciones.
Biomédicas
Reconstrucción: TR, TF y Dominio de la
Frecuencia
¿Que significa reconstruir
una imagen?
Recordemos...
Un escáner de Tomografía
Computarizada consta de una
estructura circular, denominada
gantry, que contiene una fuente de
rayos X y los detectores. Esto nos
permite medir la radiación luego de
atravesar al paciente, quien se
encuentra recostado en una camilla
que se mueve lentamente a través
del gantry.
Un poco de Historia...
En los procesos radiológicos se

suponía que la radiación atravesaba
material homogéneo, pero en realidad
los diferentes tejidos tienen distinta
densidad. Cormack (1966) se planteó
entonces el problema de determinar la
densidad de un objeto a partir de la
atenuación de los rayos X que lo
atravesaban, dirigidos en distintas
direcciones.
¿Que quería resolver?
El problema trataba de
determinar, en primer lugar, los
niveles de atenuación de los
rayos X, al atravesar una sección
del cuerpo, y en segundo lugar,
con la información obtenida,
reconstruir el objeto
desconocido determinando su
densidad en cada punto.
Transformada de Radon
En 1917 Johann Radon ya había

resuelto el problema. Demostró la
posibilidad de recuperar una función
cuando se conocen todas sus
integrales de línea. Lo que nos
permite reconstruir un objeto
bidimensional y tridimensional a
partir de un conjunto de infinitas
proyecciones.
Con esta transformada, a la

función de coeficiente de
atenuación 𝑓(𝑥,𝑦) del objeto se
le asigna su integral a lo
largo de una curva L.
Geométricamente cada una
de estas integrales es una
proyección del objeto en la
dirección de la curva L.
★ Los rayos X viajan en líneas rectas y los haces son

monocromáticos.
★ Al interactuar con la materia los rayos X se atenúan, es
decir, su intensidad decrece.
★ Cada material está caracterizado por su coeficiente de
atenuación 𝜇.
★ La intensidad I de cada haz de rayos se atenúa de acuerdo
con la ley de Beer: I(t)=I0e-𝝻s
Ley de Beer
La ley de Beer, aplicada a la intensidad del rayo que viaja a lo

largo de una curva L, establece que la relación entre la
intensidad inicial 𝐼0 y la intensidad 𝐼1 recibida por el detector
se calcula a partir de:
Ley de Beer
Ahora, consideraremos una sección transversal de un objeto

tridimensional. Sea la sección transversal perpendicular al eje
z, entonces, el coeficiente de atenuación en el plano es una
función de dos variables:
Y el decrecimiento relacional del rayo X a través del plano xy

a lo largo de la línea L está dado por la siguiente ecuación:
Fijamos un sistema de coordenadas

𝑥, 𝑦, 𝑧 como se muestra en la figura.
El valor de cada píxel de la imagen
generada será proporcional al valor
del coeficiente de atenuación para el
haz de rayos al atravesar el vóxel
correspondiente. El coeficiente de
atenuación de cada rebanada o
corte transversal estará dado por:
Si expresamos a 𝜇𝑐(𝑥,𝑦)=𝑓(𝑥,𝑦).
Al interactuar el haz de rayos X con la
sección transversal su intensidad
disminuirá satisfaciendo la ley de
Beer:
Si L es la trayectoria descrita por el

haz e 𝐼0, 𝐼1 sus intensidades antes y
después de atravesar el corte,
separamos variables e integramos la
ecuación anterior y obtenemos:
Así obtenemos expresión de la transformada de Radon
A esta cantidad Radón la denomino proyección de 𝑓(x,y) a lo

largo de la recta L y demostró que conociendo todas sus
proyecciones es posible determinar la función 𝑓(x,y)
La dirección del rayo AB define una

dirección perpendicular t donde se
proyecta el rayo. La línea t hace un
ángulo θ en el eje X. La ecuación del
rayo AB está dada por:
t=x cosθ + y senθ

Entonces, la proyección particular

generada, a un ángulo θ, es función de
una variable t. La proyección se
calcula a partir de las integrales de
línea de f(x, y) a lo largo de líneas
paralelas que pasan a través de la
imagen. Por lo tanto:
Es claro, entonces, que para poder precisar todas las

proyecciones es necesario el uso de un parámetro más, en
este caso el ángulo θ.
Sinograma
La representación en el plano de la
transformada de Radon se suele
llamar sinograma: es la
representación gráfica de una
matriz en la que el índice de las filas
depende del ángulo θ y el índice de
las columnas depende de la
distancia t de la línea de medida al
centro de coordenadas del sistema
de detección.
Sinograma
Unidades Hounsfield
Resultado de la
transformación de la escala
de coeficientes de atenuación
lineal de rayos X en una
nueva escala en la cual el
valor de atenuación del agua
destilada en CNPT, se define
como 0 unidades de
Hounsfield (HU), mientras
que la radiodensidad del aire
se define como -1000 HU.
Algoritmos de Reconstrucción
En la práctica, ni el ángulo θ ni el
parámetro t resultan ser variables
continuas. Por lo tanto, la
medición experimental es un
conjunto discreto de proyecciones
para un número finito de ángulos.
A partir de este conjunto, la
cuestión es buscar un algoritmo
para reconstruir la imagen f’(x, y). {Pθj(tk), j, k = 0, 1, 2,..., n-1}
Algoritmos:Retroproyección
Simple
El problema de la reconstrucción
consiste, entonces, en calcular la
distribución del objeto f(x,y) (o lo
que llamamos antes μ), dadas las
proyecciones, es decir, las
transformadas de Radon.
➔ Aunque es posible retroproyectar
el sinograma al espacio de la
imagen, esto conduce a una
imagen borrosa.
Algoritmos:Retroproyección
Simple
Para brindar una aproximación mejorada a la solución del
problema anterior, se propuso el teorema de la proyección,
también llamado teorema de corte central o teorema de
corte de Fourier, por su traducción del inglés (central slice o
Fourier slice theorem)
VEAMOS DE QUÉ SE TRATA...

Transformada de Fourier
Se demuestra que cualquier

función periódica f(t) con un
período T, que sea continua
por tramos e integrable sobre
cualquier intervalo
(condiciones de Dirichlet),
puede representarse mediante
la serie de Fourier en forma Los coeficientes son complejos porque
hay que representar la amplitud y fase
exponencial compleja. de la sinusoide.
Transformada de Fourier
La consistencia de esta
representación en forma
de serie de Fourier se
basa en que dicha
función queda
unívocamente definida
mediante la
especificación de los
coeficientes C.
Transformada de Fourier: 1D
Las funciones que no

son periódicas ( pero
cuya área bajo la curva
es finita) se pueden
expresar como la
integral de los senos y/o
cosenos multiplicada Esta expresión la representación de Fourier de
una función aperiódica, similar a la serie, recibe
por una función de el nombre de Transformada de Fourier de la
ponderación. función f(t).
Transformada de Fourier: 2D
Se define análogamente la transformada de Fourier en dos

dimensiones bajo la siguiente expresión matemática:
Teorema de Corte de Fourier
● Escribimos la transformada
de fourier de la proyección.
● Por la expresión de la
transformada de Radon
obtenemos la segunda
ecuación.
● Sustituyendo:
x=t cosθ-s senθ ; y=t senθ+s cosθ
Siendo unitario el jacobiano
obtenemos la tercer ecuación.
Asi arribamos al teorema:

★ La transformada de Fourier de una proyección
paralela de una imagen f(x,y) tomada a un ángulo θ
nos da un corte de la transformada bidimensional
F(u,v), subtendiendo el mismo ángulo θ con el eje u.
Por lo tanto tomando las

proyecciones de un objeto a
ángulos θ1,θ2,...,θk y tomando la
transformada de Fourier de las
mismas, podemos determinar los
valores de la transformada
bidimensional F(u,v) en líneas
radiales del plano uv (dominio de
frecuencias).
Dominio de las Frecuencias
El sistema matricial de coordenadas

de una imagen es lo que se
denomina dominio espacial. Sin
embargo, la misma imagen puede
ser considerada como una función
no periódica y definirse en otro
espacio bidimensional, cuyos ejes
vengan determinados por la
amplitud y la frecuencia para cada
dirección de la imagen.
Dominio de las Frecuencias
El procesamiento de la imagen se lleva a cabo en una

transformada de la imagen (Transformada de Fourier) y,
posteriormente, mediante la transformada inversa se obtienen
los resultados.
Transformada Discreta
Sea f (x,y) imagen, una transformada (lineal, reversible)

se expresa por:
La TF 2D de una imagen: es una expansión de la función

en términos de “imágenes cosenoidales” (funciones
básicas).
Transformada de una imagen
★ En las 2 expresiones anteriores x e

y son las coordenadas de los
pixels.
★ N es la cantidad de pixels según x
e y.
★ u y v son las frecuencias en el
dominio de Fourier.
En la segunda expresión suplantamos
x e y por R ( row) y C (column).
Transformada de una imagen
En síntesis, si se tienen las

transformadas de Fourier
de las proyecciones se
puede ‘ensamblar’ el
conjunto para cubrir el
plano del dominio de
frecuencias. Y al invertir la
transformada obtendremos
una estimación de la
imagen del objeto.
Fast Fourier Transform: FFT
La FFT no es una nueva transformada, sino que es un

algoritmo para el cálculo de la Transformada Discreta de
Fourier (DFT) y su inversa. Su importancia radica en el
hecho que elimina una gran parte de los cálculos
repetitivos a que está sometida la DFT, por lo tanto se
logra un cálculo más rápido. Además, la FFT
generalmente permite una mayor precisión en el cálculo,
disminuyendo los errores de redondeo.
Algoritmo de
Retroproyección filtrada
La transformada de Fourier unidimensional P(k,θ) de la proyección pθ(t),
corresponde a una línea que cruza el origen del espacio-k. Como
consecuencia, si dichas proyecciones son interpoladas para obtener una
representación cartesiana de F(kx,ky), es posible tomar la antitransformada
de Fourier y obtener la imagen f(x,y) en el dominio espacial.
Algoritmo de
El principal problema que se
presenta al utilizar este método
solamente, es que para las
frecuencias altas, los puntos
experimentales se encuentran muy
separados. Esto implica que se
requiere una interpolación con
puntos muy despegados entre sí,
lo que puede inducir un error
considerable.
Algoritmo de
Una manera de atacar el problema es dando a cada punto, en el dominio
de las frecuencias, un distinto peso para que su influencia sea diferente a
la hora de tomar la transformada inversa y reconstruir la imagen. Este
mecanismo se conoce como filtraje. Si esto se interpreta como una
convolución, simplemente debemos multiplicar a F(kx,ky) con un filtro a
kernel en el dominio de las frecuencias. Este procedimiento corresponde
a la retroproyección filtrada FBP.
Algoritmo de
En general se suele utilizar un filtro rampa, pasa altos.
Algoritmo de
Algoritmo de
Algoritmo de
Algoritmo de
Reconstrucción Aritmética
Los algoritmos iterativos comienzan por proponer un objeto fi, por
ejemplo, con distribución homogénea de atenuaciones. A continuación, se
calculan las proyecciones pi, correspondientes al objeto propuesto y se
comparan con las proyecciones originales medidas en el detector po. El
objeto propuesto f i+1 se actualiza, con base en la diferencia de las
proyecciones. Matemáticamente, este proceso se podría expresar así:
Algoritmo de Iteración
Con este procedimiento

iterativo, se produce una
secuencia de
distribuciones de
atenuación f1, f2,...,fn;
hasta que se converge a
un valor óptimo fopt,
basado en una regla de
optimización comparando
pi con po.
Uno de los métodos más

utilizados en imágenes
biomédicas es el basado en el
Algoritmo de Kacsmarz. Este
utiliza un métodos de acción por
filas. Estos son métodos
iterativos diseñados para
resolver sistemas de ecuaciones
o inecuaciones en espacios de
dimensión finita.
En nuestro caso para resolver sistemas

lineales del tipo Ax=b: un sistema de n
ecuaciones lineales con n incógnitas.
Cada una de las ecuaciones define un
hiperplano. El método consiste en
partir desde un punto arbitrario x0
proyectarlo sobre el primero de los
hiperplanos obteniendo el punto x1,
luego proyectar sobre el segundo
hiperplano obteniendo x2, y así
sucesivamente.
Cuando se ha proyectado sobre el
último hiperplano se vuelve a proyectar
nuevamente sobre el primero de ellos y
se continúa el proceso. En un sistema
2x2 es muy fácil entender y visualizar el
procedimiento. Es evidente que
partiendo de un punto arbitrario y
proyectando ortogonal alternadamente
sobre H1 y H2, la sucesión de
proyecciones converge a H1 ⋂ H2.
Reflexión final....
Resulta conveniente reflexionar finalmente sobre la

importancia de explorar nuevos métodos y alternativas
para la reconstrucción. El motivo es que tanto los
métodos iterativos, como los de retroproyección son
aproximados. a medida que los algoritmos sean más
complejos y tomen en cuenta factores físicos como el
ruido, el endurecimiento del haz o la dispersión de
rayos, se podran ir obteniendo mejores aproximaciones.
Biomédicas
Segmentación I: Umbralizado, Otsu,
Region Growing, Watershed, k-means.
¿A qué nos referimos
cuando hablamos de
segmentación?
Segmentación
La segmentación es uno de los procesos más
importantes del procesamiento digital de imágenes.
Es la técnica que divide a la imagen en función de
ciertas características como: el valor de intensidad de
píxeles, el color y la textura. Por lo tanto, es la más
utilizada para aplicaciones de comprensión y/o
reconocimiento de objetos.
Segmentación
La segmentación de imágenes
divide una imagen a un nivel en el
que se puedan aíslar las regiones u
objetos de interés. Los algoritmos
de segmentación se basan en dos
enfoques, según propiedades
básicas, de los valores del nivel de
gris: discontinuidad o similitud.
Discontinuidad
Se divide la imagen basándose
en cambios bruscos de nivel de
gris:
★ Detección de puntos aislados

★ Detección de líneas
★ Detección de bordes
Similitud
Se divide la imagen basándose
en la búsqueda de zonas que
tengan valores similares,
conforme a unos criterios
prefijados:
★ Crecimiento de región
★ Umbralización
Segmentación
Clasificación:
➢ Estructural: Trabajan sobre la información
estructural de las regiones de la imagen.
➢ Estocásticas: Trabajan sobre los valores de píxeles
discretos de la imagen
➢ Híbridas: usan la información estructural de regiones
y de píxeles discretos juntas.
Segmentación
Estructural
Estocástica
Segmentación
Algunas de las aplicaciones prácticas de la
segmentación de imágenes son las siguientes:
★ Pruebas médicas:
○ Localización de tumores y otras patologías.
○ Medida de volúmenes de tejido.
○ Cirugía guiada por ordenador.
○ Diagnóstico.
○ Planificación del tratamiento.
○ Estudio de la estructura anatómica.
Segmentación
Comenzaremos estudiando desde el enfoque de las
similitudes entre los niveles de grises. Para ello,
determinaremos algunos conceptos, algoritmos y métodos
fundamentales que nos permitirán segmentar nuestras
imagenes de interés.
Umbralizado
La umbralización es uno de los más importantes métodos de
segmentación. El objetivo es convertir una imagen en escala
de grises a una nueva con sólo dos niveles, de manera que los
objetos queden separados del fondo.
Recordemos...
La binarización de
imágenes es una técnica
del procesamiento de
imágenes que consiste en
un proceso de reducción
de la información digital
a dos valores: Negro (0) y
Blanco (1)
Umbralizado Global
Una forma de extraer el objeto del fondo es seleccionar un umbral de
intensidad T que separe los dos conjuntos de valores. Así, cualquier
punto (x, y), donde f(x,y)>T, será parte del objeto sino será partes del
fondo. Si los valores de gris del objeto y del resto de la imagen difieren
claramente, entonces el histograma mostrará una distribución bimodal.
De esta forma lograremos una separación entre el objeto y el fondo.
Umbralizado Global
Tipos deUmbralizado: Multiple
Con el método global del valor
umbral se elige un valor umbral
para toda la imagen.
Pero si establecemos varios
valores umbral se puede modificar
el método de manera tal que
tengamos más de dos segmentos
en la misma imagen.
Tipos deUmbralizado: Invertido
Aquí se invierten los valores de los píxeles, por lo que
esperamos que los más brillantes, que el valor de umbral,
sean negros y los valores más oscuros de la imagen sean
los blancos.
Tipos deUmbralizado: A cero
Esta vez, esperamos que los píxeles más oscuros ( por
debajo del umbral) se volverán completamente negros,
mientras que los píxeles con valor mayor que el umbral
mantendrán su valor original.
Umbralizado Local
Con el método local del valor umbral se divide la imagen original en
regiones y se establece un valor umbral para cada una de ellas.
Una extensión del método local es el método del valor umbral dinámico,
en el que se define para cada pixel una zona vecina N a la que se asigna
un valor umbral adecuado t(N).
Umbralizado Local
Método de Otsu
En general el punto central, de la
segmentación por umbralización,
es encontrar el valor umbral más
adecuado. Un método
ampliamente utilizado es el
método de Otsu. Llamado así en
honor a Nobuyuki Otsu que lo
inventó en 1979, y utiliza técnicas
estadísticas, para resolver el
problema.
Método de Otsu
El método de Otsu calcula el valor umbral de forma que la
dispersión dentro de cada segmento sea lo más pequeña
posible, pero al mismo tiempo que sea lo más alta posible
entre segmentos diferentes. Para ello se calcula el cociente
entre ambas varianzas y se busca un valor umbral
maximizando el cociente.
Método de Otsu
Definimos dos distribuciones de probabilidad,una para los
objetos y otra para el fondo. Se tienen en cuenta que la
probabilidad de que ocurra un nivel de gris dado es:
Si tenemos una imagen NxM, cuyos niveles de gris van de 0

a L-1 y ni es la cantidad de píxeles con nivel de gris i
Método de Otsu
Si suponemos un valor umbral T, cuyo nivel de gris sea k, se
podria dividir el conjunto de pixeles de la imagen en dos
clases. El fondo C1 con píxeles de niveles de gris entre 0 y k,
y los objetos C2 cuyos niveles de gris abarcaría desde k+1 a
L-1.
Por lo tanto, P1(k) nos proporciona la probabilidad de que un
dado pixel pertenezca al segmento C1, y 1-P1(k) la
probabilidad de que un píxel pertenezca al segmento C2.
Siendo:
Método de Otsu
Por lo tanto, el valor medio de C1 será:
Y el valor medio global de la imagen se determina a partir de:

Método de Otsu
El valor que mide la dispersión entre los dos segmentos al
definir un nivel de gris umbral k, queda determinado por la
siguiente ecuación:
Entonces, el valor óptimo del umbral será aquel que

maximice la ecuación anterior:
Método de Otsu
La principal ventaja del método de otsu es que es muy
sensible a las variaciones de luminosidad. Además asume
que el mejor umbral puede obtenerse a partir del análisis
estadístico de la media y la varianza de las intensidades
Método de Otsu
La principal desventaja es que
solo da buenos resultados
cuando el histograma de la
imagen es bimodal. Y eso no es
así en todos los casos.
Método de Otsu
Region Growing
Es un método basado en
similitud. Es decir, aquel que
tiene como objetivo
determinar los píxeles que
cumplen con cierto criterio
de semejanza y permite
agruparlos en regiones.
Region Growing: Aspectos
Centrales
★ Es un procedimiento que agrupa píxeles de la imagen en forma
iterada en regiones mayores bajo un criterio prefijado.
★ Se comienza a partir de puntos “semillas”, para formar una
determinada región, añadiendo aquellos píxeles vecinos una cumplan
la propiedad especificada.
★ La propiedad considerada en el crecimiento de regiones, debe tener
en cuenta la información sobre conectividad o adyacencia de la
imagen.
★ Otro factor importante es la condición de parada.
Region Growing
Veamos un ejemplo sencillo. Proponemos dos “semillas” o “seed” , ambas
marcadas por un nivel de gris. Si definimos las condiciones de crecimientos tales
que: un punto y una semilla original son similares, si y sólo, bajo una conectividad
de vecindad de 4, su diferencia de nivel de intensidad es menor o igual que 2. El
algoritmo entonces, generará la siguiente iteraciones:
Region Growing
Watershed
La segmentación a partir del
algoritmo de watershed es una
técnica morfológica de
segmentación de imágenes de
niveles de gris a partir de la
topología subyacente entre las
intensidades. Es un método de
segmentación basado en regiones,
que divide todo el dominio de la
imagen en conjuntos conexos.
Watershed
La mejor manera de entender
este algoritmo de
segmentación es hacer una
analogía de la topográfica de
un relieve terrestre con la
escala de gris de la imagen.
El concepto de watershed se basa en visualizar una

imagen en 3 dimensiones (3D): dos coordenadas
espaciales vs niveles de gris: T= (x, y, f(x,y)).
Watershed
Básicamente, supongamos como
un pequeño agujero a cada
mínimo local, y que todo el
relieve topográfico es inundado
desde abajo, dejando que el
agua entre a velocidad
constante. El agua va subiendo e
inundando las cuencas.
Esta técnica vincula la detección de contornos o
bordes con el crecimiento de regiones.
Watershed
Cuando el agua de dos cuencas
está a punto de juntarse, se
construye un dique para evitar
la fusión. La inundación
continúa, y llega a un punto en
que solo se ve la parte de
arriba de los diques por encima
de la línea de agua.
Las línea forman un camino conexo, dando por lo
tanto bordes continuos entre las regiones.
Watershed
Watershed
La principal desventaja es
que en imágenes no
homogéneas, y/o embebidas
en ruido, se genera un gran
número de mínimos locales.
Produciéndose una
sobresegmentación.
k-means
K-means es un algoritmo de
clasificación, no supervisada
(clusterización), que agrupa
objetos en k grupos
basándose en sus
características.
k-means
El agrupamiento se realiza
minimizando la suma de
distancias entre cada objeto
y el centroide de su grupo o
cluster. Se suele usar la
distancia cuadrática media.
k-means
El algoritmo consta de tres pasos:
1. Inicialización: una vez escogido el número de grupos k, se establece a cada
uno como centroide en el espacio de los datos, por ejemplo: escogiéndolos
aleatoriamente.
2. Asignación de píxeles a los centroides: cada píxel de los datos es asignado a
su centroide más cercano.
3. Actualización de centroides: se actualiza la posición del centroide de cada
grupo tomando como nueva posición el promedio de la distancia entre los
píxeles pertenecientes al grupo.
Se repiten los pasos 2 y 3 hasta que los centroides no se mueven, o se mueven
por debajo de una distancia umbral en cada paso.
k-means
Los píxeles se representan con vectores reales de d
dimensiones (x1,x2,...,xn) y el algoritmo k-means construye k
grupos donde se minimiza la suma de distancias de los
píxeles a su centroide, dentro de cada grupo S={S1,S2,...,Sk}.
El problema se puede formular de la siguiente forma:
k-means
En cada actualización de los centroides, desde el punto de
vista matemático, imponemos la condición necesaria a la
función E(μi), que para la función cuadrática anterior es:
y se toma el promedio de los elementos de cada

grupo como nuevo centroide.
k-means
k-means
k-means
Interación 0 Interación 1 Interación 2

k-means
Interación 6 Interación 7
k-means
k-means
k-means
Las principales ventajas del método k-means son que es un
método sencillo y rápido. sin embargo, es necesario decidir
el valor de k y el resultado final depende directamente de la
inicialización de los centroides,que en principio, no converge
al mínimo global sino a un mínimo local.
k-means
Biomédicas
Segmentación II: Contornos Activos,
Etiquetado, Bounding Box.
cuando hablamos de
modelos deformables?
Modelos Deformables
Los modelos deformables son curvas
( para imágenes 2D), o superficies
( para 3D), compuestas de un material
elástico definidas por ecuaciones
diferenciales que determinan su forma
y su movimiento.
La interpretación física de un modelo
deformable es la de un cuerpo elástico
que responde a fuerzas y restricciones
que sobre él se aplican.
Modelos Deformables
Consideramos entonces la aplicación de modelos de
contornos deformables como un método para extraer formas
“suaves” en una región u objeto de la imagen.
Es un proceso de segmentación, se interpreta como una curva
elástica que, introducida en la imagen, se despliega hasta
alcanzar la frontera del contorno correspondiente al objeto
que se desea segmentar.
Modelos Deformables
La filosofía del enfoque es lograr que
la curva se acomode moviéndose
desde su posición inicial hasta el
borde deseado, a partir de la acción
de dos tipos de fuerzas:
★ Internas, restricciones de suavidad
y fuerzas de presión.
★ Externas, fuerzas de atracción de
aristas y fuerzas de peso.
Contornos Activos
Específicamente, en el
método de segmentación
por Contornos Activos, se
propone una estimación
inicial de una curva
(“Snake”) y luego se usa un
sistema de optimización,
para refinar la estimación
inicial a partir de los datos
de la imagen.
Contornos Activos
Los modelos de contornos

activos son una manera de
extraer contornos combinando
características de imágenes,
factores de regularización y otras
restricciones.
Contornos Activos
Así, definiremos un problema inverso de aproximación
óptima: donde la tarea principal será adaptar la función ν
(x(s),y(s)), definida en el plano espacial de la imagen f(x,y),
de forma que minimice la energía total del sistema.
La curva se va deformando, expandiéndose o
contrayéndose, por la aplicación de las fuerzas, con el
objetivo de minimizar la función de energía asociada.
dE(ν)/dν=
0
Contornos Activos
Estos modelos deformables tienen dos tipos de energías
asociadas: una energía interna, que caracteriza los
atributos deseados del contorno; y una energía externa,
que ata el contorno con lo esencial de la imagen. El
objetivo es la minimización de la suma de estas energías.
Contornos Activos
Eint(ν) aporta las características de deformación del contorno
elástico, y tiende a mantener la forma de la curva. La primera
componente, trata de minimizar la energía de tensión sobre el
contorno que controla el estiramiento, permitiendo que se
comporte como una cuerda. La segunda componente,
introduce características de rigidez al contorno para lograr
que este sea suave.
Contornos Activos
Los parámetros w1(s) y w2(s), determinan el grado
de tensión y rigidez del contorno respectivamente.
Al variar estos coeficientes, la curva puede cambiar
su comportamiento durante la evolución. Estos
parámetros pueden depender de s, aunque en la
práctica se suelen especificar valores constantes
para toda la curva.
Contornos Activos
Eext(ν) representa la energía potencial del modelo y se define
generalmente a partir de un campo de potenciales P(ν), que
se diseñan de forma tal que sus mínimos locales coincidan
con extremos de intensidad, bordes u otra característica de
interés en la imagen que resulten relevante.
Contornos Activos
Se han propuesto varias alternativas para lograr el
acoplamiento de la curva a las características de la imagen.
Un ejemplo de una función de energía potencial para atraer
el contorno deformable hacia los bordes de la imagen I(x,y)
puede ser:
Donde Gσ(x, y) es una distribución Gaussiana con desviación estándar σ y se

aplica sobre la imagen mediante una convolución para provocar un efecto de
suavizado, ∇ es el operador gradiente y we es un parámetro positivo que
controla la magnitud del potencial.
Contornos Activos
Finalmente, minimizamos la función de la energía total del
sistema. Cabe aclarar que un enfoque más potente para la
resolución consiste en elaborar un sistema que modifica la
forma y hace evolucionar la curva a través del tiempo t. La
ecuación para el movimiento de una snake ν(x(s,t),y(s,t))
variable en el tiempo, con energía interna Eint y energía
externa Eext es:
Contornos Activos
★ El primer término, representa la fuerza debido a la
inercia del modelo.
★ El segundo término, la fuerza de amortiguación.
★ Los siguientes términos, constituyen las fuerzas de
tensión y de flexión, relacionadas a la energía interna.
★ El último, representa la fuerza externa debida al
potencial que acopla la snake a la imagen.
Contornos Activos
El sistema va evolucionando en el tiempo por
acción de las fuerzas aplicadas, alcanzado el
equilibrio cuando el contorno alcanza un
extremo y se detiene. Esto implica que:
2 2
∂ ν/∂t = ∂ν/∂t = 0
Contornos Activos
Un modelo simplificado donde μ(s)=0 y el sistema logra el
equilibrio cuando las fuerzas externas se equilibran con las
fuerzas internas y de amortiguación. Será posible
determinar una curva ν que minimice la energía y
represente el borde más cercano al del objeto de interés a
segmentar, resolviendo la ecuación de movimiento.
Contornos Activos
Las ecuaciones que rigen la evolución del modelo no
poseen solución analítica y se requiere la aplicación de
métodos numéricos discretos para su aproximación. El
modelo más utilizado es el T-Snakes.
Contornos Activos
1. Un contorno bidimensional formado por un conjunto de N nodos,
indexados por i=0,1,...,N-1 conectados en serie por N arcos.
2. Asociando a cada nodo una posición si(t)=(xi(t),yi(t)), junto a un vector
normal y las componentes de fuerza que actúan sobre él.
3. Se establece la condición s0(t)=sN(t) para cerrar la curva.
Contornos Activos
La evolución del modelo
deformable se realiza Ecuación de movimiento
moviendo cada nodo si, de
la superficie, por medio de
una versión simplificada y
discreta de la Ecuación de
Movimiento.
donde αi(t), βi(t), ρi(t) y fi(t) son magnitudes vectoriales que
representan las fuerzas de tensión, flexión, inflación y externa
respectivamente y γi es un coeficiente de amortiguación que
regula la velocidad ṡi del i-ésimo nodo.
Contornos Activos: Eint
● La fuerza de tensión
representa la resistencia al
estiramiento, manteniendo un
espaciado uniforme entre los
nodos.
● La fuerza de flexión es la
Ambas se calculan a partir del
resistencia a deformaciones Laplaciano y el Laplaciano
de curvatura. cuadrático. Donde N(i) es el conjunto
de nodos sj vecinos al nodo si y m es
el número de nodos vecinos.
Contornos Activos: Eext
● La fuerza de inflación se
aplica para guiar la
superficie hacia los bordes
del objeto.
● La fuerza externa actuará

conteniendo el avance de la
superficie cuando se
encuentre con los bordes del
objeto de interés.
Contornos Activos
Para resolver la ecuación de movimiento discreta, se utiliza el
método de integración explícito de Euler y se estima así una
solución numérica de la Ecuación Diferencial. Para esto, el método
aproxima la derivada temporal mediante diferencias finitas,
actualizando la posición de cada nodo del tiempo t al tiempo t+Δt,
para un ∆t suficientemente pequeño, de acuerdo con la expresión:
Contornos Activos
Variamos Elasticidad Variamos Rigidez

Contornos Activos
El proceso de iteración procede calculando en cada paso las
nuevas posiciones de los nodos de la superficie. El proceso se
repite hasta que ningún desplazamiento individual haya excedido
un cierto error de convergencia durante un número especificado
de pasos de deformación, o cuando se alcance un número máximo
de pasos requeridos.
Contornos Activos
Ventajas
★ Independencia respecto a la inicialización del
contorno.
★ Capacidad de detectar bordes cóncavos.
★ Rango de captura amplio.
Contornos Activos
Contornos Activos
Desventajas:
★ Los valores de α y β deben ser elegidos cuidadosamente
para obtener resultados satisfactorios.
★ Si los puntos están muy apartados, y una esquina está
entre dichos puntos, se suavizará demasiado la esquina
sobre el contorno.
★ Requiere de una gran cantidad de operaciones para
encontrar una buena aproximación al contorno.
Contornos Activos
Etiquetado
El etiquetado es una operación
que agrupa los píxeles
correspondientes a un mismo
objeto y les asigna una etiqueta.
De esta manera, se pueden
separar unos objetos de otros.
Este proceso se realiza una vez
que la imagen ha sido binarizada
por algún método de
segmentación.
Etiquetado
Como resultado, se obtiene una
imagen separada donde cada
objeto posee una etiqueta
diferente. Así se puede entonces
extraer características de los
mismos, como su centroide, sus
coordenadas, su tamaño, o
conocer el número de objetos
segmentados en la imagen.
Etiquetado
Debido a la naturaleza del escaneo de la imagen (de arriba
a abajo y de izquierda a derecha), los algoritmos para
etiquetar dan buenos resultados con objetos convexos,
pero presentan problemas cuando aparecen objetos que
tienen concavidades (formas en U).
Etiquetado
Las colisiones de etiquetas deben ser tratadas con mucho
cuidado, y en general se utiliza el método de fusión de etiquetas.
Este consiste en que al detectar una colisión, se decide cual es la
etiqueta menor ( por ejemplo las de color verde), y todos los
píxeles etiquetados en rojo cambian su valor de etiqueta a verde.
Etiquetado
El algoritmo de etiquetado se denomina también con el
nombre de MERGE LABELING. Podemos identificar en la
imagen de entrada dos posibles valores para los píxeles:
1) PÍXEL_ACTIVO
2) PÍXEL_NO_ACTIVO
En la salida podemos identificar valores de
PÍXEL_NO_ACTIVO y las etiquetas para cada uno de los
PÍXELES_ACTIVOS.
Etiquetado
Por cada píxel P, mediante una máscara, se evalúa en forma horizontal:
I. Si P tiene etiqueta y todos los vecinos tienen el mismo valor, se
marcan lo vecinos no etiquetados con la misma etiqueta; sino se
obtiene la lista de vecinos presentes y se hace el cambio de
etiqueta(MERGE).
II. Si P no tienen etiqueta y todos sus vecinos no están etiquetados, o
no tiene vecinos, se marca el pixel con la etiqueta siguiente
(incrementando en una unidad a la anterior) y así con todos los
vecinos.
III. Si todos los vecinos etiquetados son diferentes, se obtiene la lista
ordenada de vecinos etiquetados presentes y se hace el cambio de
etiqueta (MERGE); sino se marca a P con la etiqueta del vecino.
Etiquetado
Etiquetado
La desventaja de este proceso es que depende
absolutamente de la segmentación. Si dos objetos
diferentes muy cercanos en la imagen quedan conectados
al binariazarla les corresponderá la misma etiqueta.
Etiquetado
Bounding Box
Los cuadros delimitadores,
conocidos como Bounding Box, son
utilizados para detectar objetos en
el entorno de una imagen. Así, se
representa una posible región de
interés. En general, cada rectángulo
de reconocimiento, o detección de
características, devuelve la región
en forma de coordenadas de
píxeles: el ancho y la altura.
Bounding Box
Usando las coordenadas iniciales junto con el ancho y la
altura (en píxeles), codificamos nuestro algoritmo para
dibujar cuadros. La detección de objetos combina dos
tareas:
1) Dibuja un cuadro delimitador alrededor de cada objeto
de interés.
2) Le asigna una etiqueta de clase a cada cuadro.
Bounding Box
Básicamente, para detectar un objeto
debemos advertir su presencia,
delimitando y separándolo de los
demás objetos ubicados en la imagen.
Eso supone que debemos tener una
imagen con uno o más objetos que al
procesarla nos devuelva uno o más
cuadros delimitadores (definidos por
dos puntos: ancho y alto) y una etiqueta
de clase para cada uno.
Bounding Box
Para construir el rectángulo sobre
la región simplemente se recorre
la imagen binaria pixel por pixel
fila a fila de la imagen hasta
detectar un uno, ymax. De la misma
manera se determinarán las
coordenadas ymin, xmax y xmin.
Bounding Box
Biomédicas
Segmentación III: Morfología
Matemática, Esqueletización, Métricas
de Calidad de Segmentación .
cuando hablamos de
Morfología Matemática?
Morfología Matemática
Las operaciones morfológicas pueden
ser usadas para remover imperfecciones
de la imagen segmentada, para luego
obtener información de la estructura y
forma de los objetos.
La idea del enfoque morfológico es
transformar la imagen, mediante
diversos elementos estructurales, en
otra que preserve las formas esenciales
de los objetos. Facilitando así su
posterior análisis e interpretación.
La morfología matemática nació en
los años sesenta en Francia. George
Matheron estudiaba la relación
entre la geometría de los medios
porosos y sus permeabilidades. A
su vez, Jean Serra cuantificaba la
petrografía de los minerales de
hierro. A partir de estos estudios se
construyeron las bases teóricas
para el análisis morfológico de las
imágenes binarias.
★ La Morfología Matemática en imágenes, describe
un conjunto de técnicas que tratan con la forma
( morfología) de las características de la imagen.
★ Las operaciones morfológicas, son aplicadas para
reducir las imperfecciones que aparecen luego de la
segmentación.
★ Los filtros morfológicos, tienen efectos sobre las
estructuras de la imagen.
El procesamiento morfológico de
imágenes es muy similar al filtrado
espacial. El elemento estructural
recorre cada píxel de la imagen
original para obtener el de la imagen
procesada. El valor de este píxel
nuevo depende de la operación
ejecutada. Hay varias operaciones
morfológicas básicas. Sin embargo,
las de mayor interés en imágenes
son la erosión y la dilatación.
Repasemos...
Teoría básica de conjuntos:
● Unión A∪B
● Intersección A∩B
● Complemento (A)c
● Diferencia A-B
Reflexión
La Reflexión de B se define
de la siguiente manera:
Traslación
La traslación de A por z se
define de la siguiente
manera:
Operaciones Lógicas
Operaciones lógicas entre
imágenes binarias: aquí el negro
representa el uno y blanco el cero.
Los filtros morfológicos se especifican mediante la definición
de dos aspectos: la operación que desempeñan y su
correspondiente estructura de referencia. El tamaño y la forma
de la estructura son dependientes de la aplicación.
El elemento de estructura puede tener “cualquier” forma y
tamaño. Por simplicidad vamos a usar estructuras
rectangulares con origen en el punto central de la estructura.
Fit: Todos los píxeles con valor 1

en el elemento estructural cubren
un área en el imagen también con
valores 1 (área segmentada).
Hit: Cualquier píxel con valor 1 del
elemento estructural cubre al
menos un elemento con el mismo
valor en la imagen.
Todos los procedimientos morfológicos son basados en estas
ideas simples.
Dilatación
La dilatación, es una operación
morfológica correspondiente a la
idea de crecimiento, ó de
“añadir” una capa de pixeles a
una imagen. Este proceso puede
ser interpretado como el
resultado de añadir a los pixeles
con valor 1, la forma
correspondiente a la estructura
de referencia.
Dilatación
Dilatación de una imagen A por
un elemento estructural B, está
definida por la operación A⊕B.
El elemento estructural B es
posicionado con su píxel central
sobre el pixel (x,y) de la imagen a
procesar, y el valor del pixel nuevo
se determinará acorde a la regla:
la salida tendrá valor 1 si B hits A
y 0 en el caso contrario.
Dilatación
Formalmente la dilatación
está formada por todos los
elementos x, tal que A y B
( reflejado y desplazado) al
menos se superpongan en un
punto. Al conjunto B se lo
llama elemento estructural.
Erosión
La erosión, es una operación
morfológica correspondiente a la
idea de reducción, ó de “quitar”
una capa de pixeles a una imagen.
Este proceso puede ser
interpretado como que si un píxel,
resultado de la erosión, es 1, la
estructura de referencia centrada
en ese pixel coincide en forma con
el contenido de la imagen.
Erosión
Erosión de una imagen A por un
elemento estructural B, está dada
por AΘB.
El elemento estructural B es
posicionado con su píxel central
sobre el pixel (x,y) de la imagen a
procesar, y el valor del pixel
nuevo se determina acorde a la
regla: la salida tendrá valor 1 si B
fits A y 0 en cualquier otro caso.
Erosión
Formalmente, la erosión de A
por B es el conjunto de todos
los elementos de x, tal que B
trasladado en x está
contenido en A.
★ La DILATACIÓN expande una imagen, mientras que la
EROSIÓN la reduce.
★ Sin embargo, la EROSIÓN no es lo inverso de la
DILATACIÓN.
★ EROSIÓN y DILATACIÓN son operaciones duales:
★ El complemento de una EROSIÓN es lo mismo que una

DILATACIÓN del complemento de la imagen por el
elemento estructural reflejado.
Existen otras operaciones morfológicas de interés que pueden
llevarse a cabo combinando los procesos de erosión y
dilatación. Las operaciones combinadas más utilizadas son:
★ Opening (Apertura)
★ Closing (Cierre)
★ Skeletons (Esqueletización)
Apertura (Opening)
La apertura de una imagen A

por un elemento estructural
B, simbolizado A○B es
simplemente una erosión
seguida por una dilatación.
Apertura (Opening)
Una apertura produce en su primera parte (erosión), para
que todos los píxeles de la imagen en 1, que sean más
pequeños que la estructura de referencia, sean eliminados.
Las estructuras que permanezcan en la imagen serán, a
través de la dilatación, suavizadas y aumentadas
aproximadamente igual a su tamaño original.
Apertura (Opening)
Cierre (Closing)
El cierre (closing) de una
imagen A por un elemento
estructural B, simbolizado A•B
es simplemente una dilatación
seguida por una erosión.
Cierre (Closing)
La operación de cierre, o cerramiento , también tiende a
suavizar contornos, pero a diferencia de la anterior, une
cortes en partes angostas , en golfos largos y finos, elimina
pequeños huecos y llena baches en los contornos.
Cierre (Closing)
Esqueletización
La esqueletización, pretende obtener de la imagen un patrón
continuo que contenga la menor cantidad de datos posibles,
pero que siga aun conteniendo un rastro del objeto original.
Para ello es necesario contar con técnicas adecuadas que nos
faciliten el poder reducir los datos de los objetos.
Esqueletización
Para ello existen algoritmos que operan de manera general
eliminando los píxeles bajo reglas pre definidas, y
deteniéndose cuando no haya más cambios que hacer.
Obtener el esqueleto de una imagen significará encontrar
un patrón, a partir de la forma del objeto, el cual contendrá
menor datos, pero conservará la continuidad y la menor
cantidad de píxeles posible. Obtener un esqueleto, es un
proceso iterativo.
Esqueletización
En otras palabras, después que los
píxeles hayan sido quitados, el patrón
debe ser reconocido. El esqueleto
obtenido debe tener las siguientes tres
propiedades.
1) Tan delgado como sea posible
2) Conectado
3) Centrado
Cuando estas características son
alcanzadas el algoritmo debe detenerse.
Esqueletización
Otra manera de pensar sobre los esqueletos, es como
el lugar donde convergen los centros de círculos bi
tangenciales que entran de manera completa dentro
de la región considerada.
TrasformadaHit-or-Miss
La transformación hit-or-miss se define de la siguiente
manera:
Debido a la definición formal de diferencia de conjuntos y la

relación dual que existe entre EROSIÓN y DILATACIÓN,
podemos escribir la ecuación anterior como:
Siendo el elemento estructural B=(J,K) de la configuración que
queremos buscar:
● Donde la componente J es el conjunto formado por los
píxeles blancos de B
● Y la componente K el conjunto formado por los píxeles
blancos de Bc.
La esqueletización reduce una
imagen a un conjunto de líneas
conectadas, que mantienen la
geometría y topología de la
imagen original. El algoritmo de
HIT-OR-MISS, nos permite
detectar píxeles de bordes y
esquinas, eliminándolos de la
imagen binaria de entrada, para
lograr el adelgazamiento
simétrico del objeto.
Utilizando la definimos de ADELGAZAMIENTO simétrico de
A basada en una sucesión de elementos estructurales
{B}=(B1, B2,...,Bn)
donde Bi es una versión rotada de Bi-1.
Bajo este concepto definimos el ADELGAZAMIENTO de A
como sigue:
Algunas Aplicaciones
Dilatación
Erosión
Esqueletización
Métricas de Calidad
Encontrar un algoritmo de
segmentación adecuado, así
como elegir sus parámetros
internos para que sean óptimos
y acordes a la tarea a resolver,
es aún un problema. De aquí, la
necesidad de identificar las
herramientas apropiadas para
evaluar y comparar algoritmos
de segmentación.
Métricas de Calidad
Existen diversas herramientas y
técnicas, así como enfoques de
las mismas, que se pueden
utilizar a la hora de optimizar y
evaluar algoritmos. Aquí
simplemente veremos dos índices
que nos permitirán comparar la
similitud entre dos imágenes
binarias. Estos se conocen como
índice de Sørensen-Dice e índice
de Jaccard.
Índice de Jaccard
Este índice, es utilizado para medir la similitud entre dos
conjuntos A y B al dividir su intersección entre la unión
de los mismos. Bajo esta simple expresión nos permite
comparar que tan bien segmentó un algoritmo respecto
de otro.
El índice Jaccard toma valores entre 0 ( nada similar) y 1

(idéntico). Este índice resulta sencillo en su implementación,
pues implica cálculos aritméticos sobre imágenes binarias.
Índice de Jaccard
Índice de Sørensen-Dice
El índice de Sørensen-Dice, nos permite comparar la
similitud entre dos imágenes A y B, mediante la operación
que evalúa el doble de la razón entre la intersección y la
suma de los conjuntos correspondientes.
Este coeficiente, al igual que el índice de Jaccard, da resultados

en el rango [0, 1]. Este índice resulta complementario, ya que le
da mayor peso a los verdaderos positivos.
Índice de Sørensen-Dice
Biomédicas
Análisis de Texturas por Matriz de
Co-ocurrencia
¿Qué entendemos por
Análisis de Texturas?
Análisis de Texturas
Una característica importante
de las imágenes es la textura.
La textura es una propiedad
innata de todas las superficies.
Por ese motivo, cuando se
desea detectar la presencia de
un objeto, puede identificarse
por sus características de
textura.
Podemos considerar una textura como algo consistente de
elementos mutuamente relacionados. Suele llamarse téxel (texture
elements); por ejemplo, en la textura de la arena los téxel serán los
gramos que la conforman. En algunos casos existen varios niveles
de elementos texturales: las telas escocesas existe un téxtel dado
por el tejido y otro dado por los dibujos impresos en él.
La textura de una imagen es una
cuantificación de la variación
espacial de valores de tono; es
imposible definirlo precisamente
por su carácter sensorial. El uso
de la textura de una imagen
proviene de la habilidad innata de
los humanos de reconocer
diferencias texturales.
En la literatura relativa al
procesamiento de imágenes se
puede encontrar una gran
cantidad de definiciones de este
concepto. Sin embargo, podemos
pensar, en forma general, a la
textura como una función de
variación espacial en las
intensidades de los pixeles.
Existen varios métodos que
nos permiten extraer
características para clasificar y
segmentar una imagen. A
estos métodos es posible
clasificarlos en cuatro
categorías y estas a su vez
poseen sus respectivas
metodología.
La textura es una propiedad de regiones, la textura de un
punto es indefinida. Por lo tanto, es una propiedad
contextual y su definición involucra valores de gris en una
vecindad espacial. El tamaño de la vecindad depende del
tipo de textura, o el tamaño de los téxeles que la definen.
El método más comúnmente utilizado para medir
matemáticamente texturas es la matriz de co-ocurrencia de
niveles de grises, GLCM (Grey Level Co-occurrence Matrix)
basadas en estadísticas de 2do orden.
La información textural en una imagen está contenida
en la relación espacial que los tonos de grises tienen
entre ellos. Esas relaciones están especificadas por las
medidas que consideran la relación de co-ocurrencia
entre grupos de dos pixeles de la imagen original, a
una distancia dada y computadas en todas direcciones
(0°, 45°, 90° y 135°).
El histograma proporciona
información sobre los niveles de
gris de una región, pero no
indica cómo están distribuidos
en el espacio. Un ejemplo, es la
existencia de imágenes
visualmente distintas, cuyos
histogramas no muestran
ninguna diferencia.
La Matriz de co-ocurrencia considera la relación espacial
entre dos píxeles, llamados píxel de referencia y píxel
vecino. Por ejemplo, si se escoge el píxel vecino que está
situado un píxel a la derecha de cada píxel de referencia,
esto se expresa como (1,0): 1 píxel en la dirección x, 0 píxel
en la dirección y.
Se pueden utilizar diferentes relaciones entre píxeles, por
ejemplo: (-1,0) un píxel a la izquierda del píxel de referencia,
(1,1) un píxel a la derecha y un píxel abajo (en diagonal). En
general se utilizan las combinaciones que dan lugar a las
cuatro orientaciones principales:
● (1,0) orientación horizontal 0º
● (0,-1) orientación vertical 90º
● (1,1) orientación diagonal hacia arriba 45º
● (1,-1) orientación diagonal hacia abajo 135º
¿Pero cómo construimos la matriz de co-ocurrencia? Si se
representa una imagen prueba, donde los valores
corresponden a sus niveles de grises. La imagen tiene 4
pixeles de lado y 4 niveles de grises: 0, 1, 2 y 3.
Supongamos que recorremos la imagen de prueba en la
dirección (0,1), las posibles combinaciones de niveles de grises
serían:
La primera celda deberá contener la cantidad de veces que
ocurre la combinación 0,0. Cuántas veces, a través del área
de la imagen, un píxel con valor de gris igual a 0 ( píxel
vecino), está situado a la derecha de otro píxel con valor 0
( píxel de referencia).
Existen, por lo tanto
diferentes matrices de
co-ocurrencia para cada
relación espacial, según se
considere el vecino de arriba,
al costado o en diagonal.
En la matriz obtenida, se cuenta
cada píxel de referencia con su
vecino a la derecha. Si el cálculo se
realiza solo de este modo, usando
una única dirección, el número de
veces que aparece la combinación
(2,3) es distinto que el de (3,2) y,
por lo tanto, la matriz no es
simétrica respecto de la diagonal.
Sin embargo, la simetría es
necesaria para el cálculo. Ésto
se logra si cada par de píxeles
se cuentan dos veces: una vez
a la derecha y otra vez a la
izquierda. Para obtener una
matriz simétrica la forma más
sencilla es sumarle su matriz
traspuesta.
Una vez obtenida la matriz simétrica, el paso siguiente es
expresar esta matriz como: el número de veces que un
evento ocurre, dividido por el número total de posibles
eventos.
Donde:
★ i es el número de filas y j el número de columnas
★ V es el valor de la celda (i,,j) en la ventana
★ Ci,j es la probabilidad en la celda i,j
★ N es el número de filas o columnas
Considerando la imagen de
prueba de 4 x 4 píxeles, y la
relación (1,0), el número total de
posibles pares es de 12; y para
una relación horizontal (derecha
más izquierda) ese número se
duplica (24).
De esta manera colocando los
valores de probabilidad
normalizamos la matriz.
Aplicando la ecuación a la matriz
simétrica se obtiene el resultado,
donde el sumatorio de todos los
elementos debe ser igual a 1.
Pues, como dijimos, debemos
0,25+0,166x2+0,083x3+0,042x4=1
normalizarla.
Algunos aspectos a resaltar:
1. Los elementos de la diagonal representan pares de
píxeles que no tienen diferencias en su nivel de gris. Si estos
elementos tienen probabilidades grandes, entonces la
imagen no muestra mucho contraste, la mayoría de los
píxeles son idénticos a sus vecinos.
2. Sumando los valores de la diagonal tenemos la
probabilidad que un píxel tenga el mismo nivel de gris que su
vecino.
3. Las líneas paralelas a la diagonal separadas una celda,
representan los pares de píxeles con una diferencia de 1 nivel
de gris. De la misma manera sumando los elementos
separados dos celdas de la diagonal, tenemos los pares de
píxeles con dos valores de grises de diferencia, y así
sucesivamente.
4. Sumando los valores de estas diagonales paralelas
obtenemos la probabilidad que un píxel tenga 1, 2, 3...
niveles de grises de diferencia con su vecino.
Las principales propiedades de la matriz:
★ Cuadrada: El rango de los niveles de gris de los píxeles de
referencia y el de los vecinos es el mismo.
★ Tiene el mismo número de filas y columnas que el número
de bits de la imagen.
★ Es simétrica con respecto a la diagonal: significa que los
mismos valores ocurren en las celdas opuestas a la
diagonal.
Las funciones GLCM caracterizan la textura de
una imagen calculando la frecuencia con la que
se producen pares de píxeles con valores
específicos y en una relación espacial
especificada en una imagen. Creando un GLCM y,
a continuación, extrayendo medidas estadísticas
de esta matriz.
El cálculo de las métricas (features) de co-ocurrencia se basa
en la matrix GLCM de niveles de gris. La misma, es calculada
para cada vecindad de un píxel. Si llamamos g(i,j) al
elemento (i,j) de la matriz de co-ocurrencia de niveles de
gris. Podemos definir los siguientes atributos basados en
esta matriz
La matriz de co-ocurrencia describe la frecuencia de un nivel
de gris que aparece en una relación espacial específica con
otro valor de gris, dentro del área de una ventana
determinada. Es un resumen de la forma en que los valores
de los pixeles ocurren al lado de otro en una pequeña
ventana.
Respecto del tamaño de la
ventana, esta debe ser cuadrada
y con número impar de píxeles. El
resultado del cálculo de la textura
es un único número que
representa la ventana completa,
el cual es colocado en el lugar del
píxel central.
Luego, la ventana se mueve un píxel y el cálculo se repite
calculando una nueva matriz de co-ocurrencia para esta
nueva ventana; resultando un nuevo valor, para el píxel
central, de esta nueva posición de la ventana. De este modo
se construye toda una nueva imagen con valores de
texturas.
Cada pixel en la ventana se va
convirtiendo sucesivamente en el
pixel de referencia. Empezando por
el ubicado arriba a la izquierda y
finalizando abajo a la derecha. Los
píxeles ubicados en el margen
derecho de la imagen original, no
tienen vecino a la derecha, por lo
tanto, no son usados en el cómputo.
El tamaño relativo de la ventana y de los objetos en la
imagen determinan la utilidad de ésta medida para la
clasificación. Es recomendable que la ventana sea menor
que el objeto y lo suficientemente grande como para
capturar la variabilidad del mismo. El mejor tamaño de la
ventana se podrá estimar inspeccionando visualmente la
imagen.
μ y σ son la media y desvío estándar de la
suma de una fila (o columna, debido a la
simetría)
La Energía mide la uniformidad local. Mientras
más alto es el valor, más uniforme es la textura.
La Entropía mide el nevel de organización de
una textura. Si es completamente aleatoria, va a
tener una muy alta entropía.
La Correlación mide la dependencia lineal de los
valores de gris en la matriz de co-ocurrencia.
Momento de diferencia inversa (IDM) mide
homogeneidad de la imagen. Valores bajos para
imágenes poco homogéneas y altos para
imágenes homogéneas.
El Contraste mide la variación local de niveles de
gris en la matriz. Si los píxeles vecinos son muy
similares, el contraste es bajo.
Cluster Shade se cree que mide la uniformidad
percibida de la textura. Un valor alto significa
que hay asimetría en la textura.
Cluster Prominence métrica relacionada a la
simetría perceptual de la textura. Si el valor es
alto, la textura es menos simétrica.
Correlación de Haralick es la correlación original
diseñada por Haralick in 1973, y mide la
dependencia lineal de los píxeles entre sí.
Los atributos basados en
la matriz de
co-ocurrencia calculados
se asignan al punto
central de la ventana de
análisis. Este
procedimiento se repite
para todos los puntos.
Biomédicas
Compresión y Transmisión de
Imágenes: Método de Compresión Con
y Sin Pérdida, DICOM, PACS.
¿Porqué que deseamos
comprimir una
imagenes?
Datos vs Información
En la actualidad, nos
encontramos bombardeados
por los términos datos e
información, empleados de
manera casi indistinta. Pero, en
realidad, si bien ambos
conceptos están en cierta
forma relacionados, debe
distinguirse conceptualmente
el uno de otro e interpretarse
de manera diferente.
Dato se denomina a el componente mínima de una
información mayor. Necesario para llegar al conocimiento
exacto de una cosa o hecho, que describe objetos o
situaciones. En cambio, información es el conjunto de datos
procesados en forma significativa, ordenados y con una
secuencia lógica sobre alguna escena de importancia.
A medida que tenemos más información, más datos se
requerirán para representarla. Sin embargo, una misma
información puede ser representada con diferentes
cantidades de datos, por lo tanto algunas representaciones
de la misma información contienen datos redundantes.
Compresión de Datos
La compresión se define como el proceso de reducir la
cantidad de datos necesarios para representar de manera
eficaz una información. Es decir, el proceso llevado a cabo
para eliminar datos redundantes.
La compresión permite:
★ Aumentar la capacidad de almacenamiento de los
dispositivos.
★ Transmitir en menos tiempo información por un canal.
Compresión de Datos
En el caso de las imágenes, existen
tres formas de reducir el número de
datos redundantes:
❖ Eliminar código redundante.
❖ Eliminar píxeles redundantes.
❖ Eliminar redundancia visual.

Código Redundante
El código de una imagen representa
el cuerpo de la información
mediante un conjunto de símbolos
(valor y secuencia de bit, números
binarios que representan la
imagen). La eliminación de código
redundante consiste en utilizar el
menor número de símbolos para
representar la información.
Píxeles Redundante
La mayoría de las imágenes poseen cierta semejanza o
correlación entre sus píxeles. Estas correlaciones se deben a
la existencia de estructuras similares dentro de una escena,
puesto que no son completamente aleatorias . De esta
manera el valor de un píxel puede emplearse para predecir el
de sus vecinos.
Redundancia Visual
El ojo humano responde con diferente sensibilidad a la
información visual. La información a la que es menos
sensible puede eliminarse de la imagen sin afectar a la
percepción de la misma. Se suprime así lo que se conoce
como redundancia visual.
Métodos de Compresión
Formalmente existen dos métodos de compresión de
imágenes:
A. Compresión Sin Pérdida de Información,

LOSSLESS.
B. Compresión Con Pérdida de Información,

LOSSY.
Métodos de Compresión
Métodos CSP
Este método permite recuperar
exactamente la calidad original de la
imagen. Así, es utilizado para
comprimir información que no puede
ser degradada. Se basa en conceptos
de la teoría de la información, como
la redundancia y entropía de los
datos. Generalmente se implementa
bajo uno o dos tipos de modelos
diferentes: el estadísticos y el basado
en diccionario.
Métodos CSP
Se denomina algoritmo de
compresión sin pérdida a
cualquier procedimiento de
recodificación de datos que
tenga como principal objetivo
representar cierta cantidad de
información utilizando un
espacio menor, permitiendo
siempre la posibilidad de lograr
la reconstrucción exacta de los
datos originales.
Métodos CSP
La compresión sin pérdidas
engloba a aquellas técnicas que
garanticen generar un duplicado
exacto del flujo de datos de
entrada después de un ciclo de
compresión-expansión. Por esta
razón es utilizada para
comprimir archivos que
contienen datos que no pueden
ser degradados o perdidos.
Métodos CSP
Los métodos CSP se caracterizan
porque la tasa de compresión
que proporcionan está limitada
por la entropía de la señal
original. Por esto, entre estas
técnicas, se destacan las que
emplean métodos estadísticos
basados en la teoría de Shannon.
Métodos CSP
Métodos CSP
Estos métodos, se distinguen según si tienen, o no, en
cuenta las características de la imagen a comprimir:
● Estáticos o No-Adaptativos
● Semi-Estáticos o Semi-Adaptativos
● Adaptativos o Dinámicos
Métodos CSP
● Estáticos o No-Adaptativos: fijo, conocido por
codificador y decodificador (universal).
(+) Requiere una única pasada por los datos para
codificar.
(-) La distribución de probabilidades (fija) puede diferir
de los datos a codificar.
(+) No se debe transmitir/almacenar la distrib. de prob. al
decodificador.
Métodos CSP
● Semi-Estáticos o Semi-Adaptativos: es fijo también, pero
se construye a partir de los datos a comprimir.
(-) Requiere dos pasadas por los datos: una arma la
tabla, y otra codifica.
(+) La distribución de probabilidades se ajusta a los
datos a comprimir.
(-) Se debe transmitir/almacenar la distrib. de prob. al
decodificador.
Métodos CSP
● Adaptativos o Dinámicos: el modelo se actualiza durante
el proceso.
(+) Requiere una única pasada por los datos para
codificar.
(+) La distribución de probabilidades se va ajustando a
los datos al procesar.
(+) No se debe transmitir/almacenar la distrib. de prob. al
decodificador.
(-) Algoritmos más complejos, de mayor costo
computacional.
Métodos CSP
Métodos CSP
Vamos a ver dos técnicas CSP que se suelen utilizar para
comprimir imágenes.
I. La codificación Huffman que elimina redundancia de

código.
II. La codificación RLE (de las siglas en inglés

Run-Length-Encoding) utilizada para eliminar
redundancia de píxeles.
Codificación Huffman
La codificación Huffman es un método estadístico
usado para compresión de datos. Para ello se
construye una tabla de códigos de longitud variable
para codificar un determinado símbolo (como puede
ser un carácter en un archivo). La tabla es elaborada
de una manera específica basándose en la
probabilidad estimada de aparición de cada posible
valor del símbolo.
Fue desarrollado por David A.
Huffman en 1952. Pueden
aplicarse de modo estáticos o
semi-estáticos. Los compresores
de uso general más populares
utilizan este método; debido a
esto, es que invierten más tiempo
en empaquetar los datos que en
descomprimirlos.
I. Contar cuantas veces aparece cada caracter.
II. Crear una lista enlazada con la información de

caracteres y frecuencias.
III. Ordenar la lista de menor a mayor según las

frecuencias encontradas.
IV. Convertir cada elemento de la lista en un árbol.

V. Fusionar todos los árboles en uno único. Para ello se deben seguir
los siguientes pasos. Siempre que la lista de árboles contenga más de
un elemento:
A. Con los primeros dos árboles formar uno nuevo, donde
cada uno de los anteriores sea una rama.
B. Sumar las frecuencias de cada rama en el nuevo elemento
árbol.
C. Insertar el nuevo árbol en el lugar adecuado de la lista,
según su frecuencia correspondiente.
VI. Finalmente se asigna el nuevo código de cada caracter siguiendo en
camino adecuado de la rama del árbol final: si se toma una rama cuyo
valor es cero,se añade un cero al código, si se toma por una rama uno,
se añade un uno.
Codificación RLE
La compresión RLE (Run-Length Encoding) es el método
estadístico adaptativo más simple. Es una forma de
compresión de datos en la que secuencias de datos, con el
mismo valor, consecutivas son almacenadas como un único
valor más su recuento (frecuencia). Es decir, que consiste en
sustituir series de valores repetidos por una clave con
indicador numérico.
Codificación RLE
Este tipo de compresión no es
eficaz para todas las imágenes.
Observemos el ejemplo de la
figura. Ambas imágenes tienen
25 valores, pero mientras la
primera se puede reducir a 10
datos; la segunda no solo no se
reducen, sino que se duplican. En
general, el método es adecuado
para imágenes con zonas amplias
de valores uniformes.
Métodos CCP
Los algoritmos de compresión con
pérdida CCP, hacen referencia a
cualquier procedimiento de
recodificación que tengan como
principal objetivo representar una
cantidad de información utilizando
una menor cantidad de datos. Donde
parte de esta información se pierde
y, por consiguiente, es imposible una
reconstrucción exacta de los datos
originales.
Métodos CCP
Esto es porque, en lugar de guardar una copia exacta, solo se
guarda una aproximación. Esta aproximación se aprovecha de
las limitaciones de la percepción humana para esconder la
distorsión introducida. Los métodos CCP logran alcanzar
unas tasas de compresión más elevadas a costa de sufrir una
pérdida de información sobre la imagen original.
Compresión JPEG
El JPEG (Joint Photographic Experts Group) es el método
de compresión más utilizado actualmente para la
compresión de imágenes con pérdida de información. Para
este método utilizamos la Transformada Discreta del
Coseno (DCT) calculada empleando números enteros para
facilitar la velocidad de cómputo.
Compresión JPEG
La compresión de imágenes mediante esta metodología
consta de cinco pasos fundamentales.
1) Transformación del espacio de color.
2) Subdivisión de la imagen en bloques.
3) Transformada Discreta del Coseno.
4) Cuantización o Cuantificación.
5) Codificación.
Compresión JPEG
Compresión JPEG
1- Transformación del espacio de
color.
Se convierte la imagen RGB a YUV,
donde Y es espacio de luminancia,
U y V espacio de crominancia.
Luego de este proceso se puede realizar un

paso opcional de submuestreo de la
imágenes: Como la visión humana tiene
menor sensibilidad a la crominancia que a
la luminancia, se puede muestrear con
menor frecuencia los canales U y V.
Compresión JPEG
Compresión JPEG
2- Subdivisión de la imagen en bloques.
La imagen de entrada es dividida en bloques de NxN
píxeles. El tamaño del bloque se escoge considerando los
requisitos de compresión y calidad de la imagen.
En general un tamaño de bloque muy utilizado es de 8x8
píxeles.
Compresión JPEG
3- Transformada Discreta del
Coseno (DCT).
Se procesa cada bloque de forma

independiente. En primer lugar se
le resta 128 a cada pixel para
obtener valores alrededor de cero
entre -128 y 127 y luego se aplica
la transformada.
Compresión JPEG
Trans. de Coseno DCT
Es una caso particular de la transformada de fourier. Utiliza
solo la parte real de dicha transformada. Aquí se muestra la
expresión de la DCT y su inversa en dos dimensiones.
Trans. de Coseno DCT
La transformada de
Cosenos puede
interpretarse como la
proyección de la imagen
sobre cada una de las
imágenes base.
Para una matriz de 8x8 las
imágenes bases se
representan por la figura.
Compresión JPEG
4- Cuantización o Cuantificación.
Los coeficientes de la transformada son cuantificados en
base a un nivel umbral para obtener el mayor números de
ceros posibles. Para la cuantización se utiliza una matriz de
normalización estándar, y se redondean los resultados a
números enteros.
Compresión JPEG
El ojo es muy bueno detectando
pequeños cambios de brillo en
áreas relativamente grandes.
Sin embargo, no es lo hace tan
bien cuando el brillo cambia
rápidamente en áreas pequeñas
(variación de alta frecuencia).
Esto situación permite eliminar
altas frecuencias sin perder en
exceso la calidad visual de la
imagen comprimida.
Compresión JPEG
Este es el paso donde se
produce la pérdida de
información de la imagen
original. La compresión JPEG
es un método de eliminación
de redundancia visual.
Finalmente se procede a
reordenar en zig-zag la matriz
de coeficientes cuantizados.
Compresión JPEG
Compresión JPEG
5- Codificación.
Codificando con longitud variable los coeficientes, la

imagen se puede comprimir aún más. El codificador más
utilizado es el algoritmo de Huffman, ya que es fácil de
implementar. Este método crea, como se vio
anteriormente, códigos más cortos para símbolos que se
repiten con frecuencia y más largos para aquellos que
ocurren con una frecuencia menor.
Compresión JPEG
DICOM
La creciente digitalización en el
diagnóstico por imagen, y la
necesidad de comunicaciones
médicas, ha manifestado la
necesidad de estandarizar
protocolos de comunicación y
formatos de la información
dentro de los servicios sanitarios.
El estándar más exitosos hasta la
fecha es DICOM (siglas de Digital
Imaging and Communications in
Medicine).
DICOM
DICOM es un protocolo estándar
de comunicación entre sistemas
de información y a la vez un
formato de almacenamiento de
imágenes médicas que aparece
como solución a los problemas
de interoperabilidad entre tipos
de dispositivos.
Una imagen médica por sí
misma no aporta suficiente
información.
DICOM
Para que una imagen diagnóstica
sea correctamente interpretada es
necesario que vaya acompañada
de datos del paciente y de la
adquisición utilizada en el proceso.
Por eso formatos tradicionales
como él .jpeg o el .png se quedan
cortos. Los ficheros DICOM
consisten en una cabecera con
campos estandarizados y de
forma libre, y un cuerpo con datos
de imagen.
DICOM
Un objeto DICOM simple puede
contener solamente una imagen,
pero esta imagen puede tener
múltiples "fotogramas" (frames),
permitiendo el almacenamiento
de bloques de datos con varios
fotogramas. Los datos de imagen
puede estar comprimidos usando
gran variedad de estándares,
incluidos JPEG, JPEG Lossless,
JPEG 2000 y Run-length
encoding (RLE).
DICOM
El formato DICOM cuenta con un DataSet (conjunto de
datos), formado por varios Data Elements (Elementos de
Información). El DataSet consiste de un par SOP
(Service-Object-Pair), estos pares relacionan una IOD
(Information-Object-Definition) formados por la imagen y
su información asociada ( representación lógica de objetos
del mundo real) y un DIMSE (DICOM-Service-Elements)
operaciones que pueden realizarse sobre un objeto.
DICOM
Un IOD se compone de IEs
(Entidades de información).
Hay IE de paciente, de
estudio, de serie, de equipo,
de imagen. A su vez se
componen de uno o varios
módulos que a su vez se
contienen varios atributos. Un
atributo se define con
nombre, etiqueta, tipo y
descripción.
DICOM
Un archivo DICOM contiene:
● la información de una o varias imágenes.
● la información del contexto en el que se ha tomado la
imagen.
Tiene una estructura organizada por etiquetas (tags) donde
cada una representa un dato dististinto. Un tag está formado
por dos identificadores, el grupo y el elemento. El
identificador de grupo nos indica a qué grupo pertenece el
dato y el identificador de elemento a qué elemento dentro
del grupo.
DICOM
En el contexto podemos encontrarnos con:
➔ Datos del paciente ( nombre, apellidos, edad,...)
➔ Datos del médico que manda la prueba, del centro médico,
de la prueba médica a la que corresponde la imagen.
➔ Datos de la máquina que ha realizado la toma ( parámetros
de configuración de la máquina, como por ejemplo: la
posición del paciente en cada toma, número de tomas
realizadas, separación entre cada imagen, dimensiones).
DICOM
En resumen el formato DICOM se
usa para almacenar información
médica (imagen y contexto de la
toma) y está pensado para poder
trabajar en red, facilitando la
comunicación entre dispositivos.
Así los estudios podrán ser
centralizados en sistemas como el
PACS. Esta centralización de los
estudios médicos facilita la
disponibilidad de los mismos y se
hace posible la teleasistencia.
PACS
A pesar de que algunas
implementaciones son un
poco caras y complejas,
insertar sistemas como el
PACS en hospitales y clínicas
brinda desde beneficios
económicos hasta más
seguridad para el sector.
PACS
La sigla PACS (Picture Archiving and
Communication System) significa
sistema para archivo comunicación
de imágenes. Su función primordial
es almacenar imágenes y facilitar la
comunicación entre los sectores de
hospitales y clínicas. Un sistema
ideal debe atender todo el flujo de
imagen, desde la adquisición del
examen, hasta el diagnóstico,
proceso de informe y monitoreo.
PACS
Los sistemas se han desarrollado como respuesta
tecnológica al difícil manejo de la creciente cantidad de
información que proviene de los distintos métodos de
diagnóstico por imagen. Los resultados obtenidos,
demuestran que los sistemas aportan ventajas funcionales, a
nivel de archivo y recuperación de imágenes. Del volumen de
datos el PACS manipula tanto imágenes que se utilizan para
el diagnóstico, como la base de datos del paciente.
PACS
Los objetivos de un PACS son:
● Captura
● Gestión
● Transmisión
● Exhibición de imágenes
médicas.
PACS
Sus componentes son:
● Interfaces para los equipos de imagenología, tales como:
Acelerador Lineal (LINAC), Tomografía Computada ó
Tomógrafo (TAC), Resonancia Magnética (RM), Ultrasonido
(US), Mamografía, Medicina Nuclear (MN), entre otros
● Redes de comunicación
● Sistemas de archivo
● Estaciones de trabajo para la presentación y visualización de
imágenes.
● Software para la administración de base de datos.
PACS
El sistema PACS actúa en conjunto con los Sistemas de
Información Radiológica (RIS) y Sistemas de Información
Hospitalaria (HIS). El RIS tiene datos sobre el seguimiento de
exámenes que son útiles al PACS. El HIS comúnmente
administra las operaciones del hospital y los datos demográficos
del paciente. Los hospitales ingresan y almacenan los datos del
paciente, utilizando el respectivo HIS. Las solicitudes del área de
imagenología y los datos de paciente relativos a radiología
utilizan el RIS.
PACS
HIS/RIS utilizan distintos
servidores, protocolos y
estructuración de los datos que el
sistema PACS. Para que el PACS
pueda acceder a los datos del
paciente y asociarlo con las
imágenes de éste, es necesario
que exista una computadora que
pueda comunicarse con ambos
sistemas. Esta es llamada
gateway HIS/RIS o PACS broker.
Biomédicas
Registración I: Generalidades,
Transformaciones Geométricas,
Distancia Media Cuadrada, ICP.
¿Qué entendemos por
Registro o Registración
de imágenes?
Registración
El registro, o registración, es una
tarea fundamental en el
procesamiento de imágenes. Se
utiliza para unir dos, o más,
imágenes tomadas en diferentes
capturas: en momentos distintos,
o desde diferentes sensores, o
puntos de vista.
Registración
Estas diferencias en la
captura dan lugar a
imágenes con importantes
diferencias geométricas
relativas que impiden que
éstas “encajen” con precisión
unas sobre otras.
Registración
En la práctica clínica, y en
investigación, es cada vez
más habitual realizar
diferentes estudios al mismo
paciente o espécimen; ya
sea, empleando distintas
modalidades, o con la misma
modalidad a lo largo del
tiempo.
Registración
Para combinar la información de los diferentes
estudios es necesario corregir las diferencias de
tamaño, posicionamiento, orientación o incluso
distorsión espacial entre ellos. Al proceso de
establecer la concordancia espacial punto a punto
entre las diferentes imágenes, de manera que sea
posible la comparación directa entre ellas, se le
denomina registro.
Registración
El registro elimina estas
diferencias geométricas de
forma que píxeles situados en
las mismas coordenadas se
correspondan con el mismo
punto del objeto y, por tanto,
ambas imágenes se puedan
comparar o integrar fácilmente.
Registración
El registro de imágenes es esencial en disciplinas como la
teledetección, radiología, visión robótica, etc.; en todos
estos campos se superponen imágenes para estudiar
fenómenos medioambientales, monitorear tumores y
patologías, o para reconstruir la escena observada.
Registración
En este proceso, una de las
imágenes, denominada imagen
de referencia o fija, permanece
sin modificar, mientras que la
otra, imagen de entrada,
detectada o móvil, se transforma
geométricamente hasta que se
ajusta a la de referencia.
Registración
Matemáticamente dado un punto X=(x, y) ∊ R2 que se proyecta
en los planos imagen de dos cámaras en las coordenadas
x=(x,y) ∊ Ω x’=(x’,y’) ∊ Ω’, respectivamente. Se define la función
biyectiva f que relaciona geométricamente las coordenadas x y
x’ según la siguiente ecuación general:
donde fx y fy son las funciones de

transformación en x e y, respectivamente.
Registración
Consecuentemente, el registro de imágenes consiste en
determinar el tipo y parámetros de la función f que superpone
x’ sobre x. Es decir, que se debe encontrar una transformación
que permita que los puntos en una imagen se puedan
relacionar con sus puntos correspondientes en la otra.
Registración
Supongamos que tenemos I(x,y) como la imagen de
referencia, y a I’(x’,y’) la de entrada. Consideremos
también una función r de interpolación y una medida s de
consistencia del registro. El proceso de registro se aborda
típicamente en cuatro pasos.
Registración
1. Extracción de elementos distintivos de las imágenes y
correspondencias entre ellos.
2. A partir de la correspondencias, se determinan los
parámetros de la función de transformación f.
3. Se transforman las coordenadas de la imagen de entrada y
se transfieren los valores de intensidad mediante la
función de interpolación r.
4. Este proceso se repite iterativamente hasta que la medida
de similitud s alcanza un valor dado t.
Registración
Bases del Registro
Las bases del registro son aquellos elementos utilizados
para establecer la relación geométrica entre las imágenes.
Dependiendo de las bases utilizadas, las métodos de
estimación se pueden agrupar en tres categorías.
Bases del Registro
Basados en puntos: Los parámetros de la función de
transformación se determinan a partir de un conjunto de
correspondencias {(xi,x’i),i=1,...,n}, llamados puntos de control,
identificadas en ambas imágenes.
donde α son los parámetros de f y {(xj,x’j),j=1,...,m},

con m≤n.
Bases del Registro
Basados en intensidad: Los parámetros de la función de
transformación se obtienen de un proceso de optimización
consistente en maximizar cierta medida de similitud de
intensidad. Formalmente, se resuelve la siguiente expresión.
donde i=1,...,N, siendo N el número de píxeles de la

imagen de referencia y s una medida de similitud.
Bases del Registro
Basados en segmentación: tratan de alinear de forma
rígida o deformable estructuras binarias (curvas,
superficies o volúmenes) obtenidas por segmentación.
Debido a la reducción de información, estos métodos
son más rápidos que los métodos que utilizan la imagen
completa. La desventaja radica en que el éxito del
registro depende en gran medida de la exactitud del
preprocesado previo de segmentación.
Trans. Geométricas
Aplicar una transformación
geométrica a una imagen
consiste en modificar las
coordenadas de sus píxeles.
La función de transformación
determina la relación
geométrica entre los píxeles
de ambas imágenes.
Trans. Geométricas
De esta forma, cada punto se
traslada a una nueva
coordenada, y la geometría de la
imagen original queda
modificada. La transformación
que resulte adecuada dependerá
del tipo de problema que se
trate de resolver, con sus
restricciones particulares.
Trans. Rígidas
Transformaciones Rígidas o
Inelásticas: son aquéllas en
las que se traslada y rota la
imagen original, conservando
todas las distancias.
Transformaciones que
aseguran la invarianza de las
rectas.
Trans. No-Rígidas
Transformaciones no- rígidas
o elásticas: al contrario que
todas las anteriores, este tipo
de transformaciones no son
lineales, y permiten deformar
elásticamente una imagen
para que se parezca a la
imagen de referencia.
Trans. Geométricas
Para representar las transformaciones
matricialmente, podemos usar coordenadas
proyectadas u homogeneas. Esto significa
representar un vector de dos dimensiones
(x,y) como un vector de tres dimensiones
(x,y,w) y de forma análoga para dimensiones
superiores. Usando esta notación, cualquier
transformación se puede expresar como una
multiplicación de matrices:
Traslación
Una traslación se descompone en dos
movimientos simples: horizontal y
vertical. En el primero movemos en la
dirección del eje x, y en el segundo en
la dirección del eje y. Para mover un
vector en cualquier dirección se
adicionan dos constantes, a y b, a su
primera y segunda componente,
respectivamente.
Rotación
Análogamente para la
rotación debemos usar una
matriz expresada en términos
de senos y cosenos. El
argumento de estas razones
trigonometrias será el ángulo
de rotación. Así podemos
rotar una imagen alrededor de
su origen de coordenadas.
Rotación
Si desearamos rotar la imagen
alrededor de su centro,
primeramente tenemos que
trasladar la imagen de tal forma
que su centro coincida con el
origen de coordenadas, luego
rotar la imagen, y finalmente
trasladarla nuevamente a su
posición original.
Rotación
Consistencia del Registro
La medida de consistencia del
registro cuantifica cuán bien se
superponen la imagen registrada
y la imagen de referencia. Para
ello se puede utilizar una amplia
variedad de métricas, las cuales
también se pueden agrupar
atendiendo a las bases utilizadas
anteriormente.
Basadas en Puntos: La precisión del registro se
determina a partir de los errores geométricos de
ajuste (distancia) de un conjunto de
correspondencias identificadas en las dos
imágenes. Una transformación inadecuada
conlleva importantes desajustes, y viceversa.
Basadas en intensidad: Este tipo de medidas, a diferencia
de las anteriores, cuantifican la precisión del registro
comparando el contenido de las dos imágenes. Existen
tantas posibilidades para ello como enfoques para
evaluar la similitud de dos series numéricas de datos
como, por ejemplo, el coeficiente de correlación de
Pearson, la información mutua (MI), el análisis de
componentes principales (PCA), etc.
Función Interpolación
En la mayoría de las ocasiones, el
resultado de transformar
geométricamente las coordenadas
de un píxel no es un par de
coordenadas discretas, es decir, las
coordenadas transformadas no
coinciden con un píxel. Se requiere,
por tanto, una función de
interpolación.
El proceso de interpolación se aborda del siguiente modo:
1. Para cada píxel x = (x, y) de la imagen interpolada se
obtienen las coordenadas origen en la imagen de
entrada mediante f−1(x).
2. Dependiendo de la función de interpolación, se
determina la intensidad a transferir a la imagen
interpolada.
3. Finalmente, se “rellena” el píxel x con dicho valor.
En general, existen diferentes funciones de interpolación,
algunas poco costosas computacionalmente, como “el vecino
más próximo”, pero que produce imágenes con contornos
fragmentados (efecto escalón). Otras más costosas, pero que
producen imágenes de una mayor calidad visual, como la
interpolación bilinear o bicúbica.
Algoritmos de Registro
El proceso de registro consiste en determinar los
parámetros óptimos de una función de transformación
geométrica. Esto es, resolver los problemas de minimización
o maximización según las bases elegidas para el registro.
Registración por Distancia Media Cuadrada. Este tipo de
registración se basa en resolver el problema ortogonal de
Procrustes, que es un problema de aproximación matricial en
álgebra lineal . En su forma clásica, se le dan dos matrices A
y B, se pide encontrar una matriz ortogonal que acerque
más A a B.
.
Dadas dos configuraciones de puntos ( no coplanares)
llamadas P = { pi} y Q = {qi}, se busca la transformación T
para minimizar
G(T) = ||T(Q)-P||2
donde Q es el conjunto de puntos móviles y P el
conjunto de puntos fijos. El caso estándar es cuando T
implica transformaciones rígidas.
Iterative Closest Point-ICP. Una forma de
realizar la registración por superficies, o
nube de puntos. Si se pueden segmentar
superficies equivalentes de dos imágenes
que deben combinarse, entonces la
registración rígida se puede obtener
ajustando a las superficies juntas.
Pensamos a estas últimas como nubes de
puntos
Besl y McKay introdujeron el algoritmo iterativo de punto
más cercano (ICP). El algoritmo realiza un registro rígido
de forma iterativa alternando en: dada la transformación,
encontrando el punto más cercano en I por cada punto en
I’; y dadas las correspondencias, encontrar la mejor
transformación rígida resolviendo el problema de mínimos
cuadrados.
Algoritmo de Registro
Para este algoritmos podemos suponer dos nubes de
puntos. Donde la referencia u objetivo se mantiene fija,
mientras que la otra, la fuente, se transforma para que
coincida mejor con la referencia. El algoritmo revisa
iterativamente la transformación (combinación de traslación
y rotación) necesaria para minimizar una métrica de error:
generalmente una distancia desde la fuente a la nube de
puntos de referencia
Esencialmente, los pasos del algoritmo son:
1. Para cada punto en la nube de origen, haga
coincidir el punto más cercano en la nube de
referencia (o un conjunto seleccionado).
2. Estime la combinación de rotación y traslación,
utilizando una técnica de minimización métrica de
la distancia cuadrática media punto a punto.
3. Transforme los puntos de origen utilizando la
transformación obtenida.
4. Iterar.
Biomédicas
Registración II: Registración Basada en
Niveles de Gris, Métricas, Optimización,
Transformaciones Deformable.
¿Podremos registrar
imágenes de distinto
tamaño y forma?
Recordemos...
El registro de imágenes es el
proceso de determinar la
correspondencia, punto por punto,
entre dos imágenes de una escena.
Al registrar dos imágenes, se hace
posible la fusión de información
mono y/o multimodal. Se puede
determinar el mapa de profundidad
de la escena, se pueden detectar
cambios en la escena y se pueden
reconocer los objetos.
Recordemos...
Imagen de referencia: una de las imágenes en un conjunto de
dos. Esta imagen se mantiene sin cambios y se utiliza como
referencia.
Imagen detectada: la segunda imagen en un conjunto de dos.
Esta imagen se vuelve a muestrear para registrar la imagen de
referencia.
Función de transformación: la función que asigna la imagen
detectada a la imagen de referencia. Se determina usando las
coordenadas de varios puntos correspondientes en las imágenes.
Pasos de la Registración
1- Preprocesamiento
Esto implica preparar las imágenes para la selección de
características y la correspondencia usando métodos
como el ajuste de escala, eliminación de ruido y
segmentación. Si los tamaños de píxeles en las imágenes
a registrar son diferentes, una imagen se reescala a las
dimensiones de la otra, para facilitar la correspondencia
de características. Si las imágenes dadas son ruidosas, se
suavizan para reducir el ruido. La segmentación particiona
una imagen en regiones para extraer características.
2- Selección de características
Para registrar dos imágenes, se seleccionan varias
características de ellas y se establece una correspondencia
entre las mismas. Al conocer las correspondencias, se
encuentra una función de transformación para volver a
muestrear la imagen detectada a la geometría de la imagen
de referencia. Las características utilizadas en el registro de
imágenes son esquinas, líneas, curvas, plantillas, regiones y
parches. El tipo de características seleccionadas en una
imagen depende del tipo de imagen proporcionada.
3- Correspondencia de características
Esto se puede lograr seleccionando características en la
imagen de referencia y buscándolas en la imagen
detectada; o seleccionando características en ambas
imágenes de forma independiente, para luego determinar
la correspondencia entre ellas. El método anterior se elige
cuando las características contienen información
considerable, como regiones o plantillas. El último método
se utiliza cuando las características individuales, como
puntos y líneas, no contienen información suficiente.
4- Determinación de una función de transformación
Conociendo las coordenadas de un conjunto de puntos
correspondientes en las imágenes, se determina una función
de transformación para volver a muestrear la imagen
detectada a la geometría de la imagen de referencia.
5- Remuestreo
Conociendo la función de transformación, la imagen
detectada se remuestrea a la geometría de la imagen de
referencia. Esto permite la fusión de información en las
imágenes, o la detección de cambios en la escena.
La implementación de cada paso de
registro tiene sus problemas típicos.
Primero, tenemos que decidir qué tipo de
características son apropiadas para la
tarea dada. Las características deben ser
objetos distintivos, que se extienden con
frecuencia sobre las imágenes y que son
fácilmente detectables. Los conjuntos de
características detectados en las imágenes
de referencia y detectadas deben tener
suficientes elementos comunes.
Los métodos de detección deben
tener una buena precisión de
localización y no deben ser sensibles
a la degradación de imagen
supuesta. En un caso ideal, el
algoritmo debería poder detectar las
mismas características en todas las
proyecciones de la escena,
independientemente de la
deformación particular de la imagen.
En el paso de coincidencia pueden surgir
problemas causados por una detección de
características incorrecta, o por
degradaciones de la imagen. Las
correspondencias pueden ser distintas
debido a las diferentes condiciones de
imagen y/o debido a las desigualdades en
la sensibilidad espectral de los sensores.
La elección de la descripción de la
característica y la medida de similitud
tiene que considerar estos factores.
Los métodos de registro pueden
clasificarse con respecto a varios
criterios. Los que se usan
generalmente son: el área de
aplicación, la dimensionalidad de
los datos, el tipo y la complejidad
de las deformaciones de la imagen,
el costo computacional y las ideas
esenciales del algoritmo de
registro.
Basados en Intensidades
Las características detectadas en las
imágenes de referencia y móvil pueden
coincidir por medio de los valores de
intensidad de imagen en sus
vecindades cercanas. Los métodos
clásicos basados en áreas como la
correlación cruzada (CC) e Información
Mutua (MI) se aprovechan para hacer
coincidir directamente las intensidades
de imagen, sin ningún análisis
estructural.
Basados en Intensidades
En consecuencia, son sensibles
a los cambios de intensidad
introducidos, por ejemplo, por
ruido, iluminación variable y/o
mediante el uso de diferentes
tipos de sensores. Las medidas
basadas en intensidad
cuantifican la precisión del
registro mediante la
comparación píxel a píxel del
contenido de ambas imágenes.
Método de Correlación
El concepto de usar la correlación
cruzada se ha aplicado a las
imágenes digitales, por lo menos,
desde la década de 1970.
Comúnmente, la Correlación de
Imágenes digitales se basa en
encontrar el máximo de la matriz
de correlación entre subconjuntos
de matriz de intensidad de píxel
en dos o más imágenes
correspondientes.
Lo que da el cambio de número
entero de traslación entre ellas.
También es posible estimar los
cambios a una resolución más fina
que la resolución de las imágenes
originales, que a menudo se
denomina registro "sub-píxel"
debido a que el desplazamiento
medido es menor que una unidad
de píxel entera.
La correlación cruzada discreta de dos dimensiones se
puede definir de varias maneras, una de las posibilidades
es: Sean I e I’ dos imágenes de tamaño M × N y con valores
de intensidad i∈[0,L−1] y j∈[0,L−1], respectivamente. Sea
la función de transformación geométrica f y la imagen
transformada Î’ = I’(f−1). Entonces
Correlación cruzada normalizada (coeficiente de
correlación lineal de Pearson)
La NCC es la variante normalizada del CC y toma valores

en el intervalo cerrado [−1,+1], donde un valor +1 indica
que ambas imágenes encajan (se registran)
perfectamente.
Estas medidas han demostrado su
eficacia con imágenes
monomodales, no afectadas de
importantes diferencias
radiométricas; como es el caso de
cambios en la iluminación o del
contenido. Cuando el perfil
radiométrico de las imágenes varía
significativamente, o son captadas
con diferentes sensores, su eficacia
se ve seriamente comprometida.
Información Mutua
Con el objetivo de minimizar esta limitación, diversos
autores han propuesto técnicas más robustas, como
medidas que miden la información compartida, tal es el
caso del método información mutua (MI).
donde PI(i), PÎ’(j) y PI,Î’(i, j) son las estimaciones de las

distribuciones de probabilidad a partir del histograma
conjunto h de I e Î.
Información Mutua
Siendo hI,Î’(i, j) el acumulado
del par de niveles (i,j).
Formado a partir del valor i
de la imagen I y j de la
imagen Î’ . El cálculo del
histograma conjunto, como
se detalla aquí, recibe el
nombre de método
paramétrico.
Información Mutua
Información Mutua
La MI mide la dependencia
estadística de los niveles de
intensidad de las dos imágenes,
no su similitud radiométrica.
Luego, no se ve afectada por la
diferente naturaleza de las
imágenes, o las diferencias
radiométricas que éstas
pudieran presentar.
Registración Elástica
Las imágenes se ven como
piezas de una lámina de
goma. En élla se aplican
fuerzas externas que
estiran la imagen y fuerzas
internas definidas por
restricciones de rigidez o
suavidad para alinearlas
con la mínima cantidad de
flexión y estiramiento.
Los pasos de diseño de la función de correspondencia de
características y mapeo del registro se realizan
simultáneamente. Esta es una de las ventajas de los
métodos elásticos, porque no se conocen los descriptores
de características invariables a deformaciones
complicadas. La correspondencia de características es
difícil de establecer de la manera tradicional. El registro se
logra ubicando el estado mínimo de energía de forma
iterativa.
Las fuerzas externas pueden derivarse de la optimización
local de la función de similitud. Esta se define por los
valores de intensidad. Teniendo todo esto en cuenta, la
metodología de registro deformable está basada en la
minimización del coste de energía de la siguiente expresión.
Donde Eimg disimilitud entre las imágenes, Eµ las

restricciones impuestas por las marcas, Ediv y Erot asociados a
los gradientes de divergencia y rotacional de la deformación.
ITK
ITK (del inglés "Insight Segmentation
and Registration Toolkit") es una librería
de software Open Source que sirve como
Framework para desarrollar softwares
orientados a procesamiento de
imágenes: en particular segmentación y
registración. ITK nos provee de
herramientas y algoritmos de
segmentación y registración para dos y
tres dimensiones. Esta librería se
encuentra disponible en C++ y python.
ITK https://itk.org/
Biomédicas
Visualización de Imágenes: Marching
Cubes, Rendering.
cuando hablamos de
Visualización?
Visualización
Una definición formal de
Visualización no dice que es el
acto y la consecuencia de
visualizar. Así, este verbo, se
refiere a desarrollar
mentalmente la imagen de algo
abstracto, otorgándole
características visibles a aquello
que no se ve o representando, a
través de imágenes, cuestiones
de otra índole.
Visualización
Podemos pensar entonces, que el
simple hecho de obtener una
imágen de las estructura y
funciones biológicas, de un cierto
sistema que no se ve a simple
vista, cumple con la definición.
Pero además, todas las técnicas de
mejoramiento, segmentación,
análisis de texturas, registración, y
hasta compresión de imágenes,
también satisfacen el concepto.
Visualización
Por lo tanto, por visualización se entiende a todo
implementación de técnicas de la computación gráfica
utilizada para representar datos científicos de diversos
tipos. La visualización de imágenes médicas, es una
tecnología derivada de la computación que está
revolucionando las metodologías de investigación y
aplicación clínica en todo sus campos.
Visualización
Cerramos este curso con el
concepto de renderizado y un
algoritmo que nos va a permitir
mostrar la información de las
imágenes de formar de visualizar,
en dos y tres dimensiones, las
superficies y sus diferentes
profundidades. Siempre con el
objetivo de aproximar de mejor
manera la representación discreta
a la realidad.
Rendering
En términos de visualizaciones la
"renderización" es un proceso, de cálculo
complejo, destinado a generar una
imagen 2D a partir de una escena 3D. La
renderización se aplica comúnmente a la
infografía. En infografía el proceso tiene
la finalidad imitar un espacio formado por
estructuras poligonales, luces, texturas,
materiales y animación, simulando
ambientes y estructuras físicas
verosímiles.
Rendering
El término renderización (del inglés
rendering) es usado en la jerga
informática para referirse al
proceso de generar imagen
fotorrealista a partir de un modelo
2D o 3D (o modelos en lo que
colectivamente podría llamarse un
archivo de escena) por medio de
programas informáticos. Además,
los resultados de mostrar dicho
modelo se conocen como render.
Rendering
Un render consiste en una imagen
digital procedente de escenarios y
modelos 3D realizados con
ordenador. Estas imágenes alcanzan
gran realismo, asemejándose tanto
en el diseño de los elementos
gráficos, como en la incidencia de
luces, brillos y reflejos. Estas pueden
representar cualquier tipo de ángulo
de visión en los 360 grados posibles
en la escena.
Rendering
El proceso de renderizado
combina los modelos 3D, y/o
escenarios, con la influencia de
luces y otros efectos digitales
sobre las texturas y materiales
de los elementos, calculando en
cada píxel/vóxel la gama
cromática que le corresponde y
resultando en una imagen
digital fotorrealista.
Rendering
Un render se crea a partir de
algoritmos, que interpretan de la
forma más natural y real posible,
la influencia y los rebotes de las
luces de la escena sobre los
objetos y escenarios 3D. Esta
interpretación de la luz, se
calcula a partir de la posición en
x, y y z, de la cámara virtual
contenida en la escena a
visualizar.
Rendering
En general, en procesamiento de
imágenes biomédicas se utiliza la
técnica de renderizado
volumétrico (Volume Rendering).
Esta técnica permite una
visualización tridimensional de un
objeto partiendo de imágenes de
cortes transversales. Cada imagen
de corte transversal está
compuesta por un array
bidimensional de píxeles (x, y).
Rendering
Si se colocan las imágenes una encima de la otra los píxeles
de cada imagen están alineados con sus correspondientes
píxeles de la misma posición arriba y abajo. Así pues, se
pueden etiquetar los pixeles con coordenadas
tridimensionales (x,y,z). Estos se denominan vóxeles.
Rendering
La coordenada z es simplemente
el número del corte con el que
están asociados los píxeles. De
esta forma se elimina el concepto
de imágenes de cortes
transversales y se representan
todos los píxeles a través de
vóxeles construidos a partir de
cada corte del objeto en una
imagen tridimensional única.
Rendering
Las técnicas de volume
rendering son un área
emergente del campo de
gráficos por ordenador que
extiende los conceptos clásicos
de rendering de superficies.
Con las técnicas de volume
rendering, los voxels pueden
tener una característica
adicional al brillo y al color.
Rendering
Se puede, a partir de una
diferencia de opacidad, lograr
una imagen cuyo interior sea
visible y las capas exteriores
sean traslúcidas. Haciendo
posible que sean visibles las
estructuras internas de un
objeto y que convivan todas en
la misma escena.
Rendering
Los puntos de vista del volume
rendering se pueden situar
dentro del objeto. Permitiendo
explorar detalles en su interior,
tales como tumores. En imágenes
médica se pueden obtener los
puntos del contorno de los
objetos a visualizar en 3D. Para la
visualización de este conjunto de
puntos se utilizan técnicas como
Marching Cubes.
Marching Cubes
Marching Cubes(o Cubos de
Marcha, por su traducción) es un
algoritmo de gráficos por
computadora publicado en las
memorias del congreso SIGGRAPH
en 1987 ideado por Lorensen y
Cline. Este algoritmo tiene como
objetivo extraer una malla poligonal
de una isosuperficie de un campo
escalar discreto tridimensional
(llamado vóxel).
Marching Cubes
Las aplicaciones de este algoritmo
se refieren principalmente a
visualizaciones médicas como TAC
e imágenes de datos de escáner de
IRM. Además, se utiliza mucho en
efectos especiales o modelación 3D
donde normalmente son llamados
metaballs o metasuperficies. Un
método bidimensional análogo es
llamado algoritmo cuadrados de
marcha ( marching squares).
Marching Cubes
El algoritmo se puede describir resumidamente de la
siguiente manera. Dado un objeto, una forma para
determinar si un punto arbitrario está dentro del objeto, y en
los límites dentro de los cuales éste existe, es la siguiente:
Marching Cubes
1. Dividir el espacio en un número arbitrario de cubos.
2. Probar que las esquinas de cada cubo para ver si están
dentro del objeto.
3. Para cada cubo donde algunas esquinas están dentro, y
algunas esquinas están fuera del objeto, la superficie debe
pasar a través de ese cubo, intersectando los bordes del
cubo entre las esquinas de clasificación opuesta.
4. Dibujar una superficie dentro de cada cubo que conecta
estas intersecciones.
5. Tienes tu objeto.
Marching Squares
Veamos primero el
algoritmo en dos
dimensiones. Para poder
observar cómo funciona
de una manera más
simple. Si tenemos por
ejemplo, el objeto de la
figura y dividimos la
imágenes en cuadrados
de iguales dimensiones.
Marching Squares
Podemos verlo
observando en qué
vértices hay y cuáles
están fuera del objeto,
así que
etiquetémoslos: rojo
por dentro, azul por
fuera.
Marching Squares
Ahora sabemos que en
algún lugar de cada borde
entre una esquina interior y
una exterior, la superficie
original debe intersecar
nuestros cuadrados ( puntos
morados).
Marching Squares
Dentro de cada
cuadrado, conectemos
los puntos morados.
Ahora tenemos una
aproximación de la
superficie original (las
líneas moradas).
Marching Squares
Marching Cubes
La implementación del algoritmo en 3D es similar a la 2D.
Utilizando el enfoque de divide y vencerás. El MC estándar
procesa el conjunto de datos volumétrico cubo por cubo
para completar el volumen. Dado un isovalor, fiso, la
isosuperficie relacionada se puede definir como una función
fiso = f(x,y,z) que asocia fiso a un conjunto de puntos
tridimensionales (x,y,z) dispuestos en el borde de cada
cubos lógicos.
Marching Cubes
En términos del isovalor, el conjunto
de datos de volumen se divide en
dos grupos, uno con f>fiso dentro de
la isosuperficie en sí, y el otro con
f<fiso afuera. Además, para
encontrar la intersección de la
isosuperficie en cada cubo, los
vóxeles en los ocho vértices del cubo
lógico se comparan con el fiso y se
genera un número binario de ocho
bits correspondiente a cada vértice.
Marching Cubes
Los vóxeles contenidos en un
cubo dentro de la isosuperficie
están asociados con 1, mientras
que los vóxeles exteriores están
asociados con 0. Basado en el
número binario de ocho bits, el
algoritmo de intersección de
isosuperficie se realiza dentro de
cada cubo.
Marching Cubes
Debe establecerse el parámetro Ic (intervalo de cubo) que
determina el tamaño de los cubos. Para cada punto ubicado
en el cubo, se calcularán tres proyecciones a lo largo de las
direcciones i,j o k, respectivamente. Un punto está
dispuesto en la coordenada de i, j o k si la distancia de
proyección es menor que el punto medio en cada eje. De lo
contrario, se organiza para coordinar i+1, j+1 o k+1.
Marching Cubes
Como se muestra, un punto Pi entre
el cubo se proyecta en el plano ij.
Como las distancias de proyección en
los ejes i y j exceden el punto medio,
asignamos un número binario 1 a los
vértices (i+1,j,k) y (i,j+1,k)
respectivamente, así como al vértice
(i,j,k+1) por la misma razón, mientras
que los otros vértices en el mismo
cubo están configurados para ser el
número binario 0.
Marching Cubes
El algoritmo propuesto emplea
la tabla de consulta MC
estándar para producir la
intersección de la superficie.
Teniendo en cuenta las
simetrías reflexivas y
rotacionales de un cubo, los
autores reducen todas las
combinaciones posibles de 256
casos a 15 patrones básicos.
Marching Cubes
En lugar de la interpolación lineal del borde de la celda, se
utiliza la selección del punto medio. Un método especial,
para obtener la posición exacta de la intersección de la
superficie. La selección del punto medio, no requiere
ninguna interpolación junto con el borde de los cubos en el
procesamiento de extracción de superficie. Cuando un
borde del cubo con un número binario, cero o uno, el punto
medio del borde es la intersección que se busca.
Marching Cubes
Los puntos medios en un cubo que
pueden producirse mediante la
selección del punto medio se
muestran hay 12 posiciones
espaciales diferentes en las que se
pueden interceptar los vértices
triangulares. Además, se utiliza un
índice con un número binario de ocho
bits para registrar la posición del
vértice de cada cubo lógico.
Marching Cubes
Un pequeño ejemplo para clarificar.
Si tenemos que la isosuperficie que
cubre los vértices #2, #6 y #8,
tenemos:
87654321
10100010
Ese número binario representa al 162
y por lo tanto si buscamos en la tabla
MC estándar este valor nos arroja la
siguiente triangulación:
162={1, 2, 9, 2, 9, 10, 7, 11, 12}
Marching Cubes
En resumen, el proceso del algoritmo MC se puede dividir en los siguientes
pasos:
I. Escanee y adquiera el conjunto de datos de la imagen.
II. Establezca el parámetro de cubo de intervalo para crear los cubos
lógicos.
III. Ceda la cuadrícula tridimensional normal comparando la distancia de
proyección con el punto medio de los bordes del cubo.
IV. Obtenga el tipo de extracción de superficie basado en el índice binario
de ocho bits.
V. Calcule las posiciones de la intersección de la superficie mediante el
método de selección del punto medio.
VI. Renderiza las coordenadas del vértice del triángulo.
Marching Cubes
https://www.youtube.com/watch?v=B_xk71YopsA&t=1s
VTK
El Kit de herramientas de
visualización (VTK) es un sistema
de software libre, libremente
disponible para la realización de
gráficos 3D por computadora,
procesamiento de imagen y
visualización. VTK consiste en
una biblioteca de clases de C++ y
varias capas de interfaz
interpretadas como Tcl/Tk, Java,
y Python.
VTK
VTK tiene un amplio marco de
visualización de la información,
cuenta con un conjunto de widgets
de interacción 3D, soporta el
procesamiento en paralelo y se
integra con diversas bases de
datos de herramientas GUI como
Qt y Tk. VTK es multiplataforma.
Visualización en Clínica
Cirugía Guiada
Realidad Aumentada
Biomédicas
Interfaces gráficas en python
¿Qué es una Interfaz
Gráfica?
Instalación
https://www.python.org/downloads/
Instalación
Los usuarios de linux-ubuntu pueden
instalar las versión más reciente de
Python 3 a través de la terminal, con
la siguiente línea de comando:
$ sudo apt install python3
y verificar la versión instalada a partir

de:
$ python3 --version
IDEs
Un entorno de desarrollo integrado, del
inglés Integrated Development
Environment (IDE), es simplemente una
aplicación que provee servicios
integrales para facilitar el desarrollo de
un software. Un IDE en general posee
un editor para el código, herramientas
de desarrollo y un debuger. La mayoría
de los IDE tienen auto-completado de
código (IntelliSense).
Hay muchos IDEs distintos y la elección
es principalmente una cuestión de
preferencias personales.
IDEs
El favorito, posee Para principiantes El más similar a Git + Github

una amplia MATLAB Livessheare
colección de Múltiples
herramientas de lenguajes y
desarrollo. archivos
IDEs
Distribución libre y abierta de
los lenguajes Python y R,
utilizada en ciencia de datos,
y machine learning. Esto
incluye procesamiento de
grandes volúmenes de
información, análisis
predictivo y cómputos
científicos. Está orientado a
simplificar el despliegue y
administración de los
paquetes de software.
Qt
Qt es un framework
multiplataforma orientado a
objetos ampliamente usado para
desarrollar programas (software)
que utilicen interfaz gráfica de
usuario, así como también
diferentes tipos de herramientas
para la línea de comandos y
consolas para servidores que no
necesitan una interfaz gráfica de
usuario.
PyQt5
Es uno de los módulos más usados
para crear app con interfaces
gráficas en Python, debido
principalmente a su simplicidad. Es
un conglomerado completo de
enlaces de Python para Qt versión
5. Una característica de su gran uso
es el PyQt5 designer, que facilita el
desarrollo de aplicaciones gráficas
complejas, simplemente arrastrando
widgets para crear formularios.
A codear...
PyQt5 Python 3 Tutorial
https://youtube.com/playlist?list=PLzMcB
GfZo4-lB8MZfHPLTEHO9zJDDLpYj
https://likegeeks.com/es/tutorial-de-pyqt
5/
https://tecnonucleous.com/2018/01/28/c
omo-instalar-pip-para-python-en-windo
ws-mac-y-linux/

Procesamiento de Imágenes Biomédicas: Representación de Una Imagen

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Procesamiento de Imágenes Biomédicas: Representación de Una Imagen

Cargado por

Copyright:

Formatos disponibles

Procesamiento de Imágenes

A las imágenes en mapa de bits

★ (x-1,y);(x+1,y) en dirección horizontal 0º.

Este se conjunto se denomina vecindad-4 o vecindad r=1 de

★ (x-1,y+1);(x+1,y-1) en dirección diagonal positiva 45º.

Este se conjunto se suma al anterior para determinan un

Vecindad de Moore de radio

El campo de visión (FOV)

La nitidez de una imagen,

Estos factores degradan la imagen, esencialmente su

Los datos de cada dirección

El teorema de muestreo de Nysquist-Shannon nos dice

Donde f(x,y) es la imagnes original y η(x,y) la función

Si η(x,y) la función componente de ruido es cero las imágenes no

Operaciones que se realizan directamente sobre pixels.

donde, f(x,y) es la imagen de entrada, g(x,y) es la imagen

El centro de esta, se mueve

★ g(x,y) depende solo del valor de f en (x,y).

● Tienen un mejor rendimiento con un

➔ El ﬁltro de la media es bastante sensible a cambios

➔ El ﬁltro de la media puede crear nuevas intensidades de

➔ Es separable: es decir, en lugar de realizar una

➔ El ﬁltro gaussiano produce un suavizado más uniforme

Tanto el ﬁltro gaussiano como el

➔ Este ﬁltro no es lineal. Dadas dos imágenes A y B,

➔ El ﬁltro de Mediana es el más eﬁciente para eliminar

Los bordes de una imagen

★ Filtros de suavizado, Smoothing

➢ Y el ángulo α(x,y), que forma

La dirección del gradiente es la

Las ecuaciones anteriores pueden implementarse pensando

La diferencia entre la tercera y primera ﬁlas

★ Tiene las mismas propiedades en todas las direcciones

Se detectan los bordes buscando

➔ De ser así se asigna el valor 0 al píxel,

donde rk es el k-ésimo nivel de

La funcion del histograma

De modo tal que si f se encuentra en el rango deseado, su

La ecualización local se realiza

En los procesos radiológicos se

En 1917 Johann Radon ya había

Con esta transformada, a la

★ Los rayos X viajan en líneas rectas y los haces son

La ley de Beer, aplicada a la intensidad del rayo que viaja a lo

Ahora, consideraremos una sección transversal de un objeto

Y el decrecimiento relacional del rayo X a través del plano xy

Fijamos un sistema de coordenadas

Si L es la trayectoria descrita por el

Así obtenemos expresión de la transformada de Radon

A esta cantidad Radón la denomino proyección de 𝑓(x,y) a lo

La dirección del rayo AB deﬁne una

t=x cosθ + y senθ

Entonces, la proyección particular

Es claro, entonces, que para poder precisar todas las

VEAMOS DE QUÉ SE TRATA...

Se demuestra que cualquier

Las funciones que no

Se deﬁne análogamente la transformada de Fourier en dos

Asi arribamos al teorema:

Por lo tanto tomando las

El sistema matricial de coordenadas

El procesamiento de la imagen se lleva a cabo en una