Procesamiento de Imagenes

Procesamiento de Imgenes
Facultad de de
Ingeniera
Escuela de
Ciencias
Procesamiento de
Imgenes
Sptimo Semestre
Realizado: 08/2002
Informtica-Matemtica
Ingeniera
HISTORIAL DEL DOCUMENTO
Documento
Clave
ECI 724
Fecha de
Validacin y
Liberacin
Sep 2002
Versin
V 1.0
Localizacin
Magntica
\\uce\informatica\basededatos\manual
El contenido que conforma las Materias de Multimedia y
Procesamiento de Imgenes ha sido suministrada y
obtenida de las siguientes fuentes:
Fuente
Ing. Reynaldo Cervantes (Profesor de Multimedia y

Procesamiento de Imgenes de la Escuela de Ciencias)
quien aporto con documentos relacionados a los
diferentes temas a tratar dentro de clase.
www.webdesign
SIISE Publicaciones
Elaborado
por
Tania Guerra Delgado
Revisado por
Aprobado por Ing. Franz Del Pozo
INDICE
1.
LOS SENTIDOS DE LA VISIN Y LA AUDICIN
1.1 El
1.1.1
1.1.2
1.1.3
1.1.4
2.
13
Sistema Visual Humano

Estructura fsica del ojo
Respuesta a la Iluminacin y Discriminacin
Visin de color
Mezcla aditiva de colores.
13
13
15
21
21
INTRODUCCIN
22
2.1 Etapas Fundamentales del Procesamiento de Imgenes

2.1.1 Adquisicin de la imagen
2.1.2 Preprocesamiento de la Imagen
2.1.3 Segmentacin
2.1.4 Reconocimiento e Interpretacin
23
24
24
24
25
3.
UN MODELO DE IMAGEN
25
3.1
Muestreo y Cuantificacin
25
3.2 Relaciones entre pixels.

3.2.1 Vecinos de un Pixel
3.2.2 Conectividad
3.2.3 Etiquetado de Componentes Conexas
3.2.4 Relaciones, equivalencia y clausura transitiva
3.2.5 Medidas de Distancia
3.2.6 Operaciones Aritmtico Lgicas
26
26
27
28
29
30
31
3.3 Geometra de la Imgen

3.3.1 Transformaciones Bsicas
32
32
4.
MEJORA DE LA IMAGEN
39
4.1
Mtodos en el Dominio Espacial
39
4.2
Mtodos en el Dominio de Frecuencia
40
4.3
Mejora por Procesamiento de punto
41
TRANSFORMACIONES DE INTENSIDAD
4.3.1 Negativos de Imgenes
4.3.2 Aumento del Contraste
4.3.3
42
42
42
Comprensin del rango dinmico
43
3
4.3.4
4.3.5
4.3.6
4.3.7
4.3.8
Fraccionamiento del Nivel de Gris

Fraccionamiento de los Planos de Bits
Procesamiento de Histogramas
Sustraccin de Imgenes
Promediado de la Imagen
43
44
44
45
46
5.
FILTRADO ESPACIAL
47
5.1
Filtros Suavizantes
48
5.2
Filtrado Espacial de Paso Bajo
48
5.3
Filtracin por la Mediana
48
6.
FILTROS REALZANTES
49
6.1
Filtrado Espacial de Paso Alto Bsico
49
6.2
Filtrado High-boost
50
6.3
Filtros Diferenciales
50
7.
MTODOS EN EL DOMINIO DE FRECUENCIA
52
7.1
Filtrado homomrfico
53
8.
PROCESAMIENTO DE IMGENES EN COLOR
55
8.1
Fundamentos del Color
56
9.
MODELOS DE COLOR
57
9.1
Modelo RGB
57
9.2
Modelo CMY
58
9.3
Modelo YIQ
58
9.4
Modelo HSI
59
10.
COMPRESIN DE IMGENES
59
10.1
Fundamentos
59
10.2
Redundancia de Codificacin
60
10.3
Redundancia entre Pixels
61
10.4
Redundancia Psicovisual
62
11.
MODELOS DE COMPRESIN DE IMGENES
62
11.1
Codificador y Decodificador de Fuente
63
11.2
Codificador y Decodificador de canal
64
11.3
Codificacin de Huffman
64
12.
COMPRESIN CON ERRORES
65
13.
COMPRESIN DE IMGENES CON PRDIDAS
65
13.1
Codificacin por Truncamiento
66
13.2
Codificacin Predictiva con Prdidas
66
13.3
Codificacin por Transformacin
67
13.4
Transformada Discreta del Coseno (DCT).
68
13.5
Compresin de imgenes basada en la Transformada
Discreta del Coseno (DCT).
69
14.
COMPRESIN JPEG
70
14.1
Sistema Bsico
14.1.1
Clculo de la DCT
14.1.2
Cuantificacin de los coeficientes de la DCT
14.1.3
Asignacin del Cdigo de Longitud Variable
72
72
73
73
14.2
Imgenes en color.
14.2.1
Aspectos psicovisuales.
74
75
15.
78
CONCLUSIONES
CONTENIDO
COMPACTOS
MANUAL
DE LOS DISCOS
ADJUNTADOS
AL
Desarrollo de las temas a los que hace referencia en el ndice.

Presentacin en Power Point sobre Modelacin de Objetos.
REQUERIMIENTOS
REQUERIMIENTOS
CLASE
DE
LA
SALA
DE
Pizarra.
Tiza lquida
Borrador
REQUERIMIENTOS DE LABORATORIO
HARDWARE
Retroproyector.
Computadoras con requerimientos bsicos.
Impresora.
SOFTWARE
Power Point
MATERIALES REQUERIDOS POR EL

ESTUDIANTE
Manual de Procesamiento de Imgenes.
Cd adjunto a este manual.
Bibliografa recomendada por l respectivo profesor.
Informacin adicional (Internet).
CONVENCIONES DEL DOCUMENTO

TEXTO CON NEGRITA
El texto con negrita empleado en este documento generalmente se
refiere a:
Todos los ttulos y subttulos principales (previamente definidos), es
decir nombre del captulo y sus contenidos a estudiar.
Hace referencia a definiciones importantes relacionados con el tema
que se esta tratando.
TEXTO EN CURSIVA
Se lo emplea para referirse a un tema de menor importancia.
PARNTESIS
Para hacer una breve explicacin o aclaracin del tema tratado.
Ejemplos breves.
ACERCA DEL CURSO

AUDIENCIA
El presente curso tendr como audiencia a toda aquella persona que se
interese por la materia, es decir, a personas tanto que estn cursando el
respectivo semestre (Sptimo Semestre) como aquellas que van a estar
como en calidad de oyentes (si lo permite el respectivo profesor).
PRERREQUISITOS DEL ESTUDIANTE

El estudiante para poder cursar esta materia, previamente tuvo que
haber aprobado la asignatura de Programacin Visual correspondiente al
sexto semestre y as, con conocimientos ya adquiridos previamente
poder entender a cabalidad los nuevos conceptos o temas referente a
esta materia.
10
OBJETIVOS DEL CURSO

El tratamiento de este curso pretende mostrar a las imgenes como una
funcin de dos variables, las diferentes tcnicas aplicadas para el
procesamiento de imgenes, mejora de imgenes,
las diferentes
tcnicas de comprensin, modelos del color, orientando al estudiante en
el tratamiento adecuado de imgenes como complemento de las
aplicaciones multimedia.
11
1. Los sentidos de la Visin y la

Audicin
1.1 El Sistema Visual Humano
En algunas aplicaciones del procesamiento digital de imgenes, como
en la compresin digital, es necesario entender el sistema visual
humano. El comprender las caractersticas y las limitaciones del sistema
ojo-cerebro puede ayudar a maximizar la efectividad de las operaciones
de la compresin digital de imgenes.
1.1.1 Estructura fsica del ojo

El sistema visual humano est compuesto por el ojo y una porcin del
cerebro que procesa las seales neurolgicas que provienen de este.
Juntos, el ojo y el cerebro convierten la informacin ptica en una
percepcin de una escena visual. El ojo es la cmara del sistema visual
humano. Este convierte la informacin visual en impulsos nerviosos
usados por el cerebro.
El ojo en su conjunto, llamado globo ocular, es una estructura casi
esfrica de aproximadamente 22mm de dimetro. Est rodeado por tres
membranas: la crnea y la esclertica, que constituyen la cubierta
exterior, la coroides y la retina.
Los rayos de luz generados o reflejados por un objeto primero golpean
el ojo en la crnea. La crnea acta como un lente convexo, refractando
los rayos. Esta refraccin forma el enfoque inicial de la luz que entra al
ojo. La crnea forma una proteccin transparente que cubre la superficie
anterior del ojo. Despus de la crnea, los rayos pasan a travs de un
lquido claro y hmedo llamado el humor acuoso, y despus pasan a
travs del iris y el cristalino. El iris acta como una apertura variable
que controla la cantidad de luz que puede pasar a travs del cristalino.
El iris es controlado por msculos que lo abren y lo cierran basados en
la intensidad promedio del objeto que es observado. En la noche el iris
se abre ampliamente, mientras que en un da luminoso se cierra
bastante.
El cristalino lleva a cabo el segundo enfoque de la luz, proyectando a
esta en la retina. El cristalino es controlado por msculos, los cuales
permiten variar la distancia focal del sistema ptico total dependiendo
de la distancia del objeto observado. Tal como una cmara, el ojo debe
ser enfocado basado en qu tan lejos est este del objeto. Los rayos de
12
luz salen del cristalino pasando a travs de una sustancia transparente

y gelatinosa, llamada humor vtreo, y son finalmente enfocados en la
retina. El humor vtreo mantiene la estructura del ojo mientras que
pticamente une el cristalino a la retina.
La membrana ms interna del ojo es la retina, que cubre la totalidad de

la pared posterior. Cuando el ojo est correctamente enfocado, la luz de
un objeto exterior al ojo forma su imagen en la retina. La retina est
compuesta por fotorreceptores que convierten la intensidad y el color
de la luz en seales nerviosas. Existen dos tipos de fotorreceptores,
bastones y conos. Los bastones son los ms abundantes: entre 75 y 150
millones estn distribuidos sobre la superficie retiniana y son los que
ms responden a la luz. Su gran rea de distribucin, junto con el hecho
de que grupos de varios bastones comparten una misma terminacin
nerviosa, reduce la cantidad de detalle discernible por estos receptores.
Los bastones sirven para dar una visin general del campo de visin, no
estn implicados en la visin del color y son sensibles a niveles de
iluminacin bajos, tal como en la noche.
Los conos son mucho menos abundantes que los bastones (alrededor de
6 a 7 millones) y estn localizados principalmente en la regin central
de la retina, denominada fvea. Los conos son muy sensibles al color y
son algo menos sensitivos a la luz. Son usados para la visin de luz
brillante, tal como en un da soleado. Los seres humanos pueden
apreciar detalles relativamente finos gracias a esos conos porque cada
uno est conectado a su propia terminacin nerviosa. Los msculos que
controlan el ojo giran el globo ocular hasta que la imagen del objeto
visto queda en la fvea.
Existen tres diferentes tipos de conos; cada uno responde a una banda
distinta del espectro de la luz. Bsicamente, cada cono responde de
forma diferente a un color arbitrario, as genera un conjunto nico de
respuestas para cada color de la luz. Con estas seales de los tres tipos
de conos, el cerebro tiene la informacin con la cual forma una
percepcin distinta de un gran nmero de colores diferentes.
Las diferencias entre bastones y conos, y sus distribuciones a travs de
la retina, son responsables de diversos aspectos de la visin. Ya que los
conos que sensan el color estn concentrados en la fvea, la percepcin
del color es mejor para los objetos que se ven directamente al frente.
Recprocamente, se tiene una mnima percepcin del color para objetos
en la visin perifrica. Ya que los altamente sensitivos bastones son
abundantes por todas partes menos en la fvea, la percepcin de luz de
bajo nivel es mejor en la visin perifrica.
As, durante la noche, los objetos confusos se pueden ver por la parte
perifrica de la retina cuando son invisibles para la fvea. La relativa
13
insensibilidad de los conos cuenta adems para la incapacidad de

percibir el color bajo condiciones de poca luz, tal como en la noche.
Como la luz golpea los bastones y los conos, esta causa una reaccin
electroqumica que genera impulsos nerviosos. Estos impulsos se pasan
al cerebro por el nervio ptico. El nervio ptico es una extensin de la
retina que lo conecta al cerebro. Una pequeo punto ciego se crea en la
retina donde el nervio ptico se une. Los impulsos neuronales son
recibidos por el cerebro y procesados por la
corteza visual. La percepcin de la visin es creada dentro del proceso

de la corteza visual.
1.1.2 Respuesta a la Iluminacin y

Discriminacin
Debido a que las imgenes digitales se presentan como un conjunto de
puntos brillantes, la capacidad del ojo de discriminar entre diferentes
niveles de iluminacin es una consideracin importante para presentar
los resultados del procesamiento de la imagen.
La relacin entre la intensidad de la luz que entra al ojo y su brillo
percibido no es una funcin lineal. Esto significa que a medida que la
intensidad de una fuente luminosa cambia, el observador no percibir
un cambio igual en el brillo.
La respuesta de la intensidad real del ojo es ms logartmica, similar a la
curva de la siguiente figura. De hecho, se ha mostrado
experimentalmente que la intensidad de una fuente luminosa debe ser
cercana al doble antes de que el ojo pueda detectar que esta ha
cambiado. Por lo tanto, los cambios ligeros en la intensidad en regiones
oscuras de una imagen tienden a ser ms perceptibles que los cambios
iguales en regiones brillantes. Esta relacin que hay entre la intensidad
de la iluminacin y el brillo percibido, es conocida como Ley de Weber.
Negro
Brillo
Percibido
Blanco
Sin
lnea
14
RESPUESTA LOGARTMICA DEL OJO, LEY DE WEBER
Las siguientes figuras ilustran la Ley de Weber. Son mostradas dos

imgenes junto con sus curvas de intensidad reales. En las figuras * y
**, la intensidad de las barras asciende de izquierda a derecha en
franjas iguales. Las franjas de intensidad abarcan el rango completo de
grises desde el negro hasta el blanco.
Como se esperara de la curva en la Figura anterior, las franjas en la

regin oscura de la imagen son fcilmente perceptibles, mientras que
las franjas en la regin brillante de la imagen tienden a ser
indistinguibles. Las franjas parecen compactadas en la regin oscura de
la escala. Son evidentes dos fenmenos:
La diferencia en el brillo percibido de las franjas no parece igual.
El ojo no puede ver los mismos incrementos de intensidad en las
regiones brillantes como los ve en las regiones oscuras.
FIGURA * FRANJAS DE ESCALA DE GRISES CON FRANJAS DE IGUAL

INTENSIDAD
Blanco
Intensidad
Real
Negro
Posicin
15
FIGURA ** INTENSIDAD REAL DE LAS FRANJAS DE ESCALA DE GRISES
En las figuras que se presentan a continuacin, la intensidad de las

barras asciende de izquierda a derecha en franjas que igualan la
respuesta logartmica del ojo. Las franjas de intensidad abarcan el rango
completo de grises desde el negro hasta el blanco.
Sin embargo, en esta figura, el brillo percibido de las franjas tiende a
aparecer igualmente espaciado y bien definido en las regiones brillantes
de la imagen as como en las regiones oscuras. Las franjas parecen
tener un incremento uniforme en la intensidad.
El punto importante es que la respuesta logartmica del ojo a la
intensidad hace a este ms sensitivo a los cambios de intensidad en las
regiones oscuras que en las regiones brillantes de la imagen. En el
procesamiento digital de una imagen, un
simple oscurecimiento de las regiones brillantes

indetectables los cambios minsculos de intensidad.
pueden
hacer
FRANJAS DE ESCALA DE GRISES QUE IGUALAN LA RESPUESTA LOGARTMICA

DEL OJO
Blanco
Intensidad
Real
Negro
Posicin
Figura 6. Intensidad real de las franjas de escala de grises en la
Fig. 5
16
La capacidad del ojo para discriminar entre cambios de iluminacin para

cada nivel especfico de adaptacin tambin es de considerable inters.
Un experimento utilizado para determinar la capacidad del sistema
visual humano de discriminar la iluminacin consiste en colocar a un
sujeto observando un rea plana, uniformemente iluminada, lo
suficientemente grande para que ocupe todo el campo visual. Esta rea
es habitualmente un simple difusor, tal como un vidrio esmerilado, que
se ilumina desde atrs con una fuente de luz cuya intensidad, I , puede
variarse. A este campo se aade un incremento de iluminacin, I , en
forma de un destello de corta duracin que aparece como un crculo en
el centro del campo uniformemente iluminado, como se muestra en la
siguiente figura.
+I
MONTAJE EXPERIMENTAL EMPLEADO PARA CARACTERIZAR LA

DISCRIMINACIN DE ILUMINACIN
Si el I no es lo suficientemente brillante, el sujeto debe decir "No",

indicando que no percibe el cambio. Conforme el I aumenta, el sujeto
puede dar una respuesta positiva "Si", indicando que ha percibido un
cambio. Finalmente cuando el I sea suficientemente intenso acabar
diciendo "Si" todas las veces.
La cantidad Ic / I , donde Ic es el incremento de iluminacin
discernible el 50% de las veces con la iluminacin de fondo I , se conoce
como el cociente de Weber. Un pequeo valor de Ic / I significa que se
puede discriminar un pequeo cambio de intensidad. Esto representa
una pobre discriminacin de iluminacin.
Una representacin del log Ic / I como funcin del log I en esta
funcin se muestra que la discriminacin de iluminacin es pobre (el
cociente de Weber es grande) para niveles de iluminacin bajos, y
mejora significativamente (el cociente de Weber es decrece) conforme
crece la iluminacin del fondo. Las dos ramas de la curva reflejan el
hecho de que para niveles de iluminacin bajos la visin se realiza a
travs de los bastones, mientras que a niveles elevados (mostrando
mejor discriminacin) la visin es funcin de los conos.
Hay dos fenmenos que demuestran claramente que la iluminacin
percibida no es una simple funcin de la intensidad. Un efecto, llamado
contraste simultneo, es una ilusin por la cual el brillo percibido de una
17
regin depende de la intensidad del rea circundante. Este efecto es

demostrado en la siguiente figura.
Los cuatro cuadrados pequeos tienen intensidades idnticas, no
obstante el de la parte superior izquierda aparece ms brillante que el
de la inferior derecha.
Esto es porque el rea alrededor del cuadrado de la parte superior
izquierda es ms oscura que el rea alrededor del cuadrado de la parte
inferior derecha. El sistema visual ajusta su respuesta a la intensidad,
basado en la intensidad promedio alrededor de la vista resaltada. Ya que
la parte superior izquierda de la imagen tiene una intensidad promedio
ms oscura (ya que el fondo es ms oscuro), su cuadrado parece ms
brillante. La intensidad promedio ms brillante de la parte inferior
derecha hace que su cuadrado parezca ms oscuro.
Por consiguiente, hay una diferencia en el brillo aparente de los cuatro
cuadrados pequeos, y parecen como progresivamente ms oscuros,
conforme el fondo se hace ms claro.
CONTRASTE SIMULTNEO
Un segundo fenmeno es el efecto de bandas de Mach. Con este efecto,

el sistema visual acenta los cambios agudos de intensidad. Las Figuras
siguientes ilustran el efecto. El sistema visual tiende a sobre valorar o
infravalorar la intensidad cerca de los lmites de dos regiones con
intensidades diferentes. En la primer figura, cuando se ven las franjas
de izquierda a derecha, el brillo aparente decae justo antes de cada
franja, y parece aumentar despus de cada franja. Esto hace parecer a
la transicin de mayor amplitud que en la realidad.
En la Figura 2 se ve la intensidad real en las franjas de la escala de
grises de la Figura 1, y en la Figura 2 se observa la grfica del brillo
percibido por el ojo de la escala de grises de la Figura 1. Esta es la
forma del ojo de aadir realce al contorno para las transiciones de
intensidad. El sistema visual realmente intensifica todo lo que ve, dando
una agudeza visual mejorada.
18
FIGURA 1 ESCALA DE GRISES
Blanco
Intensidad
Real
Negro
Posicin
FIGURA 2 INTENSIDAD REAL DE LAS FRANJAS DE ESCALA DE GRISES DE LA

FIG.1
El sistema visual tiene limitaciones fundamentales en la respuesta en

frecuencia. Como en cualquier sistema ptico, el ojo tiene limites de
cmo puede resolver detalles finos, o transiciones de intensidad. Los
factores limitantes son el nmero y organizacin de los fotorreceptores
en la retina, la calidad de la parte ptica del ojo (crnea, humor acuoso,
cristalino, y humor vtreo), y la transmisin y procesamiento de la
informacin visual al cerebro.
Generalmente, la respuesta en frecuencia del ojo disminuye a medida
que se ven transiciones de intensidad, que se vuelven cada vez ms
finas, como se ve en la siguiente figura. Es tambin un factor el
contraste, o diferencia entre niveles de gris, de la transicin de
intensidad. Entre ms alto el contraste, ms fino es el detalle que el ojo
puede resolver. Finalmente, cuando las transiciones estn demasiado
finas o el contraste es demasiado bajo el ojo ya no puede resolverlos. En
este punto, el ojo puede percibir slo un promedio del nivel de gris del
rea detallada.
PATRN QUE INCREMENTA LA FRECUENCIA DE IZQUIERDA A DERECHA Y

DECREMENTA EL CONTRASTE DE ARRIBA ABAJO
19
El fenmeno discutido ilustra el complejo proceso que ocurre en el

sistema visual humano. Combinando los conceptos de respuesta de
intensidad no lineal, interaccin del fotorreceptor y respuesta en
frecuencia del ojo, se pueden hacer unas observaciones:
La intensidad del objeto visto es relacionada a la intensidad
promedio alrededor del objeto. El objeto aparece ms oscuro si el
rea circundante es brillante, o ms brillante si el rea circundante
es oscura.
Los cambios sutiles de intensidad son mas aparentes en las
regiones oscuras que en las regiones brillantes de la imagen.
Las transiciones marcadas de intensidad se acentan en una imagen. La
respuesta a los detalles de la imagen decae cuando los detalles a
resolver son demasiado finos. Los detalles con contraste alto se pueden
resolver mas fcilmente que aquellos con contraste bajo.
1.1.3 Visin de color

El ojo no es uniformemente sensible a todo el espectro visible.
Se dice que la luz de una sola longitud de onda es monocromtica. Por
nuestra aptitud para distinguir una variedad de diferentes colores se
puede suponer que existen diferentes tipos de conos en la retina, y que
cada tipo est "sintonizado" a una pequea banda de frecuencia. Si los
conos fuesen monocromticos de esta manera, entonces la impresin
de un color dado podra ser nicamente producido por la energa
electromagntica que tuviese la longitud de onda apropiada. Sin
embargo, esto no es cierto. La luz monocromtica brillante que
impresiona a la retina no es la nica manera de crear una impresin de
color dada. Por ejemplo, algunos amarillos monocromticos pueden ser
adaptados por la llegada simultanea a la retina de luz roja y verde. Casi
todos los colores pueden ser obtenidos mezclando slo tres luces de
color. A estos colores se les llama "primarios" y los que se usan son el
rojo, el verde, y el azul.
El comportamiento del ojo es consistente con los tres tipos de conos
nicamente, teniendo cada uno una curva diferente de respuesta. Las
tres curvas de respuesta se solapan de manera que todos los colores
estn debajo de cualquier curva de ellas, o bien parcialmente debajo de
dos, o de las tres curvas.
Para que se pueda ver el color, tiene que llegar al ojo la energa
electromagntica. Se ve un objeto por la luz reflejada desde l. Si
parece verde a la luz del da, entonces esto debe implicar que aunque
20
est baado de luz natural "blanca", es solamente la reflexin de la

parte verde de la luz la que llega a los ojos. El resto del espectro es
"absorbido". Por consiguiente un objeto parece coloreado a causa de
que slo refleja parte del espectro visible y absorbe el resto. El color
procede de la luz incidente. La hierba no parece verde bajo iluminacin
de sodio a causa de que en ella no hay luz verde que pueda ser
reflejada.
1.1.4 Mezcla aditiva de colores.

Los colores se pueden obtener haciendo una mezcla de los tres colores
primarios, rojo, verde y azul, esta mezcla se denomina aditiva. Un
ejemplo de la mezcla aditiva de estos tres colores es el siguiente:
Al mezclar los colores primarios en diferentes proporciones, se puede
obtener casi cualquier otro color. Los colores amarillo, magenta y cian
se conocen como colores complementarios. Si se aade un
complementario en proporciones adecuadas a uno primario no
contenido en l (por ejemplo amarillo+azul), se produce blanco. En la
siguiente figura se puede observar la mezcla aditiva de colores.
MEZCLA ADITIVA DE COLORES
Rojo + Verde = Amarillo

Rojo + Azul = Magenta
Azul + Verde = Cian
21
Rojo + Azul + Verde = Blanco
2. Introduccin
El procesamiento de imgenes realizadas por un computador se conoce
como procesamiento digital de imgenes y se utiliza para analizar
una imagen o para transformarla en una imagen nueva.
El procesamiento digital de imgenes, es una disciplina que desarrolla
las bases tericas y algortmicas mediante las cuales pueda extraerse
informacin del mundo real, de manera automtica a partir de una
imagen observada, de un conjunto de imgenes o de una secuencia. Tal
informacin pudiera relacionarse con el reconocimiento de objetos
genricos, descripciones tridimensionales del mismo, posicin y
orientacin del objetos o la medicin de cualquier propiedad espacial tal
como la distancia entre dos puntos bien definidos o la seccin
transversal del objeto.
En la actualidad el campo del procesamiento digital de imgenes est
en continua evolucin; en los ltimos aos ha aumentado
significativamente el inters en la morfologa de imgenes, el
procesamiento de imgenes en color, la compresin el
reconocimiento de imgenes y los sistemas inteligentes de imgenes.

Ha este conjunto de tareas se le ha denominado procesamiento o
tratamiento de imgenes.
El inters por los mtodos de procesamiento de imgenes deriva de dos
reas principales de aplicacin: la mejora de la informacin pictrica
para la interpretacin humana, y el procesamiento de datos para la
percepcin autnoma por una mquina.
A inicios de la dcada de 1920 surgen las primeras aplicaciones para el
procesamiento de imgenes, pero con el advenimiento combinado de
las computadoras digitales de gran potencia se puso de manifiesto el
potencial del tratamiento digital de imgenes, dndose hasta la
actualidad un vigoroso proceso en esta rea, actualmente la tcnica de
procesamiento de imgenes tiene varias aplicaciones en medicina,
geografa, arqueologa, fsica, qumica aplicaciones industriales, etc.
El uso de la computacin en diferentes dominios, ha permitido sofisticar
la naturaleza del procesamiento de las imgenes, con el propsito de
extraer al mximo, cualquier informacin disponible en las mismas que
pueda ser de utilidad o como herramienta.
22
Una imagen digital es una imagen f(x ,y) que se ha discretizado tanto
en coordenadas espaciales como en el brillo; as pues una imagen
digital puede considerarse como una matriz cuyos ndices de fila y
columna identifican un punto de la imagen y el valor del
correspondiente elemento de la matriz indica el nivel de gris en ese
punto. Los elementos de una distribucin digital de este tipo se
denominan elementos de la imagen o mas comnmente pixeles
picture elements. Si las dimensiones de la matriz que representa la
imagen son MxN, se debiera establecer un ndice n, que denotara la
posicin sobre las columnas y pudiera variarse entre 0 y N - 1, de igual
forma un ndice m que denote la posicin sobre las filas, y que pudiera
tomar valores entre 0 y M -1.
Las tcnicas de procesamiento digital aplicadas sobre cierta regin de
una imagen, que involucran el anlisis de la informacin que poseen los
puntos ubicados alrededor del que se desea estudiar, son comnmente
denominadas Tcnicas de Procesamiento por rea o Regin.
2.1 Etapas Fundamentales del Procesamiento de

Imgenes
Esquema de
Imgenes.
las
etapas
fundamentales
Segmentaci
n
del
Procesamiento
Representaci
ny
Descripcin
Preprocesad
o
Base de Conocimiento
Reconocimient
oe
Interpretacin
Adquisicin
de imgenes
23
de
2.1.1
Adquisicin de la imagen
Para adquirir una imagen es necesario un sensor de imgenes y la

posibilidad de digitalizar la seal producida por el sensor (digitalizador).
El sensor puede ser una cmara de video, fotodetectores, cmaras de
barrido de lneas que produzca una imagen cada vez. La digitalizacin
se hace por medio de un escner u otro tipo de digitalizacin.
2.1.2
Preprocesamiento de la Imagen
La funcin bsica del preprocesamiento es de mejorar la imagen de

formas que se aumenten las posibilidades de xito en los procesos
posteriores. El preprocesasmiento trata tpicamente de las tcnicas de
mejorar el contraste, correccin de distorsiones geomtricas o
fotomtricas por un sensor o de la niebla surgida por la inestabilidad de
la cmara.
2.1.3
Segmentacin
La Segmentacin consiste en partir una imagen en sus partes

constituyentes u objetos. En general, la segmentacin es una de las
labores ms difciles del procesamiento digital de imgenes. Por otra
parte, un procedimiento de segmentacin demasiado tosco, dilata la
solucin satisfactoria de un problema de procesamiento.
2.1.4
Reconocimiento e Interpretacin
El Reconocimiento es el proceso que asigna una etiqueta a un objeto

basndose en la informacin proporcionada por sus descriptores.
La interpretacin implica asignar un significado a un conjunto de objetos
reconocidos.
3. Un Modelo de Imagen
El termino de imagen se refiere a una funcin bidimensional de la luz y
la intensidad, ala que se la indica por f(x,y), donde el valor de la
amplitud f en las
coordenadas espaciales (x,y) da la intensidad
(iluminacin) en ese punto . Puesto que la luz es una forma de energa
tenemos:
0 < f(x,y) <
24
Las imgenes que se perciben e las actividades visuales cotidianas

provienen normalmente de la luz reflejada por objetos, f(x,y) puede
bsicamente estar caracterizada por dos componentes:
Componente de Iluminacin: Es la cantidad de la luz incidente
procedente de la fuente sobre la escena contemplada, denotada por
i(x,y).
Componente de Reflactancia: Es la cantidad de luz relejada por
los objetos de la escena , denotada por r(x,y).
Entonces f(x,y) esta dada por las combinaciones de i(x,y) y r(x,y) de la
siguiente forma:
f(x,y)= i(x,y)r(x,y) con 0 < i(x,y) <
y 0 < r(x,y) < 1
Es interesante observar como el componente de reflactancia es una

funcin acotada entre 0 (absorcin total), as pues i(x,y) est
determinada por la fuente de luz y r(x,y) esta determinada por las
caractersticas propias de los objetos de la escena
3.1 Muestreo y Cuantificacin

Una funcin f(x,y) para ser utilizada dentro del procesamiento d
Imgenes debe ser digitalizada tanto espacialmente como en su
amplitud. A la digitalizacin de
las coordenadas espaciales (x,y) se denomina muestreo de la imagen y

la digitalizacin de la amplitud se conoce como cuantificacin del nivel
de gris.
Se supone que una imagen continua f(x,y) se describe de forma
aproximada por una srie de muestras igualmente espaciadas
organizadas en la forma de una matriz NxM donde cada elemento de la
matriz es conocido como pxel o pel.
f(x,y) =
f(0,0).... f(0,1)........ f(0,M-1)

f(1,0).... f(0,1)........ f(0,M-1)
.
.
.
f(N-1,0).......f(N-1,M-1)
El proceso de digitalizacin de una imagen necesita decisiones sobre los

valores para N,M y el nmero de niveles de gris permitidos para cada
25
pxel. Es comn que estos valores sea potencias de 2, es decir N =2 n , M

= 2k y G = 2m donde G indica el nmero de niveles de gris.
A s entonces el nmero de b de bits necesarios para almacenar una
imagen digitalizada, es:
b=NxMxm
Es razonable preguntarse: Qu muestreo y cuantos niveles de gris son
necesarios para una buena aproximacin de la imagen original?. La
resolucin depende estrechamente de estos dos parmetros. Cunto
ms se incrementan ms se aproxima a la imagen digitalizada a la
imagen original. Sin embargo cabe notar que el almacenamiento y
consecuentemente
las necesidades de procesamiento crecen
rpidamente en funcin de M, N y m.
3.2 Relaciones entre pixels.

Una imagen esta definida por f(x,y), cuando hagamos referencia a un
pxel mplearemos las letras p,q y un subconjunto de pixels de f(x,y) se
denominara S.
3.2.1
Vecinos de un Pixel
Un pxel p de coordenadas (x,y) tiene cuatro vecinos horizontales y

verticales cuyas coordenadas vienen dadas por :
(x+1,y),(x-1,y),(x,y+1),(x,y-1)
y se representa por ND(p). Estos puntos junto a los 4 vecinos se

denominan los 8 vecinos de p y se representan por N 8(p). Como es
lgico los pixels que se encuentren en los bordes de la imagen caern
fuera de la imagen.
3.2.2
Conectividad
La conectividad entre pixels es un concepto importante para establecer

los lmites de los objetos y los componentes de reas en una imagen.
Para determinar si dos pixels son adyacentes en algun sentido (como
ser 4 vecinos) y si sus niveles de gris cumplen un criterio especificado
de similitud (como ser iguales).
26
Sea V el conjunto de valores de gris empleados para definir la

conectividad, por ejemplo e una imagen con escala de grises
comprendidas en un rango de 32 a 64, se tiene V={32,33,....64} se
consideran 3 tipos de conectividad 4-conectividad: dos pixels p y q con valores dentro de V estn 4conectados si q N4(p)
8-conectividad: dos pixels p y q con valores dentro de V estn 8conectados si q N8(p)
m-conectividad: (conectividad mixta), dos pixels p y q con
valores dentro de V estn m-conectados si
N4(p), o bien
q ND(p), y adems el conjunto N4(p)

vaco
N4(q) es
Un pxel p es adyacente a un pxel q si estn conectados. Se puede

definir 4,8, m adyacencia , dependiendo del tipo de conectividad
especificada. Dos conjuntos de la imagen S1 y S2 son adyacentes si
algn pxel de S1 es adyacente a algn pxel de S2.
Un camino desde el pxel de coordenadas (x,y) al pxel q de
coordenadas (s,t) es una sucesin de diversos pixels de coordenadas:
(x0,y0), (x1,y1),........ ,(xn,yn)
donde (x0,y0) = (x,y) y (xn,yn) = (s,t), (xi,yi) es adyacente a (xi-1,yi-1), 1
i n, n es la longitud del camino. As se puede definir 4,8 y m caminos,
dependiendo del tipo de adyacencia especificado.
Si p y q son pixels de un subconjunto S especificado de la imagen, se
dir que p est conectado con q dentro de S si existe un camino desde p
hasta q que consista totalmente de pixels de S. Para cualquier pxel p
dentro de S, el conjunto de pixels
de S conectados a p se denomina componente conexa S del conjunto

de pixels de S conectados a p. Por tanto cualquier par de pixels de una
misma componente conexa estn conectados entre s y componentes
conexas son disjuntas.
3.2.3
Etiquetado de Componentes Conexas
Imaginmonos el barrido de una imagen pxel a pxel, de izquierda a

derecha y de arriba hacia abajo y supngase que por el momento,
27
estamos interesados en componentes 4-conexas. Sea el pxel en cada

proceso de barrido y sean r y t los vecinos superior e izquierdo de p,
respectivamente. La naturaleza de la secuencia de barrido asegura que
cuando se llega a p, los puntos r y t ya han sido encontrados.
Considrese el proceso siguiente:
Si el valor de p es 0, simplemente se continua hasta la siguiente
posicin de barrido. Si el valor de p es 1, se examinara r y t .Si ambos
son 0, se asigna una nueva etiqueta a p (basndose en la informacin
presente, es la primera vez que se ha encontrado esta componente
conexa).
Si solo uno de los vecinos es igual a 1, se asigna su etiqueta p. Si
ambos son 1 y tiene la misma etiqueta, se asigna esta etiqueta a p. Si
ambos son 1 y tienen la diferentes etiquetas, se asigna una de las
etiquetas a p y una nota de que ambas etiquetas son equivalentes (es
decir los puntos r y t estn conectados a travs de p). Al final del
barrido, todos los puntos con valor igual a 1 han sido etiquetados,
aunque algunas de estas etiquetas puedan ser equivalentes.
Todo lo que necesita hacer ahora es clasificar todos los pares de
etiquetas equivalentes en clases de equivalencia, asignar una etiqueta
diferente a cada clase y luego dar una segunda pasada a travs de la
imagen reemplazando cada etiqueta asignada a su clase de
equivalencia.
Para etiquetar componentes 8-conectadas se debe proceder de la
misma forma, pero ahora los vecinos diagonales superiores, indicados
por q y s tambin han de ser examinados. La naturaleza de la secuencia
de barrido asegura que estos vecinos hayan sido procesados en el
momento que se llegue al punto p. Si p es 0 ser necesario moverse a la
siguiente posicin de barrido. Si p es 1 y los restantes cuatro vecinos
son todos 0, ha de asignarse una nueva etiqueta a p. Si nicamente uno
de los vecinos es 1, entonces ha de asignarse su etiqueta a p. Si dos o
ms vecinos son 1, ha de asignarse una de sus etiquetas a p y ha de
hacerse una anotacin oportuna de las equivalencias.
Tras completar el barrido de la imagen, se han de convertir los pares de
etiquetas equivalentes en clases de equivalencia, asignando una nica
etiqueta para cada
clase. Finalmente se realiza un segundo barrido de la imagen,

cambiando cada etiqueta por la etiqueta asignada a su clase de
equivalencia.
28
3.2.4
Relaciones, equivalencia y clausura

transitiva
El algoritmo de etiquetado presentado anteriormente sugiere la utilidad

de herramientas formales para gestionar relaciones y equivalencias en
el procesamiento de los pixels.
Una relacin binaria R en un conjunto A es un conjunto de pares de
elementos de A. Si el par (a,b) pertenece a R. Se dice que a esta
relacionado con b y normalmente se representar como aRb.
Se dice que una relacin binaria R en un conjunto A es:
Reflexiva: si para cada a de A, aRa
Simtrica: si para cada a,b de A, aRb implica bRa
Transitiva: si para cada a,b,c de A, aRb y bRc implica aRc
Una relacin que satisfaga estas tres propiedades se denomina relacin
de equivalencia. Una propiedad importante de las relaciones de
equivalencia es que si R es una relacin de equivalencia sobre un
conjunto A, entonces A puede ser dividido en k subconjuntos disjuntos,
denominados clases de equivalencia donde k puede valer entre 1 e
infinito, ambos inclusive de forma que aRb si y solo s a y b estn en el
mismo subconjunto.
Resulta til expresar una relacin en trminos de una matriz binaria. Por
ejemplo, siendo R = {(a,a), (a,b), (b,d), (d,b), (c,e)} se obtiene la matriz:
B=
1
0
0
0
0
1
0
0
1
0
0
0
0
0
0
0
1
0
0
0
0
0
1
0
0
donde se ha colocado un 1 en las posiciones correspondientes a

elementos que estn relacionados y un 0 en caso contrario. Si la
relacin en cuestin fuese reflexiva, todos los trminos de la diagonal
seran 1, si R fuese simtrica, la matriz B sera simtrica.
Como se indico anteriormente, la transitividad implica que si aRb y bRc

entonces aRc. En el ejemplo presentado a esta relacionado con d debido
a que (a,b) y (b,d) pertenecen a R. El conjunto que contiene estas
29
relaciones implcitas se denomina la clausura transitiva de R y se

representa por R+ . En este caso
R+ = {(a,a), (a,b), (a,d), (b,b), (b,d), (d,b), (d,d), (c,e)}
El hecho de que este conjunto incluya pares (b,b) y (d,d) se deduce de
la propia definicin de la transitividad. Expresado lo ltimo en forma
matricial:
B+ =
1
0
0
0
0
1
1
0
1
0
0
0
0
0
0
1
1
0
1
0
0
0
1
0
0
donde los elementos que tienen el valor de 1 determinan los miembros

de la clausura transitiva de R+.
3.2.5
Medidas de Distancia
Para los pixels p,q,r de coordenadas (x,y), (s,t) (u,v) respectivamente, D

es una funcin de distancia si:
D(p,q) 0 (D(p,q)= 0 si y solo si p=q)
D(p,q)= D(q,p) y
D(p,r) D(p,q)+ D(q,r)
La Distancia Euclideana entre p y q est definida por:

De(p,q)= [(x-s)2+(y-t)2]1/2
La Distancia D4 denominada city-block entre dos punto p y q est
definida por:
D4(p,q)= [|x-s|+ |y-t|]
La Distancia D8 denominada distancia de tablero de ajedrez entre dos
punto p y q est definida por:
D8(p,q)= max(|x-s|,|y-t|)
30
3.2.6
Operaciones Aritmtico Lgicas
Las operaciones aritmticas y lgicas entre pixels son muy utilizadas

en el procesamiento de imgenes.
Las operaciones aritmticas entre dos pixels p y q son las siguientes:
Adicin
p+q
Sustraccin
p+q
Multiplicacin p+q
Divisin
p+q
Las operaciones aritmticas sobre imgenes completas se realizan pxel

a pxel. El principal empleo de la adicin de imgenes es la reduccin de
distorsiones (ruido)
mediante el promediado de imgenes. La
Sustraccin de imgenes es una herramienta bsica en el
procesamiento de imgenes mdicas, donde se emplea para eliminar la
informacin esttica de fondo. Uno de los principales empleos de la
multiplicacin (divisin) de imgenes consiste en corregir las
variaciones de los niveles de gris que se deben a una iluminacin no
uniforme o a la respuesta desigual del sensor para captar la imagen.
Las operaciones lgicas empleadas en el procesamiento de imgenes
son el Y lgico (AND), el O lgico (OR) y el complemento lgico
representado por:
Y:
p and q
O:
p or q
Complemento: Not p
Estas operaciones son funcionalmente completas en el sentido que
pueden ser combinadas para formar cualquier otra operacin lgica. Las
operaciones lgicas son herramientas bsicas para el procesamiento de
imgenes binarias, donde se emplean tareas como el enmascaramiento,
la deteccin de caracteres y el anlisis de formas.
Adems el procesamiento de imgenes enteras pxel a pxel, las
operaciones aritmticas y lgicas puede emplearse en operaciones
orientadas a los vecinos. E l procesamiento de vecinos se formula
habitualmente en el contexto de las denominadas mscaras (filtros) u
operaciones de enmascarado. La idea de las operaciones con mscaras
consiste en permitir que el valor asignado a un determinado pxel sea
una funcin de su propio nivel de gris y de los niveles de grises de sus
vecinos.
31
3.3 Geometra de la Imagen

3.3.1
Transformaciones Bsicas
Todas las transformaciones estn expresadas en un sistema de

coordenadas cartesiano tridimensional (3-D), en el que las coordenadas
de un punto genrico se representan por (X,Y,Z), mientras que en un
plano bidimensional (2-D) representaremos a (x,y) coordenadas de un
pxel.
Traslacin
Suponga que se trata de trasladar un punto de coordenadas (X,Y,Z) a

un nuevo emplazamiento, empleando unos desplazamientos
(X0,Y0,Z0). La traslacin se realiza fcilmente empleando las
ecuaciones siguientes.
X* = X + X0
Y* = Y + Y0
Z* = Z + Z0
Donde (X*,Y*,Z*)
don las coordenadas del nuevo punto. Esta
ecuacin puede expresarse en forma matricial como:
X*
Y*
Z*
1
0
0
0
1
0
0
0
1
X0
Y0
Z0
X
Y
Z
1
Esta ecuacin puede escribirse tambin de la forma:
X*
Y* =
Z*
1
1
0
0
0
1
0
0
0
1
X0
Y0
Z0
X
Y
Z
1
Ahora tenemos la siguiente representacin matricial v*=Av

Donde A es una matriz de Transformacin 4x4, v es un vector de
columna que contiene las coordenadas originales:
v=
32
X
Y
Z
1
Y v* es un vector columna cuyos componentes son las coordenadas
transformadas:
v=
X*
Y*
Z*
1*
XXXXXDDD
Con esta notacin la matriz empleada para la Traslacin es :
T=
1
0
0
0
0
1
0
0
0
0
1
0
X0
Y0
Z0
1
y el proceso de Traslacin se completa empleando la ecuacin
v*= Tv
Rotacin
Las transformaciones empleadas para la rotacin tridimensional son

intrnsicamente ms complicadas que las transformaciones
anteriores. La forma ms simple de estas transformaciones es la
rotacin de un punto sobre un eje de coordenadas. Para girar un
punto alrededor de otro punto arbitrario del espacio se requieren tres
transformaciones:
Trasladar ese punto arbitrario hasta el origen
Realizar la rotacin
Trasladar ese punto de nuevo a su posicin original
La rotacin de un punto un ngulo alrededor del eje de

coordenadas Z se logra empleando la transformacin
33
cos
- sen
0
0
0
0
sen
cos
1
0
0
0
0
1
0
0
El angulo de rotacin cos se mide en el sentido de las agujas del

reloj cuando se mira el origen desde un punto sobre el eje +Z. Esta
transformacin afecta nicamente a los valores de las coordenadas X
e Y.
La rotacin de un punto sobre el eje X con un ngulo
empleando la transformacin.
1
0
0
0
se realiza
0
0
0
cos
sen
0
-sen
cos 0
0
0
1
Finalmente la rotacin de un punto, un ngulo alrededor del eje Y

se consigue mediante la transformacin:
cos 0
0
1
sen
0
0
- sen 0
0
0
0
cos 0
0
1
La aplicacin de varias transformaciones puede representarse por una

nica matriz de transformacin 4x4. Por ejemplo, la traslacin, cambio
de escala y rotacin sobre el eje Z de un punto v vienen dados por:
v* = R (S(Tv))
v* = Av
donde A es la matriz 4x4, A= R ST. Estas matrices generalmente no
son conmutativas, por lo que el orden de aplicacin es importante.
Cuando hablamos de una transformacin simultanea de un conjunto m
de puntos hacemos l anlisis como cuando trabajamos con un punto. Si
se considera v1, v2 , vn las coordenadas de los m puntos. Para una matriz
4xm, V cuyas columnas sean estos vectores columna, la transformacin
simultnea de todos estos puntos por medio de una matriz de
transformacin 4x4 A esta dado por:
34
V*=AV
Matrices Inversas:
Son aquellas que realizan la transformacin
opuesta y que pueden ser obtenidas por inspeccin. Ejemplo matriz
inversa de traslacin
T=
1
0
0
0
0
1
0
0
0
0
1
0
- X0
- Y0
- Z0
1
Transformaciones de Perspectiva
Una
transformacin
de
perspectiva
tambin
denominada
transformacin
de
imagen
proyecta
puntos
del
espacio
tridimensional sobre un plano. Estas desempea un importante papel
en el campo del procesamiento de imagen por cuanto proporcionan
una aproximacin al modo en que se forma una imagen viendo el
mundo tridimensional.
Sean (X,Y,Z) las coordenadas globales de cualquier punto en un
escenario tridimensional (Supondremos que Z> ). Nuestro primer
paso es obtener una relacin que proporcione las coordenadas (x,y)
de la proyeccin del punto sobre el plano imagen. Esto conseguimos
usando la semejanza de tringulos as:
x
x
x
Z Z
Y
Y
Y
Z Z
As las coordenads en el plano del punto tridimensional son

x
x
y
y y
Z
Z
El siguiente es dar una notacin matricial a las coordenadas, usando

coordenadas homogneas de un punto con coordenadas cartesianas,
(X,Y,Z) se define como (k X, kY,kZ, k) donde k es una constante
arbitraria no nula. En el sistema de coordenadas cartesianas globales
un punto se representar en forma vectorial como:
w=
X
Y
35
Z
Y su correspondiente en coordenadas homogneas es:
Wk =
kX
kY
Kz
k
Si definimos la matriz de transformacin de perspectiva como:
P=
1
0
0
0
0
1
0
0
0
0
1
-1/
0
0
0
1
El producto P W k da un vector que se representa por Ck:

1
0
0
0
Ck = P W k =
0
1
0
0
0
0
1
-1/
0
0
0
1
kX
kY
Kz
k
kX
kY
Kz
- Kz/ +k
Los elementos de Ck , son las coordenadas de la cmara homognea,

para converti estas coordenadas a foma cartesiana dividimos las tres
primeras coordenada por la cuarta, obteniendo as que:
C=
0
1
X
Y
Z
X/( -Z)
Y/( -Z)
Z/( -Z)
Las dos primeras coordenadas de c son las coordenadas (x,y) en el

plano de la imagen de la proyeccin de un punto (X,Y,Z) del espaciop
tridimensional. La t5ercera componente carece de iters para
nuestro modelo, sin embargo a contiuacin se presentar qu esta
componente acta como una variable libre en la transformacin
inversa de perspectiva.
La transfomacin inversa de perspectiva convierte un punto de la
imagen nuevamente al espacio tridimensional as:
Wh = P-1 Ch
donde P 1 es:
36
1
0
0
0
P=
0
1
0
0
0
0
1
1/
0
0
0
1
supongamos ahora que un punto de la imagen tiene las coordenadas

(x0,y0,0) donde el 0 en la posicin z indica simplemente que el plano
de la imagen est situado en z= 0. Este punto puede verse en forma
de un vector homogneo como:
Ch =
kx0
k y0
0
k
La aplicacin de la transformada inversa da entonces el vector en el

sistema homogneo de coordenadas globales:
Wk =
kx0
k y0
0
k
o en coordenadas cartesianas:
C=
i.
X
Y
Z
x0
y0
0
Este resultado es evidentemente inesperado porque da Z=0 para

cualquier pundo 3-D; problema que es causado porque varios puntos
de la imagen en 3-D concurren a un solo punto en el plano.
L punto imagen (x0,y0) corresponde al conjunto de puntos
tridimensionales alineados sobr la recta que pasa por (x0,y0,0) y
(0,0, ). Las ecuaciones de esta recta, en el sistema de coordenadas
globales son:
X= (x0 / ) ( -Z) y Y= (y0 / ) ( -Z)
Estas ecuaciones muestran que hay que conoce algo mas sobre el
punto que se ha generado en la imagen. Esta observacin, puede
37
utilizarse para formular la transformacin de la perspectiva inversa,

empleando la componente z de c como una variable libre, en lugar
de tomarla igual a 0. Por tanto , haciendo:
kx0
k y0
kz
k
Ck =
se deduce que:
kx0
k y0
kz
(kz/ )+k
Wk =
lo que tras convertido a coordenadas cartesianas, da:
W=
X
ii. Y
Z
x0/( +Z)
y0/( +Z)
z0/( +Z)
En otras palabras, considerando z como una variable libre, se obtiene

las ecuaciones:
X = x0/( +Z)
Y = y0/( +Z)
Z = z0/( +Z)
Despejando z en la funcin de Z en la ltima ecuacin y
sustituyendo este resultado en las primeras expresiones, se obtiene:
X = (x0/ ) ( -Z)
Y = (y0/ ) ( +Z)
Lo que indica que para recuperar un punto 3-D de su imagen por
medio de la transformacin inversa, necesita el conocimiento de al
menos las coordenadas globales del punto.
4. Mejora de la Imagen
El objetivo principal de las tcnicas de mejora es procesar una imagen
de forma que resulte ms adecuada que la original en una aplicacin
especfica.
38
Los tratamientos de mejora en la imagen corresponden a dos categoras

bsicas:
Mtodos en el Dominio Espacial
Mtodos en el Dominio de Frecuencia.
4.1 Mtodos en el Dominio Espacial

El trmino dominio espacial se refiere al conjunto de pixels que
componen una imagen y los mtodos en el dominio espacial son
procedimientos que operan directamente sobre los pixels. Las
funciones de procesamiento de las imgenes en el dominio espacial
pueden expresarse como:
g(x,y)= T[f(x,y)]
donde:
f(x,y) es la imagen de entrada
g(x,y) es la imagen procesada
T un operador que acta sobre f definida en algn entorno (x,y)
La aproximacin principal para definir un entorno alrededor de (x,y) es
emplear un rea de subimagen cuadrada o rectangular centrada en
(x,y) como s muestra a continuacin:
y
(x,y)
Imagen
1
x
E
ENTORNO 3X3 ALREDEDOR DE UN PUNTO (X,Y) DE UNA IMAGEN
s=T(r)
El centro de la subimagen se mueve pxel a pxel comenzando, por

ejemplo en la esquina superior izquierda y aplicando el operador a cada
posicin (x,y) para obtener g.
Oscuridad < - > luz
COCOMM
39
m
Oscuridad < - > luz
FUNCIN DE TRANSFORMACIN, DISTRIBUCIN BIDIMENSIONAL
4.2 Mtodos en el Dominio de Frecuencia

El dominio de frecuencia se basa en la manipulacin de la
Transformada de Fourier de una imagen.
NOTA: Sea f(x,y) una funcin continua de la variable real x. La
Transformada de Fouier de f(x) indicada por: F{f(x)}, se define por la
ecuacin:
F{f(x)}= F(u) =
f ( x)
e[-i2max]dx
Donde i=(-1)1/2
Las tcnicas en el dominio de frecuencia utilizan el teorema de
convolucin. Sea g(x,y) una imagen formada por la convolucin de
una imagen f(x,y) y un operador lineal invariante de posicin (Un
operador invariante de posicin es aquel cuyo resultado solo
depende del valor de f(x,y) en un punto de la imagen y no de la
posicin del punto ) h(x,y), es decir:
g(x,y) = h(x,y)*f(x,y)
Entonces por el teorema de la convolucin, se cumple la siguiente
relacin en el dominio de de la frecuencia:
G(u,v) = H(u,v)*F(u,v)
Donde G,H y F son las transformadas de Fourier de g,h y f
respectivamente.
En una aplicacin tpica de mejora de imagen , f(x,y) es conocida y el
objetivo, despus de calcular F(u,v) es seleccionar H(u,v) que ponga
nfasis en los componentes de alta frecuencia de F(u,v).
La funcin h(x,y) caracteriza un sistema cuya misin es la de producir
una imagen de salida g(x,y) a partir de la imagen de entrada f(x,y);
40
h(x,y) se denomina frecuentemente mscara de convolucin espacial.

La siguiente figura explica el funcionamiento d los mtodos en el
dominio de frecuencia.
f(x,y)
h(x,y)
g(x,y)
(a)
F(u,v)
h(x,y)
G(u,v)
(b)
En la figura (a) , h(x,y) caracteriza un sistema cuya misin es la de
producir una imagen de salida (g(x,y) a partir de una imagen de entrada
f(x,y)) . El sistema realiza la convolucin de h(x,y) con la imagen de
entrada y da el resultado como salida. El teorema de convolucin
permite una visin diferente del proceso en el sentido de que el mismo
resultado se obtienen multiplicando F(u,v) por H(u,v) para dar G(u,v) .
Tomando la transformada de Fourier inversa de la salida se obtiene la
imagen deseada.
4.3 Mejora por Procesamiento de punto

A continuacin se presentan tcnicas de mejora de imagen
considerando los mtodos de procesamiento que se basan slo en la
intensidad de pixels individuales.
Notaremos p y r la intensidad de los pixels antes y despus del
procesamiento, respectivamente.
Transformaciones de Intensidad
4.3.1
Negativos de Imgenes
Los negativos de imgenes digitalizadas son tiles en numerosas

aplicaciones, como la representacin de imgenes mdicas y en la
obtencin de fotografas de una pantalla con pelcula monocroma con la
idea de emplear negativos resultantes como diapositivas normales. El
negativo de una imagen digital se obtiene empleando la funcin de
transformacin s = T(r) que se muestra en la siguiente figura donde L
representa el nmero de niveles de gris.
41
La idea es invertir el orden de blanco a negro, de forma que la

intensidad de la imagen de salida disminuya conforme a la intensidad
de la imagen aumente.
L-1
T(r)
L-1
FUNCIN DE TRANSFORMACIN
4.3.2
Aumento del Contraste
Las imgenes con poco contraste pueden ser debidas a diversas causas,
como iluminacin deficiente
o incluso incorrecta seleccin de la
apertura de la lente durante la captacin de la imagen. La idea
subyacente en las tcnicas de aumento del contraste consiste en
incrementar el rango dinmico de los niveles de gris de la imagen que
se esta procesando, en la siguiente figura se muestra una
transformacin tpica empleada para la mejora del contraste. La
ubicacin de los puntos (r1,s1) y (r2,s2) controla la forma de la funcin de
transformacin . Por ejemplo si r1=s1 y r2=s2 , la transformacin es una
funcin lineal que no produce cambios en los niveles de gris. Si r 1= r2 y
s1= 0 y s2 =L-1, la transformacin se convierte en una funcin umbral
que crea una imagen binaria. Los valores intermedios de (r 1,s1) y (r2,s2)
producen varios grados de dispersin de los niveles de gris de la imagen
de salida, afectando de esta forma al contraste. En general, se supone
que r1, r2 y s1 s2 de forma que la funcin sea de valor nico y
montonamente creciente. Esta condicin mantiene el orden de nivel de
gris y de
esta forma evita la creacin de extraas distribuciones de intensidad en

la imagen procesada.
L-1
(r2,s2)
T(r)
42
(r1,s1)
r
L-1
FUNCIN DE TRANSFORMACIN DE AUMENTO DE CONTRASTE
4.3.3
Comprensin del rango dinmico
A veces el rango dinmico de una imagen procesada excede

ampliamente la capacidad del dispositivo de presentacin, en cuyo caso
slo las partes ms brillantes de la imagen aparecern en la pantalla.
Esto ocurre frecuentemente cuando se trata de registrar la imagen en
una pelcula.
Una manera efectiva de comprimir el rango dinmico de los valores de
cada pixel consiste en realizar la siguiente transformacin de
intensidad:
s = c log(l + |r|)
donde c es un factor de escala y la funcin logaritmo realiza la
compresin deseada.
4.3.4
Fraccionamiento del Nivel de Gris
A menudo se desea destacar un rango especfico del nivel de gris de

una imagen. Entre estas aplicaciones se encuentran la mejora de rangos
como las masas de agua en las imgenes satlite o la mejora de efectos
en las imgenes de rayos X. Hay varias formas de hacer el
fraccionamiento, pero la mayora son variaciones de dos ideas bsicas.
Una de ellas consiste en adjudicar un valor alto a todos aquellos niveles
de gris del rango de inters y un valor bajo a los restantes. Esta
transformacin mostrada en la figura 2.7(a) produce una imagen
binaria. La segunda basada en la figura 2.7(b)
L-1
L-1
intensifica el rango de los niveles de gris deseado pero al mismo tiempo
preserva el fondo y las tonalidades de gris de la imagen.
43
L-1
L-1
FRACCIONAMIENTO DEL NIVEL DE GRIS.
4.3.5
Fraccionamiento de los Planos de Bits
En lugar de destacar ciertos rangos de intensidades, a veces puede

desearse destacar la contribucin que realizan a la imagen
determinados bits especficos. Supongamos que cada pixel de una
imagen viene representado por 8 bits. Imaginemos tambin que la
imagen esta compuesta de 8 planos de un bit, que van
desde el plano par el bit menos significativo hasta el plano 7 para el bit
ms significativo. En trminos de bytes de 8 bits, el plano 0 contiene
todos los bits de orden ms inferior de los bytes que forman los pixeles
de la imagen, mientras que el plano 7 contiene todos los bits de orden
ms superior.
4.3.6
Procesamiento de Histogramas
p(rk)
p(rk)
El histograma
de una imagen digital con
niveles de gris en el rango
[0,L-1) es una funcin discreta p(r k ) =nk/n , donde rk es el k-simo nivel
Oscura
Imagen
de gris , nk es Imagen
el nmero
de pixeles de la imagen
con ese nivel de gis, n
es el nmero total de pixeles de la imagen yBrillante
k = 0,1,2, ..,L - 1.
De forma general se puede decir que p(r k) da una idea del valor de
probabilidad que aparezca el nivel de gris r k . La representacin grfica
de esta funcin para todos los valores de k proporciona una descripcin
global de la apariencia de una imagen.
(a)
r
(b)
rk
Por ejemplo la siguiente figura kmuestra los histogramas de cuatro
tipos
bsicos
de
imgenes.
p(rk)
p(rk)
Imagen de
bajo
contraste
Imagen de
alto
contraste
44
(c)
(d)
HISTOGRAMAS CORRESPONDIENTES A CUATRO TIPOS BSICOS DE IMGENES
El primer histograma muestra que los niveles de gris estn

concentrados hacia el extremo oscuro del rango de la escala de gris; as
este histograma corresponde a una imagen con una apariencia global
oscura, sucede justo lo contrario en el histograma (b). El histograma (c)
tiene un perfil estrecho, lo que significa que el rango dinmico es
pequeo y que por lo tanto la imagen tiene bajo contraste, como todos
los niveles de gris caen en la zona central de la escala de grises la
imagen aparecera como gris turbio. Finalmente el histograma (d)
muestra una dispersin considerable que corresponde a una imagen de
alto contraste.
Aunque las propiedades que se han mencionado son solo descripciones
globales que no indican nada sobre el contenido de la imagen, el perfil
del histograma de una nueva imagen proporciona sin duda una
informacin muy til sobre la posibilidad de mejora de la imagen.
4.3.7
Sustraccin de Imgenes
La diferencia entre dos imgenes f (x, y) y g(x, y) expresada en la

forma:
g(x. y) = f (x, y) - h(x, y)
se obtiene calculando la diferencia entre todos los pares de pixels
45
correspondientes de f y h. La sustraccin de imgenes tiene numerosas

e importantes aplicaciones en la segmentacin y en la mejora.
Una aplicacin clsica de sustraccin de imgenes para la mejora se
tiene en un rea de imgenes mdicas conocida como radiografa en
modo mscara.
En este caso h(x, y), la mscara es una imagen de rayos X de una
regin del cuerpo del paciente obtenida con un intensificador y una
cmara de televisin colocados en oposicin a la fuente de rayos X. La
imagen f (x, y) es una muestra de una serie de televisin similares de la
misma regin anatmica pero adquiridas despus de la inyeccin de un
colorante en el torrente sanguneo.
El efecto neto de la sustraccin de la mscara de cada muestra de la
sucesin de imgenes de televisin de entrada consiste en que
solamente las reas en las f(x, y) y h(x, y) son diferentes aparecern en
la imagen de salida como detalles mejorados.
4.3.8
Promediado de la Imagen
Sea una imagen g(x,y) con ruido (distorsiones) causado por la adicin
de una funcin de ruido en (x,y) a una imagen original f(x,y), es decir:
g(x,y) = f(x, y) + (x, y)
en donde se realizar la hiptesis de que en cada par de coordenadas
(x, y) el ruido es una funcin sin correlacin y tiene un valor medio cero.
El objetivo ser reducir los efectos del ruido a base de sumar un
conjunto de imgenes [gi (x, y)].
Si una imagen g(x,y) esta formada por el promediado de M imgenes
diferentes con ruido:
M
g(x,y)= 1/M
gi (x,y)
i 1
entonces se tiene:
E[g (x,y)] = f (x, y)
( )= 1/M ( 2)
g x,y
(x,y)
donde E[g (x,y)] es el valor esperado de g y 2 (x,y) son las varianzas

de g y , todas en las coordenadas (x, y). La desviacin tpica en cada
punto de La imagen promedio es:
( ) = 1/ M
g x,y
(x,y)
46
estas ecuaciones indican que conforme aumenta el valor de M, la

variabilidad de los valores del pixel en cada punto (x, y) decrece. Puesto
que
E[g (x, y)] = f (x,y), esta condicin significa que
g(x, y)
f (x, y) conforme el nmero de imgenes con ruido
empleadas en el proceso de promediado aumenta.
5. Filtrado Espacial
El empleo de mscaras espaciales para el procesamiento de imgenes
se denomina frecuentemente Filtrado Espacial y las mscaras se
denominan filtros espaciales. A continuacin consideraremos filtros
espaciales lineales y no lineales para la mejora de la imagen.
Los filtros denominados de paso bajo atenuan o eliminan las
componentes de alta frecuencia en el dominio de Fourier a la vez que
dejan inalteradas las bajas frecuencias. Las componentes de alta
frecuencia caracterizan los bordes y los restantes detalles muy
marcados de la imagen, por ello el efecto de introducir un filtrado de
paso bajo es el de hacer borrosa la imagen. De forma similar los filtros
de paso alto atenuan o eliminan las componentes de baja frecuencia.
Como estas componentes son responsables de las caractersticas poco
variables de la imagen como el contraste global y la intensidad media,
el resultado neto de un filtrado de paso alto es la reduccin de estas
caractersticas y en correspondencia una aparente agudizacin de los
bordes y de los restantes detalles finos. Un tercer tipo de filtrado se
denomina filtrado de paso banda, que elimina regiones seleccionadas
de frecuencias intermedias. Estos filtros se emplean en la restauracin
de imgenes.
Independientemente del tipo de filtro lineal que se emplee la
aproximacin bsica consiste en sumar productos entre los coeficientes
de la mscara y las intensidades de los pixeles bajo la mscara en un
punto determinado de la imagen. En una mscara de 3x3 con
coeficientes w1, w2,..., w9 y notando por z 1, z2,... z9 a los niveles de gris
de los pixeles bajo la mscara, la respuesta de una mscara lineal es:
R = w1Z1 + W2Z2 + ...+ W9Z9
Si el centro de la mscara se encuentra en un punto (x,y) de la imagen,

el nivel de gris del pixel situado en (x,y) se reemplaza por R. Luego se
mueve la mscara hasta el emplazamiento del siguiente pixel de la
imagen y se repite el proceso. Se contina as hasta que se han cubierto
47
todos los pixeles de la imagen. EL valor de R se calcula empleando

entornos parciales para los Pixeles que estn colocados en los bordes de
la imagen. Tambin es habitual crear una nueva imagen Para almacenar
los valores de R, en lugar de ir cambiando cada vez los valores de cada
Pixel, ya que as se evita el empleo de niveles de gris en la ecuacin R
= w1Z1 + W2Z2 + ...+ W9Z9 que hayan sido alterados como resultado de
una aplicacin anterior a esta ecuacin.
Los filtros espaciales no lineales operan tambin en entornos. Sin
embargo en general su operacin se basa directamente en los valores
de los pixeles en el entorno en consideracin y no emplean
explcitamente los coeficientes de la forma descrita en la ecuacin
anterior. Como se indicar a continuacin, la reduccin del ruido se
puede realizar eficazmente con un filtro no lineal cuya funcin bsica
sea la de calcular el valor medio del nivel de gris en el entorno en el que
se coloca el filtro. Otros ejemplos incluyen el filtro mximo cuya funcin
de respuesta es:
R = mx [zK|k = l,2,...,9], que se emplea para buscar los puntos ms
brillantes de una imagen y el filtro de mnimo que se emplea con el
objetivo contrario.
5.1 Filtros Suavizantes

Los filtros suavizantes se emplean para hacer que la imagen aparezca
algo borrosa y tambin para reducir el ruido (distorsiones) en la imagen.
Es til que la imagen aparezca algo borrosa en algunas etapas del
preprocesado como la eliminacin de los pequeos detalles de una
imagen antes de la extraccin de un objeto y el relleno de los pequeos
espacios entre lneas o curvas.
5.2 Filtrado Espacial de Paso Bajo

Para implementar un filtro espacial de paso bajo (suavizante), el filtro
debe tener todos sus coeficientes positivos. Para un filtro espacial de
3x3, la construccin ms simple consistira en una mscara en la que
todos los coeficientes fuesen iguales a 1. Sin embargo, si se aplica la
ecuacin R = w1Z1 + W2Z2 + ...+ W9Z9, la respuesta seria la suma de los
niveles de gris de los nueve pixels, lo que podra hacer que R se saliera
del rango vlido de grises, as entonces la solucin consiste en cambiar
la escala de la suma dividiendo R para 9.
48
5.3 Filtracin por la Mediana

En el filtrado por la mediana, el nivel de gris de cada pixel se reemplaza
por la mediana de los niveles de gris de los pixels que entornan a este.
La mediana m de un conjunto de valores es tal que la mitad de los
valores del conjunto quedan por debajo de m y la otra mitad por
encima. Con el fin de realizar el filtrado por la mediana en el entorno de
un pixe1 primero se deben extraer las valores del pixel y de su entorno,
determinar la mediana y asignar este valor al pixel. Por ejemplo en un
entorno 3x3, la mediana es el quinto valor mayor, en un entorno 5x5 es
el dcimo tercer valor mayor, y as sucesivamente.
La funcin principal del filtrado por la mediana consiste en introducir
puntos con intensidades distintas que sean ms parecidos a sus
vecinos, eliminando de esta forma los estrechos picos de intensidad que
aparecen aislados en el rea cubierta por la mscara de filtrado.
6. Filtros Realzantes
El objetivo principal del realce es el de destacar los detalles finos de una
imagen o intensificar detalles que han sido disminuidos, bien sea por
error o bien por efecto natural del mtodo de adquisicin de la imagen.
Las aplicaciones del realce de las imgenes son variadas e incluyen
aplicaciones que van desde imgenes mdicas hasta las inspecciones
industriales.
6.1 Filtrado Espacial de Paso Alto Bsico

Para implementar un filtro espacial de paso alto
tener coeficientes positivos cerca de su centro y
en la periferia. Para una mscara 3x3 esta
escogiendo un valor positivo en el centro y
negativos en el resto.
(realce), el filtro debe

coeficientes negativos
condicin se cumple
tomando coeficientes
A continuacin se presenta la implementacin ms clsica de un filtro

de realce 3x3.
(1/9) x
-1 -1 -1
-1 8 -1
-1 -1 -1
Se debe notar que la suma de los coeficientes es 0. As, cuando la

mscara est
49
sobre un rea de nivel gris constante o poco variable, la salida

proporcionada por la mscara es 0 o un valor muy pequeo. La
reduccin del valor medio de una imagen a 0 implica que la imagen
debe tener valores de gris negativos.
Como solo se consideran niveles de gris positivos, los resultados del
filtrado de paso alto necesariamente implican alguna forma de
desplazamiento o cambio de escala para que al final los niveles de gris
queden en el intervalo [0,L 1]. Normalmente no es una buena idea
tomar el valor absoluto de los niveles de gris de la imagen filtrada para
que de este modo todos los valores sean positivos debido a que los
valores negativos grandes apareceran como brillantes en la imagen.
6.2 Filtrado High-boost

Una imagen filtrada de paso alto puede ser calculada como la diferencia
entre la imagen original y una versin de esta imagen que ha pasado
por un filtro de paso bajo, es decir:
Paso alto = Original - Paso bajo
Multiplicando la imagen original por un factor de amplificacin, al que
se notar por A, se obtiene la definicin de filtro High-boost o de nfasis
de secuencias altas:
High-boost = (A)(Original) - Paso bajo
High-boost = (A-1)(Original) + Original - Paso bajo
High-boost = (A-1)(Original) + Paso alto
Un valor de A=1 da el resultado de un filtro de paso alto normal. Cuando
A>1, parte del propio original se aade al resultado del filtro de paso
alto, lo que devuelve parcialmente Las componentes de frecuencias
bajas prdidas en el filtrado de paso alto. El resultado es que la imagen
high-boost se parece mas a la imagen original, con un grado relativo de
mejora de los bordes que depende del valor de A.
E1 proceso general de sustraer una imagen difusa de una original ((A)
(Original)- Peso bajo) se denomina enmascaramiento difuminado. Este
mtodo es una de las herramientas esenciales para las aplicaciones del
procesamiento de imgenes en las industrias de artes grficas.
En trminos de implementacin, los resultados precedentes pueden
combinarse a base de permitir que el peso central de la mscara
mostrada a continuacin sea w = 9A - 1 con A>= 1. EI valor da A
determina la naturaleza del filtro.
50
(1/9) x
-1 -1 -1
-1 w -1
-1 -1 -1
6.3 Filtros Diferenciales

E1 promediado de los pixeles de una regin tiende a difuminar la
imagen. Como esta operacin es anloga a la integracin, es de esperar
que la diferenciacin tenga el efecto contrario, el de aumentar fa nitidez
de la imagen.
El mtodo ms comn de diferenciacin en las aplicaciones de
procesado de la imagen es el gradiente. Para una funcin f (x,y), el
gradiente de F en el punto de coordenadas (x, y), se define como e!
Vector:
f =
f/ x
f/ y
el mdulo de este vector,
1/2
f=mag( f ) = ( f/ x)1/2 + ( f/ x
)1/2
es la base de varias aproximaciones a la diferenciacin de la imagen. Si

se considera las siguientes regiones de una imagen:
Z1 Z2 Z3
Z4 Z5 Z6
Z7 Z8 Z9
donde los diferentes subndices de la variable z indican los diferentes

valores de los niveles de gris. mag( f) puede aproximarse alrededor
del punto Z5 de distintas formas. La ms simple es emplear la diferencia
(Z5 Z 8 ) en la direccin de y combinndolas de la forma:
f = (Z5 Z 8) + (Z5 Z 6 )
2
1/2
2
En lugar de emplear cuadrados y races cuadradas, es posible obtener

resultados similares empleando valores absolutos:
f = |(Z5 Z 8) + (Z5 Z
)|
51
Otra aproximacin de mag( f) consiste en el empleo de diferencias

cruzadas:
1/2
f = (Z5 Z 9)2 + (Z6 Z 8)2
o bien sus valores absolutos:
f = |(Z5 Z 9) + (Z6 Z 8) |
estas mscaras pueden implementarse usando mscaras de tamao

2X2. Por ejemplo para calcular f = |(Z5 Z 9) + (Z6 Z 8) |, se toma el
valor absoluto de la respuesta de las dos mscaras siguientes y luego se
suman ambos resultados
1
0
0
-1
-1
Estas mscaras se denominan los operadores de Roberts de gradiente.

Las mscaras con un nmero par de emplazamientos son ms
complicadas de implementar. Una aproximacin de mag( f) todava
en el punto Z5, pero ahora empleando un entorno 3x3 es:
f = |(Z7+Z8+Z9) - (Z1+Z2 +Z3) |+| (Z3+Z6+Z9) - (Z1+Z4+Z7)|
La diferencia entre la tercera y la primera fi1a de la regin 3x3 da una

aproximacin de !a derivada en la direccin x, y diferencia entre la
tercera y la primera columna da una aproximacin de la derivada en la
direccin y, las mscaras que se presentan a continuacin pueden
emplearse para implementar esta ecuacin:
-1
0
1
-1
0
1
-1
0
1
-1
-1
-1
0
0
0
1
1
1
Estas mscaras se conocen como operadores de Prewitt.
52
7. Mtodos en el Dominio de
Frecuencia
Las mejoras en una imagen a travs del mtodo de dominio de
frecuencia, simplemente tratan de calcular la transformada de Fourier
de la imagen a intensificar, multiplicar el resultado por la funcin de
transferencia de un filtro y fina(mente, tomar la transformada de Fourier
inversa a una imagen mejorada.
En la prctica, las pequeas mscaras espaciales son mucho ms
empleadas que la transformada de Fourier debido a su facilidad de
implementacin y su velocidad de operacin. Sin embargo, existen
problemas que no se pueden resolver con tcnicas espaciales, un
ejemplo de este tipo de problemas es el filtrado homomrfico, que es
problema a tratar a continuacin.
7.1 Filtrado homomrfico

El modelo de iluminacin-reflactancia, puede emplearse como base de
un procedimiento en el dominio de frecuencia el cual es un mtodo til
para mejorar la apariencia de una imagen a travs de la compresin del
rango de brillos y de la mejora del contraste, realizadas
simultneamente. Anteriormente se indico que:
f (x,y) = i(x,y) r (x,y)
Est ltima ecuacin no puede emplearse directamente para operar por
separado en las componentes de frecuencia de la iluminacin y la
reflactancia porque la transformada de Fourier del producto de dos
funciones no es separable; es decir:
F{ f(x,y) }
F{ i(x,y)} F{ r(x,y)}
sin embargo, si definimos:

z(x,y) = ln f(x,y)
= ln i(x,y) + ln r(x,y)
entonces:
F{ z(x,y)} = F{ ln f(x,y)}
= F{ ln i(x,y)} + F{ln r(x,y)}
o bien
Z(u,v) = I(u, v) + R(u, v)
53
donde I(u,v) y R(u,v) son Ias transformadas de Fourier de ln i(x,y) y ln

r(x,y), respectivamente.
= I(u,v) + R(u,v)
Si se procesa Z(u,v) por medio de un filtro cuya funcin sea H(u, v)
entonces tenemos:
S(u, v} = H(u,v) Z(u,v)
= H(u,v) I(u,v) + H(u,v) R(u,v)
donde S(u,v) es el resultado de la transformada de Fourier del resultado.
En el dominio espacial:
s(x, y) = F-1 { S(u, v)}
= F-2
H(u,v) I(u,v)} + F-2 { H(u,v)
R(u,v)}
haciendo
i (x,y) = F-1 { H(u,v) I(u,v) }
r (x,y) = F-1 { H(u,v) R(u,v)}
la ecuacin puede expresarse de la forma:
s(x, y) = i (x, y) + r (x, y)
Finalmente como z(x,y) se form a base de tomar el logaritmo de la
imagen original f(x,y), la operacin inversa proporciona la imagen
mejorada g(x, y) deseada; es decir:
g(x,y) = es(x,y)
g(x,y) = e i(x,y) e r(x,y)
g(x,y) = i0 (x,y) r0 (x,y)
con
i0 (x,y) = e i (x,y)
r0 (x,y)= e r (x,y)
que son las componentes de iluminacin y reflectancia de la imagen de
salida.
La siguiente figura muestra de manera resumida todo este proceso, el
cual es un caso particular de una clase de sistemas conocidos bajo el
54
nombre de sistemas homomrficos.
f(x,y)
ln
FFT
(FFT)-1
H(u,v)
TCNICA DEL FILTRADO HOMOMRFICO PARA LA MEJORA DE IMAGEN
g(x,y)
f(x,y)
En esta aplicacin Particular, la clave del mtodo consiste en la

separacin entre los componentes de iluminacin y reflactancia; as se
puede operar separadamente sobre estas componentes.
La componente de iluminacin de una imagen se caracteriza
generalmente Por variaciones espaciales lentas, mientras que la
componente de reflactancia tiende a variar bruscamente, en especial
en las uniones entre objetos.
Estas caractersticas llevan a asociar las componentes de baja
frecuencia de la transformada de Fourier del logaritmo de una imagen
con la iluminacin y las componentes de alta frecuencia con la
reflactancia. Aunque estas asignaciones son aproximaciones no muy
exactas, pueden emplearse para ayudar a la mejora de la imagen.
Mediante un filtro homomrfico puede ganarse bastante control sobre
las componentes de iluminacin y reflactancia. Este control requiere la
especificacin de una funcin de filtrado H(u,v) que afecte de forma
distinta a las componentes de 1a transformada de Fourier de bajas y
altas frecuencias.
La siguiente figura muestra la seccin transversal de una funcin de
este tipo. Para obtener la descripcin completa de H(u,v) basta con girar
360 esta seccin transversal alrededor de su eje vertical. Si se eligen
los parmetros YL y YH de forma que YL < 1 y YH > 1, esta funcin de
filtrado tiende a disminuir las bajas frecuencias y a amplificar las altas,
siendo el resultado final neto el de una compresin del rango dinmico y
simultneamente el aumento de contraste.
H(u,v)
YH
YL
D(u,v)
La figura anterior muestra la Seccin transversal de una funcin con
filtro con simetra circular Utilizada para el filtrado homomrfico. D(u,v)
55
es la distancia desde el origen.
8. Procesamiento de Imgenes en
Color
EI empleo de color en el procesamiento de imgenes esta motivado por
dos factores principales. Primero, en el anlisis automtico de imgenes
el color representa un potente descriptor que a menudo simplifica 1a
identificacin de un objeto. Segundo, en el anlisis de imgenes, el
inters reside en que el ojo humano es capaz de discernir miles de
matices e intensidades de color, en comparacin con slo dos docenas
de niveles de gris.
El procesamiento de imgenes en color se divide en dos reas
fundamentales:
Procesamiento en color real o todo color
Procesamiento en falso color
En la primera categora, las imgenes en cuestin se adquieren
mediante un sensor de color como una cmara de televisin o un
scanner a color. En la segunda categora el problema consiste en
asignar un nivel de color a una determinada intensidad monocromtica.
Hasta hace relativamente poco tiempo el procesamiento de imgenes a
color se realizaba al nivel de falso color El importante progreso realizado
ltimamente a nivel de hardware ha hecho que el procesado a color se
haga en color real.
8.1 Fundamentos del Color

Bsicamente los colores que los seres humanos perciben en un objeto
estn determinados por la luz reflejada por el objeto.
La caracterizacin de la luz es un aspecto central de la ciencia del color.
Si la la luz es acromtica (sin color) su nico atributo es la intensidad o
cantidad de luz. Luz acromtica es la que emite un televisor en blanco
Y negro.
Para describir una fuente cromtica de luz se emplean tres magnitudes
bsicas:
La radiancia, que es la cantidad total de energa que sale de la
56
fuente luminosa, habitualmente se mide en watios (W).

La iluminancia, proporciona una medida de la cantidad de
energa que un observador percibe procedente de una fuente
luminosa, se mide generalmente en lmenes (lm).
El brillo, que es un descriptor subjetivo que resulta muy difcil de
medir. Es uno de los factores fundamentales para describir las
sensaciones del color.
Debido a la estructura del ojo humano, todos los colores se ven como
combinaciones variables de los denominados tres colores primarios:
rojo, verde, azul, notados por R, G, B respectivamente.
Los colores primarios pueden sumarse para obtener los colores
secundarios de luz: magenta (rojo ms azul), cian (verde ms azul), y
amarillo (rojo ms verde). Mezclando los tres calores primarios o uno
secundario con su color primario opuesto en las proporciones adecuadas
se obtiene luz blanca.
Las caractersticas generalmente empleadas para distinguir un color de
otro son: brillo, tono y saturacin. E1 brillo est relacionado con la
intensidad. El tono est relacionado con el color dominante ta1 como
percibe el observador. La saturacin se refiere a la pureza relativa o
cantidad de luz blanca mezclada con un tono.
El tono y la saturacin considerados conjuntamente constituyen la
cromaticidad, por tanto un color se puede caracterizar por su brillo y
cromaticidad.
Las cantidades de rojo, verde y azul necesarias Para formar un color
particular se denominan los valores triestmulos y se indican por X,Y,Z
respectivamente. As un color queda especificado Por sus coeficientes
tricromticos definidos como:
x = X/(X+Y+Z)
y = Y/(X+Y+Z)
z = Z/(X+Y+Z)
Evidentemente, X+Y+ Z = 1.
9. Modelos de Color
EI objetivo del modelo de color es el de facilitar la especificacin de los
57
colores de una forma normalizada y aceptada genricamente. En

esencia un modelo de color es la especificacin de un sistema de
coordenadas tridimensional y de un subespacio de este sistema en el
que cada color quede representado por un nico punto.
La mayora de los modelos de color empleados en la actualidad estn
orientados bien hacia el hardware (como monitores, impresoras) o bien
hacia aplicaciones donde se pretende manipular el color (como la
creacin de grficos en color por animacin).
Los modelos orientados hacia el hardware utilizados habitualmente en la
prctica son RGB para monitores en color y una amplia categora de
cmaras de vdeo de
color. El modelo CMY para impresoras en color y el modelo YIQ que es el

estndar para las emisiones de televisin en color. En este tercer
modelo la Y corresponde a la luminancia, la I a un componente
denominado fase, la Q a un componente denominado cuadratura.
Entre los modelos que se utilizan frecuentemente en la manipulacin de
imgenes en color, encontramos el HSI (iniciales de tono, saturacin,
intensidad).
9.1 Modelo RGB

Las imgenes del modelo de color RGB consisten en tres planos de
imgenes independientes, uno por cada color primario. Cuando llegan a
un monitor RGB estas tres imgenes se combinan en la pantalla
fosforescente para producir una imagen en color compuesta. As, el
empleo del modelo RGS para el procesamiento de imgenes adquiere
sentido cuando las propias imgenes estn expresadas de forma natural
en trminos de tres planos de color. Adems la mayora de cmaras de
color empleadas para la adquisicin de imgenes digitales utilizan el
formato RGB, lo que por s solo hace de este modelo importante en el
procesamiento de imgenes.
9.2 Modelo CMY

Cin, magenta y amarillo son los colores secundarios de luz o bien los
colores primarios de los pigmentos. Por ejemplo cuando una superficie
recubierta de un pigmento cin se ilumina con luz blanca, no se refleja
luz roja de ella. Es decir, el cian absorbe la luz roja presente en la luz
blanca (la luz blanca esta compuesta de luz roja, verde y azul en partes
iguales).
58
La mayora de los dispositivos que depositan pigmentos coloreados

sobre papel tales como impresoras y fotocopiadoras a color, necesitan
una entrada CMY o bien una conversin interna de RGB a CMY. Esta
conversin se realiza mediante esta simple operacin:
C
M
Y
1
= 1
1
R
G
B
9.3 Modelo YIQ

Este modelo se utiliza en las emisiones comerciales de televisin.
Bsicamente el YIQ es una recodificacin del RGB utilizada por su
eficacia en la transmisin y para mantener la compatibilidad con los
estndares de televisin en blanco y
negro. La conversin de RGB a YIQ, se define como:

C
M
Y
0.299 0.587 0.114

0.596 -0.275 -0.321
0.212 -0.523 -0.311
R
G
B
Para obtener los valores de RGB a partir de un conjunto de valores YIQ

simplemente se lleva a cabo la operacin inversa.
El modelo YIQ fue diseado para aprovechar la mayor sensibilidad del
sistema visual humano a los cambios de saturacin. As los estndares
YIQ emplean ms ancho de banda (o bits) para representar la Y y menos
para representar la I y la Q.
Adems de tratarse de un estndar ampliamente difundido, la ventaja
principal del modelo YIQ en el procesamiento de imgenes es que la
luminancia (Y} y la informacin del color (I,Q) son independientes.
Entonces la importancia radica en que la luminancia de una imagen
puede procesarse sin afectar a su contenido cromtico (colores de la
imagen).
9.4 Modelo HSI

El modelo HSI debe su utilidad a dos hechos bsicos. Primero, la
componente de la intensidad I, es independiente de la informacin
cromtica contenida en la imagen. Segundo, las componentes de tono y
saturacin estn ntimamente relacionadas con la forma en que los
seres humanos perciben el color. Estas caractersticas hacen que el
modelo HSI sea una herramienta ideal para desarrollar algoritmos de
procesamiento de imgenes basados en algunas propiedades de la
59
percepcin del color del sistema visual humano.
10. Compresin de imgenes

Cuando se muestrea y cuantifica una funcin bidimensional de la
intensidad para crear una imagen digital, se produce una enorme
cantidad de datos. Esta cantidad puede ser tan grande que su
almacenamiento, procesamiento y comunicacin pueden llegar a ser
desmesuradas para cualquier aplicacin prctica.
La compresin de imgenes afronta el problema de la reduccin de
cantidad de datos necesarios para representar una imagen digital. La
base del proceso de reduccin de datos consiste en la eliminacin de
datos redundantes. Desde el punto de vista matemtico, equivale a
transformar una distribucin bidimensional de pixeles en un conjunto de
datos estadsticos sin correlacionar. La
transformacin se aplica antes del almacenamiento o transmisin de la

imagen. Posteriormente, la imagen comprimida se descompone para
reconstruir la imagen original o una aproximacin de la misma.
10.1
Fundamentos
El trmino compresin de datos se refiere al proceso de reduccin del

volumen de datos necesarios para representar una cantidad de
informacin. Debe hacerse una clara distincin entre datos e
informacin. En efecto, los datos son los medios a travs de los cuales
se conduce la informacin se pueden utilizar distintas cantidades de
datos para describir la misma cantidad de informacin.
La redundancia, es decir la cantidad de datos que proporcionan
informacin sin relevancia es un punto clave en la compresin de datos
digitales. La redundancia es matemticamente cuantificable. SI n1 y n2,
representan el nmero de unidades de informacin de dos conjuntos de
datos que representan 1a misma informacin, la redundancia relativa de
los datos RD del primer conjunto de datos, el caracterizado por n 1 s se
puede definir como:
RD = 1 (1/CR)
donde CR habitualmente denominada relacin de compresin es:
CR = (n1/ n2)
En el caso en el que n2 = n1 y CR = 1 y RD = 0 indica que el primer
60
conjunto de datos representa la misma cantidad de informacin que el

segundo conjunto de datos.
En el caso en el que n2<n1 , CR y RD 1 existe una compresin
significativa y datos altamente redundantes.
En el caso en el que n2 > n1 , CR 0 y RD -
indica que el
segundo conjunto de datos contiene muchos mas datos que la
representacin original, indudablemente este es un caso indeseable de
expansin de datos.
En la compresin digital de imgenes, se pueden identificar y
aprovechar tres tipos bsicos de redundancias:
Redundancia de codificacin
Redundancia entre pixeles
Redundancia psicovisual
La compresin de datos se consigue cuando una o varias de estas
redundancias se reducen o eliminan.
10.2
Redundancia de Codificacin
Suponiendo que una variable aleatoria discreta r k del intervalo [0,1]

representa los niveles de gris da una imagen y que cada r k sucede con
una probabilidad pr (rk ) esta definida como:
pr(rk )= (nk / n) , k=0,l,...,L-1
donde L es el nmero de niveles de gris, n k es el nmero de veces que
aparece en la imagen el k-simo nivel de gris y n el nmero total de
pixels de la imagen. Si el nmero de bits empleados para representar
cada valor de rk es l (rk ) el promedio de bits para representar cada
pixel es:
L 1
L rk = l (rk ) pr (rk )
k 0
As el nmero de total de bits necesarios para codificar una imagen es

NxMxL med.
En general al asignar menos bits a los niveles de gris ms probables y
menos a los menos probables, se puede conseguir la compresin de
datos. A este proceso frecuentemente se le denomina codificacin de
longitud variable. Si los niveles de gris de una imagen estn codificados
de forma que se emplean ms smbolos que los estrictamente
necesarios para representar uno de ellos, entonces se dice que la
61
imagen resultante contiene redundancia de cdigo. La redundancia de

cdigo aparece cuando los cdigos asignados a los niveles de gris no
han sido seleccionados de modo que se obtenga el mayor rendimiento
posible de las probabilidades que aparezcan estos niveles de gris.
10.3
Redundancia entre Pixels
Si los niveles de gris de una imagen no son igualmente probables, se

pueden usar cdigos de longitud variable para reducir la redundancia
que resultara de una codificacin binaria de sus pixeles. Sin embargo,
el proceso de codificacin no alterara el nivel de correlacin entre los
pixeles de una imagen. En otras palabras los cdigos empleados para
representar los niveles de gris de cada imagen no tienen nada que ver
con la correlacin entre pixeles. Estas correlaciones resultan de las
relaciones estructurales o geomtricas entre los objetos de la imagen.
Puesto que es posible predecir razonablemente el valor de un
determinado pixel a partir del valor de sus vecinos, la informacin que
aporta individualmente un pixel es relativamente pequea. La mayor
parte de la contribucin visual de un nico pixel a una imagen es
redundante, puede inferirse de acuerdo con los valores de sus vecinos.
En relacin, con estas dependencias entre pixels se utilizan algunos
trminos tales como: redundancia espacial, redundancia geomtrica,
redundancia entre pixels para englobar a todos los anteriores.

Con el fin de reducir la redundancia entre pixeles de una imagen, la
distribucin bidimensional de pixeles normalmente empleada para la
percepcin e interpretacin humana debe ser transformada a un
formato ms eficaz (pero no visuable). Por ejemplo, se Pueden utilizar
las diferencias entre pixeles adyacentes para representar una imagen.
Las transformaciones de este tipo (es decir aquellas que eliminan la
redundancia
entre
pixeles)
se
denominan
generalmente
correspondencias. Se dice que son reversibles si los elementos
originales de la imagen se pueden reconstruir a partir del conjunto de
datos transformados.
10.4
Redundancia Psicovisual
El ojo humano no responde con la misma sensibilidad a toda la

informacin visual. Cierta informacin simplemente tiene menor
importancia relativa que otra en el proceso visual normal. Se dice que
esta informacin es psicovisualmente redundante, y se puede eliminar
sin que se altere significativamente la calidad de la percepcin de la
imagen.
62
El que exista redundancias psicovisuales no debe resultar sorprendente,

puesto que la percepcin humana de la informacin de una imagen
normalmente no consiste en un anlisis cuantitativo de cada pixel o de
cada valor de la luminancia de la imagen. En general, un observador
busca caractersticas diferenciadoras como bordes o regiones de
diferentes texturas y luego las combina mentalmente en grupos
reconocibles. A continuacin el cerebro relaciona estos grupos con el
conocimiento previo con el fin de completar el proceso de interpretacin
de la imagen.
La redundancia psicovisual est asociada a la informacin visual real o
cuantificable. Su eliminacin es nicamente posible Porque la propia
informacin no es esencial para el procesamiento visual normal.
Como la eliminacin de los datos psicovisualmente redundantes se
traduce en una prdida de informacin cuantitativa, a menudo se
denomina cuantificacin.
11. Modelos de Compresin de Imgenes

Un sistema de compresin de imgenes consta da dos bloques
estructurales distintos: un codificador y un decodificador. Una imagen
de entrada f (x, y) alimenta el codificador que crea un conjunto de
smbolos a partir de los datos de entrada Despus de la transmisin a
travs del canal, la representacin codificada
alimenta al decodificar en donde se genera una imagen f (x, y) de salida

reconstruida. En general f (x, y) puede ser (o no) una rplica exacta de f
(x, y) . Si lo es, el sistema esta libre de error, es decir, preserva la
informacin si no lo es, el sistema presenta algn nivel de distorsin en
la imagen reconstruida.
Tanto el codificador como el decodificador constan de dos funciones
independientes, el codificador est formado por un codificador de fuente
que elimina las redundancias de entrada y un codificador de canal que
aumenta la inmunidad al ruido de la salida del codificador fuente. Tal
como se espera, el decodificador incluye un decodificador del canal
seguido de un decodificador de fuente. Si el canal entre el codificador y
el decodificador est libre de ruido (sin error), se omiten el codificador y
el decodificador est libre de ruido (sin error), se omiten el codificador y
el decodificador del canal, y el codificador y el decodificador generales
pasan a ser el codificador y decodificador de fuente respectivamente.
f(x,y) Codificador
de Fuente
Codificador
de canal
Canal
Decodificador
del canal
Codificador de
Fuente
63
f(x,y)
MODELO DE UN SISTEMA GENERAL DE COMPRESIN
11.1
Codificador y Decodificador de Fuente
El codificador de fuente sirve para reducir o eliminar de la imagen de

entrada las redundancias de codificacin, entre pixeles. Normalmente
este mtodo se puede modelar mediante una secuencia de tres
operaciones independientes realizadas por un conversor, un
cuantificador y un codificador de smbolos.
f(x,y)
Conversor
Cuantificador
Codificador de
Smbolos
canal
MODELO DE CODIFICADOR
En la primera etapa del proceso de codificacin de fuente, el conversor

transforma los datos de entrada en un formato (habitualmente no
visuable) diseado para reducir las redundancias entre los pixeles de la
imagen de entrada. Esta operacin es reversible y puede reducir
directamente la cantidad de datos necesarios Para representar la
imagen.
La segunda etapa, el cuantificador, reduce las redundancias
psicovisuales de la imagen de entrada. Esta operacin es irreversible,
Por ello debe omitirse cuando se desee una compresin libre de errores.
canal
Decodificad
or de
Smbolos
Conversor
Inverso
f(x,y)
MODELO DE DECODIFICADOR
En la tercera y ltima etapa del proceso de codificacin de fuente, el

codificador de smbolos crea un cdigo de longitud fija o variable para
representar la salida cuantificada y transforma la salida de acuerdo con
el cdigo, En la mayora de los casos, se emplea un cdigo de longitud
variable para representar los conjuntos de datos transformados y
cuantificados. Este asigna las palabras cdigo mas cortas a las entradas
que aparecen con mayor frecuencia, reduciendo as la redundancia de
codificacin. Esta operacin es reversible.
64
11.2
Codificador y Decodificador de canal
El codificador y decodificador de canal desempean un papel

importante en el proceso global de codificacin y decodificacin cuando
el canal contiene ruido o es propenso a errores. Ambos estn diseados
para reducir el impacto del ruido del canal insertando una forma
controlada de redundancia en los datos codificados. Como la salida del
codificador de fuente contiene poca redundancia, sera muy sensible al
ruido introducido en la transmisin sin la adicin de esta redundancia
controlada.
Una de las tcnicas mas tiles de codificacin de canal fue desarrollada
por R.W. Hamming. Consiste en aadir suficientes bts a los datos que se
codifican Para asegurar que las palabras cdigo vlidas difieran en un
nmero mnimo de bits.
Para decodificar un resultado mediante un cdigo Hamming, el
decodificador del canal debe detectar si hay paridad impar en los
campos de bits en los que previamente se haba establecido que tenan
paridad par.
11.3
Codificacin de Huffman
Es una tcnica de compresin que reduce nicamente la redundancia de

la codificacin. Esta redundancia esta presente en cualquier codificacin
binaria de los niveles de gris de una imagen.
Es la tcnica ms popular para la eliminacin de la redundancia de la
codificacin. Cuando se codifican individualmente los smbolos de una
fuente de informacin, la codificacin de Huffman consigue e1 nmero
ms pequeo posible de smbolos de cdigo por smbolo de la fuente.
El primer paso del mtodo de Huffman consiste en crear una serie de

reducciones de la fuente ordenando las probabilidades de los smbolos
considerados y combinando los smbolos de menos probabilidad en un
nico smbolo que los sustituye en la siguiente reduccin de la fuente.
Este proceso se repite hasta conseguir una fuente reducida con dos
smbolos.
La segunda etapa del procedimiento de Huffman consiste en codificar
cada fuente reducida, empezando por la fuente ms pequea hasta
llegar a la fuente original. El cdigo binario de longitud mnima para una
fuente de dos smbolos est compuesto por los smbolos 0 y 1.
El procedimiento de Huffman crea al cdigo ptimo para un conjunto de
smbolos y probabilidades con la restriccin de que los smbolos se
deben codificar uno a uno. Despus de crear el cdigo, la codificacin
65
y/o decodificacin se realiza mediante una simple consulta a una tabla.

El propio cdigo es un cdigo bloque puesto que cada smbolo de la
fuente corresponde a una secuencia fija de smbolos de cdigo. Es
instantneo ya que cada palabra cdigo de una cadena de smbolos de
cdigo se puede decodificar sin hacer referencia a los siguientes
smbolos. Es decodificable de manera nica porque cualquier cadena de
smbolos de cdigo solo se puede decodificar en una nica forma. Por lo
tanto, toda cadena de smbolos codificados segn Huffman se puede
decodificar examinando individualmente los smbolos de la cadena, de
izquierda a derecha.
12. Compresin con Errores

Al contrario de lo que suceda con la compresin sin errores, la
codificacin con prdidas se basa en la idea de comprometer la
precisin de la imagen reconstruida con el fin de lograr una mayor
compresin. Si se puede tolerar la distorsin resultante (que puede ser o
no visualmente aparente), el incremento del nivel de compresin puede
ser significativo. De hecho, muchas tcnicas de codificacin con
prdidas son capaces de reproducir imgenes monocromas reconocibles
a partir de datos que se han comprimido con un factor 30:1 y las
imgenes son virtualmente indistinguibles con factores de 10:1 o 20:1.
Sin embargo, con la codificacin sin errores de una imagen monocroma
rara vez se consigue una reduccin de los datos superior a 3:1. La
principal diferencia entre estos dos enfoques est en la presencia o
ausencia del bloque cuantificador.
13. Compresin de imgenes con

prdidas
Todas las formas de compresin de imgenes con prdidas involucran la
eliminacin de datos de la imagen. Sin embargo, la imagen primero se
transforma a otra, y entonces se suprimen partes de ella. Los mtodos
de transformar y suprimir datos de la imagen son lo que distingue los
diferentes esquemas de compresin de imgenes con prdidas.
La gran ventaja de los esquemas de compresin con prdidas es la
caracterstica que tienen de comprimir una imagen con un factor de
compresin ms alto que los esquemas de compresin sin prdidas.
Este factor de compresin puede ser de 10:1 sin degradaciones visuales
notables, y adems se pueden alcanzar factores de compresin mayores
de 100:1 con degradaciones visuales.
66
Se han desarrollado muchos esquemas de compresin de imgenes con

prdidas. Generalmente, cada uno cumple con los requisitos de calidad
de una aplicacin especfica. Se analizarn los mtodos ms usados a
continuacin.
13.1
Codificacin por Truncamiento
Esta forma de codificacin de una imagen es la ms sencilla en la

compresin de imgenes con prdidas. Funciona suprimiendo datos de
la imagen que emplean muestreo espacial y reduccin en la resolucin
de brillo. En otras palabras, las tcnicas de codificacin por
truncamiento eliminan de una forma directa datos para lograr un
tamao ms pequeo de la imagen.
La codificacin por truncamiento puede hacerse a cualquier resolucin
espacial o a una resolucin de brillo de una imagen. Durante la
reduccin espacial, se elimina un patrn habitual de pixeles de la
imagen que usa tcnicas de muestreo. Por ejemplo, si se quita con
regularidad un pixel y el siguiente no, y se hace lo mismo con las lneas
de la imagen entonces, el tamao de sus datos ser reducido por un
factor de 4. Se puede descomprimir tal imagen por uno de los dos
mtodos. En el primero, simplemente se reconstruye la imagen a un
tamao reducido. El otro mtodo interpola los pixeles eliminados,
creando una aproximacin de la imagen original a su tamao.
La codificacin por truncamiento en la resolucin de brillo se hace
truncando todos los valores de los pixeles de brillo de la imagen, por
una nueva representacin de los datos que contengan menos bits. Los
bits de bajo orden son los truncados primero, naturalmente, ellos son
los menos significativos en su valor de brillo. Si, por ejemplo, se truncan
5 bits de cada uno de los pixeles de brillo, la imagen se reduce por un
factor de 8 bits/3 bits = 2.667. Se puede descomprimir
una imagen de brillo truncada de un par de maneras diferentes,

dependiendo de la aplicacin.
La codificacin por truncamiento proporciona razones de compresin
exactamente predecibles, y estas se basan directamente en cuntos
datos de la imagen son eliminados.
13.2
Codificacin Predictiva con Prdidas
Los esquemas de compresin y descompresin DPCM con prdidas son

idnticos a las formas DPCM sin prdidas, tratadas anteriormente.
67
La DPCM con prdidas casi siempre adiciona algunas degradaciones en

la imagen comprimida, pero puede proporcionar un incremento en los
factores de compresin de aproximadamente 3:1 o ms que su
homologo en la compresin sin prdidas, con algunos efectos menores
de distorsin. Normalmente se puede minimizar el efecto visual de estas
distorsiones a travs de una seleccin apropiada del cdigo de longitud,
produciendo resultados aceptables para muchas aplicaciones.
Un caso especial de DPCM con prdidas, se llama la Modulacin Delta
(DM), esta slo usa un bit para codificar la diferencia de brillo entre
pixeles adyacentes. Cada pixel es codificado como si tuviera un brillo
menor que el anterior pixel (0) o mayor que el anterior pixel (1). Las
imgenes en DM pueden mostrar mayores efectos de error de brillo
siempre que se encuentren transiciones significativas de brillo.
Generalmente, para una imagen de 640 pixeles x 480 lneas, siempre
que hay transiciones presentes de ms de 32 niveles de gris, las
manchas en la imagen sern significativas. Las ventajas de la tcnica de
codificacin DM son extremadamente simples para ser implementadas
por un codificador y decodificador, que asegure un factor de compresin
fijo de 8:1 (para imgenes con 256 niveles de gris).
13.3
Codificacin por Transformacin
En la codificacin por transformacin, se utiliza una transformada lineal,

reversible para hacer corresponder una imagen con un conjunto de
componentes fundamentales o coeficientes, en el dominio de la
frecuencia. La imagen en el dominio de la frecuencia se puede
transformar inversamente al dominio espacial, reproduciendo la imagen
tal y como estaba originalmente. Este principio es el fundamento para
las tcnicas de compresin por transformadas.
En el dominio de la frecuencia, los coeficientes fundamentales

representados por los pixeles de brillo, tienden a agruparse en regiones,
especialmente alrededor de las zonas de baja frecuencia. Como
resultado, hay reas generalmente grandes de la imagen donde los
coeficientes tienen un valor muy pequeo o cero. Esto ocurre porque el
proceso de la transformada elimina mucha redundancia de la imagen.
La versin en el dominio de la frecuencia de la imagen, es generalmente
una representacin muy eficiente de la imagen original. Las tcnicas de
compresin de imgenes por transformadas se aprovechan de esta
eficaz caracterstica de la imagen en el dominio de la frecuencia,
simplemente eliminando los coeficientes de la imagen que tienen
valores muy pequeos. Ya que el peso de los coeficientes de valor
68
cercano a cero en la transformada inversa es muy pequeo, cuando la

imagen se transforma nuevamente hacia el dominio espacial, la
eliminacin de estos coeficientes causa una pequea distorsin.
Adicionalmente, otros coeficientes pueden ser reducidos en su
resolucin (redondeo) sin que se causen efectos notorios en su
transformada inversa.
Los sistemas ms prcticos de codificacin por transformacin se basan
en la Transformada Discreta del Coseno o Discrete Cosine Transform
(DCT), que ofrece un compromiso entre la capacidad para concentrar la
informacin y la complejidad de clculo.
13.4
Transformada Discreta del Coseno
(DCT).
La Transformada Discreta del Coseno es un caso especial de la
Transformada Discreta de Fourier (DFT) en la que se eliminan los
coeficientes senoidales. Una DCT produce tantos coeficientes tiles
como muestras de entrada.
Para el procesamiento de imgenes, se necesitan transformaciones
bidimensionales. En este caso, por cada frecuencia horizontal se lleva a
cabo una bsqueda de todas las frecuencias verticales posibles.
La DCT es separable, lo que significa que es posible obtener la DCT
bidimensional mediante la realizacin de clculos en cada dimensin de
manera separada.
Un factor significante que afecta al error de codificacin de la
transformada y a la complejidad de clculo es el tamao de la
subimagen o bloque. En la mayora de las aplicaciones, las imgenes se
subdividen de forma que la correlacin (redundancia) entre bloques
adyacentes se reduce a un nivel aceptable y de modo que n sea una
potencia entera de dos, siendo n la dimensin del bloque. Esta ultima
condicin simplifica el clculo de las transformadas de los bloques. En
general, tanto el nivel de compresin como la complejidad de clculo

crecen segn se incrementa el tamao del bloque. Los tamaos ms
populares de los bloques son 8x8 y 16x16. Para un bloque de tamao
8x8 el par de Transformadas Discretas del Coseno bidimensionales son:
T
DCT Suv = (1/4) CuVv x 0
Y 0
(2 x 1)
16
Sux cos
(2 y 1)v
16
cos
69
T
(2 x 1)
16
u 0
v 0
CuVv Svu cos

(2 y 1)v
16
DCTINVERSA Syx = (1/4)
donde, Cu yVv = (1/ 2 ) cuando
u,v
cos
=0,0 (componente DC)
Cu yVv = 1 en los dems casos

Svu= Celda designada para el coeficiente DCT
Syx= Celda designada para el pixel reconstrudo
La DCT se utiliza principalmente en los procesos de compresin de
imgenes.
La propia DCT no realiza ninguna compresin, ya que hay tantos
coeficientes como muestras, pero convierte los datos de entrada en una
forma en la que la
redundancia puede detectarse y eliminarse
fcilmente.
Las propiedades de la DCT han resultado ser de tal valor prctico que se
han convertido en el estndar internacional para los sistemas de
codificacin por transformacin. El hecho de que en la DCT se requieran
solamente clculos reales, facilita su aplicacin en los circuitos
prcticos. Como resultado, la DCT est disponible ampliamente en
circuitos VLSI (circuitos integrados a muy alta escala) de propsito
especial, que los hace atractivos para el uso en tiempo real. La DCT
empaqueta la mayor parte de la informacin en el menor nmero de
coeficientes, y minimiza la apariencia de mosaico que se produce
cuando se hacen visibles los lmites entre bloques.
13.5
Compresin de imgenes basada en
la Transformada Discreta del Coseno
(DCT).
Para las imgenes se toma cada campo individual (o cuadros en
estndares de exploracin progresiva) y se trata independientemente
de cualquier otro campo o cuadro. La Figura 99 muestra un ejemplo de
distintos coeficientes de una DCT para un bloque de 8x8 pixeles que
sumndolos en distintas proporciones producirn cualquier bloque de
pixeles original. El coeficiente superior izquierdo lleva la componente
continua (DC) del bloque. Se tratar de un valor unipolar
70
(slo positivo) en el caso de la luminancia y, normalmente, ser el valor

ms alto del bloque, dado que el espectro de las imgenes tpicas se
encuentra dominado por la componente DC. Hacia la derecha, los
coeficientes representan las frecuencias espaciales horizontales
crecientes y, hacia abajo, los coeficientes representan las frecuencias
espaciales verticales crecientes. El coeficiente inferior derecho
representa las frecuencias diagonales ms altas del bloque. Todos estos
coeficientes son bipolares, donde la polaridad indica si fue invertida la
forma de onda espacial original a esa frecuencia.
En general, cuanto ms distanciado de la esquina superior izquierda se
encuentre el coeficiente, menor ser su magnitud por trmino medio, lo
que muestra una caracterstica muy importante de la DCT, que es la
alta concentracin de la energa. La ganancia de codificacin (reduccin
del nmero de bits necesarios) se obtiene aprovechando los coeficientes
cero y de bajo valor para reducir los datos necesarios. Por tanto, no es la
DCT la que comprime los datos, sino el proceso subsiguiente. La DCT
simplemente expresa los datos en una forma que facilita el siguiente
proceso. Una vez transformada, existen varias tcnicas para reducir los
datos necesarios para llevar los coeficientes. Estos se basarn en el
conocimiento sobre la estadstica de las seales y sobre el estudio de la
percepcin visual humana, que aparecern combinados en sistemas
prcticos.
Se utiliza el conocimiento psicovisual para procesar los coeficientes. La
omisin de uno de ellos supone la desaparicin de la componente de
frecuencia adecuada del bloque reconstruido. La diferencia entre los
bloques originales y los reconstruidos se considera como ruido aadido
a los datos deseados.
La codificacin psicovisual aprovecha la sensibilidad descendente al
ruido multiplicando cada coeficiente por una constante ponderada como
funcin de su frecuencia. Esto produce el efecto de reduccin de cada
coeficiente de manera que se necesiten menos bits para representarlo.
Otra forma alternativa de enfocar todo este proceso consiste en
recuantificar individualmente los coeficientes cuyos tamaos de
escalones se incrementen con la frecuencia. Un escaln de mayor
tamao incrementa el ruido de cuantificacin a frecuencias donde no es
visible.
Es posible utilizar el conocimiento sobre estadstica de seales, obtenido
a travs del extenso anlisis de material real, para determinar la
probabilidad de que un determinado coeficiente tenga un valor dado.
sta es la base de la codificacin por entropa, donde los coeficientes no
se describen por nmeros con longitud de palabra fija, sino por cdigos
de longitud variable (VLC).
Cuando se realiza un bloque de coeficientes, es normal realizar una
exploracin siguiendo una secuencia en la que los valores ms altos de
los coeficientes son los primeros en ser explorados. Evidentemente, tal
71
exploracin comienza en la esquina superior izquierda y finaliza en la

esquina inferior derecha. Puede realizarse un anlisis estadstico del
contenido real del programa para determinar una exploracin optima.
Pero, en muchos casos, se utiliza la exploracin regular
en zig-zag, con una prdida muy pequea de precisin. La ventaja de

este tipo de exploracin consiste en que, con material tpico, la
exploracin finaliza con coeficientes de valor cero.
14. Compresin jpeg

El proceso de compresin JPEG abarca una serie de etapas que se
muestran a continuacin:
PROCESO DE COMPRESIN Y DECOMPRESIN PARA UNA IMAGEN DE VIDEO.
A fin de proporcionar un estndar universal para la compresin mnima,

el Grupo de Expertos Fotogrficos Asociados o Joint Photographic
Experts Group (JPEG) desarroll un formato de almacenamiento de la
imagen digital basado en estudios de la percepcin visual humana. El
estndar JPEG describe una familia de tcnicas de compresin de
imgenes fijas de tonalidad continua en escala de grises o color (24
bits). Sin embargo, numerosas aplicaciones han usado la tcnica
tambin para compresin de video, porque proporciona descompresin
de imagen de calidad bastante alta a una razn de compresin muy
buena, y requiere menos poder de clculo que la compresin MPEG
(Motion Pictures Experts Group).
72
Debido a la cantidad de datos involucrada y la redundancia psicovisual

en las imgenes, JPEG emplea un esquema de compresin con prdidas
basado en la codificacin por transformacin. El estndar resultante
tiene tantas alternativas como sean necesarias para servir a una amplia
variedad de propsitos y hoy da es
reconocido por la Organizacin Internacional de Estndares con el

nombre de ISO 10918.
El estndar JPEG define tres sistemas diferentes de codificacin:
Un sistema de codificacin bsico, con prdidas, que se basa en la
Transformada Discreta del Coseno y es apropiado para la mayora
de las aplicaciones de compresin.
Un sistema de codificacin extendida, para aplicaciones de mayor
compresin, mayor precisin, o de reconstruccin progresiva.
Un sistema de codificacin independiente sin prdidas, para la
compresin reversible.
La codificacin sin prdidas no es til para el video porque no
proporciona razones de compresin altas. La codificacin extendida se
usa principalmente para proporcionar decodificacin parcial rpida de
una imagen comprimida, para que la apariencia general de esta pueda
determinarse antes de que se decodifique totalmente. Esto tampoco es
til para el video ya que ste se construye de una serie de imgenes
fijas, cada una de las cuales debe decodificarse y visualizarse a un ritmo
muy rpido.
De las dos alternativas de codificacin de entropa, la codificacin
aritmtica slo se usa en los procesos de codificacin sin prdidas y
extendida. Este captulo describir slo el sistema bsico descrito en la
especificacin JPEG, que usa codificacin Huffman.
14.1
Sistema Bsico
En el sistema bsico, denominado a veces sistema bsico secuencial, la

precisin de los datos de entrada y de salida est limitada a 8 bits,
mientras que los valores cuantificados de la DCT estn limitados a 11
bits. La propia compresin se realiza en tres etapas secuenciales:
73
14.1.1
Clculo de la DCT
Se divide la imagen en bloques de pixeles de tamao 8x8 (ver Figura

siguiente), que se procesan de izquierda a derecha y de arriba abajo.
Segn se va encontrando cada bloque o subimagen de 8x8, se cambian
los niveles de sus 64 pixeles, sustrayendo de los mismos la cantidad 2
n-1 , siendo 2 n , el mximo nmero de niveles de gris. Esto es, para las
imgenes de 8 bits se resta 128 de cada pixel. Despus se calcula la
Transformada Discreta del Coseno bidimensional del
bloque, produciendo un conjunto de 64 valores conocidos como

coeficientes de la DCT.
8 pixels
8 pixels
BLOQUE O SUBIMAGEN DE TAMAO 8X8
14.1.2
Cuantificacin de los coeficientes de la DCT
Los 64 coeficientes son entonces cuantificados, produciendo en algunos

de ellos su reduccin a cero. Los coeficientes son codificados en umbral,
usando una matriz de cuantificacin y son preparados para la
codificacin de entropa convirtindolos en una cadena unidimensional
de 64 coeficientes en orden casi ascendente de los componentes de
frecuencia. Para convertir los coeficientes en esta cadena
unidimensional se reordenan usando una exploracin o barrido en zigzag. El primer coeficiente del barrido en zig-zag es conocido como el
coeficiente DC mientras que el resto son los coeficientes AC. A la matriz
de cuantificacin se le pueden aplicar factores de escala para obtener
diversos niveles de compresin. Las entradas de la matriz de
cuantificacin son usualmente determinadas segn consideraciones
psicovisuales, las cuales son discutidas ms adelante.
74
14.1.3
Asignacin del Cdigo de Longitud Variable
El coeficiente DC de cada bloque es codificado usando DPCM. Es decir,

se codifica la diferencia entre coeficiente DC del presente bloque y el
del bloque previamente codificado. Puesto que la cadena
unidimensional reordenada segn el barrido en zig-zag se distribuye
cualitativamente segn una frecuencia espacial creciente, el
procedimiento de codificacin JPEG ha sido diseado de modo que se
beneficia de la existencia de largas series de ceros que se producen
normalmente en la
reordenacin. En particular, los coeficientes AC no nulos se codifican

utilizando un cdigo de longitud variable que define el valor del
coeficiente y el nmero de ceros precedentes. Se proporcionan unas
tablas de especificacin estndar de cdigos de longitud variable.
La siguiente figura es un diagrama de bloques simplificado que muestra
los procedimientos involucrados en la compresin JPEG.
DCT
Codificador
de Entropa
Cuantificad
or
Imagen
Comprimida
Imagen 8*8
Tabla de
Especificacione
s
Tabla de
Especificacione
s
SECUENCIA DE PROCEDIMIENTOS DE COMPRESIN JPEG
La decodificacin es esencialmente el proceso inverso al de la

codificacin. Se llevan a cabo los mismos procesos, pero en orden
inverso. Las tablas de
especificacin usadas en el proceso de
codificacin se llevan junto con el flujo de datos despus de la
compresin y se usan para la descompresin. El decodificador de
entropa convierte el flujo de bits comprimido en una nueva tabla en zigzag de coeficientes DCT. Estos se multiplican entonces por los
coeficientes de de cuantificacin y se alimentan en el proceso DCT
inverso IDCT (Transformada Discreta del Coseno Inversa). La salida del
proceso es un bloque de pixeles reconstruido de tamao 8x8. Por
supuesto, este bloque de pixeles de 8x8 puede no reproducir
exactamente el original ya que se perdi alguna informacin en el
proceso de codificacin. La siguiente figura es un diagrama de bloques
Decodificado
simplificado del proceso
bsico involucrado
en la descompresin JPEG.
Imagen
Decuantificad
DCT
r
de
Entropa
Comprimida
or
Imagen 8*8
75
Tabla de
Especificacione
s
Tabla de
Especificacione
s
SECUENCIA DE PROCEDIMIENTOS DE DESCOMPRESIN JPEG
14.2
Imgenes en color.
Hoy la mayora de las imgenes electrnicas son grabadas en color, en

el dominio RGB (Red, Green, Blue). JPEG transforma las imgenes RGB al
espacio luminancia-crominancia, generalmente referido al dominio Y-CrCb, definido como
Y= 0.3R+0.6G+0.1B
Cr =
B Y
+0.5
2
Cr =
R Y
+0.5
1.6
Ya que el ojo humano es relativamente insensible al contenido de altas

frecuencias de los canales de crominancia Cr y Cb, ellos son
submuestreados por 2 en ambas direcciones. Esto es ilustrado en la
siguiente figura donde los canales de crominancia contienen la mitad de
muchas lneas y pixels por lnea comparados al canal de luminancia.
JPEG ordena los pixeles de una imagen a color como no entrelazado (3
exploraciones separadas) o entrelazado (una exploracin sencilla).
Y1
Y2
Y3
Y4
Y5 Y6
Y7
Y8
Y9
Y1
0
Y1
1
Y1
2
Y1
3
Y1
4
Y1
5
Y1
6
Cr 2
Cb1 Cb2
Cr 3 Cr 4
Cb3 Cb4
Cr1
76
El entrelazamiento hace posible descomprimir la imagen, y convertirla

de la representacin luminancia-crominancia a RGB para visualizarla con
una mnima
cantidad de memoria intermedia. Para los datos
entrelazados, los bloques DCT son ordenados de acuerdo a los
parmetros especificados en la trama.
14.2.1
Aspectos psicovisuales.
A fin de reducir la redundancia psicovisual en las imgenes, JPEG

incorpora las caractersticas del sistema visual humano en el proceso de
compresin a travs de la especificacin de matrices de cuantificacin.
Se conoce que la respuesta en
frecuencia del sistema visual humano decae con el incremento de la

frecuencia espacial. Adems, este decaimiento es ms rpido en los dos
canales de crominancia. Esto implica que una pequea variacin en la
intensidad es ms visible en regiones de variacin lenta que en las
regiones de variacin rpida, y tambin ms visible en la luminancia
comparada con una variacin similar en la crominancia.
Como resultado JPEG admite la especificacin de dos matrices de
cuantificacin, una para la luminancia y otra para los dos canales de
crominancia para asignar ms bits a la representacin de los
coeficientes que son visualmente ms significativos. Los cuadros 11 y
12 muestran matrices de cuantificacin tpicas para los canales de
luminancia y crominancia respectivamente. Los elementos de estas
matrices son basados en la visibilidad de funciones base individuales
DCT de 8x8 con una distancia de observacin igual a 6 veces el ancho
de pantalla. Las funciones base fueron vistas con resolucin de
luminancia de 720 pixeles x 576 lneas y una resolucin de crominancia
de 360x576. Las matrices sugieren que estos coeficientes DCT que
corresponden a imgenes base con baja visibilidad pueden ser mas
toscamente cuantificados.
16
11
10
16
24
40
51
61
12
12
14
19
26
58
60
55
14
13
16
24
40
57
69
56
14
17
22
29
51
87
80
62
18
22
37
56
68
10
10
77
77
24
35
55
64
81
10
4
11
3
92
49
64
78
87
10
3
12
1
12
0
10
1
72
92
95
98
11
2
10
0
10
3
99
CUADRO 11. MATRIZ DE CUANTIFICACIN PARA EL CANAL DE LUMINANCIA
17
18
24
47
99
99
99
99
18
21
26
66
99
99
99
99
24
26
56
99
99
99
99
99
47
67
99
99
99
99
99
99
99
99
99
99
99
99
99
99
99
99
99
99
99
99
99
99
99
99
99
99
99
99
99
99
99
99
99
99
99
99
99
99
CUADRO 12. MATRIZ DE CUANTIFICACIN PARA EL CANAL DE CROMINANCIA
La compresin de una imagen a color sigue los siguientes pasos:

Descomposicin en bloques o subimgenes: La imagen original
en la forma Y, Cr, Cb se divide en bloques de 8x8 pixeles, siendo,
para una imagen en formato CCIR 601 de 720 x 576, un total de
6480 bloques de luminancia Y y 3240 bloques para cada una de las
componentes Cr y Cb.
Cada uno de estos bloques forma una matriz de 64 nmeros de 0 a
255 (para imgenes de 8 bits) para la luminancia, y de 128 a +127
para las componentes Cr y Cb.
78
Clculo de la DCT: Se aplica la DCT a cada uno de los bloques Y, Cr,

Cb, generando para cada uno de ellos una nueva matriz de 8x8
compuesta por los coeficientes de las componentes de frecuencias
espaciales. El valor de estos coeficientes disminuye rpidamente
cuando se van alejando del origen de la matriz, terminando
generalmente en una serie de ceros. De esta forma si un bloque es
de luminancia y color uniformes, nicamente el primer coeficiente
(coeficiente DC) no ser nulo, y as solo habr que transmitir un
nico coeficiente en lugar de 64.
Discriminacin por umbral y cuantificacin: Esta etapa tiene en
cuenta las particularidades de la visin humana: consiste en poner a
cero los coeficientes inferiores a un valor predeterminado y en
codificar los coeficientes restantes con una precisin decreciente a
medida que la frecuencia aumenta. El coeficiente DC se codifica en
DPCM, lo que permite aumentar la precisin de cuantificacin para
un nmero de bits dado, de manera que se puede minimizar la
visibilidad de los bloques sobre la imagen reconstruida, ya que el ojo,
si bien es poco sensible a los detalles finos, es, por el contrario, muy
sensible a pequeas diferencias de luminancia sobre reas
uniformes.
Barrido en zig-zag: Con la excepcin del coeficiente DC que se

trata por separado, los 63 coeficientes AC se leen en zig-zag para
transformar la matriz en una cadena de datos en serie, adaptada a la
prxima etapa del proceso.
Codificacin entrpica de Huffman (VLC): Esta ltima etapa
consiste en codificar los coeficientes con una longitud tanto ms
corta cuanto ms frecuentes sean estadsticamente, como se vio
anteriormente.
15. Conclusiones
El sistema visual humano tiene limitaciones fundamentales en la
respuesta en frecuencia, como lmites para resolver detalles finos, o
transiciones de intensidad.
Los factores limitantes son el nmero y organizacin de los
fotorreceptores en la retina, la calidad de la parte ptica del ojo (crnea,
humor acuoso, cristalino, y humor vtreo), y la transmisin y
procesamiento de la informacin visual al cerebro.
79
El ojo humano puede observar todos los colores del espectro visible,
"mezclando" los tres colores primarios, rojo, verde y azul, lo que se
aprovecha en la televisin, con las seales R, G y B.
La agudeza del odo humano es asombrosa, ya que puede detectar
cantidades minsculas de distorsin y aceptar un enorme rango
dinmico. Ya que el odo analiza el sonido con bandas crticas, algunas
tcnicas de compresin de audio se aprovechan de este hecho,
dividiendo el espectro de frecuencias de audio en bandas para disminuir
el flujo de bits.
El enmascaramiento aumenta el umbral de audicin, y los compresores
toman ventaja de este efecto aumentando el ruido de fondo, el cual
permite expresar a la onda de audio con menos bits.
El odo es slo capaz de extraer una cierta proporcin de la informacin
contenida en un determinado sonido, siendo redundante el sonido
adicional, llamndose a este fenmeno entropa perceptual.
La velocidad de transferencia de datos de salida de un codificador es
prcticamente independiente de la frecuencia de muestreo de entrada.
Esto se debe a que la entropa del sonido se encuentra en la forma de
onda y no en el nmero de muestras que la llevan.
La calidad de reproduccin de un sistema digital de video bien diseado
es independiente del medio y depende nicamente de la calidad de los
procesos de conversin.
En el video digital, las copias son exactamente iguales los originales,

por lo tanto pueden hacerse infinidad de grabaciones sin prdida alguna
de la calidad.
Las redes de comunicaciones desarrolladas para manejar datos pueden
llevar perfectamente video digital acompaado tambin de audio a
distancias indefinidas sin prdidas de calidad.
La compresin de imgenes se basa fundamentalmente en la
eliminacin de las redundancias de codificacin, entre pixeles y
psicovisual de la imagen, tratando de dejar solamente la entropa.
En la compresin sin prdidas la imagen comprimida se puede
reproducir exactamente igual a la original.
En la compresin con prdidas hay una prdida de informacin
irreversible, por lo que la imagen no se puede recuperar como la
original.
La compresin con prdidas logra factores de compresin mayores que
en la compresin sin prdidas.
80
Las tcnicas de compresin con prdidas son, en general ms complejas

que las tcnicas de compresin sin prdidas.
En la tcnica de codificacin por Transformacin, la DCT condensa la
energa en una cantidad pequea de coeficientes, permitiendo eliminar
los dems, para as obtener una compresin de la imagen.
En la compresin JPEG se utiliza una combinacin de tcnicas de
compresin sin prdidas y con prdidas.
El estndar JPEG es un estndar de compresin espacial o intra.
En la compresin intra o espacial se hace en dos dimensiones, mientras
que en la compresin inter o temporal se hace tres dimensiones, ya que
adems de los dos ejes espaciales, tambin entra a hacer parte de esta
en eje del tiempo.
A diferencia de la codificacin espacial, con la codificacin temporal se
obtienen altos factores de compresin.
La codificacin temporal se aprovecha de la estimacin del movimiento
de los macrobloques, por medio del vector de movimiento, para no
tener que enviar toda la imagen, sino slo la parte de la imagen que se
mueve.
El MPEG 2 es un estndar de compresin para imgenes con
movimiento a velocidades de pixel entre 5 y 10 Mbit/s. El estndar de
video consiste de cinco perfiles, referido a la complejidad del algoritmo
de compresin y cuatro niveles, los cuales se refieren a la resolucin del
video original.
MPEG 2 es un estndar emergente para reproducir video en pantalla

completa y audio con calidad de transmisin; est ms orientado hacia
la televisin que MPEG 1, adems de que la calidad de la imagen es
superior.
El tren de transporte est destinado a la transmisin de programas a
larga distancia, por lo que est sujeto a muchos errores; mientras que el
tren de programa est destinado a aplicaciones donde el dispositivo de
almacenamiento o transmisin es poco susceptible a los errores.
Como no puede dependerse de la llegada del paquete anterior antes de
descomprimir el paquete actual, MPEG 2 no es ideal para transmisin
va Internet.
El estndar MPEG-2, al haber sido aceptado en Amrica, Europa y Asia,
se ha convertido en el soporte bsico sobre el que se desarrollar la
televisin digital en los prximos aos. MPEG-2 estar presente en la
81
difusin de programas de televisin por satlite, cable, redes terrenas y

grabaciones en discos pticos.
Muchos sistemas de produccin y archivo de programas harn uso de
MPEG-2 en su perfil de estudio 4:2:2. La compresin MPEG-2 ser el flujo
vital que llenar de sonido y color el entorno multimedia.
82

Procesamiento de Imagenes

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Procesamiento de Imagenes

Cargado por

Copyright:

Formatos disponibles

Procesamiento de Imgenes

HISTORIAL DEL DOCUMENTO

Ing. Reynaldo Cervantes (Profesor de Multimedia y

Tania Guerra Delgado

LOS SENTIDOS DE LA VISIN Y LA AUDICIN

Sistema Visual Humano

2.1 Etapas Fundamentales del Procesamiento de Imgenes

3.2 Relaciones entre pixels.

3.3 Geometra de la Imgen

Mtodos en el Dominio Espacial

Mtodos en el Dominio de Frecuencia

Mejora por Procesamiento de punto

Comprensin del rango dinmico

Fraccionamiento del Nivel de Gris

Filtrado Espacial de Paso Bajo

Filtracin por la Mediana

Filtrado Espacial de Paso Alto Bsico

MTODOS EN EL DOMINIO DE FRECUENCIA

PROCESAMIENTO DE IMGENES EN COLOR

Fundamentos del Color

Redundancia entre Pixels

MODELOS DE COMPRESIN DE IMGENES

Codificador y Decodificador de Fuente

Codificador y Decodificador de canal

COMPRESIN CON ERRORES

COMPRESIN DE IMGENES CON PRDIDAS

Codificacin por Truncamiento

Codificacin Predictiva con Prdidas

Codificacin por Transformacin

Transformada Discreta del Coseno (DCT).

Desarrollo de las temas a los que hace referencia en el ndice.

MATERIALES REQUERIDOS POR EL

CONVENCIONES DEL DOCUMENTO

ACERCA DEL CURSO

PRERREQUISITOS DEL ESTUDIANTE

OBJETIVOS DEL CURSO

1. Los sentidos de la Visin y la

1.1.1 Estructura fsica del ojo

luz salen del cristalino pasando a travs de una sustancia transparente

La membrana ms interna del ojo es la retina, que cubre la totalidad de

insensibilidad de los conos cuenta adems para la incapacidad de

corteza visual. La percepcin de la visin es creada dentro del proceso

1.1.2 Respuesta a la Iluminacin y

RESPUESTA LOGARTMICA DEL OJO, LEY DE WEBER

Las siguientes figuras ilustran la Ley de Weber. Son mostradas dos

Como se esperara de la curva en la Figura anterior, las franjas en la

FIGURA * FRANJAS DE ESCALA DE GRISES CON FRANJAS DE IGUAL

FIGURA ** INTENSIDAD REAL DE LAS FRANJAS DE ESCALA DE GRISES

En las figuras que se presentan a continuacin, la intensidad de las

simple oscurecimiento de las regiones brillantes

FRANJAS DE ESCALA DE GRISES QUE IGUALAN LA RESPUESTA LOGARTMICA

La capacidad del ojo para discriminar entre cambios de iluminacin para

MONTAJE EXPERIMENTAL EMPLEADO PARA CARACTERIZAR LA

Si el I no es lo suficientemente brillante, el sujeto debe decir "No",

regin depende de la intensidad del rea circundante. Este efecto es

Un segundo fenmeno es el efecto de bandas de Mach. Con este efecto,

FIGURA 1 ESCALA DE GRISES

FIGURA 2 INTENSIDAD REAL DE LAS FRANJAS DE ESCALA DE GRISES DE LA

El sistema visual tiene limitaciones fundamentales en la respuesta en

PATRN QUE INCREMENTA LA FRECUENCIA DE IZQUIERDA A DERECHA Y

El fenmeno discutido ilustra el complejo proceso que ocurre en el

1.1.3 Visin de color