Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Hay una mayor facilidad de realizar una imagen digital así como la relación calidad-precio es mucho
mejor que imagen analogico. Estas características han llevado a un aumento en la utilización de las
imágenes digitales cada vez más.
Las radiografías se presentaban encima de un negatoscopio (dispositivo que permite ver las
radiografías a través de un sistema de iluminación por transparencia del negativo colocado ante un
vidrio esmerilado.) y se procedía a grabar lo que aparecía mediante una cámara de video CCD
transformado las radiografías a imágenes digitales observables en el ordenador.
La resolución de una cámara fotográfica digital CCD (dispositivo de carga acoplada) está limitada por
los sensores CCD que responden a las señales de luz, sustituyendo el trabajo de la película en
fotografía tradicional. El sensor se compone de millones de “cubos” que se cargan en respuesta a la
luz. Generalmente, estos cubos responden solamente a una gama limitada de longitudes de onda
ligeras, debido a un filtro del color sobre cada uno. Cada uno de estos cubos se llama un píxel, y se
utiliza un algoritmo de mosaicismo e interpolación para unir la imagen de cada gama de longitud de
onda por píxel en una imagen del RGB (red-green-blue) donde están las tres imágenes por píxel para
representar un color completo.
Cada sensor está formado por una serie de transistores cmos dependiendo de qué material esten
hechos estos el sensor es sensible a una determinada longitud de onda 1.
Los dispositivos CCD transportan la carga a través del chip hasta un conversor analógico-digital. Este
convierte el valor de cada uno de los píxeles en un valor digital midiendo la carga que le llega.
Dependiendo del número de bits del conversor obtendremos una imagen con mayor o menor gama
de color. Por ejemplo, si se utilizase un bit tendríamos valores de 0 y 1, y podríamos representar
presencia o ausencia de luz, lo que supondría una imagen en blanco y negro puro.
A mayor número de píxeles, mayor nitidez en relación con el tamaño. Si el chip donde se encuentran
los sensores es pequeño conlleva que los sensores son pequeños lo que permite obtener poca luz
debido al área que ocupa cada pixel. Más pequeño es el chip menor es la sensibilidad. De igual
manera se puede decir que si el chip es grande el área de los sensores para captar luz es mayor y
por tanto presenta mayor sensibilidad hacia la luz.
Rayos X2 tiene la mayor frecuencia lo que lleva a una gran energía lo que a su vez a un gran poder
de atravesamiento.
(1) Difusión de rayos X reflejo de la onda en todas direcciones que experimenta ésta cuando
choca contra una superficie lisa y pulimentada sin cambiar de medio de propagación.
1
La longitud de onda es una u otra según la energía que presenta las partículas para pasar de un
orbital a otro y se obtiene gracias a la ley de Planck : E=h*f. Cuanto mayor es la energía más poder
de atravesamiento presenta la onda.
2
Los rayos X no pueden atravesar el plomo.
(2) Difracción de rayos X fenómeno característico de las ondas que se basa en la desviación de
estas al encontrar un obstáculo o al atravesar una rendija.
Una imagen analogica no conlleva ningun tipo de variables a tener en cuenta : (3)𝑙 = 𝑙(𝑥, 𝑦)
Factores que forman una imagen digital , que se representan mediante matrices :
- Reflectancia mide la cantidad de luz reflejada por una superficie cuyo dominio está entre 0
(no se refleja luz) y 1 (refleja toda la luz posible).
- Iluminación factor muy importante para la imagen ya que debe ser la adecuada y homogénea
(problema común de imágenes) puede presentar un valor desde cero a infinito. No es una
magnitud física.
La resolución de una fotografía digital es su cantidad de píxeles por unidad de longitud, es decir, es la
relación entre el tamaño en pixeles de una imagen (que dependen del dispositivo con el que ha sido
capturada) y sus dimensiones físicas, que se manifiesta en un dispositivo de salida como una
pantalla o una impresora.
MUESTREO
Para determinar la resolución requerida, hay que determinar dos factores: 1) cuál es la característica
más pequeña a observar y 2) cuál va a ser el campo de visión deseado a adquirir. Por tanto, habrá
que determinar el factor de magnificación y el número de píxeles que debe de tener la cámara. Como
regla general, se puede emplear que la característica más pequeña sea representada por, al menos,
un cuadrado de 2x2 píxeles. Por otro lado, el campo de visión suele venir dado por la capacidad del
sistema de iluminación. Éste pretenderá, por lo general, conseguir una intensidad luminosa uniforme
en toda la superficie a inspeccionar por la cámara. Por tanto, se plantea el problema en los siguientes
términos: defecto más pequeño a visualizar y el campo de visión a capturar por la cámara.
El muestreo puede ser natural o ideal. Y asu vez: rectangular, triangular, hexagonal o irregular. Las
teselaciones más comunes son: la triangular, la cuadrícula y la hexagonal.
CUANTIFICACIÓN
3
I de imagen
imágenes solo tienen información sobre la iluminancia se habla de una imagen en niveles de grises.
En este caso, la cuantificación del píxel es de tipo escalar. Si el escalar sólo tiene dos valores, se
dice que la imagen es binaria. El valor del cero es negro y el uno es blanco.
En general, se suele emplear un byte de cuantificación por píxel, consiguiendo 256 niveles de grises.
El cero será el color negro y el valor 255 corresponderá con el blanco. Entre el cero y el valor 255
estarán los diversos valores de grises. Para el caso del color, la cuantificación se vuelve vectorial; por
cada píxel se representa una terna de valores que haga reflejar la luminancia y crominancia en cada
píxel. La terna dependerá del sistema de representación del color: RGB, L*a*b, HSI,... Comúnmente,
se empleará el sistema RGB con 1 byte por cada color, de forma que se obtendrá 16 millones de
colores. Las aplicaciones industriales suelen emplear una resolución radiométrica de 256 niveles de
grises o de 16 millones de colores. Evidentemente, si la aplicación exige más resolución, el volumen
de información se incrementa exponencialmente.
Existen unas imágenes en falso color que permite una mejora de resolución obteniendo mayor
información de esta también encontramos el tensor de difusión una variación de la toma de imágenes
por resonancia magnética nuclear convencional (RMN) que crea imágenes vívidas, a color, del
recorrido de las innumerables fibras nerviosas en la materia blanca del cerebro, mediante el análisis
del movimiento de las moléculas de agua a lo largo de las fibras. Permite analizar el movimiento de
los líquidos corporales.
CALIDAD
donde R denota el máximo valor que puede tomar un píxel en la imagen. Cuando éstos se
representan usando B bits por muestra, R = 2^B − 1. Para una imagen en formato RGB, la
definición del PSNR es la misma, pero el MSE4 se calcula como la media aritmética de los
MSEs de los tres colores (R, G y B).
4
MSE (error cuadrático medio) mide el promedio de los errores al cuadrado, es decir, la diferencia
entre el estimador y lo que se estima.
- Subjetivo
Escala de MoS (Mean opinion Score) en el que se pide opinión pública sobre las imágenes.
Bien comparando la imagen original con la modificada o estableciendo una valoración de la
imagen obtenida sin comparaciones.
TIPOS DE IMÁGENES
Hay alrededor de 6 millones de conos o células sensibles a la luz en cada retina y entre 90 y 126
millones de bastones, las células responsables de la visión en condiciones de baja luminosidad.
Cada célula receptora contribuye con un punto individual de información de la imagen: algo así como
un píxel en una pantalla.
Así que para una sola imagen, los conos del ojo capturan alrededor de 6 megapíxeles de información
en color, mientras que los bastones consiguen 100 megapixeles en blanco y negro.
Pero muchos de los conos están agrupados alrededor de un punto central llamado fóvea y el ojo
recorre su campo de visión constantemente para componer una imagen.
Teniendo esto en cuenta se ha calculado que el ojo captura el equivalente a 576 megapíxeles.
TEMA 2
Medidas de compresión
(1) Codificación sin pérdida en donde la imagen codificada y después decodificada es idéntica
bit a bit a la original. Encontramos formatos como son bmp, gif, …
(2) Codificación con pérdida en donde la imagen reconstruida no es idéntica a la original como
son los formatos jpeg, png , …
Tener en cuenta que el paso del primer proceso al segundo es reversible a diferencia del siguiente.
PNG
PNG cuyas siglas significan Portable Network Graphics. Es un formato sin pérdidas como hemos
mencionado anteriormente con dominio publico (no hay que pagar). Admite 16 bits en niveles de gris
presenta canales alpha y puede procesar imágenes en color tipo RGB o RGB- alpha pero NO CMYK.
La composición alfa o canal alfa es la que define la opacidad de un píxel en una imagen. El canal
alfa actúa como una máscara de transparencia que permite, de forma virtual, componer (mezclar
capas) imágenes o fondos opacos con imágenes con un cierto grado de transparencia. Así, en un
formato de imagen que admita transparencia, a los tres canales de color básicos RGB que definen la
cantidad de rojo, verde y azul respectivamente del píxel, se añade un cuarto canal, el alfa, que define
el grado de opacidad de ese píxel. (RGB-alpha)
JPEG (1991)
Una imagen suele presentar redundancia espacial: Redundancia espacial: Las imágenes tienen
información redundante susceptible de ser eliminada o reducida (por ejemplo, el color del cielo en
una foto suele ser uniforme y azul :-). El proceso de compresión de imagen consistirá en: Eliminar en
la medida de lo posible la redundancia espacial utilizando técnicas de source encoding (normalmente
mediante transformada matemática). Codificar los datos obtenidos en el paso anterior usando
entropy coding (elimina aún más la redundancia espacial). Para conseguir mayores índices de
compresión, este proceso será con pérdidas (cuantización de los datos).
Antes de iniciar el proceso se prepara la imagen utilizando una redundancia de color y se divide la
imagen en bloques de 8 x 8 pa una imagen en 2 dimensiones para una imagen de una dimensión la
imagen se divide en 8 bloques.
La transformada real :
FASE 2: Q (Cuantificación)
Codificación DPCM de los componentes DC de cada bloque. Bloques sucesivos tienen un valor
medio muy similar. Paso 5: Codificación run-length de todos los componente de un bloque. Se hace
un barrido zig-zag con el fin de agrupar todos los componentes nulos. Codificación estadística VLC:
Huffman A lo obtenido en el paso anterior se aplica el algoritmo de Huffman para comprimir aún más
la información. El resultado de este paso es lo que debemos enviar o almacenar. La decodificación
JPEG consiste en realizar el proceso inverso
FASE 5: DCT-2D^(-1)
JPEG 2000 es una actualización del estándar JPEG que finalizó en diciembre de 2000
Transmisión progresiva, consiste en obtener unos primeros valores de los pixeles de imágen
completa y después ir cargando con más precisión los valores con cada iteración. La
transmisión habitual consiste en cargar los datos completos por filas o columnas (según
como esté implementada la tabla de valores de los pixeles).
De esta manera es posible almacenar diferentes partes de la misma imagen con diferente calidad.
Presenta 5 estándares:
- MPEG-1 Aplicaciones sin errores
- MPEG-2 Radiodifusión de TV (SD y HD)
- MPEG-4 Codificación basada en objetos
- MPEG-7 Descripción multimedia
- MPEG-21 Protección de la información audiovisual
Codificación de videos
La mayoría de codificadores comprimen la información para que pueda ser almacenada o transmitida
ocupando el mínimo espacio posible. Para conseguirlo se aprovecha que las secuencias de video
tienen redundancia en las dimensiones espacial y temporal. Por lo tanto, eliminando dicha
información redundante se consigue codificar la información de manera más óptima.
Para eliminar la información redundante en el plano temporal se utiliza la predicción por
compensación de movimiento, donde se estima el movimiento entre bloques sucesivos de la imagen.
Los bloques son formados por grupos de píxeles, generalmente de 8x8 o 16x16. Posteriormente se
codifica la información de los vectores de movimiento y del error de predicción respecto al bloque
anterior.
Para eliminar la información redundante en el plano espacial se decorrela el error intercuadro y se
hace la codificación de los coeficientes de la DCT.
El funcionamiento del codificador de video es el siguiente: se separan las señales de luma (Y) y
croma (C). Se busca el error de estimación y se hace la DCT. Los coeficientes se cuantifican y se
codifican entrópicamente (VLC). Se multiplexan los coeficientes y se pasan al buffer. El buffer
controla la calidad de señal (se busca que el flujo de bits saliente del buffer no sea variable, ya que la
señal está pensada para ser transmitida en un canal con una velocidad estable). La imagen
cuantificada se reconstruye mediante Q-1 y la IDCT, para futuras referencias de predicción y
estimación de movimiento.
● Compensación de movimiento
Para un simple movimiento de traslación los datos que representan un objeto son altamente
redundantes con respecto al eje de trayecto óptico. Así, que de este modo, el eje de trayecto
óptico puede ser hallado, generando un código de ganancia cada vez que se observa la
presencia de un mismo objeto en movimiento.
2.2 DICOM
Existen tres tipos de operaciones que se pueden realizar sobre una imagen :
Operadores puntuales
Los operadores puntuales toman un pixel y lo modifican mediante una función de transformación. Me
ayudan a obtener un histograma mejor distribuido, y por lo tanto, una imagen con mejor calidad visual.
Conlleva poca memoria y proceso.
Dominio espacial: es la colección de todos los elementos. Tomó un pixel, lo multiplico por una función
de transformación que yo quiera, las cuales, típicamente son lineales (operaciones elementales y
geométricas ). Los operadores puntuales son reversibles, siempre se puede regresar a la imagen
original. Tenemos la imagen original, le aplicamos un transformador, y nos da la nueva imagen.
Donde:
m, es el tipo de cambio (pendiente) Es la tasa de cambio. La m da la potencia o poder de alargar
o contraer los nuevos valores de la nueva imagen. Si m=1, y b=0, pasa nada. Si la pendiente es
corta, los valores son menores. Si la pendiente es mayor, trabajará con más fuerza.
b indica en qué punto vamos a mandar nuestros valores a cero (umbral del valor más cercano a cero).
Con la información contenida en el histograma de la imagen, es posible efectuar la operación de
transformación.
Pendiente: Ordenada al origen: R. Manipulación en el dominio de la imagen. Se trabaja con los datos
puntuales, porque es un operador puntual.
El histograma, sólo representa el número total de los elementos de imagen en cada nivel de gris
independientemente de su distribución. Nos da una idea de DISTRIBUCIÓN. El histograma nos habla
de ciertas regiones de la imagen, pero globalmente, caracteriza la imagen en términos de su contraste
y calidad visual.
Contraste
Nivel de gris (valor del elemento de imagen), es decir, de acuerdo con la tabla de asignación de colores.
Aumentamos el contraste cuando aumentas el número de colores en el que se muestra la imagen, y
lo disminuyes, si disminuyes el número de colores, es decir, si disminuyes la variedad de colores. El
brillo manipula el contraste simultáneamente.
- Operador Identidad:
Este operador crea una imagen idéntica a la imagen de entrada. La función de
transformación es :
q(i,j) = p(i,j)
1. Operador Adición.
La adición puede utilizarse para reducir los efectos del ruido de la imagen. Su valor
de salida está dado por:
Suma 1 + 2
2. Operador Sustracción.
La sustracción de imágenes es utilizada es una técnica útil para detectar el cambio
producido en dos
imágenes captadas en dos instantes de tiempos diferentes.
Su transformación está dada por:
Operador de Vecindad.
En este tipo de operación utiliza el mismo procedimiento anterior, excepto que el
nuevo valor del pixel
depende de una combinación de los valores de los vecinos de los píxel que se está
evaluando. Para esto es necesario definir una máscara con valores constantes, es
decir:
La corrección gamma es como se denomina cierta operación no lineal que se usa para codificar y
decodificar luminancia o valores triestímulos en sistemas de video o imagen. La corrección gamma
es, en su forma más sencilla, definida por la siguiente ley de potencias:
V out = A V in γ donde A es una constante y las entradas y salidas son valores reales no negativos;
en el caso común de A = 1, las entradas y salidas caen típicamente en el rango 0-1. Un valor gamma
γ < 1 a veces se denomina gamma de codificación, y el proceso de codificar con esta compresión
no lineal basada en una ley de potencias se llama compresión gamma; a la inversa un valor
gamma y > 1 se llama gamma de decodificación y la aplicación de la ley de potencias expansiva
se llama expansión gamma.
Para valores de gamma menores que 1 se da más importancia al color blanco que al gris , sin
embargo para gamma mayores que uno hay mayor número de tonos negros que de blancos cuanto
mayor es mas banda se le asigna al negro y viceversa con la blanda blanca con valores de gamma
menores que 1.
Permite ajustar a nuestro criterio el ancho de banda correspondiente a la zona oscura y otro ancho
de banda correspondiente a la zona clara. Como puede ser la siguiente :
5. Planos de bits