Documentos de Académico
Documentos de Profesional
Documentos de Cultura
100228798
decir, procesos todos ellos en los que la calidad no es un factor importante, sino el
mantenimiento del servicio con un coste razonable.
El proceso de compresión con pérdidas es irreversible, es decir que no es posible
recuperar la información original a partir de la información comprimida. Tal
irreversibilidad da lugar a una rápida degradación de la calidad de señal si la
compresión se aplica de forma concatenada, es decir, la realización de compresiones
sucesivas sobre señales decodificadas.
Relación de compresión. Se define como: El cociente de flujo binario a la entrada del
codificador entre el flujo binario a la salida del codificador.
Eficiencia de codificación. Por lo general, se expresa en bits por muestra o en bits por
segundo y está limitada por el contenido de información o entropía de la fuente. Cuanto
mayor sea ésta, más difícil y compleja será la compresión.
Complejidad de codificación. La complejidad del proceso de compresión tiene que ver
directamente con la carga o esfuerzo de cómputo para implementar las funciones de
codificación y decodificación. Esto afecta tanto al hardware como al software y, por lo
general, se mide en función de los requerimientos de memoria y de la cantidad de
operaciones aritméticas necesarias, expresada en millones de operaciones por segundo
(MOPS) o bien de millones de instrucciones por segundo (MIPS). La complejidad de
codificación también está relacionada con el consumo de potencia del codificador y con
el tiempo requerido para realizar el proceso de compresión, al que se designa como
retardo de codificación.
Retardo de codificación. Todo proceso de compresión requiere de un cierto tiempo
que, dependiendo de la aplicación, puede resultar o no, crítico. Hay aplicaciones de
compresión que pueden llevarse a cabo “fuera de línea”, es decir en tiempo no real,
como el procesado de imágenes médicas o las que generan algunos sistemas de
percepción remota. Esto no es posible en televisión, donde todo el procesado debe
hacerse en tiempo real o cuasi – real de modo que el retardo introducido por los
procesos de codificación y decodificación no sea perceptible al observador. El retardo
de codificación puede reducirse aumentando la potencia de cómputo, lo que aumenta la
complejidad de hardware y software y, por consecuencia, del costo.
Calidad de señal. En general, este concepto se aplica a la señal de salida del
decodificador y, en realidad, no hay un criterio cuantitativo aceptado universalmente
para definirlo. En alguna literatura, se define mediante una relación señal a ruido dada
por:
Entendiéndose aquí por energía de ruido de la señal, como la energía medida para una
señal hipotética, igual a la diferencia entre la señal de entrada al codificador y la señal
de salida del decodificador. La definición anterior se refiere a niveles medios de energía
Oscar Misael Peña Victorino
100228798
y, en el caso de imágenes de vídeo, se utilizan los valores pico, lo que da lugar a una
relación de señal pico a ruido (PSNR), en lugar de SNR.
Este criterio para definir la calidad de la señal no resulta adecuado desde un punto de
vista perceptual en lo que concierne a la señal de televisión ya que los valores altos de
SNR o PSNR no siempre se corresponden con señales de alta calidad perceptual. En la
práctica, suele preferirse el resultado de sondeos de la opinión de espectadores. Es decir,
la calidad de la señal suele medirse en términos subjetivos.
Tanto en compresión sin pérdidas como con pérdidas, la calidad de los datos de entrada
afecta la relación de compresión. Así, el ruido en la adquisición de los datos, errores en
el tiempo de muestreo y los propios procesos de conversión analógico digital, afectan la
calidad de la señal y reducen la correlación espacial y temporal de las muestras dando
lugar a que algunos esquemas de compresión sean muy sensibles a la pérdida de
correlación y den peores resultados con señales ruidosas.
Caudal binario a la salida del codificador. Según la forma de implementar el
codificador, las características del caudal binario a la salida del codificador pueden dar
lugar a los siguientes casos:
a) Retardo fijo de codificación y flujo constante de salida. La eficiencia de
codificación varía según las muestras y, por consecuencia, también la calidad de
la señal.
b) Procesado de muestras en paralelo. Con esta técnica es posible mejorar la
eficiencia de codificación dando lugar a símbolos de longitud fija a la salida,
pero a intervalos irregulares dependiendo de la cantidad de información
contenida en cada grupo de muestras. También es posible obtener a la salida
símbolos de longitud variable a intervalos fijos.
c) Eficiencia de codificación fija. En este caso, la calidad de la señal varía en
función de la cantidad de información contenida en las muestras a comprimir.
Este enfoque puede resultar adecuado para emplearse en sistemas de
comunicaciones en que la velocidad de transmisión no debe exceder un cierto
valor, o para aplicarse a medios de almacenamiento de capacidad fija. Este tipo
de codificadores se designan como de flujo o caudal binario constante.
d) Calidad constante y eficiencia de codificación variable. Si los medios de
transmisión o de almacenamiento no restringen la velocidad de transmisión, o
bien si es deseable una calidad determinada de señal a la salida del
decodificador, puede permitirse que varíe la eficiencia de codificación para
mantener constante dicha calidad. Estos esquemas de codificación se designan
como de caudal o flujo variable y también como de calidad constante.
Algunas técnicas de compresión se han conseguido, simplemente atendiendo a las
diferentes sensibilidades que tiene el ojo humano frente al brillo y a los colores. Esta
posibilidad de compresión viene expresada en la recomendación ITU-RBT.601 cuando
habla de las distintas familias que se desarrollan bajo esta norma (4:4:4, 4:2:2, 4:1:1,
4:2:0, ...), cada una de ellas, con diferentes flujos binarios.
El conocido formato de video 4:4:4 utiliza la misma frecuencia de muestreo para las
señales de color que para la de luminancia. En el formato 4:2:2, en cambio, la
Oscar Misael Peña Victorino
100228798
frecuencia de muestreo de las señales de color pasa a ser la mitad. Sin embargo, esta
forma de compresión no degrada subjetivamente la calidad, sino que este formato se
ajusta más a las distintas sensibilidades del ojo.
El sistema 4:4:4 se utiliza, no porque ofrezca una mayor calidad subjetiva, sino porque
las operaciones de tratamiento digital de imágenes, u otras operaciones como el croma –
key (llave de color), en el que se conmuta de imagen a partir de la información del color
de los píxeles, se realiza con mucha más precisión.
Redundancia Temporal
La redundancia temporal viene dada por la relación entre los píxeles homólogos
de imágenes sucesivas. Esta redundancia aparece
porque la vida no cambia significativamente de
fotograma a fotograma. Evidentemente, en 40ms.
suponiendo una frecuencia de cuadro de 25 f/s. no
ocurren grandes cosas desde el punto de vista del
espectador. Lo que el espectador espera al contemplar
una secuencia de vídeo, es una continuidad en la
acción, y no un cambio continuo en los planos.
Redundancia Estadística
La redundancia estadística, se basa en que, en algunas aplicaciones,
determinados valores tienden a repetirse más que otros. Una de las técnicas de
compresión basada en la detección de redundancia estadística es la codificación
de longitud variable (VLC - Variable Lenght Code).
Este modo de compresión consiste en asignar códigos más largos en bits a los
valores de muestra que aparecen menor número de veces, y códigos más cortos a
los que aparecen más a menudo. En este método, antes de aplicar los códigos de
longitud variable, el codificador deberá analizar estadísticamente los datos que
le llegan, para aplicar después la codificación óptima a
cada valor.
En esta expresión, la variable “u” de salida, que representa el índice del coeficiente que
se está calculando, adopta los valores comprendidos entre 0 y N-1, de manera que la
DCT resulta ser una secuencia también de tamaño N. Asimismo, el valor de “n”
representa a los índices de cada elemento de la secuencia que se quiere transformar.
El parámetro α(u) tiene dos valores posibles, que son estos:
Existen otras formas de escribir esta expresión con valores derivados de este α(u), pero
llevan a resultados equivalentes. Los N valores C[u], obtenidos al aplicar esta
Oscar Misael Peña Victorino
100228798
En esta expresión, el valor de N es, en general, conocido para cada aplicación. Por
ejemplo, para aplicaciones de video, el valor más usual es N=8. A partir de estas
funciones base, el valor de cada C[ui] se calcularía según la siguiente expresión
Oscar Misael Peña Victorino
100228798
De la misma manera que antes, las variables “u” y “v” de salida adoptan los valores
comprendidos entre 0 y M-1, y entre 0 y N-1 respectivamente; de manera que la DCT
resulta ser también una matriz de tamaño MxN.
Los parámetros α(u) y β(v) tiene dos valores posibles, que son estos:
Propiedades de la DCT
La DCT por sí misma, al pasar de una matriz a otra del mismo tamaño no implica
compresión alguna, pero tiene algunas características importantes que la hacen muy útil
para nuestro propósito. Sin llegar a hacer un estudio exhaustivo, nos vamos a centrar en
aquellas propiedades que nos van a ser útiles en los procesos de compresión de
imágenes.
a)- Una de las propiedades más importantes y que se puede comprobar directamente de
la definición es la de “separabilidad”. En este caso. la separabilidad quiere decir que una
DCT bidimensional se puede expresar como un conjunto de varias DCTs
unidimensionales.
Si x[m,n] = x1[m] · x2[n], C[u,v] = C1[u] · C2[v].
b)- La DCT presenta también la propiedad de una gran compactación de la información
en los coeficientes de menor orden, de tal manera que los de orden superior tienen un
valor nulo o caso nulo,salvo en el caso de imágenes que presenten una anormalmente
alta variación espacial.
c)- Los coeficientes resultado de la DCT presentan entre sí una muy pequeña
correlación. Esta propiedad es especialmente importante en aplicaciones de compresión
de imágenes, ya que de esta forma será posible dar a los coeficientes tratamientos
totalmente diferentes dependiendo del lugar que ocupen dentro de la matriz de
coeficientes.
d)- La transformada de Fourier es una transformada compleja, con parte real y parte
imaginaria, lo que complicado el trabajo con ella. Sin embargo, la DCT es una
transformada real; sus resultados son muestras de la función coseno, y esto simplifica
mucho su manejo.
e)- Si en la transformada de una imagen se suprimen los coeficientes de mayor orden, al
volver a calcular la transformada inversa, se obtiene una muy buena aproximación de la
imagen inicial.
Oscar Misael Peña Victorino
100228798
BIBLIOGRAFÍA
- http://edii.uclm.es/~jmlova/Archivos/VD/Archivos/VdCompresion.pdf
- http://mpeg.telecomitalialab.com
- http://www.diffuse.org/fora.html
- http://iso.ch
- http://itu.int/rec