Está en la página 1de 14

Oscar Misael Peña Victorino

100228798

COMPRESIÓN DE LA INFORMACIÓN DE VÍDEO

I - La comprensión de la señal de video.

En el ámbito digital, para almacenar o transmitir información se utiliza un tren de datos.


Para que sea posible la compresión de este tren de datos, es necesario que en él exista,
además de información real, información redundante. Esta información redundante
podremos eliminarla durante el proceso de compresión, y posteriormente reconstruirla
en el proceso de descompresión a partir de la información real. La información real en
cambio será imprescindible para recuperar los datos originales de forma correcta, de
modo que no es posible obviarla.
La misión de un sistema de compresión consiste en detectar y eliminar la información
redundante, codificando solamente la información útil. Por lo tanto, podemos considerar
la compresión digital como un procedimiento, matemático en general, que rebaja el
flujo binario de un tren de datos, en base a la eliminación de información redundante y a
una codificación inteligente de la información real.
La compresión, a partir de ciertos valores influye negativamente en la calidad del vídeo.
Por eso, debe utilizarse un algoritmo y un factor de compresión que minimicen dicha
degradación. Según estas consideraciones, podemos clasificar la compresión en tres
tipos diferentes: compresión sin pérdidas, compresión subjetivamente sin pérdidas
y compresión subjetivamente con pérdidas. Éstas, las vamos a tratar en los próximos
párrafos.
En la compresión sin pérdidas, la información original se recupera en su integridad
después del proceso de compresión – descompresión. Este tipo es muy utilizado para la
compresión de datos informáticos. Dependiendo del tipo de archivo, este modo tiene
niveles de compresión variables. Con algunos archivos puede llegar a compresiones de
70:1, pero en otros casos, no es posible comprimir ya que el archivo comprimido podría
ser incluso de mayor tamaño que el original.
Por otra parte, con la compresión subjetivamente sin pérdidas, en el proceso de
compresión – descompresión, no se recupera absolutamente toda la información
original, pero el sistema receptor, como por ejemplo el sistema visual humano, no
detecta las diferencias. En el ámbito de la compresión digital de sonido e imagen, existe
una norma general y es que “lo que el ojo no ve, o lo que el oído no oye, no se
codifica”. Este tipo de compresión es el que se utiliza en vídeo digital, y es el que más
nos interesa por su mantenimiento de la calidad, consiguiendo factores de compresión
interesantes.
Finalmente, en la compresión subjetivamente con pérdidas, durante el proceso de
compresión – descompresión se degrada significativamente la calidad de la
información, pero el usuario lo tolera en beneficio del servicio recibido. Este tipo de
compresión lleva asociados grandes factores de compresión y se utiliza generalmente en
multimedia; en los sistemas de videoconferencia como se dijo anteriormente; en
sistemas de vigilancia y seguridad; en consultas de video y en edición fuera de línea; es
Oscar Misael Peña Victorino
100228798

decir, procesos todos ellos en los que la calidad no es un factor importante, sino el
mantenimiento del servicio con un coste razonable.
El proceso de compresión con pérdidas es irreversible, es decir que no es posible
recuperar la información original a partir de la información comprimida. Tal
irreversibilidad da lugar a una rápida degradación de la calidad de señal si la
compresión se aplica de forma concatenada, es decir, la realización de compresiones
sucesivas sobre señales decodificadas.
Relación de compresión. Se define como: El cociente de flujo binario a la entrada del
codificador entre el flujo binario a la salida del codificador.

Eficiencia de codificación. Por lo general, se expresa en bits por muestra o en bits por
segundo y está limitada por el contenido de información o entropía de la fuente. Cuanto
mayor sea ésta, más difícil y compleja será la compresión.
Complejidad de codificación. La complejidad del proceso de compresión tiene que ver
directamente con la carga o esfuerzo de cómputo para implementar las funciones de
codificación y decodificación. Esto afecta tanto al hardware como al software y, por lo
general, se mide en función de los requerimientos de memoria y de la cantidad de
operaciones aritméticas necesarias, expresada en millones de operaciones por segundo
(MOPS) o bien de millones de instrucciones por segundo (MIPS). La complejidad de
codificación también está relacionada con el consumo de potencia del codificador y con
el tiempo requerido para realizar el proceso de compresión, al que se designa como
retardo de codificación.
Retardo de codificación. Todo proceso de compresión requiere de un cierto tiempo
que, dependiendo de la aplicación, puede resultar o no, crítico. Hay aplicaciones de
compresión que pueden llevarse a cabo “fuera de línea”, es decir en tiempo no real,
como el procesado de imágenes médicas o las que generan algunos sistemas de
percepción remota. Esto no es posible en televisión, donde todo el procesado debe
hacerse en tiempo real o cuasi – real de modo que el retardo introducido por los
procesos de codificación y decodificación no sea perceptible al observador. El retardo
de codificación puede reducirse aumentando la potencia de cómputo, lo que aumenta la
complejidad de hardware y software y, por consecuencia, del costo.
Calidad de señal. En general, este concepto se aplica a la señal de salida del
decodificador y, en realidad, no hay un criterio cuantitativo aceptado universalmente
para definirlo. En alguna literatura, se define mediante una relación señal a ruido dada
por:

Entendiéndose aquí por energía de ruido de la señal, como la energía medida para una
señal hipotética, igual a la diferencia entre la señal de entrada al codificador y la señal
de salida del decodificador. La definición anterior se refiere a niveles medios de energía
Oscar Misael Peña Victorino
100228798

y, en el caso de imágenes de vídeo, se utilizan los valores pico, lo que da lugar a una
relación de señal pico a ruido (PSNR), en lugar de SNR.
Este criterio para definir la calidad de la señal no resulta adecuado desde un punto de
vista perceptual en lo que concierne a la señal de televisión ya que los valores altos de
SNR o PSNR no siempre se corresponden con señales de alta calidad perceptual. En la
práctica, suele preferirse el resultado de sondeos de la opinión de espectadores. Es decir,
la calidad de la señal suele medirse en términos subjetivos.
Tanto en compresión sin pérdidas como con pérdidas, la calidad de los datos de entrada
afecta la relación de compresión. Así, el ruido en la adquisición de los datos, errores en
el tiempo de muestreo y los propios procesos de conversión analógico digital, afectan la
calidad de la señal y reducen la correlación espacial y temporal de las muestras dando
lugar a que algunos esquemas de compresión sean muy sensibles a la pérdida de
correlación y den peores resultados con señales ruidosas.
Caudal binario a la salida del codificador. Según la forma de implementar el
codificador, las características del caudal binario a la salida del codificador pueden dar
lugar a los siguientes casos:
a) Retardo fijo de codificación y flujo constante de salida. La eficiencia de
codificación varía según las muestras y, por consecuencia, también la calidad de
la señal.
b) Procesado de muestras en paralelo. Con esta técnica es posible mejorar la
eficiencia de codificación dando lugar a símbolos de longitud fija a la salida,
pero a intervalos irregulares dependiendo de la cantidad de información
contenida en cada grupo de muestras. También es posible obtener a la salida
símbolos de longitud variable a intervalos fijos.
c) Eficiencia de codificación fija. En este caso, la calidad de la señal varía en
función de la cantidad de información contenida en las muestras a comprimir.
Este enfoque puede resultar adecuado para emplearse en sistemas de
comunicaciones en que la velocidad de transmisión no debe exceder un cierto
valor, o para aplicarse a medios de almacenamiento de capacidad fija. Este tipo
de codificadores se designan como de flujo o caudal binario constante.
d) Calidad constante y eficiencia de codificación variable. Si los medios de
transmisión o de almacenamiento no restringen la velocidad de transmisión, o
bien si es deseable una calidad determinada de señal a la salida del
decodificador, puede permitirse que varíe la eficiencia de codificación para
mantener constante dicha calidad. Estos esquemas de codificación se designan
como de caudal o flujo variable y también como de calidad constante.
Algunas técnicas de compresión se han conseguido, simplemente atendiendo a las
diferentes sensibilidades que tiene el ojo humano frente al brillo y a los colores. Esta
posibilidad de compresión viene expresada en la recomendación ITU-RBT.601 cuando
habla de las distintas familias que se desarrollan bajo esta norma (4:4:4, 4:2:2, 4:1:1,
4:2:0, ...), cada una de ellas, con diferentes flujos binarios.
El conocido formato de video 4:4:4 utiliza la misma frecuencia de muestreo para las
señales de color que para la de luminancia. En el formato 4:2:2, en cambio, la
Oscar Misael Peña Victorino
100228798

frecuencia de muestreo de las señales de color pasa a ser la mitad. Sin embargo, esta
forma de compresión no degrada subjetivamente la calidad, sino que este formato se
ajusta más a las distintas sensibilidades del ojo.
El sistema 4:4:4 se utiliza, no porque ofrezca una mayor calidad subjetiva, sino porque
las operaciones de tratamiento digital de imágenes, u otras operaciones como el croma –
key (llave de color), en el que se conmuta de imagen a partir de la información del color
de los píxeles, se realiza con mucha más precisión.

II - La redundancia en la información de vídeo

En términos de compresión, sería muy beneficioso minimizar al máximo la información


redundante de forma que reduzcamos el flujo binario sin perder la información
necesaria para recuperar una secuencia. Sin embargo, en términos de seguridad en la
transmisión, hemos de decir que la redundancia es positiva, ya que proporciona cierta
protección ante cortes de la información que se está transmitiendo.
La información redundante que aparece en una secuencia de vídeo digital podemos
considerarla de tres tipos: redundancia espacial, redundancia temporal y redundancia
estadística.
A cada una de ellas se les asocian diferentes procedimientos mediante los cuales se
minimiza dicha redundancia aumentando la compresión. Los tipos de redundancia son:
 Redundancia Espacial
La redundancia espacial tiene lugar dentro de cada
fotograma. Ésta, viene asociada al hecho de que la
naturaleza está llena de objetos sólidos con
superficies y texturas uniformes; los decorados,
los paisajes, e incluso los rostros no varían
significativamente la información de pixel a pixel,
sino que encontraremos generalmente grandes
superficies sin variación.

Uno de los ejemplos de compresión aprovechando la redundancia espacial son la


codificación de cadenas largas de datos iguales (RLC - Run Lenght Code,
codificación de longitudes de recorrido). En el caso de que se detecte en el tren
binario una cadena larga de dígitos que se repiten, en lugar de codificar cada
dígito, parece una buena técnica codificar cuál es el dígito de que se trata, y
cuantas veces se repite. Un ejemplo de dispositivo que utiliza esta técnica es el
fax. Esta técnica se utiliza habitualmente en lo que llamaremos codificación
“intracuadro”, es decir dentro de cada fotograma.
Oscar Misael Peña Victorino
100228798

 Redundancia Temporal
La redundancia temporal viene dada por la relación entre los píxeles homólogos
de imágenes sucesivas. Esta redundancia aparece
porque la vida no cambia significativamente de
fotograma a fotograma. Evidentemente, en 40ms.
suponiendo una frecuencia de cuadro de 25 f/s. no
ocurren grandes cosas desde el punto de vista del
espectador. Lo que el espectador espera al contemplar
una secuencia de vídeo, es una continuidad en la
acción, y no un cambio continuo en los planos.

 Redundancia Estadística
La redundancia estadística, se basa en que, en algunas aplicaciones,
determinados valores tienden a repetirse más que otros. Una de las técnicas de
compresión basada en la detección de redundancia estadística es la codificación
de longitud variable (VLC - Variable Lenght Code).

Este modo de compresión consiste en asignar códigos más largos en bits a los
valores de muestra que aparecen menor número de veces, y códigos más cortos a
los que aparecen más a menudo. En este método, antes de aplicar los códigos de
longitud variable, el codificador deberá analizar estadísticamente los datos que
le llegan, para aplicar después la codificación óptima a
cada valor.

El ejemplo de compresión VLC más utilizado es quizá el código Huffman. Su


ejecución es un poco compleja, pero la idea es la misma: asignar cadenas de bits
más cortas a los códigos más frecuentes y largas a los menos frecuentes.
El método de ejecución es el siguiente:
a) Se estudia el número de apariciones de cada símbolo, o su probabilidad de
aparición y se confecciona una tabla con todos ellos.
b) Se escogen los dos códigos (o grupos) que tengan menor número de apariciones,
y se le asigna a cada uno de ellos el bit 0 o 1, y se asocian como si fueran las
ramas de un árbol.
c) Se quitan los dos códigos (o grupos) anteriores y se abre un nuevo grupo cuyo
valor de apariciones sea la suma de estos.
d) Se repiten los pasos b, c, y d hasta que sólo quede un grupo.
e) Para asignar a cada símbolo un código, se recorre el árbol desde el tronco
principal hasta las ramas en las que está cada símbolo, obteniendo su código
Huffman para la aplicación concreta que se ha estudiado.
Oscar Misael Peña Victorino
100228798

III - Métodos de compresión por transformación: la DCT


Existe una gran variedad de métodos de compresión que se basan en la detección de la
redundancia en un dominio transformado. Esto se realiza transformando la señal desde
el ámbito temporal o espacial al ámbito de las frecuencias.
En el dominio espacio – temporal, la probabilidad de aparición de todos los valores de
los píxeles es constante, y por tanto es difícil reducir el número de datos, en base a una
redundancia estadística. En cambio, en el dominio de la frecuencia no se tiene una
distribución uniforme del espectro. En general, las altas frecuencias aparecen menos
veces, ya que es más habitual encontrar cambios suaves y grandes superficies
monocolor que grandes contrastes. Los contrastes grandes se sitúan en los contornos de
los objetos, que en general son menos abundantes. Por eso podemos decir que existe
mucho más contenido en las bajas frecuencias que en las altas.
Otro aspecto que hemos de tener en cuenta es que nuestro ojo atiende más a las grandes
superficies, por tanto, a las bajas frecuencias, que a los detalles pequeños que generarán
valores de alta frecuencia. Los métodos de compresión por transformación se
aprovechan de esta circunstancia para reducir el número de datos a codificar.
La transformada discreta del coseno es la herramienta de transformación más utilizada
por los métodos de compresión intra – cuadro. Esta transformada, que aprovecha la
existencia de redundancia espacial en las imágenes y la encontraremos en los estándares
JPEG, MJPEG y sus derivados, y en la familia MPEG.

Cálculo de la DCT unidimensional.


La DCT es una transformación matemática que convierte una secuencia de muestras de
N valores, en otra secuencia del mismo tamaño N cuyos valores, como ahora veremos,
representan una distribución de frecuencias La expresión de la transformada discreta del
coseno (DCT) unidimensional correspondiente a una secuencia de números x[n] de
tamaño N es la siguiente.

En esta expresión, la variable “u” de salida, que representa el índice del coeficiente que
se está calculando, adopta los valores comprendidos entre 0 y N-1, de manera que la
DCT resulta ser una secuencia también de tamaño N. Asimismo, el valor de “n”
representa a los índices de cada elemento de la secuencia que se quiere transformar.
El parámetro α(u) tiene dos valores posibles, que son estos:

Existen otras formas de escribir esta expresión con valores derivados de este α(u), pero
llevan a resultados equivalentes. Los N valores C[u], obtenidos al aplicar esta
Oscar Misael Peña Victorino
100228798

transformada a la secuencia de N valores x[n], se denominan “coeficientes” de dicha


transformada.
La transformada inversa (IDCT ó DCT-1) permitirá obtener la secuencia x[n] a partir de
los coeficientes transformados, y se define así.

El cálculo de la DCT que se desprende


directamente de las fórmulas anteriores
resulta engorroso, y cuando el número de
elementos de la secuencia es alto, se
impone la utilización del ordenador. No
obstante, existen métodos de cálculo más
sencillos. De todos ellos, aquí se va a
presentar el llamado “método de las
funciones base” porque nos permite
extraer conclusiones importantes de esta
transformación.
El método de las funciones base tiene su
fundamento en el hecho que, de la
expresión de la DCT vista anteriormente,
una vez definido el tamaño N de la
secuencia a transformar, la función
coseno tiene valoresfijos. A dicha
función coseno se le denomina “función
base”, y para cada valor de “u” se calcula
de esta forma

En esta expresión, el valor de N es, en general, conocido para cada aplicación. Por
ejemplo, para aplicaciones de video, el valor más usual es N=8. A partir de estas
funciones base, el valor de cada C[ui] se calcularía según la siguiente expresión
Oscar Misael Peña Victorino
100228798

Generalización de la DCT bidimensional


La DCT bidimensional es una transformación
matemática que convierte una matriz genérica de
M x N valores, que en el caso de las imágenes
corresponderían a niveles de brillo o color, en
otra matriz del mismo tamaño (MxN), cuyos
valores representan la distribución de las
frecuencias. Una vez visto por encima el
desarrollo de la DCT unidimensional podemos
ver de la misma manera la DCT bidimensional
que es la que se aplica a las imágenes,
considerando cada muestra x[m,n] como el valor
del nivel de gris de un píxel.
Dada una secuencia bidimensional x[m, n]
formada por una matriz de valores en la que “m”
adopta los valores del conjunto (0, ... M-1) y n
adopta los valores entre 0 y N-1, su DCT se define como sigue.

De la misma manera que antes, las variables “u” y “v” de salida adoptan los valores
comprendidos entre 0 y M-1, y entre 0 y N-1 respectivamente; de manera que la DCT
resulta ser también una matriz de tamaño MxN.
Los parámetros α(u) y β(v) tiene dos valores posibles, que son estos:

Los M x N valores C [u, v], obtenidos al aplicar esta transformada a la secuencia de


MxN valores x[m, n], se denominan “coeficientes” de dicha secuencia.
La transformada inversa, IDCT ó DCT-1, permitirá obtener la secuencia x [n, m] a
partir de los coeficientes transformados. Esta trasformada inversa se define como sigue:
Oscar Misael Peña Victorino
100228798

Para el cálculo de la DCT bidimensional existe también el método basado en las


funciones base. En este caso, las funciones base estarán compuestas por los dos cosenos
que se muestran en la expresión de la DCT, uno en la dirección m y otro en la n.

En las aplicaciones de compresión de imágenes digitales, los valores de M y N son


siempre 8. A partir de estas funciones base, el valor de cada C[u, v] se calcularía como
si se tratara del producto escalar de dos vectores: mediante la suma de los productos
entre elementos homólogos de la función base, y de la matriz a transformar, afectado
por los factores α(u) y β(v).

Propiedades de la DCT
La DCT por sí misma, al pasar de una matriz a otra del mismo tamaño no implica
compresión alguna, pero tiene algunas características importantes que la hacen muy útil
para nuestro propósito. Sin llegar a hacer un estudio exhaustivo, nos vamos a centrar en
aquellas propiedades que nos van a ser útiles en los procesos de compresión de
imágenes.
a)- Una de las propiedades más importantes y que se puede comprobar directamente de
la definición es la de “separabilidad”. En este caso. la separabilidad quiere decir que una
DCT bidimensional se puede expresar como un conjunto de varias DCTs
unidimensionales.
Si x[m,n] = x1[m] · x2[n], C[u,v] = C1[u] · C2[v].
b)- La DCT presenta también la propiedad de una gran compactación de la información
en los coeficientes de menor orden, de tal manera que los de orden superior tienen un
valor nulo o caso nulo,salvo en el caso de imágenes que presenten una anormalmente
alta variación espacial.
c)- Los coeficientes resultado de la DCT presentan entre sí una muy pequeña
correlación. Esta propiedad es especialmente importante en aplicaciones de compresión
de imágenes, ya que de esta forma será posible dar a los coeficientes tratamientos
totalmente diferentes dependiendo del lugar que ocupen dentro de la matriz de
coeficientes.
d)- La transformada de Fourier es una transformada compleja, con parte real y parte
imaginaria, lo que complicado el trabajo con ella. Sin embargo, la DCT es una
transformada real; sus resultados son muestras de la función coseno, y esto simplifica
mucho su manejo.
e)- Si en la transformada de una imagen se suprimen los coeficientes de mayor orden, al
volver a calcular la transformada inversa, se obtiene una muy buena aproximación de la
imagen inicial.
Oscar Misael Peña Victorino
100228798

IV - Algunos estándares de compresión

Independientemente de las diversas técnicas de compresión de vídeo que se han


desarrollado y de las cuales algunas, como las de wavelets o fractales han encontrado
aplicación en campos específicos, aquí son de interés únicamente aquellas destinadas a
la compresión de imágenes de televisión, ya sea para su empleo en centros de
producción, para transmisión, bien con fines de contribución o distribución y para
almacenamiento ya sea en medios magnéticos, CD-ROM u otros. Entre las más
importantes se cuentan las siguientes:
a) H.261 del CCITT, para aplicaciones en videoconferencia, en que las imágenes
tienen escaso movimiento. Las velocidades de transmisión que permite este
estándard son, básicamente, 64 Kbit/s, 384 Kbit/s y 1.5 Mbit/s.
b) JPEG. Destinado principalmente a la codificación de imágenes fijas para
almacenamiento en CD-ROM o medios magnéticos. Permite elevados niveles de
compresión, hasta de 100:1 y está basado en la transformada del coseno discreto
(DCT). El algoritmo es simétrico, lo que hace que el tiempo necesario para la
codificación sea prácticamente el mismo que el requerido en la decodificación.
Al tratar sólo imágenes fijas, no es necesaria la compensación de movimiento y
el estándard básico no contempla la codificación de audio.
c) CCIR-723. Es una Recomendación del CCIR (UIT-R) para transmisión a larga
distancia de señales de vídeo en componentes, digitalizadas en el formato 4:2:2.
Las velocidades de transmisión que contempla este estándard son 34, 45 y 140
Mbit/s.
d) MPEG-1. Es un estándard desarrollado para imágenes en movimiento, basado en
la DCT, que emplea compensación de movimiento7. Está orientado básicamente
al almacenamiento de imágenes en CD-ROM y ofrece calidad equivalente a la
del sistema VHS analógico. El estándard enfoca también la comprensión de
audio. Las velocidadades de transmisión son del orden de 1.2 Mbit/s, con audio
a 128-334 Kbit/s.
e) MPEG-2. Constituye, de hecho, una evolución de MPEG-1 para imágenes de
barrido entrelazado, orientado a aplicaciones de televisión con fines de
distribución, en que se requiere alta calidad subjetiva. Las velocidades de
transmisión con MPEG-2 varían, aproximadamente, entre 3 y 8 Mbit/s. El
esquema de compresión de audio es similar al de MPEG-1.
Dependiendo del esquema de modulación utilizado, una señal comprimida con el
estándard MPEG- 2 puede ocupar un ancho de banda del orden de 1.5 MHz o menos, lo
que permite empaquetar hasta cuatro o más canales digitales en el ancho de banda de un
canal analógico de 6 MHz. En un futuro cercano, esto permite aumentar la capacidad de
los sistemas de transmisión terrestre hasta en cuatro veces y seguramente traerá como
consecuencia la reasignación del espectro radioeléctrico destinado a estos servicios.
Oscar Misael Peña Victorino
100228798

El estándard MPEG-2 ha sido adoptado internacionalmente para utilizarse en televisión,


tanto en los Estados Unidos como en Europa y el resto del mundo. Sin embargo, esto no
significa que los sistemas de transmisión de televisión vayan a ser compatibles, ya que
se han adoptado estándares de transmisión diferentes, uno el estadounidense, definido
por el ATSC (American Television Standards Committee) y adoptado tambien en
algunos otros paises americanos otro, el europeo, designado como DVB (Digital Video
Broadcasting) y adoptado prácticamente en el resto de los paises en que se están
implantando sistemas de televisión digital y finalmente el japonés, designado como
ISDB (Integrated Services Digital Broadcasting), similar en muchos aspectos al DVB.
Estos estándares de transmisión tienen que ver, entre otros aspectos, con el tipo de
modulación del canal de RF. Además, aunque en ambos sistemas la codificación de
fuente para el vídeo se realiza en el mismo estándard MPEG-2, la codificación de fuente
para el audio es diferente. El sistema DVB realiza la codificación de audio de acuerdo a
las recomendaciones de MPG-2, pero el sistema ATSC emplea una codificación
totalmente diferente.

V - Estándar de compresión MPEG-2


Las normas MPEG, han revolucionado la industria de la televisión y las
comunicaciones, al conseguir reducir de manera drástica el flujo binario, sin pérdida
subjetiva de calidad en la imagen. Dada la importancia que tiene el estándar de
compresión MPEG-2 en la televisión digital actual, se ha preferido tratarlo en un
apartado completo, aunque como se podrá comprobar, utiliza la mayoría de las técnicas
de compresión vistas hasta ahora.
En el mundo del vídeo digital, la cantidad de aplicaciones se ha disparado en los últimos
años. Cada aplicación, además, requiere unos niveles de calidad distintos, así como un
factor de compresión diferente. Mientras que en un sistema de difusión de televisión
digital la calidad es un requerimiento importante, en el caso de la videoconferencia, que
es el polo opuesto, la restricción está en el ancho de banda del canal de que se dispone,
y por tanto, la velocidad binaria que se puede utilizar, quedando la calidad de la imagen
en un segundo plano.
Lo que cada uno de este estándar intenta es ofrecer un mismo núcleo básico
parametrizable para cada una de las aplicaciones. El utilizar este mismo núcleo básico
supone un abaratamiento en los equipos de compresión y descompresión, debido a su
amplia utilización.
El primer estándar que se desarrolló fue el MPEG-1, que apareció hacia 1988. Este
estándar nació con la idea inicial de reducir el flujo binario al nivel utilizado por los
soportes de audio CD, del cual derivó el CD-ROM, para almacenar en este soporte,
imágenes en movimiento con un flujo binario de 1,5Mb/s. De hecho, este estándar opera
bien en el rango de flujos binarios de 1,5 a 3 Mb/s.
La norma MPEG-1, antes del proceso de compresión, somete a la señal de entrada a
procesos de eliminación de información drásticos. Lo primero es eliminar un campo de
la imagen quedándose con una resolución de 360x288 a 25 f/s. A partir de esto, este
método aplica la compresión intra-cuadro e inter-cuadro de forma parecida al formato
Oscar Misael Peña Victorino
100228798

MPEG-2 que se desarrollará más ampliamente. Únicamente varían parámetros técnicos,


de muestreo, cuantificación, etc. siendo más riguroso en MPEG-2 ya que va destinado al
entorno profesional de mayor calidad.
El estándar MPEG-2 está orientado al entorno profesional de la televisión digital. Éste
opera bien para flujos binarios de 3,5 a 100 Mb/s, y se aplica desde en los sistemas de
producción, hasta en las transmisiones de la televisión digital terrestre, por cable, y vía
satélite. Este estándar es capaz de soportar desde calidad VHS hasta calidad TVAD (en
formato 16 / 9).
La codificación MPEG-2 va orientada a la eliminación de la redundancia espacial y
temporal. Esta compresión es adecuada para imágenes de calidad en movimiento
(televisión). Para ello, aplica codificación intra-cuadro e inter-cuadro, y además aplica
una codificación final de corrección de errores. Con esto se consiguen relaciones de
compresión como 270Mb/s a 50 Mb/s para comunicaciones dentro del estudio, 8Mb/s
para difusión con calidad de estudio, y hasta 3,5Mb/s y 1,5Mb/s para transmisiones de
menor calidad. Este estándar MPEG-2 también se utiliza en servidores de video bajo
demanda, y en archivos de imágenes. Para la grabación magnética se utiliza solamente
en el formato Betacam SX.
Existió un formato MPEG-3 orientado a la televisión de alta definición, pero sus
avances se incorporaron posteriormente al estándar MPEG-2, no teniendo mayor
relevancia. El grupo MPEG-4 fue creado para investigar varios frentes de necesidades
en la codificación. El más importante fue el de adaptar la información de vídeo a las
redes telefónicas.
Este grupo trabajó sobre tres posibilidades: para flujos inferiores a 64 kb/s, entre 64 kb/s
y 384 kb/s, y entre 384 kb/s y 4 Mb/s. La compresión MPEG-4 se aplica en
videoconferencias.
Los defectos temporales y espaciales son abundantes como corresponde a los bajos
flujos binarios de transmisión, pero se atenúan controlando el movimiento de los
objetos.
La filosofía de MPEG-4 cambia con respecto al resto de los estándares anteriores, ya
que introduce el concepto de codificación de objetos, es decir, las imágenes se
segmentan en objetos y es la información de los mismos la que se transmite. El estándar
no fija como se deben obtener los objetos, estimar su movimiento, etc. Los algoritmos
serán elegidos por cada diseñador; la norma sólo fija cómo guardar la información de
dichos objetos.
La compresión MPEG-4 a pesar de sus niveles de calidad ha permitido poner en
servicio aplicaciones de comunicación muy interesantes. Otros trabajos que realiza el
grupo MPEG-4 están relacionados con el interfaz entre el mundo multimedia, el
ordenador y la televisión.
El grupo MPEG-7 no está implicado en temas de compresión, sino en los metadatos.
Este trabajo incluye la preparación de normas sobre los contenidos audiovisuales, como
por ejemplo llegar a la localización de las escenas en que aparecen ciertos personajes.
Con ello se conseguiría un acceso detalladísimo a todo tipo de contenidos del material
Oscar Misael Peña Victorino
100228798

audiovisual. Su aplicación está en los archivos, en la edición y montaje, en la redacción


periodística, etc.
El grupo MPEG-21 tampoco trabaja en compresión digital. Su objetivo fundamental es
crear la codificación oportuna para la gestión y uso del material audiovisual, incluyendo
el soporte de infraestructura necesario para las transacciones comerciales y la gestión de
los derechos correspondientes.

VI - Aplicaciones de la compresión de vídeo

La gran cantidad de información resultante de la digitalización de la señal de vídeo hace


que la compresión sea prácticamente una necesidad en casi todos los ámbitos. No
obstante, las diferentes aplicaciones para las que está destinada la información de video
requieren métodos y factores de compresión diferentes, en base a la calidad que se
pretenda conseguir, y al precio que se esté dispuesto a pagar.
De todos los métodos de compresión que existen, el utilizado más ampliamente en el
mundo de la televisión digital es el método MPEG-2, que se ha convertido en un
estándar dentro de este sector. En este apartado se tratarán todo tipo de aplicaciones;
unas utilizan este estándar como medio de compresión, y otras no. Trataremos también
de acercarnos a las ventajas e inconvenientes de estos métodos en cada caso.
En las siguientes áreas o actividades es de mucha utilidad la compresión de video:
a) Producción en estudios de TV
b) Periodismo Electrónico
c) Transmisión y Difusión de la Señal de Video
d) Servidores de Video
e) En Multimedia
f) Los sistemas de Grabación Domésticos
g) Videoconferencia
Oscar Misael Peña Victorino
100228798

BIBLIOGRAFÍA

- http://edii.uclm.es/~jmlova/Archivos/VD/Archivos/VdCompresion.pdf
- http://mpeg.telecomitalialab.com
- http://www.diffuse.org/fora.html
- http://iso.ch
- http://itu.int/rec

También podría gustarte