Compresión de Video Digital PDF

Compresión de la información de vídeo
3. Compresión de la información de vídeo
3.1. Introducción
La necesidad de la compresión en vídeo digital aparece en el momento que se tratan las
secuencias de imágenes como señales digitales. El problema principal que tiene el manejo del
vídeo digital es la cantidad de bits que aparecen al realizar la codificación. En la siguiente tabla,
se muestran varios ejemplos. En ella, se considera la digitalización de una señal de televisión de
625 líneas a una velocidad de 25 imágenes por segundo.
Frecuencia Frecuencia Datos 1 seg. Datos 1 seg. Capacidad de

Estándar muestreo (Y) muestreo almacenados parte activa disco 10 GB
(MHz) (CR,CB) (MHz) (Mb/s) (*) (Mb/s) (**) (mm:ss)
4:4:4 13.5 13.5 324 248.8 5m 22s

4:2:2 13.5 6.75 216 165.9 8m 02s
4:1:1 13.5 3.375 162 124.4 10m 43s
(*).- Cantidad de datos que se necesitan para almacenar 1 segundo de señal de televisión digitalizada a la frecuencia
de muestreo real.
(**).- Cantidad de datos que se necesitan para almacenar 1 segundo de señal de televisión, eliminando todo aquello
que no es directamente imagen (intervalos de sincronismo...).
Si nos centramos en el estándar 4:2:2 definido por la recomendación ITU-R BT.601,

puede observarse que, sin aplicar compresión, en un disco duro con una capacidad de 10
GigaBytes podemos almacenar algo más de ocho minutos de imágenes. Y esto considerando
exclusivamente la información de la imagen, y eliminando las partes de la señal dedicadas a los
sincronismos.
Si ahora aplicamos sobre esta información distintos factores de compresión, veremos que
la eficiencia de almacenamiento aumenta considerablemente. Así para el estándar 4:2:2 con
diferentes factores de compresión se obtendrían los resultados de esta tabla:
Compresión Tamaño parte activa (Mb/s) Capacidad en disco 10GB
1:1 165.9 8m 02s

2:1 83.0 16m 04s
3.3:1 50.3 26m 30s
5:1 33.2 40m 10s
10:1 16.6 1h 20m 20s
50:1 3.3 6h 41m 40s
En el caso de la transmisión o distribución de señales por cualquier medio físico

(radioenlaces, redes de banda ancha, satélite, cable...) Si consideramos que una transmisión
digital de un canal telefónico de voz ocupa 64 kb/s, en el ancho de banda espectral en el que se
1
Vídeo Digital
enviaría un canal de televisión en formato 4:2:2 sin comprimir se podrían enviar del orden de
2590 canales telefónicos.
Puesto que, tanto el espacio en disco por minuto como el ancho de banda radioeléctrico
son recursos limitados, se hace conveniente aplicar factores de compresión para la transmisión,
para el almacenamiento, e incluso para la producción de programas. Una vez comprimida la
información será más sencillo almacenarla o transmitirla.
Así pues, la compresión, por un lado, es un factor económico ya que reduce el costo de
la transmisión, o distribución de señales. Dado un medio de transmisión concreto con un
determinado coste de amortización, cuanto menor sea el ancho de banda de los canales a
transmitir, más canales estarán disponibles, y más económico resultará cada canal.
Además, en determinadas aplicaciones, el factor de compresión va a venir impuesto por

la velocidad binaria del canal de transmisión disponible. Este es el caso, por ejemplo, de la
videoconferencia. En la videoconferencia, la información de vídeo digital se manda a través de
un canal telefónico disponiendose de una velocidad binaria de 64kb/s. En este caso, el factor de
compresión hemos de ajustarlo a esta restricción, aún a costa, como veremos, de la calidad, ya
que lo esencial es la disponibilidad del servicio.
Todo proceso de compresión, para ser útil, debe llevar asociado un proceso de
descompresión posterior, por el cual se recupera el tren de datos original a partir de los datos
comprimidos. Para ello se seguirá el orden inverso al de la compresión.
3.2. La compresión de la señal de video

En el ámbito digital, para almacenar o transmitir información se utiliza un tren de datos.
Para que sea posible la compresión de este tren de datos, es necesario que en él exista, además
de información real, información redundante. Esta información redundante podremos eliminarla
durante el proceso de compresión, y posteriormente reconstruirla en el proceso de descompresión
a partir de la información real. La información real en cambio, será imprescindible para recuperar
los datos originales de forma correcta, de modo que no es posible obviarla.
La misión de un sistema de compresión consiste en detectar y eliminar la información

redundante, codificando solamente la información útil. Por lo tanto, podemos considerar la
compresión digital como un procedimiento, matemático en general, que rebaja el flujo binario
de un tren de datos, en base a la eliminación de información redundante y a una codificación
inteligente de la información real.
La compresión, a partir de ciertos valores influye negativamente en la calidad del vídeo.

Por eso, debe utilizarse un algoritmo y un factor de compresión que minimicen dicha
degradación. Según estas consideraciones, podemos clasificar la compresión en tres tipos
diferentes: compresión sin pérdidas, compresión subjetivamente sin pérdidas y compresión
subjetivamente con pérdidas. Éstas, las vamos a tratar en los próximos párrafos.
2
En la compresión sin pérdidas, la información original se recupera en su integridad

después del proceso de compresión-descompresión. Este tipo es muy utilizado para la compresión
de datos informáticos. Dependiendo del tipo de archivo, este modo tiene niveles de compresión
variables. Con algunos archivos puede llegar a compresiones de 70:1, pero en otros casos, no es
posible comprimir ya que el archivo comprimido podría ser incluso de mayor tamaño que el
original.
Por otra parte, con la compresión subjetivamente sin pérdidas, en el proceso de

compresión-descompresión, no se recupera absolutamente toda la información original, pero el
sistema receptor, como por ejemplo el sistema visual humano, no detecta las diferencias. En el
ámbito de la compresión digital de sonido e imagen, existe una norma general y es que “lo que
el ojo no ve, o lo que el oído no oye, no se codifica”. Este tipo de compresión, es el que se utiliza
en vídeo digital, y es el que más nos interesa por su mantenimiento de la calidad, consiguiendo
factores de compresión interesantes.
Finalmente, en la compresión subjetivamente con pérdidas, durante el proceso de

compresión-descompresión se degrada significativamente la calidad de la información, pero el
usuario lo tolera en beneficio del servicio recibido. Este tipo de compresión, lleva asociados
grandes factores de compresión y se utiliza generalmente en multimedia; en los sistemas de
videoconferencia como se dijo anteriormente; en sistemas de vigilancia y seguridad; en consultas
de video y en edición fuera de línea; es decir, procesos todos ellos en los que la calidad no es un
factor importante, sino el mantenimiento del servicio con un coste razonable.
Dentro de todas estas categorías existen gran cantidad de técnicas de compresión

dependiendo de la aplicación para la que se utilizan. En el caso del vídeo, el número de métodos
se dispara; y actualmente, es uno de los campos de mayor investigación dentro del mundo del
tratamiento digital de las imágenes.
Algunas técnicas de compresión se han conseguido, simplemente atendiendo a las

diferentes sensibilidades que tiene el ojo humano frente al brillo y a los colores. Esta posibilidad
de compresión, viene expresada en la recomendación ITU-R BT.601 cuando habla de las distintas
familias que se desarrollan bajo esta norma (4:4:4, 4:2:2, 4:1:1, 4:2:0, ...), cada una de ellas, con
diferentes flujos binarios.
El conocido formato de video 4:4:4 utiliza la misma frecuencia de muestreo para las
señales de color que para la de luminancia. En el formato 4:2:2, en cambio, la frecuencia de
muestreo de las señales de color pasa a ser la mitad. Sin embargo, esta forma de compresión no
degrada subjetivamente la calidad, sino que este formato se ajusta más a las distintas
sensibilidades del ojo.
El sistema 4:4:4 se utiliza, no porque ofrezca una mayor calidad subjetiva, sino porque
las operaciones de tratamiento digital de imágenes, u otras operaciones como el croma-key (llave
de color), en el que se conmuta de imagen a partir de la información del color de los píxeles, se
realiza con mucha más precisión.
3
Vídeo Digital
El paso del formato 4:2:2 al 4:1:1 o al 4:2:0 sí supone eliminar información sensible al
ojo. Esta información que se elimina, no es en este caso redundante, y no puede recuperarse en
un hipotético proceso de descompresión. Por ello esta compresión se denomina con pérdidas, o
degradante.
Otros métodos de compresión que se han establecido como estándar por sus prestaciones
y su amplia aplicación son los métodos denominados MPEG. Las siglas MPEG vienen de
(Motion Pictures Expert Group) nombre de un grupo de expertos común entre la ISO
(International Standards Organization) y la IEC (International Electrotechnical committe). El
fundamento básico de la compresión MPEG es el siguiente:
a)- Se busca una representación válida de la imagen que concentre la información en una
pequeña parte de la descripción.
b)- Se cuantifican los elementos de dicha representación de modo que se discretizan sus
posibles valores.
c)- A cada nivel de cuantificación se le asigna un código de bits.
Concretamente el método MPEG-2 se utiliza en todos los ámbitos de la televisión digital.

Este método, que será el que estudiemos más profundamente en este tema, tiene dos
características muy importantes para su aplicación en video digital. La primera es que permite
utilizar múltiples factores de compresión en función de las necesidades de la aplicación. La
segunda es que las pérdidas de calidad al comprimir son relativamente bajas. Incluso se ha
demostrado que la compresión MPEG-2 con factor 1:3,3 puede considerarse como
subjetivamente sin pérdidas. Esto la hace apropiada para aplicaciones en las que se quiera
mantener la posibilidad de multigeneración, es decir, efectuar sucesivamente procesos de
compresión y descompresión sin la aparición de defectos de imagen, o artefactos.
A continuación pueden verse algunos ejemplos de utilización de la compresión, referidos

a las velocidades binarias utilizadas en algunos modos de transmisión:
- Para comunicaciones dentro de un estudio se utilizan enlaces a 50Mb/s. En este punto debemos
observar que el flujo binario resultante de la parte activa del formato 4:2:2 es de 165,9
Mb/s.; y si se aplica el factor 1:3,3 a este flujo obtenemos 50,3 Mb/s, con lo que las
transmisiones a 50 Mb/s podemos considerarlas sin pérdidas.
- También se utilizan 50Mb/s para comunicaciones mediante fibra óptica.
- Para comunicaciones vía satélite es común utilizar enlaces a 34 Mb/s, aunque a veces también
se utilizan 50Mb/s.
4
- En los casos de distribución de la señal vía radio, se aplican factores de compresión más
grandes según el canal disponible. Por ejemplo, en los satélites de distribución lo normal
es utilizar un factor de compresión que permite enviar de 4 a 7 canales digitales en el
mismo ancho de banda que ocuparía uno analógico.
- En la difusión de televisión digital, el flujo binario es diferente, según la calidad requerida. En

la siguiente tabla se muestran los distintos niveles de calidad y sus flujos binarios
recomendados:
Calidad - Definición Flujo binario

HDTV (alta definición) 15-30 Mb/s
EDTV (Calidad de estudio ITU-R BT.601) 6-12 Mb/s
SDTV (Calidad estándar -PAL / SECAM / NTSC) 3-6 Mb/s
LDTV (Calidad VHS) 1.5-3 Mb/s
3.3. La redundancia en la información de video

Los algoritmos de compresión en vídeo digital se basan, como hemos visto en los
apartados anteriores, en la existencia de información redundante a lo largo de cualquier
secuencia. Dentro de la corriente de datos que supone una comunicación de vídeo digital
podemos detectar una parte de los datos que corresponden a información real, que será necesaria
para reproducir dicha secuencia; e información redundante, que no proporcionará información
al decodificador y que por tanto podemos eliminar.
En términos de compresión, sería muy beneficioso minimizar al máximo la información

redundante de forma que reduzcamos el flujo binario sin perder la información necesaria para
recuperar una secuencia. Sin embargo, en términos de seguridad en la transmisión, hemos de
decir que la redundancia es positiva, ya que proporciona cierta protección ante cortes de la
información que se está transmitiendo.
La información redundante que aparece en una secuencia de vídeo digital podemos

considerarla de tres tipos: redundancia espacial, redundancia temporal y redundancia estadística.
A cada una de ellas se les asocian diferentes procedimientos mediante los cuales se minimiza
dicha redundancia aumentando la compresión.
5
Vídeo Digital
3.3.1. Redundancia espacial.

La redundancia espacial tiene lugar dentro
de cada fotograma. Ésta, viene asociada al hecho
de que la naturaleza está llena de objetos sólidos
con superficies y texturas uniformes; los
decorados, los paisajes, e incluso los rostros no
varían significativamente la información de pixel
a pixel, sino que encontraremos generalmente
grandes superficies sin variación.
Figura 1. Redundancia espacial. Zonas
El hecho de que varios píxeles adyacentes amplias de píxeles iguales.
sean prácticamente iguales nos va a permitir, en
vez de transmitirlos todos o almacenarlos todos, transmitir un píxel representativo del conjunto,
y las diferencias de cada uno respecto a éste. Dichas diferencias, por ser generalmente pequeñas,
pueden codificarse con menos bits.
Uno de los ejemplos de compresión aprovechando la redundancia espacial son la

codificación de cadenas largas de datos iguales (RLC - Run Lenght Code, codificación de
longitudes de recorrido). En el caso de que se detecte en el tren binario una cadena larga de
dígitos que se repiten, en lugar de codificar cada dígito, parece una buena técnica codificar cuál
es el dígito de que se trata, y cuantas veces se repite. Un ejemplo de dispositivo que utiliza esta
técnica es el fax. Esta técnica se utiliza habitualmente en lo que llamaremos codificación
“intracuadro”, es decir dentro de cada fotograma.
3.3.2. Redundancia temporal.

La redundancia temporal viene dada por
la relación entre los píxeles homólogos de
imágenes sucesivas. Esta redundancia aparece
porque la vida no cambia significativamente de
fotograma a fotograma. Evidentemente, en 40ms.
suponiendo una frecuencia de cuadro de 25 f/s.
no ocurren grandes cosas desde el punto de vista
del espectador. Lo que el espectador espera al
contemplar una secuencia de vídeo, es una
continuidad en la acción, y no un cambio
continuo en los planos.
Así, en la mayoría de los casos podemos

afirmar que un fotograma va a ser similar al
Figura 2. Redundancia temporal: cambio
siguiente o al anterior. Si comparamos los
mínimo de fotograma en fotograma.
6
Figura 3. Codificación DPCM.La cantidad de valores posibles disminuye drásticamente.

fotogramas de un trozo de película observaremos que, en general, son similares. Es necesario
avanzar varios fotogramas para apreciar diferencias.
Una técnica de compresión que se puede usar, tanto para eliminar la redundancia
temporal, como la espacial, es la codificación diferencial de pulsos modulados (DPCM). La
DPCM codifica el valor de diferencia de una muestra con respecto a la anterior. Si codificásemos
el valor absoluto de cada muestra necesitaríamos palabras binarias más largas, ya que los valores
absolutos de las muestras serán mucho mayores que la diferencia entre una muestra y la anterior.
Los histogramas de la figura 3 muestran el número de ocurrencias para cada valor de los
píxeles en una imagen con codificaciones PCM y DPCM. Con codificación PCM, imagen
izquierda, se deben procesar todos los valores comprendidos entre 10 y 200; mientras que en
DPCM, imagen derecha, sólo tiene que codificar valores comprendidos entre +20 y -20,
consiguiendo por tanto una reducción importante de bits.
Existen variantes de este método, que tratan de reducir al máximo los errores a transmitir,
efectuando las predicciones en base a un conjunto de píxeles significativos.
3.3.3. Redundancia estadística.

La redundancia estadística, se basa en que en algunas aplicaciones, determinados valores
tienden a repetirse más que otros. Una de las técnicas de compresión basada en la detección de
redundancia estadística es la codificación de longitud variable (VLC - Variable Lenght Code).
Este modo de compresión consiste en asignar códigos más largos en bits a los valores de muestra
que aparecen menor número de veces, y códigos más cortos a los que aparecen más a menudo.
En este método, antes de aplicar los códigos de longitud variable, el codificador deberá
analizar estadísticamente los datos que le llegan, para aplicar después la codificación óptima a
cada valor.
7
Vídeo Digital
El ejemplo de compresión VLC más utilizado es quizá el código Huffman. Su ejecución

es un poco compleja, pero la idea es la misma: asignar cadenas de bits más cortas a los códigos
más frecuentes y más largas a los menos frecuentes.
El método de ejecución es el siguiente:
a)- Se estudia el número de apariciones de cada símbolo, o su probabilidad de aparición y se

confecciona una tabla con todos ellos.
b)- Se escogen los dos códigos (o grupos) que tengan menor número de apariciones, y se les
asigna a cada uno de ellos el bit 0 o 1, y se asocian como si fueran las ramas de un árbol.
c)- Se quitan los dos códigos (o grupos) anteriores y se abre un nuevo grupo cuyo valor de
apariciones sea la suma de estos.
d)- Se repiten los pasos b, c, y d hasta que sólo quede un grupo.
f)- Para asignar a cada símbolo un código, se recorre el árbol desde el tronco principal hasta las
ramas en las que está cada símbolo, obteniendo su código Huffman para la aplicación
concreta que se ha estudiado.
Es obvio que los mismos símbolos pueden tener distintos códigos Huffman dependiendo
de la aplicación que se trate; ya que en distintas aplicaciones, las probabilidades de aparición de
los símbolos puede ser diferente.
3.4. Métodos de compresión por transformación: la

DCT
Existe una gran variedad de métodos de compresión que se basan en la detección de la
redundancia en un dominio transformado. Esto se realiza transformando la señal desde el ámbito
temporal o espacial al ámbito de las frecuencias.
En el dominio espacio-temporal, la probabilidad de aparición de todos los valores de los

píxeles es constante, y por tanto es difícil reducir el número de datos, en base a una redundancia
estadística. En cambio, en el dominio de la frecuencia no se tiene una distribución uniforme del
espectro. En general, las altas frecuencias aparecen menos veces, ya que es más habitual
encontrar cambios suaves y grandes superficies monocolor que grandes contrastes. Los contrastes
grandes se sitúan en los contornos de los objetos, que en general son menos abundantes. Por eso
podemos decir que existe mucho más contenido en las bajas frecuencias que en las altas. Este
hecho ya se comprobó en las prácticas 3 y 4 correspondientes al tema 1.
Otro aspecto que hemos de tener en cuenta, es que nuestro ojo atiende más a las grandes
superficies, por tanto a las bajas frecuencias, que a los detalles pequeños que generarán valores
8
de alta frecuencia. Los métodos de compresión por transformación se aprovechan de esta

circunstancia para reducir el número de datos a codificar.
La transformada discreta del coseno es la herramienta de transformación más utilizada

por los métodos de compresión intracuadro. Esta transformada, que aprovecha la existencia de
redundancia espacial en las imágenes y la encontraremos en los estándares JPEG, MJPEG y sus
derivados, y en la familia MPEG.
3.4.1. Cálculo de la DCT unidimensional

La DCT es una transformación matemática que convierte una secuencia de muestras de
N valores, en otra secuencia del mismo tamaño N cuyos valores, como ahora veremos,
representan una distribución de frecuencias La expresión de la transformada discreta del coseno
(DCT) unidimensional correspondiente a una secuencia de números x[n] de tamaño N es la
siguiente.
DCT(x[n])  C[u]  α(u) ·  x[n] · cos

N1
(2n1) π u
n0 2N
En esta expresión, la variable “u” de salida, que representa el índice del coeficiente que
se está calculando, adopta los valores comprendidos entre 0 y N-1, de manera que la DCT resulta
ser una secuencia también de tamaño N. Asimismo, el valor de “n” representa a los índices de
cada elemento de la secuencia que se quiere transformar.
El parámetro α(u) tiene dos valores posibles, que son estos:

1 2
α(u) | u0  α(u) | u0 
N N
Existen otras formas de escribir esta expresión con valores derivados de este α(u), pero
llevan a resultados equivalentes. Los N valores C[u], obtenidos al aplicar esta transformada a la
secuencia de N valores x[n], se denominan “coeficientes” de dicha transformada.
La transformada inversa (IDCT ó DCT-1) permitirá obtener la secuencia x[n] a partir de

los coeficientes transformados, y se define así.
DCT (C[u])  x[n]   α(u) ·C[u] · cos

N1
1 (2n1) π u
u0 2N
El cálculo de la DCT que se desprende directamente de las fórmulas anteriores resulta
engorroso, y cuando el número de elementos de la secuencia es alto, se impone la utilización del
ordenador. No obstante existen métodos de cálculo más sencillos. De todos ellos, aquí se va a
presentar el llamado “método de las funciones base” porque nos permite extraer conclusiones
importantes de esta transformación.
9
Vídeo Digital
El método de las funciones base tiene su fundamento en el hecho que, de la expresión de

la DCT vista anteriormente, una vez definido el tamaño N de la secuencia a transformar, la
función coseno tiene valores fijos. A dicha función coseno se le denomina “función base”, y para
cada valor de “u” se calcula de esta forma
(2n1) π u
f[n] | u  cos
2N
En esta expresión, el valor de N es, en general, conocido para cada aplicación. Por
ejemplo, para aplicaciones de video, el valor más usual es N=8. A partir de estas funciones base,
el valor de cada C[ui] se calcularía según la siguiente expresión
DCT(x[n])  C[u]  α(u) ·  x[n] · f[n]|u

N1
n0
Considerando la secuencia a transformar x[n] y la función base f[n] |u como vectores de

N dimensiones, los C[u] resultado
de la DCT resultan ser el producto
escalar de estos dos vectores,
afectado por el factor constante
α(u). Es conocido, que el
resultado del producto escalar de
dos vectores depende de los
módulos de ambos, y del coseno
del ángulo que forman, que será
máximo en el caso en que ambos
vectores tengan la misma dirección
y sentido.
Si se representan
gráfi c a m e n t e l o s valores
resultantes de calcular las
funciones base para cada valor de
“u” con un tamaño de secuencia de
N=8, los resultados pueden verse
en la figura 4.
A partir de esta figura

podemos observar que para
cualquier secuencia x[n] de
tamaño N=8, los C[u] se
calcularán a partir del producto
escalar de dicha secuencia con
cada una de estas funciones base Figura 4. Funciones base de la DCT unidimensional.
f[n] aquí representadas. En un
10
producto escalar entre dos vectores, si fijamos uno de ellos, como es el caso de cada función base,
el producto escalar con cualquier vector x[n], nos da un resultado proporcional a la componente
que tiene el vector x[n] en la dirección de cada función base f[n]. Así pues, este producto será
mayor cuanto más paralelos sean ambos vectores.
Según esto anterior, el coeficiente C[0] dará una referencia del nivel de continua
(frecuencia f=0) de x[n]. Asimismo, el producto escalar de dicha secuencia x[n] por la función
base f[n]|1 resultará un C[1] mayor, cuanto más se parezcan la secuencia x[n] al vector f[n]|1; es
decir, C[1] será proporcional al contenido de frecuencia f=1/16 de la secuencia. Sucesivamente,
C[2] será proporcional al contenido de la secuencia en la frecuencia f=2/16, etc...
Así pues, mediante la DCT se consigue transformar una secuencia x[n] en otra, C[u] que
indica su distribución espectral
3.4.2. Generalización de la DCT bidimensional

La DCT bidimensional es una transformación matemática que convierte una matriz
genérica de M x N valores, que en el caso de las imágenes corresponderían a niveles de brillo o
color, en otra matriz del mismo tamaño (MxN), cuyos valores representan la distribución de las
frecuencias. Una vez visto por encima el desarrollo de la DCT unidimensional podemos ver de
la misma manera la DCT bidimensional que es la que se aplica a las imágenes, considerando cada
muestra x[m,n] como el valor del nivel de gris de un píxel.
Dada una secuencia bidimensional x[m, n] formada por una matriz de valores en la que
“m” adopta los valores del conjunto (0, ... M-1) y n adopta los valores entre 0 y N-1, su DCT se
define como sigue.
C[u,v]  α(u) · β(v) ·   x[m,n] · cos

M1 N1
(2m1) π u (2n1) π v
· cos
m0 n0 2M 2N
De la misma manera que antes, las variables “u” y “v” de salida adoptan los valores
comprendidos entre 0 y M-1, y entre 0 y N-1 respectivamente; de manera que la DCT resulta ser
también una matriz de tamaño MxN.
Los parámetros α(u) y β(v) tiene dos valores posibles, que son estos:
1 2
α(u) | u0  α(u) | u0 
M M
11
Vídeo Digital
1 2
β(u) | u0  β(u) | u0 
N N
Los M x N valores C[u, v], obtenidos al aplicar esta transformada a la secuencia de MxN
valores x[m, n], se denominan “coeficientes” de dicha secuencia.
La transformada inversa, IDCT ó DCT-1, permitirá obtener la secuencia x[n, m] a partir

de los coeficientes transformados. Esta trasformada inversa se define como sigue:
x[m,n]   α(u) ·  β(v) · C[u,v] · cos

M1 N1
(2m1) π u (2n1) π v
· cos
m0 n0 2M 2N
Para el cálculo de la DCT bidimensional existe también el método basado en las

funciones base. En este caso, las funciones base estarán compuestas por los dos cosenos que se
muestran en la expresión de la DCT, uno en la dirección m y otro en la n.
(2m1) π u (2n1) π v
f(m,n) |u,v cos cos
2M 2N
En las aplicaciones de
compresión de imágenes
digitales, los valores de M y N
son siempre 8. A partir de estas
funciones base, el valor de cada
C[u, v] se calcularía como si se
tratara del producto escalar de dos
vectores: mediante la suma de los
productos entre elementos
homólogos de la función base, y
de la matriz a transformar,
afectado por los factores α(u) y
β(v).
Si se representan con
niveles de gris los valores
resultantes de calcular las
funciones base para cada par de
valores (u, v) con un tamaño de
secuencia de M=N=8, los
resultados pueden verse en la
figura 5. Los cuadros en blanco Figura 5. Representación gráfica de las funciones base de
la DCT bidimensional.
12
corresponden a valores de coeficientes igual a 1, y los cuadros negros corresponden a coeficientes

de valor -1.
Atendiendo a la figura, cada coeficiente de la transformada representará la cantidad de

información que contiene el bloque 8x8 original en su conjunto, entorno a las frecuencias
verticales y horizontales representadas por los valores u y v. Estas componentes frecuenciales
comprenden desde la frecuencia cero (DC) cuyo coeficiente vendrá representado en la parte
superior izquierda, hasta la máxima frecuencia espacial horizontal posible, representada en la
parte superior derecha, o la máxima frecuencia espacial vertical posible representada en la parte
inferior izquierda, pasando por todas las posibles combinaciones de frecuencias espaciales
horizontales y verticales.
Si el bloque 8x8 a transformar corresponde a un trozo de decorado completamente

uniforme, y completamente blanco, todos los coeficientes frecuenciales serían cero excepto el
correspondiente a la DC (parte superior izquierda).
El valor de los coeficientes más a la derecha aumentará a medida que aparezcan en él más
contenidos de altas frecuencias horizontales (incremento de perfiles verticales abruptos). En
sentido vertical, los coeficientes se comportan de manera similar.
Si el bloque original correspondiese a un área de la imagen que tuviera un dibujo en forma

de rayas verticales alternativamente blancas y negras y cada raya coincidiese con la anchura de
un píxel, el coeficiente frecuencial correspondiente al bloque situado arriba a la derecha tomaría
el valor máximo, y el resto serían cero, excepto el correspondiente a la DC que siempre indicará
el valor medio de la DC de todo el bloque.
Si un bloque de la imagen contiene una gradación de brillo en cualquier dirección, su

DCT tiene únicamente el coeficiente de frecuencia cero (el primero) y sus tres coeficientes
periféricos distintos de cero. El resto de los 60 coeficientes serán cercanos o iguales a cero.
Es evidente, que estas situaciones extremas no serán habituales, sino que los coeficientes
frecuenciales estarán distribuidos en función del contenido de la imagen, si bien es cierto que
estos coeficientes, por la propia naturaleza de las imágenes, tendrán una tendencia muy clara,
como vamos a ver.
De forma general, en las imágenes con poco detalle o normales en detalle, casi todos los
coeficientes que son distintos de cero se agruparán en la esquina superior izquierda de la matriz
de coeficientes. Esta característica de la DCT la trataremos en las propiedades que se detallan en
el siguiente apartado.
13
Vídeo Digital
3.4.3. Propiedades de la DCT

La DCT por sí misma, al pasar de una matriz a otra del mismo tamaño no implica
compresión alguna, pero tiene algunas características importantes que la hacen muy útil para
nuestro propósito. Sin llegar a hacer un estudio exhaustivo, nos vamos a centrar en aquellas
propiedades que nos van a ser útiles en los procesos de compresión de imágenes.
a)- Una de las propiedades más importantes y que se puede comprobar directamente de la
definición es la de “separabilidad”. En este caso. la separabilidad quiere decir que una
DCT bidimensional se puede expresar como un conjunto de varias DCTs
unidimensionales.
Si x[m,n] = x1[m] · x2[n], C[u,v] = C 1[u] · C2[v].
b)- La DCT presenta también la propiedad de una gran compactación de la información en los
coeficientes de menor orden, de tal manera que los de orden superior tienen un valor nulo
o caso nulo, salvo en el caso de imágenes que presenten una anormalmente alta variación
espacial.
c)- Los coeficientes resultado de la DCT presentan entre sí una muy pequeña correlación. Esta
propiedad es especialmente importante en aplicaciones de compresión de imágenes, ya
que de esta forma será posible dar a los coeficientes tratamientos totalmente diferentes
dependiendo del lugar que ocupen dentro de la matriz de coeficientes.
d)- La transformada de Fourier es una transformada compleja, con parte real y parte imaginaria,
lo que complicado el trabajo con ella. Sin embargo la DCT es una transformada real; sus
resultados son muestras de la función coseno, y esto simplifica mucho su manejo.
e)- Si en la transformada de una imagen se suprimen los coeficientes de mayor orden, al volver
a calcular la transformada inversa, se obtiene una muy buena aproximación de la imagen
inicial.
3.4.4. Utilización de la DCT para compresión de vídeo

La transformada discreta del coseno se considera la base en la mayoría de los algoritmos
de compresión de video, tanto intracuadro (redundancia espacial) como intercuadro (redundancia
temporal). Esta transformada se suele aplicar dividiendo las 720x576 muestras activas de una
imagen en bloques de 8x8 píxeles.
14
3.4.4.1. Lectura en zig-zag

La DCT por si sola, como se ha visto en el apartado de propiedades, no comprime. Ésta,
al transformar la información del dominio espacial al dominio de la frecuencia, recoloca la
información de tal manera que es más fácil eliminar la parte redundante, consiguiendo reducir
el flujo binario. A continuación, se presenta un ejemplo de matriz 8x8 y su correspondiente DCT
bidimensional.
76 73 67 62 58 67 64 55

65 69 62 38 19 43 59 56
66 69 60 15 16 24 62 55
65 70 57 6 26 22 28 59
x[m,n]
61 67 60 24 28 40 60 58
49 63 68 58 51 65 70 53
43 57 64 69 73 67 63 45
41 49 59 60 63 52 50 34
414 29 62 25 55 20 1 2

6 21 62 8 12 7 6 7
46 8 77 26 30 10 6 5
49 12 34 14 10 6 1 1
C[u,v]
11 8 12 2 1 1 5 2
10 1 3 3 0 0 2 0
3 1 1 0 1 4 2 3
1 1 0 3 0 0 1 0
Si observamos detenidamente la distribución de los coeficientes frecuenciales en los

bloques transformados, podemos ver que los más significativos se encuentran en el cuadrante
superior izquierdo, que corresponde a las bajas frecuencias. Conforme nos vamos alejando de este
cuadrante hacia la derecha y hacia abajo, el valor de los coeficientes disminuye drásticamente.
Este hecho, surge por la propia información contenida en las imágenes, pero existe otra
razón por la que podemos decir que la información de alta frecuencia, que de por sí es poca,
puede despreciarse. Esta razón aparece por la forma en que el sistema visual humano atiende a
las imágenes. De toda una imagen, el sistema visual presta atención a un objeto o conjunto de
objetos concretos, considerando lo demás como fondo que carece de importancia. Por lo general,
15
Vídeo Digital
los objetos a los que hay que atender se representan en primer plano, con lo que el contenido de
bajas frecuencias es todavía más importante que el de altas frecuencias. La mayor parte de los
contenidos de alta frecuencia quedan en el fondo, y su eliminación apenas resta información real
a la imagen.
Considerando estas características, a la hora de serializar los coeficientes de la DCT para

almacenarlos o transmitirlos, se hace conveniente una lectura de las matrices de coeficientes de
manera que los de menor peso queden agrupados, y así se puedan eliminar o codificar más
fácilmente mediante un código de longitud de recorrido (RLC) que signifique “los siguientes ‘n’
coeficientes son nulos”.
Según esto, la lectura de los coeficientes se realiza en zig-zag comenzando desde el

coeficiente DC, y terminando en su lado opuesto. Esto permite procesar en primer lugar las bajas
frecuencias espaciales y decidir
posteriormente si se procesan o se
eliminan los coeficientes
correspondientes a las altas
frecue n c i a s , y decidir con
posterioridad si se procesan o se
eliminan los coeficientes
correspondientes a las altas
frecuencias.
Figura 6. Lectura de la matriz de coeficientes en
Realizando la lectura de esta exploración progresiva y entrelazada
manera, se pueden procesar los
coeficientes de más nivel, y eliminar el resto consiguiendo factores de compresión, aunque
modestos, sin que la calidad subjetiva de la imagen quede afectada. En este caso se tratará de una
compresión subjetivamente sin pérdidas, consiguiendo una compresión 2:1 directamente al
aplicar la DCT sin efectuar redondeos.
3.4.4.2. Cuantificación de los coeficientes

Para conseguir una mayor compresión, podemos aplicar otra herramienta al resultado de
la DCT. Esta herramienta va a ser una cuantificación ponderada de los coeficientes. Esta
cuantificación ponderada se basa, como es lógico, en la mayor o menor importancia de cada
coeficiente respecto de la calidad subjetiva final, es decir en el contenido frecuencial de cada
coeficiente.
A cada coeficiente de la DCT se le aplica una cuantificación definida por un determinado

tamaño de escalón de cuantificación. En aquellos coeficientes donde su redondeo afecte más a
la calidad, el escalón de cuantificación será menor, y aquellos coeficientes menos importantes se
cuantificarán con escalones más grandes. Esta cuantificación queda definida por una matriz de
valores que representarán los tamaños de los escalones, y que se llama matriz de cuantificación.
16
Esta cuantificación va a hacer que algunos coeficientes que antes eran cercanos a cero,
al redondear se vayan a cero, y otros que no se vayan a cero, puede hacerse que se codifiquen con
menor número de bits, y así se consigue un mayor nivel de compresión. De esta manera se
consigue un mayor nivel de compresión. Existe toda un colección de matrices de cuantificación
establecidas que minimizan la degradación subjetiva de la calidad. La matriz de cuantificación
por defecto aplicada a los algoritmos JPEG aparece en la siguiente expresión.
16 11 10 16 24 40 51 61
12 12 14 19 26 58 60 55
14 13 16 24 40 57 69 56
14 17 22 29 51 87 80 62
JPEG
18 22 37 56 68 109 103 77
24 35 55 64 81 104 113 92
49 64 78 87 103 121 120 101
72 92 95 98 112 100 103 99
El resultado del redondeo de coeficientes de C[u,v] anterior es:
26 3 6 2 2 1 0 0
1 2 4 0 0 0 0 0
3 1 5 1 1 0 0 0
4 1 2 0 0 0 0 0
round(C[u,v]/JPEG)
1 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
como se observa gran parte de los coeficientes se van a cero.
En la actualidad se considera que una compresión 3,3:1, que provoca un redondeo

moderado de los coeficientes, tampoco provoca prácticamente degradación subjetiva de la
calidad. Esta no degradación subjetiva viene marcada por la posibilidad de multigeneración vista
en apartados anteriores. Todos los factores de compresión mayores que 3,3:1 necesitarán un
mayor redondeo de coeficientes, y por lo tanto mayor pérdida de información. Obviamente, esta
mayor cuantificación sí merma la calidad de la imagen. Estamos entrando entonces en el terreno
de la compresión con pérdidas subjetivas, y dependiendo de los valores de la cuantificación
tendremos una pérdida de calidad mayor o menor, y a costa de ello una mayor o menor
compresión.
17
Vídeo Digital
3.4.4.3. Codificaciones VLC y RLC

A partir de la cuantificación anterior, y mediante la lectura en zig-zag presentada se
pretende que al final de cada bloque 8x8 se codifique con el menor número de bits posible.. Los
coeficientes que después del redondeo resulten nulos, se codificarán con técnicas de longitud de
recorridos (RLC), que agruparán en un sólo código toda una cadena de ceros.
Existirá un número grande también de coeficientes que no llegarán a ser cero, pero cuya
codificación Huffman de longitud variable (VLC), vista en apartados anteriores, permite su
codificación con pocos bits.
3.5. Algunos estándar de compresión
3.5.1. La norma JPEG

La norma JPEG (Joint Photografic Experts Group) nace como consecuencia de la
necesidad de comprimir imágenes fotográficas, y por tanto estáticas. Se puede utilizar compresión
subjetivamente sin pérdidas, que alcanzaría factores de compresión de hasta el 3,3:1, y
compresión con pérdidas, que puede llegar hasta el factor 100:1 dependiendo del grado de
pérdidas que estemos dispuestos a permitir. El estándar JPEG opera bien en el rango de flujos
binarios de 3,3 a 80 Mb/s.
La norma JPEG consiste fundamentalmente en aplicar la DCT a los bloques de imagen

de 64 píxeles (8x8), realizar el proceso de cuantificación eliminando los coeficientes con menor
peso, realizar la lectura en zig-zag, y posteriormente considerar la redundancia estadística
mediante una codificación Huffman junto con la RLC.
Existen dos tipos de estructuración de los datos comprimidos: la estructura secuencial y

la estructura progresiva. Mediante la estructuración secuencial, la información se transmite por
bloques de 8x8 completos con toda su definición leídos en zig-zag. En la estructura progresiva,
se van enviando sucesivamente los diferentes coeficientes frecuenciales de todos los bloques,
comenzando con los correspondientes a la DC y también utilizando la lectura en zig-zag. De esta
manera se explica la forma de carga de algunas imágenes en internet que van ganando definición
conforme van llegando los datos
La norma JPEG es una norma bastante abierta, ya que permite un grado de compresión
variable en función de las necesidades, suprimiendo los coeficientes frecuenciales necesarios
hasta conseguir el grado de compresión requerido.
18
3.5.2. El estándar MJPEG

El estándar MJPEG nace ante la necesidad de comprimir las imágenes en los procesos de
edición no-lineal. En esta tarea, una compresión intercuadro como la que se definirá en el
siguiente apartado de MPEG se hace difícil de manejar, ya que en algunos casos es necesaria la
lectura y decodificación de varias imágenes para obtener la información de un cuadro concreto.
Con este panorama, las compañías fabricantes de equipos de edición no-lineal se vieron
en la necesidad de sacar al mercado sus equipos sin que los organismos competentes hubieran
desarrollado una norma. En realidad la técnica MJPEG, es un sistema de compresión JPEG
aplicado sucesivamente a todas las imágenes.
Al no existir un estándar definido, cada fabricante desarrollo el suyo, siendo normalmente

incompatibles entre sí. El formato AVID utiliza un MJPEG con relación de compresión 3:1,
mientras que el EVS utiliza compresión 6:1. Hay que señalar, que la compañía SONY ha
desarrollado un sistema de compresión intercuadro válido para postproducción, y que constituye
una de las variantes de la familia MPEG que veremos más adelante.
3.5.2.1. Diagrama de bloques

Según todo lo explicado hasta ahora, el proceso de compresión de las imágenes de
televisión sería el siguiente: A partir de las tres señales primarias R, G y B se obtendrán las
señales de luminancia (Y) y de diferencia de color (R-Y, B-Y), se digitalizarán según la norma
4:2:2. Posteriormente, se realizará la transformada discreta del coseno, y se procede a cuantificar
los coeficientes frecuenciales; se realiza la lectura en zig-zag, y finalmente, se aplican las
codificaciones VLC y RLC para utilizar el menor número de bits posible para la transmisión o
almacenaje. Todo esto se puede ver en la figura 7.
En esta figura aparecen en la esquina superior derecha dos bloques que analizamos a
continuación. En el caso de querer transmitir la información de vídeo por un canal con tasa
binaria constante, la compresión definida de esta manera produce diferentes niveles de
compresión dependiendo del contenido del bloque 8x8 a procesar. Un bloque de color uniforme
se codificará únicamente mediante su coeficiente DC y un bloque con distinto contenido
necesitará más coeficientes para representarlo. Esto hace imprevisible la velocidad a la que puede
enviarse la información comprimida.
Para solucionar esto, los sistemas de codificación y transmisión disponen de una cola, o
un “buffer”, de salida y un bucle de control de flujo binario que va cambiando la matriz de
cuantificación, y con ello la compresión conseguida en función de las necesidades de cada
momento. Si la cola de salida está muy llena, el bloque de control de flujo actúa sobre la matriz
de cuantificación aumentando los escalones. Este aumento provocará un aumento en la
compresión, y por tanto, una disminución de la entrada de datos a la cola. En el caso en que la
19
Vídeo Digital
Figura 7. Diagrama de bloques de un compresor de vídeo digital para transmisión basado en

la DCT.
cola se esté vaciando, el bloque de control de flujo disminuye el tamaño del escalón,
disminuyendo temporalmente la compresión.
La variación de la compresión afectará a la calidad instantánea de las imágenes. No

obstante, se debe tener en cuenta que los aumentos de compresión se producirán en los instantes
en que la escena tenga mucho detalle, con lo que el ojo probablemente sea menos sensible a este
cambio de compresión. En el caso en que las imágenes tengan poco detalle, el ojo será más
sensible, pero al disminuir la compresión se conseguirá mantener una calidad subjetiva alta.
3.6. Estándar de compresión MPEG-2

Las normas MPEG, han revolucionado la industria de la televisión y las comunicaciones,
al conseguir reducir de manera drástica el flujo binario, sin pérdida subjetiva de calidad en la
imagen. Dada la importancia que tiene el estándar de compresión MPEG-2 en la televisión digital
actual, se ha preferido tratarlo en un apartado completo, aunque como se podrá comprobar, utiliza
la mayoría de las técnicas de compresión vistas hasta ahora.
En el mundo del vídeo digital, la cantidad de aplicaciones se ha disparado en los últimos

años. Cada aplicación además, requiere unos niveles de calidad distintos, así como un factor de
compresión diferente. Mientras que en un sistema de difusión de televisión digital la calidad es
un requerimiento importante, en el caso de la videoconferencia, que es el polo opuesto, la
restricción está en el ancho de banda del canal de que se dispone, y por tanto, la velocidad binaria
que se puede utilizar, quedando la calidad de la imagen en un segundo plano.
20
Los métodos MPEG de compresión pretenden ser lo suficientemente flexibles para poder
satisfacer las necesidades de todos esos usuarios potenciales. Para cada uno de ellos, se ha creado
un único método normalizado de compresión que asegura una forma de trabajo única, pero que
permite manejar distintos niveles de calidad y distintos factores de compresión, de manera que
se ajuste fácilmente a los requerimientos de utilización de cada servicio (coste, resolución,
velocidad binaria, ...).
Lo que cada uno de estos estándar intenta es ofrecer un mismo núcleo básico
parametrizable para cada una de las aplicaciones. El utilizar este mismo núcleo básico supone un
abaratamiento en los equipos de compresión y descompresión, debido a su amplia utilización.
El primer estándar que se desarrolló fue el MPEG-1, que apareció hacia 1988. Este
estándar nació con la idea inicial de reducir el flujo binario al nivel utilizado por los soportes de
audio CD, del cual derivó el CD-ROM, para almacenar en este soporte, imágenes en movimiento
con un flujo binario de 1,5Mb/s. De hecho, este estándar opera bien en el rango de flujos binarios
de 1,5 a 3 Mb/s.
La norma MPEG-1, antes del proceso de compresión, somete a la señal de entrada a

procesos de eliminación de información drásticos. Lo primero es eliminar un campo de la imagen
quedándose con una resolución de 360x288 a 25 f/s. A partir de esto, este método aplica la
compresión intracuadro e intercuadro de forma parecida al formato MPEG-2 que se desarrollará
más ampliamente. Únicamente varían parámetros técnicos, de muestreo, cuantificación, etc.
siendo más riguroso en MPEG-2 ya que va destinado al entorno profesional de mayor calidad.
El estándar MPEG-2 está orientado al entorno profesional de la televisión digital. Éste

opera bien para flujos binarios de 3,5 a 100 Mb/s, y se aplica desde en los sistemas de
producción, hasta en las transmisiones de la televisión digital terrestre, por cable, y vía satélite.
Este estándar es capaz de soportar desde calidad VHS hasta calidad TVAD (en formato 16 / 9).
La codificación MPEG-2 va orientada a la eliminación de la redundancia espacial y

temporal. Esta compresión es adecuada para imágenes de calidad en movimiento (televisión).
Para ello, aplica codificación intracuadro e intercuadro, y además aplica una codificación final
de corrección de errores. Con esto se consiguen relaciones de compresión como 270Mb/s a 50
Mb/s para comunicaciones dentro del estudio, 8Mb/s para difusión con calidad de estudio, y
hasta 3,5Mb/s y 1,5Mb/s para transmisiones de menor calidad. Este estándar MPEG-2 también
se utiliza en servidores de video bajo demanda, y en archivos de imágenes. Para la grabación
magnética se utiliza solamente en el formato Betacam SX.
Existió un formato MPEG-3 orientado a la televisión de alta definición, pero sus avances
se incorporaron posteriormente al estándar MPEG-2, no teniendo mayor relevancia.
El grupo MPEG-4 fue creado para investigar varios frentes de necesidades en la

codificación. El más importante fue el de adaptar la información de vídeo a las redes telefónicas.
Este grupo trabajó sobre tres posibilidades: para flujos inferiores a 64 kb/s, entre 64 kb/s y 384
kb/s, y entre 384 kb/s y 4 Mb/s. La compresión MPEG-4 se aplica en videoconferencias. Los
21
Vídeo Digital
defectos temporales y espaciales son abundantes como corresponde a los bajos flujos binarios de
transmisión, pero se atenúan controlando el movimiento de los objetos.
La filosofía de MPEG-4 cambia con respecto al resto de los estándares anteriores, ya que
introduce el concepto de codificación de objetos, es decir, las imágenes se segmentan en objetos
y es la información de los mismos la que se transmite. El estándar no fija como se deben obtener
los objetos, estimar su movimiento, etc. Los algoritmos serán elegidos por cada diseñador; la
norma sólo fija cómo guardar la información de dichos objetos.
La compresión MPEG-4 a pesar de sus niveles de calidad ha permitido poner en servicio

aplicaciones de comunicación muy interesantes. Otros trabajos que realiza el grupo MPEG-4
están relacionados con el interfaz entre el mundo multimedia, el ordenador y la televisión.
El grupo MPEG-7 no está implicado en temas de compresión, sino en los metadatos. Este
trabajo incluye la preparación de normas sobre los contenidos audiovisuales, como por ejemplo
llegar a la localización de las escenas en que aparecen ciertos personajes. Con ello se conseguiría
un acceso detalladísimo a todo tipo de contenidos del material audiovisual. Su aplicación está en
los archivos, en la edición y montaje, en la redacción periodística, etc.
El grupo MPEG-21 tampoco trabaja en compresión digital. Su objetivo fundamental es

crear la codificación oportuna para la gestión y uso del material audiovisual, incluyendo el
soporte de infraestructura necesario para las transacciones comerciales y la gestión de los
derechos correspondientes.
3.6.1. La compresión intracuadro de MPEG-1 y 2

La codificación intracuadro elimina la redundancia espacial. La compresión intracuadro
de los estándar MPEG-1 y 2 es similar a la vista en JPEG. Esta compresión está basada en el
algoritmo de la DCT.
La lectura de la matriz de coeficientes resultado de la DCT (de tamaño 8x8) se realiza en

zig-zag para imágenes no entrelazadas, ya que los elementos significativos que serán distintos
de cero, están más a la izquierda y hacia arriba. Con esto, los ceros de la matriz quedan en los
últimos lugares de la secuencia reordenada. Posteriormente se aplican los métodos VLC y RLC
de minimización de la redundancia estadística.
22
3.6.2. La compresión intercuadro: Compensación de

movimiento
La compresión intercuadro intenta detectar y eliminar la redundancia temporal entre
cuadros sucesivos. Esta compresión se realiza mediante un proceso de codificación diferencial,
y otro llamado “compensación de movimiento”. Con estas técnicas se consiguen los niveles más
elevados de compresión.
3.6.2.1. Codificación diferencial

La codificación diferencial se establece de forma parecida a la codificación DPCM vista
en uno de los apartados anteriores. La imagen diferencia de un cuadro con respecto al anterior
se puede obtener de manera sencilla. En primer lugar, se hace pasar a la señal por un circuito que
tenga un retardo de un fotograma, o se almacena en una memoria de 1 cuadro de capacidad. Esta
imagen retardada un cuadro, se suma posteriormente a la imagen actual (sin retardar) pero
cambiada de signo, el resultado será la imagen diferencia, que en la mayor parte de su contenido
será cero.
Con esto, las zonas de la imagen que no cambian, no se codifican, limitándose el

decodificador del receptor a repetir los pixeles del fotograma anterior. La técnica de codificación
de la diferencia es buena cuando las imágenes son estáticas. En el caso de imágenes con mucho
movimiento, como acontecimientos deportivos en los que la imagen diferencia puede contener
bastante información, al producirse cambios importantes de un fotograma al siguiente, será más
productivo utilizar también la técnica de compensación de movimiento que se expone a
continuación.
3.6.2.2. Técnica de compensación de movimiento

La técnica de compensación del movimiento trabaja sobre pequeñas áreas de la imagen
denominadas macrobloques de 256 píxeles (16x16); estos macrobloques están compuestos por
cuatro bloques. En las imágenes en movimiento, es habitual que algunas zonas de la imagen se
desplacen en un fotograma con respecto al anterior. El sistema de compensación del movimiento,
trata de buscar el nuevo emplazamiento de los macrobloques, y calcular los vectores de
desplazamiento codificando solamente dichos vectores.
El proceso de predicción comienza por comparar el macrobloque actual con el homólogo

del fotograma anterior, si estos no son iguales, buscará un macrobloque idéntico en la
denominada zona de búsqueda, si lo encuentra codificará los vectores de desplazamiento, y si no
lo encuentra realizará la comparación con el más parecido, codificando la diferencia entre los dos
y los vectores de movimiento. La búsqueda se realiza en dos niveles, primeramente se realiza en
una zona más amplia, y la comparación es gruesa, posteriormente se afina en una zona más
reducida.
23
Vídeo Digital
El codificador compara los resultados y toma las decisiones sobre el bloque idéntico o
bien sobre el más aproximado. Si la diferencia es mayor que la cifra establecida, abandonará la
búsqueda presumiendo que el bloque no se encuentra ya en la imagen, y codificará el mismo con
codificación espacial.
3.6.3. Imágenes I, P y B
La mayor compresión de los sistemas MPEG-1 y 2 no radica en la DCT y su mayor o
menor cuantificación. La mayor potencia de estos algoritmos MPEG está en tres modos de
compresión de las imágenes. Estos modos de compresión dan lugar a lo que llamamos imágenes
I, imágenes P e imágenes B.
3.6.3.1. Imágenes “I” (intracuadro)

Las imágenes I son imágenes que utilizan sólo compresión intracuadro. Cada cuadro I es
comprimido y procesado de forma independiente de los demás, y contiene por sí solo toda la
información necesaria para su reconstrucción.
Las imágenes I son las que más información contienen, y por tanto las que menos
compresión aportan. Las imágenes I, siempre inician una secuencia y sirven de referencia a las
imágenes P y B siguientes.
En secuencias largas, es necesario disponer de imágenes I intercaladas, ya que facilitan

el acceso aleatorio a un fotograma dentro de la secuencia. Si todas las imágenes dependen de la
anterior podemos llegar a la situación en que para recuperar una imagen, hemos de leer
anteriormente todas las anteriores desde el principio, y eso, en ocasiones, no es productivo.
La compresión intracuadro de las imágenes I coincide con el método JPEG para imágenes
estáticas. Aquí se busca la redundancia de la imagen dentro del cuadro que se está procesando.
3.6.3.2. Imágenes “P” (predicción)

Las imágenes P se generan a partir de la imagen I o P anterior más próxima. El
codificador compara la imagen actual con la anterior I o P, y codifica únicamente los vectores de
movimiento y el error de predicción. Se utiliza en este caso una predicción hacia adelante. Estas
aportan un grado importante de compresión.
24
3.6.3.3. Imágenes “B” (bidireccionales)

Por último las imágenes B (Bidireccionales) se generan a partir de imágenes previa y
futura de los tipos I o P. Mientras que las imágenes I y P pueden propagar errores, ya que de ellas
dependen otras, las imágenes B no lo hacen, ya que no intervienen en otras predicciones
posteriores.
La filosofía de la predicción bidireccional se fundamenta en el hecho en que la cámara

en cualquier momento puede realizar una panorámica, un “traveling”, o que dentro de la escena
los objetos se mueven. Cuando la cámara hace una panorámica, una parte de la imagen se va
escondiendo por un lado mientras que otra parte se va desvelando por el otro. También aunque
la cámara esté fija, cuando se producen desplazamientos de objetos en la escena, por una parte
irán desvelando partes fijas de la escena (edificios, decorados, etc), y por otra irán ocultando otras
partes. En estos casos, cuando se quiere predecir el contenido de una imagen, puede resultar más
eficaz tomar como referencia imágenes
anteriores en una parte del fotograma, y
posteriores en otra.
En el ejemplo de la figura 8, se
muestra, en primer lugar una escena de
la que se realizará una panorámica. En la
parte inferior aparecen tres fotogramas
de esa panorámica nombrados como F1,
Figura 8. Fotogramas I, P y B.
F2 y F3. En la explicación siguiente
vamos a suponer que la imagen F1 se codifica como imagen I, el fotograma F2 se codifica como
B, y el fotograma F3 se codifica como P.
Al fotograma primero, por codificarse como I se le aplica una compresión intracuadro a

partir de su propio contenido. Para el fotograma F3 se utiliza la técnica de predicción respecto
del fotograma F1; con lo que se extraerán los macrobloques de la zona del personaje, de la
imagen F1; y la zona donde aparece la cámara se codificará intracuadro, ya que en el fotograma
I no hay información al respecto.
La imagen F2 se codifica como imagen bidireccional entre los fotogramas F1 y F3. En

ella, los macrobloques de la zona del bafle pueden recuperarse de la imagen F1; la parte que
corresponde al personaje puede tomarse de cualquiera de las dos imágenes F1 o F3; y finalmente,
la parte de la cámara se puede sacar del fotograma F3, con lo que el fotograma bidireccional
puede codificarse mediante unos cuantos vectores de movimiento y un error de predicción que
puede llegar a ser muy pequeño.
Aunque el procesamiento de los fotogramas B complica los algoritmos de codificación,

esta complicación compensa el beneficio de conseguir importantes niveles de compresión en
estos cuadros.
25
Vídeo Digital
3.6.3.4. Grupo de fotogramas (GOP)

La sintaxis de MPEG-1 y 2 permite elegir cuántas imágenes I se dan por segundo así
como el número de imágenes P y B intercaladas para cada aplicación. Al número de cuadros que
se tienen entre dos imágenes I consecutivas se le llama grupo de fotogramas (GOP - Group Of
Pictures).
El tamaño GOP típico en MPEG-2 es de 12 fotogramas. Esto obliga a los decodificadores

a disponer de un buffer con capacidad para almacenar 12 fotogramas. El GOP puede ser menor
de 12 fotogramas pero en general nunca será mayor. Sólo en MPEG-1 se pueden encontrar GOPs
más largos, existiendo un mayor número de imágenes con bajos flujos binarios.
Si durante una secuencia de imágenes se produce un cambio de plano, el codificador

detectará que el contenido del primer fotograma del nuevo plano no encuentra coincidencias con
el anterior y por lo tanto lo codificará y definirá como una imagen I.
Dentro de un GOP, el flujo natural de las imágenes que se representan suele ser éste.
I B B P B B P B B P B B I ...
Sin embargo, para la transmisión es preciso cambiar el orden de los fotogramas. Esto es
porque, en recepción, para decodificar cada imagen B es necesario antes haber decodificado la
imagen I o P anterior y la posterior. De esta manera, el orden de transmisión se ve alterado
adelantando las imágenes P posteriores , o lo que es lo mismo retrasando las imágenes B hasta
enviar la imagen I o P posterior; quedando el flujo de imágenes de esta forma:
I P B B P B B P B B I B B ...
Posteriormente, será tarea del decodificador el recuperar el orden natural para la

presentación en pantalla.
El sistema Betacam SX, orientado a aplicaciones de postproducción, utiliza una

secuencia de GOP de tamaño 2 (IBIBIB) con objeto de poder realizar ediciones de precisión,
aunque esta variante no constituye un estándar como tal.
26
3.6.4. Esquema del decodificador MPEG-2

El esquema del decodificador es mucho más sencillo que el del codificador. Por ello lo
presentamos en primer lugar
En primer lugar, el demultiplexor separa los datos correspondientes al error de predicción

del fotograma de los vectores de movimiento. Posteriormente se decodifica el error de predicción,
y se suma a la imagen obtenida del fotograma anterior y de los vectores de movimiento,
obteniéndose la imagen actual. Esta imagen actual se almacena para la decodificación del
siguiente fotograma. Finalmente, se reordenan los fotogramas para obtener el orden natural de
la secuencia a partir del orden de transmisión de la misma.
Hay que destacar que el proceso codificación decodificación en MPEG no es simétrico.

El codificador es bastante más complicado y por tanto necesita una mayor potencia de cálculo,
mientras que el decodificador debe realizar procesos más sencillos. Esta estructura es lógica,
teniendo en cuenta que el codificador se encuentra en el equipamiento profesional de producción
y emisión, y el decodificador es un elemento del equipamiento doméstico de los receptores.
Resumiendo, el sistema MPEG-2 divide la imagen en pequeñas áreas de 8x8 píxeles

llamadas bloques, y de 16x16 píxeles llamadas macrobloques, realizando diversos
procesamientos diferentes a cada uno de ellos.
Existen dos etapas diferenciadas; la compresión intracuadro que trata de minimizar la

redundancia espacial, y la compresión intercuadro que hace lo propio con la redundancia
temporal. La compresión intracuadro consiste fundamentalmente en aplicar la DCT a los bloques
8x8, cuantificar los coeficientes, y aplicar una codificación VLC (normalmente Huffman). La
compresión intercuadro se basa en la aplicación de la compensación de movimiento a los
macrobloques, y la codificación diferencial a la imagen completa. Según la compresión
intercuadro podemos distinguir imágenes I, imágenes P, e imágenes B.
La suma de todos estos procesos lleva a niveles de compresión notables, manteniendo no

obstante la calidad subjetiva de la imagen y haciendo posible la reversibilidad del proceso a fin
de recuperar la imagen original.
27
Vídeo Digital
3.6.5. Esquema del codificador MPEG-2

A la vista del codificador MPEG-2 la primera operación a realizar es reordenar las
imágenes de la secuencia al orden de transmisión, ya que para codificar las imágenes B hemos
de haber codificado antes las imágenes I y P posteriores. A continuación, y a partir de las
imágenes ya codificadas se calculan los vectores de movimiento.
A partir de los vectores de movimiento y de la predicción de la imagen ofrecida por el
codec JPEG (bloques TDC, Q, Q-1, y TDC-1) se realiza la codificación diferencial.
Con la imagen diferencia se realiza la DCT y posteriormente el cuantificador realiza una

cuantificación distinta en los coeficientes dependiendo de la frecuencia a la que representan.
También aparecen el cuantificador inverso y una DCT inversa. Su misión es simular al
decodificador en la forma de predecir las imágenes, para después calcular la diferencia entre la
imagen real y la predicción que utiliza el decodificador.
El bloque CLV hace referencia a las codificaciones de longitud variable y de longitud de

recorrido. La codificación de longitud variable asigna palabras de código más cortas a aquellos
códigos que tienen una mayor frecuencia de aparición, mientras que la codificación de longitud
de recorrido codifica, a partir del último coeficiente distinto de cero, que los demás del bloque
son todos cero hasta el final. Estas dos codificaciones aportan un nivel de compresión moderado.
El multiplexor de salida conforma un tren de datos en el que aparece toda la información

necesaria para el decodificador; incluyendo la información de todos los bloques 8x8 y los
vectores de movimiento.
28
Finalmente el buffer de salida y el regulador mantienen constante el flujo binario hacia

el decodificador.
3.6.6. Estructura del tren de datos MPEG-2

El tren de datos de MPEG se estructura de mayor a menor en los siguientes elementos:
Secuencias, GOPs, Imágenes, Slices, Macrobloques, y Bloques. Cada uno de estos elementos
contiene una cabecera de datos en la que se especifican los atributos del mismo, de manera que
se facilite el trabajo del decodificador.
Los Bloques son cuadrados de 64 píxeles (8x8), y son la unidad de proceso de la DCT.
El Macrobloque es una asociación de cuatro bloques, y consta de 256 píxeles (16x16).

Esta es la unidad de comparación para el cálculo de los vectores de movimiento. Además, en el
caso de codificación 4:2:0, que es habitual en MPEG-2, el macrobloque es la unidad de
procesamiento de la DCT para las señales de diferencia de color.
Un slice son un grupo de

macrobloques asociados en sentido
horizontal y tomados de izquierda a
derecha. Pueden constar desde un
macrobloque hasta toda una línea, pero
un mismo slice nunca debe estar
compuesto por macrobloques de
diferentes líneas. En la figura se
representa un conjunto de slices de una
imagen en determinadas posiciones;
estas posiciones pueden cambiar de una
imagen a otra.
No es necesario que toda la

imagen esté cubierta por slices, pueden Figura 11. División en slices de una imagen.
quedar macrobloques que no
correspondan a ninguno de ellos. Esas zonas sin slice definido quedarán sin codificar para esa
imagen. La norma MPEG no especifica lo que debe hacer el decodificador en estos casos, aunque
lo más intuitivo es mantener esas zonas iguales a la imagen anterior. Obviamente esto sólo es
aplicable a imágenes tipo P y B, ya que las imágenes I, por definición, van codificadas por
completo.
El concepto de imagen en MPEG-2 no es el mismo al que estamos acostumbrados.

Dependiendo de los casos, cuando utilizamos exploración entrelazada puede ser ventajoso
considerar imagen, tanto un campo, como un cuadro. En imágenes sin movimiento, puede
considerarse como imagen un campo o un cuadro indistintamente, puesto que el contenido de
ambos campos sera muy similar. En cambio, si existen movimientos rápidos utilizando
29
Vídeo Digital
exploración entrelazada, las diferencias en cuanto a contenido entre los campos pueden ser muy
importantes, así que será conveniente procesar por separado cada campo.
En el caso que utilicemos el concepto de imagen como un cuadro completo se habla de

codificación “Frame DCT”, y si definimos como imagen a un campo hablaremos de codificación
“Field DCT”. Independientemente del tipo de codificación descrito, una imagen puede ser I, P
o B, dependiendo de la compresión que se realice sobre ella. Esta información se indica en la
cabecera de datos.
Los GOP (group of pictures) son grupos de imágenes, acotados por dos imágenes de tipo
intracuadro. Normalmente constan de 12 fotogramas y constituyen la unidad de compresión
temporal. El GOP es el mínimo elemento capaz de contener por sí solo toda la información
necesaria para su descompresión, ya que como hemos visto algunos tipos de imágenes necesitan
de otras para su total descompresión.
Una secuencia consta de varios GOPs, indicando los datos de la cabecera, la relación de
aspecto, el flujo binario, y otros datos relacionados con el programa al que pertenecen.
3.6.7. Niveles y perfiles en MPEG-2

La familia MPEG-2 se ha presentado en apartados anteriores como un método de
compresión flexible en cuanto a las características de la secuencia de vídeo a comprimir, al factor
de compresión, a la calidad de la secuencia de vídeo de salida y al coste de los equipos.
La norma MPEG-2 contempla imágenes con exploración entrelazada y progresiva, así

como los estándares de codificación 4:4:4, 4:2:2, y 4:2:0. También admite distintos valores de
resolución de imágenes, que incluyen todas las frecuencias de campo y trama usadas en televisión
desde la más baja resolución hasta la alta definición. Asimismo, esta norma define diferentes
tipos de codificación que permiten conseguir diferentes niveles de calidad y de precio. Se
incluyen sistemas más económicos aunque de menor calidad, y sistemas de mayor calidad aunque
por supuesto más caros.
Esta flexibilidad es posible mediante la definición de diferentes niveles y perfiles que son
capaces de conseguir un modo de compresión adaptado a las necesidades de cada aplicación.
3.6.7.1. Niveles
El nivel define la resolución de las imágenes en base al número de píxeles y líneas a
codificar. El número de cuadros por segundo se define siempre por la señal original antes de
comprimir. Esta resolución va desde la más baja resolución SIF (2:1:0) correspondiente a MPEG-
1, hasta la televisión de alta definición con 1920x1152 píxeles.
30
Nivel bajo (Low) Resolución SIF utilizada en MPEG-1

Nivel principal (Main) Resolución 4:2:0 normal hasta 720x576
Nivel alto 1440 (high-1440) Previsto para TVAD hasta 1440x1152
Nivel alto (high) Previsto para TVAD hasta 1920x1152.
Sólo se codifican las muestras activas indicadas. Las señales originales tendrán muestras
activas y no activas. Las no activas no son codificadas por MPEG-2, y serán regeneradas con
nivel de borrado en el decodificador. Puede que el número de muestras activas no coincida con
la resolución de cada nivel. Para que esto sea posible, uno de los datos de sistema que deben
conocerse es el tamaño de imagen digital original.
Es evidente que cada nivel usado dará lugar a un régimen binario diferente. De cara a la
construcción de los codificadores, no es necesario que todos ellos sean capaces de codificar a
todos los niveles sino que existirán codificadores específicos para cada nivel. En este sentido, es
importante saber que un codificador MPEG-2 que codifique en un nivel también lo haga en
niveles inferiores.
3.6.7.2. Perfiles
Los perfiles, en cambio, definen un valor de compromiso entre compresión y coste del
decodificador, y además hacen posible la escalabilidad de la corriente de datos. El conseguir una
mayor compresión sin perder calidad va a implicar una complicación, tanto en el codificador,
como en el decodificador, y esta complicación llevará consigo un mayor coste de ambos. En
MPEG-2 se definen los perfiles siguientes.
Perfil simple.- Simplifica el codificador y decodificador. No utiliza imágenes tipo B

(bidireccionales), y el tipo de muestreo soportado es 4:2:0. En este caso el factor de compresión
es bajo.
Perfil principal (main).- Mejor compromiso entre factor de compresión y calidad. Utiliza
imágenes I, P y B. El decodificador y el decodificador son más complejos que el anterior. Todas
las imágenes se transmiten en formato 4:2:0.
Perfil 4:2:2.- Este perfil es el que habitualmente se utiliza en producción. Puede manejar
imágenes tipo I, P y B. El muestreo es 4:2:2 aunque puede reducirse al 4:2:0. Sólo se utiliza con
el “nivel principal”, incrementando el número de píxeles y líneas activas respecto de dicho nivel
a 720 muestras activas y 608 líneas por cuadro para sistemas 625/50 y 512 para sistemas 525/60.
Como en producción habitualmente se necesita acceso a fotogramas concretos para edición,
utiliza GOPs muy pequeños, de tamaño 2 como IBIBIB o 3 por ejemplo IPBIPBIPB.
Evidentemente, se requiere la presencia de muchas imágenes I con el fin de poder referenciar
constantemente cuadros completos. Este perfil opera con flujos entre 20 y 50 Mb/s y admite
generaciones múltiples de compresión y descompresión
31
Vídeo Digital
Perfil jerárquico (Scalable).- La información que contiene el flujo de datos MPEG-2 se

estructura en dos capas: una primera capa con menor definición llamada “capa base”, y una
segunda capa llamada “capa de mejora” o “capa de realce” con la información suplementaria que
se necesita para conseguir la mejora de calidad. La “capa base” contiene la información
fundamental para decodificar la señal. Esta capa básica se transmite fuertemente protegida
soportando ambientes muy ruidosos, y puede ser decodificada por todo tipo de decodificador. A
esta capa básica se le añaden capas denominadas de realce que aumentan la definición de la
imagen, o su formato, y que sólo podrán ser decodificadas por equipos más complejos, instalados
en los receptores más caros. Las capas de realce suelen ir menos protegidas y por tanto son más
vulnerables en entornos ruidosos.
Los perfiles escalables permiten transmitir al mismo tiempo diferentes resoluciones

espaciales y diferentes grados de definición, por ejemplo puede transmitir el mismo programa en
alta definición y en definición estándar, o en formato 4:3 y 16:9. Esto lo hace, por una parte,
jugando con la resolución espacial (spatialy scalable profile), y por otra, con la cuantificación
(SNR scalable profile).
En el caso de la escalabilidad SNR, la “capa base” contiene la información de vídeo con

menos bits por muestra, y la “capa de mejora” agrega aquella información que se necesita para
conseguir una mayor calidad. En la escalabilidad espacial la “capa base” contiene la información
necesaria para conseguir un determinado nivel de la norma, como puede ser el nivel “bajo”, y la
“capa de mejora” aporta el suplemento necesario para llegar a un nivel superior como el
“principal” o el “alto”.
Este concepto de escalabilidad tiene su aplicación en la televisión digital terrestre, en la

que van a coexistir dos tipos de receptores: receptores portátiles que solamente utilizarán la capa
básica, y receptores estacionarios utilizados en las viviendas, y dotados de un decodificador más
complejo, y con una señal más estable, que además de la capa básica decodificarán también las
capas de realce.
Para la televisión digital europea, existe un gran interés en las aplicaciones de los perfiles
jerárquicos. El perfil de escalabilidad espacial que permite dividir los datos de acuerdo con la
resolución y también con la relación SNR, se puede crear una señal compuesta por tres elementos
que conjuntamente darán lugar a una señal de alta definición. De las tres partes de la señal, la
capa de base utilizaría jerarquía espacial para proporcionar una señal de 625 líneas. El resto de
la señal se puede dividir aplicando el criterio de relación SNR, creando así una segunda señal que
junto con la capa base proporcionaría una señal de alta definición con un formato 4/3 y una
relación señal-ruido reducida. El tercer elemento de la señal, conjuntamente con los otros dos,
daría una señal con el formato 16/9 de alta definición
Perfil alto (high).- Está previsto para aplicaciones en HDTV. Se utilizan imágenes tipo
I, P y B, y el muestreo puede ser 4:2:2 o 4:2:0. La transmisión es escalable tanto en SNR como
espacialmente.
32
Entre estos perfiles existe compatibilidad ascendente; los decodificadores de perfil más
alto son capaces de soportar perfiles más bajos. La combinación de niveles y perfiles produce una
arquitectura que define la capacidad de un codificador para manejar determinado flujo binario.
Los niveles y perfiles utilizados en Europa y América a nivel doméstico son el nivel principal y
el perfil principal. El flujo binario oscila entre 5 y 9 Mb/s.
En la tabla siguiente se representan las posibles combinaciones entre niveles y perfiles.

No todas ellas encuentran aplicación práctica. Las combinaciones que aparecen son las
especificadas por la UIT. La difusión de la televisión digital se están realizando en el perfil
principal y nivel principal, tomando el nombre de MPEG-2 MP@ML. Los flujos que aparecen
son flujos máximos, no flujos reales de trabajo.
Perfiles SIMPLE PRINCIPAL 4:2:2 ESCALABLE ESCALABLE ALTO

Producción SNR ESPACIAL
I,P,B
Niveles I,P - 4:2:0 I,P,B - 4:2:0 I,P,B I,P,B - 4:2:0 I,P,B - 4:2:0 4:2:0 y 4:2:2
ALTO
1920 Píxeles 80 Mb/s 100 Mb/s
1152 Líneas
ALTO -1440
1440 Píxeles 60 Mb/s 60 Mb/s 80 Mb/s
1152 Líneas
PRINCIPAL 50 Mb/s
720 Píxeles 15 Mb/s 15 Mb/s 15 Mb/s 20 Mb/s
576 Líneas 720x608
BAJO
352 Píxeles 4 Mb/s 4 Mb/s
288 Líneas
3.6.8. Organización del flujo de transporte

Los flujos binarios de vídeo y de audio de cada programa se comprimen
independientemente formando cada uno de ellos una “corriente elemental” (ES - Elemental
Stream). Cada una de estas corrientes elementales se estructuran en forma de paquetes llamados
PES (Packetized Elementary Stream). Los paquetes PES son de longitud variable dependiendo
de como el codificador organiza los datos de salida. Por ejemplo, es normal encontrarse con un
flujo de salida del codificador de video que abarque una imagen completa. Esta unidad abarcará
entonces un PES. Cada paquete se inicia con una cabecera que incluye datos sobre el tipo de
“carga” que lleva (vídeo audio, etc), información de sincronización, etc.
Estos paquetes de video y de audio, así como de otros datos de un mismo programa pasan
posteriormente a un multiplexor donde se conforma un solo tren binario. Para esta multiplexión
existen dos posibilidades: la conformación de una “corriente de programa” (PS - Program
Stream) y la conformación de una “corriente de transporte” (TS - Transport Stream).
33
Vídeo Digital
Figura 12. Diagrama de bloques de conformación de corrientes de programa o de

transporte de programa simple..
La corriente de programa es una multiplexión simple intercalando los PES unos con otros. Esta
opción se aplica en canales libres de ruido, como por ejemplo la grabación de un DVD, y de otros
soportes multimedia. Como no se espera ruido en el canal, no es necesario usar corrección de
errores. Este sistema conlleva una gran simplicidad. No obstante una corriente de programa puede
acomodar hasta 16 corrientes de vídeo y 32 de audio. Lo que sí es obligatorio en las corrientes
de programa es que todas las corriente sean sincrónicas, es decir que tengan una base de tiempos
común.
La corriente de transporte es apropiada para entornos ruidosos, opción que encaja en las
necesidades de la difusión de televisión terrestre, por cable y vía satélite. Esta opción exige pasar
los PES a otros paquetes más cortos, de 188 bytes de longitud, y aplicar técnicas de corrección
de errores. Con esto se puede organizar una corriente de transporte de un sólo programa (SPTS -
Single Program Transport Stream). Esta longitud de paquetes incluye 4 bytes de cabecera y es
apropiada para utilizarse en redes ATM, así como en una amplia variedad de sistemas de
transmisión y almacenamiento.
La corriente de transporte puede formarse con varios programas de televisión, cada uno
de ellos con varias corrientes elementales. Como es lógico las corrientes elementales que forman
un mismo programa de televisión deben ser sincrónicas. Sin embargo, los diferentes programas
pueden tener cada uno una sincronización independiente. En este caso, se organiza un múltiplex
con todos los programas. El flujo binario de la corriente de transporte completa es constante, aun
cuando varíen los flujos de cada corriente elemental. Para mantener este flujo total constante, se
pueden incluir paquetes nulos.
Entre otras informaciones, la corriente de transporte también lleva información de cifrado

para el acceso condicional a determinados programas de pago.
34
Figura 13. Conformación de la corriente de transporte en el caso de transmisión multiprograma
3.7. Aplicaciones de la compresión de vídeo

La gran cantidad de información resultante de la digitalización de la señal de vídeo hace
que la compresión sea prácticamente una necesidad en casi todos los ámbitos. No obstante, las
diferentes aplicaciones para las que está destinada la información de video requieren métodos y
factores de compresión diferentes, en base a la calidad que se pretenda conseguir, y al precio que
se esté dispuesto a pagar.
De todos los métodos de compresión que existen, el utilizado más ampliamente en el

mundo de la televisión digital es el método MPEG-2, que se ha convertido en un estándar dentro
de este sector. En este apartado se tratarán todo tipo de aplicaciones; unas utilizan este estándar
como medio de compresión, y otras no. Trataremos también de acercarnos a las ventajas e
inconvenientes de estos métodos en cada caso.
35
Vídeo Digital
3.7.1. Producción en estudios de televisión

En producción existe un gran atractivo por la reducción del coste de almacenaje de vídeo
usando MPEG-2, especialmente para aplicaciones de archivo, producción de noticias y edición
de estas. Pero las producciones y ediciones de alta calidad tienen claramente vedado el uso de
compresiones elevadas debido a la necesidad de alta multigeneración.
Sin embargo, salvo que el proceso se limite al uso de imágenes codificadas sin predicción,
las operaciones de inserción y borrado son difícilmente realizables directamente sobre la señal
comprimida, lo que es una limitación crítica en las aplicaciones de vídeo. MPEG-2 con imágenes
exclusivamente de tipo I puede tener alguna ventaja sobre JPEG debido a la posibilidad de
seleccionar la cuantificación para una misma imagen y la mayor facilidad para transmitirse como
tren de datos, ya que el formato JPEG no se refiere en ningún caso a la transmisión.
Debe tenerse cuidado en las operaciones de producción que involucran múltiples

generaciones de manipulación de la señal. En formatos sin comprimir no sufren degradación,
pero si se maneja material MPEG-2, especialmente cuando se manejan flujos binarios
especialmente dedicados a transmisión (3-9 Mb/s), la aparición de defectos en la señal puede ser
rápida en unos pocos procesos de compresión y descompresión.
Para solucionar los problemas de alta compresión, MPEG-2 incluye un perfil de estudio,
el perfil 4:2:2, que admite regímenes binarios comprimidos de hasta 50 Mb/s. Este perfil está
teniendo gran aceptación, e incluso se empieza a utilizar en los magnetoscopios digitales. Esta
posibilidad de basa en reducir el tamaño del GOP a 2 o 3 imágenes (por ejemplo: IBIBIB,
IPBIPB, etc.) de manera que se pueda conseguir una acceso aleatorio sencillo, una compresión
moderada (3,3:1), y una calidad final muy alta.
3.7.2. Periodismo electrónico (ENG - Electronic News

Gathering)
En el periodismo electrónico, la característica quizá más importante, y que se antepone
a las demás es su portabilidad, que viene asociada al tamaño de los equipos y a su peso. De
manera indirecta, también es importante minimizar el consumo de los equipos, lo que redunda
en un menor tamaño y peso de las baterías para una determinada autonomía de funcionamiento.
Asimismo es importante, en cuanto al tamaño, el tipo de cintas necesarias para su
funcionamiento. Por estas razones, en general los equipos de periodismo electrónico utilizan
formatos de muestreo menos exigentes que el conocido 4:2:2.
Generalmente, los formatos de muestreo que se utilizan en ENG son el 4:1:1 y el 4:2:0.
Estos formatos de muestreo, por ser más sencillos necesitan almacenar bastante menos cantidad
de información, consiguiendose un nivel de calidad bastante aceptable. Esta reducción de la
cantidad de información a almacenar implicará un menor tamaño de las cintas, y un menor
36
consumo de baterías. Pero a pesar de conseguirse un nivel de calidad aceptable, la cantidad de

multigeneraciones posibles disminuye a valores entre 6 y 10.
Estos valores de multigeneración son adecuados a la aplicación que se está tratando: la

captación de imágenes en el lugar de la noticia, y su posterior inserción en el instante adecuado
de un programa. Esta aplicación no suele requerir múltiples procesos de decodificación ni grandes
procesos de edición. Por ello, a la hora de valorar la compresión de esta información, se permite
un factor de compresión mayor que en el caso de la señal de estudio. Los factores de compresión
que se suelen dar son entre 5/1 y 10/1; lo que resulta flujos binarios de 15 Mb/s a 30 Mb/s. La
aplicación de estos factores de compresión economiza las transmisiones vía satélite, cuando son
necesarias, debido a la disminución de los requerimientos de flujo binario.
3.7.3. Transmisión y difusión de la señal de video

En enlaces punto a punto dentro o fuera del estudio, donde se pretenda mantener una alta
multigeneración debemos aplicar las mismas ideas que el en caso de la producción dentro de los
estudios. En estos casos se debe comprimir moderadamente para mantener la calidad de la señal
en posibles ediciones posteriores.
En cuanto a las grandes aplicaciones de difusión directa, ya sea por vía terrestre, vía cable
o fibra de vidrio, y vía satélite, éstas ya están estandarizadas en base al sistema MPEG-2. En el
caso de la difusión, no se necesita una alta multigeneración, ya que estamos al final de la cadena
y los únicos procesos necesarios para la representación en pantalla serán la descompresión, y su
conversión a analógico. Por ello, en difusión se permiten factores de compresión más altos.
Se estima que para conseguir calidad de estudio, según la recomendación 601, se necesita
un sistema con velocidad binaria de unos 9Mb/s. Para una calidad equivalente al PAL se
necesitan unos 5 Mb/s.
En la actualidad, los satélites de radiodifusión directa actúan como plataformas digitales

de canales de televisión temáticos con posibilidad de distribución de múltiples canales
especializados en documentales, deportivos, cine, etc. que tratan de competir con el mercado de
alquiler de vídeos.
3.7.4. Servidores de video

Los servidores de video para “vídeo bajo demanda” deben almacenar grandes cantidades
de vídeo digital, para que pueda haber un acceso rápido y su posterior transmisión. Los ahorros
en coste de almacenamiento usando compresión MPEG-2 son muy altos, aunque el acceso
aleatorio es más complicado que en el material sin comprimir, es posible. En este campo existe
mucha competencia entre diversos métodos de compresión
37
Vídeo Digital
3.7.5. Multimedia
La compresión de imágenes en los ordenadores tiene su justificación por la poca
capacidad de almacenamiento de los ordenadores domésticos. La escasa implantación en el
ordenador de sistemas hardware de compresión de vídeo hace que se utilicen en general
algoritmos software que permitan una alta compresión, aunque no en tiempo real. La necesidad
de multigeneración es, en general, baja.
Existen diversos algoritmos de compresión diferentes para su uso con ordenadores,

muchos de ellos en base a archivos AVI, lo que quizá dificulta su identificación. Incluso se
utilizan algoritmos MJPEG. Estos algoritmos proporcionan una menor calidad a mayor régimen
binario que el formato MPEG al trabajar cuadro a cuadro pero son más económicos. También se
utiliza en muchos casos el formato MPEG-1 por su afinidad directa con las posibilidades de
soporte CD.
La posible mayor calidad visual de MPEG-2 es atractiva pero requiere una mayor potencia
de procesamiento y decodificación. A falta de que se abaraten algo más las tarjetas codificadoras,
existen codificadores, no en tiempo real, por software. La progresiva introducción de la familia
de discos DVD junto con interfaces y buses más rápidos pueden mejorar las aplicaciones
multimedia basadas en ordenador de propósito general y la codificación MPEG-2.
Otro formato muy utilizado en aplicaciones multimedia por su capacidad de compresión

es el formato MPEG-4. Para este formato existen codificadores software, que aunque no trabajen
en tiempo real, ofrecen una calidad razonable con compresiones bastante altas.
3.7.6. Sistemas domésticos

La implantación del DVD como soporte digital para películas de consumo supone la
implantación de MPEG-2 como formato de señal digital en este entorno, ya que el DVD graba
películas en este formato. El secreto de su implantación es que para ver películas grabadas sólo
es necesario el decodificador MPEG-2, que es el elemento más barato de la cadena. Es la misma
situación que las aplicaciones de difusión de TV digital. Otra cuestión es si será tan económico
el grabador de DVD, con codificador MPEG-2. Ese es el punto clave para su generalización
como sustituto del magnetoscopio doméstico.
En cuanto a estos magnetoscopios, la compresión puede disminuir el coste de un

videograbador respecto de su versión sin comprimir dado que los regímenes binarios requeridos
son más bajos. Sin embargo un magnetoscopio económico para el consumo requiere un
codificador sencillo, y económico. La codificación MPEG-2 a este nivel de precio está todavía
lejana. Por tanto otros formatos menos comprimidos empezarán a dominar la grabación
doméstica, como es el caso del DV.
38
3.7.7. Videoconferencia
Las videoconferencias o los enlaces en directo, el retardo que sufre la señal que se
codifica cuando se usan imágenes B puede convertir a MPEG-2 en inútil para la comunicación
en ambos sentidos. MPEG-2 puede ser utilizado, pero sin cuadros tipo B. No obstante la
codificación que más se utiliza en la actualidad para estas aplicaciones, y que además fue
diseñada para ello es el formato MPEG-4. Éste permite la comunicación con regímenes binarios
muy bajos y con una calidad aceptable, con la sola condición de que se limite el movimiento de
los objetos en la escena a transmitir.
3.8. Compresión y descompresión en cascada

Dadas las diferentes aplicaciones de la compresión de vídeo, en un sistema pueden
encontrarse varias etapas o procesos de compresión-descompresión en cascada. Las sucesivas
compresiones y descompresiones cuando se utiliza el mismo algoritmo causan un deterioro
progresivo en la calidad de la imagen en función del factor de compresión empleado.
Si se utilizan algoritmos distintos, con distintos criterios aritméticos, supresión de píxeles,

etc. pueden llegar a producirse resultados de degradación imprevisibles. Por ello se recomienda
utilizar el mismo algoritmo e incluso el mismo factor de compresión en toda la cadena de
producción de vídeo.
39
Vídeo Digital
3.9. Bibliografía
Bethencourt Machado, T. “Televisión DIgital” Colección Beta. Temas audiovisuales.
(2001)
Gavilán Estelat, E. “MPEG-2 Pieza clave de la televisión digital” Unidad Didáctica 146
IORTV.
Martín Marcos, A. “Compresión de imágenes JPEG”. Ciencia 3. 1999.
Martín Marcos, A. “Televisión Digital Norma MPEG-2 (video)”. Ciencia 3. 1998.
Mead, D. C. “Direct Broadcast Satellite Comunications. An MPEG enabled service.

Addison-Wesley. 1999
Mitchell, J.L. “MPEG Video Compression Standard” International Thompson Publishing”

1996.
Mossi García, J.M. “Sistemas de televisión”. Servicio Publicaciones UPV.
Ortiz Berenguer, L. “TV Digital: MPEG-2 y DVB”. Servicio Publicaciones UPM. 1999.
Riley, M.J. “Digital Video Communications”. Artech House. 1997.
Tejerina, J.L. “Bit-rate reduction of HDTV, based on Discrete Cosine Transform”.

Artículo de Telettra, nº45.
40

Compresión de Video Digital PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Compresión de Video Digital PDF

Cargado por

Copyright:

Formatos disponibles

Compresión de la información de vídeo

3. Compresión de la información de vídeo

Frecuencia Frecuencia Datos 1 seg. Datos 1 seg. Capacidad de

4:4:4 13.5 13.5 324 248.8 5m 22s

Si nos centramos en el estándar 4:2:2 definido por la recomendación ITU-R BT.601,

Compresión Tamaño parte activa (Mb/s) Capacidad en disco 10GB

1:1 165.9 8m 02s

En el caso de la transmisión o distribución de señales por cualquier medio físico

Además, en determinadas aplicaciones, el factor de compresión va a venir impuesto por

3.2. La compresión de la señal de video

La misión de un sistema de compresión consiste en detectar y eliminar la información

La compresión, a partir de ciertos valores influye negativamente en la calidad del vídeo.

En la compresión sin pérdidas, la información original se recupera en su integridad

Por otra parte, con la compresión subjetivamente sin pérdidas, en el proceso de

Finalmente, en la compresión subjetivamente con pérdidas, durante el proceso de

Dentro de todas estas categorías existen gran cantidad de técnicas de compresión

Algunas técnicas de compresión se han conseguido, simplemente atendiendo a las

c)- A cada nivel de cuantificación se le asigna un código de bits.

Concretamente el método MPEG-2 se utiliza en todos los ámbitos de la televisión digital.

A continuación pueden verse algunos ejemplos de utilización de la compresión, referidos

- También se utilizan 50Mb/s para comunicaciones mediante fibra óptica.

- En la difusión de televisión digital, el flujo binario es diferente, según la calidad requerida. En

Calidad - Definición Flujo binario

3.3. La redundancia en la información de video

En términos de compresión, sería muy beneficioso minimizar al máximo la información

La información redundante que aparece en una secuencia de vídeo digital podemos

3.3.1. Redundancia espacial.

Uno de los ejemplos de compresión aprovechando la redundancia espacial son la

3.3.2. Redundancia temporal.

Así, en la mayoría de los casos podemos

Figura 3. Codificación DPCM.La cantidad de valores posibles disminuye drásticamente.

3.3.3. Redundancia estadística.

El ejemplo de compresión VLC más utilizado es quizá el código Huffman. Su ejecución

El método de ejecución es el siguiente:

a)- Se estudia el número de apariciones de cada símbolo, o su probabilidad de aparición y se

d)- Se repiten los pasos b, c, y d hasta que sólo quede un grupo.

3.4. Métodos de compresión por transformación: la

En el dominio espacio-temporal, la probabilidad de aparición de todos los valores de los

de alta frecuencia. Los métodos de compresión por transformación se aprovechan de esta

La transformada discreta del coseno es la herramienta de transformación más utilizada

3.4.1. Cálculo de la DCT unidimensional

DCT(x[n])  C[u]  α(u) ·  x[n] · cos

El parámetro α(u) tiene dos valores posibles, que son estos:

La transformada inversa (IDCT ó DCT-1) permitirá obtener la secuencia x[n] a partir de

DCT (C[u])  x[n]   α(u) ·C[u] · cos

El método de las funciones base tiene su fundamento en el hecho que, de la expresión de

DCT(x[n])  C[u]  α(u) ·  x[n] · f[n]|u

Considerando la secuencia a transformar x[n] y la función base f[n] |u como vectores de

A partir de esta figura

3.4.2. Generalización de la DCT bidimensional

C[u,v]  α(u) · β(v) ·   x[m,n] · cos

La transformada inversa, IDCT ó DCT-1, permitirá obtener la secuencia x[n, m] a partir

x[m,n]   α(u) ·  β(v) · C[u,v] · cos

Para el cálculo de la DCT bidimensional existe también el método basado en las

corresponden a valores de coeficientes igual a 1, y los cuadros negros corresponden a coeficientes

Atendiendo a la figura, cada coeficiente de la transformada representará la cantidad de

Si el bloque 8x8 a transformar corresponde a un trozo de decorado completamente

Si el bloque original correspondiese a un área de la imagen que tuviera un dibujo en forma

Si un bloque de la imagen contiene una gradación de brillo en cualquier dirección, su

3.4.3. Propiedades de la DCT

Si x[m,n] = x1[m] · x2[n], C[u,v] = C 1[u] · C2[v].

3.4.4. Utilización de la DCT para compresión de vídeo

3.4.4.1. Lectura en zig-zag