Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Compresión de Video Digital PDF
Compresión de Video Digital PDF
3.1. Introducción
La necesidad de la compresión en vídeo digital aparece en el momento que se tratan las
secuencias de imágenes como señales digitales. El problema principal que tiene el manejo del
vídeo digital es la cantidad de bits que aparecen al realizar la codificación. En la siguiente tabla,
se muestran varios ejemplos. En ella, se considera la digitalización de una señal de televisión de
625 líneas a una velocidad de 25 imágenes por segundo.
Si ahora aplicamos sobre esta información distintos factores de compresión, veremos que
la eficiencia de almacenamiento aumenta considerablemente. Así para el estándar 4:2:2 con
diferentes factores de compresión se obtendrían los resultados de esta tabla:
1
Vídeo Digital
enviaría un canal de televisión en formato 4:2:2 sin comprimir se podrían enviar del orden de
2590 canales telefónicos.
Puesto que, tanto el espacio en disco por minuto como el ancho de banda radioeléctrico
son recursos limitados, se hace conveniente aplicar factores de compresión para la transmisión,
para el almacenamiento, e incluso para la producción de programas. Una vez comprimida la
información será más sencillo almacenarla o transmitirla.
Así pues, la compresión, por un lado, es un factor económico ya que reduce el costo de
la transmisión, o distribución de señales. Dado un medio de transmisión concreto con un
determinado coste de amortización, cuanto menor sea el ancho de banda de los canales a
transmitir, más canales estarán disponibles, y más económico resultará cada canal.
Todo proceso de compresión, para ser útil, debe llevar asociado un proceso de
descompresión posterior, por el cual se recupera el tren de datos original a partir de los datos
comprimidos. Para ello se seguirá el orden inverso al de la compresión.
2
Compresión de la información de vídeo
El conocido formato de video 4:4:4 utiliza la misma frecuencia de muestreo para las
señales de color que para la de luminancia. En el formato 4:2:2, en cambio, la frecuencia de
muestreo de las señales de color pasa a ser la mitad. Sin embargo, esta forma de compresión no
degrada subjetivamente la calidad, sino que este formato se ajusta más a las distintas
sensibilidades del ojo.
El sistema 4:4:4 se utiliza, no porque ofrezca una mayor calidad subjetiva, sino porque
las operaciones de tratamiento digital de imágenes, u otras operaciones como el croma-key (llave
de color), en el que se conmuta de imagen a partir de la información del color de los píxeles, se
realiza con mucha más precisión.
3
Vídeo Digital
El paso del formato 4:2:2 al 4:1:1 o al 4:2:0 sí supone eliminar información sensible al
ojo. Esta información que se elimina, no es en este caso redundante, y no puede recuperarse en
un hipotético proceso de descompresión. Por ello esta compresión se denomina con pérdidas, o
degradante.
Otros métodos de compresión que se han establecido como estándar por sus prestaciones
y su amplia aplicación son los métodos denominados MPEG. Las siglas MPEG vienen de
(Motion Pictures Expert Group) nombre de un grupo de expertos común entre la ISO
(International Standards Organization) y la IEC (International Electrotechnical committe). El
fundamento básico de la compresión MPEG es el siguiente:
a)- Se busca una representación válida de la imagen que concentre la información en una
pequeña parte de la descripción.
b)- Se cuantifican los elementos de dicha representación de modo que se discretizan sus
posibles valores.
- Para comunicaciones dentro de un estudio se utilizan enlaces a 50Mb/s. En este punto debemos
observar que el flujo binario resultante de la parte activa del formato 4:2:2 es de 165,9
Mb/s.; y si se aplica el factor 1:3,3 a este flujo obtenemos 50,3 Mb/s, con lo que las
transmisiones a 50 Mb/s podemos considerarlas sin pérdidas.
- Para comunicaciones vía satélite es común utilizar enlaces a 34 Mb/s, aunque a veces también
se utilizan 50Mb/s.
4
Compresión de la información de vídeo
- En los casos de distribución de la señal vía radio, se aplican factores de compresión más
grandes según el canal disponible. Por ejemplo, en los satélites de distribución lo normal
es utilizar un factor de compresión que permite enviar de 4 a 7 canales digitales en el
mismo ancho de banda que ocuparía uno analógico.
5
Vídeo Digital
6
Compresión de la información de vídeo
Una técnica de compresión que se puede usar, tanto para eliminar la redundancia
temporal, como la espacial, es la codificación diferencial de pulsos modulados (DPCM). La
DPCM codifica el valor de diferencia de una muestra con respecto a la anterior. Si codificásemos
el valor absoluto de cada muestra necesitaríamos palabras binarias más largas, ya que los valores
absolutos de las muestras serán mucho mayores que la diferencia entre una muestra y la anterior.
Los histogramas de la figura 3 muestran el número de ocurrencias para cada valor de los
píxeles en una imagen con codificaciones PCM y DPCM. Con codificación PCM, imagen
izquierda, se deben procesar todos los valores comprendidos entre 10 y 200; mientras que en
DPCM, imagen derecha, sólo tiene que codificar valores comprendidos entre +20 y -20,
consiguiendo por tanto una reducción importante de bits.
Existen variantes de este método, que tratan de reducir al máximo los errores a transmitir,
efectuando las predicciones en base a un conjunto de píxeles significativos.
En este método, antes de aplicar los códigos de longitud variable, el codificador deberá
analizar estadísticamente los datos que le llegan, para aplicar después la codificación óptima a
cada valor.
7
Vídeo Digital
b)- Se escogen los dos códigos (o grupos) que tengan menor número de apariciones, y se les
asigna a cada uno de ellos el bit 0 o 1, y se asocian como si fueran las ramas de un árbol.
c)- Se quitan los dos códigos (o grupos) anteriores y se abre un nuevo grupo cuyo valor de
apariciones sea la suma de estos.
f)- Para asignar a cada símbolo un código, se recorre el árbol desde el tronco principal hasta las
ramas en las que está cada símbolo, obteniendo su código Huffman para la aplicación
concreta que se ha estudiado.
Es obvio que los mismos símbolos pueden tener distintos códigos Huffman dependiendo
de la aplicación que se trate; ya que en distintas aplicaciones, las probabilidades de aparición de
los símbolos puede ser diferente.
Otro aspecto que hemos de tener en cuenta, es que nuestro ojo atiende más a las grandes
superficies, por tanto a las bajas frecuencias, que a los detalles pequeños que generarán valores
8
Compresión de la información de vídeo
9
Vídeo Digital
(2n1) π u
f[n] | u cos
2N
En esta expresión, el valor de N es, en general, conocido para cada aplicación. Por
ejemplo, para aplicaciones de video, el valor más usual es N=8. A partir de estas funciones base,
el valor de cada C[ui] se calcularía según la siguiente expresión
n0
Si se representan
gráfi c a m e n t e l o s valores
resultantes de calcular las
funciones base para cada valor de
“u” con un tamaño de secuencia de
N=8, los resultados pueden verse
en la figura 4.
10
Compresión de la información de vídeo
producto escalar entre dos vectores, si fijamos uno de ellos, como es el caso de cada función base,
el producto escalar con cualquier vector x[n], nos da un resultado proporcional a la componente
que tiene el vector x[n] en la dirección de cada función base f[n]. Así pues, este producto será
mayor cuanto más paralelos sean ambos vectores.
Según esto anterior, el coeficiente C[0] dará una referencia del nivel de continua
(frecuencia f=0) de x[n]. Asimismo, el producto escalar de dicha secuencia x[n] por la función
base f[n]|1 resultará un C[1] mayor, cuanto más se parezcan la secuencia x[n] al vector f[n]|1; es
decir, C[1] será proporcional al contenido de frecuencia f=1/16 de la secuencia. Sucesivamente,
C[2] será proporcional al contenido de la secuencia en la frecuencia f=2/16, etc...
Así pues, mediante la DCT se consigue transformar una secuencia x[n] en otra, C[u] que
indica su distribución espectral
Dada una secuencia bidimensional x[m, n] formada por una matriz de valores en la que
“m” adopta los valores del conjunto (0, ... M-1) y n adopta los valores entre 0 y N-1, su DCT se
define como sigue.
De la misma manera que antes, las variables “u” y “v” de salida adoptan los valores
comprendidos entre 0 y M-1, y entre 0 y N-1 respectivamente; de manera que la DCT resulta ser
también una matriz de tamaño MxN.
Los parámetros α(u) y β(v) tiene dos valores posibles, que son estos:
1 2
α(u) | u0 α(u) | u0
M M
11
Vídeo Digital
1 2
β(u) | u0 β(u) | u0
N N
Los M x N valores C[u, v], obtenidos al aplicar esta transformada a la secuencia de MxN
valores x[m, n], se denominan “coeficientes” de dicha secuencia.
Si se representan con
niveles de gris los valores
resultantes de calcular las
funciones base para cada par de
valores (u, v) con un tamaño de
secuencia de M=N=8, los
resultados pueden verse en la
figura 5. Los cuadros en blanco Figura 5. Representación gráfica de las funciones base de
la DCT bidimensional.
12
Compresión de la información de vídeo
El valor de los coeficientes más a la derecha aumentará a medida que aparezcan en él más
contenidos de altas frecuencias horizontales (incremento de perfiles verticales abruptos). En
sentido vertical, los coeficientes se comportan de manera similar.
Es evidente, que estas situaciones extremas no serán habituales, sino que los coeficientes
frecuenciales estarán distribuidos en función del contenido de la imagen, si bien es cierto que
estos coeficientes, por la propia naturaleza de las imágenes, tendrán una tendencia muy clara,
como vamos a ver.
De forma general, en las imágenes con poco detalle o normales en detalle, casi todos los
coeficientes que son distintos de cero se agruparán en la esquina superior izquierda de la matriz
de coeficientes. Esta característica de la DCT la trataremos en las propiedades que se detallan en
el siguiente apartado.
13
Vídeo Digital
a)- Una de las propiedades más importantes y que se puede comprobar directamente de la
definición es la de “separabilidad”. En este caso. la separabilidad quiere decir que una
DCT bidimensional se puede expresar como un conjunto de varias DCTs
unidimensionales.
b)- La DCT presenta también la propiedad de una gran compactación de la información en los
coeficientes de menor orden, de tal manera que los de orden superior tienen un valor nulo
o caso nulo, salvo en el caso de imágenes que presenten una anormalmente alta variación
espacial.
c)- Los coeficientes resultado de la DCT presentan entre sí una muy pequeña correlación. Esta
propiedad es especialmente importante en aplicaciones de compresión de imágenes, ya
que de esta forma será posible dar a los coeficientes tratamientos totalmente diferentes
dependiendo del lugar que ocupen dentro de la matriz de coeficientes.
d)- La transformada de Fourier es una transformada compleja, con parte real y parte imaginaria,
lo que complicado el trabajo con ella. Sin embargo la DCT es una transformada real; sus
resultados son muestras de la función coseno, y esto simplifica mucho su manejo.
e)- Si en la transformada de una imagen se suprimen los coeficientes de mayor orden, al volver
a calcular la transformada inversa, se obtiene una muy buena aproximación de la imagen
inicial.
14
Compresión de la información de vídeo
Este hecho, surge por la propia información contenida en las imágenes, pero existe otra
razón por la que podemos decir que la información de alta frecuencia, que de por sí es poca,
puede despreciarse. Esta razón aparece por la forma en que el sistema visual humano atiende a
las imágenes. De toda una imagen, el sistema visual presta atención a un objeto o conjunto de
objetos concretos, considerando lo demás como fondo que carece de importancia. Por lo general,
15
Vídeo Digital
los objetos a los que hay que atender se representan en primer plano, con lo que el contenido de
bajas frecuencias es todavía más importante que el de altas frecuencias. La mayor parte de los
contenidos de alta frecuencia quedan en el fondo, y su eliminación apenas resta información real
a la imagen.
16
Compresión de la información de vídeo
Esta cuantificación va a hacer que algunos coeficientes que antes eran cercanos a cero,
al redondear se vayan a cero, y otros que no se vayan a cero, puede hacerse que se codifiquen con
menor número de bits, y así se consigue un mayor nivel de compresión. De esta manera se
consigue un mayor nivel de compresión. Existe toda un colección de matrices de cuantificación
establecidas que minimizan la degradación subjetiva de la calidad. La matriz de cuantificación
por defecto aplicada a los algoritmos JPEG aparece en la siguiente expresión.
16 11 10 16 24 40 51 61
12 12 14 19 26 58 60 55
14 13 16 24 40 57 69 56
14 17 22 29 51 87 80 62
JPEG
18 22 37 56 68 109 103 77
24 35 55 64 81 104 113 92
49 64 78 87 103 121 120 101
72 92 95 98 112 100 103 99
26 3 6 2 2 1 0 0
1 2 4 0 0 0 0 0
3 1 5 1 1 0 0 0
4 1 2 0 0 0 0 0
round(C[u,v]/JPEG)
1 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
17
Vídeo Digital
Existirá un número grande también de coeficientes que no llegarán a ser cero, pero cuya
codificación Huffman de longitud variable (VLC), vista en apartados anteriores, permite su
codificación con pocos bits.
La norma JPEG es una norma bastante abierta, ya que permite un grado de compresión
variable en función de las necesidades, suprimiendo los coeficientes frecuenciales necesarios
hasta conseguir el grado de compresión requerido.
18
Compresión de la información de vídeo
Con este panorama, las compañías fabricantes de equipos de edición no-lineal se vieron
en la necesidad de sacar al mercado sus equipos sin que los organismos competentes hubieran
desarrollado una norma. En realidad la técnica MJPEG, es un sistema de compresión JPEG
aplicado sucesivamente a todas las imágenes.
En esta figura aparecen en la esquina superior derecha dos bloques que analizamos a
continuación. En el caso de querer transmitir la información de vídeo por un canal con tasa
binaria constante, la compresión definida de esta manera produce diferentes niveles de
compresión dependiendo del contenido del bloque 8x8 a procesar. Un bloque de color uniforme
se codificará únicamente mediante su coeficiente DC y un bloque con distinto contenido
necesitará más coeficientes para representarlo. Esto hace imprevisible la velocidad a la que puede
enviarse la información comprimida.
Para solucionar esto, los sistemas de codificación y transmisión disponen de una cola, o
un “buffer”, de salida y un bucle de control de flujo binario que va cambiando la matriz de
cuantificación, y con ello la compresión conseguida en función de las necesidades de cada
momento. Si la cola de salida está muy llena, el bloque de control de flujo actúa sobre la matriz
de cuantificación aumentando los escalones. Este aumento provocará un aumento en la
compresión, y por tanto, una disminución de la entrada de datos a la cola. En el caso en que la
19
Vídeo Digital
cola se esté vaciando, el bloque de control de flujo disminuye el tamaño del escalón,
disminuyendo temporalmente la compresión.
20
Compresión de la información de vídeo
Los métodos MPEG de compresión pretenden ser lo suficientemente flexibles para poder
satisfacer las necesidades de todos esos usuarios potenciales. Para cada uno de ellos, se ha creado
un único método normalizado de compresión que asegura una forma de trabajo única, pero que
permite manejar distintos niveles de calidad y distintos factores de compresión, de manera que
se ajuste fácilmente a los requerimientos de utilización de cada servicio (coste, resolución,
velocidad binaria, ...).
Lo que cada uno de estos estándar intenta es ofrecer un mismo núcleo básico
parametrizable para cada una de las aplicaciones. El utilizar este mismo núcleo básico supone un
abaratamiento en los equipos de compresión y descompresión, debido a su amplia utilización.
El primer estándar que se desarrolló fue el MPEG-1, que apareció hacia 1988. Este
estándar nació con la idea inicial de reducir el flujo binario al nivel utilizado por los soportes de
audio CD, del cual derivó el CD-ROM, para almacenar en este soporte, imágenes en movimiento
con un flujo binario de 1,5Mb/s. De hecho, este estándar opera bien en el rango de flujos binarios
de 1,5 a 3 Mb/s.
Existió un formato MPEG-3 orientado a la televisión de alta definición, pero sus avances
se incorporaron posteriormente al estándar MPEG-2, no teniendo mayor relevancia.
21
Vídeo Digital
defectos temporales y espaciales son abundantes como corresponde a los bajos flujos binarios de
transmisión, pero se atenúan controlando el movimiento de los objetos.
La filosofía de MPEG-4 cambia con respecto al resto de los estándares anteriores, ya que
introduce el concepto de codificación de objetos, es decir, las imágenes se segmentan en objetos
y es la información de los mismos la que se transmite. El estándar no fija como se deben obtener
los objetos, estimar su movimiento, etc. Los algoritmos serán elegidos por cada diseñador; la
norma sólo fija cómo guardar la información de dichos objetos.
El grupo MPEG-7 no está implicado en temas de compresión, sino en los metadatos. Este
trabajo incluye la preparación de normas sobre los contenidos audiovisuales, como por ejemplo
llegar a la localización de las escenas en que aparecen ciertos personajes. Con ello se conseguiría
un acceso detalladísimo a todo tipo de contenidos del material audiovisual. Su aplicación está en
los archivos, en la edición y montaje, en la redacción periodística, etc.
22
Compresión de la información de vídeo
23
Vídeo Digital
El codificador compara los resultados y toma las decisiones sobre el bloque idéntico o
bien sobre el más aproximado. Si la diferencia es mayor que la cifra establecida, abandonará la
búsqueda presumiendo que el bloque no se encuentra ya en la imagen, y codificará el mismo con
codificación espacial.
3.6.3. Imágenes I, P y B
La mayor compresión de los sistemas MPEG-1 y 2 no radica en la DCT y su mayor o
menor cuantificación. La mayor potencia de estos algoritmos MPEG está en tres modos de
compresión de las imágenes. Estos modos de compresión dan lugar a lo que llamamos imágenes
I, imágenes P e imágenes B.
Las imágenes I son las que más información contienen, y por tanto las que menos
compresión aportan. Las imágenes I, siempre inician una secuencia y sirven de referencia a las
imágenes P y B siguientes.
La compresión intracuadro de las imágenes I coincide con el método JPEG para imágenes
estáticas. Aquí se busca la redundancia de la imagen dentro del cuadro que se está procesando.
24
Compresión de la información de vídeo
En el ejemplo de la figura 8, se
muestra, en primer lugar una escena de
la que se realizará una panorámica. En la
parte inferior aparecen tres fotogramas
de esa panorámica nombrados como F1,
Figura 8. Fotogramas I, P y B.
F2 y F3. En la explicación siguiente
vamos a suponer que la imagen F1 se codifica como imagen I, el fotograma F2 se codifica como
B, y el fotograma F3 se codifica como P.
25
Vídeo Digital
Dentro de un GOP, el flujo natural de las imágenes que se representan suele ser éste.
I B B P B B P B B P B B I ...
Sin embargo, para la transmisión es preciso cambiar el orden de los fotogramas. Esto es
porque, en recepción, para decodificar cada imagen B es necesario antes haber decodificado la
imagen I o P anterior y la posterior. De esta manera, el orden de transmisión se ve alterado
adelantando las imágenes P posteriores , o lo que es lo mismo retrasando las imágenes B hasta
enviar la imagen I o P posterior; quedando el flujo de imágenes de esta forma:
I P B B P B B P B B I B B ...
26
Compresión de la información de vídeo
27
Vídeo Digital
28
Compresión de la información de vídeo
Los Bloques son cuadrados de 64 píxeles (8x8), y son la unidad de proceso de la DCT.
29
Vídeo Digital
exploración entrelazada, las diferencias en cuanto a contenido entre los campos pueden ser muy
importantes, así que será conveniente procesar por separado cada campo.
Los GOP (group of pictures) son grupos de imágenes, acotados por dos imágenes de tipo
intracuadro. Normalmente constan de 12 fotogramas y constituyen la unidad de compresión
temporal. El GOP es el mínimo elemento capaz de contener por sí solo toda la información
necesaria para su descompresión, ya que como hemos visto algunos tipos de imágenes necesitan
de otras para su total descompresión.
Una secuencia consta de varios GOPs, indicando los datos de la cabecera, la relación de
aspecto, el flujo binario, y otros datos relacionados con el programa al que pertenecen.
Esta flexibilidad es posible mediante la definición de diferentes niveles y perfiles que son
capaces de conseguir un modo de compresión adaptado a las necesidades de cada aplicación.
3.6.7.1. Niveles
El nivel define la resolución de las imágenes en base al número de píxeles y líneas a
codificar. El número de cuadros por segundo se define siempre por la señal original antes de
comprimir. Esta resolución va desde la más baja resolución SIF (2:1:0) correspondiente a MPEG-
1, hasta la televisión de alta definición con 1920x1152 píxeles.
30
Compresión de la información de vídeo
Sólo se codifican las muestras activas indicadas. Las señales originales tendrán muestras
activas y no activas. Las no activas no son codificadas por MPEG-2, y serán regeneradas con
nivel de borrado en el decodificador. Puede que el número de muestras activas no coincida con
la resolución de cada nivel. Para que esto sea posible, uno de los datos de sistema que deben
conocerse es el tamaño de imagen digital original.
Es evidente que cada nivel usado dará lugar a un régimen binario diferente. De cara a la
construcción de los codificadores, no es necesario que todos ellos sean capaces de codificar a
todos los niveles sino que existirán codificadores específicos para cada nivel. En este sentido, es
importante saber que un codificador MPEG-2 que codifique en un nivel también lo haga en
niveles inferiores.
3.6.7.2. Perfiles
Los perfiles, en cambio, definen un valor de compromiso entre compresión y coste del
decodificador, y además hacen posible la escalabilidad de la corriente de datos. El conseguir una
mayor compresión sin perder calidad va a implicar una complicación, tanto en el codificador,
como en el decodificador, y esta complicación llevará consigo un mayor coste de ambos. En
MPEG-2 se definen los perfiles siguientes.
Perfil principal (main).- Mejor compromiso entre factor de compresión y calidad. Utiliza
imágenes I, P y B. El decodificador y el decodificador son más complejos que el anterior. Todas
las imágenes se transmiten en formato 4:2:0.
Perfil 4:2:2.- Este perfil es el que habitualmente se utiliza en producción. Puede manejar
imágenes tipo I, P y B. El muestreo es 4:2:2 aunque puede reducirse al 4:2:0. Sólo se utiliza con
el “nivel principal”, incrementando el número de píxeles y líneas activas respecto de dicho nivel
a 720 muestras activas y 608 líneas por cuadro para sistemas 625/50 y 512 para sistemas 525/60.
Como en producción habitualmente se necesita acceso a fotogramas concretos para edición,
utiliza GOPs muy pequeños, de tamaño 2 como IBIBIB o 3 por ejemplo IPBIPBIPB.
Evidentemente, se requiere la presencia de muchas imágenes I con el fin de poder referenciar
constantemente cuadros completos. Este perfil opera con flujos entre 20 y 50 Mb/s y admite
generaciones múltiples de compresión y descompresión
31
Vídeo Digital
Para la televisión digital europea, existe un gran interés en las aplicaciones de los perfiles
jerárquicos. El perfil de escalabilidad espacial que permite dividir los datos de acuerdo con la
resolución y también con la relación SNR, se puede crear una señal compuesta por tres elementos
que conjuntamente darán lugar a una señal de alta definición. De las tres partes de la señal, la
capa de base utilizaría jerarquía espacial para proporcionar una señal de 625 líneas. El resto de
la señal se puede dividir aplicando el criterio de relación SNR, creando así una segunda señal que
junto con la capa base proporcionaría una señal de alta definición con un formato 4/3 y una
relación señal-ruido reducida. El tercer elemento de la señal, conjuntamente con los otros dos,
daría una señal con el formato 16/9 de alta definición
Perfil alto (high).- Está previsto para aplicaciones en HDTV. Se utilizan imágenes tipo
I, P y B, y el muestreo puede ser 4:2:2 o 4:2:0. La transmisión es escalable tanto en SNR como
espacialmente.
32
Compresión de la información de vídeo
Entre estos perfiles existe compatibilidad ascendente; los decodificadores de perfil más
alto son capaces de soportar perfiles más bajos. La combinación de niveles y perfiles produce una
arquitectura que define la capacidad de un codificador para manejar determinado flujo binario.
Los niveles y perfiles utilizados en Europa y América a nivel doméstico son el nivel principal y
el perfil principal. El flujo binario oscila entre 5 y 9 Mb/s.
ALTO
1920 Píxeles 80 Mb/s 100 Mb/s
1152 Líneas
ALTO -1440
1440 Píxeles 60 Mb/s 60 Mb/s 80 Mb/s
1152 Líneas
PRINCIPAL 50 Mb/s
720 Píxeles 15 Mb/s 15 Mb/s 15 Mb/s 20 Mb/s
576 Líneas 720x608
BAJO
352 Píxeles 4 Mb/s 4 Mb/s
288 Líneas
Estos paquetes de video y de audio, así como de otros datos de un mismo programa pasan
posteriormente a un multiplexor donde se conforma un solo tren binario. Para esta multiplexión
existen dos posibilidades: la conformación de una “corriente de programa” (PS - Program
Stream) y la conformación de una “corriente de transporte” (TS - Transport Stream).
33
Vídeo Digital
La corriente de programa es una multiplexión simple intercalando los PES unos con otros. Esta
opción se aplica en canales libres de ruido, como por ejemplo la grabación de un DVD, y de otros
soportes multimedia. Como no se espera ruido en el canal, no es necesario usar corrección de
errores. Este sistema conlleva una gran simplicidad. No obstante una corriente de programa puede
acomodar hasta 16 corrientes de vídeo y 32 de audio. Lo que sí es obligatorio en las corrientes
de programa es que todas las corriente sean sincrónicas, es decir que tengan una base de tiempos
común.
La corriente de transporte es apropiada para entornos ruidosos, opción que encaja en las
necesidades de la difusión de televisión terrestre, por cable y vía satélite. Esta opción exige pasar
los PES a otros paquetes más cortos, de 188 bytes de longitud, y aplicar técnicas de corrección
de errores. Con esto se puede organizar una corriente de transporte de un sólo programa (SPTS -
Single Program Transport Stream). Esta longitud de paquetes incluye 4 bytes de cabecera y es
apropiada para utilizarse en redes ATM, así como en una amplia variedad de sistemas de
transmisión y almacenamiento.
La corriente de transporte puede formarse con varios programas de televisión, cada uno
de ellos con varias corrientes elementales. Como es lógico las corrientes elementales que forman
un mismo programa de televisión deben ser sincrónicas. Sin embargo, los diferentes programas
pueden tener cada uno una sincronización independiente. En este caso, se organiza un múltiplex
con todos los programas. El flujo binario de la corriente de transporte completa es constante, aun
cuando varíen los flujos de cada corriente elemental. Para mantener este flujo total constante, se
pueden incluir paquetes nulos.
34
Compresión de la información de vídeo
35
Vídeo Digital
Sin embargo, salvo que el proceso se limite al uso de imágenes codificadas sin predicción,
las operaciones de inserción y borrado son difícilmente realizables directamente sobre la señal
comprimida, lo que es una limitación crítica en las aplicaciones de vídeo. MPEG-2 con imágenes
exclusivamente de tipo I puede tener alguna ventaja sobre JPEG debido a la posibilidad de
seleccionar la cuantificación para una misma imagen y la mayor facilidad para transmitirse como
tren de datos, ya que el formato JPEG no se refiere en ningún caso a la transmisión.
Para solucionar los problemas de alta compresión, MPEG-2 incluye un perfil de estudio,
el perfil 4:2:2, que admite regímenes binarios comprimidos de hasta 50 Mb/s. Este perfil está
teniendo gran aceptación, e incluso se empieza a utilizar en los magnetoscopios digitales. Esta
posibilidad de basa en reducir el tamaño del GOP a 2 o 3 imágenes (por ejemplo: IBIBIB,
IPBIPB, etc.) de manera que se pueda conseguir una acceso aleatorio sencillo, una compresión
moderada (3,3:1), y una calidad final muy alta.
Generalmente, los formatos de muestreo que se utilizan en ENG son el 4:1:1 y el 4:2:0.
Estos formatos de muestreo, por ser más sencillos necesitan almacenar bastante menos cantidad
de información, consiguiendose un nivel de calidad bastante aceptable. Esta reducción de la
cantidad de información a almacenar implicará un menor tamaño de las cintas, y un menor
36
Compresión de la información de vídeo
En cuanto a las grandes aplicaciones de difusión directa, ya sea por vía terrestre, vía cable
o fibra de vidrio, y vía satélite, éstas ya están estandarizadas en base al sistema MPEG-2. En el
caso de la difusión, no se necesita una alta multigeneración, ya que estamos al final de la cadena
y los únicos procesos necesarios para la representación en pantalla serán la descompresión, y su
conversión a analógico. Por ello, en difusión se permiten factores de compresión más altos.
Se estima que para conseguir calidad de estudio, según la recomendación 601, se necesita
un sistema con velocidad binaria de unos 9Mb/s. Para una calidad equivalente al PAL se
necesitan unos 5 Mb/s.
37
Vídeo Digital
3.7.5. Multimedia
La compresión de imágenes en los ordenadores tiene su justificación por la poca
capacidad de almacenamiento de los ordenadores domésticos. La escasa implantación en el
ordenador de sistemas hardware de compresión de vídeo hace que se utilicen en general
algoritmos software que permitan una alta compresión, aunque no en tiempo real. La necesidad
de multigeneración es, en general, baja.
La posible mayor calidad visual de MPEG-2 es atractiva pero requiere una mayor potencia
de procesamiento y decodificación. A falta de que se abaraten algo más las tarjetas codificadoras,
existen codificadores, no en tiempo real, por software. La progresiva introducción de la familia
de discos DVD junto con interfaces y buses más rápidos pueden mejorar las aplicaciones
multimedia basadas en ordenador de propósito general y la codificación MPEG-2.
38
Compresión de la información de vídeo
3.7.7. Videoconferencia
Las videoconferencias o los enlaces en directo, el retardo que sufre la señal que se
codifica cuando se usan imágenes B puede convertir a MPEG-2 en inútil para la comunicación
en ambos sentidos. MPEG-2 puede ser utilizado, pero sin cuadros tipo B. No obstante la
codificación que más se utiliza en la actualidad para estas aplicaciones, y que además fue
diseñada para ello es el formato MPEG-4. Éste permite la comunicación con regímenes binarios
muy bajos y con una calidad aceptable, con la sola condición de que se limite el movimiento de
los objetos en la escena a transmitir.
39
Vídeo Digital
3.9. Bibliografía
Bethencourt Machado, T. “Televisión DIgital” Colección Beta. Temas audiovisuales.
(2001)
Gavilán Estelat, E. “MPEG-2 Pieza clave de la televisión digital” Unidad Didáctica 146
IORTV.
Ortiz Berenguer, L. “TV Digital: MPEG-2 y DVB”. Servicio Publicaciones UPM. 1999.
40