Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Compresion de Video PDF
Compresion de Video PDF
= =
1
4
2 1
16
2 1
16
0
7
0
7
(6.1)
donde x e y son los ndices de los elementos de imagen en un bloque de 88, u y v los ndices de los
coeficientes de la DCT para ese bloque y:
C w para w
para w
( )
, ,...,
= =
= =
1
2
0
1 1 2 7
(6.2)
De acuerdo a lo anterior, un conjunto de 88 nmeros f(x,y) son los datos de una frmula
matemtica, cuyo resultado es otro conjunto de 88 nmeros diferentes, F(u,v). La transformada
inversa
14
(IDCT) est dada por:
f x y C u C v F u v
x u y v
v u
( , ) ( ) ( ) ( , ) cos
( )
cos
( )
=
+
= =
1
4
2 1
16
2 1
16
0
7
0
7
(6.3)
En el decodificador se aplica la transformada inversa para reconstruir, aproximadamente, los
conjuntos de nmeros transformados en el codificador. La aproximacin en la reconstruccin se
controla de antemano durante la codificacin con el fin de minimizar los efectos visuales que
resultan de las imprecisiones en los coeficientes, al mismo tiempo que se reduce la cantidad de
datos que deben transmitirse. En la figura 6.10 se muestra un diagrama de bloques de un conjunto
codificador-decodificador basado en la DCT.
En la codificacin intracuadro, la DCT se aplica a todos los datos en bruto de la imagen, sin tener
en cuenta la informacin de otros cuadros y transformando la luminancia y crominancia por
separado. Puesto que la informacin de crominancia est submuestreada horizontal y verticalmente,
cada bloque de 88 datos de crominancia (C
r
o C
b
), corresponde a un macrobloque de 1616 datos
de luminancia.
14
Es necesario que la transformada inversa (IDCT) cumpla el estndard de especificaciones del IEEE para la
implementacin de la transformada inversa del coseno discreto de 88. Std. 1180-1990, December 6, 1990.
Compresin de video
Constantino Prez Vega
19
En la codificacin intercuadro, la diferencias o errores de prediccin entre dos cuadros diferentes se
agrupan en bloques de 88 y se aplica una transformacin espacial mediante la DCT a estos
bloques de valores de diferencia.
DCT
Cuantificador
Codificador
de
entropa
Tabla de
cuantificacion
Tabla de
cdigo
Imagen fuente
Decodificador
de
entropa
Cuantificador
inverso
IDCT
Bloque
8x8
Bloque
8x8
Tabla de Tabla de
Imagen
reconstruda
cdigo
cuantificacin
Codificador
Decodificador
Imagen codificada
Imagen
codificada
Fig. 6.10. Diagrama de bloques de un conjunto codificador-decodificador
intracuadro basado en la DCT
6.11 Lazo de prediccin en el codificador
La codificacin intercuadro es ms compleja que la intracuadro ya que se trata de codificacin
predictiva que requiere de la informacin de cuadros previos y, para las imgenes B en MPEG,
tambin de cuadros futuros. Una posible forma de comprender la forma en que se combinan los
diferentes elementos algortmicos para lograr la compresin de vdeo es examinando el lazo de
prediccin que constituye la parte medular del sistema de compresin y que se muestra
esquemticamente en el diagrama de bloques de la figura 6.11.
El lazo de prediccin realiza la funcin de estimar, o predecir, los valores de la imagen del
siguiente cuadro que se codificar en la secuencia de imgenes sucesivas que constituyen un
programa de televisin. Esta prediccin se basa en informacin previa disponible en el lazo y
obtenida de imgenes anteriores. La transmisin de la informacin comprimida predicha funciona
debido a que la misma informacin empleada para la prediccin est disponible tambin en el
decodificador del receptor, asumiendo que la transmisin es sin errores.
La resta de los valores predichos de los de la nueva imagen a codificar constituye el elemento
medular de la codificacin predictiva. La meta es realizar la prediccin de manera tal que la
prediccin de los nuevos valores que resulta de la funcin de resta al inicio del lazo sea cero o muy
cercana a cero la mayor parte del tiempo. La prediccin de las diferencias se realiza separadamente
para la luminancia y para las dos componentes de crominancia antes de cualquier otro proceso
subsecuente. En la codificacin intracuadro no se efecta ninguna prediccin.
Compresin de video
20
+
+
IDCT
cuantific.
inverso
DCT cuantific. Buffer
estimad.
movmto
compens
movmto
memoria
de cuadro
+
-
Fig. 6.11. Lazo de prediccin del codificador
El hecho de utilizar cuadros pasados o futuros introduce una tercera variable en el proceso de
compresin y se puede hablar entonces de una transformacin tridimensional o cbica, que impone
requerimientos importantes en la capacidad de memoria. As para una DCT de 888 son
necesarias, por lo menos, siete memorias de cuadro y se recurre a una alternativa ms simple
designada como DCT hbrida que tambin permite la codificacin de imgenes con objetos en
movimiento de forma eficiente. Esta tcnica emplea modulacin diferencial de pulsos codificados
(DPCM) en que, en lugar de codificar cada imagen individualmente, se codifica la diferencia entre
dos cuadros sucesivos, compensada en movimiento. La DPCM es, esencialmente una forma de
codificacin predictiva de las diferencias entre muestras y puede aplicarse en codificacin
intercuadro aprovechando la redundancia temporal entre la imagen de entrada al codificador y la
imagen almacenada. Tambin, puede aplicarse a la codificacin intracuadro aprovechando la
redundancia espacial de la imagen.
En el modo intracuadro, las diferencias se calculan utilizando los valores de dos elementos de
imagen adyacentes en el mismo cuadro. En el modo intercuadro la diferencia se calcula utilizando
la diferencia entre los valores del mismo elemento de imagen en cuadros sucesivos. En ambos
modos de operacin el valor del elemento de imagen resultante se predice utilizando los valores
reconstruidos de los elementos de imagen vecinos, previamente codificados y este valor se resta
luego del valor original para formar el valor del elemento correspondiente en la imagen diferencial.
6.11.1 Cuantificador
La informacin de un bloque de elementos de imagen se transforma mediante la DCT en un nuevo
conjunto de coeficientes espectrales del bloque o de las diferencias entre bloques. Una vez
realizada esta transformacin el codificador puede ajustar selectivamente la precisin de los
coeficientes transformados, representando los de los componentes espectrales de alta frecuencia
espacial con menor precisin que los de baja frecuencia, ya que la resolucin de la visin humana
es inferior para las altas frecuencias espaciales. Este proceso recibe tambin el nombre de
cuantificacin y no debe confundirse con la cuantificacin que se realiza en un conversor
analgico-digital. Los coeficientes de la DCT se cuantifican dividindolos entre un nmero entero
positivo designado como valor de cuantificacin y redondeando el cociente al entero ms cercano.
Esta operacin se ilustra esquemticamente en la figura 6.12. La divisin se realiza no en forma
matricial, sino dividiendo cada elemento de la matriz transformada por el elemento correspondiente
de la matriz de cuantificacin.
Compresin de video
Constantino Prez Vega
21
Matriz
transformada
:
Matriz de
coeficientes
perceptuales =
Matriz cuantificada
perceptualmente
Matriz
transformada
:
Matriz de
coeficientes
perceptuales =
Matriz cuantificada
perceptualmente
Fig. 6.12. Cuantificacin
Cuanto mayores sean los valores de los elementos de la matriz de cuantificacin o coeficientes
perceptuales, menor ser la precisin del coeficiente DCT cuantificado. Esta cuantificacin, segn
se mencion, est ponderada en trminos de la respuesta visual humana y pueden ser, por ejemplo
para codificacin intracuadro, los mostrados a continuacin, nicamente a fin dar una idea, no son
nicos posibles dependiendo del codificador.
Los coeficientes aplicados a los bloques de crominancia suelen ser mayores, lo que da como
resultado menor resolucin, de nuevo como consecuencia de las caractersticas de la visin humana
en la percepcin cromtica. La tabla aplicada en el caso de codificacin intercuadro es plana, con
un valor fijo de 16 para todos los coeficientes. La razn de ello es que, en el caso intercuadro, lo
que se codifica son cambios diferenciales entre dos imgenes.
El nivel de degradacin subjetiva de la imagen causado por la cuantificacin de los coeficientes
tiende a depender de la naturaleza de la imagen codificada, ya que para una imagen dada las
distorsiones en algunas zonas pueden ser menos notorias que en otras. El sistema de codificacin
de vdeo permite ajustar el nivel de cuantificacin para cada macrobloque a fin de reducir en lo
posible el nmero de bits, empleando cuantificacin ms basta. As, los coeficientes
perceptualmente importantes, los de baja frecuencia, pueden cuantificarse con un grado ms fino
que los de alta frecuencia. La forma ms simple de hacerlo es mediante una ponderacin de los
coeficientes basndose en su importancia visual, que se refleja en los valores de la matriz anterior.
6.11.2 Cuantificacin adaptativa
La sintaxis de codificacin de vdeo permite especificar las matrices de cuantificacin para cada
imagen con el fin de lograr mayor eficiencia en la codificacin, por lo que a los cdigos de longitud
variable (VLC) de los coeficientes cuantificados se les asocia una cierta funcin de distribucin de
probabilidad. Aunque no es posible cambiar la distribucin del cdigo de longitud variable para
ajustarse a la distribucin real de los datos, las matrices del cuantificador pueden modificarse para
8 16 19 22 26 27 29 34
16 16 22 24 27 29 34 37
19 22 26 27 29 34 34 38
22 22 26 27 29 34 37 40
22 26 27 29 32 35 40 48
26 27 29 32 35 40 48 58
26 27 29 34 38 46 56 69
27 29 35 38 46 56 69 83
Compresin de video
22
aproximar el ajuste de la distribucin de los datos a la distribucin del VLC. Durante la
codificacin de los datos de un cuadro puede calcularse la varianza en cada banda de frecuencia
espacial tanto para datos intracuadro como intercuadro, lo que proporciona un mtodo para elegir
los valores de las matrices del cuantificador aplicando lmites superiores e inferiores por banda, a
fin de asegurar un funcionamiento razonable en todos los casos.
La transmisin de las matrices de cuantificacin consume bits del caudal binario comprimido que,
si se transmiten con cada imagen pueden representar del orden del 0.3% del ancho de banda del
canal. Aunque esta cifra es modesta, puede reducirse actualizando la matriz del cuantificador con
menos frecuencia, o bien, cuando la diferencia entre la matriz deseada en el cuantificador y la que
est siendo ms recientemente utilizada se vuelve significativa.
6.12 Codificacin por entropa
Un efecto importante de la cuantificacin de los coeficientes transformados, es que muchos de ellos
sern redondeados a cero despus de la cuantificacin. De hecho, un mtodo inicial de controlar el
caudal de datos codificados es controlar el nivel de resolucin (pasos de cuantificacin), ya que una
cuantificacin con menor resolucin aumenta el nmero de coeficientes con valor cero. A los
valores cuantificados o a grupos de ellos, se les asignan palabras de cdigo para generar el caudal
binario de salida.
Hipotticamente, los valores cuantificados podran representarse simplemente utilizando palabras
de cdigo con longitud fija o uniforme; con este enfoque, cada valor cuantificado estara
representado con el mismo nmero de bits. Sin embargo, puede obtenerse mayor eficiencia en
trminos de caudal binario utilizando codificacin por entropa, mediante la cual se aprovechan las
propiedades estadsticas de la seal a codificar. Una seal, ya sea el valor que representa a la
luminancia de un elemento o bien un coeficiente transformado, tiene una cierta cantidad de
informacin o entropa, de acuerdo a la probabilidad de que ocurran los diferentes valores o
eventos posibles. Por ejemplo, un evento que ocurre con poca frecuencia contiene mucha ms
informacin que otro que ocurre frecuentemente. Si se tiene en cuenta este hecho el caudal binario
promedio puede reducirse de manera apreciable.
Uno de los esquemas ms comunes de codificacin por entropa es el cdigo de Huffman, en el que
es posible generar una tabla de cdigo que se aproxime a la longitud promedio de descripcin de
los eventos cuando se conoce la distribucin de probabilidad de stos. A los eventos con mayor
probabilidad de ocurrencia se les asignan palabras de cdigo ms cortas, en tanto que los eventos
menos probables se expresan con palabras de mayor longitud.
Segn se mencion, en la codificacin de vdeo la mayora de los coeficientes cuantificados en la
regin de alta frecuencia espacial tendrn valor cero, quiz con unos pocos coeficientes, por lo
general dispersos, cuyo valor sea diferente de cero. Para aprovechar esta propiedad, se modifica la
matriz de los coeficientes transformados en forma de una secuencia o vector unidimensional,
mediante un proceso de barrido de los coeficientes de la matriz que puede ser en zigzag, en la
forma indicada en la figura 6.13. El tipo de barrido puede ser tambin de otras formas alternadas,
pero debe especificarse antes de codificar cada imagen y puede variar de cuadro a cuadro.
Compresin de video
Constantino Prez Vega
23
frecuencia horizontal
frecuencia
vertical
frecuencia horizontal
frecuencia
vertical
Fig 6.13. Recorridos en zigzag de los coeficientes
El barrido de los coeficientes en esta forma da lugar a que los coeficientes ms importantes,
diferentes de cero, queden agrupados al inicio de la secuencia y a continuacin de ellos, habr
cadenas ms o menos largas de ceros que pueden representarse con mayor eficiencia mediante
codificacin de recorrido (runlength coding). Con esta forma de codificacin el nmero de ceros
consecutivos que preceden a un coeficiente diferente de cero puede codificarse por entropa, ya sea
de forma separada o conjuntamente con el valor distinto a cero. El recorrido de la matriz en esta
forma separa la mayora de los coeficientes cero de los distintos de cero en grupos, mejorando la
eficiencia de la codificacin de recorrido. Se emplea un carcter especial de fin de bloque (EOB)
para indicar el caso en que todos los coeficientes restantes del vector son cero, con lo que se
aumenta la eficiencia y se consigue un grado importante de compresin.
6.13 Buffer de canal
Al codificar por entropa, el caudal de salida del codificador es variable y funcin de la estadstica
de la seal de vdeo. Puesto que el caudal binario permitido a la entrada del canal de transmisin es
menor que el valor de pico del caudal generado por el codificador de longitud variable, es necesario
un buffer de canal en el codificador en el que se requiere, adems, asegurar que no ocurra
contencin (underflow) ni desbordamiento (overflow).
El control del buffer obliga a un mecanismo de realimentacin en el algoritmo de compresin
mediante el cual es posible variar tanto la resolucin de la cuantificacin, como las resoluciones
espacial, temporal y de color, de acuerdo con las necesidades instantneas del caudal binario. Si
ste disminuye considerablemente, puede efectuarse una cuantificacin ms fina para aumentarlo.
Si aumenta, se reduce la resolucin de la cuantificacin.
El valor de pico del caudal binario a la salida del codificador de longitud variable fluctuar
considerablemente y con frecuencia, exceder el ancho de banda mximo asignado al canal de
transmisin, aunque el valor medio del caudal no puede, por definicin, exceder el valor pico del
ancho de banda. Esta situacin se maneja por el buffer de canal en cada codificador, que constituye
el almacn temporal del caudal binario codificado. El estndard de televisin digital americano
especifica una capacidad de 8 Mbits para el buffer de canal.
Compresin de video
24
En el sistema de codificacin se define un buffer modelo como referencia para los fabricantes de
codificadores y decodificadores, a fin de garantizar la interoperabilidad entre equipos de diferente
manufactura. El codificador debe controlar su produccin de bits de modo tal que el buffer modelo
no se vea contenido ni desbordado.
Para evitar la contencin o desbordamiento del buffer de canal, el codificador debe ser capaz de
tomar medidas adecuadas en funcin de la ocupacin del buffer y de la complejidad de la imagen.
Cuando el codificador necesita reducir el caudal binario, puede hacerlo aumentando el nivel de
cuantificacin, lo que producir degradacin en la imagen. Por el contrario, cuando es posible
aumentar el caudal binario, el nivel de cuantificacin se reduce y la degradacin de la imagen es
menor. En realidad, la contencin del buffer es permisible en el caso de caudales de pequeo
retardo que no tengan cuadros B. En esta situacin, la contencin puede ocurrir con imgenes muy
complejas que requieren un nmero particularmente grande de bits para su codificacin. El
resultado de la contencin es la repeticin de una o ms imgenes, que se presentan en lugar de las
imgenes omitidas o saltadas en el codificador.
6.14 Concatenacin de secuencias
Una secuencia codificada de vdeo comienza con un encabezado o header y puede contener alguna
secuencia repetida de encabezados y una o ms imgenes codificadas. La secuencia se termina
mediante un cdigo de fin de secuencia. En el encabezado de la secuencia se especifican varios
parmetros que deben mantenerse constantes mientras dura la secuencia. Estos parmetros de nivel
de secuencia incluyen, entre otros, los siguientes:
Resolucin horizontal y vertical.
Frecuencia de cuadro
Relacin de aspecto
Formato de croma
Nivel y perfil
Indicador de barrido (entrelazado o progresivo)
Verificador de tamao del buffer
Mximo caudal binario
Se contempla el hecho de que con frecuencia, ser necesario cortar caudales binarios con fines de
edicin, insercin de anuncios y otros fines habituales, tanto en la produccin de programas como
en la cadena de distribucin. Si uno o ms parmetros de nivel son diferentes para los dos caudales
binarios (el que se corta y el que se pretende insertar), es necesario insertar un cdigo de fin de
secuencia para cortar el primer caudal y debe existir un nuevo encabezado de secuencia al principio
del segundo caudal. Esta situacin se conoce como concatenacin de secuencias.
En tanto que el estndar MPEG-2 especifica el comportamiento de los decodificadores de vdeo en
el caso de procesar una sola secuencia, no impone ningn requisito para el manejo de secuencias
concatenadas. La especificacin de la decodificacin en el primer caso es factible porque el
estndar MPEG-2 impone restricciones a la formacin y codificacin de secuencias individuales
que prohiben el desbordamiento del buffer de canal y la codificacin de la misma paridad de campo
para dos campos consecutivos. El estndar MPEG no prohibe estas situaciones en la unin entre
dos secuencias codificadas y por tanto, no especifica el comportamiento del decodificador en este
caso.
Compresin de video
Constantino Prez Vega
25
En el estndar de televisin digital americano se recomienda, pero no se impone, la produccin de
secuencias concatenadas bien constreidas. Las secuencias concatenadas bien constreidas se
definen como las que tienen las siguientes caractersticas:
a) El buffer extendido del decodificador nunca se desborda y slo puede
contenerse en el caso de caudales binarios de pequeo retardo. El trmino
buffer extendido se refiere aqu a la extensin natural del buffer modelo del
decodificador MPEG-2, en el caso de decodificacin continua de secuencias
concatenadas.
b) Cuando se especifica la paridad de campo en dos secuencias codificadas
concatenadas, la paridad del primer campo en la segunda secuencia es opuesta a
la del ltimo campo de la primera secuencia.
c) Dondequiera que se inserte una secuencia de una imagen de barrido progresivo
entre dos de barrido entrelazado, el nmero exacto de cuadros progresivos debe
ser tal que se preserve la paridad de las secuencias entrelazadas, como si no
hubiera ocurrido concatenacin.
6.15 Compensacin de movimiento
La compensacin de movimiento es un tcnica aplicada en la compresin de las imgenes P y B,
que mejora el factor de compresin por un factor de aproximadamente 3 respecto a la codificacin
intracuadro
15
eliminando la redundancia temporal de la imagen. Si hay movimiento en la secuencia
de vdeo se consigue mejor prediccin codificando las diferencias relativas a las reas de la imagen
que se desplazan respecto a la imagen codificada. A este proceso se le designa como compensacin
de movimiento y a la determinacin de los vectores de movimiento en el codificador, se le llama
estimacin de movimiento.
Los algoritmos de compensacin de movimiento se aplican a nivel de macrobloque y, cuando se
aplica a cuadros P produce dos tipos de informacin:
a) Vectores de movimiento, que representan la diferencia entre la informacin del
cuadro de referencia y el macrobloque codificado. Los vectores de movimiento
describen la magnitud y direccin del movimiento en un macrobloque y se
transmiten al decodificador como parte del caudal binario total, de forma que el
decodificador sabe qu rea de la imagen de referencia fue utilizada para cada
prediccin. Esto se ilustra en la figura 6.14.
b) Trminos de error, que representan las diferencias entre los valores predichos y
los resultados reales.
15
Baron, S. and Wilson, W.R. MPEG Overview ITU/SMPTE Tutorial Digital Terrestrial Television Broadcasting.
Society of Motion Picture and Television Engineers (SMPTE). pp. 28-35. White Plains, NY. 1994.
Compresin de video
26
Imagen de referencia
Prediccin hacia
adelante
Imagen de referencia
Prediccin hacia atrs
Imagen actual
tiempo
Imagen de referencia
Prediccin hacia
adelante
Imagen de referencia
Prediccin hacia atrs
Imagen actual
tiempo
Fig. 6.14 Vectores de movimieto
Cuando no es posible generar una imagen P empleando compensacin de movimiento, como en el
caso en que un objeto aparezca sbitamente en una escena, el macrobloque se codifica de la misma
forma que en los cuadros I, es decir, con tcnicas intracuadro.
La codificacin de la compensacin de movimiento en los cuadros B puede hacerse utilizando
imgenes de referencia tanto previas como futuras y puede dar lugar a cuatro posibles tipos de
codificacin:
a) Intracuadro, en que no se tiene compensacin de movimiento.
b) Prediccin hacia adelante, en que el cuadro previo I o P ms cercano sirve de
referencia.
c) Prediccin hacia atrs, en que el cuadro futuro I o P ms cercano sirve de
referencia.
d) Prediccin bidireccional, en la que se usan dos imgenes de referencia, la previa
I o P ms prxima y la futura I o P tambin ms prxima.
La prediccin hacia atrs puede emplearse para definir reas cubiertas que no aparezcan en
imgenes previas.
6.16 Decodificador de vdeo
El decodificador de vdeo, cuyo diagrama general de bloques se ilustra en la figura 6.15 y que no
debe confundirse con el decodificador de canal, contiene los elementos necesarios para invertir el
proceso de codificacin. El caudal binario se almacena inicialmente en un buffer de canal cuya
salida alimenta a un decodificador de longitud variable (VLD).
El decodificador de longitud variable reconstruye los bloques de 88 coeficientes cuantificados
durante la codificacin de recorrido/amplitud y los distribuye adecuadamente, de acuerdo al tipo de
barrido utilizado en la codificacin. A la salida del VLD se tienen los coeficientes de prediccin de
error cuantificados mediante la DCT. El cuantificador inverso convierte los coeficientes
cuantificados a su valor original y luego les aplica la transformada inversa del coseno discreto
(IDCT) para obtener los valores de luminancia de los elementos de imagen originales o bien los
errores de prediccin.
Compresin de video
Constantino Prez Vega
27
Fig. 6.15. Decodificador de vdeo
En el caso de prediccin intercuadro el decodificador utiliza los vectores de movimiento recibidos
para llevar a cabo la misma prediccin que realiz el codificador. Los errores de prediccin se
suman con los resultados de la prediccin de compensacin de movimiento para producir,
finalmente, los valores de luminancia de los elementos de imagen, es decir, el vdeo en
componentes, decodificado.
Aunque no se muestra explcitamente en el diagrama de bloques de la figura 6.10, cuando ocurren
errores de transmisin que no hayan podido recuperarse en el decodificador de canal, el
decodificador debe ser capaz de enmascararlos para minimizar su efecto. Una forma relativamente
simple de hacerlo es interpolar el valor del elemento errneo, asignndole un valor intermedio
entre los de los elementos de imagen previos y posteriores.
6.17 Jerarqua de codificacin en MPEG-2
El estndard MPEG-2 puede considerarse como una caja de herramientas, que permite al usuario
seleccionar diferentes tipos de codificacin, perfiles y diversos niveles de resolucin, muestreo y
complejidad de procesamiento. El estndard es escalable hasta el nivel de alta definicin e incluye
adems, provisiones para la compresin de audio multicanal. MPEG-2 fue desarrollado como un
estndard cuya capa del sistema es independiente del medio (cable, satlite, etc.) en lo que respecta
a su multiplexado y transporte. Se dice que un decodificador MPEG-2 est en conformidad con un
nivel y perfil dados, si puede decodificar adecuadamente todos los elementos sintcticos del caudal
binario segn estn especificados para ese perfil y nivel. Adicionalmente, un decodificador debe
ser compatible con todos los caudales binarios de orden inferior en la matriz. En la tabla 6.2 se
muestran los perfiles y niveles de codificacin de MPEG-2; los valores que aparecen en blanco no
han sido definidos.
+
Caudal
binario
codificado
Buffer
de
canal
VL
Cuantific
inverso
IDCT
Compens
de
movimnto
Memoria
de
cuadros
+
Vdeo digital
decodificado
Compresin de video
28
Perfiles
Niveles
Simple
I,P
4:2:0
Principal
I,P,B
4:2:0
SNR
I,P,B
4:2:0
Escalable Espacial
I,P,B
4:2:0
Alto
I,P,B
4:2:0/4:2:2
Alto
<19201152
60 cuadros/s
<80 Mb/s
<100 Mb/s
Alto - 1440
<14401152
60 cuadros/s
<60 Mb/s
<60 Mb/s
<80 Mb/s
Principal
<720576
30 cuadros/s
<15
Mb/s
<15 Mb/s
<15 Mb/s
<20 Mb/s
Bajo
<352288
30 cuadros/s
<4 Mb/s
<4 Mb/s
Tabla 6.2 Jerarquas de codificacin en MPEG-2.
Puede decirse que hay dos tendencias en la codificacin de MPEG-2. Una se inclina por el perfil
simple al nivel principal (SP@ML) y otra por el perfil principal al nivel principal (MP@ML). La
primera defiende el argumento de que, sin cuadros B, el costo de los decodificadores puede
reducirse considerablemente, ya que la decodificacin de los cuadros B requiere de una
considerable cantidad de memoria porque deben almacenarse en memoria cuadros tanto previos
como futuros para efectuar la prediccin. La segunda tendencia, que es la mayoritaria, postula que
cuando se hace referencia a MPEG-2, de hecho se est haciendo referencia al perfil y nivel
principales. En la prctica el comportamiento de los codificadores SP y MP puede considerarse
excelente y para un caudal binario dado, es difcil notar diferencias en la calidad subjetiva de las
imgenes decodificadas. Sin embargo, el problema es de compatibilidad al plantearse la cuestin de
si un decodificador para SP@ML es capaz de decodificar un caudal MP@ML.
6.18 Resumen de los modelos de codificacin MPEG
La descripcin detallada de los modelos (algoritmos) de codificacin MPEG queda fuera del
alcance de este texto. Un tratamiento bastante detallado del tema se tiene en la referencia [1], en la
que se ha basado una buena parte del material anterior. Nos limitaremos aqu a ofrecer un breve
resumen de las caractersticas ms importantes.
Los coeficientes de la DCT se codifican sin prdidas, de modo que el
decodificador los puede reconstruir con precisin.
Se utiliza una codificacin aproximadamente ptima, basada en el cdigo de
Huffman para generar las tablas de los cdigos de longitud variable necesarios
para ello.
Los coeficientes se ordenan de acuerdo a una secuencia unidimensional en
zigzag. Cuanto mayor sea el nmero de coeficientes de valor cero, mayor ser el
nivel de compresin.
El modelo o algoritmo de codificacin utiliza smbolos que permiten la
codificacin eficiente de la DCT cuando la mayora de los coeficientes son cero.
Un smbolo muy utilizado es el de fin de bloque (EOB).
Se aplican tablas distintas de cuantificacin para los casos intracuadro e
intercuadro y, en esta ltima, el redondeo se realiza de forma diferente. Las
Compresin de video
Constantino Prez Vega
29
caractersticas de los datos son diferentes en ambos casos, por lo que se emplean
tablas de cdigo distintas y diferentes conjuntos de smbolos.
La codificacin en MPEG es altamente asimtrica es decir, irreversible, ya que los datos de entrada
al codificador no pueden recuperarse a partir de los datos decodificados. Los decodificadores son
relativamente simples, en tanto que los codificadores son muy complejos y deben identificar reas
de movimiento, determinar los vectores ptimos de movimiento, controlar tanto el caudal binario
como el almacenamiento temporal (buffering) para determinar cuando modificar los niveles de
cuantificacin, determinar cuando es posible repetir un bloque y, finalmente, determinar cuando
aplicar tcnicas de codificacin intracuadro o intercuadro.
6.19 Formato SIF (Source Input Format)
La sintaxis del flujo binario en MPEG-1 permite tamaos de imagen hasta de 40954095 pixels.
Sin embargo, muchas de las aplicaciones en que se emplea vdeo comprimido MPEG-1 estn
optimizadas para el formato de entrada de fuente o SIF, derivado del formato especificado en la
Recomendacin 601 del CCIR (4:2:2). De acuerdo a la Rec. 601, una fuente de vdeo cromtico
tiene tres componentes, una de luminancia (Y) y dos de crominancia (C
b
y C
r
). Para el formato
CCIR 601 hay dos opciones para la resolucin espacial de la imagen. La primera, para los sistemas
NTSC, utiliza 525 lneas por cuadro y 60 cuadros por segundo. El cuadro de luminancia tiene
720480 pixels activos y, cada cuadro de crominancia tiene 360480 pixels activos. (Ntese que se
trata de MPEG-1, para barrido secuencial). La segunda opcin, para los sistemas PAL, utiliza 625
lneas por cuadro a 50 cuadros por segundo. Aqu la luminancia tiene 720576 pixels activos y las
componentes de crominancia, 360576 pixels activos. Para conseguir flujos binarios tan bajos
como 1.5 Mb/s, MPEG-1 define (pero no requiere), el formato de entrada de fuente, SIF. Las
secuencias SIF tienen una resolucin de 360240 pixels por cuadro a 30 cuadros por segundo, o
360288 pixels por cuadro a 25 cuadros por segundo. En ambos casos la resolucin de las
componentes de croma es la mitad de la de luminancia, tanto en las direcciones horizontal como
vertical. Este formato se designa como 4:2:0. Las imgenes SIF pueden obtenerse fcilmente a
partir de las imgenes CCIR 601 mediante filtrado y submuestreo.
Frecuencia de cuadro 30 25
CCIR 601
Y 720480 720576
Cb, Cr 360480 360576
SIF
Y 360240 360288
Cb, Cr 180120 180244
Area de pixels significativos para SIF
Y 352240 352288
Cb,Cr 176120 176144
Tabla 6.3 Pixel significativos en MPEG-1
En MPEG-1, las componentes de color Y,Cr y Cb estn siempre intercaladas, es decir
...CrYCbYCr... y, por otra parte, se define como unidad mnima de codificacin el macrobloque,
que consiste de cuatro bloques de luminancia de 88, un bloque de 88 de Cb y otro de 88 de Cr.
La dimensin mxima de un macrobloque es de 16 pixels y cada imagen se divide en una serie de
macrobloques de izquierda a derecha y de arriba a abajo, lo que obliga a que tanto la resolucin
horizontal como vertical sea mltiplo de 16. Si no es as, el codificador aade pixels de relleno a la
derecha o en la parte inferior de cada imagen que luego son descartados en el decodificador. Puesto
que la resolucin horizontal del formato SIF no es divisible por 16, se puede duplicar el ltimo
Compresin de video
30
pixel de cada lnea ocho veces, de modo que el nmero total de pixels por lnea es de 368. En una
implementacin alternativa, se descartan cuatro pixels del extremo izquierdo y otros cuatro del
extremo derecho de cada lnea, con lo que la imagen se reduce ahora 352 pixels por lnea a lo que
se designa como rea de pixels significativos, cuyos valores se reflejan en la tabla 6.3. Como no
sera realista esperar que cualquier decodificador pudiera soportar todas las opciones de
codificacin, MPEG-1 define los parmetros restringidos o constreidos del caudal binario, es
decir, el flujo binario que todo decodificador compatible con MPEG-1 debe soportar. Estos
parmetros no son un requisito del estndard y se muestran en la tabla 6.4.
Parmetro de codificacin Valor mximo
Tamao horizontal de imagen 768 pixels
Tamao vertical de la imagen 576 pixels
Macrobloques 396
Flujo de pixels (pixel rate) 39625 macrobloques/s
Flujo de imgenes 30 cuadros/s
Rango de los vectores de movimiento 64 pixels, a resolucin de medio pixel
Tamao del buffer de entrada 327,680 bits.
Tasa binaria 1.856 Mbit/s
Tabla 6.4 Flujo binario de los decodificadores MPEG-1
6.20 Otros estndares de compresin
6.20.1. Estndares de compresin para facsmil
Bajo los auspicios de la Unin Internacional de Telecomunicaciones (UIT o ITU de las iniciales en
ingls), en el seno del Comit Consultivo Internacional de Telefona y Telegrafa (CCITT,
designado actualmente como ITU-T, se desarrollaron estndares para la codificacin y transmisin
de seales sobre redes pblicas de telecomunicaciones. Las primeros estndares, para compresin
sin prdidas se desarrollaron para aplicaciones de facsmil
16
(fax), en que las imgenes exploradas
son bitonales, es decir, los elementos de imagen toman solamente uno de dos posibles valores que
pueden representarse mediante un bit.
En cualquier imagen bitonal, es decir, blanco y negro, se tienen zonas grandes que son, o bien
totalmente blancas o totalmente negras, de modo que en una lnea no es necesario incluir todos los
bits correspondientes a cada elemento de imagen y basta codificar nicamente el recorrido, es decir
el nmero de bits iguales a lo largo de una porcin de la lnea explorada. Esta codificacin de
recorrido permite conseguir un nivel apreciable de compresin similar a la que se hace en MPEG al
explorar un bloque en zig-zag. La codificacin de recorrido se combina luego con una codificacin
de Huffman y este es el esquema bsico del estndard de codificacin para facsmil. Este estndard
est reflejado en dos Recomendaciones (ITU-T Rec. T.4
17
e ITU-T Rec. T.6
18
) de la Unin
Internacional de Telecomunicaciones. En la Recomendacin T.4 se tienen dos posibles enfoques:
16
Hunter, R. and Robinson, A.H. International digital facsimile coding standards. Proc IEEE 68(7):854-867, Jul. 1980
17
ITU-T (CCITT). Standarization of Group 3 facsimile apparatus for document transmission. Recommendation T.4. ISO,
1980.
18
ITU-T (CCITT). Facsimile coding schemes and coding control functions for Group 4 facsimile apparatus.
Recommendation T.6. ISO, 1984.
Compresin de video
Constantino Prez Vega
31
Cdigo de Huffman modificado (MH). En esta alternativa, la imagen se trata
como una secuencia de lneas de barrido e inicialmente se realiza una
descripcin del recorrido de cada lnea. Se aplica luego codificacin de
Huffman a la descripcin (recorrido, valor) y se utiliza una codificacin
separada, tambin de Huffman para distinguir entre los recorridos de porciones
blancas y negras. La tabla del cdigo de Huffman es esttica, es decir, no
cambia de una imagen a otra. Al final de cada lnea se inserta un cdigo de fin
de lnea (EOL), principalmente para fines de deteccin de errores.
Cdigo de lectura modificado (MR). En este caso, los valores de los elementos
de una lnea previa, se usan como predictores de la lnea actual. A continuacin
se realiza una descripcin de recorrido y cdigo esttico de Huffman similar al
caso anterior. Tambin se utiliza un cdigo de fin de lnea. Para evitar la
propagacin de errores, la codificacin MR se mezcla peridicamente con la
MH.
En la Recomendacin T.6 la tcnica de codificacin se conoce como MMR (Modified Modified
Read). Este cdigo es una simplificacin del cdigo MR, en que los mecanismos de proteccin
contra errores se eliminan para aumentar la relacin de compresin.
Las relaciones de compresin que se consiguen con los estndares T.4 y T.6 estn entre 20:1 y 50:1
para documentos comerciales comunes. Sin embargo, para imgenes bitonales con tcnica de
medios tonos, la relacin de compresin disminuye considerablemente, ya que los recorridos se
reducen a slo unos pocos elementos de imagen. En este caso el cdigo de Huffman no resulta
adecuado y es preferible utilizar un codificador aritmtico adaptativo.
6.20.2 Estndard JBIG
Para comprimir con mayor eficiencia, tanto las imgenes de medios tonos como los documentos
comerciales se desarroll el estndard JBIG (Joint Binary Experts Group), desigando como
ISO/IEC IS 11544 y Recomendacin T.82 de la ITU-T. En este estndard se incluye un modelador
y un codificador aritmtico. El modelador se emplea para estimar las probabilidades de smbolo
que sern usadas luego por el codificador aritmtico. Para imgenes de medios tonos, las relaciones
de compresin con JBIG son de 2 a cinco veces mayores que con el estndard T.6. Un
inconveniente de JBIG es que las implementaciones de software en computadoras de propsito
general son de dos a tres veces ms lentas que para los estndares T.4 o T.6.
6.20.3 Estndares para teleconferencia de vdeo
En bastantes aplicaciones de tipo cientfico, mdico, industrial y comercial, es necesario transmitir
imgenes con escaso movimiento, ya sea un orador o representaciones grficas con escasa o nula
animacin, lo que en el caso de imgenes digitales, permite niveles de compresin relativamente
altos, mayores que para las seales de televisin estndard. Esto dio lugar a que a principios de la
dcada de 1980 se produjeran los primeros estndares por el CCITT, reflejados en las
Recomendaciones H.120 y H.130. Dichos estndares proporcionaban los lineamientos para
transmitir seales de televisin PAL o NTSC a tasas binarias del orden de unos pocos Mbits/s
integrando la conversin entre ambos sistemas en el proceso de codificacin.
Los estndares anteriores solamente encontraron aceptacin en Europa. En los Estados Unidos y
Japn se continu trabajando sobre tcnicas de codificacin de vdeo que permitan conseguir
mejor calidad de seal a tasas binarias inferiores a 2 Mbits/s. A finales de la dcada de 1980 el
trabajo conjunto de fabricantes y operadores de telecomunicaciones dio lugar al estndard H.320
Compresin de video
32
para videoconferencia sobre redes conmutadas del tipo ISDN. De hecho, el estndard H.320
comprende una serie de recomendaciones que incluyen las mostradas en el diagrama general de
bloques de la figura 6.16.
H.261. Es un algoritmo de compresin de vdeo a tasas binarias desde 64
Kbits/s hasta 1.92 Mbits/s.
G.722, G.726 y G.728. Son algoritmos para compresin de audio a tasas
desde 16 Kbits/s hasta 64 Kbits/s.
H.221. Especifica la estructura de cuadro para el multiplexado de audio,
vdeo y datos en un flujo binario nico.
H.230 y H.242. Especifican los protocolos de enlace (handshaking) entre
los equipos que satisfacen el estndard H.320.
H.233. Esta recomendacin permite a los fabricantes seleccionar entre tre
mtodos de cifrado en su equipo H.320. El DES, usado en Estados Unidos,
SEAL en Japn y BCRYPT en el Reino Unido. No se ha resuelto an el
problema de cmo pasar las llaves de cifrado entre una localidad y otra.
Equipo de
vdeo
Codec de
vdeo
Equipo de
audio
Codec de
audio
Equipo de datos
Control del
sistema
Sealizacin de
Red
MUX/DMUX
Interfaz de
Red
H.261
H.200 y serie AV.250
Serie T, H.200 y serie AV.270
H.242, H.230, H.221
H.221
Serie I.400
Fig. 6.16. Diagrama genrico de bloques del estndard H.320.
(Basado en Image and Video Compression Standards. 2
nd
Ed.
V. Bhaskaran and K. Konstantinides. Klewer Academic Pub.1997)
6.20.4 Estndard de codificacin de vdeo H.261
El estndard H.261 es la parte del estndard H.320 relativo a la codificacin de vdeo. El H.230 fue
ratificado en Ginebra en diciembre de 1990. En esa poca an no se haba desarrollado la televisin
digital y un estndard para videoconferencia que fuese compatible con los sistemas PAL y NTSC
deba permitir la interoperabilidad entre los dos sistemas diferentes. Con este fin, se adopt un
nuevo formato comn intermedio, designado como CIF (Common Intermediate Format). Tanto los
sistemas de 525 como de 625 lneas, NTSC o PAL, deben, por consecuencia, incluir mdulos de
pre y postprocesado para convertir a CIF o de ste al sistema especfico.
Compresin de video
Constantino Prez Vega
33
6.20.5 Formato CIF
Es un formato de barrido no entrelazado, basado en 352 elementos por lnea (pixels), 288 lneas no
entrelazadas por cuadro y 30 cuadros por segundo. Estos valores represntan la mitad de las lneas
activas tanto de una imagen de 625 lneas, 25 cuadros por segundo, como de una de 525 lneas y 30
cuadros por segundo. En estas condiciones, los sistemas de 625/25 slo necesitan efectuar una
conversin de la frecuencia de cuadro y los de 525/30, convertir el nmero de lneas.
Las seales de color se codifican de acuerdo a la Recomendacin 601 del CCIR, con una
componente de luminancia y dos de crominancia. Las componentes de crominancia se submestrean
por un factor de 2, tanto horizontal como verticalmente, de modo que se tienen 176 elementos
(pixels) por lnea y 144 lneas por cuadro para estas componentes. La relacin de aspecto es 4:3.
Para aplicaciones de muy baja velocidad de transmisin, adems del CIF, los codificadores de
vdeo pueden utilizar tambin un formato de un cuarto de CIF (QCIF), con la mitad del nmero
de elementos por lnea y de lneas necesarias en el formato CIF. Desde el punto de vista de
implementacin, todos los codificadores y decodificadores deben ser capaces de trabajar con QCIF,
siendo opcional el funcionamiento con CIF.
6.20.6 Codificacin H.261
El algoritmo de codificacin H.261 utiliza una combinacin de DCT y codificacin diferencial. Los
elementos principales son semejantes a los de MPEG: transformada DCT, cuantificacin y
codificacin de longitud variable.
El procedimiento de codificacin es similar al utilizado en JPEG y MPEG, excepto que el cuadro
de vdeo se convierte primero a un cuadro CIF y se almacena como tal en una memoria de cuadro.
En esta etapa se puede realizar tambin algn preprocesado y filtrado de ruido. La DCT tambin
trabaja sobre bloques de 88 elementos. La combinacin de cuatro bloques de luminancia y un
bloque de cada una de las componentes de crominancia constituyen un macrobloque.
La prediccin de cuadros se lleva acabo de manera semejante a MPEG-1, excepto que en H.261
solamente se utilizan cuadros I y P. La organizacin de los macrobloques puede ser de tipo
intracuadro o intercuadro, en que la codificacin diferencial permite al codificador funcionar bien
sobre los macrobloques de entrada (modo intra), o sobre los macrobloques diferenciales entre el
cuadro actual y el anterior (modo inter). En H.261 no es necesario codificar y transmitir todos los
macrobloques. Cuando la tasa binaria es baja, macrobloques, y an hasta tres cuadros completos
pueden omitirse. El criterio para la seleccin de los macrobloques o cuadros que se omiten, as
como el mecanismo de control para seleccionar codificacin intracuadro o intercuadro no forman
parte del estndard y pueden variar dinmicamente, dependiendo de la complejidad de la seal de
entrada y de las restricciones sobre la tasa binaria de salida. El codificador puede incluir, de manera
opcional, la estimacin y compensacin de movimiento.
El flujo binario de salida se dispone jerrquicamente en cuatro capas:
El cuadro o imagen constituye la capa superior.
Cada cuadro se divide en grupos de bloques (GOB). Un grupo de bloques es, o
bien 1/12 de un cuadro CIF o 1/3 de un cuadro QCIF.
Cada GOB se subdivide en 33 macrobloques.
Cada macrobloque consiste de seis bloques de 88 elementos de imagen, de los
cuales cuatro son de luminancia y dos de crominancia (un bloque por cada
componente).
Compresin de video
34
6.20.7 Decodificacin H.261
En la figura 6.17 se ilustra esquemticamente el decodificador de vdeo H.261. Despus de la
correccin de errores que, en este caso es opcional, la entrada de datos de vdeo comprimidos pasa
a un buffer y es procesada a continuacin por el decodificador de longitud variable.
Los datos decodificados son separados de acuerdo al contenido de las tramas y luego procesados
mediante un cuantificador inverso y una transformada inversa del coseno discreto. Dependiendo
del modo de transmisin (intracuadro o intercuadro), los macrobloques de un cuadro previo pueden
tambin agregarse a los datos actuales para configurar los datos reconstruidos. Finalmente, los
datos CIF decodificados pueden convertirse al formato adecuado para su visualizacin.
Correccin
de errores
Buffer
Decodificador
VLC
Cuantificador
inverso
DCT
inversa
Sumador
Memoria
de cuadro
Compensacin de
movimiento
Filtro de lazo
Multiplexor
Datos de entrada
Datos decodificados
0
Fig. 6.17. Diagrama de bloques de un decodificador H.261.
6.20.8 Estndard H.324 para Teleconferencia de Vdeo
El estndard H.324 es un estndard para transmisin de audio, vdeo y datos a baja velocidad,
principalmente para aplicaciones de teleconferencia, orientado a multimedia y que, de manera
similar al H.320, comprende varios estndares. En la figura 6.18 se ilustra esquemticamente la
estructura de este estndard, as como la de los estndares que lo conforman.
El estndard H.324 es similar al H.320 descrito anteriormente. Sin embargo, se incluyen cuatro
recomendaciones nuevas:
H.263. Especifica el algoritmo de codificacin de vdeo para
comunicaciones de baja tasa binaria.
G.273.1. Codificador de voz y audio, de doble tasa binaria (5.3 y 6.3
Kbit/s) para aplicaciones multimedia.
H.223. Protocolo de multiplexado.
H.245. Protocolo de control que puede usarse para especificar las
capacidades de codificacin y decodificacin del transmisor y del receptor.
Compresin de video
Constantino Prez Vega
35
Esta caracterstica puede utilizarse para permitir diversos modos de
codificacin. Los procedimientos en H.245 tambin estn pensados para su
utilizacin en videoconferencia sobre redes ATM (Recomendacin 310), o
en redes de rea local (LAN), sin ancho de banda garantizado
(Recomendacin H.323). Estas caractersticas permiten la interconexin de
terminales H.324 con sistemas de videoconferencia basados en ATM o
LAN.
Equipo de
vdeo
Codificador
de vdeo
Equipo de
audio
Codificador de
audio
Equipo de datos
Sealizacin
Encriptado
Control del
sistema
Multiplexor/
Demultiplexor
Modem
T.120, T.434, T.84, Otros
H.245
H.233, H.234
H.223
V.34, V.8, V.25
Fig. 6.18. Diagrama genrico de bloques del estndard H.324.
(Basado en Image and Video Compression Standards. 2
nd
Ed.
V. Bhaskaran and K. Konstantinides. Klewer Academic Pub.1997)
Para comunicaciones mediante modem, H.324 especifica el uso del procedimiento V.8 (V8-bis)
para el inicio y fin de la transmisin de datos, as como el modem V.34. El estndard V.34 soporta
tasas binarias hasta de 28.8 Kbit/s. En aplicaciones de datos, H.324 especifica el uso del protocolo
T.120 como un posible medio para el intercambio de datos. Para transmisin de imgenes fijas
puede usarse la Recomendacin T.84 (JPEG).
6.20.9 Estndard de codificacin de vdeo H.263
El algoritmo de codificacin de vdeo H.263 utiliza muchas caractersticas de H.261 y de MPEG-1.
As, H.261 y H.263 comparten las mismas estructuras de codificacin y decodificacin ya
descritas. En esta seccin solo se comentarn las principales diferencias.
Tasa binaria. La Recomendacin H.263 no restringe la tasa binaria. Sin embargo su objetivo es
hasta velocidades de 64 Kb/s. En aplicaciones sobre redes telefnicas conmutadas, mediante
modems de 28.8 Kbit/s, la mxima velocidad de transmisin de vdeo puede ser alrededor de 20
Kbit/s, ya que el ancho de banda restante debe reservarse para voz, datos y seales de control. En
H.261 la tasa binaria objetivo es de p64 Kbit/s, donde p es un nmero entero comprendido entre 1
y 30.
Compresin de video
36
Formato de Imagen. En la tabla siguiente se muestran los formatos de imagen soportados por el
estndard H.263.
Formato Luminancia Crominancia
Sub-QCIF 128 96 64 48
QCIF 176 144 88 72
CIF 352 288 176 144
4CIF 704 576 352 288
16CIF 1408 1152 704 576
Tabla 6.5 Formatos de imagen soportados por el estndard H.263.
Todos los decodificadores H.263 deben ser capaces de funcionar con flujo de datos en formatos
sub-QCIF y CIF. El codificador debe ser capaz de funcionar con, por lo menos uno de los formatos
sub-QCIF o QCIF, pero no est obligado a funcionar con ambos. Para la visualizacin, los
decodificadores pueden sobremuestrear las imgenes sub-QCIF o submuestrear las QCIF. Estas
restricciones aseguran que los codecs H.263, aunque puedan implementarse a bajo costo, permiten
la interconexin en red con equipos que utilicen el estndard H.261.
Estructura de los grupos de bloques (GOB). Tanto H.261 como H.263 utilizan una sintaxis
jerrquica, en la que secuencia de vdeo se descompone en imgenes, grupos de bloques,
macrobloques (MB) y bloques. En el estndard H.263, a fin de proporcionar robustez contra
errores, cada grupo de bloques contiene solamente una fila de macrobloques. As, para QCIF, cada
grupo de bloques tiene 11 macrobloques en lugar de 113 = 33 bloques en H.261. Esta
caracterstica facilita la insercin de seales adicionales de sincronismo para mejorar el
comportamiento frente a errores.
Correccin de errores. En el estndard H.263 no se especifica ningn procedimiento para
deteccin o correccin de errores, si bien se describe un esquema opcional en el Anexo H de la
Recomendacin.
Otras diferencias adicionales entre H.261 y H.263 son:
H.263 tiene mayor precisin (medio pixel) en la estimacin de movimiento que
H.261 (un pixel).
H.263 no utiliza el filtro de lazo de H.261 para reducir los efectos de bloqueo en la
estimacin de movimiento por bloques. La precisin adicional en la estimacin y
compensacin de movimiento de H.263 empleando interpolacin lineal que, como
efecto colerateral acta como filtro de paso bajo.
En H.261, la matriz de cuantificacin puede cambiarse en base a macrobloques. En
H.263, dentro de un grupo de bloques, las transiciones de la matriz de
cuantificacin entre macrobloques se restringen a dos.
Los coeficientes de la DCT se codifican diferente. En H.263 se realiza una
codificacin de longitud variable (VLC) segn recorrido, nivel y ltimo
coeficiente, es decir 3-D. En H.261 la codificacin VLC es 2-D: recorrido y nivel.
La codificacin VLC 3-D permite alcanzar mayores niveles de compresin.
Compresin de video
Constantino Prez Vega
37
En H.261 la direccin del macrobloque se utiliza para indicar cuantos
macrobloques se han omitido. En H.263 se transmite un nico bit por cada
macrobloque omitido.
A diferencia de H.261, no hay un modo de funcionamiento definido en H.263 para
imgenes fijas. En su lugar pueden usarse los estndares JPEG (T.81, T.84) para
transmitir este tipo de imgenes.
El estndard H.263 especifica tcnicas opcionales de codificacin que pueden mejorar an ms el
rendimiento, entre ellas, el empleo de vectores de movimiento no restringidos, un modo de
prediccin avanzada, un modo de codificacin aritmtica basada en sintaxis y un modo de cuadros
PB. En la UIT se continua trabajando en extensiones de H.263, que han dado lugar al H.263+.
Estos trabajos, en cierta medida se alinean con los de MPEG-4.
Bibliografa adicional
[ 1 ] - Mitchel, J.L., Pennebaker, W.B., Fogg, C.E. and LeGall, D. J. MPEG Video Compression
Standard. Chapman & Hall. International Thompson Publishing. 1996. Es un texto que
ofrece una descripcin bastante amplia de MPEG, orientada particularmente a MPEG-1,
incluyendo una parte interesante de la codificacin de los algoritmos.
[ 2 ] - ATSC Digital Television Standard. US Advanced Television Systems Committee. 16 Sep.
1995.
[ 3 ] - Guide to the use of the ATSC Digital Television Standard. US Advanced Television
Systems Committee. Oct. 1995. Este documento, igual que el anterior se ha utilizado
extensamente en la preparacin de este captulo sobre compresin de vdeo. De la
informacin disponible, son quiz los ms completos desde el punto de vista de
aplicaciones, sobre todo porque tratan de un sistema ya probado y adoptado en los
Estados Unidos. Pueden obtenerse va Internet en http://www.atsc.org .
[ 4 ] - Stojancic, M. M. and Ngai, C. Architecture and VLSI Implementation of the MPEG-2:
MP@ML Video Decoding Process. SMPTE Jour. Vol. 104, N 2, pp. 62-72. Feb. 1995.
[ 5 ] - ITU/SMPTE Tutorial. Digital Terrestrial Television Broadcasting. Society of Motion
Picture and Television Engineers (SMPTE). White Plains, NY. 1994.
[ 6 ] - Blumenfeld, S. Video Compression. Broadcast Eng. vol. 37, N 2, pp. 24-32. Feb. 1995
[ 7 ] - Epstein, S. Video Compression 101. Broadcast. Eng. Vol. 38, N 2. pp. 70-74. Feb.
1996.
[ 8 ] - Freed, K. Video Compression. Broadcast Eng. Vol. 39, N 1, pp. 46-52. Jan. 1997.
[ 9 ] - Nelson, L. J. Video Compression. Broadcast. Eng. Vol. 37, N 11. pp. 42-46. Oct. 1995.
[ 10 ] - Nelson, L. J. Compression Techniques for Narrowband Channels. Broadcast Eng. Vol.
38, N 8, pp. 68-70. Aug. 1996.
[ 11 ] - Bhatt, B., Birks, D. and Hermreck, D. Digital Television: Making It Work. IEEE
Spectrum. Vol. 34, N 10, pp. 19-28. Oct. 1997.
[ 12 ] - Whitaker, J. MPEG: Whats it all about?. Broadcast Eng. Vol. 39, N 3, pp. 14-16.
March 1997.
[ 13 ] - Proceedings of the SMPTE Advanced Television and Imaging Conference. Unveiling
New Technologies and Applications. The Society of Motion Picture and Television
Engineers. White Plains, NY. 1994.
Compresin de video
38
[ 14 ] - Digital Video. Concepts and applications across industries. Theodore S. Rzeszewski,
Editor. IEEE Press. Piscataway, NJ. 1995. Es una recopilacin de artculos, muchos de
ellos clsicos, relativos a temas de televisin digital.
[ 15 ] - Television Technology Today. Theodore S. Rzeszewski, Editor. IEEE Press. Piscataway,
NJ. 1985. Es una recopilacin de artculos que, en muchos casos ya slo tienen inters
histrico, pero que ofrecen conceptos tiles e interesantes sobre codificacin digital de
vdeo, en particular la parte IV del libro.
[ 16 ] - http://mpeg.telecomitalialab.com/
[ 17 ] - http://www.diffuse.org/fora.html
[ 18 ] - http://streamingmediaworld.com/video/docs/MPEG4/
[ 19 ] - http://www.atsc.org .
[ 20 ] - http://www.iso.ch
[ 21 ] - http://www1.ietf.org/IESG/LIAISON/ITU-1832.htm
[ 22 ] - http://www.cselt.org/ufv/leonardo/mpeg/standards.htm
[ 23 ] - http://www.itu.int/rec/
[ 24 ] - http://www-mobile.ecs.soton.ac.uk/