VD Compresion

Compresin de la informacin de vdeo
3. Compresin de la informacin de vdeo

3.1. Introduccin
La necesidad de la compresin en vdeo digital aparece en el momento que se tratan las secuencias de imgenes como seales digitales. El problema principal que tiene el manejo del vdeo digital es la cantidad de bits que aparecen al realizar la codificacin. En la siguiente tabla, se muestran varios ejemplos. En ella, se considera la digitalizacin de una seal de televisin de 625 lneas a una velocidad de 25 imgenes por segundo.
Frecuencia muestreo (Y) (MHz) Frecuencia muestreo (CR,CB) (MHz) Datos 1 seg. almacenados (Mb/s) (*) Datos 1 seg. parte activa (Mb/s) (**) Capacidad de disco 10 GB (mm:ss)
Estndar
4:4:4 13.5 13.5 324 248.8 5m 22s 4:2:2 13.5 6.75 216 165.9 8m 02s 4:1:1 13.5 3.375 162 124.4 10m 43s (*).- Cantidad de datos que se necesitan para almacenar 1 segundo de seal de televisin digitalizada a la frecuencia de muestreo real. (**).- Cantidad de datos que se necesitan para almacenar 1 segundo de seal de televisin, eliminando todo aquello que no es directamente imagen (intervalos de sincronismo...).
Si nos centramos en el estndar 4:2:2 definido por la recomendacin ITU-R BT.601, puede observarse que, sin aplicar compresin, en un disco duro con una capacidad de 10 GigaBytes podemos almacenar algo ms de ocho minutos de imgenes. Y esto considerando exclusivamente la informacin de la imagen, y eliminando las partes de la seal dedicadas a los sincronismos. Si ahora aplicamos sobre esta informacin distintos factores de compresin, veremos que la eficiencia de almacenamiento aumenta considerablemente. As para el estndar 4:2:2 con diferentes factores de compresin se obtendran los resultados de esta tabla:
Compresin 1:1 2:1 3.3:1 5:1 10:1 50:1 Tamao parte activa (Mb/s) 165.9 83.0 50.3 33.2 16.6 3.3 Capacidad en disco 10GB 8m 02s 16m 04s 26m 30s 40m 10s 1h 20m 20s 6h 41m 40s
En el caso de la transmisin o distribucin de seales por cualquier medio fsico (radioenlaces, redes de banda ancha, satlite, cable...) Si consideramos que una transmisin digital de un canal telefnico de voz ocupa 64 kb/s, en el ancho de banda espectral en el que se 1
Vdeo Digital
enviara un canal de televisin en formato 4:2:2 sin comprimir se podran enviar del orden de 2590 canales telefnicos. Puesto que, tanto el espacio en disco por minuto como el ancho de banda radioelctrico son recursos limitados, se hace conveniente aplicar factores de compresin para la transmisin, para el almacenamiento, e incluso para la produccin de programas. Una vez comprimida la informacin ser ms sencillo almacenarla o transmitirla. As pues, la compresin, por un lado, es un factor econmico ya que reduce el costo de la transmisin, o distribucin de seales. Dado un medio de transmisin concreto con un determinado coste de amortizacin, cuanto menor sea el ancho de banda de los canales a transmitir, ms canales estarn disponibles, y ms econmico resultar cada canal. Adems, en determinadas aplicaciones, el factor de compresin va a venir impuesto por la velocidad binaria del canal de transmisin disponible. Este es el caso, por ejemplo, de la videoconferencia. En la videoconferencia, la informacin de vdeo digital se manda a travs de un canal telefnico disponiendose de una velocidad binaria de 64kb/s. En este caso, el factor de compresin hemos de ajustarlo a esta restriccin, an a costa, como veremos, de la calidad, ya que lo esencial es la disponibilidad del servicio. Todo proceso de compresin, para ser til, debe llevar asociado un proceso de descompresin posterior, por el cual se recupera el tren de datos original a partir de los datos comprimidos. Para ello se seguir el orden inverso al de la compresin.
3.2. La compresin de la seal de video

En el mbito digital, para almacenar o transmitir informacin se utiliza un tren de datos. Para que sea posible la compresin de este tren de datos, es necesario que en l exista, adems de informacin real, informacin redundante. Esta informacin redundante podremos eliminarla durante el proceso de compresin, y posteriormente reconstruirla en el proceso de descompresin a partir de la informacin real. La informacin real en cambio, ser imprescindible para recuperar los datos originales de forma correcta, de modo que no es posible obviarla. La misin de un sistema de compresin consiste en detectar y eliminar la informacin redundante, codificando solamente la informacin til. Por lo tanto, podemos considerar la compresin digital como un procedimiento, matemtico en general, que rebaja el flujo binario de un tren de datos, en base a la eliminacin de informacin redundante y a una codificacin inteligente de la informacin real. La compresin, a partir de ciertos valores influye negativamente en la calidad del vdeo. Por eso, debe utilizarse un algoritmo y un factor de compresin que minimicen dicha degradacin. Segn estas consideraciones, podemos clasificar la compresin en tres tipos diferentes: compresin sin prdidas, compresin subjetivamente sin prdidas y compresin subjetivamente con prdidas. stas, las vamos a tratar en los prximos prrafos. 2
En la compresin sin prdidas, la informacin original se recupera en su integridad despus del proceso de compresin-descompresin. Este tipo es muy utilizado para la compresin de datos informticos. Dependiendo del tipo de archivo, este modo tiene niveles de compresin variables. Con algunos archivos puede llegar a compresiones de 70:1, pero en otros casos, no es posible comprimir ya que el archivo comprimido podra ser incluso de mayor tamao que el original. Por otra parte, con la compresin subjetivamente sin prdidas, en el proceso de compresin-descompresin, no se recupera absolutamente toda la informacin original, pero el sistema receptor, como por ejemplo el sistema visual humano, no detecta las diferencias. En el mbito de la compresin digital de sonido e imagen, existe una norma general y es que lo que el ojo no ve, o lo que el odo no oye, no se codifica. Este tipo de compresin, es el que se utiliza en vdeo digital, y es el que ms nos interesa por su mantenimiento de la calidad, consiguiendo factores de compresin interesantes. Finalmente, en la compresin subjetivamente con prdidas, durante el proceso de compresin-descompresin se degrada significativamente la calidad de la informacin, pero el usuario lo tolera en beneficio del servicio recibido. Este tipo de compresin, lleva asociados grandes factores de compresin y se utiliza generalmente en multimedia; en los sistemas de videoconferencia como se dijo anteriormente; en sistemas de vigilancia y seguridad; en consultas de video y en edicin fuera de lnea; es decir, procesos todos ellos en los que la calidad no es un factor importante, sino el mantenimiento del servicio con un coste razonable. Dentro de todas estas categoras existen gran cantidad de tcnicas de compresin dependiendo de la aplicacin para la que se utilizan. En el caso del vdeo, el nmero de mtodos se dispara; y actualmente, es uno de los campos de mayor investigacin dentro del mundo del tratamiento digital de las imgenes. Algunas tcnicas de compresin se han conseguido, simplemente atendiendo a las diferentes sensibilidades que tiene el ojo humano frente al brillo y a los colores. Esta posibilidad de compresin, viene expresada en la recomendacin ITU-R BT.601 cuando habla de las distintas familias que se desarrollan bajo esta norma (4:4:4, 4:2:2, 4:1:1, 4:2:0, ...), cada una de ellas, con diferentes flujos binarios. El conocido formato de video 4:4:4 utiliza la misma frecuencia de muestreo para las seales de color que para la de luminancia. En el formato 4:2:2, en cambio, la frecuencia de muestreo de las seales de color pasa a ser la mitad. Sin embargo, esta forma de compresin no degrada subjetivamente la calidad, sino que este formato se ajusta ms a las distintas sensibilidades del ojo. El sistema 4:4:4 se utiliza, no porque ofrezca una mayor calidad subjetiva, sino porque las operaciones de tratamiento digital de imgenes, u otras operaciones como el croma-key (llave de color), en el que se conmuta de imagen a partir de la informacin del color de los pxeles, se realiza con mucha ms precisin.
Vdeo Digital
El paso del formato 4:2:2 al 4:1:1 o al 4:2:0 s supone eliminar informacin sensible al ojo. Esta informacin que se elimina, no es en este caso redundante, y no puede recuperarse en un hipottico proceso de descompresin. Por ello esta compresin se denomina con prdidas, o degradante. Otros mtodos de compresin que se han establecido como estndar por sus prestaciones y su amplia aplicacin son los mtodos denominados MPEG. Las siglas MPEG vienen de (Motion Pictures Expert Group) nombre de un grupo de expertos comn entre la ISO (International Standards Organization) y la IEC (International Electrotechnical committe). El fundamento bsico de la compresin MPEG es el siguiente: a)Se busca una representacin vlida de la imagen que concentre la informacin en una pequea parte de la descripcin. Se cuantifican los elementos de dicha representacin de modo que se discretizan sus posibles valores. A cada nivel de cuantificacin se le asigna un cdigo de bits.
b)-
c)-
Concretamente el mtodo MPEG-2 se utiliza en todos los mbitos de la televisin digital. Este mtodo, que ser el que estudiemos ms profundamente en este tema, tiene dos caractersticas muy importantes para su aplicacin en video digital. La primera es que permite utilizar mltiples factores de compresin en funcin de las necesidades de la aplicacin. La segunda es que las prdidas de calidad al comprimir son relativamente bajas. Incluso se ha demostrado que la compresin MPEG-2 con factor 1:3,3 puede considerarse como subjetivamente sin prdidas. Esto la hace apropiada para aplicaciones en las que se quiera mantener la posibilidad de multigeneracin, es decir, efectuar sucesivamente procesos de compresin y descompresin sin la aparicin de defectos de imagen, o artefactos. A continuacin pueden verse algunos ejemplos de utilizacin de la compresin, referidos a las velocidades binarias utilizadas en algunos modos de transmisin: - Para comunicaciones dentro de un estudio se utilizan enlaces a 50Mb/s. En este punto debemos observar que el flujo binario resultante de la parte activa del formato 4:2:2 es de 165,9 Mb/s.; y si se aplica el factor 1:3,3 a este flujo obtenemos 50,3 Mb/s, con lo que las transmisiones a 50 Mb/s podemos considerarlas sin prdidas. - Tambin se utilizan 50Mb/s para comunicaciones mediante fibra ptica. - Para comunicaciones va satlite es comn utilizar enlaces a 34 Mb/s, aunque a veces tambin se utilizan 50Mb/s.
- En los casos de distribucin de la seal va radio, se aplican factores de compresin ms grandes segn el canal disponible. Por ejemplo, en los satlites de distribucin lo normal es utilizar un factor de compresin que permite enviar de 4 a 7 canales digitales en el mismo ancho de banda que ocupara uno analgico. - En la difusin de televisin digital, el flujo binario es diferente, segn la calidad requerida. En la siguiente tabla se muestran los distintos niveles de calidad y sus flujos binarios recomendados: Calidad - Definicin HDTV (alta definicin) EDTV (Calidad de estudio ITU-R BT.601) SDTV (Calidad estndar -PAL / SECAM / NTSC) LDTV (Calidad VHS) Flujo binario 15-30 Mb/s 6-12 Mb/s 3-6 Mb/s 1.5-3 Mb/s
3.3. La redundancia en la informacin de video

Los algoritmos de compresin en vdeo digital se basan, como hemos visto en los apartados anteriores, en la existencia de informacin redundante a lo largo de cualquier secuencia. Dentro de la corriente de datos que supone una comunicacin de vdeo digital podemos detectar una parte de los datos que corresponden a informacin real, que ser necesaria para reproducir dicha secuencia; e informacin redundante, que no proporcionar informacin al decodificador y que por tanto podemos eliminar. En trminos de compresin, sera muy beneficioso minimizar al mximo la informacin redundante de forma que reduzcamos el flujo binario sin perder la informacin necesaria para recuperar una secuencia. Sin embargo, en trminos de seguridad en la transmisin, hemos de decir que la redundancia es positiva, ya que proporciona cierta proteccin ante cortes de la informacin que se est transmitiendo. La informacin redundante que aparece en una secuencia de vdeo digital podemos considerarla de tres tipos: redundancia espacial, redundancia temporal y redundancia estadstica. A cada una de ellas se les asocian diferentes procedimientos mediante los cuales se minimiza dicha redundancia aumentando la compresin.
Vdeo Digital
3.3.1. Redundancia espacial.

La redundancia espacial tiene lugar dentro de cada fotograma. sta, viene asociada al hecho de que la naturaleza est llena de objetos slidos con superficies y texturas uniformes; los decorados, los paisajes, e incluso los rostros no varan significativamente la informacin de pixel a pixel, sino que encontraremos generalmente grandes superficies sin variacin. Figura 1. Redundancia espacial. Zonas El hecho de que varios pxeles adyacentes amplias de pxeles iguales. sean prcticamente iguales nos va a permitir, en vez de transmitirlos todos o almacenarlos todos, transmitir un pxel representativo del conjunto, y las diferencias de cada uno respecto a ste. Dichas diferencias, por ser generalmente pequeas, pueden codificarse con menos bits. Uno de los ejemplos de compresin aprovechando la redundancia espacial son la codificacin de cadenas largas de datos iguales (RLC - Run Lenght Code, codificacin de longitudes de recorrido). En el caso de que se detecte en el tren binario una cadena larga de dgitos que se repiten, en lugar de codificar cada dgito, parece una buena tcnica codificar cul es el dgito de que se trata, y cuantas veces se repite. Un ejemplo de dispositivo que utiliza esta tcnica es el fax. Esta tcnica se utiliza habitualmente en lo que llamaremos codificacin intracuadro, es decir dentro de cada fotograma.
3.3.2. Redundancia temporal.

La redundancia temporal viene dada por la relacin entre los pxeles homlogos de imgenes sucesivas. Esta redundancia aparece porque la vida no cambia significativamente de fotograma a fotograma. Evidentemente, en 40ms. suponiendo una frecuencia de cuadro de 25 f/s. no ocurren grandes cosas desde el punto de vista del espectador. Lo que el espectador espera al contemplar una secuencia de vdeo, es una continuidad en la accin, y no un cambio continuo en los planos. As, en la mayora de los casos podemos afirmar que un fotograma va a ser similar al Figura 2. Redundancia temporal: cambio siguiente o al anterior. Si comparamos los mnimo de fotograma en fotograma. 6
Figura 3. Codificacin DPCM.La cantidad de valores posibles disminuye drsticamente. fotogramas de un trozo de pelcula observaremos que, en general, son similares. Es necesario avanzar varios fotogramas para apreciar diferencias. Una tcnica de compresin que se puede usar, tanto para eliminar la redundancia temporal, como la espacial, es la codificacin diferencial de pulsos modulados (DPCM). La DPCM codifica el valor de diferencia de una muestra con respecto a la anterior. Si codificsemos el valor absoluto de cada muestra necesitaramos palabras binarias ms largas, ya que los valores absolutos de las muestras sern mucho mayores que la diferencia entre una muestra y la anterior. Los histogramas de la figura 3 muestran el nmero de ocurrencias para cada valor de los pxeles en una imagen con codificaciones PCM y DPCM. Con codificacin PCM, imagen izquierda, se deben procesar todos los valores comprendidos entre 10 y 200; mientras que en DPCM, imagen derecha, slo tiene que codificar valores comprendidos entre +20 y -20, consiguiendo por tanto una reduccin importante de bits. Existen variantes de este mtodo, que tratan de reducir al mximo los errores a transmitir, efectuando las predicciones en base a un conjunto de pxeles significativos.
3.3.3. Redundancia estadstica.

La redundancia estadstica, se basa en que en algunas aplicaciones, determinados valores tienden a repetirse ms que otros. Una de las tcnicas de compresin basada en la deteccin de redundancia estadstica es la codificacin de longitud variable (VLC - Variable Lenght Code). Este modo de compresin consiste en asignar cdigos ms largos en bits a los valores de muestra que aparecen menor nmero de veces, y cdigos ms cortos a los que aparecen ms a menudo. En este mtodo, antes de aplicar los cdigos de longitud variable, el codificador deber analizar estadsticamente los datos que le llegan, para aplicar despus la codificacin ptima a cada valor.
Vdeo Digital
El ejemplo de compresin VLC ms utilizado es quiz el cdigo Huffman. Su ejecucin es un poco compleja, pero la idea es la misma: asignar cadenas de bits ms cortas a los cdigos ms frecuentes y ms largas a los menos frecuentes. El mtodo de ejecucin es el siguiente: a)- Se estudia el nmero de apariciones de cada smbolo, o su probabilidad de aparicin y se confecciona una tabla con todos ellos. b)- Se escogen los dos cdigos (o grupos) que tengan menor nmero de apariciones, y se les asigna a cada uno de ellos el bit 0 o 1, y se asocian como si fueran las ramas de un rbol. c)- Se quitan los dos cdigos (o grupos) anteriores y se abre un nuevo grupo cuyo valor de apariciones sea la suma de estos. d)- Se repiten los pasos b, c, y d hasta que slo quede un grupo. f)- Para asignar a cada smbolo un cdigo, se recorre el rbol desde el tronco principal hasta las ramas en las que est cada smbolo, obteniendo su cdigo Huffman para la aplicacin concreta que se ha estudiado. Es obvio que los mismos smbolos pueden tener distintos cdigos Huffman dependiendo de la aplicacin que se trate; ya que en distintas aplicaciones, las probabilidades de aparicin de los smbolos puede ser diferente.
3.4. Mtodos de compresin por transformacin: la DCT

Existe una gran variedad de mtodos de compresin que se basan en la deteccin de la redundancia en un dominio transformado. Esto se realiza transformando la seal desde el mbito temporal o espacial al mbito de las frecuencias. En el dominio espacio-temporal, la probabilidad de aparicin de todos los valores de los pxeles es constante, y por tanto es difcil reducir el nmero de datos, en base a una redundancia estadstica. En cambio, en el dominio de la frecuencia no se tiene una distribucin uniforme del espectro. En general, las altas frecuencias aparecen menos veces, ya que es ms habitual encontrar cambios suaves y grandes superficies monocolor que grandes contrastes. Los contrastes grandes se sitan en los contornos de los objetos, que en general son menos abundantes. Por eso podemos decir que existe mucho ms contenido en las bajas frecuencias que en las altas. Este hecho ya se comprob en las prcticas 3 y 4 correspondientes al tema 1. Otro aspecto que hemos de tener en cuenta, es que nuestro ojo atiende ms a las grandes superficies, por tanto a las bajas frecuencias, que a los detalles pequeos que generarn valores 8
de alta frecuencia. Los mtodos de compresin por transformacin se aprovechan de esta circunstancia para reducir el nmero de datos a codificar. La transformada discreta del coseno es la herramienta de transformacin ms utilizada por los mtodos de compresin intracuadro. Esta transformada, que aprovecha la existencia de redundancia espacial en las imgenes y la encontraremos en los estndares JPEG, MJPEG y sus derivados, y en la familia MPEG.
3.4.1. Clculo de la DCT unidimensional

La DCT es una transformacin matemtica que convierte una secuencia de muestras de N valores, en otra secuencia del mismo tamao N cuyos valores, como ahora veremos, representan una distribucin de frecuencias La expresin de la transformada discreta del coseno (DCT) unidimensional correspondiente a una secuencia de nmeros x[n] de tamao N es la siguiente.
N!1
DCT(x[n])
C[u]
(u )
n 0
x[n] cos
(2n"1) ! u 2N
En esta expresin, la variable u de salida, que representa el ndice del coeficiente que se est calculando, adopta los valores comprendidos entre 0 y N-1, de manera que la DCT resulta ser una secuencia tambin de tamao N. Asimismo, el valor de n representa a los ndices de cada elemento de la secuencia que se quiere transformar. El parmetro (u) tiene dos valores posibles, que son estos:
(u ) | u
1
0
(u ) | u
2
0
Existen otras formas de escribir esta expresin con valores derivados de este (u), pero llevan a resultados equivalentes. Los N valores C[u], obtenidos al aplicar esta transformada a la secuencia de N valores x[n], se denominan coeficientes de dicha transformada. La transformada inversa (IDCT DCT-1) permitir obtener la secuencia x[n] a partir de los coeficientes transformados, y se define as.
N!1
DCT (C[u])
!1
x [n ]
u 0
(u) C[u] cos
(2n"1) ! u 2N
El clculo de la DCT que se desprende directamente de las frmulas anteriores resulta engorroso, y cuando el nmero de elementos de la secuencia es alto, se impone la utilizacin del ordenador. No obstante existen mtodos de clculo ms sencillos. De todos ellos, aqu se va a presentar el llamado mtodo de las funciones base porque nos permite extraer conclusiones importantes de esta transformacin. 9
Vdeo Digital
El mtodo de las funciones base tiene su fundamento en el hecho que, de la expresin de la DCT vista anteriormente, una vez definido el tamao N de la secuencia a transformar, la funcin coseno tiene valores fijos. A dicha funcin coseno se le denomina funcin base, y para cada valor de u se calcula de esta forma
f [n ] | u
cos
(2n"1) ! u 2N
En esta expresin, el valor de N es, en general, conocido para cada aplicacin. Por ejemplo, para aplicaciones de video, el valor ms usual es N=8. A partir de estas funciones base, el valor de cada C[ui] se calculara segn la siguiente expresin
N!1
DCT(x[n])
C[u]
(u )
n 0
x[n] f[n]|u
Considerando la secuencia a transformar x[n] y la funcin base f[n] |u como vectores de N dimensiones, los C[u] resultado de la DCT resultan ser el producto escalar de estos dos vectores, afectado por el factor constante (u). Es conocido, que el resultado del producto escalar de dos vectores depende de los mdulos de ambos, y del coseno del ngulo que forman, que ser mximo en el caso en que ambos vectores tengan la misma direccin y sentido. Si se representan grfi c a m e n t e l o s valores resultantes de calcular las funciones base para cada valor de u con un tamao de secuencia de N=8, los resultados pueden verse en la figura 4. A partir de esta figura podemos observar que para cualquier secuencia x[n] de tamao N=8, los C[u] se calcularn a partir del producto escalar de dicha secuencia con cada una de estas funciones base Figura 4. Funciones base de la DCT unidimensional. f[n] aqu representadas. En un 10
producto escalar entre dos vectores, si fijamos uno de ellos, como es el caso de cada funcin base, el producto escalar con cualquier vector x[n], nos da un resultado proporcional a la componente que tiene el vector x[n] en la direccin de cada funcin base f[n]. As pues, este producto ser mayor cuanto ms paralelos sean ambos vectores. Segn esto anterior, el coeficiente C[0] dar una referencia del nivel de continua (frecuencia f=0) de x[n]. Asimismo, el producto escalar de dicha secuencia x[n] por la funcin base f[n]|1 resultar un C[1] mayor, cuanto ms se parezcan la secuencia x[n] al vector f[n]|1; es decir, C[1] ser proporcional al contenido de frecuencia f=1/16 de la secuencia. Sucesivamente, C[2] ser proporcional al contenido de la secuencia en la frecuencia f=2/16, etc... As pues, mediante la DCT se consigue transformar una secuencia x[n] en otra, C[u] que indica su distribucin espectral
3.4.2. Generalizacin de la DCT bidimensional

La DCT bidimensional es una transformacin matemtica que convierte una matriz genrica de M x N valores, que en el caso de las imgenes corresponderan a niveles de brillo o color, en otra matriz del mismo tamao (MxN), cuyos valores representan la distribucin de las frecuencias. Una vez visto por encima el desarrollo de la DCT unidimensional podemos ver de la misma manera la DCT bidimensional que es la que se aplica a las imgenes, considerando cada muestra x[m,n] como el valor del nivel de gris de un pxel. Dada una secuencia bidimensional x[m, n] formada por una matriz de valores en la que m adopta los valores del conjunto (0, ... M-1) y n adopta los valores entre 0 y N-1, su DCT se define como sigue.
M! 1 N!1
C[u,v]
(u ) " (v )
m 0 n 0
x[m,n] cos
(2m"1) ! u (2n"1) ! v cos 2M 2N
De la misma manera que antes, las variables u y v de salida adoptan los valores comprendidos entre 0 y M-1, y entre 0 y N-1 respectivamente; de manera que la DCT resulta ser tambin una matriz de tamao MxN. Los parmetros (u) y "(v) tiene dos valores posibles, que son estos:
(u ) | u
1
0
(u ) | u
2
0
11
Vdeo Digital
" (u ) | u
1
0
" (u ) | u
2
0
Los M x N valores C[u, v], obtenidos al aplicar esta transformada a la secuencia de MxN valores x[m, n], se denominan coeficientes de dicha secuencia. La transformada inversa, IDCT DCT-1, permitir obtener la secuencia x[n, m] a partir de los coeficientes transformados. Esta trasformada inversa se define como sigue:
M! 1 N!1
x[m,n]
m 0
(u )
n 0
"(v) C[u,v] cos
(2m"1) ! u (2n"1) ! v cos 2M 2N
Para el clculo de la DCT bidimensional existe tambin el mtodo basado en las funciones base. En este caso, las funciones base estarn compuestas por los dos cosenos que se muestran en la expresin de la DCT, uno en la direccin m y otro en la n.
f(m,n) |u,v
En las aplicaciones de compresin de imgenes digitales, los valores de M y N son siempre 8. A partir de estas funciones base, el valor de cada C[u, v] se calculara como si se tratara del producto escalar de dos vectores: mediante la suma de los productos entre elementos homlogos de la funcin base, y de la matriz a transformar, afectado por los factores (u) y "(v).
cos
(2m"1) ! u (2n"1) ! v cos 2M 2N
Si se representan con niveles de gris los valores resultantes de calcular las funciones base para cada par de valores (u, v) con un tamao de secuencia de M=N=8, los resultados pueden verse en la figura 5. Los cuadros en blanco Figura 5. Representacin grfica de las funciones base de la DCT bidimensional. 12
corresponden a valores de coeficientes igual a 1, y los cuadros negros corresponden a coeficientes de valor -1. Atendiendo a la figura, cada coeficiente de la transformada representar la cantidad de informacin que contiene el bloque 8x8 original en su conjunto, entorno a las frecuencias verticales y horizontales representadas por los valores u y v. Estas componentes frecuenciales comprenden desde la frecuencia cero (DC) cuyo coeficiente vendr representado en la parte superior izquierda, hasta la mxima frecuencia espacial horizontal posible, representada en la parte superior derecha, o la mxima frecuencia espacial vertical posible representada en la parte inferior izquierda, pasando por todas las posibles combinaciones de frecuencias espaciales horizontales y verticales. Si el bloque 8x8 a transformar corresponde a un trozo de decorado completamente uniforme, y completamente blanco, todos los coeficientes frecuenciales seran cero excepto el correspondiente a la DC (parte superior izquierda). El valor de los coeficientes ms a la derecha aumentar a medida que aparezcan en l ms contenidos de altas frecuencias horizontales (incremento de perfiles verticales abruptos). En sentido vertical, los coeficientes se comportan de manera similar. Si el bloque original correspondiese a un rea de la imagen que tuviera un dibujo en forma de rayas verticales alternativamente blancas y negras y cada raya coincidiese con la anchura de un pxel, el coeficiente frecuencial correspondiente al bloque situado arriba a la derecha tomara el valor mximo, y el resto seran cero, excepto el correspondiente a la DC que siempre indicar el valor medio de la DC de todo el bloque. Si un bloque de la imagen contiene una gradacin de brillo en cualquier direccin, su DCT tiene nicamente el coeficiente de frecuencia cero (el primero) y sus tres coeficientes perifricos distintos de cero. El resto de los 60 coeficientes sern cercanos o iguales a cero. Es evidente, que estas situaciones extremas no sern habituales, sino que los coeficientes frecuenciales estarn distribuidos en funcin del contenido de la imagen, si bien es cierto que estos coeficientes, por la propia naturaleza de las imgenes, tendrn una tendencia muy clara, como vamos a ver. De forma general, en las imgenes con poco detalle o normales en detalle, casi todos los coeficientes que son distintos de cero se agruparn en la esquina superior izquierda de la matriz de coeficientes. Esta caracterstica de la DCT la trataremos en las propiedades que se detallan en el siguiente apartado.
13
Vdeo Digital
3.4.3. Propiedades de la DCT

La DCT por s misma, al pasar de una matriz a otra del mismo tamao no implica compresin alguna, pero tiene algunas caractersticas importantes que la hacen muy til para nuestro propsito. Sin llegar a hacer un estudio exhaustivo, nos vamos a centrar en aquellas propiedades que nos van a ser tiles en los procesos de compresin de imgenes. a)- Una de las propiedades ms importantes y que se puede comprobar directamente de la definicin es la de separabilidad. En este caso. la separabilidad quiere decir que una DCT bidimensional se puede expresar como un conjunto de varias DCTs unidimensionales. Si x[m,n] = x1[m] x2[n], C[u,v] = C 1[u] C2[v].
b)- La DCT presenta tambin la propiedad de una gran compactacin de la informacin en los coeficientes de menor orden, de tal manera que los de orden superior tienen un valor nulo o caso nulo, salvo en el caso de imgenes que presenten una anormalmente alta variacin espacial. c)- Los coeficientes resultado de la DCT presentan entre s una muy pequea correlacin. Esta propiedad es especialmente importante en aplicaciones de compresin de imgenes, ya que de esta forma ser posible dar a los coeficientes tratamientos totalmente diferentes dependiendo del lugar que ocupen dentro de la matriz de coeficientes. d)- La transformada de Fourier es una transformada compleja, con parte real y parte imaginaria, lo que complicado el trabajo con ella. Sin embargo la DCT es una transformada real; sus resultados son muestras de la funcin coseno, y esto simplifica mucho su manejo. e)- Si en la transformada de una imagen se suprimen los coeficientes de mayor orden, al volver a calcular la transformada inversa, se obtiene una muy buena aproximacin de la imagen inicial.
3.4.4. Utilizacin de la DCT para compresin de vdeo

La transformada discreta del coseno se considera la base en la mayora de los algoritmos de compresin de video, tanto intracuadro (redundancia espacial) como intercuadro (redundancia temporal). Esta transformada se suele aplicar dividiendo las 720x576 muestras activas de una imagen en bloques de 8x8 pxeles.
14
3.4.4.1. Lectura en zig-zag

La DCT por si sola, como se ha visto en el apartado de propiedades, no comprime. sta, al transformar la informacin del dominio espacial al dominio de la frecuencia, recoloca la informacin de tal manera que es ms fcil eliminar la parte redundante, consiguiendo reducir el flujo binario. A continuacin, se presenta un ejemplo de matriz 8x8 y su correspondiente DCT bidimensional. !76 !73 !67 !62 !58 !67 !64 !55 !65 !69 !62 !38 !19 !43 !59 !56 !66 !69 !60 !15 x[m,n] !65 !70 !57 6 16 26 !24 !62 !55 !22 !28 !59
!61 !67 !60 !24 !28 !40 !60 !58 !49 !63 !68 !58 !51 !65 !70 !53 !43 !57 !64 !69 !73 !67 !63 !45 !41 !49 !59 !60 !63 !52 !50 !34
!414 !29 !62 6 !46 C[u,v] !49 11 !10 !3 !1 !21 !62 8 12 !8 1 !1 !1 77 34 !12 3 1 0
25 8
55 12
!20 !1 !7 10 6 1 0 !4 0 !6 6 1 !5 2 2 !1
2 7 !5 1 2 0 !3 0
!26 !30 !14 !10 !2 !3 0 !3 !1 0 1 0
Si observamos detenidamente la distribucin de los coeficientes frecuenciales en los bloques transformados, podemos ver que los ms significativos se encuentran en el cuadrante superior izquierdo, que corresponde a las bajas frecuencias. Conforme nos vamos alejando de este cuadrante hacia la derecha y hacia abajo, el valor de los coeficientes disminuye drsticamente. Este hecho, surge por la propia informacin contenida en las imgenes, pero existe otra razn por la que podemos decir que la informacin de alta frecuencia, que de por s es poca, puede despreciarse. Esta razn aparece por la forma en que el sistema visual humano atiende a las imgenes. De toda una imagen, el sistema visual presta atencin a un objeto o conjunto de objetos concretos, considerando lo dems como fondo que carece de importancia. Por lo general, 15
Vdeo Digital
los objetos a los que hay que atender se representan en primer plano, con lo que el contenido de bajas frecuencias es todava ms importante que el de altas frecuencias. La mayor parte de los contenidos de alta frecuencia quedan en el fondo, y su eliminacin apenas resta informacin real a la imagen. Considerando estas caractersticas, a la hora de serializar los coeficientes de la DCT para almacenarlos o transmitirlos, se hace conveniente una lectura de las matrices de coeficientes de manera que los de menor peso queden agrupados, y as se puedan eliminar o codificar ms fcilmente mediante un cdigo de longitud de recorrido (RLC) que signifique los siguientes n coeficientes son nulos. Segn esto, la lectura de los coeficientes se realiza en zig-zag comenzando desde el coeficiente DC, y terminando en su lado opuesto. Esto permite procesar en primer lugar las bajas frecuencias espaciales y decidir posteriormente si se procesan o se eliminan los coeficientes correspondientes a las altas frecue n c i a s , y decidir con posterioridad si se procesan o se eliminan los coeficientes correspondientes a las altas frecuencias. Figura 6. Lectura de la matriz de coeficientes en Realizando la lectura de esta exploracin progresiva y entrelazada manera, se pueden procesar los coeficientes de ms nivel, y eliminar el resto consiguiendo factores de compresin, aunque modestos, sin que la calidad subjetiva de la imagen quede afectada. En este caso se tratar de una compresin subjetivamente sin prdidas, consiguiendo una compresin 2:1 directamente al aplicar la DCT sin efectuar redondeos.
3.4.4.2. Cuantificacin de los coeficientes

Para conseguir una mayor compresin, podemos aplicar otra herramienta al resultado de la DCT. Esta herramienta va a ser una cuantificacin ponderada de los coeficientes. Esta cuantificacin ponderada se basa, como es lgico, en la mayor o menor importancia de cada coeficiente respecto de la calidad subjetiva final, es decir en el contenido frecuencial de cada coeficiente. A cada coeficiente de la DCT se le aplica una cuantificacin definida por un determinado tamao de escaln de cuantificacin. En aquellos coeficientes donde su redondeo afecte ms a la calidad, el escaln de cuantificacin ser menor, y aquellos coeficientes menos importantes se cuantificarn con escalones ms grandes. Esta cuantificacin queda definida por una matriz de valores que representarn los tamaos de los escalones, y que se llama matriz de cuantificacin.
16
Esta cuantificacin va a hacer que algunos coeficientes que antes eran cercanos a cero, al redondear se vayan a cero, y otros que no se vayan a cero, puede hacerse que se codifiquen con menor nmero de bits, y as se consigue un mayor nivel de compresin. De esta manera se consigue un mayor nivel de compresin. Existe toda un coleccin de matrices de cuantificacin establecidas que minimizan la degradacin subjetiva de la calidad. La matriz de cuantificacin por defecto aplicada a los algoritmos JPEG aparece en la siguiente expresin.
16 11 10 16 12 12 14 19 14 13 16 24 JPEG 14 17 22 29 18 22 37 56 24 35 55 64 24 26 40 51 68 81 40 58 57 87 51 60 69 80 61 55 56 62 77 92 99
109 103 104 113
49 64 78 87 103 121 120 101 72 92 95 98 112 100 103
El resultado del redondeo de coeficientes de C[u,v] anterior es:

!26 !3 !6 1 !3 round(C[u,v]/JPEG) !4 1 0 0 0 !2 !4 1 1 0 0 0 0 5 2 0 0 0 0 2 0 0 0 0 0 0 2 0 0 0 0 0 0 !1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
!1 !1
como se observa gran parte de los coeficientes se van a cero. En la actualidad se considera que una compresin 3,3:1, que provoca un redondeo moderado de los coeficientes, tampoco provoca prcticamente degradacin subjetiva de la calidad. Esta no degradacin subjetiva viene marcada por la posibilidad de multigeneracin vista en apartados anteriores. Todos los factores de compresin mayores que 3,3:1 necesitarn un mayor redondeo de coeficientes, y por lo tanto mayor prdida de informacin. Obviamente, esta mayor cuantificacin s merma la calidad de la imagen. Estamos entrando entonces en el terreno de la compresin con prdidas subjetivas, y dependiendo de los valores de la cuantificacin tendremos una prdida de calidad mayor o menor, y a costa de ello una mayor o menor compresin.
17
Vdeo Digital
3.4.4.3. Codificaciones VLC y RLC

A partir de la cuantificacin anterior, y mediante la lectura en zig-zag presentada se pretende que al final de cada bloque 8x8 se codifique con el menor nmero de bits posible.. Los coeficientes que despus del redondeo resulten nulos, se codificarn con tcnicas de longitud de recorridos (RLC), que agruparn en un slo cdigo toda una cadena de ceros. Existir un nmero grande tambin de coeficientes que no llegarn a ser cero, pero cuya codificacin Huffman de longitud variable (VLC), vista en apartados anteriores, permite su codificacin con pocos bits.
3.5. Algunos estndar de compresin

3.5.1. La norma JPEG
La norma JPEG (Joint Photografic Experts Group) nace como consecuencia de la necesidad de comprimir imgenes fotogrficas, y por tanto estticas. Se puede utilizar compresin subjetivamente sin prdidas, que alcanzara factores de compresin de hasta el 3,3:1, y compresin con prdidas, que puede llegar hasta el factor 100:1 dependiendo del grado de prdidas que estemos dispuestos a permitir. El estndar JPEG opera bien en el rango de flujos binarios de 3,3 a 80 Mb/s. La norma JPEG consiste fundamentalmente en aplicar la DCT a los bloques de imagen de 64 pxeles (8x8), realizar el proceso de cuantificacin eliminando los coeficientes con menor peso, realizar la lectura en zig-zag, y posteriormente considerar la redundancia estadstica mediante una codificacin Huffman junto con la RLC. Existen dos tipos de estructuracin de los datos comprimidos: la estructura secuencial y la estructura progresiva. Mediante la estructuracin secuencial, la informacin se transmite por bloques de 8x8 completos con toda su definicin ledos en zig-zag. En la estructura progresiva, se van enviando sucesivamente los diferentes coeficientes frecuenciales de todos los bloques, comenzando con los correspondientes a la DC y tambin utilizando la lectura en zig-zag. De esta manera se explica la forma de carga de algunas imgenes en internet que van ganando definicin conforme van llegando los datos La norma JPEG es una norma bastante abierta, ya que permite un grado de compresin variable en funcin de las necesidades, suprimiendo los coeficientes frecuenciales necesarios hasta conseguir el grado de compresin requerido.
18
3.5.2. El estndar MJPEG

El estndar MJPEG nace ante la necesidad de comprimir las imgenes en los procesos de edicin no-lineal. En esta tarea, una compresin intercuadro como la que se definir en el siguiente apartado de MPEG se hace difcil de manejar, ya que en algunos casos es necesaria la lectura y decodificacin de varias imgenes para obtener la informacin de un cuadro concreto. Con este panorama, las compaas fabricantes de equipos de edicin no-lineal se vieron en la necesidad de sacar al mercado sus equipos sin que los organismos competentes hubieran desarrollado una norma. En realidad la tcnica MJPEG, es un sistema de compresin JPEG aplicado sucesivamente a todas las imgenes. Al no existir un estndar definido, cada fabricante desarrollo el suyo, siendo normalmente incompatibles entre s. El formato AVID utiliza un MJPEG con relacin de compresin 3:1, mientras que el EVS utiliza compresin 6:1. Hay que sealar, que la compaa SONY ha desarrollado un sistema de compresin intercuadro vlido para postproduccin, y que constituye una de las variantes de la familia MPEG que veremos ms adelante.
3.5.2.1. Diagrama de bloques

Segn todo lo explicado hasta ahora, el proceso de compresin de las imgenes de televisin sera el siguiente: A partir de las tres seales primarias R, G y B se obtendrn las seales de luminancia (Y) y de diferencia de color (R-Y, B-Y), se digitalizarn segn la norma 4:2:2. Posteriormente, se realizar la transformada discreta del coseno, y se procede a cuantificar los coeficientes frecuenciales; se realiza la lectura en zig-zag, y finalmente, se aplican las codificaciones VLC y RLC para utilizar el menor nmero de bits posible para la transmisin o almacenaje. Todo esto se puede ver en la figura 7. En esta figura aparecen en la esquina superior derecha dos bloques que analizamos a continuacin. En el caso de querer transmitir la informacin de vdeo por un canal con tasa binaria constante, la compresin definida de esta manera produce diferentes niveles de compresin dependiendo del contenido del bloque 8x8 a procesar. Un bloque de color uniforme se codificar nicamente mediante su coeficiente DC y un bloque con distinto contenido necesitar ms coeficientes para representarlo. Esto hace imprevisible la velocidad a la que puede enviarse la informacin comprimida. Para solucionar esto, los sistemas de codificacin y transmisin disponen de una cola, o un buffer, de salida y un bucle de control de flujo binario que va cambiando la matriz de cuantificacin, y con ello la compresin conseguida en funcin de las necesidades de cada momento. Si la cola de salida est muy llena, el bloque de control de flujo acta sobre la matriz de cuantificacin aumentando los escalones. Este aumento provocar un aumento en la compresin, y por tanto, una disminucin de la entrada de datos a la cola. En el caso en que la 19
Vdeo Digital
Figura 7. Diagrama de bloques de un compresor de vdeo digital para transmisin basado en la DCT. cola se est vaciando, el bloque de control de flujo disminuye el tamao del escaln, disminuyendo temporalmente la compresin. La variacin de la compresin afectar a la calidad instantnea de las imgenes. No obstante, se debe tener en cuenta que los aumentos de compresin se producirn en los instantes en que la escena tenga mucho detalle, con lo que el ojo probablemente sea menos sensible a este cambio de compresin. En el caso en que las imgenes tengan poco detalle, el ojo ser ms sensible, pero al disminuir la compresin se conseguir mantener una calidad subjetiva alta.
3.6. Estndar de compresin MPEG-2

Las normas MPEG, han revolucionado la industria de la televisin y las comunicaciones, al conseguir reducir de manera drstica el flujo binario, sin prdida subjetiva de calidad en la imagen. Dada la importancia que tiene el estndar de compresin MPEG-2 en la televisin digital actual, se ha preferido tratarlo en un apartado completo, aunque como se podr comprobar, utiliza la mayora de las tcnicas de compresin vistas hasta ahora. En el mundo del vdeo digital, la cantidad de aplicaciones se ha disparado en los ltimos aos. Cada aplicacin adems, requiere unos niveles de calidad distintos, as como un factor de compresin diferente. Mientras que en un sistema de difusin de televisin digital la calidad es un requerimiento importante, en el caso de la videoconferencia, que es el polo opuesto, la restriccin est en el ancho de banda del canal de que se dispone, y por tanto, la velocidad binaria que se puede utilizar, quedando la calidad de la imagen en un segundo plano. 20
Los mtodos MPEG de compresin pretenden ser lo suficientemente flexibles para poder satisfacer las necesidades de todos esos usuarios potenciales. Para cada uno de ellos, se ha creado un nico mtodo normalizado de compresin que asegura una forma de trabajo nica, pero que permite manejar distintos niveles de calidad y distintos factores de compresin, de manera que se ajuste fcilmente a los requerimientos de utilizacin de cada servicio (coste, resolucin, velocidad binaria, ...). Lo que cada uno de estos estndar intenta es ofrecer un mismo ncleo bsico parametrizable para cada una de las aplicaciones. El utilizar este mismo ncleo bsico supone un abaratamiento en los equipos de compresin y descompresin, debido a su amplia utilizacin. El primer estndar que se desarroll fue el MPEG-1, que apareci hacia 1988. Este estndar naci con la idea inicial de reducir el flujo binario al nivel utilizado por los soportes de audio CD, del cual deriv el CD-ROM, para almacenar en este soporte, imgenes en movimiento con un flujo binario de 1,5Mb/s. De hecho, este estndar opera bien en el rango de flujos binarios de 1,5 a 3 Mb/s. La norma MPEG-1, antes del proceso de compresin, somete a la seal de entrada a procesos de eliminacin de informacin drsticos. Lo primero es eliminar un campo de la imagen quedndose con una resolucin de 360x288 a 25 f/s. A partir de esto, este mtodo aplica la compresin intracuadro e intercuadro de forma parecida al formato MPEG-2 que se desarrollar ms ampliamente. nicamente varan parmetros tcnicos, de muestreo, cuantificacin, etc. siendo ms riguroso en MPEG-2 ya que va destinado al entorno profesional de mayor calidad. El estndar MPEG-2 est orientado al entorno profesional de la televisin digital. ste opera bien para flujos binarios de 3,5 a 100 Mb/s, y se aplica desde en los sistemas de produccin, hasta en las transmisiones de la televisin digital terrestre, por cable, y va satlite. Este estndar es capaz de soportar desde calidad VHS hasta calidad TVAD (en formato 16 / 9). La codificacin MPEG-2 va orientada a la eliminacin de la redundancia espacial y temporal. Esta compresin es adecuada para imgenes de calidad en movimiento (televisin). Para ello, aplica codificacin intracuadro e intercuadro, y adems aplica una codificacin final de correccin de errores. Con esto se consiguen relaciones de compresin como 270Mb/s a 50 Mb/s para comunicaciones dentro del estudio, 8Mb/s para difusin con calidad de estudio, y hasta 3,5Mb/s y 1,5Mb/s para transmisiones de menor calidad. Este estndar MPEG-2 tambin se utiliza en servidores de video bajo demanda, y en archivos de imgenes. Para la grabacin magntica se utiliza solamente en el formato Betacam SX. Existi un formato MPEG-3 orientado a la televisin de alta definicin, pero sus avances se incorporaron posteriormente al estndar MPEG-2, no teniendo mayor relevancia. El grupo MPEG-4 fue creado para investigar varios frentes de necesidades en la codificacin. El ms importante fue el de adaptar la informacin de vdeo a las redes telefnicas. Este grupo trabaj sobre tres posibilidades: para flujos inferiores a 64 kb/s, entre 64 kb/s y 384 kb/s, y entre 384 kb/s y 4 Mb/s. La compresin MPEG-4 se aplica en videoconferencias. Los 21
Vdeo Digital
defectos temporales y espaciales son abundantes como corresponde a los bajos flujos binarios de transmisin, pero se atenan controlando el movimiento de los objetos. La filosofa de MPEG-4 cambia con respecto al resto de los estndares anteriores, ya que introduce el concepto de codificacin de objetos, es decir, las imgenes se segmentan en objetos y es la informacin de los mismos la que se transmite. El estndar no fija como se deben obtener los objetos, estimar su movimiento, etc. Los algoritmos sern elegidos por cada diseador; la norma slo fija cmo guardar la informacin de dichos objetos. La compresin MPEG-4 a pesar de sus niveles de calidad ha permitido poner en servicio aplicaciones de comunicacin muy interesantes. Otros trabajos que realiza el grupo MPEG-4 estn relacionados con el interfaz entre el mundo multimedia, el ordenador y la televisin. El grupo MPEG-7 no est implicado en temas de compresin, sino en los metadatos. Este trabajo incluye la preparacin de normas sobre los contenidos audiovisuales, como por ejemplo llegar a la localizacin de las escenas en que aparecen ciertos personajes. Con ello se conseguira un acceso detalladsimo a todo tipo de contenidos del material audiovisual. Su aplicacin est en los archivos, en la edicin y montaje, en la redaccin periodstica, etc. El grupo MPEG-21 tampoco trabaja en compresin digital. Su objetivo fundamental es crear la codificacin oportuna para la gestin y uso del material audiovisual, incluyendo el soporte de infraestructura necesario para las transacciones comerciales y la gestin de los derechos correspondientes.
3.6.1. La compresin intracuadro de MPEG-1 y 2

La codificacin intracuadro elimina la redundancia espacial. La compresin intracuadro de los estndar MPEG-1 y 2 es similar a la vista en JPEG. Esta compresin est basada en el algoritmo de la DCT. La lectura de la matriz de coeficientes resultado de la DCT (de tamao 8x8) se realiza en zig-zag para imgenes no entrelazadas, ya que los elementos significativos que sern distintos de cero, estn ms a la izquierda y hacia arriba. Con esto, los ceros de la matriz quedan en los ltimos lugares de la secuencia reordenada. Posteriormente se aplican los mtodos VLC y RLC de minimizacin de la redundancia estadstica.
22
3.6.2. La compresin intercuadro: Compensacin de movimiento

La compresin intercuadro intenta detectar y eliminar la redundancia temporal entre cuadros sucesivos. Esta compresin se realiza mediante un proceso de codificacin diferencial, y otro llamado compensacin de movimiento. Con estas tcnicas se consiguen los niveles ms elevados de compresin.
3.6.2.1. Codificacin diferencial

La codificacin diferencial se establece de forma parecida a la codificacin DPCM vista en uno de los apartados anteriores. La imagen diferencia de un cuadro con respecto al anterior se puede obtener de manera sencilla. En primer lugar, se hace pasar a la seal por un circuito que tenga un retardo de un fotograma, o se almacena en una memoria de 1 cuadro de capacidad. Esta imagen retardada un cuadro, se suma posteriormente a la imagen actual (sin retardar) pero cambiada de signo, el resultado ser la imagen diferencia, que en la mayor parte de su contenido ser cero. Con esto, las zonas de la imagen que no cambian, no se codifican, limitndose el decodificador del receptor a repetir los pixeles del fotograma anterior. La tcnica de codificacin de la diferencia es buena cuando las imgenes son estticas. En el caso de imgenes con mucho movimiento, como acontecimientos deportivos en los que la imagen diferencia puede contener bastante informacin, al producirse cambios importantes de un fotograma al siguiente, ser ms productivo utilizar tambin la tcnica de compensacin de movimiento que se expone a continuacin.
3.6.2.2. Tcnica de compensacin de movimiento

La tcnica de compensacin del movimiento trabaja sobre pequeas reas de la imagen denominadas macrobloques de 256 pxeles (16x16); estos macrobloques estn compuestos por cuatro bloques. En las imgenes en movimiento, es habitual que algunas zonas de la imagen se desplacen en un fotograma con respecto al anterior. El sistema de compensacin del movimiento, trata de buscar el nuevo emplazamiento de los macrobloques, y calcular los vectores de desplazamiento codificando solamente dichos vectores. El proceso de prediccin comienza por comparar el macrobloque actual con el homlogo del fotograma anterior, si estos no son iguales, buscar un macrobloque idntico en la denominada zona de bsqueda, si lo encuentra codificar los vectores de desplazamiento, y si no lo encuentra realizar la comparacin con el ms parecido, codificando la diferencia entre los dos y los vectores de movimiento. La bsqueda se realiza en dos niveles, primeramente se realiza en una zona ms amplia, y la comparacin es gruesa, posteriormente se afina en una zona ms reducida. 23
Vdeo Digital
El codificador compara los resultados y toma las decisiones sobre el bloque idntico o bien sobre el ms aproximado. Si la diferencia es mayor que la cifra establecida, abandonar la bsqueda presumiendo que el bloque no se encuentra ya en la imagen, y codificar el mismo con codificacin espacial.
3.6.3. Imgenes I, P y B
La mayor compresin de los sistemas MPEG-1 y 2 no radica en la DCT y su mayor o menor cuantificacin. La mayor potencia de estos algoritmos MPEG est en tres modos de compresin de las imgenes. Estos modos de compresin dan lugar a lo que llamamos imgenes I, imgenes P e imgenes B.
3.6.3.1. Imgenes I (intracuadro)

Las imgenes I son imgenes que utilizan slo compresin intracuadro. Cada cuadro I es comprimido y procesado de forma independiente de los dems, y contiene por s solo toda la informacin necesaria para su reconstruccin. Las imgenes I son las que ms informacin contienen, y por tanto las que menos compresin aportan. Las imgenes I, siempre inician una secuencia y sirven de referencia a las imgenes P y B siguientes. En secuencias largas, es necesario disponer de imgenes I intercaladas, ya que facilitan el acceso aleatorio a un fotograma dentro de la secuencia. Si todas las imgenes dependen de la anterior podemos llegar a la situacin en que para recuperar una imagen, hemos de leer anteriormente todas las anteriores desde el principio, y eso, en ocasiones, no es productivo. La compresin intracuadro de las imgenes I coincide con el mtodo JPEG para imgenes estticas. Aqu se busca la redundancia de la imagen dentro del cuadro que se est procesando.
3.6.3.2. Imgenes P (prediccin)

Las imgenes P se generan a partir de la imagen I o P anterior ms prxima. El codificador compara la imagen actual con la anterior I o P, y codifica nicamente los vectores de movimiento y el error de prediccin. Se utiliza en este caso una prediccin hacia adelante. Estas aportan un grado importante de compresin.
24
3.6.3.3. Imgenes B (bidireccionales)

Por ltimo las imgenes B (Bidireccionales) se generan a partir de imgenes previa y futura de los tipos I o P. Mientras que las imgenes I y P pueden propagar errores, ya que de ellas dependen otras, las imgenes B no lo hacen, ya que no intervienen en otras predicciones posteriores. La filosofa de la prediccin bidireccional se fundamenta en el hecho en que la cmara en cualquier momento puede realizar una panormica, un traveling, o que dentro de la escena los objetos se mueven. Cuando la cmara hace una panormica, una parte de la imagen se va escondiendo por un lado mientras que otra parte se va desvelando por el otro. Tambin aunque la cmara est fija, cuando se producen desplazamientos de objetos en la escena, por una parte irn desvelando partes fijas de la escena (edificios, decorados, etc), y por otra irn ocultando otras partes. En estos casos, cuando se quiere predecir el contenido de una imagen, puede resultar ms eficaz tomar como referencia imgenes anteriores en una parte del fotograma, y posteriores en otra. En el ejemplo de la figura 8, se muestra, en primer lugar una escena de la que se realizar una panormica. En la parte inferior aparecen tres fotogramas de esa panormica nombrados como F1, Figura 8. Fotogramas I, P y B. F2 y F3. En la explicacin siguiente vamos a suponer que la imagen F1 se codifica como imagen I, el fotograma F2 se codifica como B, y el fotograma F3 se codifica como P. Al fotograma primero, por codificarse como I se le aplica una compresin intracuadro a partir de su propio contenido. Para el fotograma F3 se utiliza la tcnica de prediccin respecto del fotograma F1; con lo que se extraern los macrobloques de la zona del personaje, de la imagen F1; y la zona donde aparece la cmara se codificar intracuadro, ya que en el fotograma I no hay informacin al respecto. La imagen F2 se codifica como imagen bidireccional entre los fotogramas F1 y F3. En ella, los macrobloques de la zona del bafle pueden recuperarse de la imagen F1; la parte que corresponde al personaje puede tomarse de cualquiera de las dos imgenes F1 o F3; y finalmente, la parte de la cmara se puede sacar del fotograma F3, con lo que el fotograma bidireccional puede codificarse mediante unos cuantos vectores de movimiento y un error de prediccin que puede llegar a ser muy pequeo. Aunque el procesamiento de los fotogramas B complica los algoritmos de codificacin, esta complicacin compensa el beneficio de conseguir importantes niveles de compresin en estos cuadros.
25
Vdeo Digital
3.6.3.4. Grupo de fotogramas (GOP)

La sintaxis de MPEG-1 y 2 permite elegir cuntas imgenes I se dan por segundo as como el nmero de imgenes P y B intercaladas para cada aplicacin. Al nmero de cuadros que se tienen entre dos imgenes I consecutivas se le llama grupo de fotogramas (GOP - Group Of Pictures). El tamao GOP tpico en MPEG-2 es de 12 fotogramas. Esto obliga a los decodificadores a disponer de un buffer con capacidad para almacenar 12 fotogramas. El GOP puede ser menor de 12 fotogramas pero en general nunca ser mayor. Slo en MPEG-1 se pueden encontrar GOPs ms largos, existiendo un mayor nmero de imgenes con bajos flujos binarios. Si durante una secuencia de imgenes se produce un cambio de plano, el codificador detectar que el contenido del primer fotograma del nuevo plano no encuentra coincidencias con el anterior y por lo tanto lo codificar y definir como una imagen I. Dentro de un GOP, el flujo natural de las imgenes que se representan suele ser ste. I B B P B B P B B P B B I ... Sin embargo, para la transmisin es preciso cambiar el orden de los fotogramas. Esto es porque, en recepcin, para decodificar cada imagen B es necesario antes haber decodificado la imagen I o P anterior y la posterior. De esta manera, el orden de transmisin se ve alterado adelantando las imgenes P posteriores , o lo que es lo mismo retrasando las imgenes B hasta enviar la imagen I o P posterior; quedando el flujo de imgenes de esta forma: I P B B P B B P B B I B B ... Posteriormente, ser tarea del decodificador el recuperar el orden natural para la presentacin en pantalla. El sistema Betacam SX, orientado a aplicaciones de postproduccin, utiliza una secuencia de GOP de tamao 2 (IBIBIB) con objeto de poder realizar ediciones de precisin, aunque esta variante no constituye un estndar como tal.
26
3.6.4. Esquema del decodificador MPEG-2

El esquema del decodificador es mucho ms sencillo que el del codificador. Por ello lo presentamos en primer lugar
En primer lugar, el demultiplexor separa los datos correspondientes al error de prediccin del fotograma de los vectores de movimiento. Posteriormente se decodifica el error de prediccin, y se suma a la imagen obtenida del fotograma anterior y de los vectores de movimiento, obtenindose la imagen actual. Esta imagen actual se almacena para la decodificacin del siguiente fotograma. Finalmente, se reordenan los fotogramas para obtener el orden natural de la secuencia a partir del orden de transmisin de la misma. Hay que destacar que el proceso codificacin decodificacin en MPEG no es simtrico. El codificador es bastante ms complicado y por tanto necesita una mayor potencia de clculo, mientras que el decodificador debe realizar procesos ms sencillos. Esta estructura es lgica, teniendo en cuenta que el codificador se encuentra en el equipamiento profesional de produccin y emisin, y el decodificador es un elemento del equipamiento domstico de los receptores. Resumiendo, el sistema MPEG-2 divide la imagen en pequeas reas de 8x8 pxeles llamadas bloques, y de 16x16 pxeles llamadas macrobloques, realizando diversos procesamientos diferentes a cada uno de ellos. Existen dos etapas diferenciadas; la compresin intracuadro que trata de minimizar la redundancia espacial, y la compresin intercuadro que hace lo propio con la redundancia temporal. La compresin intracuadro consiste fundamentalmente en aplicar la DCT a los bloques 8x8, cuantificar los coeficientes, y aplicar una codificacin VLC (normalmente Huffman). La compresin intercuadro se basa en la aplicacin de la compensacin de movimiento a los macrobloques, y la codificacin diferencial a la imagen completa. Segn la compresin intercuadro podemos distinguir imgenes I, imgenes P, e imgenes B. La suma de todos estos procesos lleva a niveles de compresin notables, manteniendo no obstante la calidad subjetiva de la imagen y haciendo posible la reversibilidad del proceso a fin de recuperar la imagen original. 27
Vdeo Digital
3.6.5. Esquema del codificador MPEG-2

A la vista del codificador MPEG-2 la primera operacin a realizar es reordenar las imgenes de la secuencia al orden de transmisin, ya que para codificar las imgenes B hemos de haber codificado antes las imgenes I y P posteriores. A continuacin, y a partir de las imgenes ya codificadas se calculan los vectores de movimiento. A partir de los vectores de movimiento y de la prediccin de la imagen ofrecida por el codec JPEG (bloques TDC, Q, Q-1, y TDC-1) se realiza la codificacin diferencial. Con la imagen diferencia se realiza la DCT y posteriormente el cuantificador realiza una cuantificacin distinta en los coeficientes dependiendo de la frecuencia a la que representan. Tambin aparecen el cuantificador inverso y una DCT inversa. Su misin es simular al decodificador en la forma de predecir las imgenes, para despus calcular la diferencia entre la imagen real y la prediccin que utiliza el decodificador. El bloque CLV hace referencia a las codificaciones de longitud variable y de longitud de recorrido. La codificacin de longitud variable asigna palabras de cdigo ms cortas a aquellos cdigos que tienen una mayor frecuencia de aparicin, mientras que la codificacin de longitud de recorrido codifica, a partir del ltimo coeficiente distinto de cero, que los dems del bloque son todos cero hasta el final. Estas dos codificaciones aportan un nivel de compresin moderado. El multiplexor de salida conforma un tren de datos en el que aparece toda la informacin necesaria para el decodificador; incluyendo la informacin de todos los bloques 8x8 y los vectores de movimiento.
28
Finalmente el buffer de salida y el regulador mantienen constante el flujo binario hacia el decodificador.
3.6.6. Estructura del tren de datos MPEG-2

El tren de datos de MPEG se estructura de mayor a menor en los siguientes elementos: Secuencias, GOPs, Imgenes, Slices, Macrobloques, y Bloques. Cada uno de estos elementos contiene una cabecera de datos en la que se especifican los atributos del mismo, de manera que se facilite el trabajo del decodificador. Los Bloques son cuadrados de 64 pxeles (8x8), y son la unidad de proceso de la DCT. El Macrobloque es una asociacin de cuatro bloques, y consta de 256 pxeles (16x16). Esta es la unidad de comparacin para el clculo de los vectores de movimiento. Adems, en el caso de codificacin 4:2:0, que es habitual en MPEG-2, el macrobloque es la unidad de procesamiento de la DCT para las seales de diferencia de color. Un slice son un grupo de macrobloques asociados en sentido horizontal y tomados de izquierda a derecha. Pueden constar desde un macrobloque hasta toda una lnea, pero un mismo slice nunca debe estar compuesto por macrobloques de diferentes lneas. En la figura se representa un conjunto de slices de una imagen en determinadas posiciones; estas posiciones pueden cambiar de una imagen a otra. No es necesario que toda la imagen est cubierta por slices, pueden Figura 11. Divisin en slices de una imagen. quedar macrobloques que no correspondan a ninguno de ellos. Esas zonas sin slice definido quedarn sin codificar para esa imagen. La norma MPEG no especifica lo que debe hacer el decodificador en estos casos, aunque lo ms intuitivo es mantener esas zonas iguales a la imagen anterior. Obviamente esto slo es aplicable a imgenes tipo P y B, ya que las imgenes I, por definicin, van codificadas por completo. El concepto de imagen en MPEG-2 no es el mismo al que estamos acostumbrados. Dependiendo de los casos, cuando utilizamos exploracin entrelazada puede ser ventajoso considerar imagen, tanto un campo, como un cuadro. En imgenes sin movimiento, puede considerarse como imagen un campo o un cuadro indistintamente, puesto que el contenido de ambos campos sera muy similar. En cambio, si existen movimientos rpidos utilizando 29
Vdeo Digital
exploracin entrelazada, las diferencias en cuanto a contenido entre los campos pueden ser muy importantes, as que ser conveniente procesar por separado cada campo. En el caso que utilicemos el concepto de imagen como un cuadro completo se habla de codificacin Frame DCT, y si definimos como imagen a un campo hablaremos de codificacin Field DCT. Independientemente del tipo de codificacin descrito, una imagen puede ser I, P o B, dependiendo de la compresin que se realice sobre ella. Esta informacin se indica en la cabecera de datos. Los GOP (group of pictures) son grupos de imgenes, acotados por dos imgenes de tipo intracuadro. Normalmente constan de 12 fotogramas y constituyen la unidad de compresin temporal. El GOP es el mnimo elemento capaz de contener por s solo toda la informacin necesaria para su descompresin, ya que como hemos visto algunos tipos de imgenes necesitan de otras para su total descompresin. Una secuencia consta de varios GOPs, indicando los datos de la cabecera, la relacin de aspecto, el flujo binario, y otros datos relacionados con el programa al que pertenecen.
3.6.7. Niveles y perfiles en MPEG-2

La familia MPEG-2 se ha presentado en apartados anteriores como un mtodo de compresin flexible en cuanto a las caractersticas de la secuencia de vdeo a comprimir, al factor de compresin, a la calidad de la secuencia de vdeo de salida y al coste de los equipos. La norma MPEG-2 contempla imgenes con exploracin entrelazada y progresiva, as como los estndares de codificacin 4:4:4, 4:2:2, y 4:2:0. Tambin admite distintos valores de resolucin de imgenes, que incluyen todas las frecuencias de campo y trama usadas en televisin desde la ms baja resolucin hasta la alta definicin. Asimismo, esta norma define diferentes tipos de codificacin que permiten conseguir diferentes niveles de calidad y de precio. Se incluyen sistemas ms econmicos aunque de menor calidad, y sistemas de mayor calidad aunque por supuesto ms caros. Esta flexibilidad es posible mediante la definicin de diferentes niveles y perfiles que son capaces de conseguir un modo de compresin adaptado a las necesidades de cada aplicacin.
3.6.7.1. Niveles
El nivel define la resolucin de las imgenes en base al nmero de pxeles y lneas a codificar. El nmero de cuadros por segundo se define siempre por la seal original antes de comprimir. Esta resolucin va desde la ms baja resolucin SIF (2:1:0) correspondiente a MPEG1, hasta la televisin de alta definicin con 1920x1152 pxeles.
30
Nivel bajo (Low) Nivel principal (Main) Nivel alto 1440 (high-1440) Nivel alto (high)
Resolucin SIF utilizada en MPEG-1 Resolucin 4:2:0 normal hasta 720x576 Previsto para TVAD hasta 1440x1152 Previsto para TVAD hasta 1920x1152.
Slo se codifican las muestras activas indicadas. Las seales originales tendrn muestras activas y no activas. Las no activas no son codificadas por MPEG-2, y sern regeneradas con nivel de borrado en el decodificador. Puede que el nmero de muestras activas no coincida con la resolucin de cada nivel. Para que esto sea posible, uno de los datos de sistema que deben conocerse es el tamao de imagen digital original. Es evidente que cada nivel usado dar lugar a un rgimen binario diferente. De cara a la construccin de los codificadores, no es necesario que todos ellos sean capaces de codificar a todos los niveles sino que existirn codificadores especficos para cada nivel. En este sentido, es importante saber que un codificador MPEG-2 que codifique en un nivel tambin lo haga en niveles inferiores.
3.6.7.2. Perfiles
Los perfiles, en cambio, definen un valor de compromiso entre compresin y coste del decodificador, y adems hacen posible la escalabilidad de la corriente de datos. El conseguir una mayor compresin sin perder calidad va a implicar una complicacin, tanto en el codificador, como en el decodificador, y esta complicacin llevar consigo un mayor coste de ambos. En MPEG-2 se definen los perfiles siguientes. Perfil simple.- Simplifica el codificador y decodificador. No utiliza imgenes tipo B (bidireccionales), y el tipo de muestreo soportado es 4:2:0. En este caso el factor de compresin es bajo. Perfil principal (main).- Mejor compromiso entre factor de compresin y calidad. Utiliza imgenes I, P y B. El decodificador y el decodificador son ms complejos que el anterior. Todas las imgenes se transmiten en formato 4:2:0. Perfil 4:2:2.- Este perfil es el que habitualmente se utiliza en produccin. Puede manejar imgenes tipo I, P y B. El muestreo es 4:2:2 aunque puede reducirse al 4:2:0. Slo se utiliza con el nivel principal, incrementando el nmero de pxeles y lneas activas respecto de dicho nivel a 720 muestras activas y 608 lneas por cuadro para sistemas 625/50 y 512 para sistemas 525/60. Como en produccin habitualmente se necesita acceso a fotogramas concretos para edicin, utiliza GOPs muy pequeos, de tamao 2 como IBIBIB o 3 por ejemplo IPBIPBIPB. Evidentemente, se requiere la presencia de muchas imgenes I con el fin de poder referenciar constantemente cuadros completos. Este perfil opera con flujos entre 20 y 50 Mb/s y admite generaciones mltiples de compresin y descompresin
31
Vdeo Digital
Perfil jerrquico (Scalable).- La informacin que contiene el flujo de datos MPEG-2 se estructura en dos capas: una primera capa con menor definicin llamada capa base, y una segunda capa llamada capa de mejora o capa de realce con la informacin suplementaria que se necesita para conseguir la mejora de calidad. La capa base contiene la informacin fundamental para decodificar la seal. Esta capa bsica se transmite fuertemente protegida soportando ambientes muy ruidosos, y puede ser decodificada por todo tipo de decodificador. A esta capa bsica se le aaden capas denominadas de realce que aumentan la definicin de la imagen, o su formato, y que slo podrn ser decodificadas por equipos ms complejos, instalados en los receptores ms caros. Las capas de realce suelen ir menos protegidas y por tanto son ms vulnerables en entornos ruidosos. Los perfiles escalables permiten transmitir al mismo tiempo diferentes resoluciones espaciales y diferentes grados de definicin, por ejemplo puede transmitir el mismo programa en alta definicin y en definicin estndar, o en formato 4:3 y 16:9. Esto lo hace, por una parte, jugando con la resolucin espacial (spatialy scalable profile), y por otra, con la cuantificacin (SNR scalable profile). En el caso de la escalabilidad SNR, la capa base contiene la informacin de vdeo con menos bits por muestra, y la capa de mejora agrega aquella informacin que se necesita para conseguir una mayor calidad. En la escalabilidad espacial la capa base contiene la informacin necesaria para conseguir un determinado nivel de la norma, como puede ser el nivel bajo, y la capa de mejora aporta el suplemento necesario para llegar a un nivel superior como el principal o el alto. Este concepto de escalabilidad tiene su aplicacin en la televisin digital terrestre, en la que van a coexistir dos tipos de receptores: receptores porttiles que solamente utilizarn la capa bsica, y receptores estacionarios utilizados en las viviendas, y dotados de un decodificador ms complejo, y con una seal ms estable, que adems de la capa bsica decodificarn tambin las capas de realce. Para la televisin digital europea, existe un gran inters en las aplicaciones de los perfiles jerrquicos. El perfil de escalabilidad espacial que permite dividir los datos de acuerdo con la resolucin y tambin con la relacin SNR, se puede crear una seal compuesta por tres elementos que conjuntamente darn lugar a una seal de alta definicin. De las tres partes de la seal, la capa de base utilizara jerarqua espacial para proporcionar una seal de 625 lneas. El resto de la seal se puede dividir aplicando el criterio de relacin SNR, creando as una segunda seal que junto con la capa base proporcionara una seal de alta definicin con un formato 4/3 y una relacin seal-ruido reducida. El tercer elemento de la seal, conjuntamente con los otros dos, dara una seal con el formato 16/9 de alta definicin Perfil alto (high).- Est previsto para aplicaciones en HDTV. Se utilizan imgenes tipo I, P y B, y el muestreo puede ser 4:2:2 o 4:2:0. La transmisin es escalable tanto en SNR como espacialmente.
32
Entre estos perfiles existe compatibilidad ascendente; los decodificadores de perfil ms alto son capaces de soportar perfiles ms bajos. La combinacin de niveles y perfiles produce una arquitectura que define la capacidad de un codificador para manejar determinado flujo binario. Los niveles y perfiles utilizados en Europa y Amrica a nivel domstico son el nivel principal y el perfil principal. El flujo binario oscila entre 5 y 9 Mb/s. En la tabla siguiente se representan las posibles combinaciones entre niveles y perfiles. No todas ellas encuentran aplicacin prctica. Las combinaciones que aparecen son las especificadas por la UIT. La difusin de la televisin digital se estn realizando en el perfil principal y nivel principal, tomando el nombre de MPEG-2 MP@ML. Los flujos que aparecen son flujos mximos, no flujos reales de trabajo.
Perfiles Niveles ALTO 1920 Pxeles 1152 Lneas ALTO -1440 1440 Pxeles 1152 Lneas PRINCIPAL 720 Pxeles 576 Lneas BAJO 352 Pxeles 288 Lneas 15 Mb/s
SIMPLE PRINCIPAL 4:2:2 Produccin I,P,B ESCALABLE SNR I,P,B - 4:2:0 ESCALABLE ESPACIAL I,P,B - 4:2:0 ALTO I,P,B 4:2:0 y 4:2:2
I,P - 4:2:0
I,P,B - 4:2:0
80 Mb/s
100 Mb/s
60 Mb/s 50 Mb/s 15 Mb/s 720x608 4 Mb/s 4 Mb/s 15 Mb/s
60 Mb/s
80 Mb/s
20 Mb/s
3.6.8. Organizacin del flujo de transporte

Los flujos binarios de vdeo y de audio de cada programa se comprimen independientemente formando cada uno de ellos una corriente elemental (ES - Elemental Stream). Cada una de estas corrientes elementales se estructuran en forma de paquetes llamados PES (Packetized Elementary Stream). Los paquetes PES son de longitud variable dependiendo de como el codificador organiza los datos de salida. Por ejemplo, es normal encontrarse con un flujo de salida del codificador de video que abarque una imagen completa. Esta unidad abarcar entonces un PES. Cada paquete se inicia con una cabecera que incluye datos sobre el tipo de carga que lleva (vdeo audio, etc), informacin de sincronizacin, etc. Estos paquetes de video y de audio, as como de otros datos de un mismo programa pasan posteriormente a un multiplexor donde se conforma un solo tren binario. Para esta multiplexin existen dos posibilidades: la conformacin de una corriente de programa (PS - Program Stream) y la conformacin de una corriente de transporte (TS - Transport Stream). 33
Vdeo Digital
Figura 12. Diagrama de bloques de conformacin de corrientes de programa o de transporte de programa simple.. La corriente de programa es una multiplexin simple intercalando los PES unos con otros. Esta opcin se aplica en canales libres de ruido, como por ejemplo la grabacin de un DVD, y de otros soportes multimedia. Como no se espera ruido en el canal, no es necesario usar correccin de errores. Este sistema conlleva una gran simplicidad. No obstante una corriente de programa puede acomodar hasta 16 corrientes de vdeo y 32 de audio. Lo que s es obligatorio en las corrientes de programa es que todas las corriente sean sincrnicas, es decir que tengan una base de tiempos comn. La corriente de transporte es apropiada para entornos ruidosos, opcin que encaja en las necesidades de la difusin de televisin terrestre, por cable y va satlite. Esta opcin exige pasar los PES a otros paquetes ms cortos, de 188 bytes de longitud, y aplicar tcnicas de correccin de errores. Con esto se puede organizar una corriente de transporte de un slo programa (SPTS Single Program Transport Stream). Esta longitud de paquetes incluye 4 bytes de cabecera y es apropiada para utilizarse en redes ATM, as como en una amplia variedad de sistemas de transmisin y almacenamiento. La corriente de transporte puede formarse con varios programas de televisin, cada uno de ellos con varias corrientes elementales. Como es lgico las corrientes elementales que forman un mismo programa de televisin deben ser sincrnicas. Sin embargo, los diferentes programas pueden tener cada uno una sincronizacin independiente. En este caso, se organiza un mltiplex con todos los programas. El flujo binario de la corriente de transporte completa es constante, aun cuando varen los flujos de cada corriente elemental. Para mantener este flujo total constante, se pueden incluir paquetes nulos. Entre otras informaciones, la corriente de transporte tambin lleva informacin de cifrado para el acceso condicional a determinados programas de pago.
34
Figura 13. Conformacin de la corriente de transporte en el caso de transmisin multiprograma
3.7. Aplicaciones de la compresin de vdeo

La gran cantidad de informacin resultante de la digitalizacin de la seal de vdeo hace que la compresin sea prcticamente una necesidad en casi todos los mbitos. No obstante, las diferentes aplicaciones para las que est destinada la informacin de video requieren mtodos y factores de compresin diferentes, en base a la calidad que se pretenda conseguir, y al precio que se est dispuesto a pagar. De todos los mtodos de compresin que existen, el utilizado ms ampliamente en el mundo de la televisin digital es el mtodo MPEG-2, que se ha convertido en un estndar dentro de este sector. En este apartado se tratarn todo tipo de aplicaciones; unas utilizan este estndar como medio de compresin, y otras no. Trataremos tambin de acercarnos a las ventajas e inconvenientes de estos mtodos en cada caso.
35
Vdeo Digital
3.7.1. Produccin en estudios de televisin

En produccin existe un gran atractivo por la reduccin del coste de almacenaje de vdeo usando MPEG-2, especialmente para aplicaciones de archivo, produccin de noticias y edicin de estas. Pero las producciones y ediciones de alta calidad tienen claramente vedado el uso de compresiones elevadas debido a la necesidad de alta multigeneracin. Sin embargo, salvo que el proceso se limite al uso de imgenes codificadas sin prediccin, las operaciones de insercin y borrado son difcilmente realizables directamente sobre la seal comprimida, lo que es una limitacin crtica en las aplicaciones de vdeo. MPEG-2 con imgenes exclusivamente de tipo I puede tener alguna ventaja sobre JPEG debido a la posibilidad de seleccionar la cuantificacin para una misma imagen y la mayor facilidad para transmitirse como tren de datos, ya que el formato JPEG no se refiere en ningn caso a la transmisin. Debe tenerse cuidado en las operaciones de produccin que involucran mltiples generaciones de manipulacin de la seal. En formatos sin comprimir no sufren degradacin, pero si se maneja material MPEG-2, especialmente cuando se manejan flujos binarios especialmente dedicados a transmisin (3-9 Mb/s), la aparicin de defectos en la seal puede ser rpida en unos pocos procesos de compresin y descompresin. Para solucionar los problemas de alta compresin, MPEG-2 incluye un perfil de estudio, el perfil 4:2:2, que admite regmenes binarios comprimidos de hasta 50 Mb/s. Este perfil est teniendo gran aceptacin, e incluso se empieza a utilizar en los magnetoscopios digitales. Esta posibilidad de basa en reducir el tamao del GOP a 2 o 3 imgenes (por ejemplo: IBIBIB, IPBIPB, etc.) de manera que se pueda conseguir una acceso aleatorio sencillo, una compresin moderada (3,3:1), y una calidad final muy alta.
3.7.2. Periodismo electrnico (ENG - Electronic News Gathering)

En el periodismo electrnico, la caracterstica quiz ms importante, y que se antepone a las dems es su portabilidad, que viene asociada al tamao de los equipos y a su peso. De manera indirecta, tambin es importante minimizar el consumo de los equipos, lo que redunda en un menor tamao y peso de las bateras para una determinada autonoma de funcionamiento. Asimismo es importante, en cuanto al tamao, el tipo de cintas necesarias para su funcionamiento. Por estas razones, en general los equipos de periodismo electrnico utilizan formatos de muestreo menos exigentes que el conocido 4:2:2. Generalmente, los formatos de muestreo que se utilizan en ENG son el 4:1:1 y el 4:2:0. Estos formatos de muestreo, por ser ms sencillos necesitan almacenar bastante menos cantidad de informacin, consiguiendose un nivel de calidad bastante aceptable. Esta reduccin de la cantidad de informacin a almacenar implicar un menor tamao de las cintas, y un menor 36
consumo de bateras. Pero a pesar de conseguirse un nivel de calidad aceptable, la cantidad de multigeneraciones posibles disminuye a valores entre 6 y 10. Estos valores de multigeneracin son adecuados a la aplicacin que se est tratando: la captacin de imgenes en el lugar de la noticia, y su posterior insercin en el instante adecuado de un programa. Esta aplicacin no suele requerir mltiples procesos de decodificacin ni grandes procesos de edicin. Por ello, a la hora de valorar la compresin de esta informacin, se permite un factor de compresin mayor que en el caso de la seal de estudio. Los factores de compresin que se suelen dar son entre 5/1 y 10/1; lo que resulta flujos binarios de 15 Mb/s a 30 Mb/s. La aplicacin de estos factores de compresin economiza las transmisiones va satlite, cuando son necesarias, debido a la disminucin de los requerimientos de flujo binario.
3.7.3. Transmisin y difusin de la seal de video

En enlaces punto a punto dentro o fuera del estudio, donde se pretenda mantener una alta multigeneracin debemos aplicar las mismas ideas que el en caso de la produccin dentro de los estudios. En estos casos se debe comprimir moderadamente para mantener la calidad de la seal en posibles ediciones posteriores. En cuanto a las grandes aplicaciones de difusin directa, ya sea por va terrestre, va cable o fibra de vidrio, y va satlite, stas ya estn estandarizadas en base al sistema MPEG-2. En el caso de la difusin, no se necesita una alta multigeneracin, ya que estamos al final de la cadena y los nicos procesos necesarios para la representacin en pantalla sern la descompresin, y su conversin a analgico. Por ello, en difusin se permiten factores de compresin ms altos. Se estima que para conseguir calidad de estudio, segn la recomendacin 601, se necesita un sistema con velocidad binaria de unos 9Mb/s. Para una calidad equivalente al PAL se necesitan unos 5 Mb/s. En la actualidad, los satlites de radiodifusin directa actan como plataformas digitales de canales de televisin temticos con posibilidad de distribucin de mltiples canales especializados en documentales, deportivos, cine, etc. que tratan de competir con el mercado de alquiler de vdeos.
3.7.4. Servidores de video

Los servidores de video para vdeo bajo demanda deben almacenar grandes cantidades de vdeo digital, para que pueda haber un acceso rpido y su posterior transmisin. Los ahorros en coste de almacenamiento usando compresin MPEG-2 son muy altos, aunque el acceso aleatorio es ms complicado que en el material sin comprimir, es posible. En este campo existe mucha competencia entre diversos mtodos de compresin
37
Vdeo Digital
3.7.5. Multimedia
La compresin de imgenes en los ordenadores tiene su justificacin por la poca capacidad de almacenamiento de los ordenadores domsticos. La escasa implantacin en el ordenador de sistemas hardware de compresin de vdeo hace que se utilicen en general algoritmos software que permitan una alta compresin, aunque no en tiempo real. La necesidad de multigeneracin es, en general, baja. Existen diversos algoritmos de compresin diferentes para su uso con ordenadores, muchos de ellos en base a archivos AVI, lo que quiz dificulta su identificacin. Incluso se utilizan algoritmos MJPEG. Estos algoritmos proporcionan una menor calidad a mayor rgimen binario que el formato MPEG al trabajar cuadro a cuadro pero son ms econmicos. Tambin se utiliza en muchos casos el formato MPEG-1 por su afinidad directa con las posibilidades de soporte CD. La posible mayor calidad visual de MPEG-2 es atractiva pero requiere una mayor potencia de procesamiento y decodificacin. A falta de que se abaraten algo ms las tarjetas codificadoras, existen codificadores, no en tiempo real, por software. La progresiva introduccin de la familia de discos DVD junto con interfaces y buses ms rpidos pueden mejorar las aplicaciones multimedia basadas en ordenador de propsito general y la codificacin MPEG-2. Otro formato muy utilizado en aplicaciones multimedia por su capacidad de compresin es el formato MPEG-4. Para este formato existen codificadores software, que aunque no trabajen en tiempo real, ofrecen una calidad razonable con compresiones bastante altas.
3.7.6. Sistemas domsticos

La implantacin del DVD como soporte digital para pelculas de consumo supone la implantacin de MPEG-2 como formato de seal digital en este entorno, ya que el DVD graba pelculas en este formato. El secreto de su implantacin es que para ver pelculas grabadas slo es necesario el decodificador MPEG-2, que es el elemento ms barato de la cadena. Es la misma situacin que las aplicaciones de difusin de TV digital. Otra cuestin es si ser tan econmico el grabador de DVD, con codificador MPEG-2. Ese es el punto clave para su generalizacin como sustituto del magnetoscopio domstico. En cuanto a estos magnetoscopios, la compresin puede disminuir el coste de un videograbador respecto de su versin sin comprimir dado que los regmenes binarios requeridos son ms bajos. Sin embargo un magnetoscopio econmico para el consumo requiere un codificador sencillo, y econmico. La codificacin MPEG-2 a este nivel de precio est todava lejana. Por tanto otros formatos menos comprimidos empezarn a dominar la grabacin domstica, como es el caso del DV.
38
3.7.7. Videoconferencia
Las videoconferencias o los enlaces en directo, el retardo que sufre la seal que se codifica cuando se usan imgenes B puede convertir a MPEG-2 en intil para la comunicacin en ambos sentidos. MPEG-2 puede ser utilizado, pero sin cuadros tipo B. No obstante la codificacin que ms se utiliza en la actualidad para estas aplicaciones, y que adems fue diseada para ello es el formato MPEG-4. ste permite la comunicacin con regmenes binarios muy bajos y con una calidad aceptable, con la sola condicin de que se limite el movimiento de los objetos en la escena a transmitir.
3.8. Compresin y descompresin en cascada

Dadas las diferentes aplicaciones de la compresin de vdeo, en un sistema pueden encontrarse varias etapas o procesos de compresin-descompresin en cascada. Las sucesivas compresiones y descompresiones cuando se utiliza el mismo algoritmo causan un deterioro progresivo en la calidad de la imagen en funcin del factor de compresin empleado. Si se utilizan algoritmos distintos, con distintos criterios aritmticos, supresin de pxeles, etc. pueden llegar a producirse resultados de degradacin imprevisibles. Por ello se recomienda utilizar el mismo algoritmo e incluso el mismo factor de compresin en toda la cadena de produccin de vdeo.
39
Vdeo Digital
3.9. Bibliografa
Bethencourt Machado, T. Televisin DIgital Coleccin Beta. Temas audiovisuales. (2001) Gaviln Estelat, E. MPEG-2 Pieza clave de la televisin digital Unidad Didctica 146 IORTV. Martn Marcos, A. Compresin de imgenes JPEG. Ciencia 3. 1999. Martn Marcos, A. Televisin Digital Norma MPEG-2 (video). Ciencia 3. 1998. Mead, D. C. Direct Broadcast Satellite Comunications. An MPEG enabled service. Addison-Wesley. 1999 Mitchell, J.L. MPEG Video Compression Standard International Thompson Publishing 1996. Mossi Garca, J.M. Sistemas de televisin. Servicio Publicaciones UPV. Ortiz Berenguer, L. TV Digital: MPEG-2 y DVB. Servicio Publicaciones UPM. 1999. Riley, M.J. Digital Video Communications. Artech House. 1997. Tejerina, J.L. Bit-rate reduction of HDTV, based on Discrete Cosine Transform. Artculo de Telettra, n45.
40

VD Compresion

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

VD Compresion

Cargado por

Copyright:

Formatos disponibles

Compresin de la informacin de vdeo

3. Compresin de la informacin de vdeo

3.2. La compresin de la seal de video

Compresin de la informacin de vdeo

Compresin de la informacin de vdeo

3.3. La redundancia en la informacin de video

3.3.1. Redundancia espacial.

3.3.2. Redundancia temporal.

Compresin de la informacin de vdeo

3.3.3. Redundancia estadstica.

3.4. Mtodos de compresin por transformacin: la DCT

Compresin de la informacin de vdeo

3.4.1. Clculo de la DCT unidimensional

(u) C[u] cos

Compresin de la informacin de vdeo

3.4.2. Generalizacin de la DCT bidimensional

(2m"1) ! u (2n"1) ! v cos 2M 2N

"(v) C[u,v] cos

(2m"1) ! u (2n"1) ! v cos 2M 2N

(2m"1) ! u (2n"1) ! v cos 2M 2N

Compresin de la informacin de vdeo

3.4.3. Propiedades de la DCT

3.4.4. Utilizacin de la DCT para compresin de vdeo

Compresin de la informacin de vdeo

3.4.4.1. Lectura en zig-zag

!26 !30 !14 !10 !2 !3 0 !3 !1 0 1 0

3.4.4.2. Cuantificacin de los coeficientes

Compresin de la informacin de vdeo

109 103 104 113

49 64 78 87 103 121 120 101 72 92 95 98 112 100 103

El resultado del redondeo de coeficientes de C[u,v] anterior es:

3.4.4.3. Codificaciones VLC y RLC

3.5. Algunos estndar de compresin

Compresin de la informacin de vdeo

3.5.2. El estndar MJPEG

3.5.2.1. Diagrama de bloques

3.6. Estndar de compresin MPEG-2

Compresin de la informacin de vdeo

3.6.1. La compresin intracuadro de MPEG-1 y 2

Compresin de la informacin de vdeo

3.6.2. La compresin intercuadro: Compensacin de movimiento

3.6.2.1. Codificacin diferencial

3.6.2.2. Tcnica de compensacin de movimiento

3.6.3.1. Imgenes I (intracuadro)

3.6.3.2. Imgenes P (prediccin)

Compresin de la informacin de vdeo

3.6.3.3. Imgenes B (bidireccionales)

3.6.3.4. Grupo de fotogramas (GOP)

Compresin de la informacin de vdeo

3.6.4. Esquema del decodificador MPEG-2

3.6.5. Esquema del codificador MPEG-2

Compresin de la informacin de vdeo

3.6.6. Estructura del tren de datos MPEG-2

3.6.7. Niveles y perfiles en MPEG-2

Compresin de la informacin de vdeo

Compresin de la informacin de vdeo

60 Mb/s 50 Mb/s 15 Mb/s 720x608 4 Mb/s 4 Mb/s 15 Mb/s

3.6.8. Organizacin del flujo de transporte

Compresin de la informacin de vdeo

Figura 13. Conformacin de la corriente de transporte en el caso de transmisin multiprograma

3.7. Aplicaciones de la compresin de vdeo

3.7.1. Produccin en estudios de televisin

3.7.2. Periodismo electrnico (ENG - Electronic News Gathering)