Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estndar
4:4:4 13.5 13.5 324 248.8 5m 22s 4:2:2 13.5 6.75 216 165.9 8m 02s 4:1:1 13.5 3.375 162 124.4 10m 43s (*).- Cantidad de datos que se necesitan para almacenar 1 segundo de seal de televisin digitalizada a la frecuencia de muestreo real. (**).- Cantidad de datos que se necesitan para almacenar 1 segundo de seal de televisin, eliminando todo aquello que no es directamente imagen (intervalos de sincronismo...).
Si nos centramos en el estndar 4:2:2 definido por la recomendacin ITU-R BT.601, puede observarse que, sin aplicar compresin, en un disco duro con una capacidad de 10 GigaBytes podemos almacenar algo ms de ocho minutos de imgenes. Y esto considerando exclusivamente la informacin de la imagen, y eliminando las partes de la seal dedicadas a los sincronismos. Si ahora aplicamos sobre esta informacin distintos factores de compresin, veremos que la eficiencia de almacenamiento aumenta considerablemente. As para el estndar 4:2:2 con diferentes factores de compresin se obtendran los resultados de esta tabla:
Compresin 1:1 2:1 3.3:1 5:1 10:1 50:1 Tamao parte activa (Mb/s) 165.9 83.0 50.3 33.2 16.6 3.3 Capacidad en disco 10GB 8m 02s 16m 04s 26m 30s 40m 10s 1h 20m 20s 6h 41m 40s
En el caso de la transmisin o distribucin de seales por cualquier medio fsico (radioenlaces, redes de banda ancha, satlite, cable...) Si consideramos que una transmisin digital de un canal telefnico de voz ocupa 64 kb/s, en el ancho de banda espectral en el que se 1
Vdeo Digital
enviara un canal de televisin en formato 4:2:2 sin comprimir se podran enviar del orden de 2590 canales telefnicos. Puesto que, tanto el espacio en disco por minuto como el ancho de banda radioelctrico son recursos limitados, se hace conveniente aplicar factores de compresin para la transmisin, para el almacenamiento, e incluso para la produccin de programas. Una vez comprimida la informacin ser ms sencillo almacenarla o transmitirla. As pues, la compresin, por un lado, es un factor econmico ya que reduce el costo de la transmisin, o distribucin de seales. Dado un medio de transmisin concreto con un determinado coste de amortizacin, cuanto menor sea el ancho de banda de los canales a transmitir, ms canales estarn disponibles, y ms econmico resultar cada canal. Adems, en determinadas aplicaciones, el factor de compresin va a venir impuesto por la velocidad binaria del canal de transmisin disponible. Este es el caso, por ejemplo, de la videoconferencia. En la videoconferencia, la informacin de vdeo digital se manda a travs de un canal telefnico disponiendose de una velocidad binaria de 64kb/s. En este caso, el factor de compresin hemos de ajustarlo a esta restriccin, an a costa, como veremos, de la calidad, ya que lo esencial es la disponibilidad del servicio. Todo proceso de compresin, para ser til, debe llevar asociado un proceso de descompresin posterior, por el cual se recupera el tren de datos original a partir de los datos comprimidos. Para ello se seguir el orden inverso al de la compresin.
En la compresin sin prdidas, la informacin original se recupera en su integridad despus del proceso de compresin-descompresin. Este tipo es muy utilizado para la compresin de datos informticos. Dependiendo del tipo de archivo, este modo tiene niveles de compresin variables. Con algunos archivos puede llegar a compresiones de 70:1, pero en otros casos, no es posible comprimir ya que el archivo comprimido podra ser incluso de mayor tamao que el original. Por otra parte, con la compresin subjetivamente sin prdidas, en el proceso de compresin-descompresin, no se recupera absolutamente toda la informacin original, pero el sistema receptor, como por ejemplo el sistema visual humano, no detecta las diferencias. En el mbito de la compresin digital de sonido e imagen, existe una norma general y es que lo que el ojo no ve, o lo que el odo no oye, no se codifica. Este tipo de compresin, es el que se utiliza en vdeo digital, y es el que ms nos interesa por su mantenimiento de la calidad, consiguiendo factores de compresin interesantes. Finalmente, en la compresin subjetivamente con prdidas, durante el proceso de compresin-descompresin se degrada significativamente la calidad de la informacin, pero el usuario lo tolera en beneficio del servicio recibido. Este tipo de compresin, lleva asociados grandes factores de compresin y se utiliza generalmente en multimedia; en los sistemas de videoconferencia como se dijo anteriormente; en sistemas de vigilancia y seguridad; en consultas de video y en edicin fuera de lnea; es decir, procesos todos ellos en los que la calidad no es un factor importante, sino el mantenimiento del servicio con un coste razonable. Dentro de todas estas categoras existen gran cantidad de tcnicas de compresin dependiendo de la aplicacin para la que se utilizan. En el caso del vdeo, el nmero de mtodos se dispara; y actualmente, es uno de los campos de mayor investigacin dentro del mundo del tratamiento digital de las imgenes. Algunas tcnicas de compresin se han conseguido, simplemente atendiendo a las diferentes sensibilidades que tiene el ojo humano frente al brillo y a los colores. Esta posibilidad de compresin, viene expresada en la recomendacin ITU-R BT.601 cuando habla de las distintas familias que se desarrollan bajo esta norma (4:4:4, 4:2:2, 4:1:1, 4:2:0, ...), cada una de ellas, con diferentes flujos binarios. El conocido formato de video 4:4:4 utiliza la misma frecuencia de muestreo para las seales de color que para la de luminancia. En el formato 4:2:2, en cambio, la frecuencia de muestreo de las seales de color pasa a ser la mitad. Sin embargo, esta forma de compresin no degrada subjetivamente la calidad, sino que este formato se ajusta ms a las distintas sensibilidades del ojo. El sistema 4:4:4 se utiliza, no porque ofrezca una mayor calidad subjetiva, sino porque las operaciones de tratamiento digital de imgenes, u otras operaciones como el croma-key (llave de color), en el que se conmuta de imagen a partir de la informacin del color de los pxeles, se realiza con mucha ms precisin.
Vdeo Digital
El paso del formato 4:2:2 al 4:1:1 o al 4:2:0 s supone eliminar informacin sensible al ojo. Esta informacin que se elimina, no es en este caso redundante, y no puede recuperarse en un hipottico proceso de descompresin. Por ello esta compresin se denomina con prdidas, o degradante. Otros mtodos de compresin que se han establecido como estndar por sus prestaciones y su amplia aplicacin son los mtodos denominados MPEG. Las siglas MPEG vienen de (Motion Pictures Expert Group) nombre de un grupo de expertos comn entre la ISO (International Standards Organization) y la IEC (International Electrotechnical committe). El fundamento bsico de la compresin MPEG es el siguiente: a)Se busca una representacin vlida de la imagen que concentre la informacin en una pequea parte de la descripcin. Se cuantifican los elementos de dicha representacin de modo que se discretizan sus posibles valores. A cada nivel de cuantificacin se le asigna un cdigo de bits.
b)-
c)-
Concretamente el mtodo MPEG-2 se utiliza en todos los mbitos de la televisin digital. Este mtodo, que ser el que estudiemos ms profundamente en este tema, tiene dos caractersticas muy importantes para su aplicacin en video digital. La primera es que permite utilizar mltiples factores de compresin en funcin de las necesidades de la aplicacin. La segunda es que las prdidas de calidad al comprimir son relativamente bajas. Incluso se ha demostrado que la compresin MPEG-2 con factor 1:3,3 puede considerarse como subjetivamente sin prdidas. Esto la hace apropiada para aplicaciones en las que se quiera mantener la posibilidad de multigeneracin, es decir, efectuar sucesivamente procesos de compresin y descompresin sin la aparicin de defectos de imagen, o artefactos. A continuacin pueden verse algunos ejemplos de utilizacin de la compresin, referidos a las velocidades binarias utilizadas en algunos modos de transmisin: - Para comunicaciones dentro de un estudio se utilizan enlaces a 50Mb/s. En este punto debemos observar que el flujo binario resultante de la parte activa del formato 4:2:2 es de 165,9 Mb/s.; y si se aplica el factor 1:3,3 a este flujo obtenemos 50,3 Mb/s, con lo que las transmisiones a 50 Mb/s podemos considerarlas sin prdidas. - Tambin se utilizan 50Mb/s para comunicaciones mediante fibra ptica. - Para comunicaciones va satlite es comn utilizar enlaces a 34 Mb/s, aunque a veces tambin se utilizan 50Mb/s.
- En los casos de distribucin de la seal va radio, se aplican factores de compresin ms grandes segn el canal disponible. Por ejemplo, en los satlites de distribucin lo normal es utilizar un factor de compresin que permite enviar de 4 a 7 canales digitales en el mismo ancho de banda que ocupara uno analgico. - En la difusin de televisin digital, el flujo binario es diferente, segn la calidad requerida. En la siguiente tabla se muestran los distintos niveles de calidad y sus flujos binarios recomendados: Calidad - Definicin HDTV (alta definicin) EDTV (Calidad de estudio ITU-R BT.601) SDTV (Calidad estndar -PAL / SECAM / NTSC) LDTV (Calidad VHS) Flujo binario 15-30 Mb/s 6-12 Mb/s 3-6 Mb/s 1.5-3 Mb/s
Vdeo Digital
Figura 3. Codificacin DPCM.La cantidad de valores posibles disminuye drsticamente. fotogramas de un trozo de pelcula observaremos que, en general, son similares. Es necesario avanzar varios fotogramas para apreciar diferencias. Una tcnica de compresin que se puede usar, tanto para eliminar la redundancia temporal, como la espacial, es la codificacin diferencial de pulsos modulados (DPCM). La DPCM codifica el valor de diferencia de una muestra con respecto a la anterior. Si codificsemos el valor absoluto de cada muestra necesitaramos palabras binarias ms largas, ya que los valores absolutos de las muestras sern mucho mayores que la diferencia entre una muestra y la anterior. Los histogramas de la figura 3 muestran el nmero de ocurrencias para cada valor de los pxeles en una imagen con codificaciones PCM y DPCM. Con codificacin PCM, imagen izquierda, se deben procesar todos los valores comprendidos entre 10 y 200; mientras que en DPCM, imagen derecha, slo tiene que codificar valores comprendidos entre +20 y -20, consiguiendo por tanto una reduccin importante de bits. Existen variantes de este mtodo, que tratan de reducir al mximo los errores a transmitir, efectuando las predicciones en base a un conjunto de pxeles significativos.
Vdeo Digital
El ejemplo de compresin VLC ms utilizado es quiz el cdigo Huffman. Su ejecucin es un poco compleja, pero la idea es la misma: asignar cadenas de bits ms cortas a los cdigos ms frecuentes y ms largas a los menos frecuentes. El mtodo de ejecucin es el siguiente: a)- Se estudia el nmero de apariciones de cada smbolo, o su probabilidad de aparicin y se confecciona una tabla con todos ellos. b)- Se escogen los dos cdigos (o grupos) que tengan menor nmero de apariciones, y se les asigna a cada uno de ellos el bit 0 o 1, y se asocian como si fueran las ramas de un rbol. c)- Se quitan los dos cdigos (o grupos) anteriores y se abre un nuevo grupo cuyo valor de apariciones sea la suma de estos. d)- Se repiten los pasos b, c, y d hasta que slo quede un grupo. f)- Para asignar a cada smbolo un cdigo, se recorre el rbol desde el tronco principal hasta las ramas en las que est cada smbolo, obteniendo su cdigo Huffman para la aplicacin concreta que se ha estudiado. Es obvio que los mismos smbolos pueden tener distintos cdigos Huffman dependiendo de la aplicacin que se trate; ya que en distintas aplicaciones, las probabilidades de aparicin de los smbolos puede ser diferente.
de alta frecuencia. Los mtodos de compresin por transformacin se aprovechan de esta circunstancia para reducir el nmero de datos a codificar. La transformada discreta del coseno es la herramienta de transformacin ms utilizada por los mtodos de compresin intracuadro. Esta transformada, que aprovecha la existencia de redundancia espacial en las imgenes y la encontraremos en los estndares JPEG, MJPEG y sus derivados, y en la familia MPEG.
DCT(x[n])
C[u]
(u )
n 0
x[n] cos
(2n"1) ! u 2N
En esta expresin, la variable u de salida, que representa el ndice del coeficiente que se est calculando, adopta los valores comprendidos entre 0 y N-1, de manera que la DCT resulta ser una secuencia tambin de tamao N. Asimismo, el valor de n representa a los ndices de cada elemento de la secuencia que se quiere transformar. El parmetro (u) tiene dos valores posibles, que son estos:
(u ) | u
1
0
(u ) | u
2
0
Existen otras formas de escribir esta expresin con valores derivados de este (u), pero llevan a resultados equivalentes. Los N valores C[u], obtenidos al aplicar esta transformada a la secuencia de N valores x[n], se denominan coeficientes de dicha transformada. La transformada inversa (IDCT DCT-1) permitir obtener la secuencia x[n] a partir de los coeficientes transformados, y se define as.
N!1
DCT (C[u])
!1
x [n ]
u 0
(2n"1) ! u 2N
El clculo de la DCT que se desprende directamente de las frmulas anteriores resulta engorroso, y cuando el nmero de elementos de la secuencia es alto, se impone la utilizacin del ordenador. No obstante existen mtodos de clculo ms sencillos. De todos ellos, aqu se va a presentar el llamado mtodo de las funciones base porque nos permite extraer conclusiones importantes de esta transformacin. 9
Vdeo Digital
El mtodo de las funciones base tiene su fundamento en el hecho que, de la expresin de la DCT vista anteriormente, una vez definido el tamao N de la secuencia a transformar, la funcin coseno tiene valores fijos. A dicha funcin coseno se le denomina funcin base, y para cada valor de u se calcula de esta forma
f [n ] | u
cos
(2n"1) ! u 2N
En esta expresin, el valor de N es, en general, conocido para cada aplicacin. Por ejemplo, para aplicaciones de video, el valor ms usual es N=8. A partir de estas funciones base, el valor de cada C[ui] se calculara segn la siguiente expresin
N!1
DCT(x[n])
C[u]
(u )
n 0
x[n] f[n]|u
Considerando la secuencia a transformar x[n] y la funcin base f[n] |u como vectores de N dimensiones, los C[u] resultado de la DCT resultan ser el producto escalar de estos dos vectores, afectado por el factor constante (u). Es conocido, que el resultado del producto escalar de dos vectores depende de los mdulos de ambos, y del coseno del ngulo que forman, que ser mximo en el caso en que ambos vectores tengan la misma direccin y sentido. Si se representan grfi c a m e n t e l o s valores resultantes de calcular las funciones base para cada valor de u con un tamao de secuencia de N=8, los resultados pueden verse en la figura 4. A partir de esta figura podemos observar que para cualquier secuencia x[n] de tamao N=8, los C[u] se calcularn a partir del producto escalar de dicha secuencia con cada una de estas funciones base Figura 4. Funciones base de la DCT unidimensional. f[n] aqu representadas. En un 10
producto escalar entre dos vectores, si fijamos uno de ellos, como es el caso de cada funcin base, el producto escalar con cualquier vector x[n], nos da un resultado proporcional a la componente que tiene el vector x[n] en la direccin de cada funcin base f[n]. As pues, este producto ser mayor cuanto ms paralelos sean ambos vectores. Segn esto anterior, el coeficiente C[0] dar una referencia del nivel de continua (frecuencia f=0) de x[n]. Asimismo, el producto escalar de dicha secuencia x[n] por la funcin base f[n]|1 resultar un C[1] mayor, cuanto ms se parezcan la secuencia x[n] al vector f[n]|1; es decir, C[1] ser proporcional al contenido de frecuencia f=1/16 de la secuencia. Sucesivamente, C[2] ser proporcional al contenido de la secuencia en la frecuencia f=2/16, etc... As pues, mediante la DCT se consigue transformar una secuencia x[n] en otra, C[u] que indica su distribucin espectral
C[u,v]
(u ) " (v )
m 0 n 0
x[m,n] cos
De la misma manera que antes, las variables u y v de salida adoptan los valores comprendidos entre 0 y M-1, y entre 0 y N-1 respectivamente; de manera que la DCT resulta ser tambin una matriz de tamao MxN. Los parmetros (u) y "(v) tiene dos valores posibles, que son estos:
(u ) | u
1
0
(u ) | u
2
0
11
Vdeo Digital
" (u ) | u
1
0
" (u ) | u
2
0
Los M x N valores C[u, v], obtenidos al aplicar esta transformada a la secuencia de MxN valores x[m, n], se denominan coeficientes de dicha secuencia. La transformada inversa, IDCT DCT-1, permitir obtener la secuencia x[n, m] a partir de los coeficientes transformados. Esta trasformada inversa se define como sigue:
M! 1 N!1
x[m,n]
m 0
(u )
n 0
Para el clculo de la DCT bidimensional existe tambin el mtodo basado en las funciones base. En este caso, las funciones base estarn compuestas por los dos cosenos que se muestran en la expresin de la DCT, uno en la direccin m y otro en la n.
f(m,n) |u,v
En las aplicaciones de compresin de imgenes digitales, los valores de M y N son siempre 8. A partir de estas funciones base, el valor de cada C[u, v] se calculara como si se tratara del producto escalar de dos vectores: mediante la suma de los productos entre elementos homlogos de la funcin base, y de la matriz a transformar, afectado por los factores (u) y "(v).
cos
Si se representan con niveles de gris los valores resultantes de calcular las funciones base para cada par de valores (u, v) con un tamao de secuencia de M=N=8, los resultados pueden verse en la figura 5. Los cuadros en blanco Figura 5. Representacin grfica de las funciones base de la DCT bidimensional. 12
corresponden a valores de coeficientes igual a 1, y los cuadros negros corresponden a coeficientes de valor -1. Atendiendo a la figura, cada coeficiente de la transformada representar la cantidad de informacin que contiene el bloque 8x8 original en su conjunto, entorno a las frecuencias verticales y horizontales representadas por los valores u y v. Estas componentes frecuenciales comprenden desde la frecuencia cero (DC) cuyo coeficiente vendr representado en la parte superior izquierda, hasta la mxima frecuencia espacial horizontal posible, representada en la parte superior derecha, o la mxima frecuencia espacial vertical posible representada en la parte inferior izquierda, pasando por todas las posibles combinaciones de frecuencias espaciales horizontales y verticales. Si el bloque 8x8 a transformar corresponde a un trozo de decorado completamente uniforme, y completamente blanco, todos los coeficientes frecuenciales seran cero excepto el correspondiente a la DC (parte superior izquierda). El valor de los coeficientes ms a la derecha aumentar a medida que aparezcan en l ms contenidos de altas frecuencias horizontales (incremento de perfiles verticales abruptos). En sentido vertical, los coeficientes se comportan de manera similar. Si el bloque original correspondiese a un rea de la imagen que tuviera un dibujo en forma de rayas verticales alternativamente blancas y negras y cada raya coincidiese con la anchura de un pxel, el coeficiente frecuencial correspondiente al bloque situado arriba a la derecha tomara el valor mximo, y el resto seran cero, excepto el correspondiente a la DC que siempre indicar el valor medio de la DC de todo el bloque. Si un bloque de la imagen contiene una gradacin de brillo en cualquier direccin, su DCT tiene nicamente el coeficiente de frecuencia cero (el primero) y sus tres coeficientes perifricos distintos de cero. El resto de los 60 coeficientes sern cercanos o iguales a cero. Es evidente, que estas situaciones extremas no sern habituales, sino que los coeficientes frecuenciales estarn distribuidos en funcin del contenido de la imagen, si bien es cierto que estos coeficientes, por la propia naturaleza de las imgenes, tendrn una tendencia muy clara, como vamos a ver. De forma general, en las imgenes con poco detalle o normales en detalle, casi todos los coeficientes que son distintos de cero se agruparn en la esquina superior izquierda de la matriz de coeficientes. Esta caracterstica de la DCT la trataremos en las propiedades que se detallan en el siguiente apartado.
13
Vdeo Digital
b)- La DCT presenta tambin la propiedad de una gran compactacin de la informacin en los coeficientes de menor orden, de tal manera que los de orden superior tienen un valor nulo o caso nulo, salvo en el caso de imgenes que presenten una anormalmente alta variacin espacial. c)- Los coeficientes resultado de la DCT presentan entre s una muy pequea correlacin. Esta propiedad es especialmente importante en aplicaciones de compresin de imgenes, ya que de esta forma ser posible dar a los coeficientes tratamientos totalmente diferentes dependiendo del lugar que ocupen dentro de la matriz de coeficientes. d)- La transformada de Fourier es una transformada compleja, con parte real y parte imaginaria, lo que complicado el trabajo con ella. Sin embargo la DCT es una transformada real; sus resultados son muestras de la funcin coseno, y esto simplifica mucho su manejo. e)- Si en la transformada de una imagen se suprimen los coeficientes de mayor orden, al volver a calcular la transformada inversa, se obtiene una muy buena aproximacin de la imagen inicial.
14
!61 !67 !60 !24 !28 !40 !60 !58 !49 !63 !68 !58 !51 !65 !70 !53 !43 !57 !64 !69 !73 !67 !63 !45 !41 !49 !59 !60 !63 !52 !50 !34
!414 !29 !62 6 !46 C[u,v] !49 11 !10 !3 !1 !21 !62 8 12 !8 1 !1 !1 77 34 !12 3 1 0
25 8
55 12
!20 !1 !7 10 6 1 0 !4 0 !6 6 1 !5 2 2 !1
2 7 !5 1 2 0 !3 0
Si observamos detenidamente la distribucin de los coeficientes frecuenciales en los bloques transformados, podemos ver que los ms significativos se encuentran en el cuadrante superior izquierdo, que corresponde a las bajas frecuencias. Conforme nos vamos alejando de este cuadrante hacia la derecha y hacia abajo, el valor de los coeficientes disminuye drsticamente. Este hecho, surge por la propia informacin contenida en las imgenes, pero existe otra razn por la que podemos decir que la informacin de alta frecuencia, que de por s es poca, puede despreciarse. Esta razn aparece por la forma en que el sistema visual humano atiende a las imgenes. De toda una imagen, el sistema visual presta atencin a un objeto o conjunto de objetos concretos, considerando lo dems como fondo que carece de importancia. Por lo general, 15
Vdeo Digital
los objetos a los que hay que atender se representan en primer plano, con lo que el contenido de bajas frecuencias es todava ms importante que el de altas frecuencias. La mayor parte de los contenidos de alta frecuencia quedan en el fondo, y su eliminacin apenas resta informacin real a la imagen. Considerando estas caractersticas, a la hora de serializar los coeficientes de la DCT para almacenarlos o transmitirlos, se hace conveniente una lectura de las matrices de coeficientes de manera que los de menor peso queden agrupados, y as se puedan eliminar o codificar ms fcilmente mediante un cdigo de longitud de recorrido (RLC) que signifique los siguientes n coeficientes son nulos. Segn esto, la lectura de los coeficientes se realiza en zig-zag comenzando desde el coeficiente DC, y terminando en su lado opuesto. Esto permite procesar en primer lugar las bajas frecuencias espaciales y decidir posteriormente si se procesan o se eliminan los coeficientes correspondientes a las altas frecue n c i a s , y decidir con posterioridad si se procesan o se eliminan los coeficientes correspondientes a las altas frecuencias. Figura 6. Lectura de la matriz de coeficientes en Realizando la lectura de esta exploracin progresiva y entrelazada manera, se pueden procesar los coeficientes de ms nivel, y eliminar el resto consiguiendo factores de compresin, aunque modestos, sin que la calidad subjetiva de la imagen quede afectada. En este caso se tratar de una compresin subjetivamente sin prdidas, consiguiendo una compresin 2:1 directamente al aplicar la DCT sin efectuar redondeos.
16
Esta cuantificacin va a hacer que algunos coeficientes que antes eran cercanos a cero, al redondear se vayan a cero, y otros que no se vayan a cero, puede hacerse que se codifiquen con menor nmero de bits, y as se consigue un mayor nivel de compresin. De esta manera se consigue un mayor nivel de compresin. Existe toda un coleccin de matrices de cuantificacin establecidas que minimizan la degradacin subjetiva de la calidad. La matriz de cuantificacin por defecto aplicada a los algoritmos JPEG aparece en la siguiente expresin.
16 11 10 16 12 12 14 19 14 13 16 24 JPEG 14 17 22 29 18 22 37 56 24 35 55 64 24 26 40 51 68 81 40 58 57 87 51 60 69 80 61 55 56 62 77 92 99
!1 !1
como se observa gran parte de los coeficientes se van a cero. En la actualidad se considera que una compresin 3,3:1, que provoca un redondeo moderado de los coeficientes, tampoco provoca prcticamente degradacin subjetiva de la calidad. Esta no degradacin subjetiva viene marcada por la posibilidad de multigeneracin vista en apartados anteriores. Todos los factores de compresin mayores que 3,3:1 necesitarn un mayor redondeo de coeficientes, y por lo tanto mayor prdida de informacin. Obviamente, esta mayor cuantificacin s merma la calidad de la imagen. Estamos entrando entonces en el terreno de la compresin con prdidas subjetivas, y dependiendo de los valores de la cuantificacin tendremos una prdida de calidad mayor o menor, y a costa de ello una mayor o menor compresin.
17
Vdeo Digital
18
Vdeo Digital
Figura 7. Diagrama de bloques de un compresor de vdeo digital para transmisin basado en la DCT. cola se est vaciando, el bloque de control de flujo disminuye el tamao del escaln, disminuyendo temporalmente la compresin. La variacin de la compresin afectar a la calidad instantnea de las imgenes. No obstante, se debe tener en cuenta que los aumentos de compresin se producirn en los instantes en que la escena tenga mucho detalle, con lo que el ojo probablemente sea menos sensible a este cambio de compresin. En el caso en que las imgenes tengan poco detalle, el ojo ser ms sensible, pero al disminuir la compresin se conseguir mantener una calidad subjetiva alta.
Los mtodos MPEG de compresin pretenden ser lo suficientemente flexibles para poder satisfacer las necesidades de todos esos usuarios potenciales. Para cada uno de ellos, se ha creado un nico mtodo normalizado de compresin que asegura una forma de trabajo nica, pero que permite manejar distintos niveles de calidad y distintos factores de compresin, de manera que se ajuste fcilmente a los requerimientos de utilizacin de cada servicio (coste, resolucin, velocidad binaria, ...). Lo que cada uno de estos estndar intenta es ofrecer un mismo ncleo bsico parametrizable para cada una de las aplicaciones. El utilizar este mismo ncleo bsico supone un abaratamiento en los equipos de compresin y descompresin, debido a su amplia utilizacin. El primer estndar que se desarroll fue el MPEG-1, que apareci hacia 1988. Este estndar naci con la idea inicial de reducir el flujo binario al nivel utilizado por los soportes de audio CD, del cual deriv el CD-ROM, para almacenar en este soporte, imgenes en movimiento con un flujo binario de 1,5Mb/s. De hecho, este estndar opera bien en el rango de flujos binarios de 1,5 a 3 Mb/s. La norma MPEG-1, antes del proceso de compresin, somete a la seal de entrada a procesos de eliminacin de informacin drsticos. Lo primero es eliminar un campo de la imagen quedndose con una resolucin de 360x288 a 25 f/s. A partir de esto, este mtodo aplica la compresin intracuadro e intercuadro de forma parecida al formato MPEG-2 que se desarrollar ms ampliamente. nicamente varan parmetros tcnicos, de muestreo, cuantificacin, etc. siendo ms riguroso en MPEG-2 ya que va destinado al entorno profesional de mayor calidad. El estndar MPEG-2 est orientado al entorno profesional de la televisin digital. ste opera bien para flujos binarios de 3,5 a 100 Mb/s, y se aplica desde en los sistemas de produccin, hasta en las transmisiones de la televisin digital terrestre, por cable, y va satlite. Este estndar es capaz de soportar desde calidad VHS hasta calidad TVAD (en formato 16 / 9). La codificacin MPEG-2 va orientada a la eliminacin de la redundancia espacial y temporal. Esta compresin es adecuada para imgenes de calidad en movimiento (televisin). Para ello, aplica codificacin intracuadro e intercuadro, y adems aplica una codificacin final de correccin de errores. Con esto se consiguen relaciones de compresin como 270Mb/s a 50 Mb/s para comunicaciones dentro del estudio, 8Mb/s para difusin con calidad de estudio, y hasta 3,5Mb/s y 1,5Mb/s para transmisiones de menor calidad. Este estndar MPEG-2 tambin se utiliza en servidores de video bajo demanda, y en archivos de imgenes. Para la grabacin magntica se utiliza solamente en el formato Betacam SX. Existi un formato MPEG-3 orientado a la televisin de alta definicin, pero sus avances se incorporaron posteriormente al estndar MPEG-2, no teniendo mayor relevancia. El grupo MPEG-4 fue creado para investigar varios frentes de necesidades en la codificacin. El ms importante fue el de adaptar la informacin de vdeo a las redes telefnicas. Este grupo trabaj sobre tres posibilidades: para flujos inferiores a 64 kb/s, entre 64 kb/s y 384 kb/s, y entre 384 kb/s y 4 Mb/s. La compresin MPEG-4 se aplica en videoconferencias. Los 21
Vdeo Digital
defectos temporales y espaciales son abundantes como corresponde a los bajos flujos binarios de transmisin, pero se atenan controlando el movimiento de los objetos. La filosofa de MPEG-4 cambia con respecto al resto de los estndares anteriores, ya que introduce el concepto de codificacin de objetos, es decir, las imgenes se segmentan en objetos y es la informacin de los mismos la que se transmite. El estndar no fija como se deben obtener los objetos, estimar su movimiento, etc. Los algoritmos sern elegidos por cada diseador; la norma slo fija cmo guardar la informacin de dichos objetos. La compresin MPEG-4 a pesar de sus niveles de calidad ha permitido poner en servicio aplicaciones de comunicacin muy interesantes. Otros trabajos que realiza el grupo MPEG-4 estn relacionados con el interfaz entre el mundo multimedia, el ordenador y la televisin. El grupo MPEG-7 no est implicado en temas de compresin, sino en los metadatos. Este trabajo incluye la preparacin de normas sobre los contenidos audiovisuales, como por ejemplo llegar a la localizacin de las escenas en que aparecen ciertos personajes. Con ello se conseguira un acceso detalladsimo a todo tipo de contenidos del material audiovisual. Su aplicacin est en los archivos, en la edicin y montaje, en la redaccin periodstica, etc. El grupo MPEG-21 tampoco trabaja en compresin digital. Su objetivo fundamental es crear la codificacin oportuna para la gestin y uso del material audiovisual, incluyendo el soporte de infraestructura necesario para las transacciones comerciales y la gestin de los derechos correspondientes.
22
Vdeo Digital
El codificador compara los resultados y toma las decisiones sobre el bloque idntico o bien sobre el ms aproximado. Si la diferencia es mayor que la cifra establecida, abandonar la bsqueda presumiendo que el bloque no se encuentra ya en la imagen, y codificar el mismo con codificacin espacial.
3.6.3. Imgenes I, P y B
La mayor compresin de los sistemas MPEG-1 y 2 no radica en la DCT y su mayor o menor cuantificacin. La mayor potencia de estos algoritmos MPEG est en tres modos de compresin de las imgenes. Estos modos de compresin dan lugar a lo que llamamos imgenes I, imgenes P e imgenes B.
24
25
Vdeo Digital
26
En primer lugar, el demultiplexor separa los datos correspondientes al error de prediccin del fotograma de los vectores de movimiento. Posteriormente se decodifica el error de prediccin, y se suma a la imagen obtenida del fotograma anterior y de los vectores de movimiento, obtenindose la imagen actual. Esta imagen actual se almacena para la decodificacin del siguiente fotograma. Finalmente, se reordenan los fotogramas para obtener el orden natural de la secuencia a partir del orden de transmisin de la misma. Hay que destacar que el proceso codificacin decodificacin en MPEG no es simtrico. El codificador es bastante ms complicado y por tanto necesita una mayor potencia de clculo, mientras que el decodificador debe realizar procesos ms sencillos. Esta estructura es lgica, teniendo en cuenta que el codificador se encuentra en el equipamiento profesional de produccin y emisin, y el decodificador es un elemento del equipamiento domstico de los receptores. Resumiendo, el sistema MPEG-2 divide la imagen en pequeas reas de 8x8 pxeles llamadas bloques, y de 16x16 pxeles llamadas macrobloques, realizando diversos procesamientos diferentes a cada uno de ellos. Existen dos etapas diferenciadas; la compresin intracuadro que trata de minimizar la redundancia espacial, y la compresin intercuadro que hace lo propio con la redundancia temporal. La compresin intracuadro consiste fundamentalmente en aplicar la DCT a los bloques 8x8, cuantificar los coeficientes, y aplicar una codificacin VLC (normalmente Huffman). La compresin intercuadro se basa en la aplicacin de la compensacin de movimiento a los macrobloques, y la codificacin diferencial a la imagen completa. Segn la compresin intercuadro podemos distinguir imgenes I, imgenes P, e imgenes B. La suma de todos estos procesos lleva a niveles de compresin notables, manteniendo no obstante la calidad subjetiva de la imagen y haciendo posible la reversibilidad del proceso a fin de recuperar la imagen original. 27
Vdeo Digital
28
Finalmente el buffer de salida y el regulador mantienen constante el flujo binario hacia el decodificador.
Vdeo Digital
exploracin entrelazada, las diferencias en cuanto a contenido entre los campos pueden ser muy importantes, as que ser conveniente procesar por separado cada campo. En el caso que utilicemos el concepto de imagen como un cuadro completo se habla de codificacin Frame DCT, y si definimos como imagen a un campo hablaremos de codificacin Field DCT. Independientemente del tipo de codificacin descrito, una imagen puede ser I, P o B, dependiendo de la compresin que se realice sobre ella. Esta informacin se indica en la cabecera de datos. Los GOP (group of pictures) son grupos de imgenes, acotados por dos imgenes de tipo intracuadro. Normalmente constan de 12 fotogramas y constituyen la unidad de compresin temporal. El GOP es el mnimo elemento capaz de contener por s solo toda la informacin necesaria para su descompresin, ya que como hemos visto algunos tipos de imgenes necesitan de otras para su total descompresin. Una secuencia consta de varios GOPs, indicando los datos de la cabecera, la relacin de aspecto, el flujo binario, y otros datos relacionados con el programa al que pertenecen.
3.6.7.1. Niveles
El nivel define la resolucin de las imgenes en base al nmero de pxeles y lneas a codificar. El nmero de cuadros por segundo se define siempre por la seal original antes de comprimir. Esta resolucin va desde la ms baja resolucin SIF (2:1:0) correspondiente a MPEG1, hasta la televisin de alta definicin con 1920x1152 pxeles.
30
Nivel bajo (Low) Nivel principal (Main) Nivel alto 1440 (high-1440) Nivel alto (high)
Resolucin SIF utilizada en MPEG-1 Resolucin 4:2:0 normal hasta 720x576 Previsto para TVAD hasta 1440x1152 Previsto para TVAD hasta 1920x1152.
Slo se codifican las muestras activas indicadas. Las seales originales tendrn muestras activas y no activas. Las no activas no son codificadas por MPEG-2, y sern regeneradas con nivel de borrado en el decodificador. Puede que el nmero de muestras activas no coincida con la resolucin de cada nivel. Para que esto sea posible, uno de los datos de sistema que deben conocerse es el tamao de imagen digital original. Es evidente que cada nivel usado dar lugar a un rgimen binario diferente. De cara a la construccin de los codificadores, no es necesario que todos ellos sean capaces de codificar a todos los niveles sino que existirn codificadores especficos para cada nivel. En este sentido, es importante saber que un codificador MPEG-2 que codifique en un nivel tambin lo haga en niveles inferiores.
3.6.7.2. Perfiles
Los perfiles, en cambio, definen un valor de compromiso entre compresin y coste del decodificador, y adems hacen posible la escalabilidad de la corriente de datos. El conseguir una mayor compresin sin perder calidad va a implicar una complicacin, tanto en el codificador, como en el decodificador, y esta complicacin llevar consigo un mayor coste de ambos. En MPEG-2 se definen los perfiles siguientes. Perfil simple.- Simplifica el codificador y decodificador. No utiliza imgenes tipo B (bidireccionales), y el tipo de muestreo soportado es 4:2:0. En este caso el factor de compresin es bajo. Perfil principal (main).- Mejor compromiso entre factor de compresin y calidad. Utiliza imgenes I, P y B. El decodificador y el decodificador son ms complejos que el anterior. Todas las imgenes se transmiten en formato 4:2:0. Perfil 4:2:2.- Este perfil es el que habitualmente se utiliza en produccin. Puede manejar imgenes tipo I, P y B. El muestreo es 4:2:2 aunque puede reducirse al 4:2:0. Slo se utiliza con el nivel principal, incrementando el nmero de pxeles y lneas activas respecto de dicho nivel a 720 muestras activas y 608 lneas por cuadro para sistemas 625/50 y 512 para sistemas 525/60. Como en produccin habitualmente se necesita acceso a fotogramas concretos para edicin, utiliza GOPs muy pequeos, de tamao 2 como IBIBIB o 3 por ejemplo IPBIPBIPB. Evidentemente, se requiere la presencia de muchas imgenes I con el fin de poder referenciar constantemente cuadros completos. Este perfil opera con flujos entre 20 y 50 Mb/s y admite generaciones mltiples de compresin y descompresin
31
Vdeo Digital
Perfil jerrquico (Scalable).- La informacin que contiene el flujo de datos MPEG-2 se estructura en dos capas: una primera capa con menor definicin llamada capa base, y una segunda capa llamada capa de mejora o capa de realce con la informacin suplementaria que se necesita para conseguir la mejora de calidad. La capa base contiene la informacin fundamental para decodificar la seal. Esta capa bsica se transmite fuertemente protegida soportando ambientes muy ruidosos, y puede ser decodificada por todo tipo de decodificador. A esta capa bsica se le aaden capas denominadas de realce que aumentan la definicin de la imagen, o su formato, y que slo podrn ser decodificadas por equipos ms complejos, instalados en los receptores ms caros. Las capas de realce suelen ir menos protegidas y por tanto son ms vulnerables en entornos ruidosos. Los perfiles escalables permiten transmitir al mismo tiempo diferentes resoluciones espaciales y diferentes grados de definicin, por ejemplo puede transmitir el mismo programa en alta definicin y en definicin estndar, o en formato 4:3 y 16:9. Esto lo hace, por una parte, jugando con la resolucin espacial (spatialy scalable profile), y por otra, con la cuantificacin (SNR scalable profile). En el caso de la escalabilidad SNR, la capa base contiene la informacin de vdeo con menos bits por muestra, y la capa de mejora agrega aquella informacin que se necesita para conseguir una mayor calidad. En la escalabilidad espacial la capa base contiene la informacin necesaria para conseguir un determinado nivel de la norma, como puede ser el nivel bajo, y la capa de mejora aporta el suplemento necesario para llegar a un nivel superior como el principal o el alto. Este concepto de escalabilidad tiene su aplicacin en la televisin digital terrestre, en la que van a coexistir dos tipos de receptores: receptores porttiles que solamente utilizarn la capa bsica, y receptores estacionarios utilizados en las viviendas, y dotados de un decodificador ms complejo, y con una seal ms estable, que adems de la capa bsica decodificarn tambin las capas de realce. Para la televisin digital europea, existe un gran inters en las aplicaciones de los perfiles jerrquicos. El perfil de escalabilidad espacial que permite dividir los datos de acuerdo con la resolucin y tambin con la relacin SNR, se puede crear una seal compuesta por tres elementos que conjuntamente darn lugar a una seal de alta definicin. De las tres partes de la seal, la capa de base utilizara jerarqua espacial para proporcionar una seal de 625 lneas. El resto de la seal se puede dividir aplicando el criterio de relacin SNR, creando as una segunda seal que junto con la capa base proporcionara una seal de alta definicin con un formato 4/3 y una relacin seal-ruido reducida. El tercer elemento de la seal, conjuntamente con los otros dos, dara una seal con el formato 16/9 de alta definicin Perfil alto (high).- Est previsto para aplicaciones en HDTV. Se utilizan imgenes tipo I, P y B, y el muestreo puede ser 4:2:2 o 4:2:0. La transmisin es escalable tanto en SNR como espacialmente.
32
Entre estos perfiles existe compatibilidad ascendente; los decodificadores de perfil ms alto son capaces de soportar perfiles ms bajos. La combinacin de niveles y perfiles produce una arquitectura que define la capacidad de un codificador para manejar determinado flujo binario. Los niveles y perfiles utilizados en Europa y Amrica a nivel domstico son el nivel principal y el perfil principal. El flujo binario oscila entre 5 y 9 Mb/s. En la tabla siguiente se representan las posibles combinaciones entre niveles y perfiles. No todas ellas encuentran aplicacin prctica. Las combinaciones que aparecen son las especificadas por la UIT. La difusin de la televisin digital se estn realizando en el perfil principal y nivel principal, tomando el nombre de MPEG-2 MP@ML. Los flujos que aparecen son flujos mximos, no flujos reales de trabajo.
Perfiles Niveles ALTO 1920 Pxeles 1152 Lneas ALTO -1440 1440 Pxeles 1152 Lneas PRINCIPAL 720 Pxeles 576 Lneas BAJO 352 Pxeles 288 Lneas 15 Mb/s
SIMPLE PRINCIPAL 4:2:2 Produccin I,P,B ESCALABLE SNR I,P,B - 4:2:0 ESCALABLE ESPACIAL I,P,B - 4:2:0 ALTO I,P,B 4:2:0 y 4:2:2
I,P - 4:2:0
I,P,B - 4:2:0
80 Mb/s
100 Mb/s
60 Mb/s
80 Mb/s
20 Mb/s
Vdeo Digital
Figura 12. Diagrama de bloques de conformacin de corrientes de programa o de transporte de programa simple.. La corriente de programa es una multiplexin simple intercalando los PES unos con otros. Esta opcin se aplica en canales libres de ruido, como por ejemplo la grabacin de un DVD, y de otros soportes multimedia. Como no se espera ruido en el canal, no es necesario usar correccin de errores. Este sistema conlleva una gran simplicidad. No obstante una corriente de programa puede acomodar hasta 16 corrientes de vdeo y 32 de audio. Lo que s es obligatorio en las corrientes de programa es que todas las corriente sean sincrnicas, es decir que tengan una base de tiempos comn. La corriente de transporte es apropiada para entornos ruidosos, opcin que encaja en las necesidades de la difusin de televisin terrestre, por cable y va satlite. Esta opcin exige pasar los PES a otros paquetes ms cortos, de 188 bytes de longitud, y aplicar tcnicas de correccin de errores. Con esto se puede organizar una corriente de transporte de un slo programa (SPTS Single Program Transport Stream). Esta longitud de paquetes incluye 4 bytes de cabecera y es apropiada para utilizarse en redes ATM, as como en una amplia variedad de sistemas de transmisin y almacenamiento. La corriente de transporte puede formarse con varios programas de televisin, cada uno de ellos con varias corrientes elementales. Como es lgico las corrientes elementales que forman un mismo programa de televisin deben ser sincrnicas. Sin embargo, los diferentes programas pueden tener cada uno una sincronizacin independiente. En este caso, se organiza un mltiplex con todos los programas. El flujo binario de la corriente de transporte completa es constante, aun cuando varen los flujos de cada corriente elemental. Para mantener este flujo total constante, se pueden incluir paquetes nulos. Entre otras informaciones, la corriente de transporte tambin lleva informacin de cifrado para el acceso condicional a determinados programas de pago.
34
35
Vdeo Digital
consumo de bateras. Pero a pesar de conseguirse un nivel de calidad aceptable, la cantidad de multigeneraciones posibles disminuye a valores entre 6 y 10. Estos valores de multigeneracin son adecuados a la aplicacin que se est tratando: la captacin de imgenes en el lugar de la noticia, y su posterior insercin en el instante adecuado de un programa. Esta aplicacin no suele requerir mltiples procesos de decodificacin ni grandes procesos de edicin. Por ello, a la hora de valorar la compresin de esta informacin, se permite un factor de compresin mayor que en el caso de la seal de estudio. Los factores de compresin que se suelen dar son entre 5/1 y 10/1; lo que resulta flujos binarios de 15 Mb/s a 30 Mb/s. La aplicacin de estos factores de compresin economiza las transmisiones va satlite, cuando son necesarias, debido a la disminucin de los requerimientos de flujo binario.
37
Vdeo Digital
3.7.5. Multimedia
La compresin de imgenes en los ordenadores tiene su justificacin por la poca capacidad de almacenamiento de los ordenadores domsticos. La escasa implantacin en el ordenador de sistemas hardware de compresin de vdeo hace que se utilicen en general algoritmos software que permitan una alta compresin, aunque no en tiempo real. La necesidad de multigeneracin es, en general, baja. Existen diversos algoritmos de compresin diferentes para su uso con ordenadores, muchos de ellos en base a archivos AVI, lo que quiz dificulta su identificacin. Incluso se utilizan algoritmos MJPEG. Estos algoritmos proporcionan una menor calidad a mayor rgimen binario que el formato MPEG al trabajar cuadro a cuadro pero son ms econmicos. Tambin se utiliza en muchos casos el formato MPEG-1 por su afinidad directa con las posibilidades de soporte CD. La posible mayor calidad visual de MPEG-2 es atractiva pero requiere una mayor potencia de procesamiento y decodificacin. A falta de que se abaraten algo ms las tarjetas codificadoras, existen codificadores, no en tiempo real, por software. La progresiva introduccin de la familia de discos DVD junto con interfaces y buses ms rpidos pueden mejorar las aplicaciones multimedia basadas en ordenador de propsito general y la codificacin MPEG-2. Otro formato muy utilizado en aplicaciones multimedia por su capacidad de compresin es el formato MPEG-4. Para este formato existen codificadores software, que aunque no trabajen en tiempo real, ofrecen una calidad razonable con compresiones bastante altas.
38
3.7.7. Videoconferencia
Las videoconferencias o los enlaces en directo, el retardo que sufre la seal que se codifica cuando se usan imgenes B puede convertir a MPEG-2 en intil para la comunicacin en ambos sentidos. MPEG-2 puede ser utilizado, pero sin cuadros tipo B. No obstante la codificacin que ms se utiliza en la actualidad para estas aplicaciones, y que adems fue diseada para ello es el formato MPEG-4. ste permite la comunicacin con regmenes binarios muy bajos y con una calidad aceptable, con la sola condicin de que se limite el movimiento de los objetos en la escena a transmitir.
39
Vdeo Digital
3.9. Bibliografa
Bethencourt Machado, T. Televisin DIgital Coleccin Beta. Temas audiovisuales. (2001) Gaviln Estelat, E. MPEG-2 Pieza clave de la televisin digital Unidad Didctica 146 IORTV. Martn Marcos, A. Compresin de imgenes JPEG. Ciencia 3. 1999. Martn Marcos, A. Televisin Digital Norma MPEG-2 (video). Ciencia 3. 1998. Mead, D. C. Direct Broadcast Satellite Comunications. An MPEG enabled service. Addison-Wesley. 1999 Mitchell, J.L. MPEG Video Compression Standard International Thompson Publishing 1996. Mossi Garca, J.M. Sistemas de televisin. Servicio Publicaciones UPV. Ortiz Berenguer, L. TV Digital: MPEG-2 y DVB. Servicio Publicaciones UPM. 1999. Riley, M.J. Digital Video Communications. Artech House. 1997. Tejerina, J.L. Bit-rate reduction of HDTV, based on Discrete Cosine Transform. Artculo de Telettra, n45.
40