Codificacion

3- Codificación y difusión de
información multimedia
 Factores de diseño de un codec
Bibliografía
 Codificación basada en la entropía [FLU95] Understanding networked
 Ejemplos: Huffman, Aritmética, etc. multimedia
 Codificación basada en la fuente.
[GIB98] Digital Compression for
Multimedia
 Ejemplos: Diferencial, Transformada, etc. [TSU99] Introduction to video coding
 Codificación y compresión de audio standards for multimedia communication
[JPEGESC] JPEG escalado - Tesis
 Compresión de imagen. Redundancia [JPEGAD] JPEG image coding with
adaptive quantization
espacial. [TSU99] Introduction to video coding
 Estándar JPEG standards for multimedia communication
 JPEG Escalado [H.264] Overview of the H.264 / AVC
Video Coding Standard
 Compresión de vídeo. [MPEG4] MPEG-4 Overview
 Digitalización y Codificación de vídeo. Tipos de vídeo. [HiJa94] Compressing still and moving
 Redundancia temporal. images with wavelets
 Estimación de movimiento: algoritmos.
 Estándares: MPEG e ITU
 Difusión de vídeo.
TECNOLOGÍAS DE RED AVANZADAS – Master IC 2011-2012 – http://www.grc.upv.es/docencia/tra/
TECNOLOGÍAS DE RED AVANZADAS – Master IC 2011-2012
Introducción a la compresión de datos.
 Muchas aplicaciones multimedia requieren volúmenes

de información importantes:
 CD-ROM: 648 MB
 72’ sonido estéreo.
 30’’ de vídeo (estudio TV).
 Una película de 90’ ocuparía 120 GB.
 Una foto (35 mm) a resolución 2000x2000 ocuparía 10MB.
 Un canal de HDTV requiere un ancho de banda de 2Gbps.
 Por esta razón se emplean técnicas de compresión

que permitan reducir el volumen de información
2
Introducción a la compresión de datos (II).
 Un sistema de compresión consta de:

 Codificador y decodificador
 Codificador y decodificador pueden ser:
 Asimétricos
 El codificador suele ser más complejo y lento que el
decodificador (Ej.: Vídeo por demanda)
 Simétricos
 Coste computacional similar (Ej: Videoconferencia).
 Con pérdidas (lossy compression) o irreversible
 Adecuada para medios continuos (audio y vídeo).
 Mayores tasas de compresión.
 Sin pérdidas (lossless compression) o reversible:
 Ficheros de datos, imágenes médicas, etc.
3
Factores en el diseño de un codificador.
Calidad de la señal
- BER (Bit Error Ratio)
- SNR (Signal/Noise)
- MOS (Mean Opinion Score)
Eficiencia Retardo
- Tasa de compresión
Complejidad
- Espacio de memoria
- Potencia (mW)
- Operaciones/Seg.
4
Dos clases de técnicas de compresión.
 Entropy encoding
 Codifica los datos sin necesidad de conocer la naturaleza de
estos.
 De propósito general (todo tipo de datos).
 Son técnicas de compresión sin pérdidas.
 Ejemplos: Statistical (Huffman, aritmética,etc.), Run-length.
 Source encoding
 Codifica los datos basándose en las características y
propiedades de estos.
 Suelen ser técnicas de compresión con pérdidas.
 Se obtienen tasas de compresión elevadas.
 Codificadores/decodificadores de propósito específico.
5  Ejemplos:
 Differential, transform, vector quantization, etc.
 Codificación basada en la entropía
 Ejemplos: Huffman, Aritmética, etc.
 Ejemplos: Diferencial, Transformada, etc.
 Codificación y compresión de audio
 Compresión de imagen. Redundancia espacial.
 Estándar JPEG
 JPEG Escalado
 Compresión de vídeo.
 Digitalización y Codificación de vídeo. Tipos de vídeo.
 Redundancia temporal.

Codificación basada en la entropía.
 Entropía:
 Valor medio de información de un conjunto de símbolos
procedente de una fuente de información (es imposible de
medir en la práctica).
H S    pi log 2
1
(pi = probabilidad del símbolo i)
i pi
 Por ejemplo: Sea S = {4,5,6,7,8,9}, en donde la

probabilidad de cada símbolo es la misma (1/6).
H S   6  log 2 6  2.585
1
6
 Según la teoría de la información (Shannon), esta fuente
7 no puede ser codificada (sin pérdidas) con menos de 2.585
bits por símbolo.
Statistical encoding
 Trata de identificar los símbolos (patrones de bits)

que más se repiten en el conjunto de datos de
entrada.
 Se codifican con pocos bits los símbolos más
frecuentes, mientras que los menos frecuentes son
codificados con más bits.
 Ejemplos:
 Codificación Morse
 E: ‘•’ y Q:’--•-’
 Codificación Huffman.
 Codificación aritmética.
8
Codificación Huffman
 Representan los símbolos con un número de bits

inversamente proporcional a su frecuencia.
 Algoritmo genérico:
 Se construye un árbol binario de abajo hacia arriba
agrupando los símbolos de menor frecuencia y asignado
la suma de las probabilidades de ambos al nodo padre
del árbol.
 Cada símbolo estará representado por una hoja del
árbol y su código serán los bits recorridos hasta la raíz
del mismo.
 Ejemplo:
9
Codificación Huffman: Ejemplo
ABCDE(39)
Símbolo Código
1
A 0
BCDE(24) B 100
0
0 1 C 101
D 110
BC(13) DE(11) E 111
0 1 0 1
A(15) B(7) C(6) D(6) E(5)

1
0
Codificación aritmética
 Identifica una secuencia de símbolos asignándoles

una representación binaria de un intervalo de una
longitud inferior a la unidad.
 Siempre son más eficientes que los códigos Huffman
 Separa el modelo probabilístico de la asignación de bits
pudiendo definir codificadores adaptativos.
 Es computacionalmente eficiente, aunque está sujeto a
patentes.
 Ejemplo:
 Supongamos sólo dos símbolos, A y B con una probabilidad
de P(A)=1/3 y P(B)=2/3.
1
1
Codificación aritmética: Ejemplo
P(A) = 1/3 P(B) = 2/3 segmento código

1 AAA 31/32 .11111
AA AAB 15/16 .1111
8/9 14/16 .1110
ABA
A AB ABB 6/8 .110
2/3
16/27 BAA 10/16 .1010
BA
BAB 4/8 .100
4/9
BBA 3/8 .011
B
8/27
BB
BBB 1/4 .01
0
1
2
Run-length encoding
 Se basa en detectar las repeticiones de símbolos (bits,

números, etc) en los datos a codificar.
 Ejemplo:
Datos a codificar (42): 3150000000376541111111127000000000000003
Datos codificados (21): 315A0737654A1827A0143

Tasa de compresión: 50%
 Este patrón es frecuente en multimedia:

 Audio: Tiras de ceros que representan silencios.
 Vídeo e imagen: Fondos del mismo color (paredes,
cielos, etc.)
1
3
 Estándar JPEG
 JPEG Escalado

Codificación basada en la fuente.
 Se basan fundamentalmente en las propiedades de

la fuente de datos a codificar.
 Suelen tolerar pérdidas en la codificación (lossy
codecs) que perceptualmente pasan inadvertidas
para el usuario.
 Son codificadores de propósito específico.
 Por término general obtienen mayores prestaciones
que los codificadores basados en la entropía.
1
5
Codificación Diferencial
 Se basa en la codificación de las diferencias entre dos

símbolos consecutivos.
 Ciertos tipos de datos tienen la propiedad de similitud
entre símbolos consecutivos:
 Señal de Audio, vídeo, imágenes, etc.
 Esto permite codificar con pocos bits las diferencias.
 Ejemplo:
 DPCM (Differential Pulse Code Modulation)
 Codificación con pérdida.
1
6
Transform encoding
 Se basa en transformar el dominio (Ej.: del

temporal al de la frecuencia) de los datos de
entrada (Ej.: señal de audio). Restar a todos los
pixels el valor del
 Ejemplos: Imágen BW
4x4 pixels
primero
 Aritmética: 160
161
160
165
161
166
160
158
160
1
0
5
1
6
0
-2
160 167 165 161 0 7 5 1
159 160 160 160 -1 0 0 0
 Fourier: F(t) C
t f
 DCT (Discrete Cosine Transformation):

 Muy común en compresión de imágenes estáticas (JPEG).
 Codificación sin pérdida*.

1
7
Vector quantization
 Es directamente aplicable a imágenes y audio.

 Consiste en lo siguiente (imágenes):
 La imagen se divide en bloques de tamaño fijo (vectores).
 Se construye una tabla, code-book, con todos los vectores
diferentes encontrados.
 Se codifica la imagen como una sucesión de índices a la tabla.
 Tanto el codificador como el decodificador necesitan conocer
la tabla (code-book).
 La tabla puede estar predefinida o ser creada dinámicamente.
 Si en una imagen predomina un número reducido de vectores,
el índice de compresión puede ser importante.
1
8
Vector quantization (II)
 Ejemplo:
Imagen original dividida Code-book

en vectores de nxn pixels
0 0 1 0 0
2 2 2 0 1
2 001022032200400
3 2 2 0
0 4 0 0 3
4
 Si un vector no se encuentra en el code-book:

 Buscaremos el que más se parezca.
 Idem + enviar algún dato para aumentar el parecido (valor medio).
 Idem + enviar lo que sea necesario (vector error) para reconstruir el
vector.
 Codificación con pérdida*.

1
9
Vector quantization (III)
 CLUT (Color Look-Up Table)

 Es utilizado para codificar imágenes RGB, que normalmente
no utilizan todos los colores posibles.
 Se utiliza una tabla (code-book) con los colores usados en la
imagen. Cada pixel es representado con el índice de la tabla
correspondiente a su color.
 Ejemplo:
 Imagen RGB de 24bits de color que solo usa 256.
 Se construye una tabla de 256 entradas y en cada una de ellas
se guarda un color (24 bits).
 En lugar de usar 24bits/pixel, ahora usaremos 8bits/pixel
 Tasa de compresión: ~66%
 Codificación más lenta que decodificación.
2
0
 Estándar JPEG
 JPEG Escalado

Introducción a la codificación y compresión de audio.
 Las secuencias de audio forman parte de las

aplicaciones multimedia.
 El estudio de la codificación y compresión se puede
enfocar en función de la aplicación:
 Aplicaciones interactivas (audio-conferencia audio)  codecs
simétricos.
 Aplicaciones de difusión y reproducción de medios (TV digital, audio
Hi-Fi, DVD, etc.)  codecs asimétricos
 Características de una señal de audio.
 Distintos tipos de calidad de audio.
 Técnicas de compresión de audio.
2
2
Características del audio
 Una señal de audio no es más que una onda acústica (variaciones

de presión del aire)
 La señal de audio es unidimensional (tiempo)
 El micrófono transforma las ondas acústicas que lo golpean, en
señales eléctricas (niveles de voltaje)
 El oído es muy sensible a las variaciones de sonido de corta
duración (ms) al contrarío que el ojo humano.
 La relación de dos sonidos A y B se mide en decibelios:
 dB=20 log10 (A/B).
 La intensidad de un sonido A se mide en decibelios tomando como
referencia el menor sonido audible.
 0 dB: Menor sonido audible
 La señal de referencia (B) es una onda senoidal a 1khz que provoca una
presión de 0.0003 dinas/cm2
 A y B son amplitudes (si fueran potencias sería 10 log10 (A/B))
 50 dB: Conversación normal.
2  120dB: Umbral del dolor.
3
Características del audio
 El rango de frecuencias audibles por los humanos

está entre 20Hz y 20KHz.
Audible
No audible
24
Digitalización y cuantificación.
 La
digitalización de las señales de audio se realizan
mediante convertidores A/D.
 Muestrean la señal analógica de audio a una frecuencia
determinada.
Según Nyquist: “Si la señal de entrada tiene una frecuencia
máxima de f, la frecuencia de muestreo tiene que ser de al
menos 2f “(al muestrear a Sf captaremos hasta la frec. Sf/2)
En el conversor D/A, un filtro paso bajo puede interpolar la
parte de señal entre las muestras, para poder reconstruir
perfectamente la señal original.
2
5
 Cuantificación: Las muestras obtenidas se

codifican en un número finito de bits
 Error de cuantificación (quantification noise).
 Codificación lineal o logarítmica.
 PCM (Pulse Code Modulation).

 Usado para la digitalización de señales de audio.
 Parámetros: Sf, bits/muestra, niveles de cuantificación*
2
6
 Cuantificación PCM lineal

 Los niveles de cuantificación están espaciados de manera
equitativa.
 Cada bit de resolución añade 6 dB de rango dinámico.
 Con 16 bits por muestra se cubre totalmente el rango dinámico
del oído humano.
 Cuantificaciones no-lineales (logarítmica)

 Los pasos de cuantificación decrecen logarítmicamente.
 El oído humano es menos sensible a sonidos fuertes.
2
7
Digitalización: Interfaz MIDI
 MIDI (Musical Instrument Digital Interface).
 Utilizado para codificar música (instrumentos).

 Codifica los elementos básicos (notas, silencios, ritmos, etc.) en
mensajes MIDI.
 Cada instrumento tiene su propio código (hasta 127)
 Un sintetizador interpreta los mensajes MIDI y produce la señal de
audio correspondiente.
 Ventaja:
 Reduce mucho el ancho de banda necesario (factor de 1000 !!)
 Inconvenientes:
 Necesidad de un sintetizador en ambos extremos (calidad de sonido
diferente).
 Aplicable solo a música.
2
8
Calidad de una señal de audio.
 Voz (telefonía)
 Se define para los servicios de telefonía digital.
 Estándar G.711 (ITU): Codificación logarítmica.
 Japón y USA: Transformación µ-law.
 Resto: Transformación A-law. (+)
 Parámetros:
 Señal de audio de 3.5 KHz (BW).
 Sf = 8 KHz
 8 bits/muestra.
 Tasa de bits: 64Kbps (N-ISDN).
 Otras técnicas de codificación y compresión:
 DPCM y ADPCM,
 G.72x,
 GSM,
 LPC y CELP,
 etc.
2
9
Calidad de una señal de audio.
 CD-Digital Audio.
 Calidad de audio superior: Sonido Hi-Fi estereofónico.
 Utiliza una codificación lineal. Las diferencias de amplitud deben ser
respetadas por igual.
 Parámetros:
 Señal de audio de 20 KHz (BW).
 Sf = 41.1 KHz
 16 bits/muestra.
 Soporta estereofonía (dos canales)
 Tasa de bits: 1.411 Mbps.
 Otros estándares utilizan esta calidad de audio:
 DAT (32.4 y 48 KHz),
 MPEG (32, 44,1 y 48 KHz),
 DVI,
 etc.
3
0
Parámetros específicos.
 Tasa de bits (throughput):

 Audio sin comprimir:
 Calidad telefónica: 64Kbps.
 Calidad CD: 1.411 Mbps.
 Audio comprimido:
 Calidad telefónica: 32, 16, 4 Kbps (ADPCM, CELP)
 Calidad CD: 192 Kbps. (MPEG audio)
 Retardo de tránsito (aplicaciones interactivas)

 Conversación:
 Telefonía: < 25 ms (evitar echo).
 100 a 500 ms (sensación de tiempo real).
3
1
Parámetros específicos.
 Varianza del retardo (jitter).

 Es el parámetro más crítico para los streams de audio.
 Solución:
 Técnicas de ecualización del retardo.
– Se suministra un tiempo adicional antes de comenzar la
reproducción, almacenando los paquetes en un buffer de entrada.
 Consecuencias:
– Incrementamos el retardo total.
– Necesitamos recursos de memoria para el buffer de ecualización.
 Compromiso entre la capacidad de almacenamiento y el
máximo jitter tolerable por la aplicación.
 Tasas de error:
 Calidad telefónica: < 10-2, Calidad CD: < 10-3
3
2
Algoritmos de compresión (Voz)
 Codificación diferencial:
 DPCM (Differential Pulse Code Modulation).
 Explota la redundancia temporal entre las muestras.
 Se transmite la diferencia
entre muestras (bastante
menor).
 Problema: Sobrecarga de gradiente (slope

overload)
 Las diferencias en altas
frec.(cercanas a Nyquist) no
se pueden representar con
el mismo número de bits.
33
 Codificación diferencial adaptativa:

 ADPCM (Adaptive Differential Pulse Code
Modulation). Predice la muestra y cuantiza
adaptativamente.
Predicción: Codifica la diferencia entre la muestra actual y
una estimación basada en las últimas “n” muestras
X[n] C[n] Dq[n]

D[n] Quantizer C[n] Dequantizer Xp[n]
- +
(adaptive) (adaptive)
Xp[n-1] Xp[n] Dq[n] Xp[n-1] Predictor
Predictor Dequantizer module
module +
(adaptive)
3 Codificador Decodificador
4
 Codificación diferencial adaptativa:

 ADPCM (Adaptive Differential Pulse Code Modulation).
Predice la muestra y cuantiza adaptativamente.
Cuantización adaptativa: Usa pasos más largos para codificar
diferencias entre muestras muy distintas en magnitud (de
alta frecuencia) y pasos más pequeños para muestras que
son similares (bajas frecuencias).
3
5
Una implementación de ADPCM
Algoritmo ADPCM (IMA: Interactive Multimedia

Association)
 Algoritmo de dominio público. Calidad de audio e índice de
compresión aceptables.
 Sencillo y capaz de trabajar en tiempo real (software).
 Indice de compresión: (PCMbits/4) a 1.
Dq[n]
X[n] D[n] C[n] C[n] Dequantizer Xp[n]
Quantizer +
- (adaptive)
(adaptive)
Xp[n-1] Xp[n] Dq[n] Xp[n-1]
Delay
Delay Dequantizer
+
(adaptive)
Predictor
module
Codificador Decodificador
3
6
Calidad telefónica: Recomendaciones ITU
G.701: Digitalización PCM

G.711: Codificación logarítmica µ-law y A-law
G.721: ADPCM
 Muestreo a 8 Khz, muestras de 8 bits: 64 Kbps
 Utiliza diferencias de 4 bits: tasa de bits final 32 Kbps
G.722: Sub-Band ADPCM.

 Muestreo a 16 Khz, muestras de 14 bits: 224 Kbps
 Codifica señales de audio de hasta 7 KHz (por el muestreo)
 Descompone la señal en dos bandas de 4 KHz.
 A cada banda le aplica ADPCM.
 Tasas de bits finales: 48, 56 y 64 Kbps.
G.723, G.726, G.727:

 Variantes del G.721 (ADPCM).
3
7
Calidad telefónica: Vo-coding
LPC (Linear Predictive Coding) US-FS-1015

 Define un modelo analítico del aparato fonador
 Reduce cada segmento de audio a los parámetros del modelo que más
se aproximan al original.
 El decodificador recoge estos parámetros y sintetiza la voz
correspondiente.
 LPC-10E puede bajar hasta 2.4 Kbps.
CELP (Code Excited Linear Prediction) US-FS-1016.
 Es una versión mejorada del LPC.
 Diferencia:
 Utiliza un code-book con secuencias predefinidas para aplicarlas a
cada frame de audio, eligiendo aquella que más se aproxima al
original. Además, calcula los errores cometidos.
 Se envían los parámetros y la versión comprimida de los errores.
 Tasa de bits de hasta 4.8 Kbps (calidad similar a ADPCM G.721 a 32
Kbps)
Variantes CELP:
 GSM, VSELP, LD-CELP, ITU G.729, QCELP, MELT, etc.
3
8
Calidad telefónica
 Tabla resumen de algunos codecs de audio.
Año Tasa de bits Nombre MOS

(Kbps)
1972 64 PCM (PSTN) 4.4
1976 2.4 LPC-10 2.7
1984 32 G.721 ADPCM 4.1
1990 4.15 INMARSAT 3.2
1991 13 GSM 3.6
1991 4.8 CELP (US 1016) 3.2
1992 16 G.728 (LD-CELP) 4
1992 8 VSELP 3.5
1993 1-8 QCELP 3.4
1995 8 G.729 4.2
1995 6.3 G.723.1 3.98
1995 5-6 Half-Rate GSM 3.4
1996 2.4 New LPC 3.3
3
9
Calidad CD
 Estándares MPEG/audio (Estándar ISO)

 MPEG (Moving Pictures Expert Group)
 MPEG/audio ofrece altos índices de compresión, manteniendo
la calidad del audio del stream original.
 Son algoritmos de compresión con pérdidas*.
 MPEG-1 /audio
 Muestreos: 32, 44.1 y 48 KHz.
 Soportan uno o dos canales (diferentes modos de operación).
 Tasas de bits: 32 a 256 Kbps/canal.
 Indices de compresión: 2.7 a 24.
 MPEG-2 /audio
 Compatibilidad hacia atrás con MPEG-1.
4
0
 Diseñado para sistemas de sonido multicanal.
MPEG-1 audio.
 El stream comprimido puede incluir información

auxiliar (acceso aleatorio, avance y retroceso rápido,
CRC, etc.)
 Arquitectura de tres niveles
 MPEG-1 Nivel I:
 El más sencillo. Tasa de bits 192 Kbps/canal. Aplicaciones:
Philips DCC
 MPEG-1 Nivel II:
 Complejidad media. Tasa de bits 128 Kbps/canal. Aplicaciones:
DAB, CD-I, Vídeo CD.
 MPEG-1 Nivel III:
 El más complejo. Ofrece la mejor calidad de audio con tasas de
bits sobre 64 Kbps/canal. Está preparado para N-RDSI.
 Existen codecs hardware de los tres niveles para
4 aplicaciones de tiempo real.
1
MPEG audio: Fundamentos.
 Se basa en la capacidad de percepción que tiene el

oído humano (modelos psico-acústicos)
 Enmascaramiento de señales débiles (noise masking):
4
2
MPEG audio: Fundamentos.
 Discriminación frecuencial limitada.

 La agudeza (selectividad) del oído humano en baja frecuencia
es muy superior que en altas frecuencias (sub-band coding)
4
3
MPEG Audio: Diagrama de bloques
Codificador
Stream de bits
PCM audio Time-Frec Asig. Bits. comprimido
Formato del
Sub-band Cuantizador
stream de bits
filtering Codificador
Modelo
psico-acúst. Datos auxiliares
(opcional)
Decodificador
Stream de bits
comprimido PCM audio
Reconst. Transformación
Desensamblado de bandas Frec-Time
Datos auxiliares
(opcional)
4
4
MPEG-1 audio: Niveles.
 Nivel I:
 Se divide la señal de audio en 32 bandas de 750 Hz.
 Tasa de muestreo: 48 Khz. Tamaño de trama: 384 muestras
 El umbral de enmascaramiento (SMR) se calcula con una FFT de
512 puntos (modelo psico-acústico).
 Para cada sub-banda se escoge uno de los 15 cuantizadores
definidos en función del SMR y la tasa de bits requerida.
 Nivel II:
 Utiliza un tamaño de trama de 1152 muestras, una FFT de 1024
puntos (cálculo del SMR) y una cuantización más fina.
 Nivel III:
 Incrementa la resolución en frecuencia de las 32 bandas (MDCT),
utiliza un modelo psico-acústico más elaborado, y añade una
4 etapa de compresión Huffman.
5
MPEG Audio: Calidad de audio
 Parámetros de calidad objetivos:

 MSE (Mean Square Error).
 Calcula el error cuadrático medio entre la señal original y la
reconstruida con el codec.
 s i   s i  
N 2
1
MSE 
N

i 1  
 SNR (Signal-to-Noise Ratio)
 Relación logarítmica entre dos señales. Se utilizará para
comparar la señal original con el error introducido por el codec.
 Se expresa en decibelios (dB).
N
1  si 
2
N 2552
SNR(dB)  10 log 10 i 1 PSNR  10 log 10
MSE MSE
4
6
MPEG Audio: Calidad de audio.
 Parámetros de calidad subjetivos:

 MOS (Mean Opinion Score): MPEG define una serie de tests para
determinar la calidad de audio generada por cada nivel.
 Resultados:
 Fuente:
 Estéreo, 16bits, 48KHz,
256 Kbps
 Compresión 6:1
 En condiciones de escucha
óptimas, expertos en audición
han sido incapaces de
distinguir secuencias
comprimidas de sus
originales.
4
7
 Estándar JPEG
 JPEG Escalado

Introducción a la codificación de imágenes.
 Las imágenes que percibimos están compuestas de

ondas electromagnéticas (: 250nm - 780nm).
 A diferentes longitudes de onda, diferentes sensaciones de color.
 El ojo es más sensible a unos colores que a otros.
 Dadas tres fuentes de luz de la misma intensidad y distinto color (una
roja, otra verde y otra azul), el ojo percibe la verde con el doble de
intensidad que la roja, y seis veces más intensa que la azul.
 Los mecanismos de percepción visual humanos son
menos sensibles y estrictos que los auditivos.
 Ej.: Variaciones de frecuencia, supresión de imágenes, etc.
 Mezclando 3 colores (RGB) podemos obtener otro.
 Integra la información que recibe.
4
9
Captura y digitalización de imagen I
 Las imágenes digitales están compuestas de píxels

(picture element).
 Una cámara fotográfica digital utiliza un CCD (charge
coupled device) para realizar el proceso de adquisición
analógica.
 El CCD tiene una serie de pequeños diodos sensibles a la luz que convierten luz
en cargas eléctricas (o sea, fotones en electrones).
 Cada diodo del CCD captura un píxel de la imagen a adquirir.
 Para poder situar cada píxel de la imagen (luz entrante)

en su diodo correspondiente del CCD se utiliza una lente.
 Mediante la lente se puede conseguir también

realizar zoom óptico (no confundir con zoom
digital)
50
Captura y digitalización de imagen II
 Problemática del color:

 Si el CCD captura la luz directa que recibe de la lente, sólo tenemos la
intensidad de luz, pero no su color.
 Añadimos un filtro (R, G ó B) a cada píxel, de manera que algunos
píxels reciben sólo la luz roja, otros la verde y otros la azul.
 El número de píxels que reciben luz verde es el mismo que la suma de
los que reciben luz roja y azul.
 La información de color que no se ha obtenido en

cada píxel se interpola directamente de sus
vecinos, usando un DSP.
51
Captura y digitalización de imagen III
 El CCD es un dispositivo analógico.

 Es necesario un conversor analógico digital (ADC)
que obtenga la representación digital de cada
píxel a partir de la señal eléctrica generada por
cada diodo.
 Una cámara digital necesita un DSP para
gestionar el funcionamiento de la cámara.
 Realiza el acceso y almacenamiento de fotos en
memoria, el proceso de compresión, la interpolación de
los colores, gestión de menús, etc.
 Uno de los más usados, el TMS320DSC24 de Texas
Instruments, funciona a 80 Mhz y es utilizado por
Kodak en sus productos.
52
Captura y digitalización de imagen IV
 Codificación y recodificación.
 Cada muestra RGB se codifica con una cantidad de bits por
componente de color (p.ej., 8 bits/componente→24 bits/muestra).
 A veces resulta interesante codificar el nivel de brillo de una muestra
(luminancia, o componente Y) y las diferencias de color (crominancias
azul, roja y verde, o componentes Cb, Cr, Cg).
 La conversión de RGB a YCbCr (YUV) se realiza mediante una matriz de
conversión (aproximada):
 Y = 0.3R + 0.6G + 0.1B (Nivel de brillo o luminancia)
 U = B - Y (Diferencia de color azul) (equiv. Cb=U/2+128)
 V = R - Y (Diferencia de color rojo) (equiv. Cr=V/1.6+128)
 Cada uno de los componentes se codifica con 8 bits.
 Y (8 bits): rango 16-235
 Cb (8 bits) y Cr (8 bits): rango 16-240
La diferencia de color verde (Cg)
es redundante y no se almacena, ya
que se puede obtener a partir de la
5 Y, la Cb y la Cr.
3
Captura y digitalización de imagen V
 Subsampling: El ojo es más sensible a la

información de luminancia que de Muestra Cr + Muestra Cb
crominancia. Muestra Y 720
720
480
o
576 360
480 Y
o
576 480
Y o
Cb 576
Cr Cb
Cr
Formato 4:4:4 Formato 4:2:2
720 720
480 480
o o
576 576 180
Y Y
360
240 480
o o
288 576
5 Cb Cb
4 Formato 4:2:0 Cr Formato 4:1:1 Cr
Tipos de imagen (según su resolución)
 La resolución de una imagen se mide según el número

de píxels por lado (ancho x alto).
 En cámaras digitales se suele medir en Megapixels
(millones de píxels por imagen)
1) Common Intermediate Format (CIF) (352x288): Utilizado
habitualmente en videoconferencia (junto con Quarter CIF)
2) VGA (640x480): Usado por cámaras de baja calidad.
3) n-Megapixels: Ofrecido por cámaras de mayor calidad.
 A veces, la resolución real de una cámara digital no
coincide con la del CCD de esa misma cámara.
 P.ej, una cámara de 3,3 MP ofrece una resolución de 2048x1536.
 Parte de la circuitería del CCD que transporta los datos al ADC está
situada en determinados diodos que no pueden ser usados.
5
5
Compresión de imagen.
 Una imagen suele presentar redundancia espacial:

 Redundancia espacial:
 Las imágenes tienen información redundante susceptible de ser
eliminada o reducida (por ejemplo, el color del cielo en una foto
suele ser uniforme y azul :-).
 El proceso de compresión de imagen consistirá en:
1) Eliminar en la medida de lo posible la redundancia espacial
utilizando técnicas de source encoding (normalmente mediante
transformada matemática).
2) Codificar los datos obtenidos en el paso anterior usando entropy
enconding (elimina aun más la redundancia espacial).
 Para conseguir mayores índices de compresión, este proceso será con
pérdidas (cuantización de los datos).
56
 Estándar JPEG
 JPEG Escalado

Redundancia espacial: JPEG
 Es un estándar ISO (‘91) cuyo origen proviene del grupo

JPEG (Joint Photographic Expert Group).
 Codifica imágenes de tono-continuo

 Dispone de cuatro modos de operación (incluyendo codificación sin
perdidas).
 Se definen una serie de parámetros que permiten codificar las
imágenes para obtener una gran variedad de calidades de
compresión.
 Factor de compresión ronda 20:1*
 Es un sistema de codificación simétrico.
 Forma parte de otros estándares de compresión de secuencias de
vídeo (MPEG y H.26*).
5
8
Codificación JPEG (pasos)
 Codificación JPEG en modo secuencial con pérdidas

Codificación fuente Codificación entrópica
Imagen Imagen
original (RGB) Prep. de Run codificada
DCT Cuantiz. Huffman
bloques Length
Tabla Tabla
 Paso 1: Preparación de la imagen.

 No define el formato de imagen original. Podría ser RGB, YUV,
YIQ, YCrCb, etc.
 Convierte la imagen a formato YCbCr utilizando una reducción
de color 4:1:1 (sub-sampling)
Ej.: RGB 640x480 (VGA): Y (640x480), Cb y Cr (320x240)
 Se divide la imagen en bloques de 8x8 elementos
Ej. anterior: 4800 bloques Y, 1200 Cb y 1200 Cr.
5
9
Codificación JPEG: Transformada DCT
 Paso 2: Transformada discreta del coseno (DCT).

 Transforma un dominio de amplitudes al dominio de la frecuencia.
 Las componentes frecuenciales más altas son susceptibles de ser
eliminadas (percepción visual)
 Se aplica esta transformada a cada bloque de 8x8 obteniendo la
matriz de coeficientes DCT asociada
 Componente (0,0): el nivel de continua DC del bloque (Media)
Coeficiente
Amplitud DCT
Transformada
x DCT Fx
y
Fy
6
0
Codificación JPEG: Transformada DCT(II)
 DCT-1D: (vector 8 elementos)

Transformada
directa
C (u ) 7  (2 x  1)u 
S (u )  
2 x 0
s ( x ) cos  16  1
Si u  0, C (u ) 
2
Si u  1, C (u)  1
7
C (u )  (2 x  1)u 
s ( x)   S (u ) cos  
u 0 2  16
Transformada
inversa
 DCT-2D: (matriz 8x8 elementos)
1 N 1 N 1
 (2 x  1)i   (2 y  1) j 
DCT (i, j )  C (i)C ( j ) pixel( x, y) cos   cos  
2N x 0 y 0  2 N   2N
1 N 1 N 1
 (2 x  1)i   (2 y  1) j 
pixel( x, y) 
2N

i 0 j 0
C (i )C ( j ) DCT (i , j ) cos  2 N  cos  2N 
6
1
Codificación JPEG: Cuantificación
 Paso 3: Cuantificación (quantization).

 Se eliminan los coeficientes menos representativos de la DCT
(transformación con pérdidas).
 Cada coeficiente de la matriz 8x8 es dividido por un valor
almacenado en una tabla (quantization table).
 El estándar sugiere dos tablas una para la componente Y y otra para
las componentes Cb y Cr.
 Estas tablas se pueden escalar con otro parámetro Q que nos
permitirá ajustar el índice de compresión requerido.
Tabla de 150 70 19 4 0 0 0 0
150 70 38 16 4 0 1 0 cuantificación 88 56 11 8 0 0 0 0
88 56 22 9 2 0 0 0 10 17 6 1 0 0 0 0
21 34 12 4 0 0 0 0 1 1 2 4 8 16 32 64 1 1 1 2 0 0 0 0
4 6 3 7 0 1 0 0 1 1 2 4 8 16 32 64 0 0 0 0 0 0 0 0
1 0 5 0 2 0 0 0 2 2 2 4 8 16 32 64 0 0 0 0 0 0 0 0
0 1 0 0 0 0 0 0 4 4 4 4 8 16 32 64 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 8 8 8 8 8 16 32 64
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 16 16 16 16 16 16 32 64
32 32 32 32 32 32 32 64
6 Coeficientes DCT
Coeficientes DCT 64 64 64 64 64 64 64 64
2 cuantificados
Codificación JPEG: Codificación entropía
 Paso 4: Codificación DPCM de los componentes DC de

cada bloque.
 Bloques sucesivos tienen un valor medio muy similar.
 Paso 5: Codificación run-length de todos los
componente de un bloque.
 Se hace un barrido “zig-zag” con el fin de agrupar todos los
componentes nulos.
150 70 19 4 0 0 0 0
88 56 11 8 0 0 0 0 150-70-88-10-56-19-4-11-17-1-0-1-6-8-0-0-0-1-1-0-0-0-0-0-2-..(39 0’s)
10 17 6 1 0 0 0 0
1 1 1 2 0 0 0 0
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 150-70-88-10-56-19-4-11-17-1-0-1-6-8-A0/3-A1/2-A0/5-2-A0/39
6
3
Codificación JPEG: Codificación entropía
 Paso 6: Codificación estadística VLC: Huffman

 A lo obtenido en el paso anterior se aplica el algoritmo de Huffman
para comprimir aún más la información.
 El resultado de este paso es lo que debemos enviar o almacenar.
 La decodificación JPEG consiste en realizar el proceso

inverso:
Inverse Inverse
Quantization DCT
Zig-zag Huffman
Run-lenght 110001110011100010…..
ordering decoder
6 decoder
4
Codificación JPEG: Ejemplo real (Quant)
40 44 47 40 40 55 79 75 411 -18 14 -8 24 -10 -14 -18

44 52 40 47 40 48 67 79 20 -34 27 -9 -11 11 14 7
52 55 36 67 63 62 52 72 DCT -11 -23 -1 5 -19 4 -20 -2
68 45 56 60 52 55 36 60 -8 -5 14 -14 -8 -3 -3 9
62 48 56 48 40 36 47 62 -3 9 7 2 -10 17 18 16
47 67 40 55 55 40 36 62 3 -2 -17 8 7 -3 1 -8
36 56 23 67 62 44 49 47 8 1 -2 3 -2 -7 -1 -2
48 55 36 55 52 47 47 36 1 -8 -4 2 2 3 -7 2
Bloque de muestras (pixels) Bloque de muestras transformadas
Quant
39 49 38 47 45 55 70 76 102 -2 1 0 1 0 0 -1
50 49 38 46 45 57 65 72 2 -4 2 0 0 0 0 0
54 46 43 55 54 60 53 60 IDCT -1 -2 0 0 -1 0 -1 0
58 47 50 59 55 57 43 55 0 0 1 -1 0 0 0 0
64 52 51 54 45 48 41 60 0 0 0 0 0 0 0 0
56 52 51 55 44 45 42 55 0 0 -1 0 0 0 0 0
43 50 47 58 51 49 43 42 0 0 0 0 0 0 0 0
42 50 40 53 50 51 48 39 0 0 0 0 0 0 0 0
Bloque recuperado de muestras Bloque de muestras cuantizadas

6
5
Codificación JPEG: Ejemplo real I (RLE+VLC)
 Codificación RLE+VLC de los coeficientes cuantizados

Número de bits Código
102 -2 1 0 1 0 0 -1 0 100
2 -4 2 0 0 0 0 0 1 00
-1 -2 0 0 -1 0 -1 0 2 01
 
0 0 1 -1 0 0 0 0
 
0 0 0 0 0 0 0 0
5 1110
0 0 -1 0 0 0 0 0 6 1111 0
0 0 0 0 0 0 0 0 7 1111 10
0 0 0 0 0 0 0 0 8 1111 110
9 1111 1110
Bloque de muestras cuantizadas 10 1111 1111 0
11 1111 1111 1
Tabla para la DC
Paso 1. Se codifica la DC usando codificación

diferencial DPCM
• Si DC Bloque anterior es 98 → codificar 102-98
• Se codifica como:
Num. bits necesarios (tabla VLC) + codif + signo
6
6
• DC se codifica como: 101 100 0
Codificación JPEG: Ejemplo real II (RLE+VLC)
Run Nivel Código

102 -2 1 0 1 0 0 -1
2 -4 2 0 0 0 0 0 EOB 10
-1 -2 0 0 -1 0 -1 0 0 1 11s
0 0 1 -1 0 0 0 0 0 2 0100 s
0 3 0010 1s
0 0 0 0 0 0 0 0
0 4 0000 110s
0 0 -1 0 0 0 0 0 0 5 0010 0110 s
0 0 0 0 0 0 0 0 …
0 0 0 0 0 0 0 0 1 1 011s
1 2 0001 10s
Bloque de muestras cuantizadas 1 3 0010 0101 s
1 4 0000 0011 00s
…
Paso 2: Se codifica en zig-zag 2

2
1
2
0101 s
0000 100s
…
pares <Run (cuenta de ceros), Escape 0000 01
coeficientes> Tabla para pares <Run, Niveles>
Run (Num. De Ceros) Valores Código VLC
0
0
-2
2
0100
0100
1
0
Existe código de escape:
0 -1 111 •
0000 01 RRRR RR NNNN NNNN
0 -4 0000 1101
0 1 110
1 2 0001 100
6 …
7 Parte del bloque codificado con VLC
Codificación JPEG: Ejemplo real III (RLE+VLC)
 Resultado final de la codificación RLE+VLC

102 -2 1 0 1 0 0 -1 Run (Num. De Ceros) Valores Código VLC
2 -4 2 0 0 0 0 0
-1 -2 0 0 -1 0 -1 0 N/A 4 101 100 0
0 0 1 -1 0 0 0 0 0 -2 0100 1
0 2 0100 0
0 0 0 0 0 0 0 0 0 -1 111
0 0 -1 0 0 0 0 0 0 -4 0000 1101
0 0 0 0 0 0 0 0 0 1 110
1 2 0001 100
0 0 0 0 0 0 0 0 0 -2 0100 1
5 1 0001 110
Bloque de muestras cuantizadas 3 1 0011 10
5 -1 0001 111
0 -1 111
2 -1 0101 1
4 -1 0011 01
7 -1 0001 001
EOB 10
Tasa de compresión: Bloque codificado con VLC
 Stream final: 1011000010010100011100001101 … 000100110 (85 bits)

 Bits por píxel: (Núm bits/ Núm píxels) 85/64= 1’33 bpp
 Factor de compresión:
Tam_comprimida:Tam_original= 85:(8*8*8)= 85:512
1:Tam_original/Tam_comprimida= (85/85):(512/85)= 1:6
6
8
Codificación JPEG: Ejemplo real IV (Calidad)
40 44 47 40 40 55 79 75 Medida objetiva del error:

44 52 40 47 40 48 67 79
52 55 36 67 63 62 52 72 MSE (Mean Square Error)
68 45 56 60 52 55 36 60
62 48 56 48 40 36 47 62
 s i   s i  
N 2
1

47 67 40 55 55 40 36 62
36 56 23 67 62 44 49 47 MSE 
N i 1  
48 55 36 55 52 47 47 36
Bloque de muestras (pixels)

Medida objetiva de la calidad:
PSNR (Peak SNR)
2552
PSNR  10 log 10
39 49 38 47 45 55 70 76
50 49 38 46 45 57 65 72
54 46 43 55 54 60 53 60 MSE
58 47 50 59 55 57 43 55
64 52 51 54 45 48 41 60
56 52 51 55 44 45 42 55
43 50 47 58 51 49 43 42 Valores del ejemplo:
MSE = 49’53
42 50 40 53 50 51 48 39
Bloque recuperado de muestras

6
PSNR = 31’18 dB
9
 Estándar JPEG
 JPEG Escalado

JPEG escalado
 Motivación
 Fundamentos del JPEG escalado
 Compatibilidad con JPEG estándar
 Cuantificación variable
 Resultados
Motivación
 Utilización de tamaño de bloque mayor: NxN.

 Mayor compactación de energía pero mayor tiempo de
cálculo.
 Descartar coeficientes de alta frecuencia hasta quedarse
con sólo una submatriz de 8x8.
Fundamentos del JPEG escalado
 División de la imagen en bloques de NxN puntos

conservando sólo los 8x8 primeros coeficientes.
 Utilización de la DCT recortada de N a 8, modificada.
 Utilización de nuevas matrices de cuantificación.
 Elección de N=16.
El proceso de codificación/decodificación JPEG escalado
Bloques de 16x16 Codificador de JPEG escalado
Cuantifi- Codificador
FDCT 16x16 16x16 a 8x8
cador de entropía
Imagen
FDCT 16x16 recortada
Imagen comprimida
Decodificador de JPEG escalado Bloques de 16x16
Decodifica. Descuanti- 8x8 a 16x16 IDCT 16x16

de entropía ficador
Imagen
comprimida IDCT 16x16 recortada
Imagen
Ejemplo de compresión JPEG escalado
Original JPEG estándar JPEG escalado

Tasa 24 - 180K Compresión 78:1
Tasa 0.3 - 2.2K
Ejemplo de compresión JPEG escalado
(continuación)
Original JPEG estándar JPEG escalado

Tasa 24 - 180K Compresión 128:1
Tasa 0.18 - 1.4K
Compatibilidad con JPEG estándar
 Aunque el bloque de imagen es de 16x16 el de

coeficientes es de 8x8 puntos.
 Los coeficientes obtenidos se escalan para que estén
en el rango de los que se obtienen en una DCT de
8x8.
 Las funciones básicas son similares.
 Se incluye información de tamaño real de la imagen,
mediante códigos definidos para extensiones.
Comparación de la DCT de 8 y 16 puntos
Funciones básicas de las DCT de 8 y 16 puntos
0 1 2 3
4 5 6 7
DCT n=8 DCT n=16

Mezcla de formatos
Imagen Leída como Se obtiene
JPEG escalado
JPEG estándar
JPEG estándar
JPEG escalado
Cuantificación variable
 En el proceso de cuantificación se consigue la

compresión a base de anular coeficientes
 S 0,0 S 0,1 S 0,7   Sq 0,0 Sq 0,1 Sq 0,7 
   
 S 1,0 S 1,1 S 1,7  Cuantificación  Sq 1,0 Sq 1,1 Sq 1,7 
    
           
redondeo  vu   Sq vu
S
   
 S 7,0 S 7,1 S 7,7   Q vu   Sq 7,0 Sq 7,1 Sq 7,7 
 Para conseguir más ceros hay que incrementar los

valores Qvu, lo que afecta a todos los bloques
Cuantificación variable: propuesta
 Utilización de una función de cuantificación con umbral.
 S  S
 redondeo  vu  , si vu > um bral
Sq vu    Q vu  Q vu
 0, en otro caso

 Clasificación de los bloques en categorías.

 Utilización de un umbral distinto para cada categoría.
Ejemplo de clasificación de bloques y asignación de umbrales
Zona 1: Zona 2:
Hasta 47 ceros de 48 a 55 ceros
Umbral 1,0 Umbral 1,5
Zona 3: Zona 4:
de 56 a 59 ceros de 60 a 63 ceros
Umbral 2,5 Umbral 1,0
Ejemplo de cuantificación adaptativa:
detalle de la cara de Lena
Sin cuantificación Con cuantificación

adaptativa adaptativa
Ejemplo de cuantificación adaptativa:
detalle del sombrero de Lena
Sin cuantificación Con cuantificación

adaptativa adaptativa
Resultados
Detalle de la cara de Lena a 0.25 bpp
JPEG estándar JPEG escalado JPEG escalado con

cuantificación adaptativa
Detalle de la cara de Lena a 0.15 bpp
JPEG estándar JPEG escalado JPEG escalado con

cuantificación adaptativa
Relación Señal-Ruido para distintas
tasas de bits de la imagen Lena
estándar escalado adaptativo

30
29
28
27
26
SNR'
25
24
23
22
21
Lena 512x512
20
0,1 0,15 0,2 0,25 0,3 0,35 0,4 0,45 0,5
Tasa de bits
Relación Señal-Ruido para distintas
tasas de bits de la imagen Catedral
estándar escalado adaptativo

estándar (1:2) escalado (1:2) adaptativo (1:2)
26
25
24
23
SNR'
22
21
20
19
Catedral 899x1107 y 450x554(1:2)
18
0,1 0,15 0,2 0,25 0,3 0,35 0,4 0,45 0,5
Tasa de bits
Relación del SNR de las imágenes con JPEG
escalado y adaptativo frente al estándar
1,1
Escalado
Adaptativo
SNR' Escalado y Adaptativo / Estándar
1,08
1,06
1,04
1,02
0,98
0,1 0,15 0,2 0,25 0,3 0,35 0,4 0,45 0,5
Tasa de bits
 Estándar JPEG
 JPEG Escalado

Introducción
 Una secuencia de vídeo es una sucesión de imágenes que

producen sensación de movimiento.
 El proceso completo de transmisión de vídeo con
compresión consiste en:
 Adquisición del vídeo a transmitir.
 Captura analógica de la secuencia de imágenes.
 Digitalización del vídeo.
 (Re)codificación y subsampling de las muestras.
 Típicamente se pasa de RGB a YCbCr
 Subsampling de la crominancia (de 4:4:4 a 4:2:0 ó 4:2:2)
 Compresión del vídeo.
 Transmisión progresiva del vídeo comprimido (a ser posible usando
protocolos con soporte multimedia)
9
1
Captura de vídeo analógico
 Las imágenes (dos dimensiones) son convertidas en una

señal analógica.
 Se capturan las imágenes a intervalos regulares.
 Cada imagen (cuadro o frame) es barrida calculando la intensidad de
cada punto (B&W).
 Para reproducir la imagen se realiza el proceso inverso.
Líneas de Líneas de barrido mostradas

barrido
1
Placa de 3
barrido
a 5
7
9
Lentes t
9
2 483
Captura de vídeo analógico II
 La captura (y reproducción) de imágenes en color es

muy similar a la de blanco y negro.
 En este caso se utilizan tres haces de barrido (RGB).
 Conversión RGB a YUV (compatibilidad con señales B&W).
Y: Luminancia (intensidad).
Placa de U y V: Diferencias de color.
Filtros barrido
a El ojo humano es más sensible a
R
Lentes la intensidad (brillo) que a la
G a t información de color (sub-
a
sampling).
B t
Divisor
t TV Color
R
Y+C Demod. G CRT
Y Conv. B
R U
Cámara G C
B V
TV B&W
9 Codificador Modulador Y+C Y
Filtro CRT
3
Captura de vídeo analógico III
 Parámetros de barrido:
 Relación de aspecto (ancho:alto): 4:3
 Existen distintos estándares:
 NTSC (Usa y Japón): 525 líneas, 30 frames/s
 PAL/SECAM (Resto): 625 líneas, 25 frames/s.
 Algunas líneas (superiores e inferiores) no son visibles.
 Durante el retorno vertical, se puede insertar información adicional
(teletexto).
 Barrido entrelazado y progresivo.

 Entrelazado.
 Cada cuadro se representa con dos campos sucesivos (uno con las
líneas impares y otro con las pares) (60 c/s ó 50 c/s).
9
4
Captura de vídeo analógico IV
 Parpadeo de imagen (flicker)

 Efecto que aparece cuando la imagen no es refrescada con
suficiente rapidez.
 La retina mantiene una imagen durante un tiempo antes de que
desaparezca.
 Valor mínimo: 50 imágenes/segundo
 Continuidad de movimiento.
 Viene determinada por el número de cuadros diferentes por
segundo.
 No se recomienda utilizar menos de 25 cuadros/s.
 Ancho de banda de una señal de vídeo analógico: 6

MHz.
9
5
Digitalización
 ITU-R (CCIR-601): Estándar para la digitalización de

señales de TV.
 Define los parámetros de muestreo, cuantificación, barrido y
resolución de imagen que se deben tomar para digitalizar una señal
de TV analógica.
 Parámetros de barrido:
 Dos formatos (NTSC y PAL/SECAM)
 525 líneas y 858 muestras/línea - 30 frames/seg.
 625 líneas y 864 muestras/línea - 25 frames/seg.
 Las muestras corresponden a la luminancia (Y): Intensidad de luz de
cada pixel (cantidad de blanco).
 Las diferencias de color Cr (U) y Cb (V) se muestrean a la mitad
(429/línea, 432/línea): Sub-sampling 4:2:2.
9
6
Digitalización II
 Cada línea tiene una zona visible (línea activa). Este estándar define
una línea activa de 720 pixels.
 Se define un número de líneas visibles por cuadro:
 480 (NTSC), 576 (PAL/SECAM).
 Barrido entrelazado:
 Un cuadro (frame) está formado por dos campos:
 El primero con las líneas impares y el segundo con las pares.
Línea
completa
Tiempo
Línea activa
720 muestreos
 Frecuencia de muestreo única.

 525x858x30* = 625x864x25 = 13,5 MHz.
9
7
Digitalización III
 Codificación y recodificación.
 Cada muestra RGB se codifica con 24 bits/color.
 La conversión de RGB a YCbCr (YUV) se realiza mediante una matriz
de conversión (aproximada):
 Y = 0.3R + 0.6G + 0.1B
 U = B - Y (Diferencia de color azul) (equiv. Cb=U/2+128)
 V = R - Y (Diferencia de color rojo) (equiv. Cr=V/1.6+128)
 Cada uno de los componentes se codifica con 8 bits.
 Y (8 bits): rango 16-235
 Cb (8 bits) y Cr (8 bits): rango 16-240
720
720 360
480 480
o 480 o
576 o 576
R 576 Cb
G Y Cr
B
Subsampling 4:2:2
9
8
9
9
Codificación: RGB
0
0
1
Codificación: YCbCr
1
0
1
Codificación: Y Subsampling (I)

2
0
1
Codificación: Y Subsampling x2 (II)

3
0
1
Codificación: Y Subsampling x4 (III)

4
0
1
Codificación: Y Subsampling x8 (IV)

5
0
1
Codificación: CbCr Subsampling (V)

6
0
1
Codificación: CbCr Subsampling x2 (VI)

7
0
1
Codificación: CbCr Subsampling x4 (VII)

8
0
1
Codificación: CbCr Subsampling x8 (VIII)

Tipos de vídeo (según su calidad)
 La percepción de calidad de una señal de vídeo se basa

en tres parámetros:
 La resolución de las imágenes.
 La frecuencia de reproducción (cuadros/s.).
 El tipo de barrido (progresivo o entrelazado)
 Televisión de alta definición (HDTV).

 Existen diferentes variantes acerca HDTV.
 1920x1080/60, 1920x1080/30-24, 1280x720/30-24
 Relación de aspecto 16:9
 Vídeo digital profesional (studio-quality).

 Estándar ITU-R (CCIR-601) de vídeo digital.
1
0
9
Tipos de vídeo (según su calidad)
 Vídeo de difusión (TV broadcast).

 Difusión de señales de televisión analógicas.
 Estándares NTSC y PAL/SECAM.
 Reproductor de Vídeo (VCR-quality).

 Grabación de vídeo analógico (en VHS)
 Menor resolución de imagen (la mitad de PAL/SECAM).
 Videoconferencia (Low-speed).
 Tasas de bits pequeñas (alrededor de 128 Kbps)
 Resolución de imagen 4 veces inferior al vídeo digital.
 ITU-TS H.261: Common Intermediate Format (CIF) 352x288
 La secuencia de cuadros/s se reduce entre 5 y 10.
1
1
0
Parámetros específicos de red I
 Lo que debe suministrar una red para el envío en tiempo

real de una secuencia de vídeo.
 Tasa de bits.
Sin comprimir Comprimido
Calidad Estándar
Mbps Mbps
HDTV 1920x1080/60
Sin comprimir 2000
Comprimido MPEG-2 25 a 34
ITU-R digital TV
Sin comprimir ITU-R 601 166
Comprimido MPEG-2 3a6
TV broadcast MPEG-2 2a4
VCR MPEG-1 1,2
Videoconferencia H.261 0.1
1
1
1
Parámetros específicos de red II
 Retardo y varianza del retardo.

 Normalmente se envían una secuencia de vídeo sincronizada con el
audio correspondiente.
 La sincronización es muy importante y necesaria desde HDTV hasta
VCR.
 En Videoconferencia no es tan importante ya que la imagen no es
continua (pocos cuadros/s).
 En estos casos, los requerimientos para estos parámetros los
impone el audio (más sensible).
 Valores indicativos para la varianza del retardo:
 HDTV: 50 ms.
 Vídeo difusión: 100 ms.
 Videconferencia: 400 ms.
1
1
2
Parámetros específicos de red III
 Tasa de error.
 El vídeo comprimido es más sensible a los errores.
 La degradación de la calidad de vídeo percibida depende:
 BER de la red
 Del tipo de error (simple, ráfaga, bloque, etc.)
 Donde se produce ese error.
 El índice de compresión de vídeo.
 Mecanismos de recuperación ante errores:
 Técnicas de protección de la señal.
– FEC (Forward Correction Codes).
– Marcas de resincronización.
– Reversible VLC.
– Técnicas de paquetización.
 Ocultación de errores (error concealment)
– Cuando se pierden bloques o llegan demasiado tarde.
– Técnicas de extrapolación e interpolación de cuadros.
1
1
3
 Estándar JPEG
 JPEG Escalado

Redundancia temporal
 Se basa en la similitud de cuadros sucesivos en una

secuencia de vídeo.
 Ej.: Secuencias de plano estático.
 Se utilizan técnicas de codificación diferencial o
transformada 3D
 Sólo se codificarán las diferencias entre cuadros sucesivos (DPCM).
 La reconstrucción de un cuadro puede estar basado en
otro(s) anterior(es).
 Un algoritmo típico de eliminación de redundancia
temporal (motion compensation) es el que emplea
MPEG.
1
1
5
Redundancia temporal (MPEG-1)
 Cuadros de referencia y cuadros auto-contenidos

 Si F1 lo usamos para construir F2, se dice que F1 es un cuadro de
referencia (reference frame).
 Si un cuadro no se construye a partir de ningún otro, se dice que es
auto-contenido (intracoded frame)
 Normalmente estos sirven de referencia para otros.
 Macrobloques (macroblocks)
 16x16 pixels (6 bloques de 8x8: 4Y,1U y 1V).
F1 F2 F3
1
1
6
 Vectores de movimiento (motion vector)

 Identifican el desplazamiento de un determinado macrobloque
en el cuadro actual respecto a la posición que tenía en el cuadro
de referencia.
 Los vectores de movimiento se aplican cuando se identifica un
macrobloque existente en el cuadro de referencia (matching
blocks)
Vector de movimiento
Cuadro de referencia Δx = -20, Δy = 0
Macrobloques
idénticos
F1 F2
1
1
7
Búsqueda de macrobloques.
 Se buscan los macrobloques del cuadro a codificar en el cuadro
de referencia.
 Si se encuentra el mismo macrobloque, sólo se codifica el vector
de movimiento correspondiente.
 Si no se encuentra exactamente el mismo se elige el más
parecido (macrobloque INTER).
 Se codifica el vector de movimiento.
 Se calcula el macrobloque error (las diferencias) aplicándole
codificación estilo JPEG (DCT, quant, RLE+VLC en zigzag).
 Si no se encuentra ningún bloque similar (mb. INTRA)
 Se codifica dicho macrobloque con codificación estilo JPEG.
1
1
8
 Tipos de cuadros
 I (Intracoded frames): Cuadro codificado usando JPEG
(autocontenido).
 P (Predictive frames): Cuadro basado en las diferencias
respecto a un cuadro de referencia anterior (tipo I).
 B (Bidirectional frames): Cuadros basados en la interpolación
de un cuadro anterior y otro posterior en la secuencia (tipo I
o P).
Cuadro de tipo I Cuadro de tipo B Cuadro de tipo P

autocontenido basado en F1 y F3 basado en F1
1 F1 Macrobloque F2 F3
1 encontrado!! Macrobloque
9
encontrado!!
 Secuencias de cuadros (Group Of Pictures)

 Los cuadros de tipo I son los menos comprimidos, a continuación
los de tipo P y por último los que más compresión obtiene son los
de tipo B.
 Secuencias típicas:
 IBBBPBBBI
 IBBPBBPBBI (PAL)
 IBBPBBPBBPBBI (NTSC)
I B B P B B P B B I
1
2
0
 La importancia de los cuadros de tipo I.

 En un sistema de vídeo es habitual el usar los controles de avance,
retroceso, pausa, etc.
 Si queremos detener la secuencia de vídeo, necesitamos encontrar el
último cuadro I para reconstruir el cuadro donde se ha detenido la
imagen.
 Sirven como puntos de sincronización.
 Se estima que deben aparecer al menos un cuadro I cada 300-400
ms.
 Si se está difundiendo una secuencia de vídeo comprimida (TV
broadcast, videoconferencia, etc)
 Permite “engancharse” rápidamente y recuperarse ante la recepción de
algún cuadro dañado.
1
2
1
 Estándar JPEG
 JPEG Escalado

Estimación de movimiento: Algoritmos
 La parte más costosa de la estimación de movimiento

corresponde a los algoritmos de búsqueda de
macrobloques en el cuadro(s) de referencia.
 Provoca codificación asimétrica
 Los algoritmos más conocidos son los siguientes:
 Búsqueda completa (Full-Search).
 TTS (Three-Step Search)
 Búsqueda logarítmica.
 Búsqueda en cruz (Cross-Search)
 OTS (One-at-a-Time Search)
 Vecinos más próximos (Nearest Neighbours Search)
 Búsqueda jerárquica.
1
2
3
Estimación de movimiento.
 Se define una función de coste que calcula el error entre

dos macrobloques, por ejemplo, SAE (Sum of Absolute
Errors)* : N 1 M 1
SAEi, j     C i, j   Ri, j 
i 0 j 0
 (i,j) está definido dentro del área de búsqueda

 (NxM) determina las dimensiones del macrobloque.
 C(i,j) y R(i,j) definen los pixels del macrobloque actual y referencia
respectivamente.
 Las coordenadas (i,j) que menor SAE exhiban
determinarán el vector de movimiento del macrobloque
actual.
1
2
4
(*) Más conocido como SAD (Sum of Absolute Differences)
Algoritmos: Full Search.
 Examina todos los puntos del área de búsqueda (+/- p)

 Complejidad computacional por macrobloque:
 Número total de posiciones: (2p + 1)2
 Cada posición (i,j), MxN pixels.
 Cada pixel requiere: 1 resta, 1 suma y 1 valor absoluto.
OMB  2 p  1 3MN
2
 Complejidad (secuencia IxJ pixels @ F fps)

OFS   OMB 
IJF
MN
 Ejemplo:
 Broadcast TV (I=720, J=480, F=30, N=M=16)
 Coste de este algoritmo: 29.89 GOPS (p=15) ó 6.99 GOPS (p=7)
1
2
5
Algoritmos: Three-Step Search.
(-7,-7) (0,-7) (7,-7)
MV: (7,-3)
1 1 1
3 3 3
2 2 3 2 3
3 3 3
1. Busca en la posición (0,0)
1 1 2 1 2
2. S=2N-1 (step size)
3. Busca 8 posiciones a +/-S
2 2 2 píxeles alrededor de (0,0)
4. De las nueva posiciones
1 1 1 elige aquella con el SAD
menor.
5. S=S/2 y el nuevo origen de
(0,7) (7,7) búsqueda el punto obtenido
(-7,7)
en 4.
6. Repetir pasos 3-5 hasta que
 Coste: S=1.
1
 
 Examina 8 log 2 p  1 puntos
2  1.02 GOPS (p=15) ó 770 MOPS (p=7).
6
Algoritmos: Búsqueda logarítmica.
(-7,-7) (0,-7) (7,-7)

MV: (5,-3)
3 4
5 5 5
1 2 5 3 5 4
1. Busca en la posición (0,0) y establece
5 5 5
S=N (step size)
1 1 1 2
2. Selecciona 4 posiciones a S píxeles
del origen en los ejes X e Y.
1 2
3. Calcula la posición que ofrece el
menor SAD, fijándola como el
nuevo origen de la búsqueda
4. Si esta posición es la central de las 5
seleccionadas S=S/2
(0,7) (7,7) 5. Si S=1 ir al paso 6, sino ir al paso 2.
(-7,7)
6. Selecciona el origen actual y las 8
posiciones de alrededor, y calcula
 Coste: aquella que minimiza el SAD
 Examina 20 puntos
1
2  616 MOPS (p=7 y N=2).
7
Algoritmos: Búsqueda en cruz (Cross Search)
(-7,-7) (0,-7) (7,-7) MV: (-3,-5)

2 2
1 4 1 1. Establece el origen en la posición

3 3
(0,0). S=2N-1 (step size)
2 4 2
2. Selecciona 4 posiciones a +/-S
3 3 píxeles del origen formando una
1 cruz (X) y el propio origen.
3. Calcula la posición que ofrece el
menor SAE, fijándola como el
nuevo origen de la búsqueda
1 1 4. Si (S>1) entonces S=S/2 y va al
punto 2. Sino ir al punto 5.
5. Si la mejor posición está en el punto
(0,7) (7,7) superior izquierda o inferior derecha
(-7,7) de la X, evaluar 4 puntos más en
 Coste: forma de X a una distancia de +/-1
 p  5 puntos
pixel. Sino hacer lo mismo pero con
 Examina 4 log 2 los 4 puntos distribuidos en “+”.
1
2  523 MOPS (p=7).
8
Algoritmos: OTS (One-at-a-Time Search)
(-7,-7) (0,-7) (7,-7)

MV: (-4,-3)
9
8
7
1. Establece el origen en (0,0).
2. Selecciona el origen y las dos
6
posiciones vecinas en el eje X
5 4 3 2 1 1 1
3. Calcula la posición que menor
6
SAD exhiba. Si es el origen ir
al paso 5.
4. Establece el nuevo origen en la
posición que ha ofrecido el
menor SAD. Ir al paso 2.
5. Repetir los pasos 2 al 4
(-7,7) (0,7) (7,7) seleccionando las posiciones
en el sentido vertical (eje Y).
 Coste:
1
2  369 MOP. Puede dar lugar a mínimos locales !
9
Algoritmos: Vecino más próximo.
(-7,-7) (0,-7) (7,-7) MV: (-3,-4)
3 2
3 2 1 2 1. Calcula el SAD del (0,0).
1 1 1 2. Establece el origen de búsqueda a
1 la posición del vector supuesto
(predicted vector)
0 3. Selecciona 4 posiciones alrededor
del origen en forma de “+”.
4. Si el origen de búsqueda (o la
posición 0,0 en la primera
iteración) ofrece el menor SAD
entonces “fin de búsqueda”.
Sino establece el nuevo origen de
(0,7) (7,7) búsqueda en la posición que menor
(-7,7) SAD ha ofrecido.
 Coste:
1
3  369 MOP. Propuesto para H.263 y MPEG-4.
0
Estimación de movimiento: Otras consideraciones.
 Estimación de movimiento con fracciones de pixel

 Se basa en realizar la estimación de movimiento con mayor precisión,
ya que a veces el movimiento real no se ajusta a desplazamientos de
píxel enteros.
 Half-Pixel motion estimation
 Se obtiene un imagen de mayor resolución interpolando un punto
de la imagen entre cada dos píxeles.
A b A b A
 Se incrementan notablemente las
c d c d c prestaciones del algoritmo de
estimación de movimiento a expensas
A b A b A de un mayor coste computacional.
 H.263 utiliza está técnica, incluso se
c d c d c
propone utilizar ¼ y 1/8 de píxel para
A b A b A
el estándar H.264
A: Píxeles reales (Enteros)
1 b,c,d: Píxeles interpolados. Las flechas
3 indican la dirección de interpolación.
1
Estimación de movimiento: Mejoras propuestas.
 Vectores de movimiento fuera del cuadro de referencia.

 Para estimar correctamente el movimiento que se produce en los
bordes del cuadro.
 Tamaño de bloque variable.
 Para realizar estimación de movimiento más precisa.
 Se utiliza en H.263 (Anexo F) y H.264.
 Tamaños: 16x16;8x8;4x4;8x16;16x8....
 OBMC (Overlapped Block Motion Compensation)
 Objetivo: Suavizar los efectos de “blocking” que aparecen en los
bordes de los macrobloques.
 Incremento significativo del coste computacional.
 H.263 recomiendo utilizar filtros de salida (deblocking filters) que
realizan esta operación a un coste computacional muy inferior.
 Modelos de estimación más complejos:
 Region-based, Picture Warping, Mesh-based, Object-based...
1
3
2
 Estándar JPEG
 JPEG Escalado

Estándar MPEG.
 Conjunto de estándares ISO para la grabación y

transmisión digital de audio y vídeo.
 En su evolución se han desarrollado varias versiones del
estándar MPEG:
 MPEG-1 (ISO 11172) (‘91):
 CD-ROM vídeo (1,5 Mbps).
 MPEG-2 (ISO 13818) (‘93):
 TV Broadcast (4-6 Mbps).
 HDTV (25-34 Mbps).
 MPEG-4 (ISO 14496) (‘99):
 Originalmente: Videoconferencia (4,8 a 64 Kbps).
 Enfoque universal de tratamiento de elementos multimedia.
 MPEG-7 (00-?): Descripción de contenido multimedia
(videodatabases)
 MPEG-21 (01-?): Uso transparente de contenido multimedia entre
redes y usuarios heterogéneos.
1
3
4
5
3
1
Relación entre los estándares MPEG.

MPEG-1
 MPEG-1 (ISO 11172) (‘91)

 MPEG-Vídeo (IS 11172-2)
 MPEG-Audio (IS 11172-3)
 MPEG-System (IS 11172-1):
 Multiplexado y sincronización.
 MPEG-Conformance Testing (IS 11172-4)
 Patrones de prueba, medida de calidad, etc
 MPEG-Software Coding (IS 11172-5)
 Directrices para la codificación de los algoritmos.
 Propósito de MPEG-1
 Almacenamiento en CD-ROM de audio (calidad CD) y vídeo (calidad
VCR) sincronizado (1,5 Mbps).
1
3
6
MPEG-1
 Características de MPEG-1:
 Resolución de imagen: 352x(288 ó 240) (PAL/NTSC).
 Reducción de color (sub-sampling): 4:2:0.
 Barrido progresivo (no entrelazado).
 Tasa de cuadros: 25/30 (PAL/NTSC).
 Incluye cuadros de tipo D (DC-coded):
 Operaciones de avance rápido (Fast Forward).
 Codificador/decodificador asimétrico.
 Tasa de compresión: 27:1. Audio

encoder
Salida
 Los codificadores de audio y Reloj System
MPEG-1
vídeo trabajan por separado.

Mux.
 Utilizan un reloj común para Vídeo

encoder
establecer el tiempo de cada una
1
3 de sus capturas (system).
7
MPEG-2
 Conjunto de estándares ISO 13818 (‘93).

 Propósito:
 Mejorar la calidad de imagen respecto al anterior sin incrementar
excesivamente la tasa de bits requerida
 Calidad de vídeo profesional (studio-quality) y HDTV
 Aplicación:
 Difusión de señales de TV, HDTV, VOD
 La codificación/decodificación es muy similar a la de
MPEG-1 salvo algunas diferencias:
 No se incluyen cuadros de tipo D.
 Permite bloques de 16x8 para vídeo entrelazado.
 Otras mejoras (permite DC de hasta 10 bits, cuantización no lineal,
nuevas tablas VLC, escalabilidad SNR y multiresolución)
1
3
8
MPEG-2
 Características de MPEG-2.
 Soporta barrido entrelazado y progresivo.
 Puede trabajar con distintas resoluciones (nivel):
 CIF: 352x288/240 (VCR quality) (Compatibilidad MPEG-1)
 Principal: 720x576/480 (studio-quality)
 High-1440: 1440x1152 (HDTV)
 High: 1920x1080 (HDTV)
 Define varios perfiles de implementación
 Detalles de los algoritmos de compresión y parámetros de imagen,
barrido, etc.
 El multiplexado y sincronización es más general y flexible que
MPEG-1
 Se pueden multiplexar/sincronizar varias fuentes de audio, vídeo y
datos (ej.: subtítulos en varios idiomas).
1
3
9
MPEG-4
 Propósito:
 Diseño de aplicaciones multimedia interactivas distribuidas.
 Aplicación:
 Televisión digital
 Compatibilidad con MPEG-2 (backware compatibility)
 Aplicaciones multimedia interactivas
 El usuario puede interaccionar con los objetos multimedia de la sesión.
 Distribución de información multimedia (tipo WWW)
 A través de una red, se permitirá el acceso y distribución a información
multimedia, facilitando su diseño y presentación.
1
4
0
MPEG-4
 Características:
 Accesibilidad de la información de manera universal y robusta.
 Alta interactividad con la información multimedia.
 Definición de escenarios virtuales compuestos por objetos
independientes (AVOs).
 El usuario puede modificar/configurar el escenario actual.
 Codificación conjunta de datos sintéticos y reales.
 Codificación eficiente de la información.
 Mejoras en la compresión y multiplexación de la información.
 Codificación de objetos con forma irregular.
1
4
1
2
4
1
MPEG-4
3.3 Estándar H.261.
 Pertenece al conjunto de estándares H.320 del ITU

dedicados a videoconferencia sobre RDSI.
 H.320: Definición de la familia de estándares
 H.221: Multiplexado, sincronización sobre uno o varios canales
RDSI y empaquetamiento (framming).
 H.242/H.230: Establecimiento y control de sesión.
 H.224/H.281: Control remoto de cámaras.
 H.233 y H.234: Cifrado y autenticación de los datos.
 T.120: Soporte para aplicaciones (transferencia de imágenes,
anotaciones compartidas, etc.)
 G.711, G.72x ...: Algoritmos de compresión de audio
 H.261: Compresión de vídeo (conocido como px64).
1
4
3
Estándar H.261.
 Características de H.261:
 Formato de imagen: YCbCr
 CIF: 352x288 (opcional)
 QCIF: 176x144 (obligatorio)
 Reducción de color: 4:2:0
 Tasa de cuadros/seg: como máximo 30 max.
 Mecanismo de compresión similar a MPEG-1:

 Para la redundancia temporal se emplean mecanismos similares a
MPEG, basados en macrobloques (16x16).
 H.261 define el concepto de GOB (Group Of Blocks)
 1 GOB = 3x11 macrobloques (QCIF: 3 GOBs)
1
4
4
Estándar H.261.
 Sólo se definen dos tipos de cuadros: I y P.

 No existen secuencias predefinidas de cuadros.
 Decisión de codificación I o P para cada cuadro.
 Estimación de movimiento (motion estimation):
 Se realiza a nivel de macrobloque
 Búsqueda restringida en un área de +-15 pixels, usando sólo la
información de luminancia (Y).
 Resultado de la búsqueda:
 Macrobloque del cuadro de anterior que más se parece al actual
 Cálculo de las diferencias (macrobloque error).
 Si superan un cierto umbral se codifican (DCT), si no se elimina el
macrobloque error, utilizando sólo el vector de movimiento.
 Cuantificación lineal (menos costosa).
 Se siguen utilizando run-length y Huffman (VLC).
1
4
5
Estándar H.261.
 Esquema del formato H.261
PSC TR PType GOB1 GOB2 .... GOBm
GOB Start Grp# Quant MB1 ... MBn
Addr Type Quant Vector CBP b0 b1 ... b5
DC Run, Valor ... Run, Valor EOB
1
4
6
Otros estándares H.26x.
 H.263: Mejora, amplía y sustituye el H.261

 De propósito general (no sólo para videoconf.)
 Incluye compensación de movimiento de “medio-píxel”
 Soporta cinco resoluciones (SQCIF, QCIF, CIF, 4CIF y 16CIF)
 Permite estimación de movimiento bidireccional y sin restricción en
el tamaño de la ventana de búsqueda
 H.263+: Añade nuevas características a H.263
 Escalabilidad SNR, espacial y temporal
 Predicción de los valores de los coeficientes de la DCT
 H.264: Mejora la eficiencia en codificación
 DCT con enteros y tam. bloque 4x4, compensación de movimiento
con bloques de tamaño variable, etc.
1
4
7
Otros estándares H.26x.
Comparación subjetiva MPEG-4 - H.264
1
4
8
Conclusiones
 Las imágenes son captadas por cámaras de vídeo que

proporcionan una señal analógica RGB.
 La digitalización está basada en el estándar ITU-R
 En función de la calidad de vídeo deseada, existen
diversos formatos de imagen, barrido, etc.
 Se definen distintos parámetros de red de importancia
para el transporte de vídeo
 Algoritmos de compresión de vídeo
 Fundamentos: Redundancia temporal
 Algoritmos de estimación de movimiento: Alto coste computacional.
 Estándares de compresión:
 Familia MPEG: 1-2-4
– Diseñados para procesar vídeo digital de calidad (Sector consumo).
 Familia ITU: H.261-3-4
1
4 – Diseñados para comunicaciones audiovisuales en distintos tipos de redes
9 (RDSI, IP, telefonía, etc.)
 Estándar JPEG
 JPEG Escalado

Introducción.
 Desde el punto de vista de la red:

 Un stream de vídeo ha de ser “paquetizado” para su transporte.
 La pérdida de paquetes implica una degradación de la calidad de vídeo
que observa el destinatario.
 Es por ello que resulte de interés el estudio de técnicas que protejan el
vídeo en su viaje al destino y que los errores detectados puedan ser
“ocultados” al usuario final  Video resilience.
 Desde el punto de vista del transporte de vídeo en sistemas y
redes heterogéneos:
 Interoperabilidad de distintos codecs con bitstreams incompatibles en la
red  heterogeneous transcoding.
 Posibilidad de cambiar los parámetros de codificación (i.e. bitrate) de un
mismo codec  homogeneous transcoding.
 Desde el punto de vista de la aplicación:
 Las redes (i.e. Internet) tienen un comportamiento muy variable e
impredecible en relación al ancho de banda disponible.
 Por ello, con el fin de optimizar el uso de recursos disponibles en la red
y maximizar la calidad de vídeo entregada al destinatario, se requieren
1 mecanismos de control de flujo extremo-a-extremo.
5
1
Control de flujo.
 Las técnicas de control de flujo deberán regular el bitrate de

salida para conseguir la mejor relación
calidad/productividad.
 El control de flujo es una herramienta que al mismo tiempo
nos permite prevenir situaciones de congestión en la red.
 Para que un sistema de control de flujo funcione es
necesario obtener de la red información acerca del ancho de
banda disponible en cada momento (i.e. RTCP receiver
reports).
 Existen diferentes formas de realizar un control de flujo:
 Cuantización variable (Variable-quantization)
 Resolución reducida (Reduced resolution)
 Codificación multinivel (Multi-layer coding)
 Etc..
1
5
2
Variabilidad del bitrate.
 Todos los estándares de compresión de vídeo producen de forma

natural un bitstream con tasa de bits variable.
 Se fija el valor de “Qp” para obtener una calidad constante.
 Por contra, se puede variar el Qp (MB, GOB o Frame) para conseguir una
tasa de bits constante a costa de una variabilidad en la calidad.
 La variabilidad viene fijada por la actividad espacial y temporal
de la secuencia de vídeo:
 Un MB de un cuadro P, no se codifica si es muy similar al MB del cuadro
de referencia. Dependiendo de la cantidad de movimiento en la escena,
el número de MB que NO se codifican varía  Variando también el
bitrate.
 La correlación entre los pixels de un bloque de 8x8, dicta el número de
bits necesario para codificar los 64 coeficientes resultantes de la
transformada. Junto con el valor de Qp determinará el número de
coeficiente nulos que aparecen y que posteriormente serán codificados
con VLC en flujos bits de tamaño variable.
1
5
3
Variabilidad del bitrate (II).
Codes
Layers Variable length Fixed length

Picture Bit stuffing ESTUF, PSTUF Synchronization PSC(22), ECS(22)
Addresing TR(8), TRB(3)
Quant. step size PQUANT(5),DBQUANT(2)
Administrative PTYPE(13),CPM(1),PSBI(2)
Spare PEI(1), PSPARE(8)
Group of Bit Stuffing GSTUF Synchronization GBSC(17)
Blocks Addresing GN(5)
Administrative GSBI(2), GFID(2)
Quant. step size GQUANT(5)
Macroblock Administrative MCBPC,MODB, Administrative COD(1), CBPB(6)
Motion CBPY Quant. step size DQUANT(2)
MVD, MVD2-4,
MVDB
Block DCT Coefficients TCOEFF DC terms of Intra INTRADC(8)
(except Intra DC DCT Coeff.
terms)
 Parámetros de longitud fija y variable en un stream de vídeo H.263

 La contribución de los parámetros de longitud variable en el bitrate final es mucho
mayor que los de longitud fija, a pesar de ser menos.
154
Tasa de bits constante.
 Cuando al red ofrece un servicio de transporte de tipo CBR (i.e

ATM), entonces podremos utilizar un control de flujo que
proporcione una tasa de bits constante.
 Es necesario incluir un buffer entre el encoder y la red para
suavizar las fluctuaciones del bitrate.
 Almacenar el video antes de enviarlo aumenta el retardo total, siendo
no aconsejable para servicios de entrega de vídeo interactivo.
 La técnica más común para controlar el flujo de salida del
encoder es ajustar sus parámetros de configuración en función
de la ocupación del buffer (feedback control).
 Por otro lado, también podemos regular el flujo con
información acerca de la actividad del frame actual (feed-
forward).
Modify Encoder
Buffer
Picture Params. status
activity
1
5 Input
Source Buffe Output
5 Encoder r
Ajuste de parámetros de codificación.
 Al controlar de flujo de salida de un encoder se debe llegar a

un compromiso entre la calidad y la tasa de compresión.
 Cuando se trata de encoders basados en transformada por
bloques, podemos jugar con varios parámetros:
 Tasa de cuadros (frame rate)  Sólo usado cuando la calidad de
cada cuadro no puede degradarse.
 Codificar sólo una parte del bloque de coeficientes (i.e. solo
coeff. de baja frecuencia). El coeff. DC siempre debe estar presente.
 Cuando la información del movimiento es más importante que el
detalle espacial  Mantener la tasa de cuadros y modificar el
parámetro de cuantización Qp.
Incrementando Qp se obtendrán mas coeff. nulos, reduciendo los
bits necesarios para codificar el bloque usando VLC
El ajuste de Qp se puede hacer a nivel de un cuadro, GOB o MB.
 Umbral de detección de movimiento. Decide si un MB en un
cuadro P es codificado o saltado (COD=1)
Si aumentamos el umbral  el encoder se hace menos sensible al
movimiento  Pocos MB se codifican  Reducimos la tasa de bits.
1  Umbral de codificación INTRA de un MB. Decide si un MB es
5
6 codificado como INTRA (Mayor tasa de bits) o INTER.
Cuantización variable.
 El mecanismo de control de flujo más utilizado es:

 Ajuste del valor de Qp del siguiente cuadro, GOB o MB, basándose en la
ocupación actual del buffer (estado de la red).
 Sin embargo, estos mecanismos ofrecen resultados no
predecibles y/o fluctuaciones severas del bitrate:
 Los distintos umbrales de cuantización
(valores Qp) no afectan de forma lineal
al bitrate de salida
 El contenido de vídeo puede afectar a la
cantidad de bits necesarios para codificar
un frame.
 Para producir un bitrate estable es
necesario emplear algoritmos más
complejos, incorporando en muchos casos tanto feedback
(buffer-based) como feed-forward control.
 Un ejemplo:
 TM5 Rate control algorithm (MPEG-2, H.263, …)  Buffer-based
1  http://www.mpeg.org/MPEG/MSSG/tm5/Overview.html
5
7
TM5 rate control algorithm (I).
 Mecanismo que controla el bitrate calculando de forma

adaptativa el valor de Qp para cada MB.
 Tres pasos:
 Paso 1: Estimación de la tasa de bits objetivo para el siguiente
cuadro.
 Se realiza antes de codificar el cuadro
 Estima de la complejidad global, X, del siguiente cuadro (I, P o B)
donde S indica el número de bits requeridos
X i , p ,b  Si , p ,b  Qi , p ,b para codificar el cuadro anterior, y Q es el
valor de cuantización medio de todos los MBs
 El número de bits para el siguiente cuadro, T, se calcula en base al
número de bits disponible para el resto del GOP actual, R, y a la
complejidad.
 R se actualiza tras codificar cada frame (inicialmente R = 0)
– Si es el primer cuadro de un GOP (INTRA o I-frame):
bitrate  N p ,b donde Np,b es el número de cuadros P y B que faltan por
R R codificar en el GOP
FrameRate
– Sino (cuadros P y B)
R  R  S i , p ,b
158
TM5 rate control algorithm (II).

 Paso 2: Cálculo del valor Qp de referencia para todos los MBs del
cuadro (rate control)
 Esta basado en la idea de un buffer virtual. Antes de codificar el MBj
(j>= 1), se calcula el nivel de llenado del buffer virtual (del cuadro
actual I, P o B).
d0 es el valor inicial de llenado del buffer
Ti , p ,b   j  1 Bj es el número de bits generados al codificar los
d ij, p,b  d 0i , p,b  B j 1 
MB_cnt MBs del cuadro hasta el MBj (incluido este)
dj es el valor de llenado del buffer al codificar el MBj
 El valor final del buffer virtual (dji,p,b cuando j=MB_Cnt) se utiliza como
valor de llenado inicial para el siguiente cuadro del mismo tipo.
 A continuación se calcula el valor de referencia del cuantizador Qj para
MBj: d j  31
Q  j
bitrate
2
framerate
 Paso 3: Determinación del valor del cuantizador (mquantj) de MBj.
 Cálculo de la actividad espacial de MBj:
– Usando el valor de los pixels originales de los cuatro bloques de 8x8 de luminancia
(n=1..4) y los cuatro bloques de 8x8 de luminancia de los pixels organizados por
campos (n=5..8)
159
TM5 rate control algorithm (III).
act j  1  min vblk1 , vblk2 ,..., vblk8 

1 64 n

vblkn    Pk  P_mean n
64 k 1

2 1 64 n
P_mean n    Pk  DC n
64 k 1
Pkn son los valores de los pixels en el enésimo bloque de 8x8
Vblkn corresponde a la varianza de los pixels del enésimo bloque de 8x8
Actj es la actividad espacial del MBj
 A continuación se normaliza la actividad espacial:
N_act j 
2  act   avg_act
j
act j  2  avg_act 
avg_act es el valor medio de actj en el último cuadro codificado (para el
primer cuadro se asigna el valor de 400).
 Por último, calcula el valor del cuantizador (mquantj) para MBj:
mquant j  Q j  N_act j
 El valor de mquantj se recorta para que entre en el intervalo [1,31]
y se utilice como valor de cuantización de MBj.
160
Feed-forward rate control.
 En feed-forward el parámetro de cuantificación se calcula

en función de los bits necesarios para codificar el error de
predicción del cuadro actual.
161
Control de flujo: Resolución reducida.
 Para aplicaciones donde se requieren bajas tasas de bits y no

es suficiente con la cuantificación variable.
 Submuestrear cada macrobloque de error antes de codificarlo
y realizar la operación inversa (interpolando) en el
decodificador.
1
6
2
Control de flujo: Resolución reducida (2).
 Ejemplo de decodificador H.263 con procesamiento de

resolución reducida
1
6
3
Control de flujo: Codificación multinivel.
 El stream de salida esta formado por un número de

codificaciones a distintos niveles de tasa de bits, cuadros por
segundo y/o resolución.
 Nivel Básico + Niveles de mejora.
 Ejemplo H.261 con dos niveles sobre ATM (1992)
 Básico a muy baja tasa de bits
 Mejora  diferencias con original
 Ejemplo H.263 con dos niveles (1999)
 Básico  QCIF a f/s
 Mejora  CIF a 2 x f/s
 MPEG-4 soporta multinivel
1
6
4
Control de flujo: Codificación multinivel (2).
 Ejemplo de MPEG-4, escalabilidad temporal, Qp=cte
1
6
5
Protección y ocultación de errores.
 Los datos de vídeo codificados son muy sensitivos a la

pérdida de información y a los errores de bit del canal.
 La calidad del video se degrada enormemente ante canales
de altos BER a no ser que empleemos mecanismos de
control de errores.
 Las predicciones espacial y temporal de las secuencias de
vídeo aumentan la vulnerabilidad.
 Esquemas de gestión de errores deben situarse en
codificador y decodificador
 No es factible la retransmisión del vídeo erróneo debido a
los requisitos de tiempo real
1
6
6
Protección y ocultación de errores (2).
 Técnicas de ocultación de errores.

 Sólo interviene el decodificador en el control de errores. El
codificador no añade redundancia.
 El decodificador trata de aprovechar la información que ya tiene
libre de errores de la secuencia de video ya recibida para realizar
una recuperación aproximada.
(a) Sin ocultación

(b) Zero-MV
(c) MV del frame anterior
(d) MV del frame anterior que
mejor se mueve en la
dirección del MV perdido
1
6
7
Protección y ocultación de errores (3).
 Técnicas de protección de errores

(en el codificador).
 Inserción de códigos de corrección de
errores. Normalmente se aplican a los
códigos de longitud fija y se combinan
con otras técnicas
 Duplicación de los vectores de
movimiento.
 Refresco INTRA
 Refresco INTRA adaptativo (AIR)
1
6
8 AIR – Dos bloques INTRA en cada
cuadro
Conclusiones.
 Las técnicas de control de flujo nos permiten cambiar los

parámetros de calidad para conseguir un bitrate deseado
 Las secuencias de vídeo codificado son muy sensibles a los
errores. Se pueden utilizar técnicas de ocultación de
errores en el decodificador y codigos de redundancia y
aumento de bloques intra en el codificador.
1
6
9

Codificacion

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Codificacion

Cargado por

Copyright:

Formatos disponibles

3- Codificación y difusión de

Introducción a la compresión de datos.

 Muchas aplicaciones multimedia requieren volúmenes

 Por esta razón se emplean técnicas de compresión

Introducción a la compresión de datos (II).

 Un sistema de compresión consta de:

Factores en el diseño de un codificador.

Dos clases de técnicas de compresión.

TECNOLOGÍAS DE RED AVANZADAS – Master IC 2011-2012 – http://www.grc.upv.es/docencia/tra/

Codificación basada en la entropía.

 Por ejemplo: Sea S = {4,5,6,7,8,9}, en donde la

 Trata de identificar los símbolos (patrones de bits)

 Representan los símbolos con un número de bits

Codificación Huffman: Ejemplo

A(15) B(7) C(6) D(6) E(5)

 Identifica una secuencia de símbolos asignándoles

Codificación aritmética: Ejemplo

P(A) = 1/3 P(B) = 2/3 segmento código

 Se basa en detectar las repeticiones de símbolos (bits,

Datos codificados (21): 315A0737654A1827A0143

 Este patrón es frecuente en multimedia:

TECNOLOGÍAS DE RED AVANZADAS – Master IC 2011-2012 – http://www.grc.upv.es/docencia/tra/

Codificación basada en la fuente.

 Se basan fundamentalmente en las propiedades de

 Se basa en la codificación de las diferencias entre dos

 Se basa en transformar el dominio (Ej.: del

 DCT (Discrete Cosine Transformation):

 Codificación sin pérdida*.

 Es directamente aplicable a imágenes y audio.

Vector quantization (II)

Imagen original dividida Code-book

 Si un vector no se encuentra en el code-book:

 Codificación con pérdida*.

Vector quantization (III)

 CLUT (Color Look-Up Table)

TECNOLOGÍAS DE RED AVANZADAS – Master IC 2011-2012 – http://www.grc.upv.es/docencia/tra/

Introducción a la codificación y compresión de audio.

 Las secuencias de audio forman parte de las

Características del audio

 Una señal de audio no es más que una onda acústica (variaciones

Características del audio

 El rango de frecuencias audibles por los humanos

 Cuantificación: Las muestras obtenidas se

 PCM (Pulse Code Modulation).

 Cuantificación PCM lineal

 Cuantificaciones no-lineales (logarítmica)

Digitalización: Interfaz MIDI

 MIDI (Musical Instrument Digital Interface).

 Utilizado para codificar música (instrumentos).

Calidad de una señal de audio.

Calidad de una señal de audio.

 Tasa de bits (throughput):

 Retardo de tránsito (aplicaciones interactivas)

 Varianza del retardo (jitter).

Algoritmos de compresión (Voz)

 Problema: Sobrecarga de gradiente (slope

Algoritmos de compresión (Voz)

 Codificación diferencial adaptativa:

X[n] C[n] Dq[n]

Algoritmos de compresión (Voz)

 Codificación diferencial adaptativa:

Una implementación de ADPCM

Algoritmo ADPCM (IMA: Interactive Multimedia