Está en la página 1de 55

Tem a 4: Codificación y com presión

de vídeo.
 1. Introducción. Bibliografía
 2. Características del vídeo. [FLU95] Fluckiger, “Understanding
networked multimedia”
 Captura de vídeo analógico.
[TSU99] Introduction to video coding
 Digitalización.
standards for multimedia communication
 Tipos de vídeo (según su calidad). [H.264] Overview of the H.264 / AVC Video
 Parámetros específicos de red. Coding Standard
 3. Compresión de vídeo. [MPEG4] MPEG-4 Overview
 Redundancia temporal. [HiJa94] Compressing still and moving
 Estimación de movimiento. images with wavelets
 Estándares: MPEG y H.261.
 4. Conclusiones.

Arquitecturas de red para la distribución de contenidos


1. Introducción
Arquitecturas de red para la distribución de contenidos

 Una secuencia de vídeo es una sucesión de imágenes que


producen sensación de movimiento.
 El proceso completo de transmisión de vídeo con compresión
consiste en:
 Adquisición del vídeo a transmitir.
 Captura analógica de la secuencia de imágenes.
 Digitalización del vídeo.
 (Re)codificación y subsampling de las muestras.
 Típicamente se pasa de RGB a YCbCr
 Subsampling de la crominancia (de 4:4:4 a 4:2:0 ó 4:2:2)
 Compresión del vídeo.
 Transmisión progresiva del vídeo comprimido (a ser posible usando
protocolos con soporte multimedia)

2
2.1 Captura de vídeo analógico I
Arquitecturas de red para la distribución de contenidos

 Las imágenes (dos dimensiones) son convertidas en una señal


analógica.
 Se capturan las imágenes a intervalos regulares.
 Cada imagen (cuadro o frame) es barrida calculando la intensidad de cada
punto (B&W).
 Para reproducir la imagen se realiza el proceso inverso.

Líneas de Líneas de barrido mostradas


barrido
1
Placa de 3
barrido
a 5
7
9

Lentes t

483

3
2.1 Captura de vídeo analógico II
Arquitecturas de red para la distribución de contenidos

 La captura (y reproducción) de imágenes en color es muy similar


a la de blanco y negro.
 En este caso se utilizan tres haces de barrido (RGB).
 Conversión RGB a YUV (compatibilidad con señales B&W).

Y: Luminancia (intensidad).
Placa de U y V: Diferencias de color.
Filtros barrido
a El ojo humano es más sensible a
R
Lentes la intensidad (brillo) que a la
G a t información de color (sub-
sampling).
B a
t
Divisor
t TV Color
R
Y+C Demod. G CRT
Y Conv. B
R U
Cámara G C
B V
TV B&W
Codificador Modulador Y+C Y
Filtro CRT

4
2.1 Captura de vídeo analógico III
Arquitecturas de red para la distribución de contenidos

 Parámetros de barrido:
 Relación de aspecto (ancho:alto): 4:3
 Existen distintos estándares:
 NTSC (Usa y Japón): 525 líneas, 30 frames/s
 PAL/SECAM (Resto): 625 líneas, 25 frames/s.
 Algunas líneas (superiores e inferiores) no son visibles.

 Barrido entrelazado y progresivo.


 Entrelazado.
 Cada cuadro se representa con dos campos sucesivos (uno con las líneas
impares y otro con las pares) (60 c/s ó 50 c/s).

5
2.1 Captura de vídeo analógico IV
Arquitecturas de red para la distribución de contenidos

 Parpadeo de imagen (flicker)


 Efecto que aparece cuando la imagen no es refrescada con
suficiente rapidez. (70-90Hz suficiente)
 La retina mantiene una imagen durante un tiempo antes de que
desaparezca.
 Valor mínimo: 50 imágenes/segundo

 Continuidad de movimiento.
 Viene determinada por el número de cuadros diferentes por
segundo.
 No se recomienda utilizar menos de 25 cuadros/s.

 Ancho de banda de una señal de vídeo analógico: 6 MHz.

6
2.2 Digitalización I
Arquitecturas de red para la distribución de contenidos

 ITU-R (CCIR-601): Estándar para la


digitalización de señales de TV.
 Define los parámetros de muestreo,
cuantificación, barrido y resolución de
imagen que se deben tomar para
digitalizar una señal de TV analógica.

 Parámetros de barrido:
 Dos formatos (NTSC y PAL/SECAM)
 525 líneas y 858 muestras/línea - 30
frames/seg.
 625 líneas y 864 muestras/línea - 25
frames/seg.
 Las muestras corresponden a la
luminancia (Y): Intensidad de luz de
cada pixel (cantidad de blanco).
 Las diferencias de color Cr (U) y Cb (V)
se muestrean a la mitad (429/línea,
432/línea): Sub-sampling 4:2:2. 7
2.2 Digitalización III
Arquitecturas de red para la distribución de contenidos

 Codificación y recodificación.
 Cada muestra RGB se codifica con 24 bits/color.
 La conversión de RGB a YCbCr (YUV) se realiza mediante una matriz
de conversión (aproximada):
 Y = 0.3R + 0.6G + 0.1B
 U = B - Y (Diferencia de color azul) (equiv. Cb=U/2+128)
 V = R - Y (Diferencia de color rojo) (equiv. Cr=V/1.6+128)
 Cada uno de los componentes se codifica con 8 bits.
 Y (8 bits): rango 16-235
 Cb (8 bits) y Cr (8 bits): rango 16-240

720
720 360

480 480
o 480 o
576 o 576
R 576 Cb
G Y Cr
B
Subsampling 4:2:2

9
2.2 Digitalización III
Arquitecturas de red para la distribución de contenidos

 Formatos de codificación
 CIF (Common Intermediate Format) Usado
para estandarizar las resoluciones horizontal y
vertical en píxels de secuencias de vídeo en
componentes YCbCr.
Se diseñó para convertir fácilmente PAL ↔ NTSC y
se propuso inicialmente en el estándard H.261.
Define una secuencia de vídeo con resolución de
352x288 (HxV) y una frecuencia de cuadro de
aproximadamente 29.97 cuadros/seg con
codificación de color YCbCr 4:2:0.

 QCIF (Quarter CIF). Significa "un cuarto de CIF"


y ocupa la cuarta parte del área en CIF. La altura y
el ancho se reducen a la mitad 176x144 7

 También se utilizan SQCIF (Sub Quarter CIF),


4CIF (4× CIF) and 16CIF (16× CIF).

10
2.2 Digitalización III
Arquitecturas de red para la distribución de contenidos

 Formatos de codificación
Todos los formatos XCIF resultan en imágenes con
relación de aspecto 4:3

Los tamaños de imágen XCIF son múltiplos de


macrobloques (16x16 píxels)

Por ejemplo, una imagen CIF (352x288) corresponde


a 22x18 macrobloques.

4CIF es adecuado para SDTV (TV estándard) y DVD


16CIF para imágenes de alta definición

CIF y QCIF se usan generalmente para


videoconferencia

QCIF o SQCIF son adecuados para aplicaciones


multimedia móviles

11
Arquitecturas de red para la distribución de contenidos
2.2 Digitalización III

12
2.2 Digitalización III
Arquitecturas de red para la distribución de contenidos

 High Definition (HD) Existen varias resoluciones; las


Ya más de 40 años, de la era analógica. más usadas son:
Pretendía:
 1920 x 1080 píxeles;
 Elevar el número de líneas:  1280 x 720 píxeles.
PAL de 625 pasaba a 1250.
NTSC de 525 a 1150 Tiene dualidad de barridos entre
 Relación de aspecto: progresivo (p) y entrelazado (i).
De 4:3 pasaba a 16:9, un formato más Los fps es variable para satisfacer
alargado, parecido a los formatos distintas necesidades. Sus valores
panorámicos cinematográficos con bandas pueden ser: 24, 25, 30, 50 ó 60.
negras tanto arriba como abajo
(Cinemascope, Panavisión, etc.) Su relación de aspecto es fija, de
 Elevar la frecuencia de cuadro: 16:9.
De 25 imágenes por segundo a 50 fps o Al ser digital elimina defectos del
75 fps. PAL y el NTSC.
 También más calidad de audio:
Comparable a la obtenida en la Suele estar acompañada de sonido
reproducción de CD. Mejorándose hasta la envolvente 5.1 o superior.
de DVD o HDMI. En los sistemas digitales, las 625 lineas
de PAL pasaron a quedarse en 576
útiles puesto que no son necesarios los
sincronismos. 13
2.2 Digitalización III
Arquitecturas de red para la distribución de contenidos

 Beyond HD
4K significa algo diferente si
se trata del televisor en tu
casa o en un proyector en un
cine.

4K es una resolución
horizontal de 4,096 pixeles,
establecida por Digital Cinema
Initiatives (DCI)

La resolución vertical en 4K
(Cinema 4K) no se especifica
-> 4K no es UHD

Pero más pixeles no significan


necesariamente una mejor
imagen.

Hay otros aspectos de la


calidad de la imagen, como
contraste y color, que son
mucho más importantes que
la resolución.

14
Tem a 4: Codificación y com presión
de vídeo.

 1. Introducción. Bibliografía
 2. Características del vídeo.
[FLU95] Fluckiger, “Understanding
networked multimedia”
 Captura de vídeo analógico. [TSU99] Introduction to video coding
 Digitalización. standards for multimedia communication
 Tipos de vídeo (según su calidad). [H.264] Overview of the H.264 / AVC Video
Coding Standard
 Parámetros específicos de red. [MPEG4] MPEG-4 Overview
 3. Compresión de vídeo. [HiJa94] Compressing still and moving
images with wavelets
 Redundancia temporal.
 Estimación de movimiento.
 Estándares: MPEG y H.261.
 4. Conclusiones.

Arquitecturas de red para la distribución de contenidos


2.4 Tipos de vídeo (según su calidad) I
Arquitecturas de red para la distribución de contenidos

 La percepción de calidad de una señal de vídeo se basa


en tres parámetros:
 La resolución de las imágenes.
 La frecuencia de reproducción (cuadros/s.).
 El tipo de barrido (progresivo o entrelazado)

 Televisión de alta definición (HDTV).


 Existen diferentes variantes acerca HDTV.
 1920x1080/60, 1920x1080/30-24, 1280x720/30-24
 Relación de aspecto 16:9

 Vídeo digital profesional (studio-quality).


 Estándar ITU-R (CCIR-601) de vídeo digital.

16
2.4 Tipos de vídeo (según su calidad) II
Arquitecturas de red para la distribución de contenidos

 Vídeo de difusión (TV broadcast).


 Difusión de señales de televisión analógicas.
 Estándares NTSC y PAL/SECAM.

 Reproductor de Vídeo (VCR-quality).


 Grabación de vídeo analógico (en VHS)
 Menor resolución de imagen (la mitad de PAL/SECAM).

 Videoconferencia (Low-speed).
 Tasas de bits pequeñas (alrededor de 128 Kbps)
 Resolución de imagen 4 veces inferior al vídeo digital.
 ITU-TS H.261: Common Intermediate Format (CIF) 352x288
 La secuencia de cuadros/s se reduce entre 5 y 10.

17
Tem a 4: Codificación y com presión
de vídeo.

 1. Introducción. Bibliografía
 2. Características del vídeo.
[FLU95] Fluckiger, “Understanding
networked multimedia”
 Captura de vídeo analógico. [TSU99] Introduction to video coding
 Digitalización. standards for multimedia communication
 Tipos de vídeo (según su calidad). [H.264] Overview of the H.264 / AVC Video
Coding Standard
Parámetros específicos de red. [MPEG4] MPEG-4 Overview
 3. Compresión de vídeo. [HiJa94] Compressing still and moving
images with wavelets
 Redundancia temporal.
 Estimación de movimiento.
 Estándares: MPEG y H.261.
 4. Conclusiones.

Arquitecturas de red para la distribución de contenidos


2.5 Parámetros específicos de red I
Arquitecturas de red para la distribución de contenidos

 Lo que debe suministrar una red para el envío en tiempo real de


una secuencia de vídeo.

 Tasa de bits.

Sin comprimir Comprimido


Calidad Estándar
Mbps Mbps
HDTV 1920x1080/60
Sin comprimir 2000
Comprimido MPEG-2 25 a 34
ITU-R digital TV
Sin comprimir ITU-R 601 166
Comprimido MPEG-2 3a6
TV broadcast MPEG-2 2a4
VCR MPEG-1 1,2
Videoconferencia H.261 0.1

19
2.5 Parámetros específicos de red II
Arquitecturas de red para la distribución de contenidos

 Retardo y varianza del retardo.


 Normalmente se envían una secuencia de vídeo sincronizada con el
audio correspondiente.
 La sincronización es muy importante y necesaria desde HDTV hasta
VCR.
 En Videoconferencia no es tan importante ya que la imagen no es
continua (pocos cuadros/s).
 En estos casos, los requerimientos para estos parámetros los
impone el audio (más sensible).
 Valores indicativos para la varianza del retardo:
 HDTV: 50 ms.
 Vídeo difusión: 100 ms.
 Videoconferencia: 400 ms.

20
2.5 Parámetros específicos de red III
Arquitecturas de red para la distribución de contenidos

 Tasa de error.
 El vídeo comprimido es más sensible a los errores.
 La degradación de la calidad de vídeo percibida depende:
BER (Bit Error Rate) de la red. Número de errores de bit por unidad de
tiempo
Del tipo de error (simple, ráfaga, bloque, etc.)
Donde se produce ese error.
El índice de compresión de vídeo.
 Mecanismos de recuperación ante errores:
Técnicas de protección de la señal.
– FEC (Forward Correction Codes).
– Marcas de resincronización.
– Reversible VLC.
– Técnicas de paquetización.
Ocultación de errores (error concealment)
– Cuando se pierden bloques o llegan demasiado tarde.
– Técnicas de extrapolación e interpolación de cuadros.

21
Tem a 4: Codificación y com presión
de vídeo.

 1. Introducción. Bibliografía
 2. Características del vídeo.
[FLU95] Fluckiger, “Understanding
networked multimedia”
 Captura de vídeo analógico. [TSU99] Introduction to video coding
 Digitalización. standards for multimedia communication
 Tipos de vídeo (según su calidad). [H.264] Overview of the H.264 / AVC Video
 Parámetros específicos de red. Coding Standard
[MPEG4] MPEG-4 Overview
 3. Compresión de vídeo. [HiJa94] Compressing still and moving
images with wavelets
 Redundancia temporal.
 Estimación de movimiento.
 Estándares: MPEG y H.261.
 4. Conclusiones.

Arquitecturas de red para la distribución de contenidos


3.1 Redundancia temporal.
Arquitecturas de red para la distribución de contenidos

 Se basa en la similitud de cuadros sucesivos en una secuencia de


vídeo.
 Ej.: Secuencias de plano estático.
 Se utilizan técnicas de codificación diferencial o transformada 3D
 Sólo se codificarán las diferencias entre cuadros sucesivos (DPCM).
 La reconstrucción de un cuadro puede estar basado en otro(s)
anterior(es).
 Un algoritmo típico de eliminación de redundancia temporal
(motion compensation) es el que emplea MPEG.

23
Redundancia temporal (MPEG-1)
Arquitecturas de red para la distribución de contenidos

 Cuadros de referencia y cuadros auto-contenidos


 Si F1 lo usamos para construir F2, se dice que F1 es un cuadro de
referencia (reference frame).
 Si un cuadro no se construye a partir de ningún otro, se dice que es
auto-contenido (intracoded frame)
 Normalmente estos sirven de referencia para otros.
 Macrobloques (macroblocks)
 16x16 pixeles (6 bloques de 8x8: 4Y,1U y 1V).

F1 F2 F3

24
Redundancia temporal (MPEG-1)
Arquitecturas de red para la distribución de contenidos

 Vectores de movimiento (motion vector)


 Identifican el desplazamiento de un determinado macrobloque
en el cuadro actual respecto a la posición que tenía en el cuadro
de referencia.
 Los vectores de movimiento se aplican cuando se identifica un
macrobloque existente en el cuadro de referencia (matching
blocks)

Vector de movimiento
Cuadro de referencia Δx = -20, Δy = 0

Macrobloques
idénticos

F1 F2

25
Redundancia temporal (MPEG-1)
Arquitecturas de red para la distribución de contenidos

 Búsqueda de macrobloques.
 Se buscan los macrobloques del cuadro a codificar en el cuadro de
referencia.
 Si se encuentra el mismo macrobloque, sólo se codifica el vector de
movimiento correspondiente.
 Si no se encuentra exactamente el mismo se elige el más parecido
(macrobloque INTER).
 Se codifica el vector de movimiento.
 Se calcula el macrobloque error (las diferencias) aplicándole codificación
estilo JPEG (DCT, quant, RLE+VLC en zigzag).
 Si no se encuentra ningún bloque similar (mb. INTRA)
 Se codifica dicho macrobloque con codificación estilo JPEG.

26
Redundancia temporal (MPEG-1)
Arquitecturas de red para la distribución de contenidos

 Tipos de cuadros
 I (Intracoded frames): Cuadro codificado usando JPEG
(autocontenido).
 P (Predictive frames): Cuadro basado en las diferencias
respecto a un cuadro de referencia anterior (tipo I).
 B (Bidirectional frames): Cuadros basados en la interpolación
de un cuadro anterior y otro posterior en la secuencia (tipo I
o P).

Cuadro de tipo I Cuadro de tipo B Cuadro de tipo P


autocontenido basado en F1 y F3 basado en F1

F1 Macrobloque F2 F3
encontrado!! Macrobloque
encontrado!!
27
Redundancia temporal (MPEG-1)
Arquitecturas de red para la distribución de contenidos

 Secuencias de cuadros (Group Of Pictures)


 Los cuadros de tipo I son los menos comprimidos, a continuación
los de tipo P y por último los que más compresión obtiene son los
de tipo B.
 Secuencias típicas:
 IBBBPBBBI
 IBBPBBPBBI (PAL)
 IBBPBBPBBPBBI (NTSC)

I B B P B B P B B I

28
Redundancia temporal (MPEG-1)
Arquitecturas de red para la distribución de contenidos

 La importancia de los cuadros de tipo I.


 En un sistema de vídeo es habitual el usar los controles de avance,
retroceso, pausa, etc.
 Si queremos detener la secuencia de vídeo, necesitamos encontrar el
último cuadro I para reconstruir el cuadro donde se ha detenido la
imagen.
 Sirven como puntos de sincronización.
 Se estima que deben aparecer al menos un cuadro I cada 300-400
ms.
 Si se está difundiendo una secuencia de vídeo comprimida (TV
broadcast, videoconferencia, etc)
 Permite “engancharse” rápidamente y recuperarse ante la recepción de
algún cuadro dañado.

29
Tem a 4: Codificación y com presión
de vídeo.

 1. Introducción. Bibliografía
 2. Características del vídeo.
[FLU95] Fluckiger, “Understanding
networked multimedia”
 Captura de vídeo analógico. [TSU99] Introduction to video coding
 Digitalización. standards for multimedia communication
 Tipos de vídeo (según su calidad). [H.264] Overview of the H.264 / AVC Video
 Parámetros específicos de red. Coding Standard
[MPEG4] MPEG-4 Overview
 3. Compresión de vídeo. [HiJa94] Compressing still and moving
 Redundancia temporal. images with wavelets
 Estimación de movimiento.
 Estándares: MPEG y H.261.
 4. Conclusiones.

Arquitecturas de red para la distribución de contenidos


3.2 Estimación de movimiento: Algoritmos.
Arquitecturas de red para la distribución de contenidos

 La parte más costosa de la estimación de movimiento


corresponde a los algoritmos de búsqueda de macrobloques en
el cuadro(s) de referencia.
 Provoca codificación asimétrica
 Los algoritmos más conocidos son los siguientes:
 Búsqueda completa (Full-Search).
 TTS (Three-Step Search)
 Búsqueda logarítmica.
 Búsqueda en cruz (Cross-Search)
 OTS (One-at-a-Time Search)
 Vecinos más próximos (Nearest Neighbours Search)
 Búsqueda jerárquica.

31
Estimación de movimiento.
Arquitecturas de red para la distribución de contenidos

 Se define una función de coste que calcula el error entre dos


macrobloques, por ejemplo, SAE (Sum of Absolute Errors)* :
N −1 M −1
SAE (i, j ) = ∑ ∑ C (i, j ) − R(i, j )
i =0 j =0

 (i,j) está definido dentro del área de búsqueda


 (NxM) determina las dimensiones del macrobloque.
 C(i,j) y R(i,j) definen los pixeles del macrobloque actual y referencia
respectivamente.

 Las coordenadas (i,j) que menor SAE exhiban determinarán el


vector de movimiento del macrobloque actual.

(*) Más conocido como SAD (Sum of Absolute Differences) 32


Algoritmos: Full Search.
Arquitecturas de red para la distribución de contenidos

 Examina todos los puntos del área de búsqueda (+/- p)


 Complejidad computacional por macrobloque:
 Número total de posiciones: (2p + 1)2
 Cada posición (i,j), MxN pixeles.
 Cada píxel requiere: 1 resta, 1 suma y 1 valor absoluto.

O(MB ) = (2 p + 1) 3MN
2

 Complejidad (secuencia IxJ pixeles @ F fps)

O(FS ) = O(MB )
IJF
MN
 Ejemplo:
 Broadcast TV (I=720, J=480, F=30, N=M=16)
 Coste de este algoritmo: 29.89 GOPS (p=15) ó 6.99 GOPS (p=7)

33
Algortimos: Three-Step Search.
Arquitecturas de red para la distribución de contenidos

(-7,-7) (0,-7) (7,-7)

MV: (7,-2)
1 1 1
3 3 3
2 2 3 2 3
3 3 3
1. Busca en la posición (0,0)
1 1 2 1 2
2. S=2N-1 (step size)
3. Busca 8 posiciones a +/-S
2 2 2 píxeles alrededor de (0,0)
4. De las nueva posiciones
1 1 1 elige aquella con el SAD
menor.
5. S=S/2 y el nuevo origen de
(0,7) (7,7) búsqueda el punto obtenido
(-7,7)
en 4.
6. Repetir pasos 3-5 hasta que
 Coste: S=1.
 ( )
Examina 8 log 2 p + 1 puntos
 1.02 GOPS (p=15) ó 770 MOPS (p=7).
34
Algoritmos: Búsqueda logarítmica.
Arquitecturas de red para la distribución de contenidos

(-7,-7) (0,-7) (7,-7)


MV: (5,-3)
3 4
5 5 5
1 2 5 3 5 4
1. Busca en la posición (0,0) y establece
5 5 5
S=N (step size)
1 1 1 2
2. Selecciona 4 posiciones a S píxeles
del origen en los ejes X e Y.
1 2
3. Calcula la posición que ofrece el
menor SAD, fijándola como el
nuevo origen de la búsqueda
4. Si esta posición es la central de las 5
seleccionadas S=S/2
(0,7) (7,7) 5. Si S=1 ir al paso 6, sino ir al paso 2.
(-7,7)
6. Selecciona el origen actual y las 8
posiciones de alrededor, y calcula
 Coste: aquella que minimiza el SAD
 Examina 20 puntos
 616 MOPS (p=7 y N=2).
35
Algoritmos: Búsqueda en cruz (Cross Search)
Arquitecturas de red para la distribución de contenidos

(-7,-7) (0,-7) (7,-7)


2 2 MV: (-2,-4)
1 4 1
3 3 1. Establece el origen en la posición
2 4 2 (0,0). S=2N-1 (step size)
3 3 2. Selecciona 4 posiciones a +/-S
1 píxeles del origen formando una
cruz (X) y el propio origen.
3. Calcula la posición que ofrece el
menor SAE, fijándola como el
1 1 nuevo origen de la búsqueda
4. Si (S>1) entonces S=S/2 y va al
punto 2. Sino ir al punto 5.
5. Si la mejor posición está en el punto
(-7,7) (0,7) (7,7) superior izquierda o inferior derecha
de la X, evaluar 4 puntos más en
 Coste: forma de X a una distancia de +/-1

( p ) + 5 puntos
pixel. Sino hacer lo mismo pero con
 Examina 4 log 2 los 4 puntos distribuidos en “+”.
 523 MOPS (p=7).
36
Algoritmos: OTS (One-at-a-Time Search)
Arquitecturas de red para la distribución de contenidos

(-7,-7) (0,-7) (7,-7)

MV: (-4,-3)
9
8
7
1. Establece el origen en (0,0).
6
2. Selecciona el origen y las dos
5 4 3 2 1 1 1
posiciones vecinas en el eje X
6 3. Calcula la posición que menor
SAD exhiba. Si es el origen ir
al paso 5.
4. Establece el nuevo origen en la
posición que ha ofrecido el
menor SAD. Ir al paso 2.
(0,7) (7,7) 5. Repetir los pasos 2 al 4
(-7,7)
seleccionando las posiciones
en el sentido vertical (eje Y).
 Coste:
 Examina 12 puntos
 369 MOP. Puede dar lugar a mínimos locales !
37
Algoritmos: Vecino más próximo.
Arquitecturas de red para la distribución de contenidos

(-7,-7) (0,-7) (7,-7)


MV: (-3,-4)
3 2
3 2 1 2
1 1 1 1. Calcula el SAD del (0,0).
1 2. Establece el origen de búsqueda a
la posición del vector supuesto
0 (predicted vector)
3. Selecciona 4 posiciones alrededor
del origen en forma de “+”.
4. Si el origen de búsqueda (o la
posición 0,0 en la primera
iteración) ofrece el menor SAD
entonces “fin de búsqueda”.
Sino establece el nuevo origen de
(-7,7) (0,7) (7,7) búsqueda en la posición que menor
SAD ha ofrecido.
 Coste:
 Examina 12 puntos
 369 MOP. Propuesto para H.263 y MPEG-4.
38
Estimación de movimiento: Otras consideraciones.
Arquitecturas de red para la distribución de contenidos

 Estimación de movimiento con fracciones de píxel


 Se basa en realizar la estimación de movimiento con mayor precisión, ya
que a veces el movimiento real no se ajusta a desplazamientos de píxel
enteros.
 Half-Pixel motion estimation
 Se obtiene un imagen de mayor resolución interpolando un punto de la imagen
entre cada dos píxeles.

A b A b A
 Se incrementan notablemente las
c d c d c
prestaciones del algoritmo de
estimación de movimiento a expensas
A b A b A de un mayor coste computacional.
 H.263 utiliza está técnica, incluso se
c d c d c propone utilizar ¼ y 1/8 de píxel para
el estándar H.264
A b A b A

A: Pixeles reales (Enteros)


b,c,d: Pixeles interpolados. Las flechas
indican la dirección de interpolación.
39
Estimación de movimiento: Mejoras propuestas.
Arquitecturas de red para la distribución de contenidos

 Vectores de movimiento fuera del cuadro de referencia.


 Para estimar correctamente el movimiento que se produce en los bordes del
cuadro.
 Tamaño de bloque variable.
 Para realizar estimación de movimiento más precisa.
 Se utiliza en H.263 (Anexo F) y H.264.
 Tamaños: 16x16;8x8;4x4;8x16;16x8....
 OBMC (Overlapped Block Motion Compensation)
 Objetivo: Suavizar los efectos de “blocking” que aparecen en los bordes de
los macrobloques.
 Incremento significativo del coste computacional.
 H.263 recomendo utilizar filtros de salida (deblocking filters) que realizan esta
operación a un coste computacional muy inferior.
 Modelos de estimación más complejos:
 Region-based, Picture Warping, Mesh-based, Object-based...

40
Tem a 4: Codificación y com presión
de vídeo.

 1. Introducción. Bibliografía
 2. Características del vídeo.
[FLU95] Fluckiger, “Understanding
networked multimedia”
 Captura de vídeo analógico. [TSU99] Introduction to video coding
 Digitalización. standards for multimedia communication
 Tipos de vídeo (según su calidad). [H.264] Overview of the H.264 / AVC Video
 Parámetros específicos de red. Coding Standard
[MPEG4] MPEG-4 Overview
 3. Compresión de vídeo. [HiJa94] Compressing still and moving
 Redundancia temporal. images with wavelets
 Estimación de movimiento.
 Estándares: MPEG y H.261.
 4. Conclusiones.

Arquitecturas de red para la distribución de contenidos


3.3 Estándar MPEG.
Arquitecturas de red para la distribución de contenidos

 Conjunto de estándares ISO para la grabación y transmisión


digital de audio y vídeo.
 En su evolución se han desarrollado varias versiones del
estándar MPEG:
 MPEG-1 (ISO 11172) (‘91):
 CD-ROM vídeo (1,5 Mbps).
 MPEG-2 (ISO 13818) (‘93):
 TV Broadcast (4-6 Mbps).
 HDTV (25-34 Mbps).
 MPEG-4 (ISO 14496) (‘99):
 Originalmente: Videoconferencia (4,8 a 64 Kbps).
 Enfoque universal de tratamiento de elementos multimedia.
 MPEG-7 (00-?): Descripción de contenido multimedia
(videodatabases)
 MPEG-21 (01-?): Uso transparente de contenido multimedia entre
redes y usuarios heterogéneos.

42
Arquitecturas de red para la distribución de contenidos
Relación entre los estándares MPEG.

43
MPEG-1.
Arquitecturas de red para la distribución de contenidos

 MPEG-1 (ISO 11172) (‘91)


 MPEG-Vídeo (IS 11172-2)
 MPEG-Audio (IS 11172-3) (Tema siguiente)
 MPEG-System (IS 11172-1):
 Multiplexado y sincronización.
 MPEG-Conformance Testing (IS 11172-4)
 Patrones de prueba, medida de calidad, etc
 MPEG-Software Coding (IS 11172-5)
 Directrices para la codificación de los algoritmos.

 Propósito de MPEG-1
 Almacenamiento en CD-ROM de audio (calidad CD) y vídeo (calidad
VCR) sincronizado (1,5 Mbps).

44
MPEG-1
Arquitecturas de red para la distribución de contenidos

 Características de MPEG-1:
 Resolución de imagen: 352x(288 ó 240) (PAL/NTSC).
 Reducción de color (sub-sampling): 4:2:0.
 Barrido progresivo (no entrelazado).
 Tasa de cuadros: 25/30 (PAL/NTSC).
 Incluye cuadros de tipo D (DC-coded):
 Operaciones de avance rápido (Fast Forward).
 Codificador/decodificador asimétrico.

 Tasa de compresión: 27:1. Audio


encoder

 Los codificadores de audio y vídeo


Salida
MPEG-1

trabajan por separado. Reloj System


Mux.

 Utilizan un reloj común para


establecer el tiempo de cada una de
Vídeo
encoder
sus capturas (system).

45
MPEG-2
Arquitecturas de red para la distribución de contenidos

 Conjunto de estándares ISO 13818 (‘93).


 Propósito:
 Mejorar la calidad de imagen respecto al anterior sin incrementar
excesivamente la tasa de bits requerida
 Calidad de vídeo profesional (studio-quality) y HDTV
 Aplicación:
 Difusión de señales de TV, HDTV, VOD
 La codificación/decodificación es muy similar a la de MPEG-1
salvo algunas diferencias:
 No se incluyen cuadros de tipo D.
 Permite bloques de 16x8 para vídeo entrelazado.
 Otras mejoras (permite DC de hasta 10 bits, cuantización no lineal,
nuevas tablas VLC, escalabilidad SNR y multiresolución)

46
MPEG-2
Arquitecturas de red para la distribución de contenidos

 Características de MPEG-2.
 Soporta barrido entrelazado y progresivo.
 Puede trabajar con distintas resoluciones (nivel):
 CIF: 352x288/240 (VCR quality) (Compatibilidad MPEG-1)
 Principal: 720x576/480 (studio-quality)
 High-1440: 1440x1152 (HDTV)
 High: 1920x1080 (HDTV)
 Define varios perfiles de implementación
 Detalles de los algoritmos de compresión y parámetros de imagen,
barrido, etc.
 El multiplexado y sincronización es más general y flexible que
MPEG-1
 Se pueden multiplexar/sincronizar varias fuentes de audio, vídeo y
datos (ej.: subtítulos en varios idiomas).

47
MPEG-4
Arquitecturas de red para la distribución de contenidos

 Propósito:
 Diseño de aplicaciones multimedia interactivas distribuidas.

 Aplicación:
 Televisión digital
 Compatibilidad con MPEG-2 (backware compatibility)
 Aplicaciones multimedia interactivas
 El usuario puede interaccionar con los objetos multimedia de la sesión.
 Distribución de información multimedia (tipo WWW)
 A través de una red, se permitirá el acceso y distribución a información
multimedia, facilitando su diseño y presentación.

48
MPEG-4
Arquitecturas de red para la distribución de contenidos

 Características:
 Accesibilidad de la información de manera universal y robusta.
 Alta interactividad con la información multimedia.
 Definición de escenarios virtuales compuestos por objetos
independientes (AVOs).
 El usuario puede modificar/configurar el escenario actual.
 Codificación conjunta de datos sintéticos y reales.
 Codificación eficiente de la información.
 Mejoras en la compresión y multiplexación de la información.
 Codificación de objetos con forma irregular.

49
3.3 Estándar H.261.
Arquitecturas de red para la distribución de contenidos

 Pertenece al conjunto de estándares H.320 del ITU dedicados a


videoconferencia sobre RDSI.
 H.320: Definición de la familia de estándares
 H.221: Multiplexado, sincronización sobre uno o varios canales
RDSI y empaquetamiento (framming).
 H.242/H.230: Establecimiento y control de sesión.
 H.224/H.281: Control remoto de cámaras.
 H.233 y H.234: Cifrado y autenticación de los datos.
 T.120: Soporte para aplicaciones (transferencia de imágenes,
anotaciones compartidas, etc.)
 G.711, G.72x ...: Algoritmos de compresión de audio
 H.261: Compresión de vídeo (conocido como px64).

51
Estándar H.261.
Arquitecturas de red para la distribución de contenidos

 Características de H.261:
 Formato de imagen: YCbCr
 CIF: 352x288 (opcional)
 QCIF: 176x144 (obligatorio)
 Reducción de color: 4:2:0
 Tasa de cuadros/seg: como máximo 30 max.

 Mecanismo de compresión similar a MPEG-1:


 Para la redundancia temporal se emplean mecanismos similares a
MPEG, basados en macrobloques (16x16).
 H.261 define el concepto de GOB (Group Of Blocks)
 1 GOB = 3x11 macrobloques (QCIF: 3 GOBs)

52
Estándar H.261.
Arquitecturas de red para la distribución de contenidos

 Sólo se definen dos tipos de cuadros: I y P.


 No existen secuencias predefinidas de cuadros.
 Decisión de codificación I o P para cada cuadro.
 Estimación de movimiento (motion estimation):
 Se realiza a nivel de macrobloque
 Búsqueda restringida en un área de +-15 pixels, usando sólo la
información de luminancia (Y).
 Resultado de la búsqueda:
 Macrobloque del cuadro de anterior que más se parece al actual
 Cálculo de las diferencias (macrobloque error).
 Si superan un cierto umbral se codifican (DCT), si no se elimina el
macrobloque error, utilizando sólo el vector de movimiento.
 Cuantificación lineal (menos costosa).
 Se siguen utilizando run-length y Huffman (VLC).

53
Estándar H.261.
Arquitecturas de red para la distribución de contenidos

 Esquema del formato H.261

PSC TR PType GOB1 GOB2 .... GOBm

GOB Start Grp# Quant MB1 ... MBn

Addr Type Quant Vector CBP b0 b1 ... b5

DC Run, Valor ... Run, Valor EOB

54
Otros estándares H.26x.
Arquitecturas de red para la distribución de contenidos

 H.263: Mejora, amplía y sustituye el H.261


 De propósito general (no sólo para videoconf.)
 Incluye compensación de movimiento de “medio-píxel”
 Soporta cinco resoluciones (SQCIF, QCIF, CIF, 4CIF y 16CIF)
 Permite estimación de movimiento bidireccional y sin restricción en
el tamaño de la ventana de búsqueda
 H.263+: Añade nuevas características a H.263
 Escalabilidad SNR, espacial y temporal
 Predicción de los valores de los coeficientes de la DCT
 H.264: Mejora la eficiencia en codificación
 DCT con enteros y tam. bloque 4x4, compensación de movimiento
con bloques de tamaño variable, Predicción INTRA, etc.
 HEVC (H.265?): Evolución natural del H.264
 Aumenta los modos de predicción tanto INTER como INTRA, mas
flexibilidad en los tamaños y estructura de MB, mejora en el post-filtrado y
las etapas de estimación de movimiento, etc…
55
Otros estándares H.26x.
Arquitecturas de red para la distribución de contenidos

Comparación subjetiva
entre MPEG-4 y
H.264. Secuencia de
vídeo Foreman (CIF @
30 fps) comprimida a
32 Kbits/s

Comparación R/D  MPEG2, H.263, MPEG-4, H.264/AVC y HEVC

56
4. Conclusiones
Arquitecturas de red para la distribución de contenidos

 Las imágenes son captadas por cámaras de vídeo que proporcionan


una señal analógica RGB.
 La digitalización está basada en el estándar ITU-R
 En función de la calidad de vídeo deseada, existen diversos formatos
de imagen, barrido, etc.
 Se definen distintos parámetros de red de importancia para el
transporte de vídeo
 Algoritmos de compresión de vídeo
 Fundamentos: Redundancia temporal
 Algoritmos de estimación de movimiento: Alto coste computacional.
 Estándares de compresión:
 Familia MPEG: 1-2-4
– Diseñados para procesar vídeo digital de calidad (Sector consumo).
 Familia ITU: H.261-3-4
– Diseñados para comunicaciones audiovisuales en distintos tipos de redes
(RDSI, IP, telefonía, etc.)

57

También podría gustarte