Semana No.2 - Estandar de Comprensión Video y Audio PDF

Televisión Digital
Fundamentos y estándares de la compresión de video
José Javier De la Torre

13 al 19 de Abril del 2020
Modalidad de estudios semipresencial

Semana Nro. 2
Objetivo del encuentro:
Identificar las características técnicas de los

diferentes estándares de compresión de
audio y video
Fundamentos y estándares de
compresión de video
Estándares de comprensión de video
Introducción
La necesidad de la compresión en vídeo digital

aparece en el momento que se tratan las
secuencias de imágenes como señales digitales.
El problema principal que tiene en el manejo del
vídeo digital es la cantidad de bits que aparecen
al realizar la codificación.
Realizado por: Mg. Javier De la Torre
Jerarquía de Datos de video digital

Formatos Recomendación ITU-RBT.601
Algunas técnicas de compresión se han conseguido,

simplemente atendiendo a las diferentes sensibilidades que
tiene el ojo humano frente al brillo y a los colores. Esta
posibilidad de compresión, viene expresada en la
recomendación ITU-RBT.601 cuando habla de las distintas
familias que se desarrollan bajo esta norma (4:4:4, 4:2:2,
4:1:1, 4:2:0), cada una de ellas, con diferentes flujos binarios.
Formato de 4:4:4
El caso del formato de video 4:4:4 utiliza la misma frecuencia de muestreo
para las señales de color que para la de luminancia.
 Cada pixel lleva toda la información de luminancia

Y, y Crominancia CrCb
 Frecuencia de muestreo F =13,5 MHz
 Cuantización 8 Bits
 Taza de Bits por cuadro de 324 Mbps
 Utilizado para el cine y alta definición
Formato 4:2:2
En el formato 4:2:2, en cambio, la frecuencia de muestreo de las señales de color pasa a
ser la mitad. Sin embargo, esta forma de compresión no degrada subjetivamente la
calidad, sino que este formato se ajusta más a las distintas sensibilidades del ojo.
 Pixeles intercalados, unos llevan luminancia más
crominancia y otros solo lleva crominancias
 Frecuencia de muestreo f= 13,5 MHz para la
luminancia y f=6,75 para la crominancia
 Cuantización de 8 bits
 Taza de bits por cuadro 216 Mbps
 Utilizado por la televisión digital

Formatos 4:2:0
El paso del formato 4:2:2 al 4:1:1 o al 4:2:0 sí supone eliminar información sensible al
ojo. Esta información que se elimina, no es en este caso redundante, y no puede
recuperarse en un hipotético proceso de descompresión. Por ello esta compresión se
denomina con pérdidas, o degradante.
 Es una simplificación del formato de cuadro
4:2:2
 Frecuencia de muestreo para luminancia
f=13,5 MHz y para crominancia f=6,75
 Cuantización de 8 bits
 Taza de bits por cuadro de 162 Mbps
 Utilizado para televisión Digital
Formato 4:1:1
• Frecuencia de muestreo f= 13,5 MHz

para la luminancia y para la
crominancia f=3,375 MHz
• Cuantización de 8 bits
• Taza de bits por cuadro de 162 Mbps

Compresión de la señal de video

La misión de un sistema de compresión consiste en detectar y
eliminar la información redundante, codificando solamente la
información útil. Por lo tanto, podemos considerar la compresión
digital como un procedimiento, matemático en general, que rebaja
el flujo binario de un tren de datos, en base a la eliminación de
información redundante y a una codificación inteligente de la
información real.
La compresión, a partir de ciertos valores influye negativamente en
la calidad del vídeo. Por eso, debe utilizarse un algoritmo y un factor
de compresión que minimicen dicha degradación. Realizado por: Mg. Javier De la Torre
Definiciones relacionadas con la compresión de video

• Compresión sin pérdidas. Se refiere a los métodos de compresión en los que la calidad de
la señal decodificada es, al menos teóricamente, igual a la calidad de la señal de la fuente.
• Compresión con pérdidas. En la práctica del manejo de imágenes y sonido, son
relativamente pocas las aplicaciones en que es necesaria una reconstrucción
absolutamente fiel de la información de la fuente, ya que intervienen varios aspectos en
la imagen o audio que son aprovechables para reducir la cantidad de información que
debe transmitirse para que pueda ser reconstruida aproximadamente por el
decodificador. Por consecuencia, en los sistemas de compresión con pérdidas es admisible
la pérdida de cierta cantidad de información que no es relevante para el observador final.
En el ámbito de la compresión digital de sonido e imagen, existe una norma general y es
que “lo que el ojo no ve, o lo que el oído no oye, no se codifica”

• Relación de compresión. Se define como:
• Eficiencia de codificación. Por lo general, se expresa en bits por muestra o en bits por
segundo y está limitada por el contenido de información. Cuanto mayor sea ésta, más
difícil y compleja será la compresión.
• Complejidad de codificación. La complejidad del proceso de compresión tiene que ver
directamente con la carga o esfuerzo de cómputo para implementar las funciones de
codificación y decodificación. Esto afecta tanto al hardware como al software y, por lo
general, se mide en función de los requerimientos de memoria y de la cantidad de
operaciones aritméticas necesarias, expresada en millones de operaciones por segundo
(MOPS) o bien de millones de instrucciones por segundo (MIPS).
• Retardo de codificación. Todo proceso de compresión requiere de un cierto tiempo que,

dependiendo de la aplicación, puede resultar o no, crítico. Esto no es posible en
televisión, donde todo el proceso debe hacerse en tiempo real o cuasi-real de modo que
el retardo introducido por los procesos de codificación y decodificación no sea perceptible
al observador. El retardo de codificación puede reducirse aumentando la potencia de
cómputo, lo que aumenta la complejidad de hardware y software y, por consecuencia, del
costo.
• Calidad de señal. En general, este concepto se aplica a la señal de salida del decodificador
y, en realidad, no hay un criterio cuantitativo aceptado universalmente para definirlo. En
alguna literatura, se define mediante una relación señal a ruido dada por:

• Caudal binario a la salida del codificador. Según la forma de implementar el codificador, las
características del caudal binario a la salida del codificador pueden dar lugar a los siguientes
casos:
a) Retardo fijo de codificación y flujo constante de salida. La eficiencia de codificación varía
según las muestras y por consecuencia, también la calidad de la señal.
b) Procesamiento de muestras en paralelo. Con esta técnica es posible mejorar la eficiencia
de codificación dando lugar a símbolos de longitud fija a la salida, pero a intervalos
irregulares dependiendo de la cantidad de información de las muestras
c) Eficiencia de codificación fija. En este caso, la calidad de la señal varía en función de la
cantidad de información contenida en las muestras a comprimir.
d) Calidad constante y eficiencia de codificación variable. Si los medios de transmisión o de
almacenamiento no restringen la velocidad de transmisión, o bien si es deseable una
calidad determinada de señal a la salida del decodificador, puede permitirse que varíe la
eficiencia de codificación para mantener constante calidad.
Técnicas de compresión
Existe dos técnicas de compresión las cuales se clasifican como reversibles e irreversibles.
Reversibles .- No se pierde información en el proceso de codificación-decodificación. Entre las

técnicas de codificación reversible de la señal de vídeo, pueden mencionarse las de supresión de los
intervalos de borrado horizontal y vertical y la codificación estadística que incluye, entre otras, la
codificación vectorial, codificación de recorrido (runlength) y codificación de longitud variable.
Irreversibles.- Se pierde cierta cantidad de información durante la codificación, que no es posible

recuperar en el decodificador, pero permiten alcanzar mayores niveles de compresión porque
reducen considerablemente el caudal binario de la señal original. Entre las técnicas de codificación
irreversible de la señal de vídeo, pueden mencionarse las de sub-muestreo de Nyquist, PCM
diferencial (DPCM), codificación en sub-bandas, codificación por transformadas. La mayor parte de
las técnicas de compresión empleadas en televisión, tanto para producción y grabación como para
transmisión son irreversibles y causan degradación de la imagen reconstruida.
Compresión basada en la redundancia de información
La principal característica común a todos los sistemas de

compresión, es la eliminación de la redundancia en la señal,
de modo que la función básica del codificador es eliminar
dicha redundancia antes de transmitirla o almacenarla y que
el decodificador sea capaz de reinsertar de nuevo. Las
características de la visión humana que se aprovechan para
reducir el caudal de información se encuentra en la respuesta
limitada de las señales de luminancia y color.
Compresión basada en la redundancia de información
Es fácil observar que en una escena televisada la imagen entre dos

cuadros sucesivos varía muy poco. La mayor variación ocurre en las
porciones de la imagen en que hay movimiento o cuando hay
cambios de escena. Así, en las imágenes televisadas puede hablarse
de redundancia temporal puesto que los cuadros sucesivos tienen
mucha información igual entre ellos. Por otra parte, entre los
elementos de imagen que constituyen una línea, ya sea que se les
considere horizontal o verticalmente hay también semejanzas que
dan lugar a redundancia espacial .
Comprensión de redundancia espacial
La redundancia espacial tiene lugar dentro de cada bloque. Ésta, viene

asociada al hecho de que la naturaleza está llena de objetos sólidos con
superficies y texturas uniformes que no varían significativamente la
información de pixel a pixel, sino que encontraremos generalmente grandes
superficies sin variación.
El hecho de que varios píxeles adyacentes sean prácticamente iguales nos va
a permitir, en vez de transmitirlos todos o almacenarlos todos, transmitir un
píxel representativo del conjunto, y las diferencias de cada uno respecto a
éste.
Un ejemplo de compresión aprovechando la redundancia espacial son la
codificación de cadenas largas de datos iguales (RLC - Run Lenght Code,
codificación de longitudes de recorrido). En el caso de que se detecte en el
tren binario una cadena larga de dígitos que se repiten, en lugar de codificar
cada dígito, la mejor opción es codificar cuál es el dígito de que se trata y Realizado por: Mg. Javier De la Torre
cuantas veces se repite.
Comprensión de redundancia temporal
La redundancia temporal viene dada por la relación

entre los píxeles homólogos de imágenes sucesivas.
Esta redundancia aparece porque la imagen no
cambia significativamente de cuadro a cuadro.
Un ejemplo de codificación para este caso es la

técnica es la codificación diferencial de pulsos
modulados (DPCM). La DPCM codifica el valor de
diferencia de una muestra con respecto a la anterior.
Si codificamos el valor absoluto de cada muestra
necesitaríamos palabras binarias más largas.
Métodos de compresión mediante la Transformada discreta coseno (DCT)

Existe una gran variedad de métodos de compresión que se basan en la
detección de la redundancia en un dominio transformado. Esto se realiza
transformando la señal desde el ámbito temporal al ámbito de las
frecuencias.
En el dominio de la frecuencia no se tiene una distribución uniforme del
espectro. En general, las altas frecuencias aparecen menos veces, ya que es
más habitual encontrar cambios suaves y grandes superficies monocolor
que grandes contrastes. Los contrastes grandes se sitúan en los contornos
de los objetos, que en general son menos abundantes. Por eso podemos
decir que existe mucho más contenido en las bajas frecuencias que en las
altas.
Métodos de compresión mediante la Transformada discreta coseno (DCT)
Otro aspecto que hemos de tener en cuenta, es que

nuestro ojo atiende más a las grandes superficies,
por tanto a las bajas frecuencias, que a los detalles
pequeños que generarán valores de alta frecuencia.
Los métodos de compresión por transformación se
aprovechan de esta circunstancia para reducir el
número de datos a codificar.
Compresión de Video en el contexto del sistema de televisión Digital

La transformada discreta del coseno es la herramienta de transformación más utilizada por los
métodos de compresión intracuadro. Esta transformada, que aprovecha la existencia de redundancia
espacial en las imágenes y la encontraremos en los estándares JPEG, MJPEG y sus derivados, y en la
familia MPEG.
La DCT bidimensional es una transformación matemática que convierte una matriz genérica de M x N
valores, que en el caso de las imágenes corresponderían a niveles de brillo o color, en otra matriz del
mismo tamaño (MxN), cuyos valores representan la distribución de las frecuencias.


La transformada discreta del coseno se considera la base en la mayoría de los algoritmos de compresión
de video, tanto intracuadro (redundancia espacial) como intercuadro (redundancia temporal).
La transformada de coseno discreta por si sola, como se ha visto no comprime. Ésta, al transformar la
información del dominio espacial al dominio de la frecuencia, recolecta la información de tal manera que
es más fácil eliminar la parte redundante, consiguiendo reducir el flujo binario. A continuación, se
presenta un ejemplo de matriz 8x8 y su correspondiente DCT bidimensional.
Si observamos detenidamente la distribución de los

coeficientes frecuenciales en los bloques transformados,
podemos ver que los más significativos se encuentran en el
cuadrante superior izquierdo, que corresponde a las bajas
frecuencias. Conforme nos vamos alejando de este cuadrante
hacia la derecha y hacia abajo, el valor de los coeficientes
disminuye drásticamente.
La lectura de los coeficientes se realiza en zig-
zag comenzando desde el coeficiente
superior izquierda, y terminando en su lado
opuesto. Esto permite procesar en primer
lugar las bajas frecuencias espaciales y decidir
posteriormente si se procesan o se eliminan
los coeficientes correspondientes a las altas
frecuencias, y decidir con posterioridad si se
procesan o se eliminan los coeficientes
correspondientes a las altas frecuencias,
consiguiendo factores de compresión, sin que
la calidad de la imagen se vea afectada.
Estándares de compresión de video

Independientemente de las diversas técnicas de compresión de vídeo que se han
desarrollado y de las cuales algunas han encontrado aplicación en campos específicos, aquí
son de interés únicamente aquellas destinadas a la compresión de imágenes de televisión
a) H.261 del CCITT.- para aplicaciones en videoconferencia, en que las imágenes tienen
escaso movimiento. Las velocidades de transmisión que permite este estándar son,
básicamente, 64 Kbit/s, 384 Kbit/s y 1.5 Mbit/s.
b) JPEG.- Destinado principalmente a la codificación de imágenes fijas para
almacenamiento en CD-ROM o medios magnéticos. Permite elevados niveles de
compresión, hasta de 100:1 y está basado en la transformada del coseno discreto (DCT).
El algoritmo es simétrico, lo que hace que el tiempo necesario para la codificación sea
prácticamente el mismo que el requerido en la decodificación. Al tratar sólo imágenes
fijas, no es necesaria la compensación de movimiento y el estándar básico no contempla
la codificación de audio.
Estándares de compresión de video

c) CCIR-723.- Es una Recomendación del CCIR (UIT-R) para transmisión a larga distancia de
señales de vídeo en componentes, digitalizadas en el formato 4:2:2. Las velocidades de
transmisión que contempla este estándar son 34, 45 y 140 Mbit/s.
d) MPEG-1.- Es un estándar desarrollado para imágenes en movimiento, basado en la DCT,
que emplea compensación de movimiento. Está orientado básicamente al
almacenamiento de imágenes en CD-ROM y ofrece calidad equivalente a la del sistema
VHS analógico. El estándar enfoca también la comprensión de audio. Las velocidades de
transmisión son del orden de 1.2 Mbit/s, con audio a 128 -334 Kbit/s.
e) MPEG-2.- Constituye, de hecho una evolución de MPEG-1 para imágenes de barrido
entrelazado, orientado a aplicaciones de televisión con fines de distribución, en que se
requiere alta calidad subjetiva. Las velocidades de transmisión con MPEG-2 varían,
aproximadamente, entre 3 y 8 Mbit/s. El esquema de compresión de audio es similar al
de MPEG-1.
Estándar MPEG-2
Las normas MPEG, han revolucionado la industria de la televisión y las
comunicaciones, al conseguir reducir de manera drástica el flujo binario, sin
pérdida subjetiva de calidad en la imagen. El estándar de compresión MPEG-2
en la televisión digital actual ha sido adoptado por varios sistemas de
televisión digital a nivel mundial.
Dependiendo del esquema de modulación utilizado, una señal comprimida con

el estándar MPEG-2 puede ocupar un ancho de banda del orden de 1.5 MHz o
menos, lo que permite empaquetar hasta cuatro o más canales digitales en el
ancho de banda de un canal analógico de 6 MHz.
Características Estándar MPEG

MPEG está orientado a vídeo y su formato hace uso de un único
espacio de color (Y, Cr, Cb), así como de un rango limitado de
resoluciones y relaciones de compresión.
Aprovecha el alto grado de correlación entre las imágenes de una
secuencia de vídeo, así como la naturaleza predictiva del
movimiento.
Proporciona un caudal binario constante mediante el empleo de
variables ajustables, haciendo que el formato sea predecible en
relación con los requerimientos de ancho de banda.
Características Estándar MPEG
Especifica la sintaxis para el almacenamiento y transmisión

de los datos comprimidos y define el proceso de
decodificación.
La codificación MPEG-2 va orientada a la eliminación de la
redundancia espacial y temporal.
Esta compresión es adecuada para imágenes de calidad en
movimiento (televisión).
Formatos de bloques MPEG-2

La unidad básica del MPEG-2 se encuentra formada por Bloques de
pixel de 16x16, 16X8, 8X16 y 8X8

Estándar MPEG-2
 Mayor calidad de imagen.
 Método de compresión DCT
 Maneja Barrido entrelazado de imágenes
 Alto grado de compresión:
Video digital sin comprimir:
[13.5Mhz (Y) +6.25Mhz(Cr)+6.25Mhz (Cb)] *10bits/muestra=270Mbps
Video digital comprimido: 15 - 4 Mbps
-Redundancia Espacial o Temporal.
-Redundancia de Entropía.
-Redundancia Psico-visual.
Estándar MPEG-4
MPEG-4, orientado a conseguir caudales binarios muy bajos, tales como los
empleados para teleconferencia y otras aplicaciones relacionadas, que
requieren una elevada relación de compresión y gran eficiencia de
codificación.

Vector en Movimiento
Representan la diferencia entre la información del

cuadro de referencia y el macrobloque codificado. Los
vectores de movimiento describen la magnitud y dirección
del movimiento en un macrobloque y se transmiten al
decodificador como parte del caudal binario total, de
forma que el decodificador “sabe” qué área de la imagen
de referencia fue utilizada para cada predicción.
Vector en Movimiento

Técnica de compensación en movimiento

La técnica de compensación del movimiento trabaja sobre pequeñas áreas de la imagen
denominadas macrobloques (16x16), los cuales están compuestos por cuatro bloques. En las
imágenes en movimiento, es habitual que algunas zonas de la imagen se desplacen en un
fotograma con respecto al anterior. El sistema de compensación del movimiento, trata de
buscar el nuevo desplazamiento de los macrobloques, y calcular los vectores de
desplazamiento codificando solamente dichos vectores.
El proceso de predicción comienza por comparar el macrobloque actual con el homólogo del
fotograma anterior, si estos no son iguales, buscará un macrobloque idéntico en la
denominada zona de búsqueda, si lo encuentra codificará los vectores de desplazamiento, y
si no lo encuentra realizará la comparación con el más parecido, codificando la diferencia
entre los dos y los vectores de movimiento. Si la diferencia es mayor que la cifra establecida,
abandonará la búsqueda presumiendo que el bloque no se encuentra ya en la imagen, y
codificará el mismo con codificación espacial. Realizado por: Mg. Javier De la Torre
GOP (Group of Pictures) - Imágenes I, P y B
La mayor compresión de los sistemas MPEG-2 no radica

en la DCT y su mayor o menor cuantificación. La mayor
potencia de estos algoritmos MPEG está en tres modos
de compresión de las imágenes. Estos modos de
compresión dan lugar a lo que llamamos imágenes I,
imágenes P e imágenes B.

Imágenes “I” (intracuadro)

Las imágenes I son imágenes que utilizan sólo compresión intracuadro.
Cada cuadro I es comprimido y procesado de forma independiente de los
demás, y contiene por sí solo toda la información necesaria para su
reconstrucción. Las imágenes I son las que más información contienen, y
por tanto las que menos compresión aportan.
Las imágenes I, siempre inician una secuencia y sirven de referencia a las

imágenes P y B siguientes. En secuencias largas, es necesario disponer de
imágenes I intercaladas, ya que facilitan el acceso aleatorio a un cuadro
dentro de la secuencia.
Imágenes “P” (predicción)
Las imágenes P se generan a partir de la imagen I o P anterior

más próxima. El codificador compara la imagen actual con la
anterior I o P, y codifica únicamente los vectores de
movimiento y el error de predicción. Se utiliza en este caso
una predicción hacia adelante. Estas aportan un grado
importante de compresión.

Imágenes “B” (bidireccionales)
Por último las imágenes B (Bidireccionales) se generan a

partir de imágenes previa y futura de los tipos I o P. Mientras
que las imágenes I y P pueden propagar errores, ya que de
ellas dependen otras, las imágenes B no lo hacen, ya que no
intervienen en otras predicciones posteriores.



La codificación de la compensación de movimiento en los cuadros B puede hacerse
utilizando imágenes de referencia tanto previas como futuras y puede dar lugar a cuatro
posibles tipos de codificación:
a) Intracuadro.- en que no se tiene compensación de movimiento.

b) Predicción hacia adelante.- en que el cuadro previo I o P más cercano sirve de referencia.
c) Predicción hacia atrás.- en que el cuadro futuro I o P más cercano sirve de referencia.
d) Predicción bidireccional.- en la que se usan dos imágenes de referencia, la previa I o P
más próxima y la futura I o P también más próxima.
La predicción hacia atrás puede emplearse para definir áreas cubiertas que no aparezcan en
imágenes previas.
Fundamentos y estándares de
compresión de audio
Compresión de audio
Compresión de voz: Se ha realizado desde hace bastantes años, sobre todo para aplicaciones en comunicaciones
telefónicas (300-3400 Hz) y el modelo psicoacústico se basó más en las características del tracto vocal humano que en las
características perceptuales, es decir, las propiedades del sistema auditivo.
Compresión de audio genérico: El objetivo es la compresión de audio de “alta fidelidad”, en principio con un ancho de
banda de 20 Hz a 20 kHz. El primer estándar internacional fue MPEG (Motion Picture Experts Group) El modelo
psicoacústico se basa principalmente en las características perceptuales del sistema auditivo humano.
El audio no posee redundancia espacial y la redundancia temporal es pequeña, de modo que aquí se explotan mucho más
características perceptuales del sistema auditivo humano

En la compresión de vídeo se aprovecha la redundancia espacial y temporal de

las imágenes así como las características perceptuales de la visión.
El audio no posee redundancia espacial y la redundancia temporal es pequeña,

de modo que aquí se explotan mucho más características perceptuales del
sistema auditivo humano.
Las técnicas de codificación consiguen la compresión utilizando tanto las

características propias de la señal de audio como las “debilidades”
perceptuales de modo que cualquier distorsión que introduzca el codificador
resulte irrelevante desde el punto de vista de la calidad subjetiva de la señal
reproducida
Debilidades del oído aprovechables para compresión:
• Resolución dependiente de la frecuencia.- El oído no es capaz de discernir

diferencias pequeñas en frecuencia dentro de las bandas críticas.
• Enmascaramiento auditivo.- Cuando dos señales de frecuencias cercanas están
ambas presentes, la más intensa enmascara a la menos intensa. Una señal
enmascarada debe ser más intensa que cierto umbral de ruido para que pueda
percibirse. Esto hace posible introducir ruido de cuantificación inaudible.
Los principales estándares de compresión son MPEG y Dolby AC3.
En MPEG se define el decodificador, o más bien los parámetros del flujo binario a
decodificar. El codificador no se define, pero debe cumplir con producir un flujo
binario válido. Realizado por: Mg. Javier De la Torre
Compresión de audio MPEG

Define tres modos o capas:
 Capa I: Computacionalmente la más barata a tasas binarias > 128
kbps.
 Capa II: Usada en CD a tasas del orden de 128 kbps
 Capa III: Más compleja que las dos primeras a una tasa binaria de
64 kbps. Es la que proporciona mayor compresión y se
corresponde con MP3.
 Tendencia actualmente empieza a crecer el uso de AAC
(Advanced Audio Coding) incorporado en el estándard H.264 y
MPEG-4 Parte 10 (AVC) Realizado por: Mg. Javier De la Torre
Principales formatos de compresión de audio en uso:

WAV: Formato sin compresión. Prácticamente es PCM. Usado en
computadoras. No es compatible directamente con CD de audio y es necesario
convertirlo.
CD de Audio: El formato está definido en el Libro Rojo de audio. Es
básicamente PCM sin compresión.
MPEG Capa 1: Es el más simple y se usa principalmente en videoconferencia
para lo que utiliza cuadros de 384 muestras de modo que el retardo no es
apreciable. (380 kb/s)
MPEG Capa 2: Complejidad intermedia. Utilizado en TV digital. (aprox. 190
kb/s). Decodificación relativamente fácil.
MPEG Capa 3 (no exactamente MP3): Proporciona la máxima compresión a
64 kb/s (monoaural) y 128 kb/s (estéreo) Realizado por: Mg. Javier De la Torre
MP3 es la Capa III de MPEG-1:

 Su uso comenzó a aumentar a partir de 1995.
 Winamp es un reproductor de Nullsoft, salió en 1997 y es,
básicamente MP3.
 La difusión amplia de MP3 produjo la violación de derechos de
autor al fomentar la piratería musical (descargas de Internet).
 Frecuencias de muestreo de 16 a 48 kHz.
 Soporta hasta dos canales en modo MPEG-1 y hasta 5 en modo
MPEG-2 Los archivos MP3 tienen formato estándar en cuadros
que pueden tener 384, 576 o 1152 muestras, dependiendo de la
versión y de la capa
ADVANCED AUDIO CODING (AAC)
Dependiendo de su implementación está definido como MPEG-2 Parte 7 y

MPEG-4 Parte 3.
La designación más común es MPEG-4 AAC o simplemente AAC
Mejoras respecto a MP3:

 Más frecuencias de muestreo (8 a 96 kHz).
 Soporta hasta 48 canales.
 Puede manejar tasas binarias fijas o arbitrarias con longitudes variables
de cuadro.
 Mayor eficiencia y banco de filtros más simple basado en MDCT.
 Mayor eficiencia de codificación.
Dolby
Desarrollado en Estados Unidos y basado en codificación perceptual.

Incluye varias versiones con diversa tecnología:
o Dolby Digital
o Dolby Digital EX
o Dolby Digital Live
o Dolby Digital Surround EX
o Dolby Digital Plus
o Dolby TrueHD
GRACIAS

Semana No.2 - Estandar de Comprensión Video y Audio PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Semana No.2 - Estandar de Comprensión Video y Audio PDF

Cargado por

Copyright:

Formatos disponibles

Televisión Digital

Fundamentos y estándares de la compresión de video

José Javier De la Torre

Modalidad de estudios semipresencial

Identificar las características técnicas de los

La necesidad de la compresión en vídeo digital

Jerarquía de Datos de video digital

Realizado por: Mg. Javier De la Torre

Formatos Recomendación ITU-RBT.601

Algunas técnicas de compresión se han conseguido,

 Cada pixel lleva toda la información de luminancia

Realizado por: Mg. Javier De la Torre

• Frecuencia de muestreo f= 13,5 MHz

Realizado por: Mg. Javier De la Torre

Compresión de la señal de video

Definiciones relacionadas con la compresión de video

Realizado por: Mg. Javier De la Torre

• Relación de compresión. Se define como:

• Retardo de codificación. Todo proceso de compresión requiere de un cierto tiempo que,

Realizado por: Mg. Javier De la Torre

Reversibles .- No se pierde información en el proceso de codificación-decodificación. Entre las

Irreversibles.- Se pierde cierta cantidad de información durante la codificación, que no es posible

Compresión basada en la redundancia de información

La principal característica común a todos los sistemas de

Compresión basada en la redundancia de información

Es fácil observar que en una escena televisada la imagen entre dos

Comprensión de redundancia espacial

La redundancia espacial tiene lugar dentro de cada bloque. Ésta, viene

Comprensión de redundancia temporal

La redundancia temporal viene dada por la relación

Un ejemplo de codificación para este caso es la

Métodos de compresión mediante la Transformada discreta coseno (DCT)

Métodos de compresión mediante la Transformada discreta coseno (DCT)

Otro aspecto que hemos de tener en cuenta, es que

Compresión de Video en el contexto del sistema de televisión Digital

Realizado por: Mg. Javier De la Torre

Compresión de Video en el contexto del sistema de televisión Digital

Si observamos detenidamente la distribución de los

Estándares de compresión de video

Estándares de compresión de video

Dependiendo del esquema de modulación utilizado, una señal comprimida con

Características Estándar MPEG

Características Estándar MPEG

Especifica la sintaxis para el almacenamiento y transmisión

Formatos de bloques MPEG-2

Realizado por: Mg. Javier De la Torre

Realizado por: Mg. Javier De la Torre

Representan la diferencia entre la información del

Realizado por: Mg. Javier De la Torre

Técnica de compensación en movimiento

GOP (Group of Pictures) - Imágenes I, P y B

La mayor compresión de los sistemas MPEG-2 no radica

Realizado por: Mg. Javier De la Torre

Imágenes “I” (intracuadro)

Las imágenes I, siempre inician una secuencia y sirven de referencia a las

Imágenes “P” (predicción)

Las imágenes P se generan a partir de la imagen I o P anterior

Realizado por: Mg. Javier De la Torre

Imágenes “B” (bidireccionales)

Por último las imágenes B (Bidireccionales) se generan a

Realizado por: Mg. Javier De la Torre

GOP (Group of Pictures) - Imágenes I, P y B

Realizado por: Mg. Javier De la Torre