Codificación de señales multimedia

Codificación de
Señales de Texto,
Voz, Imagen y Vídeo
UPS 1
Codificación de Señales de
Texto, Voz, Imagen y Vídeo
 Codificación de diferentes tipos de

señales
 ¿Cómo se representa el texto en las
computadoras?
 Codificación de onda y de voz
 Codificación de imagen y vídeo
 Estándares de codificación
UPS 2
INTRODUCCIÓN
Rate distortion function
• No es posible reconstruir exactamente la
señal a partir de los valores cuantizados,
esto se llama distorsión.
• Distorsión es la medida de la diferencia

entre los valores reales y los cuantizados.
UPS 3
INTRODUCCIÓN
Cuantización
UPS 4
INTRODUCCIÓN
Cuantización
• Proceso de representación de un número de

valores extenso (posiblemente infinito) con un
número mucho menor de valores.
UPS 5
INTRODUCCIÓN
Cuantización
• La cuantización, es decir, los niveles que

asignamos a los valores muestreados puede
ser de dos formas: escalar o vectorial.
• Ante todo un cuantizador es óptimo cuando

minimiza la distorsión D.
UPS 6
INTRODUCCIÓN
Cuantización
• Cuantización escalar:
La cuantización puede ser en niveles

equidistantes, es decir uniforme; o en
niveles diferentes, es decir no uniforme.
El número de niveles es L = 2R
UPS 7
INTRODUCCIÓN
Cuantización
• Cuantización escalar (uniforme):
UPS 8
INTRODUCCIÓN
Cuantización
• Cuantización escalar (no uniforme):
Puede ser mas pequeño en las zonas donde se

quiera representar con mayor fidelidad la señal,
y mayor donde sea menos importante.
UPS 9
INTRODUCCIÓN
Cuantización
• Cuantización escalar (no uniforme):
UPS 10
INTRODUCCIÓN
Cuantización
• Cuantización vectorial:
En lugar de cuantizar escalares se

cuantiza vectores. Así se alcanza una
mayor eficiencia (bajo bit rate).
UPS 11
Existen formatos para:
Texto
Voz
Imagen
Vídeo
UPS 12
El primer paso es convertir la señal

analógica a formato digital
Representación digital de la señal
UPS 13
Codificación de Señales
Texto
UPS 14
Mensajes de Texto
ASCII:
Código estándar americano para intercambio de
información
Cada carácter se representa con un código de 7 bits
Es el más utilizado en computadoras
Para transmitir mensajes, primero se convierte el texto a este
formato y luego la cadena de bits se convierte en una señal
eléctrica.
El número de símbolos (caracteres)

esta limitado a 128 = 2 7
UPS 15
Mensajes de Texto
ASCII extendido:
Cada carácter se representa con un código de
8 bits
Se pueden representar caracteres gráficos y de control
El número de símbolos (caracteres) está

limitado a 2 8
UPS 16
Mensajes de Texto
ISCII:
Para representar lenguajes de la India
Los caracteres se representan con códigos

de 7 u 8 bits
UPS 17
Mensajes de Texto
EBCDIC:
UPS 18
Mensajes de Texto
Unicode:
Se usa para representar en computadoras
cualquier lenguaje del mundo
Cada carácter se representa con un código de
16 bits
Java y XML soportan unicode
UPS 19
Mensajes de Texto
Unicode y ASCII no son los
mejores mecanismos de
codificación, según Shannon.
Retardo
Recuerde:
Un código es más eficiente cuando asigna palabras

digitales más cortas a los símbolos que más se
producen.
UPS 20
Voz
UPS 21
Voz
La voz se convierte en una señal

eléctrica usando el micrófono
(transductor)
La voz ocupa un ancho de banda de

4 kHz
(en las redes telefónicas se limita a 3.4 kHz)
UPS 22
Voz
Las señales de música tienen un

ancho de banda de 20 kHz
UPS 23
Voz
Pitch es la frecuencia fundamental
de una señal de voz
Voz Masculina: 50 – 250 Hz

Voz Femenina: 200 – 400 Hz
La voz se puede clasificar en

sonidos vocálicos y no vocálicos
UPS 24
Voz
Sonidos vocálicos: a, e, i o u.
Señales periódicas y de gran
amplitud
Sonidos no vocálicos: consonantes

Aparecen como ruido y son de
baja amplitud
UPS 25
Voz
UPS 26
Voz
La señal de voz se considera una
señal no estacionaria
Sus características varían
(pitch y energía)
En porciones de 20 milisegundos
se puede considerar constante
UPS 27
Voz
La conversión analógica / digital
se puede realizar usando:
1.Waveform coding
2.Vocoding
UPS 28
Voz
Waveform coding:
1. PCM: Pulse Code Modulation
2. ADPCM: Adaptive Differential PCM
UPS 29
Voz
PCM: Pulse Code Modulation
La recomendación UIT-T G.711

especifica el algoritmo para
codificación de voz en formato PCM
PCM está basado en el teorema de

Nyquist
UPS 30
Voz
Teorema de Nyquist:
Si una señal se muestrea uniformemente
por lo menos a una frecuencia
correspondiente al doble del
componente de más alta frecuencia, esta
se puede reconstruir sin distorsión.
UPS 31
Voz
Consideraciones para el teorema de Nyquist:
• Se puede muestrear una señal si su ancho de banda es
limitado.
• En la práctica, en los sistemas de transmisión, la tasa de
muestreo debe ser mayor al doble de la frecuencia
máxima a transmitir.
• La reconstrucción de la señal se realiza con un filtro pasa
bajas
UPS 32
Voz
La mayor frecuencia en una señal de voz
es 4 kHz;
Necesitamos muestrear a 8 kHz (8000
muestras por segundo)
Una muestra cada 1/8000 segundos =

125 microsegundos
UPS 33
Voz
Una muestra cada 1/8000 segundos =
125 microsegundos
(Encontramos el valor de amplitud de la
señal cada 125 microsegundos)
Los valores de la muestra aún son
analógicos, y podemos cuantizar esos
valores
UPS 34
Voz
Si el número de niveles de cuantización
es 256, podemos representar cada
muestra con 8 bits.
1 segundo de señal de voz se puede

representar por 8000 x 8 bits = 64 kbits
UPS 35
Voz
Por lo tanto,
para la transmisión de voz usando PCM

se requieren 64 kbps (bit rate)
UPS 36
Voz
Puesto que aproximamos los valores

muestreados a través de cuantización,
habrá distorsión
Ruido por cuantización
UPS 37
Voz
PCM
UPS 38
Voz
UPS 39
Voz
UPS 40
Voz
Se explota la característica no lineal del oído
humano
El oído es más sensible al ruido de

cuantización en las señales de más baja
amplitud
UPS 41
Voz
Se aplica una función de cuantización
logarítmica, así, las señales pequeñas son
cuantizadas con mayor precisión
Codificación no lineal
UPS 42
Voz
Codificación no lineal
• Los niveles de cuantización no están igualmente
espaciados
• Reduce la distorsión de la señal
• Se realiza mediante companding (compresión-

expansión)
UPS 43
Voz: PCM; Codificación no lineal
UPS 44
Voz: PCM; Codificación no lineal
Se aplica una Se usan 2 funciones
función de de cuantización: A-
cuantización law; m-law
logarítmica, así, las
señales pequeñas A-law se usa en
son cuantizadas USA y Japón
con mayor
precisión m-law se usa en
Europa
UPS 45
Voz: Diseño de un sistema PCM
Una señal ocupa de 300 Hz a 3000 Hz y se transmite por un
sistema binario PCM. Cada muestra se representa con 8 bits.
Calcule:
1. La frecuencia de muestreo fs
2. El bit rate de la señal: R
3. La banda mínima de la señal PCM (pulso sinc x): BPCM
4. La banda mínima de la señal PCM (pulso rectangular): BPCM
5. El error pico porcentual: P
6. SNR para cuantización uniforme y factor de carga 10
7. SNR para m = 255 y factor de carga 10
UPS 46
Voz: PCM
La calidad producida por PCM se denomina
“voz de calidad óptima”
(toll quality speech).
La calidad de PCM se toma como

referencia.
UPS 47
Voz: PCM
• Para calidad de CD de audio se

muestrea a 44.1 kHz y cada muestra
se codifica con 16 bits
• Para dos canales estéreo ¿cuántos

Mbps se requieren?
UPS 48
Voz
ADPCM: Modulación por código de
pulso diferencial adaptivo
Se codifica la diferencia entre dos muestras sucesivas

(DPCM: differential PCM)
El valor de una muestra se puede predecir a partir de las

muestras pasadas.
Trata de reproducir la forma de la señal de voz,
aprovechando sus características espectrales y
temporales para codificarla de forma eficiente.
UPS 49
Voz
Codificador de ondas que no cuantifica la señal
directamente como los (PCM)
En el lado de la transmisión, se predice el

valor de una muestra y se encuentra la
diferencia entre el valor estimado y el valor
presente y entonces se envía la diferencia.
UPS 50
Voz
ADPCM:
Las señales de voz se pueden codificar
a 32 kbps sin degradación de la calidad
comparada a PCM.
Cuantificadores Predictores
Adaptar
Feedforward Feedbackward
UPS 51
Voz
ADPCM:
Los niveles de reconstrucción y los
coeficientes de predicción se realizan en
Feedforward
el receptor, se cuantifican y se transmite
como información lateral al receptor
Los niveles de reconstrucción y los

Feedbackward coeficientes de predicción se realizan a
partir de una señal codificada PCM,
(convierte a ADPCM)
UPS 52
Voz
Comprime muestras usando 3 o 4 bits, también puede
reducir en una relación de 4:1, por ejemplo una
señal de audio que esta a 16 bits/s, la reduce a
4bits/s sin reducir la calidad de sonido.
Las señales de voz se pueden codificar a 32 kbps sin

degradación de la calidad comparada a PCM.
UPS 53
Voz
Existen varias técnicas de codificación de
onda:
Ej: Delta Modulation
– La entrada analógica es aproximada a una función
escalera.
– Se mueve un nivel hacia arriba o abajo (d) en cada
intervalo de muestra.
– Comportamiento binario
UPS 54
Voz: Delta Modulation
se puede reducir el
bit rate requerido
a 9.8 kbps.
UPS 55
Voz: Vocoding
Es un método de codificación radicalmente
diferente
Vocoder  voice coder

Utiliza un modelo fuente-filtro
La fuente de excitación consiste de un generador

de pulso y de un generador de ruido
UPS 56
Voz: Vocoding
Fuente Filtro
UPS 57
Voz: Vocoding
La señal de voz se divide en frames de 20
milisegundos de duración
¿por qué
160?
Cada frame contiene 160 muestras
Se analiza si el frame es vocal o no vocal

mediante parámetros de energía, amplitud,
etc.
UPS 58
Voz: Vocoding
Se analiza si el frame es vocal o no vocal
mediante parámetros de energía, amplitud,
etc.
Para frames vocales se determina el pitch
Para cada frame, también se determinan los

coeficientes del filtro
estos parámetros se envían al receptor

UPS 59
Voz: Vocoding
Muchas técnicas se han usado para calcular
los coeficientes del filtro
Linear prediction es la más utilizada
• El data rate se reduce hasta a 1.2 kbps.

• La calidad no es muy buena.
• La voz así generada suena metálica o robótica (voz
sintetizada).
UPS 60
Voz: Vocoding
Linear Prediction
• La muestra de una señal de voz se puede aproximar como
una combinación lineal de las muestras pasadas
• En el lado de la transmisión, la señal de voz se divide en
frames de 20 ms.
• Para cada frame se calculan los coeficientes de predicción
lineal y el pitch.
• Se determina si el frame es vocal o no.
• Estos valores se convierten en code words y se envían.
UPS 61
Voz: Vocoding
Linear Prediction
• En el receptor se usan estos parámetros para

reconstruir la señal de voz.
Variaciones de LPC (Linear Prediction

Codes)se usan en sistemas de comunicación
móvil y telefonía por Internet
UPS 62
Imagen
UPS 63
Imagen
La imagen se divide en rejillas llamadas
píxeles (elementos de cuadro)
• A mayor número de rejillas, mayor resolución
» Ej: 768 x 1024
» Ej: 400 x 600

UPS 64
Imagen
Para cuadros blanco / negro a cada píxel se le
asigna un valor en la escala de grises
Si son 256 niveles de grises, cada píxel está

representado por 8 bits (28=256)
240KB
Así, ?
para representar un cuadro de 400 x 600 píxeles, con
cada píxel de 8 bits, se requieren 234,375 kBytes de
memoria
UPS 65
Imagen
Para representar color, se combinan los
niveles de tres colores, rojo, azul y verde
Si se usan 24 bits por píxel, y se tiene una resolución de

352 x 240 píxeles.
352 x240=84480
Peso de cada pixel 24/8=3Bytes
Para transformarle a kB se divide para 1024
¿Cuántos kB se requieren?
247,5 KB
UPS 66
Imagen
"Colores verdaderos" o "colores reales": esta

representación permite que se represente una imagen al
definir cada componente (RGB, por rojo, verde y azul). Cada
píxel está representado por un conjunto de tres
componentes, cada uno codificado en un byte, es decir, en
total 24 bits (16 millones de colores).
UPS 67
Imagen
• Para calcular el peso (en bytes) de una imagen, es necesario contar el
número de píxeles que contiene esa imagen, que equivale a calcular el
número de celdas de la tabla, es decir, la altura de la tabla multiplicada
por el ancho. Entonces el peso de la imagen equivale al número de
píxeles multiplicado por la altura de cada uno de esos elementos.
• A continuación se indica la fórmula para una imagen de color verdadero
de 640 x 480:
• Cantidad de píxeles:
• 640 x 480 = 307200
• Peso de cada píxel:
• 24 bits / 8 = 3 bytes
• Entonces el peso de la imagen es igual a:
• 307200 x 3 = 921600 bytes 921600 / 1024 = 900 KB
UPS 68
Imagen
A continuación se indican algunos ejemplos (teniendo en cuenta que la imagen no
está comprimida):
Definición de Blanco y negro 256 colores 65000 colores Color

la imagen (1 bit) (8 bits) (16 bits) verdadero
(24 bits)
320 x 200 7,8 KB 62,5 KB 125 KB 187,5 KB
640 x 480 37,5 KB 300 KB 600 KB 900 KB
800 x 600 58,6 KB 468,7 KB 937,5 KB 1,4 MB
1024 x 768 96 KB 768 KB 1,5 MB 2,3 MB
Esto muestra la cantidad de memoria de video que necesita la tarjeta gráfica según la
definición de la pantalla (el número de puntos visualizados)y el número de colores.
Por lo tanto, el ejemplo demuestra que se necesita un cuadro que tenga al menos 4 MB de
memoria de video para lograr una resolución de 1024 x 768 con colores verdaderos.
UPS 69
Imagen
• Para almacenar las imágenes, asi como para
enviarlas, se necesita comprimir la imagen
 La imagen se puede transmitir más rápido
• Uno de los formatos de codificación de imagen

más usado es JPEG
UPS 70
Imagen
Para la compresión, la imagen se divide en
bloques de 8 x 8 píxeles.
Luego cada bloque se procesa así:
UPS 71
Imagen
Compresión:
1. Se aplica la transformada Coseno discreto y se obtiene una
matriz de 8 x 8 que contiene coeficientes de frecuencia.
Esta matriz de salida representa la imagen en el dominio
de la frecuencia.
2. Se cuantizan los coeficientes obtenidos en el paso 1. La
calidad se degrada levemente.
3. Se convierten los niveles de cuantización en bits.
4. Se consiguen compresiones de 30:1 usando JPEG.

UPS 72
Imagen
La compresión de imágenes JPEG (Joint
Photographic Experts Group) se usa mucho en
el desarrollo de páginas Web
Así, las imágenes

JPEG ocupan menos
espacio y se pueden
descargar más
rápidamente
UPS 73
Imagen original Tamaño: 200x131 píxeles Tamaño: 100x66 píxeles
Tamaño: 50x33 píxeles
UPS 74
Vídeo
UPS 75
Vídeo
Una señal de vídeo ocupa un ancho de
banda de 5 MHz
• Se requiere muestrear a 10 MHz
10 000 000 muestras por segundo
10 muestras por microsegundo
• Si se usa PCM de 8 bits, se requieren 80 Mbps

Este es un data rate muy alto.
UPS 76
Imagen
• Video encoding es una extensión de image
encoding.
• Varias imágenes (de 16 a 30), se
transmiten por segundo
• El data rate será el número de imágenes
multiplicado por el data rate de una
imagen (frame)
UPS 77
Imagen
Varias imágenes
(de 16 a 30), se
transmiten por
segundo
Se consiguen data
rates de 64 kbps. El
vídeo tendrá
muchos saltos. La
calidad no es muy
buena.
UPS 78
Imagen
Moving Pictures Experts Group
(MPEG) ha propuesto algunos
estándares.
MPEG-2:
– Para vídeo-difusión digital
– 3 y 7.5 Mbps
– Calidad mucho mejor que TV analógica
UPS 79
Imagen
MPEG-4:
• Para codificación, creación y distribución de
contenido audio-visual
• Soporta un amplio rango de data rates
• Representación de contenido audio visual
• MP3 es el estándar para distribución de
música a 128 kbps data rate, el cual es parte
de los estándares MPEG-4.
UPS 80
Imagen
Para vídeo conferencia se
usan data rates de 384
kbps y 2,048 Mbps para
obtener mejor calidad que
a 64 kbps.
• MPEG-4 se usa en comunicación
móvil para soportar vídeo conferencia
en movimiento. También se usa para
vídeo conferencia en Internet.
UPS 81
Imagen
HDTV:
1920 x 1250 píxeles
25 frames/s
960 Mbps sin compresión
20 a 40 Mbps con compresión

HDTV y Full HDTV dominó desde inicios del 2010
UPS 82
• ¿Cuáles son los estándares para codificación de mensajes de texto?
• ASCII, ISCII, EBCDIC, UNICODE
• ¿Qué es la codificación de la forma de onda?
• Es tomar a la señal eléctrica continua (analógica) que proviene del conversor, hacerle
un tratamiento para transmitir y recibir la información con un mínimo de distorsión,
para ello se emplea dos técnicas.
• Explique el PCM y ADPCM
• PCM (Modulación por código de pulsos), es tomar la señal eléctrica continua (análoga),
muestrearle cada 125 us (PAM), para frecuencias de 8KHz, cuantizar esta señal la cual
se discretiza (ruido por cuantización) en formatos de 8 bits (256 niveles), pasar a code
words y transmitir, mediante un modulador, en PCM se requieren 64 kbs de data rate.
• ADPCM (Modulación por código de pulsos diferencial adaptativo), es tomar
generalmente la señal discretizada de PCM, hacer la diferencia de valores presentes y
valores estimados (muestreo anterior), y se envía, esto hace que la señal discretizada
se represente en formatos de 4 bits y se requieran solo 32 kbs de data rate.
• ¿Qué es un Vocoder? Describa el modelo de producción de voz
• Es una técnica que diferencia de la señal analógica cuales son vocales (mediante pitch)
y cuales son consonantes o no vocálicos (mediante el ruido, filtros), en frame de 20
ms(160muestras), para ello se requieren de fuentes generadoras de impulsos y de
ruido, en el caso de los vocálicos se calcula el Pitch, y en el caso de los no vocálicos se
calcula los coeficientes de filtro, estos parámetros se deben enviar al receptor.
• Explique la técnica de codificación LPC
• El data rate se reduce hasta a 1.2 kbps.
• Es una combinación lineal de muestras pasadas.
• La calidad no es muy buena.
• La voz así generada suena metálica o robótica (voz sintetizada).
UPS 83
• Explique la técnica de compresión JPEG
 Se aplica la transformada Coseno discreto y se obtiene una matriz de
8 x 8 que contiene coeficientes de frecuencia. Esta matriz de salida
representa la imagen en el dominio de la frecuencia.
 Se cuantizan los coeficientes obtenidos en el paso 1. La calidad se
degrada levemente.
 Se convierten los niveles de cuantización en bits.
 Se consiguen compresiones de 30:1 usando JPEG.
• ¿Cuáles son las características principales de MPEG-4?

 Para codificación, creación y distribución de contenido audio-visual
 Soporta un amplio rango de data rates
 Representación de contenido audio visual
 MP3 es el estándar para distribución de música a 128 kbps data rate,
el cual es parte de los estándares MPEG-4.
UPS 84

Codificación de señales multimedia

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Codificación de señales multimedia

Cargado por

Copyright:

Formatos disponibles

Codificación de

 Codificación de diferentes tipos de

• Distorsión es la medida de la diferencia

• Proceso de representación de un número de

• La cuantización, es decir, los niveles que

• Ante todo un cuantizador es óptimo cuando

La cuantización puede ser en niveles

• Cuantización escalar (uniforme):

• Cuantización escalar (no uniforme):

Puede ser mas pequeño en las zonas donde se

• Cuantización escalar (no uniforme):

En lugar de cuantizar escalares se

El primer paso es convertir la señal

Representación digital de la señal

El número de símbolos (caracteres)

El número de símbolos (caracteres) está

Para representar lenguajes de la India

Los caracteres se representan con códigos

Un código es más eficiente cuando asigna palabras

La voz se convierte en una señal

La voz ocupa un ancho de banda de

Las señales de música tienen un

Voz Masculina: 50 – 250 Hz

La voz se puede clasificar en

Sonidos no vocálicos: consonantes

1. PCM: Pulse Code Modulation

2. ADPCM: Adaptive Differential PCM

La recomendación UIT-T G.711

PCM está basado en el teorema de

Una muestra cada 1/8000 segundos =

1 segundo de señal de voz se puede

para la transmisión de voz usando PCM

Puesto que aproximamos los valores

Ruido por cuantización

El oído es más sensible al ruido de

• Reduce la distorsión de la señal

• Se realiza mediante companding (compresión-

La calidad de PCM se toma como

• Para calidad de CD de audio se

• Para dos canales estéreo ¿cuántos

Se codifica la diferencia entre dos muestras sucesivas

El valor de una muestra se puede predecir a partir de las

En el lado de la transmisión, se predice el

Los niveles de reconstrucción y los

Las señales de voz se pueden codificar a 32 kbps sin

Vocoder  voice coder

La fuente de excitación consiste de un generador

Cada frame contiene 160 muestras

Se analiza si el frame es vocal o no vocal

Para frames vocales se determina el pitch

Para cada frame, también se determinan los

estos parámetros se envían al receptor

Linear prediction es la más utilizada

• El data rate se reduce hasta a 1.2 kbps.

• En el receptor se usan estos parámetros para

Variaciones de LPC (Linear Prediction

• A mayor número de rejillas, mayor resolución

» Ej: 768 x 1024

» Ej: 400 x 600

Si son 256 niveles de grises, cada píxel está

Si se usan 24 bits por píxel, y se tiene una resolución de

"Colores verdaderos" o "colores reales": esta