Está en la página 1de 68

REPRESENTACION DIGITAL DE LA

INFORMACION
Introduccin:

1. La comunicacin humana es
fundamentalmente audiovisual.

2. Sin embargo, la naturaleza de tal informacin
es analgica al contario de los actuales
sistemas de comunicaciones que son
digitales.
REPRESENTACION DIGITAL DE LA
INFORMACION
Para transmitir seales analgicas se requiere
de un paso previo de conversin de las
mismas seales a un formato digital.

La representacin digital de una seal
requiere de tres procesos independientes:
Muestreo
Cuantificacin
Codificacin
REPRESENTACION DIGITAL DE LA
INFORMACION

El muestreo consiste en una discretizacin
(discriminacin) de la variable independiente
(habitualmente tiempo o espacio) y se
caracteriza por el periodo (o su inverso, la
frecuencia) de muestreo, esto es , el intervalo
temporal o espacial entre dos muestras
consecutivas (en la figura Ts)
REPRESENTACION DIGITAL DE LA
INFORMACION

La cuantificacin es una discretizacin de la
amplitud donde cada muestra slo puede
tomar valores dentro de un conjunto finito
X[n], estos valores son finalmente codificados
en binario (codificacin) dando lugar a una
secuencia digital.
REPRESENTACION DIGITAL DE LA
INFORMACION
La codificacin es un proceso reversible

El muestreo y la cuantificacin producen
prdidas, de modo que, el proceso inverso de
reconstruccin de una seal a partir de su
representacin digital no proporciona una
rplica exacta de la original.
REPRESENTACION DIGITAL DE LA
INFORMACION
REPRESENTACION DIGITAL DE LA
INFORMACION
A saber: la seleccin de la frecuencia de
muestreo est directamente relacionada con
el ancho de banda de la seal.

Por ejemplo, si la mxima frecuencia presente
en Xa(t) es fm, basta con emplear una
frecuencia de muestreo mayor que 2fm
REPRESENTACION DIGITAL DE LA
INFORMACION
En la prctica, tambin entran en juego algunas
consideraciones perceptuales, que son las que
determinan el nmero mnimo de muestras que
han de tomarse para preservar un determinado
nivel de calidad.

Anlogamente, la sensibilidad de los rganos de
los sentidos del ser humano, a variaciones de
intensidad (luminosa o acstica) sirven para
determinar la resolucin que ha de tener el
cuantificador.
REPRESENTACION DIGITAL DE VOZ Y
AUDIO
La representacin digital de seales de voz y
audio consta de dos etapas:

1. Reduccin del Ancho de Banda

2. Digitalizacin (propiamente dicha)
REPRESENTACION DIGITAL DE VOZ Y
AUDIO
La reduccin del Ancho de Banda est ligada a
la aplicacin que se est considerando y
determinar la frecuencia de muestreo
mnima a emplear.
El odo humano, hablando en trminos
promedio, es capaz de percibir el margen de
frecuencias entre 20 Hz y los 20 kHz, no
obstante, las aplicaciones en que la voz es el
nico objeto a codificar, no precisan un ancho
de banda tan amplio.
REPRESENTACION DIGITAL DE VOZ Y
AUDIO
Cuando se trabaja con audio es frecuente
utilizar todo el ancho de banda perceptible .

Se distinguen tres tipos de calidades en
funcin de del ancho de banda:
1. Calidad telefnica.
2. Calidad para voz de banda ancha.
3. Calidad Audio CD.
REPRESENTACION DIGITAL DE VOZ Y
AUDIO
Calidad Telefnica: se entiende por ancho de
banda telefnico el comprendido entre 300 Hz y 4
kHz, este ancho de banda permite que los
interlocutores puedan mantener una
comunicacin sin prdida alguna de inteligibilidad.
No obstante, todos hemos apreciado alguna vez
que la seal de voz suena distinta, menos natural,
la primera vez que hablamos por telfono con una
persona determinada, no somos capaces de
identificarla por su voz.
REPRESENTACION DIGITAL DE VOZ Y
AUDIO
Calidad de Voz de Banda Ancha: el ancho de
banda considerado en este caso es el
comprendido entre 50 Hz y 7 kHz.
Se utiliza en aplicaciones como: video
conferencia la cual exige una calidad mayor
que la de telefona, el mensaje no slo debe
ser inteligible, sino tambin natural.
REPRESENTACION DIGITAL DE VOZ Y
AUDIO
Calidad Audio CD: el rango de frecuencias se
extiende en este caso al espectro auditivo
completo, desde los 20 Hz hasta los 20 kHz.

Las aplicaciones se centran en seales
musicales, en cuyo caso se exigen codificar
dos canales, si se trata de sonido estreo, o
ms, si es sonido multicanal.
REPRESENTACION DIGITAL DE VOZ Y
AUDIO
Como se menciono anteriormente, el ancho de
banda determina la frecuencia de muestreo,
por lo que, es habitual muestrear:

1. La voz telefnica a 8 kHz.
2. La voz de banda ancha a 16 kHz.
3. El audio a 44.1 48 kHz.

REPRESENTACION DIGITAL DE VOZ Y
AUDIO
En cuanto a la resolucin del cuantificador, son
consideraciones perceptuales las que determinan el
nmero de bits por muestra, tpicamente se emplean:

1. 12 Bits para voz telefnica.

2. 16 Bits para voz de banda ancha y audio (en el caso
del audio sera necesario llegar a los 20 Bits por
muestra para conseguir la transparencia total)
CAPTACION Y REPRESENTACION DE
IMGENES Y SECUENCIAS DE VIDEO

Una imagen digital monocromtica suele
representarse como un arreglo bidimensional
X(m,n) donde m y n son nmeros enteros.

El primero indica la coordenada horizontal y el
segundo la coordenada vertical.
CAPTACION Y REPRESENTACION DE
IMGENES Y SECUENCIAS DE VIDEO
Cada punto de la imagen se denomina pixel, y
su valor indica la cantidad de energa luminosa
que incide sobre la lente del sistema de
captacin procedente de una direccin
determinada, durante un tiempo de
exposicin a esta radiacin.
Ejemplos:
1. Cmara digital para imagen para video
2. Cmara digital fotogrfica

CAPTACION Y REPRESENTACION DE
IMGENES Y SECUENCIAS DE VIDEO
En imgenes policromticas, el sistema de
captacin consta de varios sensores, cada uno
de ellos sensible a una banda diferente del
espectro electromagntico.
Por ejemplo: la imagen fotogrfica
convencional se compone de tres bandas del
espectro visible con longitudes de onda entre
400 y 700 nanmetros (1 nm = 10
-9
metros)
CAPTACION Y REPRESENTACION DE
IMGENES Y SECUENCIAS DE VIDEO
Estas estn centradas en 435, 546 y 700 nm
que el ojo humano percibe como verde, azul y
rojo respectivamente.
De esta forma, el sistema fotogrfico imita al
sistema visual humano, el cual dispone de tres
tipos de clulas fotosensibles (llamadas conos)
cada una de ellas sintonizada con una de estos
tres colores.
CAPTACION Y REPRESENTACION DE
IMAGENES Y SECUENCIAS DE VIDEO
El ojo humano construye la sensacin de color
combinando la respuesta de los tres tipos de
conos.

Como consecuencia de lo anterior, cada pixel
de una imagen en color puede representarse
como un vector de tres componentes (R,G,B)
CAPTACION Y REPRESENTACION DE
IMGENES Y SECUENCIAS DE VIDEO
Existen otras representaciones alternativas
equivalentes.

Por ejemplo: el modelo HSI que consta de tres
componentes:

1. H- Hue = Matiz
2. S - Saturation = Saturacin
3. I Intensity = Intensidad
CAPTACION Y REPRESENTACION DE
IMGENES Y SECUENCIAS DE VIDEO

El matiz (Hue) proporciona informacin sobre
el color dominante.
La saturacin (Saturation) indica la impureza
del color, medida como grado de mezcla con el
blanco.
La intensidad (Intensity) de color, medida como
el promedio de las componentes R, G y B.
CAPTACION Y REPRESENTACION DE
IMGENES Y SECUENCIAS DE VIDEO
Es posible obtener las componentes HSI de un
vector de color a partir de las componentes
RGB y viceversa.

La utilidad de una u otra depende de la
aplicacin.
CAPTACION Y REPRESENTACION DE
IMGENES Y SECUENCIAS DE VIDEO
Otro aspecto importante de la imagen digital
es su resolucin cromtica.
El proceso de digitalizacin obliga a cuantificar
el valor de cada componente de color.
Por ejemplo:
Si a una misma imagen la cuantificamos a una
tasa de bits de 6, 3 y 2, el efecto de cuantificar
la intensidad de cada pixel proporciona
diferentes niveles de grises.
CAPTACION Y REPRESENTACION DE
IMGENES Y SECUENCIAS DE VIDEO
De lo anterior tendramos que para 2
6
= 64, 2
3

= 8 y 2
2
= 4. Los cuales representaran los
diferentes niveles de grises.

Se observa que menos de 6 bits son
insuficientes, y hacen que cambios graduales
de intensidad se vean como escalonados en
una imagen.

CAPTACION Y REPRESENTACION DE
IMGENES Y SECUENCIAS DE VIDEO
CAPTACION Y REPRESENTACION DE
IMGENES Y SECUENCIAS DE VIDEO
Las imgenes monocromticas suelen
representarse con un mnimo de 8 bits, esto es
2
8
= 256 niveles de grises, suficientes para la
sensibilidad del ojo humano a variaciones
espaciales de intensidad.
Un ejemplo seria la radio grafa digital, la cual
puede requerir de una mayor precisin, suele
utilizar 12 bits (2
12
= 4096 niveles de gris)
CAPTACION Y REPRESENTACION DE
IMGENES Y SECUENCIAS DE VIDEO
Otro aspecto es la resolucin espacial del ojo
humano la cual es limitada, y depende de la
densidad de clulas fotorreceptoras en el ojo.

Est es mxima en la direccin ortogonal
(ngulo recto) al centro del campo visual, y
disminuye en visin lateral.

CAPTACION Y REPRESENTACION DE
IMGENES Y SECUENCIAS DE VIDEO
En secuencias de video, la resolucin temporal
del ojo humano es el parmetro ms relevante

Experimentos demuestran que el ojo humano
realiza alguna forma de filtrado temporal de la
imagen, es decir reconstruye la informacin
perdida durante la ausencia de luz a partir de
lo percibido durante periodos luminosos
CAPTACION Y REPRESENTACION DE
IMGENES Y SECUENCIAS DE VIDEO

Este procesado es el fundamento de la imagen
cinematogrfica y la televisin. Sobre un
fondo oscuro, la frecuencia a la que el ojo
reconoce un punto parpadeante como
continuo se llama frecuencia de fusin.
PROCESADO DE VOZ
La comunicacin hablada constituye el sistema ms
bsico y natural de comunicacin humana. La
telefona analgica fue el primer gran paso hacia la
telecomunicacin hablada.
Posteriormente vino la telefona digital, que
requiere la representacin digital de la seal de
voz, o su codificacin.
Con la llegada de la telefona mvil digital y las
comunicaciones multimedia, se han desarrollado
esquemas de codificacin mucho ms eficientes
PROCESADO DE VOZ
Uno de los retos de la tecnologa actual es
conseguir la interaccin entre el hombre y la
mquina por medio de interfaces.

Conseguir una comunicacin hombre-
maquina hablada, implica integrar en un nico
sistema muchas disciplinas distintas como:
PROCESADO DE VOZ
Tcnicas de reconocimiento del habla
Tcnicas de sntesis de voz
Tcnicas especficas de dilogo (lenguaje
natural e inteligencia artificial)
En la actualidad los sistemas que integran
comunicacin hombre-mquina no incluyen
todas las tcnicas enumeradas entre sus
mtodos de acceso.
PROCESADO DE VOZ
Ejemplos:
Un sistema de dictado nicamente debe
reconocer las palabras pronunciadas
Un sistema de lectura automtica slo precisa
un conversor texto-voz
Un sistema de consulta por telfono debe
incluir un sistema de reconocimiento (un
sistema de sntesis y un sistema de dilogo)
PROCESADO DE VOZ

La voz tambin puede emplearse como
elemento de identificacin personal, en este
sentido se plantean dos problemas diferentes:
identificacin y verificacin de locutores.
MODELO DE PRODUCCION DE HABLA
El mecanismo de produccin del habla es muy
complejo pero, en el mbito ingenieril, se modela
mediante un sistema simple.

El proceso para generar los sonidos empieza a
partir de un flujo de aire expelido por los
pulmones que pasan por la trquea y la glotis
para llegar al tracto vocal (as se denomina a la
cavidad que comienza en la glotis y termina en
los labios o los orificios nasales)
MODELO DE PRODUCCION DE HABLA

El tracto vocal est formado por: la cavidad
bucal y la cavidad nasal.

La cavidad bucal acta como un tubo acstico
en el que las variaciones en la posicin de la
lengua, paladar, dientes y labios dan lugar a
frecuencias de resonancia distintas, y por lo
tanto a la generacin de sonidos diferentes.
MODELO DE PRODUCCION DE HABLA
En la glotis estn situadas las cuerdas vocales
que, dependiendo del sonido a producir,
vibran o no vibran.
As los fonemas se pueden clasificar en:

Sonoros, cuando durante su produccin vibran
las cuerdas vocales (como ocurre en
cualquiera de las vocales)
MODELO DE PRODUCCION DE HABLA
Sordos, cuando las cuerdas vocales no vibran, este
es el caso, por ejemplo de los sonidos /s/ o /f/.
Si se visualiza la la seal elctrica recogida por un
micrfono, se observara que los tramos sonoros
se caracterizan por mostrar una cierta
periodicidad debido a que las cuerdas vocales
modulan el aire dejndolo pasar en forma de
impulsos, mientras que la seal en los tramos
sordos parece mucho ms errtica, ya que el aire
pasa directamente de los pulmones al tracto vocal
MODELO DE PRODUCCION DE HABLA
La frecuencia de vibracin de las cuerdas
vocales se denomina frecuencia fundamental
(tambin se conoce como tono)

La posicin relativa de todos los elementos del
tracto vocal determina sus frecuencias de
resonancia, que varan segn el sonido que se
este articulando.
MODELO DE PRODUCCION DE HABLA
As la onda modulada por el tracto vocal
presenta una concentracin de energa
alrededor de estas frecuencias conocidas
como formantes

Los formantes se caracterizan por su
frecuencia, amplitud y ancho de banda.
MODELO DE PRODUCCION DE HABLA
MODELO DE PRODUCCION DE HABLA
En la siguiente figura se puede observar, como
se consideran independientes:
La fuente de sonido
Y la articulacin del mismo
Donde la fuente de sonido puede ser un tren
de impulsos separados del periodo
fundamental para sonidos sonoros.
O ruido blanco en el caso de sonidos sordos,
ejemplos: /s/ o /f/

MODELO DE PRODUCCION DE HABLA
CODIFICACION DE VOZ
Su finalidad es transmitir o almacenar
digitalmente la seal de voz de forma
eficiente.
En el primer caso el objetivo es reducir en lo
posible el ancho de banda de transmisin, al
mismo tiempo que se conserva una
determinada calidad.
CODIFICACION DE VOZ
En el segundo caso se trata de mantener el
nivel deseado de calidad con la menor
ocupacin de memoria.
Por ejemplo: la seal de voz de ancho de
banda telefnico puede digitalizarse, sin
perdida de calidad si se emplea una frecuencia
de muestreo de 8 KHz y una cuantificacin de
12 bits por muestra, lo que genera un rgimen
binario de 96 Kb/s (8 X 12)
CODIFICACION DE VOZ
FUNDAMENTOS
La seal de voz presenta dos caractersticas
fundamentales: redundancia y estacionariedad
La eliminacin de esta redundancia y el empleo
de tcnicas adaptivas o variantes con el tiempo
para tratar la no estacionariedad constituyen
las bases de la codificacin de voz.

CODIFICACION DE VOZ
FUNDAMENTOS

El enmascaramiento del ruido (cuantificacin)
es otra de las tcnicas habitualmente
empleadas, con el fin de que la degradacin
que introduce el proceso de codificacin sea
lo menos perceptible posible.
Las caractersticas del codificador ideal son:
bajo rgimen binario, alta calidad percibida,
bajo retardo y complejidad reducida.
CODIFICACION DE VOZ
FUNDAMENTOS
Los mtodos de codificacin de voz van desde
los sistemas clsicos de muestreo y
cuantificacin, hasta los ms sofisticados.
Los mtodos de codificacin se clasifican en
tres grandes grupos:
Codificadores de forma de onda
Vocoders
Codificadores de anlisis por sntesis
CODIFICADORES DE VOZ
FUNDAMENTOS
Codificadores de forma de onda: objetivo
preservar la forma de onda y generalmente
funcionan muestra a muestra. Son de muy
bajo costo computacional y muy bajo retardo,
proporcionan una calidad excelente, requieren
de regmenes binarios elevados, 32 Kb/s (si se
reduce la tasa de transmisin por debajo de
24 Kb/s, su calidad se reduce)
CODIFICACION DE VOZ
FUNDAMENTOS
Vocoders: su objetivo no es preservar la forma
de onda de la seal de voz, sino las
caractersticas perceptualmente relevantes de
sta, sumen el modelo de produccin de voz
de los codificadores de forma de onda. Los
vocoders operan a velocidades binarias de 2.4
Kb/s, con retardo y costo computacional
moderado, como consecuencia de esto la voz
codificada pierde naturalidad.
CODIFICACION DE VOZ
FUNDAMENTOS
Codificadores de anlisis por sntesis: cubren
un rango de velocidades intermedio,
incorporando para ello los conceptos, de los
codificadores de forma de onda y los
vocoders, operan entre 4 y 16 Kb/s. A este
grupo pertenece la ltima generacin de
codificadores de voz, que se clasifica en:
Multi-Pulso (MP)
Excitacin por Cdigo (CELP)
CODIFICACION DE VOZ
ESTANDARES DE CODIFICACION DE VOZ PARA
TELEFONIA Y COMUNICACIONES MULTIMEDIA
En telefona bsica se emplean habitualmente
codificadores de forma de onda, en particular:
ITU-T G.711: PCM (Pulse Code Modulation)-
ley o PCM-ley A, a 64 Kb/s
ITU-T G.726: ADPCM (PCM diferencial y
adaptivo) a 16, 24, 32 40 Kb/s (esta
recomendacin agrupa a las anteriores G.721,
a 32 Kb/s, y G.723, a 24 y 40 Kb/s)
CODIFICACIONDE VOZ
ESTANDARES DE CODIFICACION DE VOZ PARA
TELEFONIA Y COMUNICACIONES MULTIMEDIA
ITU-T G.728 un codificador tipo CELP a 16 Kb/s
(proporciona calidad telefnica e introduce un
retardo menor de 2 ms)
En telefona mvil digital, los esquemas tipo
CELP son los preponderantes.
Hablando de regmenes binarios intermedios
algunos ejemplos son:
En Europa, el GSM half-rate a 5.6 Kb/s o
Enhanced full-rate 12.2 Kb/s.
En Norteamrica, el TIA (Telecommunication
Industry Association) VSELP (variante del
CELP) a 8 Kb/s, o el QCELP a 8.5 Kb/s
(codificador de tasa variable tipo CELP
desarrollado por Qualcom)
En Japn, el JDC (Japanese Digital Cellular)
half rate a 3.45 Kb/s o el JDC full rate a 6.7
Kbps.
CODIFICACIONDE VOZ
ESTANDARES DE CODIFICACION DE VOZ PARA
TELEFONIA Y COMUNICACIONES MULTIMEDIA
CODIFICACIONDE VOZ
ESTANDARES DE CODIFICACION DE VOZ PARA
TELEFONIA Y COMUNICACIONES MULTIMEDIA
En aplicaciones Multimedia habitualmente se emplean
regmenes binarios medios y bajos
ITU-T G.727, conocido como Embedded ADPCM, y
consiste en una extensin del G.726 especialmente
diseada para la transmisin de voz por redes de
paquetes. Su caracterstica principal es su escalabilidad
en caso de congestin, un nodo intermedio puede
reducir la precisin con que se cuantifica cada muestra
desde 5 bits (40 Kb/s) a 4 (32 Kb/s), 3 (24 Kb/s), 2 (16
Kb/s) y el decodificador ser capaz de reconstruir la
seal de voz con la calidad correspondiente
CODIFICACIONDE VOZ
ESTANDARES DE CODIFICACION DE VOZ PARA
TELEFONIA Y COMUNICACIONES MULTIMEDIA
Cuando la aplicacin impone una restriccin
de retardo fuerte y regmenes binarios por
debajo de los 32 Kb/s, existen dos estndares
internacionales, ambos son del tipo CELP, que
proporcionan calidad telefnica:
El ITU-T G.728
El ITU-T G.729 (que opera a 8 Kb/s con un
retardo de 25ms)
CODIFICACIONDE VOZ
ESTANDARES DE CODIFICACION DE VOZ PARA
TELEFONIA Y COMUNICACIONES MULTIMEDIA
El ITU-T G.729 es uno de los dos codificadores
preponderantes en telefona IP y existe una
versin G.729A de complejidad reducida.
La recomendacin ITU-T G.723.1 es la otra
alternativa para telefona IP, inicialmente
diseada para videotelefona de bajo rgimen
binario.
CODIFICACIONDE VOZ
ESTANDARES DE CODIFICACION DE VOZ PARA
TELEFONIA Y COMUNICACIONES MULTIMEDIA
La ITU-T G.723.1 ofrece dos posibles velocidades
de trabajo:
La de 5.3 y 6.3 Kb/s, pudiendo adems conmutar
entre una y otra a nivel de trama, el retardo es de
67.5 ms, y la complejidad se sita entre la de
G.729 y la de G.729A
Existen estndares de codificacin de voz de
banda ancha, entre los cuales, el descrito en la
recomendacin ITU-T G.722 es sin duda el de
mayor implantacin a pesar de ser un codificador
antiguo. (se trata de un ADPCM)
SINTESIS DE VOZ
La sntesis de voz es el proceso por el cual un
sistema produce voz automticamente.
Dentro de esta definicin estn los sistemas
que almacenan frases pregrabadas que son
reproducidas al ejecutar una accin concreta.
En el extremo opuesto se encuentran los
sistemas capaces de leer un texto cualquiera,
lo que se conoce como conversin texto-voz.
SINTESIS DE VOZ
Los sistemas de conversin texto-voz se han
utilizado en aplicaciones de acceso a informacin
en las que precisa pronunciar nmeros de
telfono, nombres o direcciones, o trminos
relacionados.
Un sistema de conversin texto-voz consta de las
siguientes etapas:
Procesado del texto
Conversin a unidades fonticas y patrn
entonativo
Sintetizador
RECONOCIMIENTO DE HABLA
Un sistema de reconocimiento automtico de
habla tiene como objetivo ltimo la comprensin
de un mensaje oral, para alcanzar este objetivo son
necesarias varias etapas:
La decodificacin acstico-fontica para formar
palabras
El anlisis sintctico de la sucesin de las palabras
para formar frases
El anlisis semntico de las frases
El anlisis pragmtico para interpretar el mensaje
RECONOCIMIENTO DE HABLA
En el caso particular de un sistema de dictado,
la mquina debe reconocer todas y cada una
de las palabras pronunciadas y el resultado es
una transcripcin ortogrfica de las palabras
pronunciadas.
Atendiendo al tipo de aplicacin, su diseo
debe considerar los siguientes aspectos:
Sistemas de reconocimiento dependientes del
locutor.
Sistemas independientes del locutor.
RECONOCIMIENTO DE HABLA
Vocabulario.
Estilo de habla.
Entorno de utilizacin.

RECONOCIMIENTO DE HABLA
Los elementos bsicos que componen un
sistema de reconocimiento automtico de habla
son los siguientes:
Anlisis de la seal y seleccin de caractersticas:
tiene como finalidad analizar la seal de voz y
extraer los parmetros necesarios para poder
caracterizarla con suficiente exactitud. Los
parmetros se extraen con una cadencia de
unos 10-20 ms, y contienen informacin de la
seal en el domino de la frecuencia.
RECONOCIMIENTO DE HABLA
Modelo acstico:

También podría gustarte