Codificador de Voz

UNIVERSIDAD DE PAMPLONA
FACULTAD DE INGENIERAS Y ARQUITECTURA

DEPARTAMENTO DE INGENIERA ELCTRICA ELECTRNICA
SISTEMAS Y TELECOMUNICACIONES
INGENIERA ELECTRNICA
TRABAJO DE GRADO PARA

OPTAR AL TITULO DE INGENIERO EN ELECTRNICA
TITULO: DISEO E IMPLEMENTACIN SOFTWARE DE UN

CODIFICADOR DE VOZ CELP UTILIZANDO LA HERRAMIENTA
COMPUTACIONAL MATLAB: CALCULO DE LA EXCITACIN
AUTOR: REYNALDO CRDENAS JORGE
PAMPLONA-COLOMBIA
NOVIEMBRE DE 2006


AUTOR: REYNALDO CRDENAS JORGE
DIRECTOR: PhD. (c) DIEGO FERNEY GMEZ CAJAS
DIRECTOR DE PROGRAMA: Ing. CESAR AUGUSTO RANGEL
PAMPLONA-COLOMBIA
NOVIEMBRE DE 2006


NOMBRES Y FIRMAS DE AUTORIZACIN PARA SUSTENTAR:
---------------------------------------------REYNALDO CRDENAS
-------------------------------------------------PhD. (c) DIEGO FERNEY GMEZ
JORGE
CAJAS
Autor del trabajo de grado
Director del trabajo de grado
-------------------------------------------------------------Ing. CESAR AUGUSTO RANGEL VERA
Director de programa
JURADO CALIFICADOR
---------------------------------------------Ing. ADRIN CARVAJAL
-- --------------------------------------------MSc.(c) WALTER GASTELBONDO
FERRER
BARRAGAN
Presidente
Oponente
--------------------------------------------MSc. (c) JOS DEL CARMEN PEA
Secretario
PAMPLONA-COLOMBIA
NOVIEMBRE DE 2006
DEDICATORIA
Este proyecto va dedicado a Dios, a mi papa Cristbal Crdenas Mendoza, a
mi madre Emilse del Socorro Jorge Arrieta; a mis hermanos, Mauricio Jos,
Mara Anglica; a mi sobrino Reyden Daniel Crdenas Jorge y a todas
aquellas personas que ayudaron a crear en mi un espritu de lucha y
fortaleza, a mis amigos que me colaboraron a que este
efectuara.
proyecto se
PENSAMIENTO
El seor es mi pastor, nada me falta:
En verdes praderas me hace reposar, me conduce hacia las aguas del

remanso y me conforta mi alma; me gua por los sendero de justicia, por
amor a su nombre; aunque vaya por un valle tenebroso, no tengo miedo a
nada, porque tu ests conmigo, tu voz y tu callado me sostienen.
Me preparas una mesa ante mis enemigos, perfumas con ungento mi

cabeza y me llenas la copa a rebozar.
Lealtad y dicha me acompaan todos los das de mi vida; habitar la casa del
seor por siempre jams.
Salmo
AGRADECIMIENTOS
En primer lugar, agradezco a Dios por las bendiciones que me ha dado y por
permitirme culminar esta etapa importante de mi vida, a mi pap Cristbal
Crdenas Mendoza, a mi madre Emilse del Socorro Jorge Arrieta, a mis
hermanos Mauricio Jos, Anglica
Mara, a mi sobrino Reyden Daniel
Crdenas, y a todos mis amigos.
Agradezco a mi director Diego Ferney Gmez Cajas por la colaboracin en

el desarrollo y finalizacin de este proyecto.
Agradezco a mis compaeros que contribuyeron de alguna u otra forma a la

realizacin de este trabajo.
NDICE GENERAL
DEDICATORIA
PENSAMIENTO
AGRADECIMIENTOS
Pag.
RESUMEN Y ABSTRACT
. 13
INTRODUCCIN
.. 16
JUSTIFICACIN
17
DELIMITACIONES
19
CAPITULO I.
EL SONIDO Y SUS CARACTERSTICAS
. 20
El sonido
.. 20
Antecedentes histricos
. 21
Naturaleza del sonido
. 25
CUALIDADES DEL SONIDO
26
Intensidad
. 27
Tono
28
Presin sonora
. 29
Potencia
30
Fenmenos fsicos del sonido
30
Reflexin
31
Refraccin
. 31
Difraccin
. 33
Efecto doppler
. 34
LA VOZ Y SUS CARACTERISTICAS
37
Fonologa y fontica
. 40
Fontica experimental
41
Fontica articulatoria
. 41
ANATOMIA DEL APARATO FONADOR
43
Formantes
45
Clasificacin de los sonidos
.. 49
Oralidad y nasalidad
50
Tonalidad
. 50
Lugar y modo de articulacin
51
Posicin de los rganos articulatorios
. 53
Duracin
54
Unidades fonticas
57
CARACTERISTICAS DE LA VOZ
58
Modelo del tracto voclico
58
ANATOMIA DEL SISTEMA AUDITIVO HUMANO
. 61
El odo
61
El odo externo
62
El odo medio
.. 63
El odo interno
.. 65
Fenmenos asociados al odo
.. 68
Efecto de enmascaramiento
. 69
Capacidad auditiva
. 69
RUIDO Y SUS CARACTERISTICAS
. 72
Ruido externo
.. 73
Ruido industrial
74
Ruido atmosfrico
74
Ruido extraterrestre
75
Ruido interno
... 75
Ruido trmico
.. 76
Ruido de los semiconductores
. 78
Ruido de intermodulacion
.. 78
Ruido blanco o gaussiano
. 79
Ruido de impulso de aguja
80
CAPITULO II.
CODIFICACION DE VOZ
. 81
Definicin de codificacin de voz
81
Historia de los codificadores
... 81
Muestreo y cuantificacin
83
Cuantificacin uniformes
.. 85
Cuantificacin logartmica
89
Cuantificacin no uniforme
89
Cuantificacin vectorial
91
Medida subjetiva de la voz
92.
CLASIFICACION DE LOS CODIFICADORES
.. 91
Codificadores de forma de onda
. 95
Codificadores en el dominio del tiempo
.. 95
Modulacin por codificacin de impulsos
96
Modulacin por codificacin de impulsos diferencial
96
Modulacin delta
98
Modulacin por codificacin de impulsos diferencial adaptativa
99
Codificacin el dominio de la frecuencia

Codificacin perceptual
.. 100
..
Codificacin en subbandas
101
102
Codificacin por transformada
102
Vocoders
105
Vocoder por prediccin lineal
107
Codificadores hbridos
111
Codificacin relp
112
Codificacin mpc
Codificacin celp
112
114
Codificacin vselp
116
Anlisis de predicion lineal
120
Filtro de prediccin de retardo largo
121
Codificadores celp
124
Orgenes del celp
..
127
Estndares
127
Predictor corto
128
Predictor largo
128
Excitacin por cdigo
128
Filtros
129
Filtro FIR
... 130
Fundamentos de diseo
133
Especificaciones de diseo
134
Fundamentos de mtodos de ventaneo
.. 134
Propiedades de las ventanas
135
Filtro IIR
. 140
Capitulo III
CODIFICACIN DE LA VOZ MEDIANTE PREDICCIN LINEAL CON
EXCITACIN
POR
CDIGO
ALGEBRAICO
CONJUGADA ESTANDAR G.729
DE
ESTRUCTURA
.
PRINCIPIOS BSICOS
146
146
10
Prediccin lineal
146
Modelo fuente filtro de la voz
150
Anlisis de prediccin lineal
150
Clculo de la excitacin
.. 152
Predictor de largo plazo
152
Implementacin del codificador CELP
153
Descripcin general del codificador/decodificador
Codificador
.. 155
Decodificador
.. 157
Retardo
154
157
Preprocesamiento
158
Anlisis de la frecuencia fundamental en lazo abierto
. 158
Clculo de la respuesta impulso
. 160
Clculo de la seal objetivo
160
Bsqueda de la tabla de cdigos adaptativos
.. 161
Generacin del vector de tabla de cdigos adaptativos
.. 164
Clculo de palabras de cdigo para retardos de tabla de cdigos

adaptativos
. 164
Clculo de la ganancia de tabla de cdigos adaptativos
.. 165
Tabla de cdigos fijos: estructura y bsqueda
.. 165
Procedimiento de bsqueda de la tabla de cdigos fijos
.. 168
Clculo de palabra de cdigo de la tabla de cdigos fijos
. 168
Cuantificacin de las ganancias
168
Bsqueda de la tabla de cdigos para cuantificacin de la

ganancia
169
Descripcin de las funciones del decodificador
170
Procedimiento de decodificacin de los parmetros
170
Decodificacin de los parmetros de filtro LP
170
Decodificacin del vector de tabla de cdigos adaptativos
171
Decodificacin del vector de tabla de cdigos fijo
172
11
Decodificacin de las ganancias de las tablas de cdigos adaptativos y

Fijos
172
Cdigo en matlab
175
ANALISIS DE CONFIABILIDAD
MARCO ECONOMICO
ANALISIS DE LEGALIDAD
INFLUENCIA AMBIENTAL DEL TRABAJO
RESULTADOS
CONCLUSIONES
RECOMENDACIONES
REFERENCIAS BIBLIOGRAFICAS
ANALISIS BIBLIOGRAFICO
GLOSARIO DE TERMINOS NO CONVENCIONALES
SIMBOLOS NO CONVENCIONALES
ABREVIATURAS UTILIZADAS
ANEXOS
180
181
183
184
185
187
188
189
193
194
196
198
199
12
.
.
..
.
.
..
.....................
.
ndice de Figuras
Nombre
Pg.
FIGURA 1 Intensidad de varios elementos................................................................... 31

FIGURA 2 Reflexin del sonido ..................................................................................... 35
FIGURA 3 Refraccin del sonido................................................................................... 36
FIGURA 4 Difraccin del sonido .................................................................................... 38
FIGURA 5 El efecto Doppler .......................................................................................... 39
FIGURA 6 Corte esquematico del aparato fonador humano ...................................... 48
FIGURA 7 La glotis ......................................................................................................... 48
FIGURA 8 Funcin de rea............................................................................................ 50
FIGURA 9 Formantes de un sonido sonoro.................................................................. 50
FIGURA 10 Formantes de un sonido sordo.................................................................. 51
FIGURA 11 Corte esquematizo de la laringe segn un plano horizontal................... 51
FIGURA 12 Diagrama funcional del aparato fonador .................................................. 52
FIGURA 13 Diagrama funcional del aparato fonador .................................................. 53
FIGURA 14 Zonas del aparato fonador......................................................................... 63
FIGURA 15 El odo.......................................................................................................... 65
FIGURA 16 El Odo externo........................................................................................... 66
FIGURA 17 El Odo medio ............................................................................................. 68
FIGURA 18 El Odo interno............................................................................................ 69
FIGURA 19 Funcionamiento del odo............................................................................ 71
FIGURA 20 Enmascaramiento simultaneo ................................................................... 73
FIGURA 21 Capacidad auditiva de varios animales .................................................... 74
FIGURA 22 Seal continua ............................................................................................ 87
FIGURA 23 Seal discreta ............................................................................................. 88
FIGURA 24 Cuantificacin uniforme.............................................................................. 90
FIGURA 25 Cuantificacin no uniforme ........................................................................ 92
FIGURA 26 Ejemplo de comprensin ........................................................................... 94
FIGURA 27 Ejemplo de comprensin( b)...................................................................... 94
FIGURA 28 Grfico de la ley- para distintos valores de ......................................... 95
FIGURA 29 Calidad de voz vs Velocidad.................................................................... 98
FIGURA 30 Sistema DPCM (a) codificador (b) decodificador....................................101
FIGURA 31Modulacin delta codificador y decodificador ...........................................102
FIGURA 32. Error de sobrependiente ..........................................................................102
FIGURA 33. Codificador/decodificador ADPCM .......................................................103
FIGURA 34. Codificador en sub-bandas....................................................................106
FIGURA 35.Codificador ITU G722 Sub -band.............................................................107
FIGURA 36 .Decodificador ITU G722 Sub band.......................................................108
FIGURA 37.Codificacin por transformada .................................................................109
FIGURA 38.Modelo de produccin de voz.................................................................110
FIGURA 39. Esquema de funcionamiento de Vocoder LPC-10. .............................112
FIGURA 40. Diagrama de bloques del emisor. .........................................................113
FIGURA 41 Diagrama de bloques del Receptor .......................................................114
13
FIGURA 42 Salida del predictor..................................................................................116

FIGURA 43 (a) Seal original. (b) Residuo del filtro LPC (aumentado en 10dB). (c)
Residuo de los filtros LPC y de pitch en cascada (aumentado en 10dB).............117
FIGURA 44 Etapa de anlisis de un transmisor CELP.............................................119
FIGURA 45 Detalle de la figura 44..............................................................................119
FIGURA 46. Decodificador (sintetizador) CELP ........................................................120
FIGURA 47 Decodificador VSELP. .............................................................................121
FIGURA 48 Diagrama del Speech coder ...................................................................122
FIGURA 49. Codificador RPE-LTP..............................................................................123
FIGURA 50. Seal filtrada submuestreada y sus correspondientes secuencias. 126
FIGURA 51.Decodificador RPE-LTP............................................................................127
FIGURA 52. Esquema de un analizador CELP en la prctica ...................................130
FIGURA 53. Especificaciones de diseo de un filtro paso-bajo normalizado...........135
FIGURA 54. Prototipo de filtros pasa-bajo y pasa-alto ...............................................136
FIGURA 55 Prototipo de filtros pasa-banda y banda de rechazo..............................137
FIGURA 56 Filtro FIR pasa-bajo usando ventana de hamming................................140
FIGURA 57 Filtro FIR paso bajo usando ventana de Kaiser......................................141
FIGURA 58 Filtro FIR pasa banda usando ventana de Blackman ............................141
FIGURA 59 Esquema bsico de un filtro IIR ...............................................................142
FIGURA 60 Estrategias de diseo de filtros IIR ..........................................................144
FIGURA 61 Modelo de un sistema digital bsico........................................................146
FIGURA 62 Curva a modelar ........................................................................................147
FIGURA 67 Diagrama general de un Sistema digital de produccin de voz ............148
FIGURA 68.a)seal sorda b) Seal sonora c) excitacin completa ..........................152
FIGURA 69. Diagrama de bloques del predictor corto y largo plazo.........................152
FIGURA 70 Diagrama del filtro de largo plazo ............................................................153
FIGURA 71 Diagrama funcional del modelo conceptual de sntesis (CELP). ..........154
FIGURA 72. Principio de codificacin del codificador CS-ACELP.............................156
FIGURA 73 Principio del decodificador CS-ACELP....................................................157
FIGURA 74 Diagrama de vector de cdigos fijos........................................................167
FIGURA 75 Diagrama de bloques del codificador celp ..............................................174
FIGURA 765 Codificador y Decodificador CELP.........................................................174
14
ndice de Tablas
Nombre
Pg.
TABLA 1 Ejemplo de monemas, grafemas y fonemas ................................................ 43

TABLA 2 Clasificacin de las consonantes de la lengua castellana segn el lugar y
el modo de articulacin y la sonoridad .......................................................................... 57
TABLA 3 Clasificacin de las vocales castellanas segn la posicin de la lengua... 58
TABLA 4 Ortografas alternativas de George Bernard Shaw para dos palabras
inglesas ............................................................................................................................ 59
TABLA 5 Los fonemas del alfabeto fontico internacional utilizados en la lengua
castellana ......................................................................................................................... 60
TABLA 6 Medida subjetiva de la calidad de voz .......................................................... 97
TABLA 7 Respuesta del filtro FIR de largo plazo........................................................125
TABLA 8 Estructura da la tabla de cdigos fijos .........................................................166
15
RESUMEN
Esta investigacin esta orientada al diseo de un codificador de voz CELP

(Code Excited Linear Prediction) utilizando la herramienta computacional
MATLAB calculando la excitacin, tomando como gua el estndar G.729 de
la UIT-T (Unin Internacional de Telecomunicaciones) con el fin de reducir el
numero de bits en la transmisin de voz .
Para el modelado de la seal de voz, se utilizan dos predictores, un predictor

a largo plazo, y uno de corto plazo, el primero intenta modelar la excitacin
peridica de la seal, y el segundo, imita el comportamiento del tracto vocal.
Por otro lado, un vector de cdigos fijos modela la excitacin no peridica de
la seal de voz.
La herramienta computacional MATLAB nos ayuda al diseo del codificador

de voz CS-CELP (Conjugated Structure - Code Excited Linear Prediction)
definido por el estndar G729, pues contiene diferentes funciones que nos
facilitan el clculo de los parmetros del codificador, tales como, los
coeficientes de prediccin lineal, la correlacin de la seales, la
ventanizacin, conversin de LPC a LSP (line espectrum pairs), etc.
Para conseguir nuestro objetivo, primero generamos la excitacin sin pitch

(frecuencia fundamental), es decir, solo la componente sorda de la excitacin
(vector de cdigos fijos), posteriormente le sumamos la excitacin peridica
(seal sonora, que se modela con un vector de cdigos adaptativos)
completando la excitacin.
16
La funcin de este diseo es la de proporcionar informacin del error,

transmitiendo a bajas tasas de bits reduciendo el ancho de banda sin
sacrificar calidad en la voz y tambin, para aprovechar de una forma ms
eficiente los diferentes servicios prestados a travs de las redes que
transportan voz, como Internet, redes de telefona fija, celular, etc.
17
ABSTRACT
This investigation its oriented to design an voice coder CELP (Code Excited
Linear Prediction) using computacional tool MATLAB, calculating the
excitation, taking as guide the G.729 standard from the ITU-T (International
Telecommunications Union - Telecommunications) with the purpose of
reducing the number of bits in the voice transmission.
By obtain the model of voice signal, two predictors are used, an long term
predictor, and other short term predictor, first tries to model the periodic
excitation of the signal, and the second, imitates the behavior of vocal tract.
On the other hand, a vector of fixed codes models the nonperiodic excitation
of the voice signal.
Computacional tool MATLAB helps us to the design of voice coder CS-CELP

(Conjugated Structure - Code Excited Linear Prediction) defined by the G729
standard, because it contains different functions that facilitate the calculation
of the coder parameters, such as, the coefficients of linear lead, the signals
correlation, the windowed, conversion of LPC to LSP (Line Spectrum Pairs),
between others.
First the excitation without pitch is generated (base frequency), that is to say,
single the deaf component of the excitation (vector of fixed codes), later adds
the periodic excitation to him (sonorous signal, that it is modeled with a vector
of adaptive codes) completing the excitation.
18
The task of this design is the one to also provide information of the error,
transmitting to low rates of bits reducing the bandwidth for the improvement of
the voice quality and taking advantage of one more efficient form different
served through the networks that transport voice, like Internet, networks of
fixed, cellular telephony, between others.
19
INTRODUCCION
La voz es la forma ms natural y eficiente de comunicacin entre los seres

humanos. Sin embargo, cada vez son ms frecuentes las situaciones en las
que la comunicacin se establece con una mquina, o aquellas en las que
una mquina puede ayudar a la comunicacin entre dos seres humanos. Por
esta razn hay herramientas que nos permiten el procesamiento de la voz,
tales como los mtodos de codificacin diseados para almacenar y
transmitir la informacin de la voz en forma digital eficientemente, incluso sin
perder calidad.
La codificacin de voz nos ayuda a optimizar la utilizacin del canal de

comunicacin transmitiendo informacin a un ancho de banda menor y una
mayor inteligibilidad y naturalidad. Por ejemplo, cuando se desea transmitir
varias comunicaciones por un solo canal con la mnima perdida de calidad,
optimizando la relacin entre velocidad de transmisin (bits/segundo) e
inteligibilidad del mensaje. Teniendo en cuenta el almacenamiento de
informacin en forma digital la codificacin de voz permite utilizar menos bits
necesarios para el almacenamiento, manteniendo un nivel de calidad de voz
adecuado. Tambin nos permite incorporar algoritmos de cifrado para
establecer comunicaciones privadas y seguras, o realizar grabaciones
indescifrables para otras personas.
20
JUSTIFICACION
OBJETO
Diseo e implementacin software de un modelo para la excitacin de un

codificador CELP para el anlisis de la seal de voz en diferentes entornos,
tales como telefona digital tanto en la red telefnica pblica conmutada,
como en la red celular mvil, utilizando el algoritmo genrico de codificacin
CELP.
PROBLEMA
La comunicacin eficiente de las seales de voz ha sido una necesidad
creciente desde hace ya muchos aos, en particular, la telefona en sus
distintas manifestaciones satelital, mvil, convencional y ms recientemente
con la comunicacin de voz a travs de Internet.
En todos estos sistemas de comunicacin modernos el tratamiento de la
seal de voz para su adecuada transmisin con un mnimo uso de los
recursos del sistema, tales como canales telefnicos, ancho de banda de
radio frecuencia, ranuras (slots) de tiempo, etctera, representa uno de los
intereses ms grandes de la investigacin actual debido a la creciente
demanda de servicios con un nivel de calidad especfico.
La seal de voz en las aplicaciones ms modernas se transmite en forma
digital. sta es la preferida actualmente para los servicios de comunicacin
punto a punto debido a la versatilidad que ofrece para su manipulacin por
21
algoritmos que permitan realizar tareas como compresin, redistribucin de la

energa en el espectro mediante transformaciones, extraccin de parmetros
caractersticos, proteccin contra errores del canal y criptografa.
Las tcnicas de codificacin de voz son usadas tanto para la transmisin
cuanto para el almacenamiento compacto de seales de voz. Ellas son
demandadas para la transmisin compartida por diferentes canales de voz
en comunicaciones telefnicas digitales tanto por la red telefnica pblica
como por la red celular mvil, adems de permitir mayor seguridad y sigilo
mediante la criptografa. Por otro lado, los canales compartidos pueden
transportar vdeo o datos en entornos multimedia, que se estn tornando
cada vez mas frecuentes y en los cuales la versatilidad de disponer de
codificadores que operen a varias tasas de compresin permite establecer
compromisos entre calidad de servicio y cantidad de canales, necesarios
para atender a la demanda de la telefona por paquetes como la telefona va
Internet.
22
DELIMITACIONES
Objetivo general:
En el presente trabajo se busca estudiar el desarrollo que tienen en la

actualidad las diferentes formas de codificacin de voz,
puntualizando la
investigacin en el funcionamiento e implementacin de la excitacin de un

codificador tipo CELP.
Objetivos especficos:
1. Desarrollo conceptual sobre las diferentes tcnicas y dispositivos

utilizados en la codificacin de voz.
2. Estudio del software MATLAB para las diferentes aplicaciones
como elaboracin de filtros, clculos, anlisis de seales.
3. Anlisis de la seal de voz por medio de varios tipos de excitacin.
4. Experimentacin con el codificador CELP, trabajando con una
base de datos de voz.
5. Modelado de la excitacin para un codificador de voz CELP.
23
CAPITULO I. EL SONIDO Y SUS CARACTERSTICAS FSICAS
El Sonido
Fsicamente, el fenmeno sonoro se puede describir como la percepcin de
oscilaciones rtmicas estimuladas por algn objeto fsico vibrante que acta
como fuente emisora, este proceso requiere de una fuente que lo emita, un
canal que lo distribuya y otro que lo reciba. Como formas del lenguaje sonoro
encontramos la voz, la msica, el ruido o efecto sonoro y el silencio. El
fenmeno sonoro se divide en tres [38].
Forma sonora:
Toda configuracin acstica que tiende a ser percibida como un bloque

sonoro unitario y coherente.
Ruido o efecto sonoro:
Conjunto de formas sonoras representadas por sonidos inarticulados o de

estructura musical, de fuentes sonoras naturales y/o artificiales, que
restituyen objetiva y subjetivamente la realidad, construyendo una imagen.
Silencio:
Conjunto continuo de sucesos sonoros poco definidos, configurados por una

disminucin sbita de la intensidad en la evolucin temporal del sonido.
24
Por lo tanto,
el sonido es la vibracin de un medio elstico, bien sea
gaseoso, liquido o slido. Cuando nos referimos al sonido audible por el odo
humano, estamos hablando de la sensacin detectada por nuestro odo, y
que se produce por las rpidas variaciones de presin en el aire por encima y
por debajo de un valor esttico. Este valor esttico nos lo da la presin
atmosfrica (alrededor de 100.000 Pascals) el cual tiene unas variaciones
pequeas y de forma muy lenta, tal y como se puede comprobar en un
barmetro.
Cmo son de pequeas y de rpidas las variaciones de presin que causan

el sonido?:
Cuando las rpidas variaciones de presin se centran entre 20 y 20.000

veces por segundo (igual a una frecuencia de 20 Hz a 20 kHz) el sonido es
potencialmente audible aunque las variaciones de presin puedan ser a
veces tan pequeas como la millonsima parte de un pascal. Los sonidos
muy fuertes son causados por grandes variaciones de presin, por ejemplo
una variacin de 1 pascal se oira como un sonido muy fuerte, siempre y
cuando la mayora de la energa de dicho sonido estuviera contenida en las
frecuencias medias (1kHz - 4 kHz) que es donde el odo humano es ms
sensitivo. El sonido puede ser producido por diferentes fuentes, desde una
persona hablando hasta un altavoz vibrando y puede viajar a travs de
distintos medios de propagacin.
ANTECEDENTES HISTORICOS
Antigedad
Los pueblos antiguos efectuaron numerosas especulaciones sobre los
fenmenos elementales del sonido; sin embargo, con la excepcin de unas
25
pocas suposiciones que resultaron ser ciertas, la ciencia del sonido no

empez a desarrollarse hasta aproximadamente 1600 d.C. A partir de
aquella poca, el conocimiento del sonido avanz con ms rapidez que el
conocimiento de los fenmenos luminosos correspondientes, ya que estos
ltimos son ms difciles de observar y medir. A los antiguos griegos no les
preocupaba demasiado el estudio cientfico del sonido, pero estaban muy
interesados por la msica, y consideraban que representaba los nmeros
aplicados , frente a la aritmtica, que representaba los nmeros puros . El
filsofo Pitgoras descubri que una octava corresponde a una relacin de
frecuencias de dos a uno, y enunci la ley que vincula la consonancia a las
relaciones numricas; posteriormente construy todo un edificio de
especulaciones msticas en torno a esa ley. Aristteles, en unas breves
observaciones sobre el sonido, realiz una suposicin bastante acertada
sobre la naturaleza de su generacin y transmisin. Sin embargo, no se
efectuaron estudios experimentales vlidos hasta 1600, cuando Galileo llev
a cabo un estudio cientfico del sonido y enunci muchas de sus leyes
fundamentales. Galileo determin la relacin entre tono y frecuencia, y unas
leyes musicales de armona y disonancia. Tambin explic de forma terica
cmo la frecuencia natural de vibracin de una cuerda tensa, y por tanto la
frecuencia de los sonidos producidos por un instrumento de cuerda, depende
de la longitud, peso y tensin de la cuerda.
Siglos XVII Y XVIII
El matemtico francs Marin Mersenne realiz medidas cuantitativas en
relacin con el sonido al hallar el tiempo de retorno de un eco y calcular un
valor de la velocidad del sonido que difera del valor real en menos del 10%.
Mersenne tambin fue el primero en medir de forma aproximada la
frecuencia de una nota de tono determinado. Midi la frecuencia de vibracin
de un cable largo y pesado cuyo movimiento era tan lento que poda seguirse
26
a simple vista; despus, a partir de consideraciones tericas, calcul la

frecuencia de un cable corto y ligero que produca un sonido audible.
En 1660, el cientfico ingls de origen Irlands Robert Boyle demostr que el

sonido necesitaba un medio gaseoso, lquido o slido para su transmisin.
Boyle colg una campana de una cuerda en el vaco y mostr que, aunque
poda verse cmo el badajo golpeaba la campana, no se oa ningn sonido.
El matemtico y fsico britnico Isaac Newton fue el primero en realizar un

tratamiento matemtico del sonido en sus principios matemticos de la
filosofa natural (1687). Una vez demostrado que la propagacin del sonido a
travs de cualquier fluido slo dependa de propiedades fsicas medibles del
fluido, como la elasticidad o la densidad, Newton calcul a partir de
consideraciones tericas la velocidad del sonido en el aire.
El siglo XVIII fue sobre todo un periodo de desarrollo terico. El clculo

supuso una potente herramienta nueva para cientficos de muchos campos.
Los matemticos franceses Jean le Rond d'Alembert y Joseph Louis
Lagrange y los matemticos suizos Johann Bernoulli y Leonhard Euler
contribuyeron al conocimiento de cuestiones como el tono y el timbre del
sonido producido por un instrumento musical determinado, o la velocidad y
naturaleza de la transmisin del sonido en diferentes medios. Sin embargo,
el tratamiento matemtico completo del sonido requiere el anlisis armnico,
desarrollado por el matemtico francs Joseph Fourier en 1822 y aplicado al
sonido por el fsico alemn Georg Simon Ohm.
Las variaciones de sonido denominadas batidos , una consecuencia de la

naturaleza ondulatoria del sonido, fueron descubiertas en torno a 1740 por el
violinista italiano Giuseppe Tartini y el organista alemn Georg Sorge. El
fsico alemn Ernst Chladni realiz numerosos descubrimientos sobre el
27
sonido a finales del siglo XVIII, sobre todo en relacin con la vibracin de
cuerdas y varillas.
Siglos XIX Y XX
El siglo XIX supuso, sobre todo, una era de desarrollo experimental. Las
primeras medidas precisas de la velocidad del sonido en el agua fueron
llevadas a cabo en 1826 por el matemtico francs Jacques Charles
Franois Sturm, y a lo largo del siglo se realizaron numerosos experimentos
para determinar con extremada precisin la velocidad de sonidos de
diferentes frecuencias en distintos medios. La ley fundamental que dice que
la velocidad es la misma para sonidos de cualquier frecuencia y depende de
la densidad y elasticidad del medio qued establecida en dichos
experimentos.
Durante el siglo XIX se emplearon en el estudio del sonido aparatos como el
estroboscopio, el fonendoscopio o la sirena. En este siglo se dedic tambin
mucho inters al establecimiento de un patrn de tono. La primera
sugerencia de un patrn la realiz el fsico francs Joseph Sauveur alrededor
de 1700. Sauveur propuso que el do equivaliera a 256 Hz, un patrn cmodo
desde el punto de vista matemtico (al ser una potencia de dos). El fsico
alemn Johann Heinrich Scheibler llev a cabo la primera determinacin
precisa de la frecuencia de un tono, y en 1834 propuso como patrn que el la
equivaliera a 440 Hz. En 1859, el gobierno francs decret que el patrn
para el la fuera de 435 Hz, segn las investigaciones del fsico francs Jules
Antoine Lissajous. Este patrn se acept en muchas regiones del mundo
hasta bien entrado el siglo XX.
En el siglo XIX se inventaron el telfono, el micrfono y diversos tipos de
gramfono, todos ellos muy tiles para el estudio del sonido. En el siglo XX,
los fsicos dispusieron por primera vez de instrumentos que hacan posible
28
un estudio sencillo, preciso y cuantitativo del sonido. Mediante osciladores

electrnicos pueden producirse ondas electromagnticas de cualquier tipo y
convertirlas en sonido mediante sistemas electromagnticos o piezoelctricos.
En sentido inverso, es posible convertir los sonidos en corrientes elctricas
mediante un micrfono, amplificarlas electrnicamente sin distorsin y
analizarlas mediante un osciloscopio de rayos catdicos. Las tcnicas
modernas permiten grabar y reproducir el sonido con una fidelidad
extremadamente elevada.
En la primera Guerra Mundial, las necesidades militares llevaron a emplear

por primera vez el sonar para la deteccin de submarinos, que hoy tambin
se emplea para estudiar las corrientes y capas ocenicas y para realizar
mapas de los fondos marinos. En la actualidad, las ondas de sonido de
frecuencias muy elevadas (ultrasonidos) se emplean en numerosas
aplicaciones tcnicas y mdicas.
Naturaleza del sonido
Las ondas sonoras constituyen un tipo de ondas mecnicas que tienen la

virtud de estimular el odo humano y generar la sensacin sonora. En el
estudio del sonido se deben distinguir los aspectos fsicos de los aspectos
fisiolgicos relacionados con la audicin. Desde un punto de vista fsico el
sonido comparte todas las propiedades caractersticas del comportamiento
ondulatorio, por lo que puede ser descrito utilizando los conceptos sobre
ondas. A su vez el estudio del sonido sirve para mejorar la comprensin de
algunos fenmenos tpicos de las ondas. Desde un punto de vista fisiolgico
slo existe sonido cuando un odo es capaz de percibirlo. El sonido La
sensacin producida en el odo por la vibracin de las partculas que se
29
desplazan a travs de un medio elstico (slido, lquido o gaseoso) que las

propaga.
Para que exista el sonido se tienen en cuenta los siguientes factores.

Una fuente de vibracin mecnica.
Un medio elstico por el cual se propague la perturbacin.
Cuando hay variaciones y perturbaciones est claro que debe haber un valor
esttico, a partir del cual se producen estas variaciones. En el caso del aire,
el valor esttico no los da la presin atmosfrica.
CUALIDADES DEL SONIDO
Intensidad
La intensidad del sonido percibido, o propiedad que hace que ste se capte
como fuerte o como dbil, est relacionada con la intensidad de la onda
sonora correspondiente, tambin llamada intensidad acstica. La intensidad
acstica es una magnitud que da idea de la cantidad de energa que est
fluyendo por el medio como consecuencia de la propagacin de la onda.
Se define como la energa que atraviesa por segundo una superficie unidad
dispuesta perpendicularmente a la direccin de propagacin. Equivale a una
potencia por unidad de superficie y se expresa en W/m2. La intensidad de
una onda sonora es proporcional al cuadrado de su frecuencia y al cuadrado
de su amplitud y disminuye con la distancia al foco.
La magnitud de la sensacin sonora depende de la intensidad acstica, pero

tambin depende de la sensibilidad del odo. El intervalo de intensidades
acsticas que va desde el umbral de audibilidad, o valor mnimo perceptible,
30
hasta el umbral del dolor es muy amplio, estando ambos valores lmite en
una relacin del orden de 1014.
Debido a la extensin de este intervalo de audibilidad, para expresar

intensidades sonoras se emplea una escala cuyas divisiones son potencias
de diez y cuya unidad de medida es el decibelio (dB). Ello significa que una
intensidad acstica de 10 decibelios corresponde a una energa diez veces
mayor que una intensidad de cero decibelios; una intensidad de 20 dB
representa una energa 100 veces mayor que la que corresponde a 0
decibelios y as sucesivamente.
Otro de los factores de los que depende la intensidad del sonido percibido es
la frecuencia. Ello significa que para una frecuencia dada un aumento de
intensidad acstica da lugar a un aumento del nivel de sensacin sonora,
pero intensidades acsticas iguales a diferentes frecuencias pueden dar
lugar a sensaciones distintas.
Los sonidos que percibimos deben superar el umbral auditivo (0 dB) y no

llegar al umbral de dolor (140 dB).
FIGURA 1 Intensidad de varios elementos
31
Tono
El tono es la cualidad del sonido mediante la cual el odo le asigna un lugar

en la escala musical, permitiendo, por tanto, distinguir entre los graves y los
agudos. La magnitud fsica que est asociada al tono es la frecuencia. Los
sonidos percibidos como graves corresponden a frecuencias bajas, mientras
que los agudos son debidos a frecuencias altas. As el sonido ms grave de
una guitarra corresponde a una frecuencia de 82,4 Hz y el ms agudo a
698,5 hertzs. Para que los humanos podamos percibir un sonido este debe
estar comprendido en la franja de 20 a 20.000 Hz. Por debajo tenemos los
infrasonidos y por encima los ultrasonidos. A esto se le denomina rango de
frecuencia audible. Junto con la frecuencia, en la percepcin sonora del tono
intervienen otros factores de carcter psicolgico. As sucede por lo general
que al elevar la intensidad se eleva el tono percibido para frecuencias altas y
se baja para las frecuencias bajas. Entre frecuencias comprendidas entre 1
000 y 3 000 Hz el tono es relativamente independiente de la intensidad.
Timbre
El timbre es la cualidad del sonido que permite distinguir sonidos
procedentes de diferentes instrumentos, aun cuando posean igual tono e
intensidad. Debido a esta misma cualidad es posible reconocer a una
persona por su voz, que resulta caracterstica de cada individuo.
El timbre est relacionado con la complejidad de las ondas sonoras que

llegan al odo. Pocas veces las ondas sonoras corresponden a sonidos
32
puros, slo los diapasones generan este tipo de sonidos, que son debidos a
una sola frecuencia y representados por una onda armnica. Los
instrumentos musicales, por el contrario, dan lugar a un sonido ms rico que
resulta
de
vibraciones
complejas.
Cada
vibracin
compleja
puede
considerarse compuesta por una serie de vibraciones armnico simples de

una frecuencia y de una amplitud determinadas, cada una de las cuales, si
se considerara separadamente, dara lugar a un sonido puro. Esta mezcla de
tonos parciales es caracterstica de cada instrumento y define su timbre.
Debido a la analoga existente entre el mundo de la luz y el del sonido, al
timbre se le denomina tambin color del tono.
Presin Sonora
En primer lugar tenemos la presin atmosfrica, es decir la presin del aire
ambiental en ausencia de sonido. Se mide en una unidad SI (Sistema
Internacional) denominada Pascal (1 Pascal es igual a una fuerza de 1
newton actuando sobre una superficie de 1 metro cuadrado, y se abrevia 1
Pa). Esta presin es de alrededor de 100.000 Pa (el valor normalizado es de
101.325 Pa). Podemos luego definir la presin sonora como la diferencia
entre la presin instantnea debida al sonido y la presin atmosfrica, y,
naturalmente, tambin se mide en Pa. Sin embargo, la presin sonora tiene
en general valores muchsimo menores que el correspondiente a la presin
atmosfrica. Por ejemplo, los sonidos ms intensos que pueden soportarse
sin experimentar un dolor auditivo agudo corresponden a unos 20 Pa,
mientras que los apenas audibles estn cerca de 20 mPa (mPa es la
abreviatura de micropascal, es decir una millonsima parte de un pascal).
Esta situacin es muy similar a las pequeas ondulaciones que se forman
sobre la superficie de una profunda piscina. Otra diferencia importante es
que la presin atmosfrica cambia muy lentamente, mientras que la presin
sonora lo hace muy rpido, alternando entre valores positivos (presin
33
instantnea mayor que la atmosfrica) y negativos (presin instantnea

menor que la atmosfrica) a razn de entre 20 y 20.000 veces por segundo.
Potencia (W)
La potencia acstica es la cantidad de energa radiada por una fuente
determinada. El nivel de potencia Acstica es la cantidad de energa total
radiada en un segundo y se mide en w. La referencia es 1pw = 1E-12 w.
Para determinar la potencia acstica que radia una fuente se utiliza un
sistema de medicin alrededor de la fuente sonora a fin de poder determinar
la energa total irradiada.
La potencia acstica es un valor intrnseco de la fuente y no depende del
local donde se halle. Es como una bombilla, puede tener 100 w y siempre
tendr 100 w la pongamos en nuestra habitacin o la pongamos dentro de
una nave enorme su potencia siempre Serra la misma. Con la potencia
acstica ocurre lo mismo el valor no varia por estar en un local reverberante
o en uno seco. Al contrario de la Presin Acstica que si que varia segn
vare las caractersticas del local donde se halle la fuente, la distancia etc.
Fenmenos fsicos del sonido
Reflexin
Una onda se refleja (rebota al medio del cual proviene) cuando topa con un
obstculo que no puede traspasar ni rodear.
34
FIGURA 2 Reflexin del sonido

El tamao del obstculo y la longitud de onda determinan si una onda rodea
el obstculo o se refleja en la direccin de la que provena. Si el obstculo es
pequeo en relacin con la longitud de onda, el sonido lo rodeara (difraccin),
en cambio, si sucede lo contrario, el sonido se refleja (reflexin). Si la onda
se refleja, el ngulo de la onda reflejada es igual al ngulo de la onda
incidente, de modo que si una onda sonora incide perpendicularmente sobre
la superficie reflejante, vuelve sobre s misma. La reflexin no acta igual
sobre las altas frecuencias que sobre las bajas. Lo que se debe a que la
longitud de onda de las bajas frecuencias es muy grande (pueden alcanzar
los 18 metros), por lo que son capaces de rodear la mayora de obstculos.
En acstica esta propiedad de las ondas es sobradamente conocida y
aprovechada. No slo para aislar, sino tambin para dirigir el sonido hacia el
auditorio mediante placas reflectoras (reflectores y tornavoces).
Refraccin
Es la desviacin que sufren las ondas en la direccin de su propagacin,
cuando el sonido pasa de un medio a otro diferente.
35
A diferencia de lo que ocurre en el fenmeno de la reflexin, en la refraccin,

el ngulo de refraccin ya no es igual al de incidencia.
La refraccin se debe a que al cambiar de medio, cambia la velocidad de
propagacin del sonido. Posteriormente puede producirse dentro de un
mismo medio, cuando las caractersticas de este no son homogneas, por
ejemplo, cuando de un punto a otro de un medio aumenta o disminuye la
temperatura.
Ejemplo: Sobre una superficie nevada, el sonido es capaz de desplazarse
atravesando grandes distancias. Esto es posible gracias a las refracciones
producidas bajo la nieve, que no es medio uniforme. Cada capa de nieve
tiene una temperatura diferente. Las ms profundas, donde no llega el sol,
estn ms fras que las superficiales. En estas capas ms fras prximas al
suelo, el sonido se propaga con menor velocidad.
FIGURA 3 Refraccin del sonido
36
Difraccin
La difraccin es un fenmeno que afecta a la propagacin del sonido.

Hablamos de difraccin cuando el sonido en lugar de seguir en la direccin
normal, se dispersa.
La explicacin la encontramos en el Principio de Huygens que establece que

cualquier punto de un frente de ondas es susceptible de convertirse en un
nuevo foco emisor de ondas idnticas a la que lo origin. De acuerdo con
este principio, cuando la onda incide sobre una abertura o un obstculo que
impide su propagacin, todos los puntos de su plano se convierten en
fuentes secundarias de ondas, emitiendo nuevas ondas, denominadas ondas
difractadas.
La difraccin se puede producir por dos motivos diferentes:
Por que una onda sonora encuentra a su paso un pequeo obstculo y lo

rodea. Las bajas frecuencias son ms capaces de rodear los obstculos que
las altas. Esto es posible porque las longitudes de onda en el espectro
audible estn entre 3 cm y 12 m, por lo que son lo suficientemente grandes
para superar la mayor parte de los obstculos que encuentran.
Por que una onda sonora topa con un pequeo agujero y lo atraviesa.
La cantidad de difraccin estar dada en funcin del tamao de la propia

abertura y de la longitud de onda.
Si una abertura es grande en comparacin con la longitud de onda, el efecto

de la difraccin es pequeo. La onda se propaga en lneas rectas o rayos,
como la luz.
37
Cuando el tamao de la abertura es considerable en comparacin con la

longitud de onda, los efectos de la difraccin son grandes y el sonido se
comporta como si fuese una luz que procede de una fuente puntual
localizada en la abertura.
FIGURA 4 Difraccin del sonido

Efecto Doppler
El fenmeno fue descrito por primera vez por el matemtico y fsico austriaco
Christian Doppler (1803-1853). Consiste en que el sonido emitido por una
fuente es percibido por nuestro odo con distintas frecuencias dependiendo si
dicha fuente est en reposo, acercndose o alejndose. En efecto, la
frecuencia aumenta si la fuente se aproxima (sonido ms agudo) y disminuye
si se aleja (sonido ms grave).
38
FIGURA 5 El efecto Doppler
Una fuente emisora de ondas sonoras que se aproxima, se acerca al

observador durante el periodo de la onda. Y, dado la longitud de la onda se
acorta y la velocidad de propagacin de la onda permanece sin cambios, el
sonido se percibe ms alto. Por esta misma razn, la altura (desplazamiento
de la frecuencia de las ondas sonoras) de una fuente que se aleja, se reduce.
El efecto Doppler se observa siempre que la fuente de ondas se mueve con
respecto al observador. Es el efecto producido por una fuente de ondas mvil
por el cual hay un aparente desplazamiento de la frecuencia hacia arriba
para los observadores hacia los cuales se dirige la fuente y un aparente
desplazamiento hacia debajo de la frecuencia para los observadores de los
cuales la fuente se aleja.
El efecto Doppler se origina cuando hay un movimiento relativo entre la

fuente sonora y el oyente cuando cualquiera de los dos se mueven con
respecto al medio en el que las ondas se propagan. El resultado es la
aparente variacin de la altura del sonido. Existe una variacin en la
frecuencia que percibimos con la frecuencia que la fuente origina.
39
El fenmeno no se restringe al movimiento de la fuente. Si la fuente de

sonido est fija, un oyente que se mueva hacia la fuente observar un
aumento similar en el tono. Un oyente que se aleja de la fuente de sonido
escuchar un sonido de menor tono. El cambio en la frecuencia del sonido
que resulta del movimiento relativo entre una fuente y un oyente se
denomina efecto Doppler.
El efecto Doppler se refiere al cambio aparente en la frecuencia de una

fuente de sonido cuando hay un movimiento relativo de la fuente y del oyente.
Efecto clsico: Mientras la onda avanza, el cuerpo se aleja del observador. El

receptor capta tarde el prximo mximo y dir que el periodo es mas largo, la
frecuencia es menor y la longitud de onda mayor.
40
LA VOZ Y SUS CARACTERISTICAS
Los sistemas de comunicacin transportan informacin. A continuacin se

estudiar un sistema de comunicacin especfico, el de la comunicacin a
travs de seales de voz, es decir seales acsticas tradicionalmente
emitidas y recibidas por seres humanos en forma oral.
Histricamente, desde la Antigua Grecia se han realizado intentos por

generar voces artificiales. En muchos casos eran simplemente juegos de
tuberas conectadas a un locutor humano, en otros autnticos ingenios
acsticos capaces de producir sonoridades voclicas.
El desarrollo de la telefona a principios del siglo XX motiv intensas

investigaciones sobre las propiedades de la voz y la audicin con el fin de
mejorar la calidad de la comunicacin telefnica. El proceso continu y hoy
en da las tecnologas existentes permiten, por ejemplo, disponer de
sistemas de comunicacin oral hombre mquina.
En todo sistema de comunicacin hay varios componentes: emisor, receptor,

mensaje, cdigo, canal y contexto .Se debe conocer algunos aspectos de
cada uno de ellos para poder integrar sistemas que funcionen de manera
eficaz y eficiente. E n l a s p e r s o n a s el emisor es el conjunto integrado por
el cerebro que piensa el mensaje y el aparato fonatorio que lo traduce a
una emisin acstica. El receptor es el aparato auditivo que recibe la onda
sonora y la transforma en impulsos nerviosos que luego son interpretados por
el cerebro. El mensaje es la idea a comunicar. El cdigo es el lenguaje
hablado. La combinacin del mensaje y el cdigo constituyen la seal. El
canal puede ser el medio en el cual se propaga la onda sonora (en general el
41
aire) o un medio de transmisin electrnico que constituye en s mismo otro

subsistema de comunicacin cuyas propiedades son bien conocidas y que
se aproxima en muchos casos (aunque no siempre) a la idealidad. El
contexto puede tener un sinnmero de componentes, que van desde factores
puramente subjetivos o psicolgicos, como el inters, la atencin, la
motivacin hasta factores fsicos tales como respuesta en frecuencia,
interferencias, distorsiones, ruido. De acuerdo con investigaciones realizadas,
existen evidencias suficientes como para establecer que empleamos ms o
menos el 70% de nuestras horas de actividad comunicndonos verbalmente,
es decir, que cada uno de nosotros emplea alrededor de 10 a 11 horas
diarias para comunicarse.
Conceptos sobre lenguaje
La lengua es un sistema de signos lingsticos que permiten la

comunicacin en una comunidad. Es un sistema, cada uno de sus
elementos tiene entidad propia y entidad relativa a su posicin o relacin
con los otros elementos. Es un cdigo de signos. Tiene carcter social, ya
que es comn a una sociedad. El habla es el acto de seleccionar los signos
de entre los disponibles y organizarlos a travs de ciertas reglas. Materializa
el cdigo, es individual, vale decir que cambia de un individuo a otro.
Los signos pueden corresponder al lenguaje escrito o al oral. El lenguaje es

un sistema articulado ya que los sonidos y otros componentes se integran
entre s. Est formado por signos lingsticos, nombre que recibe la seal en
el lenguaje. El lenguaje tiene modalidades regionales llamadas dialectos. Un
signo es algo que reemplaza a otra cosa para comunicarla en un mensaje.
Los signos lingsticos se clasifican en dos tipos: significado y significante.
El significado es el concepto mental, idea o contenido a comunicar. El
significante es la imagen, ya sea grfica o acstica que se le asigna. La
42
relacin entre significado y significante es arbitraria o convencional, aunque

no necesariamente discrecional: involucra acuerdos tcitos, explcitos o
normativos en una comunidad lingstica. En el lenguaje escrito, el
significante es la grafa escrita, formada por combinaciones de letras, en
tanto que en el lenguaje hablado es su realizacin acstica mediante la
palabra hablada. Las
palabras son los elementos
libres mnimos del
lenguaje. La sintaxis es el conjunto de reglas para la coordinacin de las

palabras en frases u oraciones. En su versin escrita las palabras estn
formadas por letras o grafemas, es decir unidades grficas mnimas, y, en el
caso oral, por fonemas. Los fonemas son la unidad fnica ideal mnima del
lenguaje. Se materializan a travs de los sonidos, pero de una manera no
unvoca. Las variantes de los fonemas se denominan alfonos. Los
monemas son unidades mnimas con significado, que puede ser gramatical,
dando origen a los morfemas, o lxico, representado por los lexemas. Los
morfemas tienen relacin con la gramtica, o la forma de organizar o dar
estructura a las categoras bsicas del lenguaje (gnero, nmero, tiempo o
persona de los verbos, etc.), mientras que los lexemas se refieren a
significados externos al lenguaje mismo. Las palabras constan de al menos
un monema, siendo las ms comunes bimonemticas, que incluyen un
lexema y un morfema.
En la tabla siguiente se dan dos ejemplos en los que se identifican los

componentes de la palabra
TABLA 1 Ejemplo de monemas, grafemas y fonemas
43
Fonologa y fontica
La Fonologa estudia los fonemas, es decir el modelo fnico convencional e
ideal del lenguaje. La Fontica, en tanto, se refiere a los sonidos en el
habla, incluyendo su produccin acstica y los procesos fsicos y
fisiolgicos de emisin y articulacin involucrados. As, la Fonologa es el
estudio de los sonidos de la lengua en cuanto a su carcter simblico o de
representacin mental. Procede detectando regularidades o recurrencias en
los sonidos del lenguaje hablado y sus combinaciones, y haciendo
abstraccin de las pequeas diferencias debidas a la individualidad de cada
hablante y de
acento
caractersticas suprasegmentales
como la entonacin, el
(tnico, es decir por aumento de la intensidad y aggico, por
aumento de la duracin). Cada uno de los sonidos abstractos as

identificados es un fonema. Uno de los objetivos de la fonologa es acotar al
mximo la cantidad de fonemas requeridos para representar cada idioma de
una manera suficientemente precisa.
La Fontica estudia experimentalmente los mecanismos de produccin y

percepcin de los sonidos utilizados en el habla a travs del anlisis
acstico, articulatorio y perceptivo. Se ocupa, por consiguiente, de las
realizaciones de los fonemas.
Fontica experimental
Es la que estudia los sonidos orales desde el punto de vista fsico, reuniendo
los datos y cuantificando los datos sobre la emisin y la produccin de las
ondas sonoras que configuran el sonido articulado. Utiliza instrumentos como
los rayos X y el quimgrafo, que traza las curvas de intensidad. El conjunto
de los datos analizados al medir los sonidos depende nicamente de la
44
precisin del instrumental as como de otros conocimientos conexos. Adems

se han descubierto diferencias importantes en cada sonido oral.
Fontica articulatoria
Es la que estudia los sonidos de una lengua desde el punto de vista
fisiolgico, es decir, describe qu rganos orales intervienen en su
produccin, en qu posicin se encuentran y cmo esas posiciones varan
los distintos caminos que puede seguir el aire cuando sale por la boca, nariz,
o garganta, para que se produzcan sonidos diferentes. No se ocupa de todas
las actividades que intervienen en la produccin de un sonido, sino que
selecciona slo las que tienen que ver con el lugar y la forma de articulacin.
Los smbolos fonticos y sus definiciones articulatorias son las descripciones
abreviadas de tales actividades. Los smbolos fonticos que se usan ms
frecuentemente son los adoptados por la Asociacin Fontica Internacional
en el alfabeto fontico internacional (A.F.I.) que se escriben entre corchetes.
Los rganos que intervienen en la articulacin del sonido son mviles o fijos.
Son mviles los labios, la mandbula, la lengua y las cuerdas vocales, que a
veces reciben el nombre de rganos articulatorios. Con su ayuda, el hablante
modifica la salida del aire que procede de los pulmones. Son fijos los dientes,
los alvolos, el paladar duro y el paladar blando. Los sonidos se producen
cuando se ponen en contacto dos rganos articulatorios por ejemplo el
bilabial (p), que exige el contacto entre los dos labios; tambin cuando se
ponen en contacto un rgano fijo y otro articulatorio, y el sonido se nombra
con los rganos que producen la juntura, o punto de articulacin, como por
ejemplo el sonido labiodental (f) que exige el contacto entre el labio inferior y
los incisivos superiores. Cuando es la lengua el rgano mvil no se hace
referencia a ella en la denominacin del sonido, as el sonido (t) que se
45
produce cuando la lengua toca la parte posterior de los incisivos superiores

se llama dental.
El modo de articulacin se determina por la disposicin de los rganos
mviles en la cavidad bucal y cmo impiden o dejan libre el paso del aire.
Esta accin puede consistir en la interrupcin instantnea y completa del
paso del aire para las implosivas; en dejar abierto el paso nasal pero
interrumpido el oral para las nasales; en producir un contacto con la lengua
pero dejar libre el paso del aire a uno y otro lado para las laterales; en
producir una leve interrupcin primero y dejar el paso libre despus para las
africadas; en permitir el paso del aire por un paso estrecho por el que el aire
pasa rozando para las fricativas, y en permitir el paso libre del aire por el
centro de la lengua sin friccin alguna para las vocales.
Se emiten diferentes clases de vocales segn vare la posicin de la lengua,
tanto a partir de su eje vertical (alta, media y baja), como a partir de su eje
horizontal (anterior, central y posterior). Por ejemplo, en espaol son vocales
altas las vocales de la palabra huir, es decir, la [i] y la [u]. Son vocales
medias la [e] y la [o], es decir las vocales de la palabra pero y es vocal baja
la [a] de la palabra va. As, la lengua va de abajo arriba para pronunciar las
dos vocales seguidas de la palabra aire, pero desciende a una posicin
media para pronunciar su ltima vocal. Hace el camino contrario de arriba
abajo para pronunciar puerta. Son vocales anteriores del espaol la [i] y la [e],
es decir las vocales seguidas de la palabra piel; las vocales posteriores son
la [o] y la [u], es decir las vocales de la palabra puro; la [a] es la vocal central.
La lengua se mueve de atrs hacia adelante para emitir las vocales de la
palabra totales, hace el camino contrario para emitir las vocales de la palabra
pilago. Las posiciones que mantiene la lengua para emitir las vocales u, i y
a constituyen los vrtices del llamado esquema voclico uai.
46
Anatoma del aparato Fonador[34]
La voz humana se produce voluntariamente por medio del aparato fonatorio.
ste est formado por los pulmones como fuente de energa en la forma de
un flujo de aire, la laringe, que contiene las cuerdas vocales, la faringe, las
cavidades oral (o bucal) y nasal y una serie de elementos articulatorios: los
labios, los dientes, el alvolo, el paladar, el velo del paladar y la lengua
(Figura 6). Las cuerdas vocales son, en realidad, dos membranas dentro de la
laringe orientadas de adelante hacia atrs (Figura 8). Por adelante se unen
en el cartlago tiroides (que puede palparse sobre el cuello, inmediatamente
por debajo de la unin con la cabeza; en los varones suele apreciarse como
una protuberancia conocida como nuez de Adn). Por detrs, cada una est
sujeta a uno de los dos cartlagos aritenoides, los cuales pueden separarse
voluntariamente por medio de msculos. La abertura entre ambas cuerdas
se denomina glotis. Cuando las cuerdas vocales se encuentran separadas,
la glotis adopta una forma triangular. El aire pasa libremente y prcticamente
no se produce sonido. Es el caso de la respiracin. Cuando la glotis
comienza a cerrarse, el aire que la atraviesa proveniente de los pulmones
experimenta una turbulencia, emitindose un ruido de origen aerodinmico
conocido como aspiracin (aunque en realidad acompaa a una espiracin
o exhalacin). Esto sucede en los sonidos denominados aspirados (como la
h inglesa). Al cerrarse ms, las cuerdas vocales comienzan a vibrar a
modo de lenguetas, producindose un sonido tonal, es decir peridico. La
frecuencia de este sonido depende de varios factores, entre otros del tamao
y la masa de las cuerdas vocales, de la tensin que se les aplique y de la
velocidad del flujo del aire proveniente de los pulmones. A mayor tamao,
menor frecuencia de vibracin, lo cual explica por qu en los varones, cuya
47
glotis es en promedio mayor que la de las mujeres, la voz es en general ms

grave. A mayor tensin la frecuencia aumenta, siendo los sonidos ms
agudos. As, para lograr emitir sonidos en el registro extremo de la voz es
necesario un mayor esfuerzo vocal. Tambin aumenta la frecuencia (a
igualdad de las otras condiciones) al crecer la velocidad del flujo de aire,
razn por la cual al aumentar la intensidad de emisin se tiende a elevar
espontneamente el tono de voz.
FIGURA 6 Corte esquematico del aparato fonador humano
FIGURA 7 La glotis
48
Finalmente, es posible obturar la glotis completamente. En ese caso no se

produce sonido. Sobre la glotis se encuentra la epiglotis, un cartlago en la
faringe que permite tapar la glotis durante la deglucin para evitar que el
alimento ingerido se introduzca en el tracto respiratorio. Durante la respiracin
y la fonacin (emisin de sonido) la epiglotis est separada de la glotis
permitiendo la circulacin del flujo de aire. Durante la deglucin, en cambio,
la laringe ejecuta un movimiento ascendente de modo que la glotis apoya
sobre la epiglotis. La porcin que incluye las cavidades farngea, oral y nasal
junto con los elementos articulatorios se denomina genricamente cavidad
supragltica, en tanto que los espacios por debajo de la laringe, es decir la
trquea, los bronquios y los pulmones, se denominan cavidades infraglticas.
Varios de los elementos de la cavidad supragltica se controlan a voluntad,
permitiendo modificar dentro de mrgenes muy amplios los sonidos
producidos por las cuerdas vocales o agregar partes distintivas a los
mismos, e inclusive producir sonidos propios. Todo esto se efecta por dos
mecanismos principales: el filtrado y la articulacin.
El filtrado acta modificando el espectro del sonido. Tiene lugar en las cuatro
cavidades supraglticas principales: la faringe, la cavidad nasal, la cavidad
oral y la cavidad labial. Las mismas constituyen resonadores acsticos que
enfatizan determinadas bandas frecuenciales del espectro generado por
las cuerdas vocales, conduciendo al concepto de formantes.
Formantes
Son una serie de picos de resonancia ubicados en frecuencias o bandas de

frecuencia que, segn veremos, son bastante especficas para cada tipo de
sonido.
49
FIGURA 8 Funcin de rea
FIGURA 9 Formantes de un sonido sonoro
50
FIGURA 10 Formantes de un sonido sordo
FIGURA 11 Corte esquematizo de la laringe segn un plano horizontal

La articulacin es una modificacin principalmente a nivel temporal de los
sonidos, y est directamente relacionada con la emisin de los mismos y con
los fenmenos transitorios que los acompaan. Est caracterizada por el
51
lugar del tracto vocal en que tiene lugar, por los elementos que intervienen y
por el modo en que se produce, factores que dan origen a una clasificacin
fontica de los sonidos que veremos luego.
rganos
Tracto
Nasal
Pulmones
Laringe
Faringe
Tracto
Vocal
Funcin
Tracto
Nasal
Pulmones
Laringe
Faringe
FIGURA 12 Diagrama funcional del aparato fonador
52
Tracto
Vocal
Efectos Resultantes
Intensidad
Modulacin
Tono fundamental
Presin Subglotal
Modulacin
Modulacin
Traza de
Voz
Pulso Glotal
Fonacin
Articulacin
FIGURA 13 Diagrama funcional del aparato fonador
Clasificacin de los sonidos
Los sonidos emitidos por el aparato fonatorio pueden clasificarse de acuerdo

con diversos criterios que tienen en cuenta los diferentes aspectos del
fenmeno de emisin. Estos criterios son:
Segn su carcter voclico o consonntico.

Segn su oralidad o nasalidad
Segn su carcter tonal (sonoro) o no tonal (sordo)
Segn el lugar de articulacin e) Segn el modo de
articulacin
Segn la posicin de los rganos articulatorios
53
Segn la duracin
Vocales y consonantes
Desde un punto de vista mecanoacstico, las vocales son los sonidos

emitidos por la sola vibracin de las cuerdas vocales sin ningn obstculo o
constriccin entre la laringe y las aberturas oral y nasal. Dicha vibracin se
genera por el principio del oscilador de relajacin, donde interviene una
fuente de energa constante en la forma de un flujo de aire proveniente de
los pulmones. Son siempre sonidos de carcter tonal (cuasiperidicos), y por
consiguiente de espectro discreto. Las consonantes, por el contrario, se
emiten
interponiendo
algn
obstculo
formado
por
los
elementos
articulatorios. Los sonidos correspondientes a las consonantes pueden ser

tonales o no dependiendo de si las cuerdas vocales estn vibrando o no.
Funcionalmente, en el castellano las vocales pueden constituir palabras
completas, no as las consonantes.
Oralidad y nasalidad
Los fonemas en los que el aire pasa por la cavidad nasal se denominan
nasales, en tanto que aqullos en los que sale por la boca se denominan
orales. La diferencia principal est en el tipo de resonador principal por
encima de la laringe (cavidad nasal y oral, respectivamente). En castellano
son nasales slo las consonantes
Tonalidad
Los fonemas en los que participa la vibracin de las cuerdas vocales se
54
denominan tonales o tambin, sonoros. La tonalidad lleva implcito un

espectro cuasi peridico.
Como se puntualiz anteriormente, todas las vocales son tonales, pero

existen varias consonantes que tambin lo son:
, etc. Aquellos
fonemas producidos sin vibraciones glotales se denominan sordos. Varios de

ellos son el resultado de la turbulencia causada por el aire pasando a gran
velocidad por un espacio reducido, como las consonantes
Lugar y modo de articulacin (consonantes)
La articulacin es el proceso mediante el cual alguna parte del aparato

fonatorio interpone un obstculo para la circulacin del flujo de aire. Las
caractersticas de la articulacin permitirn clasificar las consonantes. Los
rganos articulatorios son los labios, los dientes, las diferentes partes del
paladar (alvolo, paladar duro, paladar blando o velo), la lengua y la glotis.
Salvo la glotis, que puede articular por s misma, el resto de los rganos
articula por oposicin con otro. Segn el lugar o punto de articulacin se
tienen fonemas:
Bilabiales: oposicin de ambos labios

Labiodentales: oposicin de los dientes superiores con el labio inferior
Linguodentales: oposicin de la punta de la lengua con los dientes superiores
Alveolares: oposicin de la punta de la lengua con la regin alveolar
Palatales: oposicin de la lengua con el paladar duro
Velares: oposicin de la parte posterior de la lengua con el paladar blando
Glotales: articulacin en la propia glotis
55
A su vez, para cada punto de articulacin sta puede efectuarse de

diferentes modos, dando lugar a fonemas:
Oclusivos: la salida del aire se cierra momentneamente por completo

Fricativos: el aire sale atravesando un espacio estrecho
Africados: oclusin seguida por fricacin
Laterales: la lengua obstruye el centro de la boca y el aire sale por los lados
Vibrantes: la lengua vibra cerrando el paso del aire intermitentemente
Aproximante : La obstruccin muy estrecha que no llega a producir
turbulencia
Los fonemas oclusivos (correspondientes a las consonantes

postnasal,
inicial, postnasal o postlateral,
inicial o
) tambin se
denominan a veces explosivos, debido a la liberacin repentina de la presin

presente inmediatamente antes de su emisin. Pueden ser sordos o sonoros,
al igual que los fricativos (
postvoclica y post vibrante,
postvoclica, postlateral y postvibrante,

,
aspirada,
). Slo existe un
fonema africado en castellano, correspondiente a la ch . Los laterales ( , ll )

a veces se denominan lquidos, y son siempre sonoros. Los dos fonemas
vibrantes del castellano (consonantes
, rr ) difieren en que en uno de
ellos ( ) se ejecuta una sola vibracin y es intervoclico, mientras que en el

otro ( rr ) es una sucesin de dos o tres vibraciones de la lengua. Finalmente,
los fonemas aproximantes (la
y la
cerradas que aparecen en algunos
diptongos) son a veces denominados semivocales, pues en realidad suenan

como vocales. Pero exhiben una diferencia muy importante: son de corta
duracin y no son prolongables.
En la tabla 2 se indican las consonantes clasificadas segn el lugar y el

modo de articulacin, la sonoridad y la oronasalidad. En algunos casos una
56
misma consonante aparece en dos categoras diferentes, correspondiente a

las diferencias observadas.
TABLA 2 Clasificacin de las consonantes de la lengua castellana segn el

lugar y el modo de articulacin y la sonoridad
Posicin de los rganos articulatorios (vocales)

En el caso de las vocales, la articulacin consiste en la modificacin de la
accin filtrante de los diversos resonadores, lo cual depende de las
posiciones de la lengua (tanto en elevacin como en profundidad o
avance), de la mandbula inferior, de los labios y del paladar blando. Estos
rganos influyen sobre los formantes, permitiendo su control.
Podemos clasificar las vocales segn la posicin de la lengua como se

muestra en la tabla 3.
57
TABLA 3 Clasificacin de las vocales castellanas segn la posicin de la

lengua.
Otra cualidad controlable es la labializacin, es decir el hecho de que se haga
participar activamente los labios. Las vocales labializadas, tambin definidas
como redondeadas, son las que redondean los labios hacia adelante,
incrementando la longitud efectiva del tracto vocal. La nica vocal labializada
en el castellano es la
En otros idiomas, como el francs, el portugus, el cataln y el polaco, as

como en lenguas no europeas como el guaran o el hindi, existe tambin el
matiz de oralidad o nasalidad. En las vocales orales el velo (paladar blando)
sube, obturando la nasofaringe, lo cual impide que el aire fluya parcialmente
por la cavidad nasal. En las vocales nasalizadas (u oronasales) el velo baja,
liberando el paso del aire a travs de la nasofaringe. Se incorpora as la
resonancia nasal
Duracin
La duracin de los sonidos, especialmente de las vocales, no tiene
importancia a nivel semntico en el castellano, pero s en el plano expresivo,
a travs de la agogia, es decir el nfasis o acentuacin a travs de la
duracin. En ingls, en cambio, la duracin de una vocal puede cambiar
completamente el significado de la palabra que la contiene
58
El alfabeto fontico internacional

El castellano es un idioma cuya escritura es eminentemente fontica, ya que
salvo pocos casos, hay correspondencia entre grafema y fonema. No todos
los idiomas tienen esta caracterstica. El ingls es un caso quizs extremo, a
tal punto que George Bernard Shaw ha creado posibles ortografas
alternativas para algunas palabras basndose en la forma en que sus
fonemas aparecen escritos en otras palabras. Estas extraas ortografas y el
anlisis correspondiente se muestran en la tabla 4.
TABLA 4 Ortografas alternativas de George Bernard Shaw para dos

palabras inglesas
Se ha compilado un extenso conjunto de smbolos fonticos conocido
como el Alfabeto Fontico Internacional (International Phonetic Alphabet,
IPA) que contiene una gran cantidad de fonemas de los diversos idiomas, y
que
permite
representar
de
una
manera
inequvoca
los
fonemas
independientemente del idioma. El subconjunto correspondiente al idioma

castellano se indica en la tabla 5.
59
TABLA 5 Los fonemas del alfabeto fontico internacional utilizados en la

lengua castellana
Fontica Acstica[39]
Es la que estudia la onda sonora como la salida de un resonador cualquiera;
esto es, equipara el sistema de fonacin con cualquier otro sistema de
emisin y reproduccin de sonidos. En la comunicacin , las ondas sonoras
tienen un inters mayor que la articulacin o produccin de los sonidos, para
un determinado auditorio recibe y descodifica la impresin a pesar de que
haya sido emitida por medio de una articulacin oral, o por medio de un
determinado aparato emisor de sonidos o incluso por medio de una cotorra.
Para grabar las caractersticas ms significativas de las ondas sonoras y
para determinar el resultado de las distintas actividades articulatorias se
puede emplear el espectrgrafo. De forma experimental, para poder llegar a
saber cules son los rasgos necesarios y suficientes que identifican los
sonidos de la lengua, se suprimieron partes de la grabacin de la onda
sonora y se reprodujeron otras.
60
Unidades fonticas
Los alfonos
Los alfonos son cada uno de los sonidos propios de una lengua. Alfonos
son las realizaciones concretas, fonticas, de los fonemas, de acuerdo con
los elementos fnicos que entren en contacto. Son sonidos del habla,
variantes fonticas de un sonido real. Por ejemplo, en castellano la e inicial
de la palabra ejes es ms abierta que la segunda; sin embargo, si
pronunciamos la e ms o menos abierta no cambiamos nunca el
significado de las palabras. Estas dos realizaciones concretas son variantes
fonticas, alfonos, del fonema /e/.
Los fonemas
Se definen como el conjunto de alfonos con el mismo valor fonolgico en
una lengua. Cada lengua tiene un nmero limitado de fonemas, que son
iguales a todos los hablantes en un momento dado (sincrnicamente) y que,
segn la eleccin y combinacin que se haga con ellos, constituyen los
diferentes significantes de los signos lingsticos. Por ejemplo:
/s/, /z/ casa, mismo
/n/, /N/ cana, tango
61
Caractersticas de la voz[46]
Los sonidos se clasifican en sonoros y no sonoros. En los primeros se abren
y cierran las cuerdas vocales, cambiando el rea de la traquea y originando
un tren de impulsos cuasi peridicos. El periodo o frecuencia fundamental de
este tren de impulsos se conoce con el nombre de pitch, y su valor esta
comprendido entre 50 y 400 Hz para los hombres y es superior en mujeres y
nios. En los sonidos no sonoros el aire fluye libremente hasta alcanzar el
tracto vocal al permanecer las cuerdas vocales. Posteriormente, la variacin
voluntaria del tracto vocal, junto con el estado variante de las cuerdas,
produce la voz.
El tracto vocal acta como una cavidad resonante para los sonidos sonoros,
estando centradas las frecuencias de resonancia para la mayora de la gente
en 500 Hz y sus armnicos pares. Esta resonancia causa grandes picos en
el espectro resultante, a los cuales se les llama formantes. Tambin la seal
tiene una naturaleza paso baja y a partir de unos 4KHz comienza a
predominar el ruido.
En cambio, el segmento de voz no sonoro muestra una estructura ruidosa

tanto en el dominio del tiempo como en el de la frecuencia, no tenindose
formantes. Adems la energa de la seal es mucho menor que la de los
sonidos sonoros.
Modelo del tracto voclico[36]
La voz se produce a partir de sonidos formados por la vibracin de las

cuerdas vocales y posterior resonancia en la pared del tracto voclico de la
seal producida. En los adultos, el tracto voclico es un tubo de
62
aproximadamente 17cm de largo con un rea transversal que vara de 0 a 20

cm2.La figura 9 muestra un diagrama del tracto voclico. Los pulmones
actan solamente como emisores de aire. Son las cuerdas vocales las
encargadas de introducir una perturbacin cuasi peridica en el flujo de aire.
FIGURA 14 Zonas del aparato fonador

a) Tracto voclico. a) articulaciones del habla: (1) cuerdas vocales; (2)
faringe; (3) velo; (4) paladar blando; (5) paladar duro; (6) alveolos; (7) dientes;
(8)labios; (9) punta de la lengua; (10) cuerpo lingual; (11) dorso; (12) raz; (13)
mandbula; (14) cavidad nasal; (15) cavidad oral; (16) ventanas nasales; (17)
traquea; (18) epglotis. b) tipos de articulacin de voz: (1) labial; (2) dental; (3)
alveolar; (4) palatal; (5) velar; (6) uvular; (7) faringeal; (8) glotal.
Los sonidos que conforman la voz se pueden clasificar en vocalizados
(sonoros, originados en las cuerdas vocales) y no vocalizados (sordos,
originados por una friccin en el tracto voclico), en la prctica la voz est
formada por una mezcla de ambos. Durante el proceso de generacin de
sonidos vocalizados, las cuerdas vocales estn cerradas, pero la presin
ejercida por el aire contenido en los pulmones fuerza su apertura y su
posterior relajacin ocasionando la vibracin de las cuerdas a una frecuencia
entre los 50 y 400 [Hz]. A esta frecuencia se le conoce como pitch. La forma
63
de la seal que se produce en la vibracin con las cuerdas vocales es

aproximadamente triangular. sta atraviesa el resto del tracto voclico donde
la amplitud se ve alterada por el choque de la seal con las paredes del
tracto. Durante el proceso de generacin de sonidos no vocalizados, las
cuerdas vocales estn completamente abiertas, posibilitando la circulacin
del aire por el tracto voclico, la que se ve ligeramente obstaculizada por el
roce con las paredes del tracto, lo que produce un ruido fricativo. Adems del
movimiento de las cuerdas vocales y del tracto voclico, para modelar el
proceso de generacin de voz se debe considerar tambin los movimientos
de la boca, la lengua, los labios y vibraciones nasales. Por tanto, un modelo
bsico de este proceso debe considerar lo siguiente:
La voz es una seal que emerge de una fuente definida: los pulmones
actan como emisores de aire y la seal se produce por la vibracin
de las cuerdas vocales y la posterior resonancia con las paredes del
tracto voclico.
La voz est formada por la mezcla de seales de excitacin peridica
y ruido.
La variacin temporal de la seal en el tracto voclico produce el
timbre caracterstico que diferencia los fonemas, ciertos fonemas son
articulados sin la presencia de las cuerdas vocales (fonemas sordos).
Antes de pasar por el tracto voclico, la onda sonora tiene un espectro
relativamente plano (sin formantes).
La fuente emisora posee dos estados: generacin de sonidos
vocalizados y no vocalizados.
Si se toman intervalos de tiempos pequeos se puede modelar el
rgano generador de voz a travs de la bsqueda de su funcin de
transferencia, que define relacin entre la entrada (excitacin gltica) y
la salida (voz generada) por medio de filtros.
64
ANATOMIA DEL SISTEMA AUDITIVO HUMANO[48]
EL OIDO
El odo se encarga de recoger los sonidos, procesarlos y mandar seales
sonoras al cerebro mediante el proceso de transduccin .Otra funcin muy
importante del odo es la de mantener el sentido del equilibrio.
FIGURA 15 El odo
El odo se divide entre partes que describiremos a continuacin:

Odo externo
Odo medio
Odo interno
65
ELOIDO EXTERNO
La nica parte visible del odo es el pabelln auditivo (la aurcula) que, debido
a su especial forma helicoidal, es la primera parte del odo en reaccionar ante
el sonido. El pabelln auditivo funciona como una especie de embudo que
ayuda a dirigir el sonido hacia el interior del odo. Sin la presencia de este
embudo las ondas sonoras tomaran una ruta directa hacia el conducto
auditivo. Esto hara que el proceso de audicin fuera difcil e ineficaz ya que
gran parte del sonido se perdera y seria ms difcil escuchar y comprender los
sonidos.
FIGURA 16 El Odo externo

El pabelln auditivo es imprescindible debido a la diferencia de presin que
existe en interior y exterior del odo. La resistencia del aire es mayor en el
interior que en el exterior del odo porque el aire en el interior se encuentra
comprimido, y por ello, a mayor presin. Para que las ondas sonoras penetren
en el odo de la mejor forma posible, la resistencia del aire no debe ser
demasiado alta. El pabelln auditivo es esencial para ayudar a vencer la
66
diferencia de presin en el interior y exterior del odo. El pabelln auditivo

funciona como un vnculo intermedio que hace que esta transicin sea ms
suave y menos brutal, permitiendo que penetren mayor numero de sonidos en
el conducto auditivo (meatus).
Una vez que las ondas sonoras han superado el pabelln auditivo, se
desplazan de dos a tres centmetros dentro del conducto auditivo antes de
golpear el tmpano, tambin conocido como membrana timpnica.
El tmpano
El tmpano (membrana timpnica), el cual seala el inicio del odo medio, es
extremadamente sensible. Para proteger al tmpano, el conducto auditivo se
curva ligeramente haciendo ms difcil que por ejemplo, los insectos puedan
alcanzarlo. Al mismo tiempo la cera del odo (cerumen) del conducto auditivo
ayuda a mantener fuera del odo las materias no deseadas, como el polvo, la
suciedad y los insectos. El conducto auditivo adems de proteger el tmpano,
acta como un audfono natural que amplifica automticamente los sonidos
bajos y menos penetrantes de la voz humana. De este modo, el odo
compensa parte de la debilidad de la voz humana, y hace ms fcil or y
comprender una conversacin normal.
EL OIDO MEDIO
El odo medio est constituido por una cavidad llena de aire, dentro de la
cual se encuentran tres huesecillos, denominados martillo, yunque y estribo,
unidos entre s en forma articulada. Uno de los extremos del martillo se
encuentra adherido al tmpano, mientras que la base del estribo est unida
mediante un anillo flexible a las paredes de la ventana oval, orificio que
constituye la va de entrada del sonido al odo interno.
67
Finalmente, la cavidad del odo medio se comunica con el exterior del cuerpo
a travs de la trompa de Eustaquio, la cual es un conducto que llega hasta
las vas respiratorias y que permite igualar la presin del aire a ambos lados
del tmpano.
FIGURA 17 El Odo medio

Cuando las ondas sonoras se transmiten desde el tmpano a la ventana oval,
el odo medio funciona como un transformador acstico, amplificando las
ondas sonoras antes de que lleguen al odo interno. La presin de las ondas
sonoras es 20 veces mayor en la ventana oval que en el tmpano. La presin
se aumenta debido a la diferencia de tamao entre la superficie
relativamente grande de tmpano y la superficie menor de la ventana oval.
La trompa de Eustaquio
La trompa de Eustaquio se encuentra tambin en el odo medio, y conecta el
odo con la ltima parte del paladar. La trompa de Eustaquio iguala presin
de aire a ambos lados del tmpano, garantizando que la presin no se
acumula en el odo. El tubo se abre cuando tragamos, igualando la presin
de aire en el interior y exterior de odo. En la mayora de los casos la presin
68
se iguala automticamente, pero a veces no ocurre as, y
puede ser
necesario realizar la operacin de tragado de forma energtica. La accin de

tragado forzar a abrirse al tubo que conecta el paladar con el odo,
igualando as la presin. La acumulacin de presin en el odo puede darse
en situaciones en las que la presin en el interior de tmpano es diferente de
la presin en su exterior. Si la presin no se iguala, se acumulara en el
tmpano impidiendo que ste vibre adecuadamente. La vibracin limitada
har que se reduzca ligeramente la capacidad de audicin. Una gran
diferencia de presin provocar malestar e incluso un ligero dolor. La
acumulacin de presin en el odo a menudo se da en situaciones en las que
la presin es cambiante, por ejemplo, cuando volamos o conducimos en
zonas montaosas.
EL OIDO INTERNO[41]
El odo interno es un laberinto de conductos enredados que contienen fluidos
y que estn relacionados con el sentido de odo y con el equilibrio.
Hay tres canales dentro de una estructura con forma de caracol llamada
cclea. Las vibraciones sonoras, amplificadas por los huesos del odo medio,
viajan por estos canales y mueven pequeos pelos que estimulan fibras
conectadas a su vez con el nervio auditivo.
FIGURA 18 El Odo interno
69
La Cclea
En la cclea o caracol, las ondas sonoras se transforman en impulsos
elctricos que se envan al cerebro. El cerebro traduce esos impulsos en
sonidos que podemos reconocer y entender. La cclea parece la concha de
un caracol o una manguera enrollada. La cclea se encuentra llena de un
fluido llamado perilinfa y contiene dos membranas colocadas una muy cerca
de la otra. Estas membranas forman una especie de pared de separacin en
la cclea. Sin embargo, para que el fluido se mueva libremente en la cclea
de un lado a otro en la pared de separacin, la pared dispone de un pequeo
orificio (helicotrema). Este orificio es necesario, ya que garantiza que las
vibraciones de la ventana oval se transmitan a todo el fluido que se
encuentra en la cclea. Cuando el fluido se mueve en interior de la cclea,
miles de microscpicas fibras pilosas que estn en el interior de la pared de
separacin se ponen a su vez en movimiento. Existen aproximadamente
24.000 de estas fibras pilosas, dispuesta en cuatro largas filas.
Todas las fibras pilosas estn conectadas al nervio auditivo y, dependiendo

de la naturaleza de los movimientos en el fluido coclear, se ponen en
movimiento diferentes tipos de fibras pilosas. Cuando estas fibras se mueven
envan seales elctricas al nervio auditivo que est conectado con el centro
auditivo del cerebro. Los impulsos elctricos se traducen en el cerebro en
sonidos que podemos reconocer y entender. Como consecuencia, estas
fibras pilosas son esenciales para nuestra capacidad de audicin. Si estas
fibras resultaran daadas, entonces la capacidad auditiva de la que
disponemos se vera deteriorada.
70
El Vestbulo
Otra parte importante del odo interno es el rgano encargado del equilibrio,
el Vestbulo.
El vestbulo registra los movimientos del cuerpo, garantizando as que
podamos mantener el equilibrio. El vestbulo consta de tres conductos en
forma de anillo, orientados en tres planos diferentes. Los tres conductos
estn llenos de fluido que se mueve conforme a los movimientos del propio
cuerpo. Adems del fluido, estos conductos tambin contienen miles de
fibras pilosas que reaccionan al movimiento del fluido, enviando pequeos
impulsos al cerebro. El cerebro los decodifica y utiliza para ayudar al cuerpo
a mantener el equilibrio.
FIGURA 19 Funcionamiento del odo
71
Fenmenos asociados al odo

Inhibicin: cuando hablamos (no ornos demasiado).
Saciedad verbal: al repetir mucho una palabra empieza a sonarnos
rara.
Sumador verbal: grabar vocales y al reproducirlo percibir palabras.
Comportamiento biaural: en el experimento se percibe cada tono en
su odo inicial.
Cocktail party effect: habilidad para concentrar nuestra atencin
auditiva en un hablante al escuchar una mezcla de conversaciones en
un ambiente ruidoso.
Ilusin auditiva: un sonido de frecuencia eternamente ascendente
Efecto de enmascaramiento[41]
Un sonido puede dejar de orse cuando est situado frecuencialmente (o

temporalmente) cerca de otro sonido de intensidad suficientemente alta, en
la siguiente figura se aprecia un enmascaramiento simultaneo.
72
FIGURA 20 Enmascaramiento simultaneo
CAPACIDAD AUDITIVA
Muchos animales oyen una gama de frecuencias ms amplia que la que son
capaces de or los seres humanos. Por ejemplo, los silbatos para perros
vibran a una frecuencia alta, que los seres humanos no son capaces de
detectar; mientras que ciertas evidencias sugieren que los delfines y las
ballenas se comunican con frecuencias fuera del alcance del odo humano
(ultrasonidos). La frecuencia se mide en hercios, o nmero de ondas sonoras
que un objeto emite por segundo. Cuanto ms vibra el objeto, la frecuencia y
el tono del sonido resultante son ms altos.
73
FIGURA 21 Capacidad auditiva de varios animales

Las ondas sonoras, en realidad cambios en la presin del aire, son
transmitidas a travs del canal auditivo externo hacia el tmpano, en el cual
se produce una vibracin. Estas vibraciones se comunican al odo medio
mediante la cadena de huesecillos (martillo, yunque y estribo) y, a travs de
la ventana oval, hasta el lquido del odo interno. El movimiento de la
endolinfa que se produce al vibrar la cclea, estimula el movimiento de un
grupo de proyecciones finas, similares a cabellos, denominadas clulas
pilosas. El conjunto de clulas pilosas constituye el rgano de Corti. Las
clulas pilosas transmiten seales directamente al nervio auditivo, el cual
lleva la informacin al cerebro. El patrn de respuesta de las clulas pilosas
a las vibraciones de la cclea codifica la informacin sobre el sonido para
que pueda ser interpretada por los centros auditivos del cerebro.
El rango de audicin, igual que el de visin, vara de unas personas a otras.
El rango mximo de audicin en los seres humanos incluye frecuencias de

sonido desde 16 hasta 28.000 ciclos por segundo. El menor cambio de tono
que puede ser captado por el odo vara en funcin del tono y del volumen.
74
Los odos humanos ms sensibles son capaces de detectar cambios en la

frecuencia de vibracin (tono) que correspondan al 0,03% de la frecuencia
original, en el rango comprendido entre 500 y 8.000 vibraciones por segundo.
El odo es menos sensible a los cambios de frecuencia si se trata de sonidos

de frecuencia o de intensidad bajas.
La sensibilidad del odo a la intensidad del sonido (volumen) tambin vara

con la frecuencia. La sensibilidad a los cambios de volumen es mayor entre
los 1.000 y los 3.000 ciclos, de manera que se pueden detectar cambios de
un decibelio. Esta sensibilidad es menor cuando se reducen los niveles de
intensidad de sonido. Las diferencias en la sensibilidad del odo a los sonidos
fuertes causan varios fenmenos importantes. Los tonos muy altos producen
tonos diferentes en el odo, que no estn presentes en el tono original. Es
probable que estos tonos subjetivos estn producidos por imperfecciones en
la funcin natural del odo medio. Las discordancias de la tonalidad que
producen los incrementos grandes de la intensidad de sonido, es
consecuencia de los tonos subjetivos que se producen en el odo. Esto
ocurre, por ejemplo, cuando el control del volumen de un aparato de radio
est ajustado. La intensidad de un tono puro tambin afecta a su entonacin.
Los tonos altos pueden incrementar hasta una nota de la escala musical; los
tonos bajos tienden a hacerse cada vez ms bajos a medida que aumenta la
intensidad del sonido. Este efecto slo se percibe en tonos puros. Puesto
que la mayora de los tonos musicales son complejos, por lo general, la
audicin no se ve afectada por este fenmeno de un modo apreciable.
Cuando se enmascaran sonidos, la produccin de armonas de tonos ms

bajos en el odo puede amortiguar la percepcin de los tonos ms altos. El
75
enmascaramiento es lo que hace necesario elevar la propia voz para poder

ser odo en lugares ruidosos.
EL RUIDO Y SUS CARACTERISTICAS

El Ruido
El ruido consiste en una seal electrnica que es mezcla de varias
frecuencias a muchas amplitudes, que se aaden a una seal de radio de
informacin mientras se transmite de un sitio a otro o mientras se procesa. Al
encender cualquier receptor de AM o FM y sintonizarlo en una posicin entre
estaciones, el biss o esttica que se oye en la bocina es ruido. Este tambin
se presenta en una pantalla de televisin blanco y negro como nieve o en
una pantalla a color como confeti. Si el nivel de ruido es lo suficientemente
alto y/o la seal es lo bastante baja, el ruido puede borrar por completo la
seal original. Cuando el ruido ocurre en la transmisin de datos digitales
causa errores de bits y puede resultar en mutilacin o perdida de la
informacin. El nivel de ruido en un sistema es proporcional a la temperatura
y el ancho de banda, y la cantidad de corriente que fluye por un componente,
la ganancia del circuito y la resistencia del circuito. Al incrementar cualquiera
de estos factores aumenta el ruido. Por lo tanto, el ruido bajo se obtiene con
facilidad mediante circuitos de baja ganancia, bajas corrientes directas, bajos
valores de resistencia y bandas angostas. Tambin ayuda mantener la
temperatura baja.
El ruido es un problema en los sistemas de comunicaciones siempre que las
seales recibidas sean de muy baja amplitud. Si la transmisin es a muy
poca distancia o se utilizan transmisores de ms potencia, en general el ruido
no es un problema. Pero en la mayora de los sistemas de comunicaciones,
76
las seales dbiles son normales y el ruido debe considerarse al momento

del diseo. Es en el receptor donde el ruido es ms perjudicial porque el
receptor debe amplificar la seal dbil y recuperar la informacin de manera
confiable.
Relacin seal a ruido
La relacin seal a ruido (S/N) indica las intensidades relativas de la seal y

el ruido en un sistema de comunicaciones. A mayor intensidad de la seal y
debilidad del ruido, mayor ser la relacin seal a ruido. Si la seal es dbil y
el ruido fuerte, la relacin S/N ser baja y la recepcin no ser confiable. Los
equipos de comunicacin se disean para proporcionar la ms alta relacin
factible de seal a ruido.
Ruido externo
El ruido externo viene de fuentes sobre las cuales se tiene poco o nada de
control industrial, atmosfrico o del espacio. Sin considerar su origen, el ruido
se muestra como un voltaje aleatorio de ca y puede verse en el osciloscopio.
La amplitud vara dentro de un intervalo amplio, como tambin lo hace la

frecuencia. Uno puede decir que el ruido en general contiene todas las
frecuencias, cambiando al azar.
Se debe tener en cuenta todo el ruido externo. El ruido atmosfrico y del

espacio son hachos de la naturaleza y simplemente no pueden eliminarse,
algunos ruidos industriales pueden controlarse en su origen, pero debido al
gran nmero de fuentes de este tipo de ruidos, no hay forma de suprimirlos.
77
La clave para unas comunicaciones confiables, entonces, slo es generar

seales a una potencia bastante alta para contrarrestar el ruido externo.
El ruido externo se clasifica en:
Ruido industrial
Ruido atmosfrico
Ruido industrial
El ruido industrial lo producen equipos como sistemas de ignicin automotriz,

motores elctricos y generadores. Cualquier equipo elctrico que cause
voltajes o corrientes altos que deban conmutarse produce transitorios que
crean ruido. Siempre que se pone en marcha o se apaga un motor u otro
dispositivo inductivo, ocurren pulsos de ruido de gran magnitud. Los
transitorios resultantes son muy grandes en amplitud y ricos en armnicas
aleatorias. Las lmparas fluorescentes y otras formas de lmparas rellenas
de gas son otra fuente comn de ruido industrial.
Ruido atmosfrico
Las perturbaciones elctricas que ocurren de manera natural en la atmsfera

de la tierra son otra fuente de ruido. El ruido atmosfrico a menudo se llama
esttica. El ruido de esttica por lo general viene de relmpagos, descargas
elctricas que ocurren entre nubes o entre la tierra y las nubes. Enormes
cargas elctricas se generan en las nubes y cuando la diferencia de potencial
es lo bastante grande, se crea un arco y la electricidad fluye libremente a
travs del aire. El relmpago se parece mucho a las cargas estticas que se
experimentan durante la temporada seca del invierno. Los voltajes
78
involucrados son, sin embargo, enormes, y estas seales elctricas

transitorias de megavolts generan armnicas de alta energa que pueden
viajar a grandes distancias. Igual que el ruido industrial, el ruido atmosfrico
de manera bsica se muestra como variaciones de amplitud que se suma a
una seal e interfieren con ella. El ruido atmosfrico tiene su mayor impacto
en seales a frecuencias menores de 30MHz.
El ruido extraterrestre, solar y csmico viene de fuentes en el espacio. Una

de las fuentes principales de este tipo de ruido es el Sol, que radia un
intervalo amplio de seales en un espectro extenso de ruido. La intensidad
de ruido que produce el sol vara con el tiempo. De hecho, el sol tiene un
ciclo de ruido que se repite cada 11 aos. Durante el pico del ciclo, el sol
produce una cantidad pavorosa de ruido que causa enormes interferencias
en las seales de radio, que hacen que muchas frecuencias no puedan
usarse para comunicaciones. Durante otros aos, el ruido se encuentra a
menor nivel. El ruido generado por las estrellas fuera de nuestro sistema
solar por lo general se denomina ruido csmico. No obstante que su nivel no
es tan grande como el que produce el sol, dadas las grandes distancias entre
las estrellas y la tierra, sin embargo es una fuente de ruido que debe
considerarse.
Se muestra de manera principal en el intervalo de 10 MHz a 1.5 GHz, pero

causa los mayores disturbios en el intervalo de 15 a 150 MHz.
Ruido interno
Los componentes electrnicos en el receptor como los resistores, diodos y

transistores son fuentes fundamentales de ruido interno. Este, aun cuando es
79
de bajo nivel, a menudo es lo bastante grande para interferir con seales

dbiles.
El ruido interno se clasifica en:
Ruido trmico
Distorsin por intermodulacin
Ruido trmico
La mayor parte del ruido interno es causado por el fenmeno llamado

agitacin trmica , que es el movimiento catico de los electrones libres de
un conductor, provocado por el calor. Al aumentar la temperatura, este
movimiento atmico se incrementa. Como los componentes son conductores,
el movimiento de los electrones constituye un flujo de corriente que provoca
un pequeo voltaje a travs de ese componente. Los electrones que
atraviesan
un
conductor
como
flujos
de
corriente,
experimentan
impedimentos pasajeros en su trayectoria mientras encuentran a los tomos

agitados de manera trmica. La resistencia aparente del conductor flucta y
as causa el voltaje aleatorio producido trmicamente que se llama ruido.
Componentes electrnicos como diodos y transistores son contribuyentes

mayores de ruido. Adems del ruido trmico, los semiconductores producen
ruido aleatorio, ruido de trnsito y ruido de parpadeo. El tipo ms comn de
ruido de los semiconductores es el ruido de disparo . El flujo de la corriente
en cualquier dispositivo no es directo ni lineal. Los portadores de corriente,
electrones o huecos, algunas veces toman trayectorias al azar desde la
80
fuente hasta destino, ya sea que el destino sea un elemento de salida, la

placa de un tubo, el colector o drenaje de un transistor. Este movimiento
aleatorio es el que produce el efecto de disparo. El ruido de disparo o catico
tambin es producido por el movimiento aleatorio de los electrones o los
hoyos a travs de una unin PN. Aun cuando el flujo de corriente se
establece por la tensin de polarizacin externa, algn movimiento aleatorio
de los electrones o de los huecos ocurrir debido a las discontinuidades en el
dispositivo. Por ejemplo, la interfase entre el conductor de cobre y el material
semiconductor forma una discontinuidad que causa el movimiento aleatorio
de los portadores de corriente.
Otro tipo de ruido que ocurre en los transistores es el ruido de tiempo de

trnsito . El trmino tiempo de trnsito se refiere al tiempo que le toma a un
portador de corriente, como un hueco o un electrn, moverse de una entrada
a una salida. Los dispositivos mismos son muy delgados, por lo que las
distancias implicadas son mnimas; sin embargo, el tiempo que demoran los
portadores de corriente en trasladarse aun una distancia muy corta, es finito.
En frecuencias bajas este tiempo es despreciable, pero si la frecuencia de

operacin es alta y el periodo de la seal que se est procesando es del
mismo orden de magnitud que el tiempo de trnsito, puede haber problemas.
El ruido de tiempo de trnsito se muestra como una variacin aleatoria de los

portadores de corriente dentro de un dispositivo, que ocurre cerca de la
frecuencia de corte superior. El ruido de tiempo de transito es directamente
proporcional a la frecuencia de operacin.
Un tercer tipo de ruido del semiconductor, es el ruido de parpadeo o ruido

excesivo, tambin ocurre en los resistores y en los conductores. Esta
perturbacin se debe a pequeas variaciones aleatorias del material del
81
resistor o del semiconductor. Es directamente proporcional a la corriente y la

temperatura. Sin embargo, es inversamente proporcional a la frecuencia y,
por ello, algunas veces se denomina ruido 1/f. El ruido de parpadeo toma su
mayor valor en las frecuencias bajas y, por lo tanto, no es ruido blanco puro.
Debido a la escasez de componentes de alta frecuencia el ruido 1/f tambin

se llama ruido rosa.
En ciertas frecuencias bajas, el ruido de parpadeo empieza a superar el ruido

trmico o el de disparo. En algunos transistores esta frecuencia de transicin
es tan baja como en algunos cientos de Hz en otro, el ruido puede empezar
a crecer en frecuencias tan altas como 100KHz.
Ruido de ntermodulacin
La distorsin por intermodulacion se debe a la generacin de nuevas seales

y armnicas como resultado de no linealidades en el circuito. Como antes se
menciono. Los circuito nunca pueden ser perfectamente lineales, y si los
voltajes de polarizacin son incorrectos en algn criterio, el posible que
resulte menos lineal que lo esperado. La no linealidad produce modulacin y
efectos heterodinos. En el circuito las frecuencias se mezclan unas con otra y
forman frecuencias de sumas y diferencias. Cuando se trata de muchas
frecuencias, o de pulsos u ondas rectangulares, el gran nmero de
armnicos produce una cantidad aun mayor de frecuencias de sumas y
diferencia. Los productos resultantes son pequeos en amplitud, pero
pueden ser lo bastante grandes para constituir un disturbio que puede
llamarse como cierto tipo de ruido. Este ruido, que no es blanco o rosa, en
realidad puede predecirse porque conocen las frecuencias implicadas ala
generacin de los productos de intermodulacion. Debido a la correlacin
82
predecible entre las frecuencias conocidas y el ruido la distorsin por

intermodulacion tambin se llama ruido correlacionado. Este se produce solo
cuando las seales estn presentes. Los tipos de ruido antes presentados a
veces se denominan ruidos no correlacionados.
El ruido correlacionado se manifiesta como las seales de bajo nivel

llamadas birdies o silbidos. Puede minimizarse con un buen diseo.
Ruido blanco o gaussiano

Es debido a la agitacin trmica de los electrones en la lnea de transmisin,
o a la induccin de lneas elctricas adyacentes. Se considera inevitable,
pero por lo general no es un problema a menos que su nivel sea muy
elevado. Ejemplos de este tipo de ruido los tenemos en el ceceo de fondo o
esttica conocido en radios y telfonos.
Ruido de impulsos o agujas
Es el principal causante de errores en la comunicacin de datos. Es
identificado como un "click" durante las comunicaciones de voz. Este ruido
provoca un error de rfaga en donde dependiendo de la tasa de transferencia
de informacin y la duracin del impulso puede cambiar desde 1 o 2 bits,
hasta decenas o centenas de estos. Las principales fuentes de estos ruidos
son cambios de voltajes en lneas adyacentes, falsos contactos y arcos
elctricos en los interruptores o relevadores en las oficinas telefnicas
antiguas.
Ruido de amplitud
Este ruido comprende un cambio repentino en el nivel de potencia, y es
causado por amplificadores defectuosos, contactos sucios con resistencias
83
variables, cargas agregadas repentinas porque se conmuten nuevos circuitos

durante el da y por labores de mantenimiento.
El ruido de amplitud no afecta las tcnicas de modulacin de frecuencia
debido a que el equipo transmisor y receptor interpretan la informacin de
frecuencia e ignoran la informacin de amplitud.
84
CAPITULO II. CODIFICACION DE VOZ[35]
Definicin de codificacin de la voz
Codificar la voz consiste en convertir las ondas sonoras que la representan a

otro tipo de representacin que, aunque menos natural, si resulta mas
adecuada para determinadas tareas. Veamos un posible ejemplo de
codificacin de voz: supongamos que disponemos de un ordenador que tiene
conectado un micrfono, las ondas sonoras que pueden traducir a valores
numricos (que el ordenador puede almacenar) sin ms que ir midiendo
peridicamente el resultado de la excitacin del micrfono.Consecutivamente,
los valores depositados podran utilizarse para excitar un altavoz, y as
reproducir la voz.
La codificacin tambin estudia, una vez que se ha transformado la seal de

voz a otra representacin, cual es la mejor forma de tratar esa nueva
representacin para que el tratamiento de la informacin obtenida sea optimo.
Historia de los codificadores de voz
Hace unos cincuenta aos que empez la investigacin en el campo de la

codificacin de la voz. El pionero fue Homer Dudley, que trabajaba en los
laboratorios de la Bell Telephone. La estimulacin de esta investigacin
surgi por la necesidad de trasmitir voz por los cables de telegrafa de
pequeo ancho de banda. La idea del vocoder (VOICE CODER, codificador
de voz) de Dudley era analizar la voz para extraer una serie de
caractersticas y que el emisor enviase estas caractersticas, cuando estas le
85
llegasen al receptor reconstruira la voz original. Este codificador recibi gran

atencin mientras la segunda guerra mundial, debido a su potencial en
cuanto a eficiencia y posibilidad de encriptacin se refiere.
Las primeras implementaciones del vocoder eran analgicas, no obstante,

con el nacimiento de los sistemas digitales y de las posibilidades que estos
ofrecen, pronto se paso a las implementaciones digitales. Durante de la
dcada de los 40 hubo una gran actividad en la codificacin por modulacin
de impulsos (PCM). Este tipo de codificacin no sigue la filosofa del vocoder
de Dudley (y de los vocoders en general), sino que simplemente muestra la
voz. A partir de PCM se desarrollaron el DPCM y el ADPCM que fueron
propuestos como estndar por la CCIIT (Internacional Consultative
Committee for Telephone and Telegraph). Gracias a la flexibilidad de los
sistemas digitales, se pudo experimentar con formas mas sofisticadas de
representacin de la voz. Fant, a finales de los 50, trabajo en el modelo de
produccin de voz lineal.
El surgimiento de la tecnologa VLSI, tecnologa de muy baja escala de

integracin durantote los 60 y 70 permiti nuevas soluciones al problema de
la codificacin de la voz. As por ejemplo, Flanagan y Golden propusieron
una solucin basada en la Transformada de Fourier.
De los 80 la investigacin ha ido encaminada a obtener codificadores que

utilicen un ancho de banda cada vez menor mientras que la calidad de la voz
sea cada vez mejor. Con esto se permite utilizar con ms eficiencia y eficacia
los canales de transmisin, se facilita la encriptacin y se aprovechan mejor
los sistemas de almacenamiento.
Una de las principales aplicaciones de la codificaron de voz es la telefona

mvil, en Estados Unidos se utiliza un estndar de 8 Kbps (VSELP) y otro
86
similar, a 6.7 Kbps en Japn. En Europa, dentro del sistema GSM, se usa un
codificador a 13 Kbps.
Muestreo y cuantificacin
La seal de voz es continua en el tiempo y en amplitud. Para que pueda ser

procesada por hardware (y software) digital es necesario convertirla a una
seal que sea discreta tanto en el tiempo como en amplitud.
Muestreo
Consiste en proceso de transformacin de seales continuas a seales

discretas en el tiempo. Este proceso se ejecuta midiendo la seal en
instantes peridicos del tiempo veamos un ejemplo dada la siguiente seal
continua.
FIGURA 22 Seal continua

Muestrendola obtenemos la siguiente seal discreta.
87
FIGURA 23 Seal discreta

En el ejemplo anterior hemos visto el efecto muestrear una seal sinusoidal.
Si aumentamos el numero de muestras por unidad de tiempo, la seal
muestreada se parecer mas a la seal continua. El nmero de muestras por
segundo se conoce en ingles como bit-rate.
Si el bit-rate es suficientemente alto, la seal muestreada contendr la misma

informacin que la original. Respecto a esto el criterio de Nyquist asegura
que para la seal muestreada contenga la misma informacin que la continua,
la separacin mnima entre dos instantes de muestreo debe ser 1/(2w),
siendo w el ancho de banda de la seal. Dicho de otra forma, que la
frecuencia de muestreo debe ser mayor o igual que 2w.
Cuantificacin
La cuantificacin es la transformacin de una seal discreta en el

tiempo evaluada de forma continua a una seal discreta en el tiempo
88
discretamente evaluada. El valor de cada muestra de la seal se

representa como un valor elegido de entre un conjunto finito de
posibles valores.
Se conoce como error de cuantificacin (o ruido), a

entre
la
seal
la
discrepancia
de entrada (sin cuantificar) y la seal de salida (ya
cuantificada), interesa que el ruido sea lo ms bajo posible. Para obtener

esto, se pueden usar distintas tcnicas de cuantificacin:
Cuantificacin uniforme
Cuantificacin logartmica
Cuantificadores Uniformes
En los cuantificadores uniformes (o lineales) la distancia entre los niveles

de reconstruccin es siempre la misma. No hacen ninguna hiptesis
acerca de la naturaleza de la seal a cuantificar, de ah que no obtenga
los mejores resultados. Sin embargo, tienen como ventaja que son los
ms fciles y menos costosos de realizar.
En la siguiente figura se ve un ejemplo de cuantificacin uniforme:
89
FIGURA 24 Cuantificacin uniforme
FUENTE 1 Universidad de Sevilla

El cuantificador uniforme redondea las amplitudes al valor ms prximo de un
conjunto de niveles. Es un mtodo de cuantificacin sin memoria y con
prdidas. El escaln de cuantificacin
es constante.
90
Ej. Voz muestreada a 8 kHz., PCM con 8bits/muestra(L=256 niveles)
91
El problema de la cuantificacin uniforme es que conforme aumenta la

amplitud de la seal, adems aumenta el error. Este problema lo resuelve
el cuantificador logartmico de forma parcial. Sin embargo, si conocemos
la funcin de la distribucin de probabilidad, logramos ajustar los niveles
de reconstruccin a la distribucin de forma que se minimice el error
cuadrtico medio. Esto significa que la mayora de los niveles de
reconstruccin se den en la vecindad de las entradas ms frecuentes y,
consecuentemente, se minimice el error (ruido).
En la prctica, se puede usar una estimacin de la distribucin para

disear los cuantificadores. Esta estimacin se puede conseguir a partir
de los datos a cuantificar de forma iterativa.
FIGURA 25 Cuantificacin no uniforme

Se caracteriza por que la anchura
k de los intervalos de cuantificacin Ik
puede diferir.
p(x
Pk
Ik) = prob.de pertenecer al intervalo Ik

= p(x
Ik)/ k densidad media de probabilidad en el intervalo.
92
Para minimizar la varianza del error de cuantificacin. Se debe elegir el paso

de cuantificacin variable de forma que se obtenga mayor precisin en las
zonas ms probables:
Ancho del intervalo k
k= cte/ Pk
Pk
alta densidad => pasos ms pequeos
Pk
baja densidad => pasos ms grandes.
cuantificacin logartmica
Las seales de voz pueden tener un rango dinmico superior a los

60 dB, por lo que para obtener una alta calidad de voz se deben usar un
elevado nmero de niveles de reconstruccin. Sin embargo, interesa
que la resolucin del cuantificador sea mayor en las partes de la seal
de menor amplitud que en las de mayor amplitud. Por tanto, en la
cuantificacin lineal se desperdician niveles de
reconstruccin y ancho
de banda. Esto se puede optimizar incrementando la distancia entre los

niveles de reconstruccin conforme aumenta la amplitud de la seal.
Un mtodo sencillo para obtener esto es haciendo pasar la

un compresor logartmico
seal por
antes de la cuantificacin. Esta seal
comprimida puede ser cuantificada uniformemente. A la salida del

sistema, la seal pasa por un expansor, que ejecuta la funcin inversa al
compresor a esta tcnica se le llama compresin. Su principal ventaja
es que es muy fcil de implementar y funciona razonablemente bien con
seales distintas a la de la voz. A continuacin un ejemplo de comprensin.
93
FIGURA 26 Ejemplo de comprensin

Para llevar a cabo la compresin existen dos funciones muy utilizadas:
Ley-A (utilizada principalmente en Europa) y ley-(utilizada en EEUU).
FIGURA 27 Ejemplo de comprensin( b)

En la mayora de los sistemas telefnicos, A se fija a 87.56 y a 255.
La siguiente figura muestra la grfica de la ley-para distintos valores de
:
94
FIGURA 28 Grfico de la ley- para distintos valores de

Se suelen utilizar en los codificadores CELP para codificar el residuo de
prediccin.
En
los
mtodos
anteriores,
cada
muestra
se
cuantificaba
independientemente a las muestras vecinas. Sin embargo, la teora

demuestra que sta no es la mejor forma de cuantificar los datos de
entrada. Resulta ms eficiente cuantificar los datos en bloques de N
muestras. El proceso es sencillamente una extensin de los anteriores
95
mtodos escalares descritos anteriormente. En este tipo de cuantificacin,

el bloque de N muestras se trata como un vector N-dimensional.
En la siguiente figura vemos un ejemplo de cuantificacin vectorial (VQ)

en dos dimensiones:
FUENTE 6 Ejemplo de cuantificacin vectorial (VQ) en dos

dimensiones.
La
cuantificacin
vectorial
ofrece
mejores
resultados
que
la
cuantificacin escalar, sin embargo, es ms sensible a los errores de

transmisin y lleva consigo una mayor complejidad computacional.
Medida subjetiva de la calidad de voz
El Test MOS consiste en una evaluacin subjetiva de la calidad de sntesis

de voz de un sistema. Fue normalizado por el comit Consultivo Internacional
96
de Telefona y Telegrafa (CCITT) a principio de los aos 80 y se le ha

utilizado principalmente para medir la calidad en sistemas de comunicacin
celular digital.
MOS: Mean Opinion Store

MOS
Calidad
Degradacin
E x celente
Imperceptible
B u en a
Perceptible pero no
molesta
Med ia
Ligeramente
molesta
Pobre
Molesta
Mala
Muy molesta
TABLA 6 Medida subjetiva de la calidad de voz
Clasificacin de los codificadores de voz
Los codificadores de voz se clasifican en tres grandes grupos, a saber:
codificadores de la forma de onda

vocoders
codificadores hbridos
97
FIGURA 29 Calidad de voz vs Velocidad

En el primer grupo, codificadores de forma de onda, abarcan aquellos
codificadores que intentan reproducir la forma de la onda de la seal de
entrada sin tener en cuenta de donde proviene. Estos, en funcin de en
qu dominio operen, se dividen en:
codificadores en el dominio del tiempo

codificadores
en
el
dominio
de
la frecuencia
Este tipo de codificadores proporcionan una alta calidad de voz a bit

rates medios, del orden de 32 kb/s. Sin embargo, no son tiles cuando se
quiere codificar a bajos bit rates.
En el grupo de vocoders estn aquellos codificadores que s tienen en

cuenta la naturaleza de la seal a codificar, en este caso la voz, y
aprovechan las caractersticas de la misma para ganar en eficiencia.
Permiten trabajar con muy bajos bit rates, pero la seal de voz que
98
producen suena demasiado sinttica.
En el tercer grupo, los codificadores hbridos, encontramos aquellos que

combinando tcnicas de los vocoders y de los codificadores de la forma
de la onda anan las ventajas de ambos, permitiendo una alta calidad de
voz a bajos bit rates.
Codificadores de la forma de onda
Los codificadores de la forma de onda intentan reproducir la forma de la

onda de la seal de entrada. Generalmente se disean para ser
independientes a la seal, de tal forma que pueden ser
usados para
codificar una gran variedad de seales. Presentan una degradacin

aceptable en presencia de ruido y errores de transmisin. Sin embargo,
para que sean efectivos, slo se deben usar a bit-rates medios. La
codificacin se puede llevar a cabo tanto en el dominio del tiempo como
de la frecuencia.
Los codificadores de forma de onda dividen en dos grupos:
en el dominio del tiempo

en el dominio de la frecuencia
Codificadores en el dominio del tiempo
Dentro de este grupo tenemos los siguientes codificadores:
PCM
99
DPCM
DM
ADPCM
Modulacin por codificacin de impulsos (PCM)
La modulacin por codificacin de impulsos es la codificacin de forma

de
onda
ms sencilla. Primordialmente, consiste en el proceso de
cuantificacin. Cada
muestra que entra al codificador se cuantifica en
un establecido nivel entre un conjunto finito de niveles de reconstruccin.

Cada uno de estos niveles se hace pertenecer con una secuencia de
dgitos binarios, y esto es lo que se enva al receptor. Se pueden usar
distintos criterios para llevar a cabo la cuantificacin,
siendo el
ms
usado el de la cuantificacin logartmica.
DPCM
ADPCM
Modulacin por codificacin de impulsos diferencial (DPCM)
Puesto que PCM no tiene en cuenta la forma de la onda de la seal a

codificar, funciona muy bien con seales que no sean las de la voz, sin
embargo, cuando se codifica voz hay una gran correlacin entre las
muestras adyacentes.
Esta correlacin puede aprovecharse para reducir el nmero de muestras

por segundo. Una forma fcil de hacerlo sera transmitir nicamente las
diferencias entre las muestras. Esta seal de diferencia tiene un rango
dinmico mucho menor que el de la voz original, por lo que podr ser
100
cuantificada con un nmero menor de niveles de reconstruccin. En la

figura siguiente se muestra el funcionamiento de DPCM, donde la
muestra anterior se usa para predecir el valor de la muestra actual.
FIGURA 30 Sistema DPCM (a) codificador (b) decodificador

Normalmente, el valor predicho, s n, es una combinacin lineal de un
nmero finito de muestras anteriores, sn:
Ecuacin 1
Ecuacin 2
La seal de diferencia, dn, se denomina residuo y es el residuo lo que

se cuantifica y se enva al receptor. Los coeficientes de prediccin, {ak},
se eligen para reducir el error cuadrtico medio, E:
101
Modulacin delta
FIGURA 31Modulacin delta codificador y decodificador
FIGURA 32. Error de sobrependiente
102
Modulacin por codificacin de impulsos diferencial adaptativa

(ADPCM)
En DPCM tanto el predictor como el cuantificador permanecen fijos

el
tiempo.
en
Se podra obtener una mayor eficiencia si el cuantificador
se adecuase a los
cambios del residuo de prediccin. Conjuntamente,
tambin se podra hacer que la prediccin se adaptase a la seal de la

voz. Esto asegurara que la raz cuadrada del error de prediccin
se minimice continuamente, con independencia de la seal de voz y de
quin la emita.
La siguiente figura muestra un codificador/decodificador ADPCM
FIGURA 33. Codificador/decodificador ADPCM
103
Hay dos mtodos para adaptar los cuantificadores y los predictores,

llamados
adaptacin en feedforward y adaptacin en feedbackward.
En la adaptacin feedforward los niveles de reconstruccin y los

coeficientes de prediccin se calculan en el emisor, usando un bloque
de voz. Posteriormente son cuantificados y
como
informacin
lateral. Tanto el emisor
transmitidos
como
al receptor
el receptor usan
estos valores cuantificados para hacer las predicciones y cuantificar el

residuo. En la adaptacin feedbackward los niveles de reconstruccin
y los coeficientes de prediccin se calculan a partir de la seal
codificada.
Puesto
que la seal es conocida tanto por el emisor como
por el receptor, no hay
necesidad de transmitir informacin lateral, as
el predictor y el cuantificador pueden actualizarse para cada muestra.

La adaptacin feedbackward puede dar menores bir rates, pero es ms
sensible a los errores de transmisin que la adaptacin feedforward.
ADPCM es muy til para codificar voz a bit rates medios.
propone
un
La
CCITT
estndar de codificacin de voz telefnica a una
velocidad de 32 kb/s. Es el estndar G.721. Usa un esquema de

adaptacin
feedbackward tanto para el cuantificador como para el
predictor. El predictor tiene dos polos y seis ceros, por lo que produce
una calidad de salida aceptable para seales que no son de voz.
Codificacin en el dominio de la frecuencia
Este tipo de codificadores dividen la seal en distintas componentes

en frecuencia y codifican cada
independiente. El nmero
de
una
bits
de
stas
forma
usados para codificar cada
componente en frecuencia puede variar dinmicamente:
104
de
Algunos tipos codificadores en el dominio de la frecuencia son:
Codificacin en subbandas
Se basa en como percibe el sonido el odo.
105
Codificacin en sub-bandas
Es el ms sencillo de los mtodos en el dominio de la frecuencia. A

continuacin codificador en sub-bandas:
FIGURA 34. Codificador en sub-bandas.

La
seal
atraviesa
un
conjunto
106
de
filtros
paso-banda
(BPF).
Posteriormente, cada sub-banda se pasa a banda baja y se realiza un

proceso de decimacin, es decir, se suprimen muestras. Las subbandas se codifican empleando algn mtodo basado en el dominio del
tiempo. El nmero de bits asignados a cada banda pueden variar en
funcin de la importancia de dicha banda. En el receptor, se aaden
muestras y se vuelven a modular las bandas a sus posiciones originales.
Al final, se suman para conseguir la seal de voz de salida. La principal

ventaja de la codificacin en subbandas es que el ruido de cuantificacin
que se origina en cada banda queda confinado a la misma. La
codificacin en subbandas se usa mucho en seales de un gran ancho
de banda, como puede ser en teleconferencia
FIGURA 35.Codificador ITU G722 Sub -band
107
FIGURA 36 .Decodificador ITU G722 Sub band
Reside en una codificacin por bloques.
La seal
de
entrada
se
transforma en un dominio diferente y se codifican los coeficientes de la

transformacin. En el receptor, el decodificador calcula la transformada
inversa para adquirir la seal original reconstruida.
La transformacin ms usada es la Transformada Discreta del Coseno,

DCT, cuya representacin es la siguiente:
108
Ecuacin 3
La codificacin por transformada se utiliza en la codificacin de seales
de banda ancha de imagen y sonido. Sin embargo, no se usa mucho
en codificacin de voz debido a su complejidad.
FIGURA 37.Codificacin por transformada
Vocoders
Los codificadores de la forma de la onda no tienen en cuenta la

naturaleza de la seal a codificar. Sin embargo, si codificamos una seal
de voz, podemos aprovechar sus caractersticas intrnsecas para que la
109
codificacin se efectu de forma ms ptima. Tambin, los vocoders

(VOice CODERS) suponen el siguiente modelo de produccin de voz:
FIGURA 38.Modelo de produccin de voz.

Los vocoders intentan producir una seal que suene como la voz
original, autnomamente de si la forma de onda se parece o no. En el
transmisor se analiza la voz y se extraen los parmetros del modelo
y la excitacin. Esta informacin se enva al receptor donde se sintetiza o
reconstruye la voz. El resultado es que se produce voz inteligible a muy
bajo bit-rate, pero tiene el problema de que no suena natural.
Algunos tipos de vocoders, que explicaremos a continuacin son:

LPC-10 (FS-1015)
110
Es el tipo de vocoder ms utilizado. Este vocoder utiliza el mismo

modelo de produccin que otros vocoders
pero
difiere
en
la
determinacin del modelo del tracto vocal. Supone que el tracto

vocal se puede describir por un filtro todo polos de respuesta impulsiva
infinita (filtro IIR),H(z).
Ecuacin 4
A este filtro se le conoce tambin como filtro LPC (Lineal PredictiveCoding).
Es decir, se supone que cada muestra es una combinacin lineal de
las muestras anteriores. Los coeficientes del filtro se calculan para
minimizar el error entre la muestra actual y su prediccin.
En este vocoder, se trabaja sobre bloques de 20 ms de voz. Se trabaja

sobre lo que se conoce como modelo corto, las caractersticas de la
voz se suponen que no varan con el tiempo en intervalos pequeos.
Esos bloques se analizan para establecer los coeficientes de prediccin.
Estos se cuantifican y se envan al receptor junto a otros parmetros. El

efecto de la prediccin es similar a la correlacin entre muestras
adyacentes.
La popularidad de este vocoder viene de que el modelo todo polos del
111
tracto vocal funciona muy bien y es posible alcanzar una seal de voz
sintetizada muy inteligible a bit-rates del orden de 2.4 Kbps.
Vocoder LPC-10 (FS-1015)
Este algoritmo de codificacin de
voz
fue desarrollado
por el
DOD
(Department Of Defense), el Departamento de Defensa Estadounidense.

Permite la codificacin de la seal de la voz a una velocidad de 2400
bps.
FIGURA 39. Esquema de funcionamiento de Vocoder LPC-10.
Emisor
El emisor se divide en dos bloques, que tienen las siguientes funciones:
fase de anlisis
codificacin de parmetros
La fase de anlisis es la encargada de la extraccin del "pitch" y del tipo

de sonido (sonoro o sordo), as como de la extraccin de los
coeficientes de reflexin y la energa de la seal para cada una de las
112
tramas en que dicha seal es dividida. Como coeficientes del filtro LPC
se utilizan los coeficientes de reflexin. Los coeficientes {ak} k=1, .. ,10
presentan unas caractersticas que los hacen inadecuados para su
transmisin. La fase de codificacin es la encargada de codificar
estos parmetros y convertirlos en la secuencia de bits a transmitir.
Este es el diagrama de bloques del emisor:
FIGURA 40. Diagrama de bloques del emisor.

A la seal de voz de se le aplica un preprocesado: atraviesa un filtro
paso banda, y se realiza un prenfasis (el prenfasis reduce los
requerimientos de precisin de los clculos posteriores). Adems, con el
prenfasis se consigue modelar mejor las amplitudes
formantes a
bajas
de
los
altas frecuencias.
Despus, en el anlisis LPC, se calculan los coeficientes LPC con el

mtodo de la covarianza. La voz atraviesa una serie de filtros con el fin
de mejorar el pitch. Despus, la seal de voz se transfiere a la fase
del algoritmo AMFD (Average Magnitude Diference Function) y al
detector de voz (para extraer el pitch y decidir entre sonoro/sordo). Los
113
resultados de este detector, junto con los del pitch, son corregidos
suavizados por un algoritmo de programacin dinmica. Este proceso

se realiza dos veces por cada trama.
Los 10 coeficientes de reflexin, RMS (Root Mean Square, mide la

energa del segmento, se calcula en el pitch) y el pitch se codifican y
se obtiene un bit-rate de 2400 bps.
Receptor
En el receptor, lo que se hace es reconstruir la voz simulando la

excitacin sonora por algn tipo de tren
de
impulsos
repetido
peridicamente a la frecuencia del "pitch" y la sorda simplemente como

ruido. La seal de excitacin as formada se pasa posteriormente por un
filtro
similar
al utilizado
en
la
fase
de
anlisis
que es
el
encargado de simular el tracto vocal. La salida de dicho filtro es escalada

en funcin de la energa RMS para obtener una reconstruccin de la
seal original.
La siguiente figura muestra el diagrama de bloques del receptor:
FIGURA 41 Diagrama de bloques del Receptor
114
Tras la conversin de serie a paralelo, se realiza la deteccin y correccin

de
errores,
as como la decodificacin mediante tablas. Se introduce
una trama de retraso para poder suavizar la trama actual basndose

en la mediana entre la trama presente, la pasada y la futura. Dicha
suavizacin vara dependiendo de la tasa de error. A medida que sta
aumenta es necesario aumentar tambin la suavizacin.
Codificadores Hbridos
En la codificacin hbrida se combinan las tcnicas de los codificadores

de la forma de la onda con las de los vocoders con la intencin de
conseguir una alta calidad de voz a bajos bit-rates (inferiores a 8
Kb/s).En estos codificadores, las muestras de la seal de entrada se
dividen
como si
en bloques
fueran
de
uno
muestras
solo.
(vectores)
Llevan
que son procesados
a cabo una representacin
paramtrica de la seal de voz para tratar que la seal sinttica se

parezca lo ms posible a la original.
De igual forma se les
conoce
como
codificadores de anlisis-por-
sntesis. En el emisor se lleva a cabo un anlisis que obtiene los

parmetros de la seal para
luego sintetizarla
parecido a la original.
Tipos de codificadores codificadores hbridos:
Codificacin RELP
Codificacin multipulso, MPC
Codificacin CELP (FS-1016)
Codificacin VSELP
115
y conseguir el mayor
Codificacin RPE-LTP
Codificacin RELP
Cuando la seal de voz atraviesa un predictor lineal, se elimina la

correlacin entre tramas. Si la prediccin es bastante buena, la salida
del predictor ser aproximadamente ruido blanco, espectralmente plano,
como se muestra en la siguiente figura:
FIGURA 42 Salida del predictor.

El residuo contiene toda la informacin de excitacin y cualquier
informacin que el filtro LPC no considera. La idea de RELP es que
una pequea parte del residuo se transmite y a partir de l reconstruir
el residuo completo en el receptor.
El filtro LPC no elimina la informacin del pitch, y esta informacin no

se modela correctamente por el residuo transmitido. RELP proporciona
buena calidad para una velocidad de transmisin de 9.6 kps.
116
Codificacin multipulso, MPC
Los vocoders categorizan la voz en sonoro o no sonoro pero no

consideran una mezcla de ambos sonidos y de ah su baja calidad. El
codificador multipulso trata de corregir este problema.
El periodo
de
pitch causa una correlacin de retardo largo que no se elimina con el filtro
LPC. Esta correlacin se puede eliminar pasando el residuo a travs de
un segundo predictor lineal, llamado predictor de pitch o filtro de pitch.
Este filtro es del tipo:
Ecuacin 5
Siendo M el periodo del pitch.
La salida de este predictor es aproximadamente ruido gaussiano.
FIGURA 43 (a) Seal original. (b) Residuo del filtro LPC (aumentado en
10dB). (c) Residuo de los filtros LPC y de pitch en cascada (aumentado en
10dB)
117
El codificador multipulso pasa como excitacin a los dos filtros una serie
de impulsos (sobre 4 o 6 impulsos). La posicin y sus amplitudes se
establecen utilizando un procedimiento de anlisis por sntesis (se
sintetiza la voz para cada uno de estos conjuntos de impulsos y el
conjunto que produce el error menor entre la seal reconstruida y la
original se elige como la excitacin).
El codificador multipulso causa una seal de voz de muy buena calidad

a bit-rates del orden de 9.6 kbps. Una variacin de este codificador
consiste en elegir como secuencia de excitacin unos patrones de pulsos
regularmente espaciados. Este codificador se conoce como
RPE
(Regular Pulse Excitation).
Codificacin CELP (FS-1016)
CELP se basa en procedimientos de bsqueda de anlisis por sntesis,

cuantizacin de vectores con pesos (VQ) y prediccin lineal (LP). Se
usa un filtro LPC de dcimo orden para modelar las formantes de
retardo corto de la seal de voz. La periodicidad de retardo largo de la
seal se modela con un diccionario adaptativo
VQ (tambin llamado
pitch). El error de la prediccin lineal de retardo corto y el pitch VQ se

cuantifican utilizando un libro de secuencias estocsticas (son muestras
de ruido aleatorio blanco gaussiano).Al receptor slo
como excitacin el ndice del diccionario y la ganancia.
118
se
le
enva
Codificador
FIGURA 44 Etapa de anlisis de un transmisor CELP.
FIGURA 45 Detalle de la figura 44.

En la figura 44 se muestra la etapa de anlisis de un transmisor CELP
(la figura 45 es la figura 44 en detalle). Este contiene una rplica del
sintetizador del receptor (excepto el post-filtro). A la seal de entrada, se
le resta la salida del sintetizador CELP, esta diferencia se pasa por un
filtro perceptual. El error perceptual se utiliza posteriormente para realizar
la bsqueda en el diccionario. El procedimiento de bsqueda encuentra
las ganancias de los diccionarios estocsticos y adaptativos que
minimizan el error cuadrtico medio. El filtro de prediccin lineal puede
determinarse por tcnicas de anlisis de retardo corto de la seal de
entrada.
119
El objetivo del filtro perceptual es atenuar aquellas frecuencias en las

que el odo humano detecta menos los posibles errores y aumentarlas
para aquellas en que el odo es ms perceptivo. O sea, se lleva a cabo
una comparacin dando ms importancia a aquellas zonas donde el odo
aprecia ms el ruido
Decodificador
FIGURA 46. Decodificador (sintetizador) CELP

El sintetizador CELP (figura 46) se basa en el principio del uso de un filtro
de prediccin lineal cuya ganancia se busca en una tabla. La excitacin se
crea usando, en paralelo, un diccionario estocstico (de valores aleatorios)
fijo y otro diccionario que no es fijo, sino adaptativo. Posteriormente, se
actualiza el diccionario adaptativo con esta excitacin.
En el receptor, se puede mejorar la calidad de la voz sintetizada

aadiendo una fase de post- filtrado.
Codificacin VSELP
El codificador VSELP es el estndar en las comunicaciones celulares

digitales en Estados Unidos. Permite el procesamiento de voz a un bitrate de 7950 bps e incluso de 4.8 Kbps.
120
Este algoritmo es una variacin del CELP. La diferencia radica en la forma

y estructura
del diccionario. El diccionario estocstico de CELP se
convierte en VSELP en dos conjuntos de vectores. La siguiente figura se

corresponde con el decodificador VSELP:
FIGURA 47 Decodificador VSELP.

El codificador/decodificador VSELP utiliza hasta un total de tres fuentes
de excitacin. La primera es el diccionario adaptativo (igual que en
CELP). Las dos restantes son los dos (o uno) diccionarios VSELP. En
las implementaciones de 8 Kbps se usan dos diccionarios VSELP,
cada uno de los cuales contiene 128 vectores. A 4.8 Kbps se usa un
solo diccionario que contiene 2048 vectores. Los diccionarios VSELP,
debidos a su estructura, son muy robustos frente a posibles errores.
Estos diccionarios VSELP contienen vectores que se calculan como

combinacin lineal de unos vectores bsicos. Estas tres fuentes de
excitacin se multiplican por sus correspondientes ganancias y el
resultado se suma, dando la secuencia combinada de excitacin ex(n).
Posteriormente, en cada submuestra, se utiliza ex(n) para actualizar el
diccionario adaptativo. El filtro de sntesis (synthesis filter en la figura)
121
es un filtro LPC de dcimo orden todo polos. Los coeficientes LPC se

codifican una vez por cada trama de 20 mseg. Los parmetros de
excitacin se actualizan cada 5 mseg. En el codificador a 8 Kbps el
nmero de muestras de cada trama ( N ) es 40. Finalmente, el post-filtro
espectral sirve para mejorar la calidad de la seal sintetizada.
Codificacin RPE-LTP
Este algoritmo de codificacin, RPE-LTP (Regular Pulse Excitation Long

Term Prediction), es el que se utiliza en las comunicaciones mviles GSM
FIGURA 48 Diagrama del Speech coder
El siguiente paso es calcular los parmetros del filtro de retardo largo

(LTP), el pitch (retardo del filtro LTP) y la ganancia, en la etapa de
anlisis LTP. El bloque resultante de 40 muestras pasa al bloque
de
anlisis RPE. En este bloque las 40 muestras de entrada se representan

por una de las4 subsecuencias de 13 pulsos cada una.
Los parmetros RPE se utilizan en
un decodificador local RPE para
reconstruir las 40 muestras de la versin cuantizada de la seal residuo

del filtro LTP. Sumando estas muestras al bloque anterior del residuo STP
estimado, se logra
una
versin
reconstruida
actual del filtro STP.
122
de
la
seal residuo
Este bloque de seal residuo del filtro STP se pasa al bloque de anlisis
LTP para producir la nueva estimacin de seal residuo STP que se va a
utilizar
en
el
siguiente
sub-bloque,
completando as el lazo de
realimentacin.
Se definen tres grupos de datos generados por el codificador:
los parmetros del filtro STP

los parmetros del filtro LTP
los parmetros RPE
FIGURA 49. Codificador RPE-LTP
El primer proceso que sufre la seal de voz es una compensacin offset

para originar una seal libre de offset. Esta es despus pasada por un
filtro de prenfasis de primer orden.
123
Anlisis LPC
Segmentacin: La seal de voz s(k) se divide en segmentos no

solapados de 20ms (160 muestras). A cada uno de estos segmentos
se le aplica un anlisis LPC de orden 8 (orden de prediccin p=8).
Como parmetros
del
filtro
LPC
se
utilizan
los coeficientes de
reflexin, r(i). Estos proceden de la teora de que el tracto vocal se

puede representar
mediante una serie de
secciones cilndricas
uniformes. Esta representacin se puede describir por los coeficientes

de reflexin de las razones de rea de las secciones conectadas.
-1 <= r(i) <= +1Ecuacin 6
Los parmetros que se envan son una transformacin de estos. Las
razones Log-rea definidos por:
LAR(i)=log10( (1+r(i)) /(1-r(i)) )Ecuacin 7

Una vez calculados se cuantizan los parmetros LAR.
Para evitar transiciones espurias, que pueden ocurrir si los coeficientes

del filtro
cambian abruptamente, se interpolan
linealmente
dos
conjuntos consecutivos de parmetros LAR. Dentro de un segmento de

160 muestras se trabaja con 4 conjuntos de coeficientes diferentes.
Los coeficientes de reflexin se calculan utilizando la transformacin

inversa.
124
Filtro de prediccin de retardo largo (LTP)
Subsegmentacin: El filtro de prediccin
de retardo largo se evala
cuatro veces por segmento, para cada 5ms (40 muestras). Para cada
subsegmento se calcula el factor de desplazamiento de retardo largo
(pitch) y un factor de ganancia asociado. Como el parmetro de pitch
puede tomar valores entre 40 y 120 se necesitan 7 bits para codificarlo.
El factor de ganancia se codifica con 2 bits.
Si d(k) es la seal residuo del filtro STP, el residuo del filtro LTP, e,
se calcula restando a d una estimacin d". d" se calcula antes a partir
de la seal residuo STP reconstruida previamente, pero ajustada a los
valores del subsegmento actual.
La estimacin de la seal residuo del filtro LTP se denota e', y se suma

a la estimacin d" para obtener el residuo STP reconstruido.
Codificacin RPE
La seal residuo LTP se filtra con un filtro FIR con respuesta impulsiva
dada por:
i
H(i)*2^13 8192
4 (6)
3 (7)
2 (8)
1 (9)
0 (10)
5746
2054
-374
-134
TABLA 7 Respuesta del filtro FIR de largo plazo

|H(Omega=0)|=2.779
125
El propsito de este filtro perceptual es atenuar el espectro en

frecuencia
donde
el error es perceptiblemente menos importante y
amplificar aquellas zonas del espectro donde es perceptiblemente

importante.
Con
esto logramos
una
medida
de
ms
error subjetiva
significativa (propiedad de enmascaramiento del odo humano).
La seal filtrada se submuestrea por un factor de 4, dando lugar a 4

secuencias entrelazadas de longitud 13. Se elige la secuencia de
mayor energa como la representante de la excitacin, secuencia RPE.
FIGURA 50. Seal filtrada submuestreada y sus correspondientes

secuencias.
Decimacin RPE y seleccin de gris
Para cada secuencia, se selecciona el valor absoluta

se cuantiza logartmicamente utilizando
6 bits.
mximo x max, y
Las
muestras se
normalizan al valor cuantizado de la amplitud mxima y se cuantizan

uniformemente con 3 bits.
126
Decodificador RPE-LTP
FIGURA 51.Decodificador RPE-LTP

En el lado receptor se reciben los parmetros codificados y se procede a
reconstruir la seal.
Consta de las siguientes funciones:
Decodificacin RPE
Prediccin de retardo largo
Filtrado de retardo corto, sntesis
Postprocesado
La decodificacin RPE consiste en decodificar y desnormalizar
las
muestras de la seal residuo LTP. Posteriormente se colocan en su

posicin temporal adecuada y la frecuencia de muestreo se incremente
por un factor de 3 insertando el resto de muestras como ceros.
127
Esta seal se aplica al filtro LTP y su salida forma la excitacin el filtro

STP. Por ltimo, la salida del filtro STP se pasa por un filtro
desenfatizador.
CODIFICADORES CELP
Orgenes del CELP [35]:
Atal sugiri en 1982 la posibilidad de lograr alta calidad con regmenes

binarios bajos mediante el empleo de secuencias de excitacin gaussianas,
seleccionadas teniendo en cuenta su impacto a corto plazo ( delayed
decision ).
Mediada la dcada de los 80 se propone el CELP: bsqueda exhaustiva de

la excitacin mediante sntesis:
Inicialmente se propuso una bsqueda en rbol, pero la calidad se

degradaba substancialmente para tasas de 1/2 bit/muestra
Para tasas de 1/4 bit/muestra e inferiores, la bsqueda exhaustiva ya
no parece inabordable.
La codificacin de 1 s. de voz consumi 125 s. de CPU en un Cray 1. Sin

embargo, la posibilidad de codificar voz con calidad a bajas tasas impuls la
investigacin en este campo:
Un ao despus se publicaban diversos trabajos para reducir la complejidad

de la propuesta inicial.
Todas las tcnicas de compresin de voz estn basadas en dos operaciones

intrnsecas [36]:
128
Eliminar la redundancia.
Eliminar la irrelevancia.
La primera operacin utiliza predicciones o transformaciones para eliminar

los datos redundantes, lo cual reduce el ancho de banda necesario para la
seal. La segunda operacin reduce el ancho de banda realizando una
cuantificacin, ya sea de los componentes de la prediccin (o su error) o de
los coeficientes de la transformacin. Obteniendo una seal parecida a la
original pero siempre con un grado de distorsin o error de reconstruccin.
Al aumentar la compresin, es necesario que el codificador minimice la

percepcin del error utilizando propiedades inherentes al habla humano. Esto
quiere decir que el mismo nivel de error de la distorsin es percibido de
distinta manera si es aplicado a seales de voz con distinta energa y bandas
de frecuencia.
La solucin de CELP a ese problema es utilizar la aproximacin: anlisis por

sntesis, donde se mide la percepcin de la distorsin.
Un codebook consiste en una tabla de muestras de seal residual, conocidas

como codewords, los cuales se utilizarn como excitacin de los filtros.
Adems, un filtro llamado de peso de percepcin , es utilizado para asegurar

que la medida del error cuadrtico medio refleje el error de percepcin. Al
aplicar un filtro de percepcin sobre la seal se mejora el rendimiento del
codificador. Los formantes de alta energa disimulan mejor el ruido que las
porciones de baja energa del espectro. La seal de error generada por cada
paso del sintetizador es ponderada apropiadamente para mejorar este efecto
de percepcin. El filtro amplifica la seal de error en las regiones en que no
129
hay formantes y lo atena en las que s. De este modo, una seal de error
cuya energa es concentrada en los formantes es considerada mejor que una
que no.
Los sistemas CELP emplean algoritmos rpidos de bsqueda explotando la

estructura computacional de ste. Es por eso que el esquema original deriv
en un nuevo esquema:
FIGURA 52. Esquema de un analizador CELP en la prctica

ACB
Libro de Cdigos Adaptativos
SCB
Libro de Cdigos Fijos
130
El decodificador toma los parmetros codificados y utilizando el mismo

esquema, pero en sentido inverso, reconstruye la seal original aproximada.
Adems, se encarga de sincronizar la seal construida del ACB, para ello,
utiliza las dos ltimas muestras del subframe anterior.
Estndares
CELP: algoritmo preponderante de 4 a 16 kb/s. U.S. Federal Standard 1016

a 4.8 kb/s.
Estndares americanos de telefona celular IS-54 (7.95kb/s.) e IS-96 (8.5,

4, 2, 0.8 kb/s.)
Estndares japoneses de telefona celular JDC (6.7 kb/s.) y JDC half-rate

(3.45 kb/s.)
Estndares europeo de telefona celular GSM
half-rate
(5.6 kb/s.) y
enhanced full-rate (12.2 kb/s.)
Estndares de la ITU-T a 16 (G.728), 8 (G.729) kb/s y 5.3 6.3 (G.723.1)

kb/s.
Predictor corto
Se determina trama a trama cada 10-30 ms (tiempo de estacionareidad de la

seal de voz).
Los coeficientes suelen interpolarse subtrama a subtrama, realizando

adaptacin forward o backward .
131
Modelado del tracto vocal
Cuando la adaptacin es forward ha de cuantificarse de forma transparente:
Cuantificacin escalar: 30-36 bits

Cuantificacin vectorial 24-28 bits
Predictor largo
Se obtiene despus del predictor corto, para hacerlo surgen dos

posibilidades:
Lazo abierto
Lazo cerrado (mediante sntesis): supone gran parte de la carga
computacional de un codificador CELP
Combinaciones de ambos, para reducir complejidad
Rango tpico del retardo: 2-20 ms. (20-147, 8 KHz)

Cuantificacin: 7 (retardo) + 3-4 (coef.) bits
Tasa de actualizacin: ~ 5 ms
Excitacin por cdigo
Excitacin: aquello que no es predecible y que contribuye significativamente

a la calidad. El modelado de la excitacin, es un mtodo eficaz para tasas de
1/4 bit/muestra e inferiores.
Existen libreras de forma y tamao :
Diseo de la librera (forma):
132
Ruido con caractersticas estadsticas del error de prediccin: ruido

blanco y gaussiano.
Entrenada a partir de un registro de voz representativo: mejores
prestaciones, menos robusta y difcil de estructurar
Cuantificacin de la ganancia (tamao)

4-5 bits
Si la subtrama es pequea: cuantificacin diferencial
Filtros
Es un dispositivo (hardware o software) que se aplica a un conjunto de datos
ruidosos para poder extraer informacin sobre un rea de inters. Un filtro
digital es un sistema lineal e invariante en el tiempo (LTI) que modifica el
espectro en frecuencia de la seal de entrada X(w), segn la respuesta que
tenga en frecuencia H(w) (conocida como funcin de transferencia), para dar
lugar a una seal de salida con espectro:
Y(w) = H(w) * X(w)
H(w) acta como una funcin de ponderacin o funcin de conformacin

espectral para las diferentes componentes frecuenciales de la seal de
entrada.
Los sistemas LTI se clasifican como: FIR (finite impulse response) que se
caracterizan pos ser sistemas no recursivos, e IIR (infinite impulse response)
que se distinguen por tener retroalimentacin en la seal salida.
133
En el rea de las seales, el filtrado es un proceso mediante el cual se

modifica el contenido espectral de una seal.
Tipos de filtro
Filtros analgicos:
Pasivos: resistores y capacitares.

Activos: adems de lo anterior, utilizan amplificadores operacionales.
Filtros digitales:
FIR (no recursivos):

IIR (recursivos):
FILTROS FIR (Finite Impulse Response)
Solo depende de valores y actuales de la entrada usando memoria. Un filtro

FIR de orden M se describe mediante la ecuacin en diferencias
y (n) = b0(n) + b1x(n 1) + b2 x(n 2) + bMx(n M ) Ecuacin 8

donde la secuencia bk son los coeficientes del filtro. En este tipo de filtrado
no existe retroalimentacin.
Adems, la respuesta al impulso H(w), es de duracin finita ya que si la

entrada se mantiene en cero durante M periodos consecutivos la salida
tambin ser cero.
Algunas de las ventajas de este tipo de filtros son las siguientes:
134
Un filtro FIR puede ser diseado para tener fase lineal.
Siempre son estables porque son hechos nicamente con ceros en el

plano complejo.
Los errores por desbordamiento no son problemticos porque la suma

de productos en un filtro FIR es desempeada por un conjunto finito
de datos.
Un filtro FIR es fcil de comprender e implementar.
En la descripcin de un filtro selectivo de frecuencia, se utilizan tres trminos

que estn asociados con su identificacin, banda de paso, banda de
transicin, banda de rechazo
FIGURA 53. Especificaciones de diseo de un filtro paso-bajo normalizado.

La banda de paso se define como el rango de frecuencias en el cual el
espectro de potencia de una seal de entrada es transferida por el filtro
con ganancia aproximadamente unitaria. El espectro de entrada que cae
dentro de la banda de rechazo es atenuado a un nivel que lo elimina
efectivamente. La banda de transicin es el rango de frecuencias que
permite la transicin entre estas dos bandas. Esta banda es cero en el caso
de un filtro ideal, que no es realizable como filtro analgico o digital.
135
Cuatro tipos de filtros pueden ser definidos en
trminos de su
caracterstica de respuesta se frecuencia: Pasa-bajo, pasa-alto,
pasa-
banda y de rechazo-banda
FIGURA 54. Prototipo de filtros pasa-bajo y pasa-alto

Los filtros digitales tambin se pueden categorizar en trminos de su
respuesta impulso h(n), en filtros IIR y filtros FIR. La principal ventaja de los
filtros IIR est en que es posible lograr las caractersticas de frecuencia con
una estructura de bajo orden. Esto se traduce en un gran ahorro en tiempo
de procesamiento y en simplicidad del hardware. T a m b i n s e p u e d e
obtener un filtro IIR, por
discretizacin de filtros analgicos de uso
frecuente. una de las ventajas ms importantes de un filtro FIR, es que

pueden ser diseados para obtener una respuesta de fase lineal. Aunque
estos
filtros
tpicamente
requieren
de
muchos
coeficientes,
su
implementacin por va de convolucin rpida (FFT), reduce el nmero de

clculos requeridos, haciendo que este grupo de filtros sea ampliamente
aplicado.
136
FIGURA 55 Prototipo de filtros pasa-banda y banda de rechazo.
Fundamentos de diseo
Una etapa importante en el desarrollo de un filtro digital es la determinacin

de una funcin de transferencia H(z) realizable y con una respuesta de
frecuencia H(e j ) que se que se aproxime a un conjunto dado de
especificaciones de diseo. El proceso de diseo se inicia con la formulacin
de estas especificaciones, que puede incluir restricciones en la magnitud o
fase de H(e j ), en la respuesta impulso o en la respuesta escaln,
requerimientos en cuanto al tipo de filtro (FIR o IIR), y el orden del filtro. Si
el filtro es del tipo IIR es necesario asegurar adems su estabilidad.
Una vez que las especificaciones han sido definidas, la etapa siguiente es
calcular los coeficientes de la funcin de transferencia H(z) que genere una
respuesta de frecuencia aproximada, acorde con las especificaciones de
diseo. El proceso de derivar los coeficientes de H(z) es reconocido como
el diseo del filtro digital.
137
Especificaciones de diseo
Antes de que el filtro pueda ser diseado, debe ser definido un conjunto de
especificaciones, que puede ser tan simple como remover una seal de
ruido por encima de 30Hz en una seal muestreada a 100KHz. Una
especificacin ms rigurosa podra exigir una magnitud especfica en el
rizado de la banda de paso, atenuacin en la banda de rechazo o el
ancho de la banda de transicin. Una especificacin ms precisa podra
responder a lograr un orden mnimo del filtro, una forma arbitraria de su
respuesta de magnitud o la necesidad de un tipo especfico de filtro. Los
mtodos de diseo de filtros pueden variar en general en la forma como se
especifiquen los requerimientos. En la mayora de las aplicaciones
prcticas, las especificaciones de diseo son formuladas en el dominio de
la frecuencia, en trminos de la respuesta deseada de magnitud y fase.
Generalmente se prefiere una respuesta de fase lineal en la banda de

paso. En el caso de filtros FIR, es fcil lograr esta caracterstica, mientras
que es prcticamente imposible en el caso de filtros IIR.
Fundamentos del mtodo de ventaneo
La idea primordial del diseo usando ventanas es seleccionar un filtro ideal

selectivo de frecuencia, que siempre es anticausal y de duracin infinita, y
truncar su respuesta al impulso para obtener un filtro FIR causal, de duracin
finita y de fase lineal. El nfasis en este mtodo est en seleccionar el filtro
ideal
hd(n)
y la
funcin
de
ventana
especificaciones de diseo.
138
w(n)
ms
apropiada,
segn
Propiedades de las ventanas
Estas ventanas son utilizadas en el anlisis espectral y el diseo de filtros

FIR. Dependiendo de cmo se defina
w(n), podemos obtener diferentes
tipos, cuyas caractersticas se muestran el la siguiente tabla para los cinco (5)
tipos de ventanas bsicas ms frecuentemente utilizadas en DSP.
Tabla 1. Valores caractersticos de ventanas espectrales bsicas.

Seleccin de la ventana y estimacin del orden M del filtro FIR
La forma prctica de seleccionar el tipo de ventana, es a partir de la

atenuacin mnima de la banda de rechazo (As) dada en la tabla anterior.
Utilizando la expresin
de la banda de transicin
(ancho del lbulo
principal) dada en la tabla anterior es posible estimar el orden del filtro. La

magnitud de esta banda se puede calcular a partir de las frecuencias
s.
Funciones de MATLAB para ventanas
A partir de las expresiones de la tabla 1 es posible generar una funcin
139
que determine los valores de la secuencia w(n) asociada con cada ventana;
sin embargo el TBS de MATLAB incluye funciones calculan L=M+1 muestras
para cada tipo de ventana:
w=boxcar(L)
ventana rectangular
w=triang(L)
ventana triangular o de Bartlett
w=hanning(L)
ventana de Hanning
w=hamming(L)
ventana de Hamming
w=blackman(L)
ventana de Blackman
FIGURA 56 Filtro FIR pasa-bajo usando ventana de hamming
140
FIGURA 57 Filtro FIR paso bajo usando ventana de Kaiser
FIGURA 58 Filtro FIR pasa banda usando ventana de Blackman
141
FILTRO IIR (Infinite Impulse Response)
FIGURA 59 Esquema bsico de un filtro IIR

La salida es una combinacin lineal de los valores presente y pasados de la
entrada, as como de los valores pasados de la salida, es un filtro recursivo.
Tiene memoria infinita.
Los filtros digitales IIR tienen respuesta impulso de duracin infinita, y por lo
tanto pueden correlacionarse con filtros analgicos, que tambin tienen
respuesta impulso infinita. Por lo tanto la estrategia bsica de diseo de
filtros digitales IIR se basa en obtener el modelo equivalente discreto H(z), a
partir del modelo analgico H(s), despus calculando los coeficientes del
filtro IIR mediante los cuales se obtiene la siguiente ecuacin en diferencias
y (n) = b0 x (n) + b1 x (n 1) + b2 x(n 2) + K bM x(n M ) a1 y (n 1) a 2 y (n 2) K
a M y(n M )
Donde las variables a K y bK son los coeficientes del filtro.
142
Ventaja de los filtros IIR sobre los FIR
Los filtros IIR requieren menos memoria y menos instrucciones para

implementar su funcin de transferencia.
Un filtro IIR se disea mediante el clculo de polos y ceros en el plano
complejo. El uso de polos confiere a un filtro IIR la capacidad de
implementar funciones de transferencia que es imposible realizar
mediante filtros FIR.
Es posible trasladar un filtro IIR a un modelo analtico.
Sin embargo, algunas consideraciones que se deben tener en cuenta a la

hora de implementar filtros IIR son las siguientes:
Los filtros IIR no son necesariamente estables, es tarea del diseador

buscar la estabilidad del sistema.
Los filtros IIR producen en general distorsin de fase.
La posibilidad de desbordamiento de resultados en las operaciones
realizadas deben ser consideradas ya que un filtro IIR se implementa
mediante sumas de productos que estn basadas en una suma infinita.
La implementacin de filtros IIR puede hacerse de varias formas. Asumiendo

el comportamiento lineal e invariante en el tiempo del sistema, la ecuacin en
diferencias de un filtro puede ser manipulada matemticamente para obtener
una realizacin con N elementos de memoria, (N+M+1) multiplicadores y N
sumadores, conocida como Forma Directa II Transpuesta.
143
FIGURA 60 Estrategias de diseo de filtros IIR
Transformacin anlogo-digital de filtros
Hay varios mtodos que nos permiten obtener el modelo discreto equivalente
H(z), los cuales se fundamentan en preservar algunas de las caractersticas
de modelo analgico.
En DSP los dos mtodos de discretizacin utilizados con mayor frecuencia

son:
Mtodo de impulso invariante
Mtodo de transformacin bilineal
El mtodo de impulso invariante se caracteriza porque busca preservar la

respuesta impulso h(t) del modelo analgico H(s), mientras el mtodo de
transformacin
bilineal
se
basa
en
la aproximacin numrica de la
ecuacin diferencial. Este ltimo es el mtodo ms popular por las ventajas

que ofrece al preservar los valores caractersticos de H(s).
144
Transformacin de la banda de frecuencia
Existen dos estrategias que pueden ser utilizadas para disear otro tipo de
filtro digital IIR selectivo de frecuencia (P-A, P-B y R-B):
Transformacin de la banda de frecuencia en el plano-s

Transformacin de la banda de frecuencia en el plano-z
145
CAPITULO III.
CODIFICACIN DE VOZ MEDIANTE PREDICCIN LINEAL
CON EXCITACIN POR CDIGO ALGEBRAICO DE
ESTRUCTURA CONJUGADA
ESTANDAR G.729
PRINCIPIOS BSICOS
Prediccin lineal
Xz
Yz
Hz
FIGURA 61 Modelo de un sistema digital bsico

Para lograr modelar una seal cualquiera, se debe descomponer en
componentes de diversa naturaleza, y la primera aproximacin es obtener la
tendencia de la seal, lo cual se puede lograr con un sistema de prediccin
lineal, en donde los coeficientes son constantes.
Un predictor lineal, es un polinomio de orden N en el dominio de la

transformada Z, y que en nuestro caso, utilizaremos el anlisis de prediccin,
para el modelado del tracto vocal utilizando un polinomio de orden 10.
A continuacin, exponemos un ejemplo de cmo modelar una seal con
146
prediccin lineal.
N curvas polinomio de orden N
FIGURA 62 Curva a modelar
Orden N
Seal original= sori
Proceso (AR-MA)
Hz Az
Tendencia = T(t)
FIGURA 63 Curva con tendencia

Sori-T(t)
Componente peridica
1/T
T
FIGURA 64 Componente peridica y discretizada.
147
Componente
Peridica
P(t)
Varianza
SN-T(t) - P(t)
F
Ruido blanco gausiano aditivo
FIGURA 66 Descomposicin de la seal.
UG(t)
Ul(t)
Generacin
de excitacin
Sistema Lineal
variable
(Seal de voz)
Generador del
PITCH
Gu(n)
U(n)
G
Generador de ruido
aleatorio
Selector
Sonoro/sordo
Filtro
variable
Hz
S(n)
(Seal de
voz)
FIGURA 67 Diagrama general de un Sistema digital de produccin de voz
148
Parmetros bsicos
H z = a0 + a1 z 1 + a 2 z 2
y(z)
= a 0 + a1 z 1 + a 2 z 2
x( z )
y z = a 0 x( z ) + a1 z 1 x( z ) + a 2 z 2 x( z )
Ecuacin 9
tranformada
inverrsa
y (n) = a 0 x (n) + a1 [n 1]x(n) + a 2 x(n)[n 2]
[n 2]son muestras anteriores
Predictor de un 1 coeficiente
H ( z ) = 1* z 1
y( z)
= z 1
x( z )
y ( z ) = x ( z ) z 1
y[n] = x[n 1]
y[n] = y[n 1] 1
Ecuacin 10
Modelo fuente filtro de la voz
X(Z)
IIR A(Z ) =
Y(Z)
H(Z)
1
TODO POLOS ( AR)( FILTRO SINTESIS )
B(Z )
X(Z) Seal original.

Y(Z) Seal de prediccin
voz
H(Z) Seal que debe ser?
149
X(Z)
P(Z)
X(Z)
e( z ) = x ( z ) x ( z )
p( z ) = 1 + A( z )
A( z) = a1 z 1 + a 2 z 2 + K + a N z N
x( z ) = p ( z ) * x( z )
x( z ) = (1 + A( z )) x( z )
Ecuacin 11
x( z ) = x ( z ) + A( z ) x( z )
x( z ) = x ( z ) + (a1 z 1 x ( z ) + a 2 z 2 x ( z ) + K + a N z N x( z ))
x[n] = x[n] + (a1 x[n 1] + a 2 x[n 2] + K + a N x[n N ])
x[n] x[n] = (a1 x[n 1] + a 2 x[n 2] + K + a N x[n N ]
x[n] x[n] = e[n]

Anlisis de prediccin lineal
exc = x x
como obtengo x ?
p( z ) = 1 + A( z )
x( z ) p( z ) = x
x( z )(1 + A( z )) = x
x( z ) + x( z ) A( z ) = x
150
exc = x ( z ) x = x ( z ) A( z )
e( z ) = x ( z ) A( z )
e( z )
= x( z )
A( z )
e( z )
= x( z )
A( z )
1
x( z )
H ( z) =
=
A( z ) e( z )
Ecuacin 12
Clculo de la excitacin
s (z )
S (z )
Wz
s[n] = seal
original
s[n] = seal
codificada
s ' [n] = seal
original
codificada
S [n] = predictor
e[n] = error
s[ z ] * w( z ) = S[n] si w( z ) = 1 + a1 z + a 2 z K a m z
s( z ) = s( z ) + a1 s ( z ) z 1 + a 2 s( z ) z 2 + K + a m s( z ) z m
S [n] = s[n] + [a1 s[n 1] + a 2 s[n 2] + K + a m s[n m]]
s[n] S[n] = (a1 s[n 1] + a 2 s[n 2] + K + a m s[n m])
eq[n] = (a1 s[n 1] + a 2 s[n 2] + K + a m s[n m])
151
Excitacin sin pitch

Solo estocstica
(Seal sorda)
Vector de cdigos
fijos
Excitacin
peridica
(Seal sonora)
Vector de cdigos
Adaptativos
Excitacin
completa
FIGURA 68.a)seal sorda b) Seal sonora c) excitacin completa

Predictor de largo plazo
La funcin del predictor de largo plazo es ir muestras atrs y multiplicar

vector
vector
para
S(n)
realizar
-
Predictor
Pc(z)
el
r(n)
anlisis
respectivo
-
Predictor
PL(z)
s (n)
e(n)
r (n)
FIGURA 69. Diagrama de bloques del predictor corto y largo plazo
pL ( z) =
m2
g z
i = m1
ecuacion del predictor l arg o Ecuacin 13
152
Libro de cdigos
adaptativos
U(n)
Filtro de
sntesis
Libro de cdigos
fijos
FIGURA 70 Diagrama del filtro de largo plazo
Implementacin del codificador CELP

A continuacin se describe un algoritmo para la codificacin de la voz
mediante Prediccin lineal con excitacin por cdigo algebraico con
estructura conjugada (CS-ACELP, Conjugate Structure
Algebraic Code
Excited Linear Prediction).
El codificador opera con una seal digital obtenida tras efectuar, primero un
filtrado con la anchura de banda telefnica (Recomendacin G.712) de la
seal analgica de entrada, seguido de su muestreo a 8000 Hz y su
conversin a una modulacin por impulsos codificados (MIC), para entrar en
el codificador. La salida del decodificador deber reconvertirse a una seal
analgica siguiendo un mtodo similar.
153
Descripcin general del codificador/decodificador
El codificador CS-ACELP se fundamenta en el modelo de codificacin

mediante la prediccin lineal con excitacin por cdigo (CELP). Trabaja
con tramas vocales de 10 ms correspondientes a 160 muestras a una
velocidad de muestreo de 8000 muestras por segundo. En cada trama de
10 ms se analiza la seal vocal para extraer los parmetros del modelo
CELP (coeficientes de filtros de prediccin lineal, ganancias e ndices de las
tablas de cdigos adaptativos y fijos). Los parmetros en cuestin se
codifican y se transmiten. En el decodificador, dichos parmetros se utilizan
para recuperar los parmetros de excitacin y del filtro de sntesis. La voz
se reconstruye filtrando la excitacin a travs del filtro de sntesis de corto
plazo, como se ve en la Figura 67. El filtro de sntesis de corto plazo se basa
en un filtro de prediccin lineal (PL) de dcimo orden. El filtro de sntesis de
largo plazo o de tono se aplica mediante el mtodo de la llamada tabla de
cdigos adaptativos.
Taba de
cdigos de
excitacin
Filtro de
sntesis de
largo plazo
Filtro de
sntesis de
corto plazo
Seal
de
salida
Decodificacin de parmetros
Tren de bits
recibidos
FIGURA 71 Diagrama funcional del modelo conceptual de sntesis (CELP).
154
Codificador
La seal de entrada pasa a travs de un filtro paso alto. La seal

preprocesada trabaja como la seal de entrada para todo el anlisis posterior.
Se realiza un anlisis de prediccin lineal para cada trama de 10 ms para
poder calcular los coeficientes del filtro LP, convirtindolos despus en pares
de espectro lineal (LSP, Line Spectrum Pairs), logrando una organizacin
adecuada cuantificndolos escalarmente para su respectivo procesamiento.
La seal de excitacin se selecciona utilizando un procedimiento de

bsqueda basado en el anlisis por sntesis, la cual es la discrepancia entre
la seal original y la seal reconstruida.
Los parmetros de excitacin (parmetros de tabla de cdigos fijos y
adaptativos) se establecen para cada subtrama de 5 ms (40 muestras). Los
coeficientes cuantificados y no cuantificados del filtro LP se emplean a la
segunda subtrama, mientras que para la primera subtrama se utilizan
coeficientes del filtro LP interpolados (cuantificados o no), estimando un
retardo de tono en lazo abierto por cada trama de 10 ms.
Consecutivamente se examina el tono en lazo cerrado (para determinar el

retardo y ganancia de la tabla de cdigos adaptativos). La seal x(n) se
actualiza sustrayendo la contribucin (filtrada) de la tabla de cdigos
adaptativos y se aplica este nuevo objetivo, x (n), para la bsqueda de la
tabla de cdigos fijos, con el fin de obtener la excitacin ptima.
Para la excitacin de la tabla de cdigos fijos se emplea una tabla de cdigos

algebraicos de 17 bits ya estipulada. Las ganancias de las contribuciones de
las tablas de cdigos adaptativos y fijos se cuantifican escalar men te con
7 bits (con una prediccin de media mvil aplicada a la ganancia de la
155
tabla de cdigos fijos). Posteriormente, se actualizan las memorias de los

filtros mediante la seal de excitacin as determinada.
Seal vocal
de entrada
Filtro de sntesis
Tabla de cdigos
fijos
Gc
Tabla de cdigos
adaptativos
Gp
Anlisis de tono
Bsqueda da la tabla
de cdigos fijos
Cuantificacin
de la ganancia
Codificacin de parmetros
Informacin lpc
Tren de bits transmitido
FIGURA 72. Principio de codificacin del codificador CS-ACELP.
156
Decodificador
Inicialmente se extraen los ndices a partir del tren de bits recibido. Los
ndices se decodifican para conseguir los parmetros del codificador
correspondientes a una trama de voz de 10 ms. Estos parmetros son los
coeficientes LSP, los dos retardos de tono fraccionarios, los dos vectores de
la tabla de cdigos fijos y ambos conjuntos de ganancias de las tablas de
cdigos adaptativos y fijos. Los coeficientes LSP se convierten en
coeficientes del filtro LP de cada subtrama. Para cada subtrama de 5ms se
emplea los siguientes pasos.
Se construye la excitacin sumando los vectores de las tablas de los

cdigos adaptativos y fijos, puestos a escala por sus respectivas
ganancias
Se reconstruye la seal vocal filtrando la excitacin por el filtro de
sntesis LP
Tabla de cdigos
fijos
Gc
Tabla de cdigos
adaptativos
Filtro de
corto plazo
Salida de la
seal
Gp
FIGURA 73 Principio del decodificador CS-ACELP
Retardo
El codificador codifica la voz y otras seales de audio con tramas de 10 ms.
157
Posteriormente se producen un preanlisis de 5 ms, por lo que el retardo

total es de 15 ms.
Preprocesamiento
S e supone que la entrada del codificador vocal es una seal MIC

(modulacin por impulsos codificados) de 16 bits. Antes de iniciarse la
codificacin hay dos funciones de preprocesamiento que son el escalamiento
de las seales y el filtrado de paso alto, con el fin de reducir la posibilidad de
desbordamientos .
El filtro paso alto es una precaucin para evitar componentes indeseables de

baja frecuencia. Se utiliza un filtro de polos y ceros de segundo orden.
La seal de entrada filtrada a travez de H1N se define como s(n).

Anlisis de la frecuencia fundamental en lazo abierto
Para que el proceso no sea complicado se buscar el mejor retardo de la tabla
de cdigos adaptativos, la bsqueda se limita a un retardo Top, que se logra
de un anlisis de tono en lazo abierto.
Este anlisis se efecta una vez por trama (10ms). La estimacin de tono en
lazo abierto utiliza valores de la seal vocal ponderada sw(n).
El mtodo a continuacin se utiliza como primera medida establece los tres

mximos de la correlacin.
Ecuacin 14
158
Para las tres gamas siguientes
i = 1:80,
,143
i = 2:40,
,79
i = 3:20,
,39
Los mximos retenidos R(ti), i= 1,
,3 se normalizan.
Entre las tres correlaciones normalizadas la mejor favorece aquellos retardos

que presenten valores en la gama inferior. Ello se logra ponderando las
correlaciones normalizadas correspondientes a los retardos ms largos. El
mejor retardo de lazo abierto Top se establece de la siguiente manera.
Ecuacin 15
Ecuacin 16
El recurso de dividir la gama de retardos en tres secciones para favorecer los
valores menores tiene por como finalidad evitar la eleccin de los mltiplos
de la frecuencia fundamental o frecuencia de tono.
159
Clculo de la respuesta impulso
La respuesta a impulsos h(n) del filtro de sntesis ponderado W(z)/(z) se

requeire para analizar las tablas de cdigos adaptativos y fijos. Se calcula
la respuesta de impulso h(n) para cada subtrama filtrando una seal
consistente en los coeficientes del filtro A(z/y1) completado con ceros, a
travs de ambos filtros 1/(z) y 1/A(z/ y2).
Clculo de la seal objetivo
La seal objetivo x(n) para la bsqueda de la tabla de cdigos adaptativos

suele calcularse restando la respuesta de entrada cero del filtro de sntesis
ponderado W(z)/(z) = A(z/y1)/[(z)A(z/y2)] de la seal vocal ponderada
sw(n) de la ecuacin.
Ecuacin 17
Realizando esto para cada subtrama.
Hay otro mtodo para el calculo de la seal objetivo , consiste en filtrar la

seal residual r(n) atravez de la combinacion del filtro de sintesis 1/(z) y el
fitro de ponderacin A(z/y1)/A(z/ y2).
Despus de establecer la excitacin
correspondiente a la subtrama los estados iniciales de dichos filtros se

actualizan filtrando la diferencia entre las seales residual y de excitacin.
La seal residual r(n) es de suma importancia para determinar el vector

objetivo,y tambin se emplea a la bsqueda de la tabla de cdigos
adaptativos. ampliando la memoria
intermedia de la excitacin anterior.
160
simplificando el procedimiento de bsqueda de la tabla de cdigos

adaptativos
para
retardos
menores
que
el
correspondiente
una
subtrama de tamao 40.
El residuo LP est definido por
Ecuacin 18
Bsqueda de la tabla de cdigos adaptativos
Los parmetros de tabla de cdigos adaptativos (o parmetros de

f r e c u e n c i a f u n d a m e n t a l ) son el retardo y la ganancia. Con e l a ju s t e
al mtodo de tabla de cdigos adaptativos para utilizar el filtro de tono, se
repite la excitacin para retardos menores que la longitud de subtrama. En la
fase de reconocimiento, la excitacin se ampla mediante la LP residual,
para simplificar la bsqueda en lazo cerrado. La bsqueda de la tabla de
cdigos adaptativos se efectua para cada subtrama (5ms). En la primera
subtrama, se aplica un retardo de tono fraccionario T1 con una definicin
de 1/3 en el intervalo [19
1
1
, 84 ] y nicamente con enteros en el intervalo
3
3
[85, 143]. Para la segunda subtrama, se utiliza siempre un retardo T2 con

una definicin de 1/3 en el intervalo [int(T1) - 5
2
2
, int(T1) 4
], en que
3
3
int(T1) es la parte entera del retardo de tono fraccionario T1 de la primera

subtrama. Este intervalo se adapta para los casos en que T1 excede los
lmites del intervalo de retardo. Para cada subtrama, el retardo ptimo se
establece mediante un anlisis en lazo cerrado que minimiza el error
cuadrtico medio. En la primera subtrama, se determina el retardo T1
161
analizando un pequeo intervalo (seis muestras) de valores de retardo en

torno al retardo en lazo abierto Top . Los lmites de la bsqueda tmn y tmx
se definen mediante:
Ecuacin 19
Para la segunda subtrama, el anlisis de la frecuencia de tono en lazo
cerrado se efecta en torno a la frecuencia de tono seleccionado de la
primera subtrama, para determinar el retardo ptimo T2. El intervalo de
bsqueda est limitado entre tmn -
2
2
y tmx +
donde tmn y tmx se
3
3
deducen de T1 como sigue:
Ecuacin 20
La bsqueda de la frecuencia de tono de lazo cerrado reduce al mnimo el
error cuadrtico medio ponderado entre la seal vocal original y la
reconstruida. Esto se logra haciendo mximo el trmino
162
Ecuacin 21
Donde la seal objetivo x(n) e yk(n) la excitacin filtrada anterior en el
retardo k [excitacin anterior convolucionada con h(n)], el intervalo de
bsqueda est limitado en torno a un valor preseleccionado, correspondiente
al tono en lazo abierto Top para la primera subtrama y T1 para la segunda
subtrama.
La convolucin yk(n) se calcula para el retardo tmn.
Para los dems
retardos enteros en el intervalo de bsqueda k = tmn + 1,...,tmx, se

actualiza mediante la relacin recursiva:
Ecuacin 22
Donde u(n) n = -143,.,39 es la memoria intermedia de excitacin e yK-1(1)=0. S e
puede
observar
que
en
la fase de bsqueda, las
muestras u(n), n=0,..,39 no se conocen y se necesitan para establecer los

retardos de tono inferiores a 40. Para facilitar la bsqueda, se copia la LP
residual a u(n), de modo que la relacin expresada en la ecuacin anterior
sea vlida para todos los retardos.
Para determinar T2 y T1 cuando el retardo en lazo cerrado entero ptimo es

inferior a 85, deben experimentarse las fracciones alrededor del retardo
entero ptimo. La bsqueda de tono fraccionario se realiza interpolando la
correlacin normalizada de la ecuacin.
163
Ecuacin 23
Generacin del vector de tabla de cdigos adaptativos
Una vez determinado la frecuencia de tono se calcula el vector de tabla de

cdigos adaptativos v(n) interpolando la seal de excitacin anterior u(n) en
el retardo entero dado k y la fraccin t:
Ecuacin 24
El filtro de interpolacin se basa en una funcin sinc de Hamming
ventanizada con truncamiento a 29 y se completa con ceros a 30
[b30(30)=0 ]. El filtro tiene una frecuencia de corte (-3dB) a 3600 Hz en el
dominio de sobremuestra.
Clculo de palabras de cdigo para retardos de tabla de cdigos
adaptativos
El retardo de tono T1 se codifica con 8 bits en la primera subtrama y el
retardo relativo en la segunda subtrama se codifica con 5 bits. El retardo
fraccionario T est representado por su parte entera int(T) y su parte
fraccionaria .
El valor del retardo de tono T2 se codifica en relacin con el valor de T1.

Para que el codificador sea ms resistente a los errores de bit estocasticos,
se calcula un bit de paridad P0 en el ndice de retardo P1 de la primera
subtrama. El bit de paridad se crea mediante una operacin o exclusivo
164
(XOR) en los seis bits ms significativos de P1. En el decodificador este bit

de paridad se vuelve a calcular, y si el valor nuevamente establecido no
concuerda con el transmitido, se emplea un procedimiento de ocultamiento
de errores.
Clculo de la ganancia de tabla de cdigos adaptativos
Despus de determinar el retardo de tabla de cdigos adaptativos, se calcula

la ganancia de tabla de cdigos adaptativos gp segn:
Ecuacin 25
Donde x(n) es la seal objetivo e y(n) es el vector de tabla de cdigos
adaptativos filtrado [respuesta al estado cero de W(z)/(z) respecto de v(n)].
Este vector se obtiene mediante convolucin de v(n) con h(n):
Ecuacin 26
Tabla de cdigos fijos: estructura y bsqueda
La tabla de cdigos fijos se basa en una estructura de tabla de cdigos

algebraica mediante un diseo de permutacin de impulso individual
intercalado (ISPP,
interleaved single-pulse permutation). En esta tabla,
cada vector de tabla de cdigos contiene cuatro impulsos no cero. Cada

impulso puede tener amplitudes +1 o -1 y adjudicarse las posiciones que
165
aparecen en el siguiente cuadro.
TABLA 8 Estructura da la tabla de cdigos fijos
El vector de tabla de cdigos c(n) se construye tomando un vector cero de

dimensin 40 e introduciendo los cuatro impulsos unitarios en las posiciones
encontradas, multiplicados por su signo correspondiente:
Ecuacin 27
Donde (0) es un impulso unitario. Una caracterstica especial incorporada
en la tabla de cdigos es que el vector de tabla de cdigos seleccionado se
pasa a travs de un prefiltro adaptativo P(z) que ampla los componentes
armnicos para mejorar la calidad de las seales . Se utiliza para ello el filtro:
Ecuacin 28
Donde T es la componente entera del retardo de tono de la subtrama actual
y una ganancia de la frecuencia de tono. El valor de se hace
adaptativo aplicando la cuantificacin de la ganancia de tabla de cdigos
adaptativos de la subtrama anterior, es decir:
Ecuacin 29
166
Para retardos menores de 40, la tabla de cdigos c(n) de la ecuacin.
Ecuacin 30
Se modifica con arreglo a:
Esta modificacin se incorpora a la bsqueda de la tabla de cdigos fijos

modificando la respuesta a impulsos h(n) segn:
Code Book (Libro de

cdigos fijos)
Toma
valores de
0o1
Gc Ganancia de
cdigos fijos
Ci[n]
indice
Vector de
cdigo fijo
N cdigos fijos
FIGURA 74 Diagrama de vector de cdigos fijos
167
Procedimiento de bsqueda de la tabla de cdigos fijos
La tabla de cdigos fijos se examina para minimizar el error cuadrtico

medio entre la seal de voz de entrada. y la seal de salida. Se actualiza la
seal objetivo utilizada para la bsqueda de la frecuencia de tono en lazo
cerrado restando la contribucin de la tabla de cdigos adaptativos, o sea:
Ecuacin 31
Donde y(n) es el vector de la tabla de cdigos adaptativos y gp corresponde
a la ganancia de la tabla de cdigos adaptativos.
Ecuacin 32
Clculo de palabra de cdigo de la tabla de cdigos fijos
Las posiciones de los impulsos i0, i1, e i2 se codifican con 3 bits cada una,
en tanto que la posicin de i3 se codifica con 4 bits. La amplitud de cada
impulso se codifica con 1 bit. Esto suministra un total de 17 bits para los
cuatro impulsos. definiendo s = 1 cuando el signo es positivo y s = 0
cuando el signo es negativo, la palabra de cdigo del signo se obtiene de:
Ecuacin 33
Y la palabra de cdigo de la tabla de cdigos fijos se obtiene de:
168
Ecuacin 34
Cuantificacin de las ganancias
La ganancia de las tablas de cdigos adaptativos (ganancia de tono) y la

ganancia de la tabla de cdigos fijos son vectores cuantificados con 7 bits.
La bsqueda de la tabla de cdigos de ganancia se lleva a cabo haciendo
mnimo el error cuadrtico medio ponderado entre la seal de voz original y la
seal reconstruida, dado por:
Ecuacin 35
donde x es el vector objetivo, y es el vector de la tabla de cdigos
adaptativos y z es el vector de la tabla de cdigos fijos convolucionado con
h(n).
Bsqueda de la tabla de cdigos para cuantificacin de la ganancia
La ganancia de tabla de cdigos adaptativos gp y el factor y se cuantifican

escalarmente. La ganancia cuantificada de la tabla de cdigos adaptativos se
determina mediante.
Ecuacin 36
Mientras que la ganancia cuantificada de la tabla de cdigos fijos viene dada
por:
Ecuacin 37
169
La ganancia ptima de tono gp y la ganancia de tabla de cdigos fijos gc se

obtienen a partir de la ecuacin
Ecuacin 38
Descripcin de las funciones del decodificador

Primero se decodifican los parmetros (vector de tabla de cdigos
adaptativos, vector de tabla de cdigos fijos y ganancias). Estos parmetros
decodificados se utilizan para calcular la seal d e
Procedimiento de decodificacin de los parmetros
El proceso de decodificacin tiene lugar en el siguiente orden.
Decodificacin de los parmetros de filtro LP
Los ndices recibidos L0, L1, L2 y L3 del cuantificador LSP se utilizan para
reconstruir los coeficientes LSP cuantificados. Se aplica el procedimiento de
interpolacin
para
obtener
dos
conjuntos
de
coeficientes
LSP
(correspondientes a dos subtramas). Para cada subtrama, los coeficientes

LSP interpolados se convierten en coeficientes ai del filtro LP, que se utilizan
para sintetizar la seal en la subtrama.
Se repiten los siguientes pasos para cada subtrama:decodificar el vector de

tabla de cdigos adaptativos;decodificar el vector de tabla de cdigos fijos;
decodificar las ganancias de las tablas de cdigos adaptativos y fijos;calcular
la seal de salida.
170
Decodificacin del vector de tabla de cdigos adaptativos
En caso tal no haya
error de paridad, el ndice P1 de tabla de cdigos
adaptativos se utiliza para establecer las partes entera y fraccionaria del

retardo de tono T1. La parte entera int(T1) y la parte fraccionaria de T1 frac
se obtienen a partir de P1 como se indica a continuacin:
Ecuacin 39
Las partes entera y fraccionaria de T2 se obtienen a partir de P2 y tmn,
donde tmn se deriva de T1 como sigue:
Ecuacin 40
Ahora se decodifica T2 mediante:
Ecuacin 41
171
El vector de tabla de cdigos adaptativos v(n) se encuentra interpolando la

excitacin u(n) (en el retardo de tono) mediante.
Ecuacin 42
Decodificacin del vector de tabla de cdigos fijo
El ndice recibido C de tabla de cdigos fijos se utiliza para extraer las

posiciones de los impulsos de excitacin. Los signos de los impulsos se
obtienen a partir de S. Para ello se invierte el proceso descrito en Clculo de
palabra de cdigo de la tabla de cdigos fijos. Una vez decodificados los
signos y las posiciones de los impulsos, se construye el vector c(n) de
tabla de cdigos fijos de acuerdo con la ecuacin
Ecuacin 43
Si la parte entera del retardo de tono T es inferior al tamao de la subtrama,
fijado en 40, se modifica c(n) con arreglo a la ecuacin
Decodificacin de las ganancias de las tablas de cdigos adaptativos y

fijos
^
El ndice recibido de tabla de cdigos de ganancia determina la ganancia g p

^
de la tabla de cdigos adaptativos as como el factor de correccin y de

la ganancia de tabla de cdigos fijos. El procedimiento se describe en
cuantificacin de las ganancias Se calcula la ganancia estimada gc de la
172
tabla de cdigos fijos mediante la ecuacin
Ecuacin 44
El vector de tabla de cdigos fijos se obtiene a partir del producto del factor
de correccin de ganancia cuantificado y por la ganancia predicha, segn
la ecuacin
Ecuacin 45
La ganancia de tabla de cdigos adaptativos se reconstruye mediante la
ecuacion
Ecuacin 46
173
CELP
Entrada s(n)
Codebook estocstico
U(n)
+
s (n)
Pc(z)
Ponderacin
del error
PL(z)
Valor cuadrito
medio
FIGURA 75 Diagrama de bloques del codificador celp
CODIFICADOR
Entrada s(n)
Generador de
Excitacin
U(n)
Filtro de
sntesis
s (n)
Ponderacin
del error
Minimizacin
del error
DECODIFICADOR
Generador de
excitacin
U(n)
Filtro de sintesis
s (n)
FIGURA 765 Codificador y Decodificador CELP
174
ew(n)
Cdigo en matlab
A continuacin se describe las funciones utlizadas por separado.
Funcin para el anlisis LPC
function [tramaPred,coefLPC,VarExc]=anaLPC(trama)
[coefLPC,VarExc]=lpc(trama,10);
tramaPred=filter(coefLPC,1,trama);
end,
Clculo de la excitacin Peridica
function [excPer]=calcExcPer(trama)
kini=20;
kfin=39;
[max_corr(1),Ind(1)] = corr_voz(trama,kini,kfin);
kini=40;
kfin=79;
kini=80;
kfin=143;
RTop=max_corr(1);
Top=Ind(1);
175
if max_corr(2)>0.85*RTop
RTop=max_corr(2);
Top=Ind(2);
end
if max_corr(3)>0.85*RTop
RTop=max_corr(3);
Top=Ind(3);
end
Correlacin
function [max_corr,Ind] = corr_voz(trama80m,kini,kfin)
for k=kini:kfin,
r(k)=0;
for i=1:80,
r(k)=r(k)+trama(119+i)*trama(119+i-k);
end
end
Prepropresado
function [tramaPrep] = preProc(trama)
N=[ 0.9201 -1.8401
0.9201];
D=[ 1.0000 -1.8337
0.8465];
tramaPrep = filter(N,D,trama);
end
Codigo completo de codificador de voz CELP

close all
176
fvoz=fopen('corto.raw'); % Abro el archivo y se lo entrego al manejador de

archivo fvoz
voz=fread(fvoz,'int16'); % leo los datos a los que apunta el manejador fvoz y
los guardo en voz
plot(voz)
vozNorm=voz/(2^16);
%SOUND(vozNorm,8000);
tamF=length(voz) % voz almacena los valores de la amplitud de las muestras

de voz y compruebo que son 82102 como se puede ver en Cooledit
% tamF es el tamao del fichero
numT=int16(tamF/80)
% tamT es el nmero de tramas que voy a analizar
for i=1 : 400, %numT-1,
posIni=80*(i-1)+1;
posFin=posIni+79;
if i<3
if i==1 trama(1:120)=zeros(120);
else
trama(1:40)=zeros(120);
trama(41:120)=voz(posIni-80:posFin-80);
end
end
trama(121:200)=voz(posIni:posFin);
trama(201:240)=voz(posIni+80:posFin+40);
177
tramaPrep=preProc(trama);
[tramaPred,coefLPC,VarExc]=anaLPC(trama);
% [tramaPred,coefLPC,VarExc]=anaLPC(tramaPrep);
exc=tramaPrep-tramaPred;
Vcoef(i,:)=coefLPC;
[excPer, excAleat]=calcExc(tramaPrep);
%preProc(trama);
% coefLPC=anaLPC(trama);
% [excPer, excAleat]=calcExc(trama);
%
%
sintPar(coefLPC,excPer,excAleat);
end
% Decodificacin
for j=250 : 375 , %numT, ((75 : 175) es (600 : 1400) ) 1:400 para evitar
overflow
excEstoc=VDesvStand(j)*randn(80,1);
coefLPCDec=Vcoef(j,:);
% tramaDec = filter(-1,[coefLPCDec(2:end)],excEstoc);
excDec=Vexc(:,j);
tramaDec = filter(-1,[coefLPCDec(2:end)],excDec);
posIni=80*(j-1)+1;
posFin=80*(j);
178
vozDec(posIni:posFin,1)=tramaDec;
end
figure(2)
% for k=130:131,
%
%
posIni=80*(k-1)+1;
posFin=80*(k);
vozDec(posIni:posFin,1)=vozDec(80*128+1:80*129);
%
% end
% vozDec(10001:11000)=vozDec(9001:10000);
plot(vozDec,'r')
figure(3)
plot(tramaPrep);
hold on
plot(tramaDec,'r');
hold off
vozNormDec=vozDec/(2^16);
SOUND(vozNormDec,8000);
179
ANALISIS DE CONFIABILIDAD
Donde se lleva a cabo la simulacin y diseo del codificador como es un

computador que requiere mantenimiento principalmente su hardware,
realizando este tipo de mantenimiento la funcionalidad del equipo tendr un
tiempo promedio para fallar muy largo teniendo en cuenta tambin las
especificaciones del fabricante para su manejo adecuado.
La confiabilidad de este diseo depende de los diferentes factores tales como

el ambiente, manejo adecuado del software por parte del operador.
180
PRESUPUESTO ECONOMICO
Marco Econmico
Las tcnicas de codificacin de la seal de voz son usadas tanto para la
transmisin a tasas bajas de bits tambin para el almacenamiento de seales
de voz y envi de datos. En Colombia la investigacin en tecnologas de
codificacin de voz es mnima y las empresas del pas se limitan casi
exclusivamente a importar la tecnologa de empresas extranjeras, para la
prestacin de servicios. Por ello, se pretende con esta tesis. impulsar de una
forma mayor la investigacin en esta rea en la Universidad de Pamplona y
en Colombia.
181
COSTOS DE INVERSION
Presupuesto de Medios Bsicos
DENOMIN
ACIN
GENERAL
Computador
CANTIDA
D
1
COSTO
UNITARI
O
$ 1800000
COSTO
TOTAL
PROVEDOR
OBSERVACONE
S
$
1800000
Pallares
computienda
Herramienta
computacional de
trabajo
Dispositivo para
almacenamiento
de informacin
Libro de
Telecomunicacion
es
Modalidad de
grado
Dispositivo
USB
$ 80000
$80000
TECNICOM
SA
Material
Bibliogrfico
$ 95000
$95000
Librera
universitaria
Matricula
Diplomado
$800000
$800000
Universidad de
Pamplona
MATLAB 6.5
$ 0.0
$0.0
Mathworks Inc.
TOTAL DE
INVERSION
3
$2775000
$277500
0
Herramienta
computacional de
trabajo
Presupuesto de Medios de Rotacin

DENOMINACI
N GENERAL
CANTIDA
D
COSTO
UNITARIO
COSTO
TOTAL
PROVEDO
R
OBSERVACONE
S
Servicio de
Internet mensual
$ 35000
$140000
Telecom
Servicio publico
de Internet
Papelera
---
$ 90000
$90000
General
Materiales y otros
suministros como
fotocopias
Recursos
humanos
mensuales
TOTAL DE
INVERSION
$200000
$800000
Domicilio
Servicios bsicos
de recursos
humanos
$325000
$103000
0
182
ANALISIS DE LEGALIDAD
El software MATLAB 6.5 de MATLAB, el cual la Universidad de Pamplona

cuenta con la licencia de esta versin por tal motivo desde el punto de vista
legal el diseo se encuentra libre de requisitos que comprometan la
propiedad intelectual y material del mismo. La cual en este caso, solo le
corresponde al autor y a la universidad de Pamplona
183
INFLUENCIA AMBIENTAL DEL TRABAJO
Este proyecto cumple con uno de los objetivos primordiales de la ingeniera

como es dar soluciones concretas a problemas especficos, ms aun cuando
se traten de problemas que abarque un sentido social y de conservacin
ambiental.
Esta investigacin representa el esfuerzo que hace toda la comunidad

cientfica de todo el mundo, para conservar y aprovechar de una forma ms
eficiente los recursos naturales.
Este proyecto no genera ninguna clase de contaminacin auditiva por la

frecuencia a la que se trabajo esta en el rango audible.
184
RESULTADOS
Se logr modelar la seal de voz, en cuanto al clculo de la excitacin,
teniendo en cuenta su doble naturaleza, por un lado su componente
peridica, y por el otro su componente estocstica, logrando una buena
adaptacin del modelo sugerido por el algoritmo de prediccin lineal excitado
por cdigo - CELP.
Para el alcance del objetivo principal de esta tesis, se implement un

conjunto de programas y funciones para desarrollar los diferentes clculos
que eran necesarios para modelar la excitacin, as mismo, se obtuvieron
una serie de datos y experiencias que van a servir para su posterior anlisis
y perfeccin del trabajo hasta aqu desarrollado.
Por otro lado, este diseo y simulacin proporciona a los alumnos una
valiosa herramienta pedaggica, para el entendimiento sobre codificacin de
voz.
Debido a la complejidad matemtica utilizada por el modelo CELP, algunas

funciones deben ser perfeccionadas para obtener mejores resultados, sin
embargo, ya que stas estn fuera del alcance de la tesis, se dejan como
trabajos futuros.
185
CONCLUSIONES
Al implementar y desarrollar este proyecto se obtuvo una herramienta para el

clculo del error generado por el filtro de sntesis, almacenando y
transmitiendo a una buena calidad de voz a una tasa de bits relativamente
baja reduciendo el ancho de banda lo cual hace a este tipo de codificador
muy eficiente por esta razn las compaas telefnicas se inclinan ms para
este tipo de comprensin de voz porque le permite tener una buena
inteligibilidad.
Teniendo el error de prediccin, generado por el clculo de los coeficientes

del filtro de sntesis, se puede obtener un modelo de la excitacin que nos
ayuda a perfeccionar el modelo de produccin de voz, pues en el modelo, se
tiene en cuenta la doble naturaleza de la excitacin (componente sorda y
sonora).
Cave destacar que la ejecucin de este trabajo de investigacin cuyo objetivo

era la creacin de un codificador CELP calculando la excitacin presenta un
bajo costo econmico ya que las herramientas utilizadas son de muy fcil
acceso, siendo lo ms costoso, el tiempo invertido en el aprendizaje de los
conceptos necesarios para la implementacin del modelo.
186
RECOMENDACIONES
Se recomienda que la materias pertinentes a este tema como es la

codificacin de voz se fortalezcan y si hay carencia en esta rea incluirla el
los planes de trabajo de la Universidad de Pamplona de esta forma seguir
trabajando como lneas futuras en la profundizacin del conocimiento del
codificador CELP y sus aplicaciones
187
REFERENCIAS BIBLIOGRAFICAS
Libros:
[1]
[2]
[3]
[4]
M.Sc. Ing. Gan Acosta Antonio, Ph. D. Ing. Tarantino Alvarado Rocco,
Metodologas para trabajos de grado, Pamplona, Colombia, Mayo del
2006
Wayne Tomasi, Sistemas de Comunicaciones Electronicas, Edit.
Pearson Educacin 2. Edicion, Latinoamrica 1996
A.M. Kondoz: Digital Speech: Coding for Low Bit Rate, Communications
Systems; Chichester, England: John Wiley & Sons; 1994.
P. Kroon and B.S. Atal: Predictive Coding of Speech Using Analysisby
Synthesis Techniques ; in Advances in Speech Signal Processing, S.
Furui and M. Sondhi, Ed.; New York, USA: Marcel Dekker; 1991.
Artculos:
[5]
Borella, M. S., Measurement and interpretation of internet packet loss

Journal of Communications and Networking, vol. 2, no. 2, pp 93-102,
Jun. 2000.
[6] Choi, S. H., Kim, K., Lee, H. S., Speech recognition using quantized
LSP parameters and their transformations in digital communication ,
Speech Communication, vol. 30, pp. 223-233, 2000.
[7] Colas Pasamontes, J. Estrategias de incorporacin de conocimiento
sintctico y semntico en sistemas de comprensin de habla continua
en espaol Comunidad Virtual de Usuarios asociada a la lista de
distribucin Infoling (En lnea), Escuela Tcnica Superior de Ingenieros
de Telecomunicacin, Madrid (Espaa) Vol 12, 2001.
[8] ETSI Speech processing, Transmission and Quality aspects (STQ)
Distributed speech recognition (DSR); Front-end feature extraction
algorithm; Compression algorithms (ES 201 108), Ab. 2000.
[9] ETSI Speech processing, Transmission and Quality aspects (STQ),
Distributed Speech Recognition Front-end extension for tonal language
recognition and speech reconstruction (DES/STQ-00030), 2001.
[10] Euler, S., Zinke, J., The Influence of Speech Coding Algorithms on
Automatic Speech Recognition , Proc. IEEE Int. Conf. on Acoustics,
Speech and Signal Processing (ICASSP), Australia, vol. 1, pp. 621-624,
1994.
188
[11] Gallardo-Antoln, A., Daz-de-Mara, F., Valverde-Albacete, F., Avoiding

Distortions Due to Speech Coding and Transmission Errors in GSM ASR
Tasks , Proc. IEEE Int. Conf. on Acoustics, Speech and Signal
Processing (ICASSP), Phoenix, Arizona, EE.UU., vol. I, pp. 277-280,
1999
[12] Gallardo-Antoln, A., Daz-de-Mara, F., Valverde-Albacete, F.,
Recognition from GSM Digital Speech , Proc. International Conference
on Spoken Language Processing (ICSLP), Sidney, Australia, 1998.
[13] Gallardo-Antoln, A., Daz-de-Mara, F., Valverde-Albacete, F., BravoMenndez-Rivas, R., Reconocimiento de voz procedente de telfonos
mviles digitales , Telecom I+D, Madrid, pp. 379-387, 1998.
[14] Gallardo-Antoln, A., Pelez-Moreno, C., Daz-de-Mara, F., A robust
front-end for ASR over IP and GSM networks: an integrated scenario
Proc. of European Conference on Speech Communication and
Technology (Eurospeech), vol.2, pp. 1103-1106, Aalborg, Dinamarca,
Sep. 2001.
[15] Haeb-Umbach, R., Robust speech Recognition fr Wirless Networks and
Mobile Telephony , Proc. of European conference on Speech
Communication and Technology (Eurospeech), pp. 2427-2430, 1997.
[16] Huerta, J. M., Speech Recognition in Mobile Environments , Tesis
Doctoral, Abril, 2000.
[17] Kanal, L. N., Sastry, A. R. K., Models for Channels with Memory and
Their Applications to Error Control, Proc. of the IEEE, vol. 66, pp. 724744, Jul. 1978.
[18] Kim, H. K., Cox, V., A bitstream-based front-end for wireless speech
recognition on IS-136 communications system , IEEE Transactions on
Speech and Audio Processing, vol. 9, no. 5, Jul. 2001.
[19] Kumar, A. Comparative performance analysis of versions of TCP in a
local network with a lossy link , In IEEE/ACM Transactions on
Networking, vol. 6, pp. 485-498, 1998.
[20] Kumar, H., Sundarasen, K., Implementation of de Code Excited Linear
Predictive (CELP) for VOIP Department of Electrical Engineering, State
University of New York at Buffalo.
[21] Lilly, B. T., Paliwal, K. K., Effect of Speech Coders on Speech
Recognition Performance , Proc. International Conference on Spoken
Language Processing (ICSLP) , vol. 4, pp. 2344-2347, Philadelphia,
EE.UU., 1996.
[22] National Institute of Standards and Technology (NIST) (distribuidor),
The resource management corpus part 1 (RM1) , 1992.
[23] Paxon, V., Measurements and Analysis of End-to-End Internet
Dynamics , Tesis doctoral, University of California, Berkeley, 1997.
[24] Pelez, C. Reconocimiento de habla mediante transparametrizacin:
una alternativa robusta para entornos mviles e IP , Tesis doctoral, Univ.
Carlos III de Madrid, Legans, Espaa, 2002.
189
[25] Pelez-Moreno, C., Gallardo-Antoln, A., Daz-de-Mara, F.,

Recognizing Voice over IP networks: a Robust Front-End for Speech
Recognition on the WWW , IEEE Trans. on Multimedia, vol. 3, no. 2, pp.
209-18, Jun. 2001.
[26] Pelez-Moreno, C., Gallardo-Antoln, A., Daz-de-Mara, F.,
Recognizing IP over IP: towards Spoken Language Interfaces for Ebusiness , Proc. eBusiness and eWork Conference, pp. 1065-1071,
Madrid, 2000. o E-business: Issues, Applications and Technologies, pp
1065-1071, Smith and P.T. Kidd (Eds.) IOS Press, 2000.
[27] Pelez-Moreno, C., Zambrano-Miranda, A., Gallardo-Antoln, A., Dazde-Mara, F., Reconocimiento de habla en internet: una aproximacin
eficiente , Proc. Telecom I+D, Madrid, 1999.
[28] Salami, R., Laflamme, C., Adoul, J., Kataoka, A., Hayashi, S., Moriya,
T.,Lamblin, C., Massaloux, D., Proust, S., Kroon, P., Shoham, Y.,
Design and Description of CS-ACELP: A Toll Quality 8 kbp/s Speech
coder IEEE Transactions on speech and audio processing, vol 6, No 2,
marzo 1998.
[29] Salami, R., Laflamme, C., Adoul, J., Massaloux, D. A Toll quality 8
Kbp/s Speech Codec for the Personal Communications System (PCS)
IEEE Transactions on vehicular technology, vol 4 No 3, agosto de 1994.
[30] UIT-T,
Recomendacin G729 --Codificacin de la voz a 8 kbit/s
mediante prediccin lineal con excitacin por cdigo algebraico de
estructura conjugada (CS-ACELP), Marzo, 1996.
[31] Young, S. et al, HTK-Hidden Markov Model Toolkit (Ver 3.0) ,
Cambridge University, 2000.
Internet
[32]
[33]
[34]
[35]
[36]
[37]
[38]
[39]
[40]
[41]
[42]
[43]
[44]
[45]
www.angelfire.com/
www.dfgomezup.google.pages.com
www.tsc.uc3m.es/~fdiaz/ 'Fernando Daz
www.personal.us.es/murillo/docente/radio/ 'universidad de Sevilla'
www.inf.udec.cl/revista/edicion7/jbustos.htm
lilaproject.org/ 'tecnologias del habla'
www.eie.fceia.unr.edu.ar/ 'naturaleza del sonido'
es.wikipedia.org/Fontica 'fontica'
www.ehu.es/acustica/
lilaproject.org/veu/ 'seal de voz
www.tsc.uc3m.es/
physionet.cps.unizar.es/
paginas.fe.up.pt/
spanish.youth.hear-it.org/
190
[46]
[47]
[48]
[49]
www.jcee.upc.es/
es.wikipedia.org/ '
spanish.hear-it.org
www.personal.us.es/
191
ANALISIS BIBLIOGRAFICO
Al realizar este trabajo de grado se manipularon muchos textos y paginas

web s que fueron de gran ayuda para la realizacin de este proyecto a
continuacin se nombrara solo el numero mencionado el las referencias
bibliograficas anteriores y la parte en que se enfoca mas, para aquellas
personas que deseen profundizar en el tema.
[33] Muy substancial para saber todo lo referente al procesamiento digital de

seales.
[8]Buena explicacin sobre las distintas tcnicas de codificacin.
[35]Todo lo referente a cualidades la voz.
[37]Muy importante en lo que concierne a las tcnicas del habla.
192
GLOSARIO DE TRMINOS NO CONVENCIONALES
[A]
Agudos
Sonidos cuyas frecuencias de vibraciones son grandes.
Alfonos
Los alfonos son cada uno de los sonidos propios de una lengua.
[C]
Codificacin
Es la conversin de la seal de voz a una secuencia binaria o representacin
digital.
Convolucin
Es la multiplicacin entre dos o ms seales.
Cuantificacin
Es la conversin de una seal discreta evaluada en el tiempo de forma
continua a una seal discretamente evaluada en el tiempo.
[F]
Filtro
Sistema que dependiendo de algunos parmetros, realiza un proceso de
discriminacin de una seal de entrada obteniendo variaciones en su salida.
Fontica
Rama de la lingstica que estudia la produccin, naturaleza fsica y
percepcin de lo sonidos de una lengua.
193
[G]
Graves
Sonidos cuyas frecuencias de vibraciones son pequeas.
[I]
Intensidad
Es la cantidad de energa acstica que contiene un sonido.
[M]
Muestreo
Es el proceso de conversin de seales continuas a seales discretas en
tiempo.
[P]
Potencia (W)
Es la cantidad de energa radiada por una fuente determinada.
[T]
Timbre
Cualidad del sonido que permite distinguir ente dos sonidos de la misma
intensidad.
Tono
Caracterstica del sonido que permite distinguir entre sonidos graves, agudos
o medios.
194
SIMBOLOS NO CONVENCIONALES
W p (n ) = Ventana de anlisis.
S ' (n) = Seal vocal ventanizada.

r (k ) = Coeficientes de autocorrelacion.
fs
= Frecuencia de muestreo.
ai
= Coeficientes del filtro LP.
F ' ( z ) = Polinomio.
e + jN i = Races conjugadas.
cos(mw) =Polinomio de chebyshev.
qi =Coeficientes LSP.
w(z ) =Filtro de ponderacin perceptual.

flat (m ) =subtrama anterior
c1c 2 =ndice da tabla de cdigos fijos.

p1 p 2 =Retardo de la tabla de cdigos adaptativos.
Hk1 ( z ) =filtro de paso alto de entrada.
Hp (z ) = Postfiltro de largo plazo.

Hc (z ) =Filtro de compensacin de pendiente.
p(z) =Prefiltro para tabla de cdigos fijos.
Hf (z) =Postfiltro de corto plazo.
ew(n) = Seal de error.
h(n) =Respuesta impulso de los filtros de ponderacin y sntesis.
r (n) =Seal residual.
s(n) = Seal vocal procesada.
s (n) = Seal vocal reconstruida.
195
sf (n) = Salida de postfiltro.

sw(n) =Seal vocal ponderada.
g p = Ganancia de la tabla de cdigos adaptativos.
g c =Ganancia de la tabla de cdigos fijos.

Top =Retardo de tono en bucle abierto.
wi =Frecuencias normalizadas.
r ' (k ) = Coeficientes de autocorrelacion modificados.
196
ABREVIATURAS UTILIZADAS
CELP = Predictor lineal excitado por cdigo.

CS-ACELP=Prediccin lineal excitada por cdigo algebraico con estructura
conjugada.
VQ = Cuantificacin vectorial.
ADPCM = Modulacin por Codificacin impulsos adaptativo diferencial.
DM=modulacin delta
LPC= Lineal Predictive Coding.
PCM = Modulacin por codificacin de impulsos.
DPCM = Modulacin por codificacin de impulsos diferencial.
LP = Prediccin lineal.
IIR=Respuesta al impulso infinito.
FIR=Respuesta al impulso finito.
LTI=Sistema lineal e invariante en el tiempo
MPC = Codificacin multipulso.
dB = Decibel.
Bit-rate=Numero de muestras por segundo.
CCIIT=International Consultative Committee for Telephone and Telegraph.
MSE=Error cuadrico medio.
Mos=Medida subjetiva de la calidad de voz (Mean Opinion Store).
Pitch=Frecuencia fundamental o de tono.
LTP=Long term predictor (predictor de largo plazo).
STP=short term predictor (predictor de corto plazo).
Codebook=Libro de codigos
RELP=Residual Excited linear prediction.
RPE-LTP = Regular Pulse Excitation
Long Term Prediction
197
ANEXOS
Gua rpida sobre MATLAB 6.5
Definicin
MATLAB es el nombre abreviado de MATrix LABoratory . MATLAB es un
programa para realizar clculos numricos con vectores y matrices. Como
caso particular puede tambin trabajar con nmeros escalares tanto reales
como complejos, con cadenas de caracteres y con otras estructuras de
informacin ms complejas. Una de las capacidades ms atractivas es la de
realizar una amplia variedad de grficos en dos y tres dimensiones.
MATLAB tiene tambin un lenguaje de programacin propio.
MATLAB es un gran programa de clculo tcnico y cientfico. Para ciertas
operaciones es muy rpido, cuando puede ejecutar sus funciones en cdigo
nativo con los tamaos ms adecuados para aprovechar sus capacidades de
vectorizacin. En otras aplicaciones resulta bastante ms lento que el cdigo
equivalente desarrollado en C/C++ o Fortran.
198
Fig. Ventana inicial de MATLAB

La parte ms importante de la ventana inicial es la Command Window, que
aparece en la parte derecha.
En esta sub-ventana es donde se ejecutan los comandos de MATLAB, a
continuacin del prompt (aviso) caracterstico (>>), que indica que el
programa est preparado para recibir instrucciones.
En la parte superior izquierda de la pantalla aparecen dos ventanas tambin
muy tiles: en la parte superior aparece la ventana Current Directory, que
se puede alternar con Workspace clicando en la pestaa correspondiente.
La ventana Current Directory muestra los ficheros del directorio activo o
actual. El directorio activo se puede cambiar desde la Command Window, o
desde la propia ventana (o desde la barra de herramientas, debajo de la
barra de mens) con los mtodos de navegacin de directorios propios de
Windows. Clicando dos veces sobre alguno de los ficheros *.m del directorio
activo se abre el editor de ficheros de MATLAB, herramienta fundamental
para la programacin sobre la que se volver en las prximas pginas. El
Workspace contiene informacin sobre todas las variables que se hayan
199
definido en esta sesin y permite ver y modificar las matrices con las que se
est trabajando.
En la parte inferior derecha aparece la ventana Command History que
muestra los ltimos comandos ejecutados en la Command Window. Estos
comandos se pueden volver a ejecutar haciendo doble clic sobre ellos.
Clicando sobre un comando con el botn derecho del ratn se muestra un
men contextual con las posibilidades disponibles en ese momento. Para
editar uno de estos comandos hay que copiarlo antes a la Command
Window.
Comandos Bsicos
ver: Muestra la versin, el cdigo de licencia y las toolboxes disponibles.
whos: Lista todas las variables disponibles.
save archivo: Guarda todas las variables
>> save -ascii % almacena 8 cifras decimales.
>> save -ascii -double % almacena 16 cifras decimales.
>> save -ascii -double -tab % almacena 16 cifras separadas por tabs.
save archivo (a b): Guarda las variables a y b
load archivo: Carga variables
quit: Salir
Ayudas y documentacin
Ayuda en modo texto mediante comandos
200
Fig. Demos disponibles en MATLAB

A continuacin se describirn algunas de las funciones con las que cuenta la
ayuda de MATLAB:
Help funcin: Muestra la ayuda de una funcin.
Help, vale tanto para las funciones como para desarrollos propios.
Helpwin: Carga el men de ayuda en otra ventana y posee enlaces por
categoras.
Ayuda on-line
Pgina oficial de soporte: http: // www.mathworks.com/support/
*Documentacin.
*Soluciones a problemas ordenadas por categoras.
*Ejemplos de cdigo.
*Noticias.
*Actualizaciones.
201
Toolboxes.
Libreras especializadas en materias concretas. Incluyen:
* Manuales tipo tutorial (UsersGuide) (HTML, PDF).
Referencia de las funciones (Treference Guide) (HTML, PDF).
*Programas de demo.
*Aplicaciones completas listas para utilizar.
Entre las toolboxes ms utilizadas se encuentran:
Technical Computing
Mathematical computation, analysis, visualization, and algorithm development.
Control design
Model-Based
Design
for
control
systems,including
simulation,
rapid
prototyping, and code generation for embedded systems.

Signal Processing and Communications
Model-Based Design for signal processing and communication systems,

including simulation, code generation, and verification.
Image processing
Image acquisition, analysis, visualization, and algorithm development.
Test & Measurement

Hardware connectivity and data analysis for test and measurement
applications.
Financial Modeling and Analysis

Financial modelling, analysis, and application deployment.
202
OPERACIONES CON MATRICES
Ya se ha comentado que MATLAB es fundamentalmente un programa para

clculo matricial. Inicialmente se utilizar MATLAB como programa
interactivo, en el que se irn definiendo las matrices, los vectores y las
expresiones que los combinan y obteniendo los resultados sobre la marcha.
Si estos resultados son asignados a otras variables podrn ser utilizados
posteriormente en otras expresiones. En este sentido MATLAB sera como
una potente calculadora matricial (en realidad es esto y mucho ms...).
Definicin de matrices desde el teclado
Como en casi todos los lenguajes de programacin, en MATLAB las matrices

y vectores son variables que tienen nombres. Ya se ver luego con ms
detalle las reglas que deben cumplir estos nombres. Por el momento se
sugiere que se utilicen letras maysculas para matrices y letras
minsculas para vectores y escalares (MATLAB no exige esto, pero puede
resultar til). Para definir una matriz no hace falta declararlas o establecer de
antemano su tamao (de hecho, se puede definir un tamao y cambiarlo
posteriormente). MATLAB determina el nmero de filas y de columnas en
funcin del nmero de elementos que se proporcionan (o se utilizan). Las
matrices se definen o introducen por filas6; los elementos de una misma
fila estn separados por blancos o comas, mientras que las filas estn
separadas por pulsaciones intro o por caracteres punto y coma
(;). Por
ejemplo, el siguiente comando define una matriz A de dimensin (33):
>> A=[1 2 3; 4 5 6; 7 8 9]
La respuesta del programa es la siguiente:
203
A=
1
A partir de este momento la matriz A est disponible para hacer cualquier

tipo de operacin con ella (adems de valores numricos, en la definicin de
una matriz o vector se pueden utilizar expresiones y funciones matemticas).
Por ejemplo, una sencilla operacin con A es hallar su matriz traspuesta. En
MATLAB el apstrofo (') es el smbolo de transposicin matricial. Para
calcular A' (traspuesta de A) basta teclear lo siguiente (se aade a
continuacin la respuesta del programa):
>> A'
ans =
1
Como el resultado de la operacin no ha sido asignado a ninguna otra matriz,

MATLAB utiliza un nombre de variable por defecto (ans, de answer), que
contiene el resultado de la ltima operacin.
La variable ans puede ser utilizada como operando en la siguiente expresin
que se introduzca. Tambin podra haberse asignado el resultado a otra
matriz llamada B:
>> B=A'
B=
1
204
Ahora ya estn definidas las matrices A y B, y es posible seguir operando

con ellas. Por ejemplo, se puede hacer el producto B*A (deber resultar una
matriz simtrica):
>> B*A
ans =
66
78
90
78
93
108
90
108 126
Invertir una matriz es casi tan fcil como trasponerla. A continuacin se va a

definir una nueva matriz A -no singular- en la forma:
>> A=[1 4 -3; 2 1 5; -2 5 3]

A=
1
-3
-2
Ahora se va a calcular la inversa de A y el resultado se asignar a B. Para

ello basta hacer uso de la funcin inv( ) (la precisin o nmero de cifras con
que
se
muestra
el
resultado
se
puede
cambiar
con
el
men
File/Preferences/General):
B=inv(A)
B=
0.1803
0.2213
-0.1885
0.1311
0.0246
0.0902
-0.0984
0.1066
0.0574
Para comprobar que este resultado es correcto basta pre-multiplicar A por B;

>> B*A
ans =
205
1.0000
0.0000
0.0000
0.0000
1.0000
0.0000
0.0000
0.0000
1.0000
Operadores Aritmticos
MATLAB puede operar con matrices por medio de operadores y por medio
de funciones. Se han visto ya los operadores suma (+), producto (*) y
traspuesta ('), as como la funcin invertir inv( ). Los operadores matriciales
de MATLAB son los siguientes:
+
adicin o suma
sustraccin o resta
multiplicacin
'
traspuesta
potenciacin
divisin-izquierda
divisin-derecha
.*
producto elemento a elemento
./ y .\
divisin elemento a elemento
.^
elevar a una potencia elemento a elemento
Tipos de Datos
Ya se ha dicho que MATLAB es un programa preparado para trabajar con
vectores y matrices. Como caso particular tambin trabaja con variables
escalares (matrices de dimensin 1). MATLAB trabaja siempre en doble
precisin, es decir guardando cada dato en 8 bytes, con unas 15 cifras
decimales exactas.
206
MATLAB dispone de tres funciones tiles relacionadas con las operaciones

de coma flotante. Estas funciones, que no tienen argumentos, son las
siguientes:
Eps: devuelve la diferencia entre 1.0 y el nmero de coma flotante
inmediatamente superior. Da una idea de la precisin o nmero de cifras
almacenadas. En un PC, eps vale 2.2204e-016.
Realmin: devuelve el nmero ms pequeo con que se puede trabajar
(2.2251e-308).
Relamas: devuelve el nmero ms grande con que se puede trabajar
(1.7977e+308).
Otros tipos de datos: Integer, Float y Logical
MATLAB trabaja con variables de punto flotante y doble precisin (double).
Con estas variables pueden resolverse casi todos los problemas prcticos y
con frecuencia no es necesario complicarse la vida declarando variables de
tipos distintos, como se hace con cualquier otro lenguaje de programacin.
Sin embargo, en algunos casos es conveniente declarar variables de otros
tipos porque puede ahorrarse mucha memoria y pueden hacerse los clculos
mucho ms rpidamente.
MATLAB permite crear variables enteras con 1, 2, 4 y 8 bytes (8, 16, 32 y 64

bits). A su vez, estas variables pueden tener signo o no tenerlo. Las variables
con signo representan nmeros en intervalos "casi" simtricos respecto al 0;
las variables sin signo representan nmero no negativos, desde el 0 al
nmero mximo.
Los tipos de los enteros con signo son int8, int16, int32 e int64, y sin signo
uint8, uint16, uint32 y uint64. Para crear una variable entera de un tipo
determinado se pueden utilizar sentencias como las siguientes:
207
>> i=int32(100);
% se crea un entero de 4 bytes con valor 100
>> j=zeros (100); i=int32(j);
% se crea un entero i a partir de j
>> i=zeros (1000,1000,'int32'); % se crea una matriz 1000x1000 de enteros

Las funciones intmin('int64') e intmax('int64') permiten por ejemplo saber el
valor del entero ms pequeo y ms grande (en valor algebraico) que puede
formarse con variables enteras de 64 bits:
>> disp ([intmin('int64'), intmax('int64')])

-9223372036854775808 9223372036854775807
La funcin logical(A) produce una variable lgica, con el mismo nmero de

elementos que A, con valores 1 0 segn el correspondiente elementos de
A sea distinto de cero o igual a cero. Una de las aplicaciones ms
importantes de las variables lgicas es para separar o extraer los elementos
de una matriz o vector que cumplen cierta condicin, y operar luego
selectivamente sobre dichos elementos. Obsrvese, el siguiente ejemplo:
>> A=magic(4)
A=
16
13
11 10 8
14 15 1
12
>> j=A>10
j=
1
208
>> isa(j,'logical')
ans =
1
>> A(j)=-10
A=
-10
-10 10
-10 -10
-10
8
-10
1
Variables y Expresiones
Una variable es un nombre que se da a una entidad numrica, que puede
ser una matriz, un vector o un escalar. El valor de esa variable, e incluso el
tipo de entidad numrica que representa, puede cambiar a lo largo de una
sesin de MATLAB o a lo largo de la ejecucin de un programa. La forma
ms normal de cambiar el valor de una variable es colocndola a la izquierda
del operador de asignacin (=).
Cuando se quiere tener una relacin de las variables que se han utilizado en
una sesin de trabajo se puede utilizar el comando who. Existe otro
comando llamado whos que proporciona adems informacin sobre el
tamao, la cantidad de memoria ocupada y el carcter real o complejo de
cada variable. Se sugiere utilizar de vez en cuando estos comandos en la
sesin de MATLAB que se tiene abierta. Esta misma informacin se puede
obtener grficamente con el Workspace Browser, que aparece con el
comando View/Workspace o activando la ventana correspondiente si estaba
abierto.
El comando clear tiene varias formas posibles:
209
clear
sin argumentos, clear elimina todas las variables creadas
previamente (excepto las variables globales).

clear A, b
borra las variables indicadas.
clear global
borra las variables globales.
clear functions
borra las funciones.
clear all
borra todas las variables, incluyendo las globales, y las
funciones.
210

Codificador de Voz

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Codificador de Voz

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD DE PAMPLONA

FACULTAD DE INGENIERAS Y ARQUITECTURA

TRABAJO DE GRADO PARA

TITULO: DISEO E IMPLEMENTACIN SOFTWARE DE UN

AUTOR: REYNALDO CRDENAS JORGE

TRABAJO DE GRADO PARA

TITULO: DISEO E IMPLEMENTACIN SOFTWARE DE UN

AUTOR: REYNALDO CRDENAS JORGE

DIRECTOR: PhD. (c) DIEGO FERNEY GMEZ CAJAS

DIRECTOR DE PROGRAMA: Ing. CESAR AUGUSTO RANGEL

TRABAJO DE GRADO PARA

TITULO: DISEO E IMPLEMENTACIN SOFTWARE DE UN

-------------------------------------------------PhD. (c) DIEGO FERNEY GMEZ

Autor del trabajo de grado

Director del trabajo de grado

-------------------------------------------------------------Ing. CESAR AUGUSTO RANGEL VERA

---------------------------------------------Ing. ADRIN CARVAJAL

-- --------------------------------------------MSc.(c) WALTER GASTELBONDO

El seor es mi pastor, nada me falta:

En verdes praderas me hace reposar, me conduce hacia las aguas del

Me preparas una mesa ante mis enemigos, perfumas con ungento mi

Mara, a mi sobrino Reyden Daniel

Crdenas, y a todos mis amigos.

Agradezco a mi director Diego Ferney Gmez Cajas por la colaboracin en

Agradezco a mis compaeros que contribuyeron de alguna u otra forma a la

Naturaleza del sonido

CUALIDADES DEL SONIDO

Fenmenos fsicos del sonido

LA VOZ Y SUS CARACTERISTICAS

ANATOMIA DEL APARATO FONADOR

Clasificacin de los sonidos

Lugar y modo de articulacin

Posicin de los rganos articulatorios

Modelo del tracto voclico

ANATOMIA DEL SISTEMA AUDITIVO HUMANO

Fenmenos asociados al odo

RUIDO Y SUS CARACTERISTICAS

Ruido de los semiconductores

Ruido blanco o gaussiano

Ruido de impulso de aguja

Definicin de codificacin de voz

Historia de los codificadores

Medida subjetiva de la voz

CLASIFICACION DE LOS CODIFICADORES

Codificadores de forma de onda

Codificadores en el dominio del tiempo

Modulacin por codificacin de impulsos

Modulacin por codificacin de impulsos diferencial

Modulacin por codificacin de impulsos diferencial adaptativa

Codificacin el dominio de la frecuencia

Codificacin por transformada

Vocoder por prediccin lineal

Anlisis de predicion lineal

Filtro de prediccin de retardo largo

Orgenes del celp

Excitacin por cdigo

Fundamentos de mtodos de ventaneo

Propiedades de las ventanas

CONJUGADA ESTANDAR G.729

Modelo fuente filtro de la voz

Anlisis de prediccin lineal

Predictor de largo plazo

Implementacin del codificador CELP

Descripcin general del codificador/decodificador