Documentos de Académico
Documentos de Profesional
Documentos de Cultura
PAMPLONA-COLOMBIA
NOVIEMBRE DE 2006
UNIVERSIDAD DE PAMPLONA
FACULTAD DE INGENIERAS Y ARQUITECTURA
DEPARTAMENTO DE INGENIERA ELCTRICA ELECTRNICA
SISTEMAS Y TELECOMUNICACIONES
INGENIERA ELECTRNICA
PAMPLONA-COLOMBIA
NOVIEMBRE DE 2006
UNIVERSIDAD DE PAMPLONA
FACULTAD DE INGENIERAS Y ARQUITECTURA
DEPARTAMENTO DE INGENIERA ELCTRICA ELECTRNICA
SISTEMAS Y TELECOMUNICACIONES
INGENIERA ELECTRNICA
---------------------------------------------REYNALDO CRDENAS
JORGE
CAJAS
Director de programa
JURADO CALIFICADOR
FERRER
BARRAGAN
Presidente
Oponente
--------------------------------------------MSc. (c) JOS DEL CARMEN PEA
Secretario
PAMPLONA-COLOMBIA
NOVIEMBRE DE 2006
DEDICATORIA
Este proyecto va dedicado a Dios, a mi papa Cristbal Crdenas Mendoza, a
mi madre Emilse del Socorro Jorge Arrieta; a mis hermanos, Mauricio Jos,
Mara Anglica; a mi sobrino Reyden Daniel Crdenas Jorge y a todas
aquellas personas que ayudaron a crear en mi un espritu de lucha y
fortaleza, a mis amigos que me colaboraron a que este
efectuara.
proyecto se
PENSAMIENTO
Lealtad y dicha me acompaan todos los das de mi vida; habitar la casa del
seor por siempre jams.
Salmo
AGRADECIMIENTOS
En primer lugar, agradezco a Dios por las bendiciones que me ha dado y por
permitirme culminar esta etapa importante de mi vida, a mi pap Cristbal
Crdenas Mendoza, a mi madre Emilse del Socorro Jorge Arrieta, a mis
hermanos Mauricio Jos, Anglica
NDICE GENERAL
DEDICATORIA
PENSAMIENTO
AGRADECIMIENTOS
Pag.
RESUMEN Y ABSTRACT
. 13
INTRODUCCIN
.. 16
JUSTIFICACIN
17
DELIMITACIONES
19
CAPITULO I.
EL SONIDO Y SUS CARACTERSTICAS
. 20
El sonido
.. 20
Antecedentes histricos
. 21
. 25
26
Intensidad
. 27
Tono
28
Presin sonora
. 29
Potencia
30
30
Reflexin
31
Refraccin
. 31
Difraccin
. 33
Efecto doppler
. 34
37
Fonologa y fontica
. 40
Fontica experimental
41
Fontica articulatoria
. 41
43
Formantes
45
.. 49
Oralidad y nasalidad
50
Tonalidad
. 50
51
. 53
Duracin
54
Unidades fonticas
57
CARACTERISTICAS DE LA VOZ
58
58
. 61
El odo
61
El odo externo
62
El odo medio
.. 63
El odo interno
.. 65
.. 68
Efecto de enmascaramiento
. 69
Capacidad auditiva
. 69
. 72
Ruido externo
.. 73
Ruido industrial
74
Ruido atmosfrico
74
Ruido extraterrestre
75
Ruido interno
... 75
Ruido trmico
.. 76
. 78
Ruido de intermodulacion
.. 78
. 79
80
CAPITULO II.
CODIFICACION DE VOZ
. 81
81
... 81
Muestreo y cuantificacin
83
Cuantificacin uniformes
.. 85
Cuantificacin logartmica
89
Cuantificacin no uniforme
89
Cuantificacin vectorial
91
92.
.. 91
. 95
.. 95
96
96
Modulacin delta
98
99
.. 100
..
Codificacin en subbandas
101
102
102
Vocoders
105
107
Codificadores hbridos
111
Codificacin relp
112
Codificacin mpc
Codificacin celp
112
114
Codificacin vselp
116
120
121
Codificadores celp
124
..
127
Estndares
127
Predictor corto
128
Predictor largo
128
128
Filtros
129
Filtro FIR
... 130
Fundamentos de diseo
133
Especificaciones de diseo
134
.. 134
135
Filtro IIR
. 140
Capitulo III
CODIFICACIN DE LA VOZ MEDIANTE PREDICCIN LINEAL CON
EXCITACIN
POR
CDIGO
ALGEBRAICO
DE
ESTRUCTURA
.
PRINCIPIOS BSICOS
146
146
10
Prediccin lineal
146
150
150
Clculo de la excitacin
.. 152
152
153
Codificador
.. 155
Decodificador
.. 157
Retardo
154
157
Preprocesamiento
158
. 158
. 160
160
.. 161
.. 164
. 164
.. 165
.. 165
.. 168
. 168
168
169
170
170
170
171
172
11
172
Cdigo en matlab
175
ANALISIS DE CONFIABILIDAD
MARCO ECONOMICO
ANALISIS DE LEGALIDAD
INFLUENCIA AMBIENTAL DEL TRABAJO
RESULTADOS
CONCLUSIONES
RECOMENDACIONES
REFERENCIAS BIBLIOGRAFICAS
ANALISIS BIBLIOGRAFICO
GLOSARIO DE TERMINOS NO CONVENCIONALES
SIMBOLOS NO CONVENCIONALES
ABREVIATURAS UTILIZADAS
ANEXOS
180
181
183
184
185
187
188
189
193
194
196
198
199
12
.
.
..
.
.
..
.....................
.
ndice de Figuras
Nombre
Pg.
13
14
ndice de Tablas
Nombre
Pg.
15
RESUMEN
16
17
ABSTRACT
This investigation its oriented to design an voice coder CELP (Code Excited
Linear Prediction) using computacional tool MATLAB, calculating the
excitation, taking as guide the G.729 standard from the ITU-T (International
Telecommunications Union - Telecommunications) with the purpose of
reducing the number of bits in the voice transmission.
By obtain the model of voice signal, two predictors are used, an long term
predictor, and other short term predictor, first tries to model the periodic
excitation of the signal, and the second, imitates the behavior of vocal tract.
On the other hand, a vector of fixed codes models the nonperiodic excitation
of the voice signal.
First the excitation without pitch is generated (base frequency), that is to say,
single the deaf component of the excitation (vector of fixed codes), later adds
the periodic excitation to him (sonorous signal, that it is modeled with a vector
of adaptive codes) completing the excitation.
18
The task of this design is the one to also provide information of the error,
transmitting to low rates of bits reducing the bandwidth for the improvement of
the voice quality and taking advantage of one more efficient form different
served through the networks that transport voice, like Internet, networks of
fixed, cellular telephony, between others.
19
INTRODUCCION
20
JUSTIFICACION
OBJETO
PROBLEMA
La comunicacin eficiente de las seales de voz ha sido una necesidad
creciente desde hace ya muchos aos, en particular, la telefona en sus
distintas manifestaciones satelital, mvil, convencional y ms recientemente
con la comunicacin de voz a travs de Internet.
En todos estos sistemas de comunicacin modernos el tratamiento de la
seal de voz para su adecuada transmisin con un mnimo uso de los
recursos del sistema, tales como canales telefnicos, ancho de banda de
radio frecuencia, ranuras (slots) de tiempo, etctera, representa uno de los
intereses ms grandes de la investigacin actual debido a la creciente
demanda de servicios con un nivel de calidad especfico.
La seal de voz en las aplicaciones ms modernas se transmite en forma
digital. sta es la preferida actualmente para los servicios de comunicacin
punto a punto debido a la versatilidad que ofrece para su manipulacin por
21
22
DELIMITACIONES
Objetivo general:
puntualizando la
23
El Sonido
Fsicamente, el fenmeno sonoro se puede describir como la percepcin de
oscilaciones rtmicas estimuladas por algn objeto fsico vibrante que acta
como fuente emisora, este proceso requiere de una fuente que lo emita, un
canal que lo distribuya y otro que lo reciba. Como formas del lenguaje sonoro
encontramos la voz, la msica, el ruido o efecto sonoro y el silencio. El
fenmeno sonoro se divide en tres [38].
Forma sonora:
Silencio:
24
Por lo tanto,
gaseoso, liquido o slido. Cuando nos referimos al sonido audible por el odo
humano, estamos hablando de la sensacin detectada por nuestro odo, y
que se produce por las rpidas variaciones de presin en el aire por encima y
por debajo de un valor esttico. Este valor esttico nos lo da la presin
atmosfrica (alrededor de 100.000 Pascals) el cual tiene unas variaciones
pequeas y de forma muy lenta, tal y como se puede comprobar en un
barmetro.
ANTECEDENTES HISTORICOS
Antigedad
Los pueblos antiguos efectuaron numerosas especulaciones sobre los
fenmenos elementales del sonido; sin embargo, con la excepcin de unas
25
26
27
sonido a finales del siglo XVIII, sobre todo en relacin con la vibracin de
cuerdas y varillas.
Siglos XIX Y XX
El siglo XIX supuso, sobre todo, una era de desarrollo experimental. Las
primeras medidas precisas de la velocidad del sonido en el agua fueron
llevadas a cabo en 1826 por el matemtico francs Jacques Charles
Franois Sturm, y a lo largo del siglo se realizaron numerosos experimentos
para determinar con extremada precisin la velocidad de sonidos de
diferentes frecuencias en distintos medios. La ley fundamental que dice que
la velocidad es la misma para sonidos de cualquier frecuencia y depende de
la densidad y elasticidad del medio qued establecida en dichos
experimentos.
Durante el siglo XIX se emplearon en el estudio del sonido aparatos como el
estroboscopio, el fonendoscopio o la sirena. En este siglo se dedic tambin
mucho inters al establecimiento de un patrn de tono. La primera
sugerencia de un patrn la realiz el fsico francs Joseph Sauveur alrededor
de 1700. Sauveur propuso que el do equivaliera a 256 Hz, un patrn cmodo
desde el punto de vista matemtico (al ser una potencia de dos). El fsico
alemn Johann Heinrich Scheibler llev a cabo la primera determinacin
precisa de la frecuencia de un tono, y en 1834 propuso como patrn que el la
equivaliera a 440 Hz. En 1859, el gobierno francs decret que el patrn
para el la fuera de 435 Hz, segn las investigaciones del fsico francs Jules
Antoine Lissajous. Este patrn se acept en muchas regiones del mundo
hasta bien entrado el siglo XX.
En el siglo XIX se inventaron el telfono, el micrfono y diversos tipos de
gramfono, todos ellos muy tiles para el estudio del sonido. En el siglo XX,
los fsicos dispusieron por primera vez de instrumentos que hacan posible
28
29
Cuando hay variaciones y perturbaciones est claro que debe haber un valor
esttico, a partir del cual se producen estas variaciones. En el caso del aire,
el valor esttico no los da la presin atmosfrica.
CUALIDADES DEL SONIDO
Intensidad
La intensidad del sonido percibido, o propiedad que hace que ste se capte
como fuerte o como dbil, est relacionada con la intensidad de la onda
sonora correspondiente, tambin llamada intensidad acstica. La intensidad
acstica es una magnitud que da idea de la cantidad de energa que est
fluyendo por el medio como consecuencia de la propagacin de la onda.
Se define como la energa que atraviesa por segundo una superficie unidad
dispuesta perpendicularmente a la direccin de propagacin. Equivale a una
potencia por unidad de superficie y se expresa en W/m2. La intensidad de
una onda sonora es proporcional al cuadrado de su frecuencia y al cuadrado
de su amplitud y disminuye con la distancia al foco.
30
hasta el umbral del dolor es muy amplio, estando ambos valores lmite en
una relacin del orden de 1014.
Otro de los factores de los que depende la intensidad del sonido percibido es
la frecuencia. Ello significa que para una frecuencia dada un aumento de
intensidad acstica da lugar a un aumento del nivel de sensacin sonora,
pero intensidades acsticas iguales a diferentes frecuencias pueden dar
lugar a sensaciones distintas.
31
Tono
Timbre
El timbre es la cualidad del sonido que permite distinguir sonidos
procedentes de diferentes instrumentos, aun cuando posean igual tono e
intensidad. Debido a esta misma cualidad es posible reconocer a una
persona por su voz, que resulta caracterstica de cada individuo.
32
puros, slo los diapasones generan este tipo de sonidos, que son debidos a
una sola frecuencia y representados por una onda armnica. Los
instrumentos musicales, por el contrario, dan lugar a un sonido ms rico que
resulta
de
vibraciones
complejas.
Cada
vibracin
compleja
puede
33
Reflexin
Una onda se refleja (rebota al medio del cual proviene) cuando topa con un
obstculo que no puede traspasar ni rodear.
34
Refraccin
Es la desviacin que sufren las ondas en la direccin de su propagacin,
cuando el sonido pasa de un medio a otro diferente.
35
36
Difraccin
Por que una onda sonora topa con un pequeo agujero y lo atraviesa.
37
El fenmeno fue descrito por primera vez por el matemtico y fsico austriaco
Christian Doppler (1803-1853). Consiste en que el sonido emitido por una
fuente es percibido por nuestro odo con distintas frecuencias dependiendo si
dicha fuente est en reposo, acercndose o alejndose. En efecto, la
frecuencia aumenta si la fuente se aproxima (sonido ms agudo) y disminuye
si se aleja (sonido ms grave).
38
39
40
41
42
43
Fonologa y fontica
La Fonologa estudia los fonemas, es decir el modelo fnico convencional e
ideal del lenguaje. La Fontica, en tanto, se refiere a los sonidos en el
habla, incluyendo su produccin acstica y los procesos fsicos y
fisiolgicos de emisin y articulacin involucrados. As, la Fonologa es el
estudio de los sonidos de la lengua en cuanto a su carcter simblico o de
representacin mental. Procede detectando regularidades o recurrencias en
los sonidos del lenguaje hablado y sus combinaciones, y haciendo
abstraccin de las pequeas diferencias debidas a la individualidad de cada
hablante y de
acento
caractersticas suprasegmentales
como la entonacin, el
44
45
46
ste est formado por los pulmones como fuente de energa en la forma de
un flujo de aire, la laringe, que contiene las cuerdas vocales, la faringe, las
cavidades oral (o bucal) y nasal y una serie de elementos articulatorios: los
labios, los dientes, el alvolo, el paladar, el velo del paladar y la lengua
(Figura 6). Las cuerdas vocales son, en realidad, dos membranas dentro de la
laringe orientadas de adelante hacia atrs (Figura 8). Por adelante se unen
en el cartlago tiroides (que puede palparse sobre el cuello, inmediatamente
por debajo de la unin con la cabeza; en los varones suele apreciarse como
una protuberancia conocida como nuez de Adn). Por detrs, cada una est
sujeta a uno de los dos cartlagos aritenoides, los cuales pueden separarse
voluntariamente por medio de msculos. La abertura entre ambas cuerdas
se denomina glotis. Cuando las cuerdas vocales se encuentran separadas,
la glotis adopta una forma triangular. El aire pasa libremente y prcticamente
no se produce sonido. Es el caso de la respiracin. Cuando la glotis
comienza a cerrarse, el aire que la atraviesa proveniente de los pulmones
experimenta una turbulencia, emitindose un ruido de origen aerodinmico
conocido como aspiracin (aunque en realidad acompaa a una espiracin
o exhalacin). Esto sucede en los sonidos denominados aspirados (como la
h inglesa). Al cerrarse ms, las cuerdas vocales comienzan a vibrar a
modo de lenguetas, producindose un sonido tonal, es decir peridico. La
frecuencia de este sonido depende de varios factores, entre otros del tamao
y la masa de las cuerdas vocales, de la tensin que se les aplique y de la
velocidad del flujo del aire proveniente de los pulmones. A mayor tamao,
menor frecuencia de vibracin, lo cual explica por qu en los varones, cuya
47
FIGURA 7 La glotis
48
El filtrado acta modificando el espectro del sonido. Tiene lugar en las cuatro
cavidades supraglticas principales: la faringe, la cavidad nasal, la cavidad
oral y la cavidad labial. Las mismas constituyen resonadores acsticos que
enfatizan determinadas bandas frecuenciales del espectro generado por
las cuerdas vocales, conduciendo al concepto de formantes.
Formantes
49
50
51
lugar del tracto vocal en que tiene lugar, por los elementos que intervienen y
por el modo en que se produce, factores que dan origen a una clasificacin
fontica de los sonidos que veremos luego.
rganos
Tracto
Nasal
Pulmones
Laringe
Faringe
Tracto
Vocal
Funcin
Tracto
Nasal
Pulmones
Laringe
Faringe
52
Tracto
Vocal
Efectos Resultantes
Intensidad
Modulacin
Tono fundamental
Presin Subglotal
Modulacin
Modulacin
Traza de
Voz
Pulso Glotal
Fonacin
Articulacin
53
Segn la duracin
Vocales y consonantes
interponiendo
algn
obstculo
formado
por
los
elementos
Oralidad y nasalidad
Los fonemas en los que el aire pasa por la cavidad nasal se denominan
nasales, en tanto que aqullos en los que sale por la boca se denominan
orales. La diferencia principal est en el tipo de resonador principal por
encima de la laringe (cavidad nasal y oral, respectivamente). En castellano
son nasales slo las consonantes
Tonalidad
54
, etc. Aquellos
55
inicial o
) tambin se
aspirada,
). Slo existe un
y la
56
57
58
permite
representar
de
una
manera
inequvoca
los
fonemas
59
60
Unidades fonticas
Los alfonos
Los alfonos son cada uno de los sonidos propios de una lengua. Alfonos
son las realizaciones concretas, fonticas, de los fonemas, de acuerdo con
los elementos fnicos que entren en contacto. Son sonidos del habla,
variantes fonticas de un sonido real. Por ejemplo, en castellano la e inicial
de la palabra ejes es ms abierta que la segunda; sin embargo, si
pronunciamos la e ms o menos abierta no cambiamos nunca el
significado de las palabras. Estas dos realizaciones concretas son variantes
fonticas, alfonos, del fonema /e/.
Los fonemas
Se definen como el conjunto de alfonos con el mismo valor fonolgico en
una lengua. Cada lengua tiene un nmero limitado de fonemas, que son
iguales a todos los hablantes en un momento dado (sincrnicamente) y que,
segn la eleccin y combinacin que se haga con ellos, constituyen los
diferentes significantes de los signos lingsticos. Por ejemplo:
/s/, /z/ casa, mismo
/n/, /N/ cana, tango
61
Caractersticas de la voz[46]
Los sonidos se clasifican en sonoros y no sonoros. En los primeros se abren
y cierran las cuerdas vocales, cambiando el rea de la traquea y originando
un tren de impulsos cuasi peridicos. El periodo o frecuencia fundamental de
este tren de impulsos se conoce con el nombre de pitch, y su valor esta
comprendido entre 50 y 400 Hz para los hombres y es superior en mujeres y
nios. En los sonidos no sonoros el aire fluye libremente hasta alcanzar el
tracto vocal al permanecer las cuerdas vocales. Posteriormente, la variacin
voluntaria del tracto vocal, junto con el estado variante de las cuerdas,
produce la voz.
El tracto vocal acta como una cavidad resonante para los sonidos sonoros,
estando centradas las frecuencias de resonancia para la mayora de la gente
en 500 Hz y sus armnicos pares. Esta resonancia causa grandes picos en
el espectro resultante, a los cuales se les llama formantes. Tambin la seal
tiene una naturaleza paso baja y a partir de unos 4KHz comienza a
predominar el ruido.
62
63
La voz es una seal que emerge de una fuente definida: los pulmones
actan como emisores de aire y la seal se produce por la vibracin
de las cuerdas vocales y la posterior resonancia con las paredes del
tracto voclico.
La voz est formada por la mezcla de seales de excitacin peridica
y ruido.
La variacin temporal de la seal en el tracto voclico produce el
timbre caracterstico que diferencia los fonemas, ciertos fonemas son
articulados sin la presencia de las cuerdas vocales (fonemas sordos).
Antes de pasar por el tracto voclico, la onda sonora tiene un espectro
relativamente plano (sin formantes).
La fuente emisora posee dos estados: generacin de sonidos
vocalizados y no vocalizados.
Si se toman intervalos de tiempos pequeos se puede modelar el
rgano generador de voz a travs de la bsqueda de su funcin de
transferencia, que define relacin entre la entrada (excitacin gltica) y
la salida (voz generada) por medio de filtros.
64
EL OIDO
El odo se encarga de recoger los sonidos, procesarlos y mandar seales
sonoras al cerebro mediante el proceso de transduccin .Otra funcin muy
importante del odo es la de mantener el sentido del equilibrio.
FIGURA 15 El odo
65
ELOIDO EXTERNO
La nica parte visible del odo es el pabelln auditivo (la aurcula) que, debido
a su especial forma helicoidal, es la primera parte del odo en reaccionar ante
el sonido. El pabelln auditivo funciona como una especie de embudo que
ayuda a dirigir el sonido hacia el interior del odo. Sin la presencia de este
embudo las ondas sonoras tomaran una ruta directa hacia el conducto
auditivo. Esto hara que el proceso de audicin fuera difcil e ineficaz ya que
gran parte del sonido se perdera y seria ms difcil escuchar y comprender los
sonidos.
66
Una vez que las ondas sonoras han superado el pabelln auditivo, se
desplazan de dos a tres centmetros dentro del conducto auditivo antes de
golpear el tmpano, tambin conocido como membrana timpnica.
El tmpano
El tmpano (membrana timpnica), el cual seala el inicio del odo medio, es
extremadamente sensible. Para proteger al tmpano, el conducto auditivo se
curva ligeramente haciendo ms difcil que por ejemplo, los insectos puedan
alcanzarlo. Al mismo tiempo la cera del odo (cerumen) del conducto auditivo
ayuda a mantener fuera del odo las materias no deseadas, como el polvo, la
suciedad y los insectos. El conducto auditivo adems de proteger el tmpano,
acta como un audfono natural que amplifica automticamente los sonidos
bajos y menos penetrantes de la voz humana. De este modo, el odo
compensa parte de la debilidad de la voz humana, y hace ms fcil or y
comprender una conversacin normal.
EL OIDO MEDIO
El odo medio est constituido por una cavidad llena de aire, dentro de la
cual se encuentran tres huesecillos, denominados martillo, yunque y estribo,
unidos entre s en forma articulada. Uno de los extremos del martillo se
encuentra adherido al tmpano, mientras que la base del estribo est unida
mediante un anillo flexible a las paredes de la ventana oval, orificio que
constituye la va de entrada del sonido al odo interno.
67
Finalmente, la cavidad del odo medio se comunica con el exterior del cuerpo
a travs de la trompa de Eustaquio, la cual es un conducto que llega hasta
las vas respiratorias y que permite igualar la presin del aire a ambos lados
del tmpano.
68
puede ser
EL OIDO INTERNO[41]
El odo interno es un laberinto de conductos enredados que contienen fluidos
y que estn relacionados con el sentido de odo y con el equilibrio.
Hay tres canales dentro de una estructura con forma de caracol llamada
cclea. Las vibraciones sonoras, amplificadas por los huesos del odo medio,
viajan por estos canales y mueven pequeos pelos que estimulan fibras
conectadas a su vez con el nervio auditivo.
69
La Cclea
En la cclea o caracol, las ondas sonoras se transforman en impulsos
elctricos que se envan al cerebro. El cerebro traduce esos impulsos en
sonidos que podemos reconocer y entender. La cclea parece la concha de
un caracol o una manguera enrollada. La cclea se encuentra llena de un
fluido llamado perilinfa y contiene dos membranas colocadas una muy cerca
de la otra. Estas membranas forman una especie de pared de separacin en
la cclea. Sin embargo, para que el fluido se mueva libremente en la cclea
de un lado a otro en la pared de separacin, la pared dispone de un pequeo
orificio (helicotrema). Este orificio es necesario, ya que garantiza que las
vibraciones de la ventana oval se transmitan a todo el fluido que se
encuentra en la cclea. Cuando el fluido se mueve en interior de la cclea,
miles de microscpicas fibras pilosas que estn en el interior de la pared de
separacin se ponen a su vez en movimiento. Existen aproximadamente
24.000 de estas fibras pilosas, dispuesta en cuatro largas filas.
70
El Vestbulo
Otra parte importante del odo interno es el rgano encargado del equilibrio,
el Vestbulo.
El vestbulo registra los movimientos del cuerpo, garantizando as que
podamos mantener el equilibrio. El vestbulo consta de tres conductos en
forma de anillo, orientados en tres planos diferentes. Los tres conductos
estn llenos de fluido que se mueve conforme a los movimientos del propio
cuerpo. Adems del fluido, estos conductos tambin contienen miles de
fibras pilosas que reaccionan al movimiento del fluido, enviando pequeos
impulsos al cerebro. El cerebro los decodifica y utiliza para ayudar al cuerpo
a mantener el equilibrio.
71
72
CAPACIDAD AUDITIVA
Muchos animales oyen una gama de frecuencias ms amplia que la que son
capaces de or los seres humanos. Por ejemplo, los silbatos para perros
vibran a una frecuencia alta, que los seres humanos no son capaces de
detectar; mientras que ciertas evidencias sugieren que los delfines y las
ballenas se comunican con frecuencias fuera del alcance del odo humano
(ultrasonidos). La frecuencia se mide en hercios, o nmero de ondas sonoras
que un objeto emite por segundo. Cuanto ms vibra el objeto, la frecuencia y
el tono del sonido resultante son ms altos.
73
74
Los tonos altos pueden incrementar hasta una nota de la escala musical; los
tonos bajos tienden a hacerse cada vez ms bajos a medida que aumenta la
intensidad del sonido. Este efecto slo se percibe en tonos puros. Puesto
que la mayora de los tonos musicales son complejos, por lo general, la
audicin no se ve afectada por este fenmeno de un modo apreciable.
75
76
Ruido externo
El ruido externo viene de fuentes sobre las cuales se tiene poco o nada de
control industrial, atmosfrico o del espacio. Sin considerar su origen, el ruido
se muestra como un voltaje aleatorio de ca y puede verse en el osciloscopio.
77
Ruido industrial
Ruido atmosfrico
Ruido extraterrestre
Ruido industrial
78
Ruido interno
79
Ruido trmico
Ruido de los semiconductores
Distorsin por intermodulacin
Ruido trmico
un
conductor
como
flujos
de
corriente,
experimentan
80
81
Ruido de ntermodulacin
82
83
84
85
86
similar, a 6.7 Kbps en Japn. En Europa, dentro del sistema GSM, se usa un
codificador a 13 Kbps.
Muestreo y cuantificacin
Muestreo
87
Cuantificacin
88
la
seal
la
discrepancia
Cuantificadores Uniformes
89
es constante.
90
91
Cuantificacin no uniforme
puede diferir.
p(x
Pk
92
k= cte/ Pk
Pk
Pk
cuantificacin logartmica
reconstruccin y ancho
seal por
93
94
Cuantificacin vectorial
los
mtodos
anteriores,
cada
muestra
se
cuantificaba
95
La
cuantificacin
vectorial
ofrece
mejores
resultados
que
la
96
Calidad
Degradacin
E x celente
Imperceptible
B u en a
Perceptible pero no
molesta
Med ia
Ligeramente
molesta
Pobre
Molesta
Mala
Muy molesta
97
en
el
dominio
de
la frecuencia
98
usados para
PCM
99
DPCM
DM
ADPCM
onda
cuantificacin. Cada
siendo el
ms
DPCM
ADPCM
100
Ecuacin 1
Ecuacin 2
101
Modulacin delta
102
tiempo.
en
se adecuase a los
103
informacin
transmitidos
como
al receptor
el receptor usan
Puesto
un
La
CCITT
predictor. El predictor tiene dos polos y seis ceros, por lo que produce
una calidad de salida aceptable para seales que no son de voz.
de
una
bits
de
stas
forma
104
de
Codificacin en subbandas
Codificacin por transformada
Codificacin perceptual
Codificacin perceptual
105
Codificacin en sub-bandas
seal
atraviesa
un
conjunto
106
de
filtros
paso-banda
(BPF).
107
La seal
de
entrada
se
108
Ecuacin 3
La codificacin por transformada se utiliza en la codificacin de seales
de banda ancha de imagen y sonido. Sin embargo, no se usa mucho
en codificacin de voz debido a su complejidad.
Vocoders
109
110
pero
difiere
en
la
Ecuacin 4
A este filtro se le conoce tambin como filtro LPC (Lineal PredictiveCoding).
Es decir, se supone que cada muestra es una combinacin lineal de
las muestras anteriores. Los coeficientes del filtro se calculan para
minimizar el error entre la muestra actual y su prediccin.
111
tracto vocal funciona muy bien y es posible alcanzar una seal de voz
sintetizada muy inteligible a bit-rates del orden de 2.4 Kbps.
voz
fue desarrollado
por el
DOD
Emisor
fase de anlisis
codificacin de parmetros
112
tramas en que dicha seal es dividida. Como coeficientes del filtro LPC
se utilizan los coeficientes de reflexin. Los coeficientes {ak} k=1, .. ,10
presentan unas caractersticas que los hacen inadecuados para su
transmisin. La fase de codificacin es la encargada de codificar
estos parmetros y convertirlos en la secuencia de bits a transmitir.
bajas
de
los
altas frecuencias.
113
resultados de este detector, junto con los del pitch, son corregidos
de
impulsos
repetido
similar
al utilizado
en
la
fase
de
anlisis
que es
el
114
errores,
Codificadores Hbridos
en bloques
fueran
de
uno
muestras
solo.
(vectores)
Llevan
conoce
como
codificadores de anlisis-por-
luego sintetizarla
parecido a la original.
Codificacin RELP
Codificacin multipulso, MPC
Codificacin CELP (FS-1016)
Codificacin VSELP
115
y conseguir el mayor
Codificacin RPE-LTP
Codificacin RELP
116
El periodo
de
pitch causa una correlacin de retardo largo que no se elimina con el filtro
LPC. Esta correlacin se puede eliminar pasando el residuo a travs de
un segundo predictor lineal, llamado predictor de pitch o filtro de pitch.
Este filtro es del tipo:
Ecuacin 5
Siendo M el periodo del pitch.
La salida de este predictor es aproximadamente ruido gaussiano.
FIGURA 43 (a) Seal original. (b) Residuo del filtro LPC (aumentado en
10dB). (c) Residuo de los filtros LPC y de pitch en cascada (aumentado en
10dB)
117
El codificador multipulso pasa como excitacin a los dos filtros una serie
de impulsos (sobre 4 o 6 impulsos). La posicin y sus amplitudes se
establecen utilizando un procedimiento de anlisis por sntesis (se
sintetiza la voz para cada uno de estos conjuntos de impulsos y el
conjunto que produce el error menor entre la seal reconstruida y la
original se elige como la excitacin).
RPE
VQ (tambin llamado
118
se
le
enva
Codificador
119
Decodificador
120
121
Codificacin RPE-LTP
de
una
versin
reconstruida
122
de
la
seal residuo
Este bloque de seal residuo del filtro STP se pasa al bloque de anlisis
LTP para producir la nueva estimacin de seal residuo STP que se va a
utilizar
en
el
siguiente
sub-bloque,
completando as el lazo de
realimentacin.
123
Anlisis LPC
del
filtro
LPC
se
utilizan
los coeficientes de
secciones cilndricas
linealmente
dos
124
cuatro veces por segmento, para cada 5ms (40 muestras). Para cada
subsegmento se calcula el factor de desplazamiento de retardo largo
(pitch) y un factor de ganancia asociado. Como el parmetro de pitch
puede tomar valores entre 40 y 120 se necesitan 7 bits para codificarlo.
Si d(k) es la seal residuo del filtro STP, el residuo del filtro LTP, e,
se calcula restando a d una estimacin d". d" se calcula antes a partir
de la seal residuo STP reconstruida previamente, pero ajustada a los
valores del subsegmento actual.
La seal residuo LTP se filtra con un filtro FIR con respuesta impulsiva
dada por:
i
H(i)*2^13 8192
4 (6)
3 (7)
2 (8)
1 (9)
0 (10)
5746
2054
-374
-134
125
donde
Con
esto logramos
una
medida
de
ms
error subjetiva
6 bits.
mximo x max, y
Las
muestras se
126
Decodificador RPE-LTP
Decodificacin RPE
Prediccin de retardo largo
Filtrado de retardo corto, sntesis
Postprocesado
las
127
128
Eliminar la redundancia.
Eliminar la irrelevancia.
129
hay formantes y lo atena en las que s. De este modo, una seal de error
cuya energa es concentrada en los formantes es considerada mejor que una
que no.
SCB
130
Estndares
half-rate
(5.6 kb/s.) y
Predictor corto
131
Lazo abierto
Lazo cerrado (mediante sntesis): supone gran parte de la carga
computacional de un codificador CELP
Combinaciones de ambos, para reducir complejidad
132
Filtros
Es un dispositivo (hardware o software) que se aplica a un conjunto de datos
ruidosos para poder extraer informacin sobre un rea de inters. Un filtro
digital es un sistema lineal e invariante en el tiempo (LTI) que modifica el
espectro en frecuencia de la seal de entrada X(w), segn la respuesta que
tenga en frecuencia H(w) (conocida como funcin de transferencia), para dar
lugar a una seal de salida con espectro:
Los sistemas LTI se clasifican como: FIR (finite impulse response) que se
caracterizan pos ser sistemas no recursivos, e IIR (infinite impulse response)
que se distinguen por tener retroalimentacin en la seal salida.
133
Filtros analgicos:
Filtros digitales:
134
135
trminos de su
pasa-
banda y de rechazo-banda
filtros
tpicamente
requieren
de
muchos
coeficientes,
su
136
Fundamentos de diseo
Una vez que las especificaciones han sido definidas, la etapa siguiente es
calcular los coeficientes de la funcin de transferencia H(z) que genere una
respuesta de frecuencia aproximada, acorde con las especificaciones de
diseo. El proceso de derivar los coeficientes de H(z) es reconocido como
el diseo del filtro digital.
137
Especificaciones de diseo
Antes de que el filtro pueda ser diseado, debe ser definido un conjunto de
especificaciones, que puede ser tan simple como remover una seal de
ruido por encima de 30Hz en una seal muestreada a 100KHz. Una
especificacin ms rigurosa podra exigir una magnitud especfica en el
rizado de la banda de paso, atenuacin en la banda de rechazo o el
ancho de la banda de transicin. Una especificacin ms precisa podra
responder a lograr un orden mnimo del filtro, una forma arbitraria de su
respuesta de magnitud o la necesidad de un tipo especfico de filtro. Los
mtodos de diseo de filtros pueden variar en general en la forma como se
especifiquen los requerimientos. En la mayora de las aplicaciones
prcticas, las especificaciones de diseo son formuladas en el dominio de
la frecuencia, en trminos de la respuesta deseada de magnitud y fase.
hd(n)
y la
funcin
de
ventana
especificaciones de diseo.
138
w(n)
ms
apropiada,
segn
tipos, cuyas caractersticas se muestran el la siguiente tabla para los cinco (5)
tipos de ventanas bsicas ms frecuentemente utilizadas en DSP.
Utilizando la expresin
de la banda de transicin
s.
139
que determine los valores de la secuencia w(n) asociada con cada ventana;
sin embargo el TBS de MATLAB incluye funciones calculan L=M+1 muestras
para cada tipo de ventana:
w=boxcar(L)
ventana rectangular
w=triang(L)
w=hanning(L)
ventana de Hanning
w=hamming(L)
ventana de Hamming
w=blackman(L)
ventana de Blackman
140
141
Los filtros digitales IIR tienen respuesta impulso de duracin infinita, y por lo
tanto pueden correlacionarse con filtros analgicos, que tambin tienen
respuesta impulso infinita. Por lo tanto la estrategia bsica de diseo de
filtros digitales IIR se basa en obtener el modelo equivalente discreto H(z), a
partir del modelo analgico H(s), despus calculando los coeficientes del
filtro IIR mediante los cuales se obtiene la siguiente ecuacin en diferencias
y (n) = b0 x (n) + b1 x (n 1) + b2 x(n 2) + K bM x(n M ) a1 y (n 1) a 2 y (n 2) K
a M y(n M )
Donde las variables a K y bK son los coeficientes del filtro.
142
143
Hay varios mtodos que nos permiten obtener el modelo discreto equivalente
H(z), los cuales se fundamentan en preservar algunas de las caractersticas
de modelo analgico.
bilineal
se
basa
en
la aproximacin numrica de la
144
Existen dos estrategias que pueden ser utilizadas para disear otro tipo de
filtro digital IIR selectivo de frecuencia (P-A, P-B y R-B):
145
CAPITULO III.
CODIFICACIN DE VOZ MEDIANTE PREDICCIN LINEAL
CON EXCITACIN POR CDIGO ALGEBRAICO DE
ESTRUCTURA CONJUGADA
ESTANDAR G.729
PRINCIPIOS BSICOS
Prediccin lineal
Xz
Yz
Hz
146
prediccin lineal.
N curvas polinomio de orden N
Orden N
Proceso (AR-MA)
Hz Az
Tendencia = T(t)
Componente peridica
1/T
T
FIGURA 64 Componente peridica y discretizada.
147
Componente
Peridica
P(t)
Varianza
SN-T(t) - P(t)
F
Ruido blanco gausiano aditivo
FIGURA 66 Descomposicin de la seal.
UG(t)
Ul(t)
Generacin
de excitacin
Sistema Lineal
variable
(Seal de voz)
Generador del
PITCH
Gu(n)
U(n)
G
Generador de ruido
aleatorio
Selector
Sonoro/sordo
Filtro
variable
Hz
S(n)
(Seal de
voz)
148
Parmetros bsicos
H z = a0 + a1 z 1 + a 2 z 2
y(z)
= a 0 + a1 z 1 + a 2 z 2
x( z )
y z = a 0 x( z ) + a1 z 1 x( z ) + a 2 z 2 x( z )
Ecuacin 9
tranformada
inverrsa
y (n) = a 0 x (n) + a1 [n 1]x(n) + a 2 x(n)[n 2]
[n 2]son muestras anteriores
Predictor de un 1 coeficiente
H ( z ) = 1* z 1
y( z)
= z 1
x( z )
y ( z ) = x ( z ) z 1
y[n] = x[n 1]
y[n] = y[n 1] 1
Ecuacin 10
X(Z)
IIR A(Z ) =
Y(Z)
H(Z)
1
TODO POLOS ( AR)( FILTRO SINTESIS )
B(Z )
voz
149
X(Z)
P(Z)
X(Z)
e( z ) = x ( z ) x ( z )
p( z ) = 1 + A( z )
A( z) = a1 z 1 + a 2 z 2 + K + a N z N
x( z ) = p ( z ) * x( z )
x( z ) = (1 + A( z )) x( z )
Ecuacin 11
x( z ) = x ( z ) + A( z ) x( z )
x( z ) = x ( z ) + (a1 z 1 x ( z ) + a 2 z 2 x ( z ) + K + a N z N x( z ))
exc = x x
como obtengo x ?
p( z ) = 1 + A( z )
x( z ) p( z ) = x
x( z )(1 + A( z )) = x
x( z ) + x( z ) A( z ) = x
150
exc = x ( z ) x = x ( z ) A( z )
e( z ) = x ( z ) A( z )
e( z )
= x( z )
A( z )
e( z )
= x( z )
A( z )
1
x( z )
H ( z) =
=
A( z ) e( z )
Ecuacin 12
Clculo de la excitacin
s (z )
S (z )
Wz
s[n] = seal
original
s[n] = seal
codificada
original
codificada
S [n] = predictor
e[n] = error
s[ z ] * w( z ) = S[n] si w( z ) = 1 + a1 z + a 2 z K a m z
s( z ) = s( z ) + a1 s ( z ) z 1 + a 2 s( z ) z 2 + K + a m s( z ) z m
151
Excitacin
peridica
(Seal sonora)
Vector de cdigos
Adaptativos
Excitacin
completa
vector
para
S(n)
realizar
-
Predictor
Pc(z)
el
r(n)
anlisis
respectivo
-
Predictor
PL(z)
s (n)
e(n)
r (n)
pL ( z) =
m2
g z
i = m1
152
Libro de cdigos
adaptativos
U(n)
Filtro de
sntesis
Libro de cdigos
fijos
FIGURA 70 Diagrama del filtro de largo plazo
Algebraic Code
El codificador opera con una seal digital obtenida tras efectuar, primero un
filtrado con la anchura de banda telefnica (Recomendacin G.712) de la
seal analgica de entrada, seguido de su muestreo a 8000 Hz y su
conversin a una modulacin por impulsos codificados (MIC), para entrar en
el codificador. La salida del decodificador deber reconvertirse a una seal
analgica siguiendo un mtodo similar.
153
Taba de
cdigos de
excitacin
Filtro de
sntesis de
largo plazo
Filtro de
sntesis de
corto plazo
Seal
de
salida
Decodificacin de parmetros
Tren de bits
recibidos
FIGURA 71 Diagrama funcional del modelo conceptual de sntesis (CELP).
154
Codificador
155
Filtro de sntesis
Tabla de cdigos
fijos
Gc
Tabla de cdigos
adaptativos
Gp
Anlisis de tono
Bsqueda da la tabla
de cdigos fijos
Cuantificacin
de la ganancia
Codificacin de parmetros
Informacin lpc
156
Decodificador
Inicialmente se extraen los ndices a partir del tren de bits recibido. Los
ndices se decodifican para conseguir los parmetros del codificador
correspondientes a una trama de voz de 10 ms. Estos parmetros son los
coeficientes LSP, los dos retardos de tono fraccionarios, los dos vectores de
la tabla de cdigos fijos y ambos conjuntos de ganancias de las tablas de
cdigos adaptativos y fijos. Los coeficientes LSP se convierten en
coeficientes del filtro LP de cada subtrama. Para cada subtrama de 5ms se
emplea los siguientes pasos.
Tabla de cdigos
adaptativos
Filtro de
corto plazo
Salida de la
seal
Gp
Retardo
157
Este anlisis se efecta una vez por trama (10ms). La estimacin de tono en
lazo abierto utiliza valores de la seal vocal ponderada sw(n).
Ecuacin 14
158
i = 1:80,
,143
i = 2:40,
,79
i = 3:20,
,39
,3 se normalizan.
Ecuacin 15
Ecuacin 16
El recurso de dividir la gama de retardos en tres secciones para favorecer los
valores menores tiene por como finalidad evitar la eleccin de los mltiplos
de la frecuencia fundamental o frecuencia de tono.
159
Ecuacin 17
Realizando esto para cada subtrama.
160
para
retardos
menores
que
el
correspondiente
una
Ecuacin 18
1
1
, 84 ] y nicamente con enteros en el intervalo
3
3
2
2
, int(T1) 4
], en que
3
3
161
Ecuacin 19
Para la segunda subtrama, el anlisis de la frecuencia de tono en lazo
cerrado se efecta en torno a la frecuencia de tono seleccionado de la
primera subtrama, para determinar el retardo ptimo T2. El intervalo de
bsqueda est limitado entre tmn -
2
2
y tmx +
donde tmn y tmx se
3
3
Ecuacin 20
La bsqueda de la frecuencia de tono de lazo cerrado reduce al mnimo el
error cuadrtico medio ponderado entre la seal vocal original y la
reconstruida. Esto se logra haciendo mximo el trmino
162
Ecuacin 21
Donde la seal objetivo x(n) e yk(n) la excitacin filtrada anterior en el
retardo k [excitacin anterior convolucionada con h(n)], el intervalo de
bsqueda est limitado en torno a un valor preseleccionado, correspondiente
al tono en lazo abierto Top para la primera subtrama y T1 para la segunda
subtrama.
Ecuacin 22
Donde u(n) n = -143,.,39 es la memoria intermedia de excitacin e yK-1(1)=0. S e
puede
observar
que
en
163
Ecuacin 23
Generacin del vector de tabla de cdigos adaptativos
Ecuacin 24
El filtro de interpolacin se basa en una funcin sinc de Hamming
ventanizada con truncamiento a 29 y se completa con ceros a 30
[b30(30)=0 ]. El filtro tiene una frecuencia de corte (-3dB) a 3600 Hz en el
dominio de sobremuestra.
Clculo de palabras de cdigo para retardos de tabla de cdigos
adaptativos
El retardo de tono T1 se codifica con 8 bits en la primera subtrama y el
retardo relativo en la segunda subtrama se codifica con 5 bits. El retardo
fraccionario T est representado por su parte entera int(T) y su parte
fraccionaria .
164
Ecuacin 25
Donde x(n) es la seal objetivo e y(n) es el vector de tabla de cdigos
adaptativos filtrado [respuesta al estado cero de W(z)/(z) respecto de v(n)].
Ecuacin 26
Tabla de cdigos fijos: estructura y bsqueda
165
Ecuacin 27
Donde (0) es un impulso unitario. Una caracterstica especial incorporada
en la tabla de cdigos es que el vector de tabla de cdigos seleccionado se
pasa a travs de un prefiltro adaptativo P(z) que ampla los componentes
armnicos para mejorar la calidad de las seales . Se utiliza para ello el filtro:
Ecuacin 28
Donde T es la componente entera del retardo de tono de la subtrama actual
y una ganancia de la frecuencia de tono. El valor de se hace
adaptativo aplicando la cuantificacin de la ganancia de tabla de cdigos
adaptativos de la subtrama anterior, es decir:
Ecuacin 29
166
Ecuacin 30
Se modifica con arreglo a:
Gc Ganancia de
cdigos fijos
Ci[n]
indice
Vector de
cdigo fijo
N cdigos fijos
167
Ecuacin 31
Donde y(n) es el vector de la tabla de cdigos adaptativos y gp corresponde
a la ganancia de la tabla de cdigos adaptativos.
Ecuacin 32
Las posiciones de los impulsos i0, i1, e i2 se codifican con 3 bits cada una,
en tanto que la posicin de i3 se codifica con 4 bits. La amplitud de cada
impulso se codifica con 1 bit. Esto suministra un total de 17 bits para los
cuatro impulsos. definiendo s = 1 cuando el signo es positivo y s = 0
cuando el signo es negativo, la palabra de cdigo del signo se obtiene de:
Ecuacin 33
Y la palabra de cdigo de la tabla de cdigos fijos se obtiene de:
168
Ecuacin 34
Cuantificacin de las ganancias
Ecuacin 35
donde x es el vector objetivo, y es el vector de la tabla de cdigos
adaptativos y z es el vector de la tabla de cdigos fijos convolucionado con
h(n).
Ecuacin 36
Mientras que la ganancia cuantificada de la tabla de cdigos fijos viene dada
por:
Ecuacin 37
169
Ecuacin 38
Los ndices recibidos L0, L1, L2 y L3 del cuantificador LSP se utilizan para
reconstruir los coeficientes LSP cuantificados. Se aplica el procedimiento de
interpolacin
para
obtener
dos
conjuntos
de
coeficientes
LSP
170
Ecuacin 39
Las partes entera y fraccionaria de T2 se obtienen a partir de P2 y tmn,
donde tmn se deriva de T1 como sigue:
Ecuacin 40
Ahora se decodifica T2 mediante:
Ecuacin 41
171
Ecuacin 42
Decodificacin del vector de tabla de cdigos fijo
172
Ecuacin 44
El vector de tabla de cdigos fijos se obtiene a partir del producto del factor
de correccin de ganancia cuantificado y por la ganancia predicha, segn
la ecuacin
Ecuacin 45
La ganancia de tabla de cdigos adaptativos se reconstruye mediante la
ecuacion
Ecuacin 46
173
CELP
Entrada s(n)
Codebook estocstico
U(n)
+
s (n)
Pc(z)
Ponderacin
del error
PL(z)
Valor cuadrito
medio
FIGURA 75 Diagrama de bloques del codificador celp
CODIFICADOR
Entrada s(n)
Generador de
Excitacin
U(n)
Filtro de
sntesis
s (n)
Ponderacin
del error
Minimizacin
del error
DECODIFICADOR
Generador de
excitacin
U(n)
Filtro de sintesis
s (n)
174
ew(n)
Cdigo en matlab
function [tramaPred,coefLPC,VarExc]=anaLPC(trama)
[coefLPC,VarExc]=lpc(trama,10);
tramaPred=filter(coefLPC,1,trama);
end,
function [excPer]=calcExcPer(trama)
kini=20;
kfin=39;
[max_corr(1),Ind(1)] = corr_voz(trama,kini,kfin);
kini=40;
kfin=79;
[max_corr(2),Ind(2)] = corr_voz(trama,kini,kfin);
kini=80;
kfin=143;
[max_corr(3),Ind(3)] = corr_voz(trama,kini,kfin);
RTop=max_corr(1);
Top=Ind(1);
175
if max_corr(2)>0.85*RTop
RTop=max_corr(2);
Top=Ind(2);
end
if max_corr(3)>0.85*RTop
RTop=max_corr(3);
Top=Ind(3);
end
Correlacin
function [max_corr,Ind] = corr_voz(trama80m,kini,kfin)
for k=kini:kfin,
r(k)=0;
for i=1:80,
r(k)=r(k)+trama(119+i)*trama(119+i-k);
end
end
Prepropresado
function [tramaPrep] = preProc(trama)
N=[ 0.9201 -1.8401
0.9201];
0.8465];
tramaPrep = filter(N,D,trama);
end
176
plot(voz)
vozNorm=voz/(2^16);
%SOUND(vozNorm,8000);
posIni=80*(i-1)+1;
posFin=posIni+79;
if i<3
if i==1 trama(1:120)=zeros(120);
else
trama(1:40)=zeros(120);
trama(41:120)=voz(posIni-80:posFin-80);
end
end
trama(121:200)=voz(posIni:posFin);
trama(201:240)=voz(posIni+80:posFin+40);
177
tramaPrep=preProc(trama);
[tramaPred,coefLPC,VarExc]=anaLPC(trama);
% [tramaPred,coefLPC,VarExc]=anaLPC(tramaPrep);
exc=tramaPrep-tramaPred;
Vcoef(i,:)=coefLPC;
[excPer, excAleat]=calcExc(tramaPrep);
%preProc(trama);
% coefLPC=anaLPC(trama);
% [excPer, excAleat]=calcExc(trama);
%
%
sintPar(coefLPC,excPer,excAleat);
end
% Decodificacin
for j=250 : 375 , %numT, ((75 : 175) es (600 : 1400) ) 1:400 para evitar
overflow
excEstoc=VDesvStand(j)*randn(80,1);
coefLPCDec=Vcoef(j,:);
% tramaDec = filter(-1,[coefLPCDec(2:end)],excEstoc);
excDec=Vexc(:,j);
tramaDec = filter(-1,[coefLPCDec(2:end)],excDec);
posIni=80*(j-1)+1;
posFin=80*(j);
178
vozDec(posIni:posFin,1)=tramaDec;
end
figure(2)
% for k=130:131,
%
%
posIni=80*(k-1)+1;
posFin=80*(k);
vozDec(posIni:posFin,1)=vozDec(80*128+1:80*129);
%
% end
% vozDec(10001:11000)=vozDec(9001:10000);
plot(vozDec,'r')
figure(3)
plot(tramaPrep);
hold on
plot(tramaDec,'r');
hold off
vozNormDec=vozDec/(2^16);
SOUND(vozNormDec,8000);
179
ANALISIS DE CONFIABILIDAD
180
PRESUPUESTO ECONOMICO
Marco Econmico
Las tcnicas de codificacin de la seal de voz son usadas tanto para la
transmisin a tasas bajas de bits tambin para el almacenamiento de seales
de voz y envi de datos. En Colombia la investigacin en tecnologas de
codificacin de voz es mnima y las empresas del pas se limitan casi
exclusivamente a importar la tecnologa de empresas extranjeras, para la
prestacin de servicios. Por ello, se pretende con esta tesis. impulsar de una
forma mayor la investigacin en esta rea en la Universidad de Pamplona y
en Colombia.
181
COSTOS DE INVERSION
Presupuesto de Medios Bsicos
DENOMIN
ACIN
GENERAL
Computador
CANTIDA
D
1
COSTO
UNITARI
O
$ 1800000
COSTO
TOTAL
PROVEDOR
OBSERVACONE
S
$
1800000
Pallares
computienda
Herramienta
computacional de
trabajo
Dispositivo para
almacenamiento
de informacin
Libro de
Telecomunicacion
es
Modalidad de
grado
Dispositivo
USB
$ 80000
$80000
TECNICOM
SA
Material
Bibliogrfico
$ 95000
$95000
Librera
universitaria
Matricula
Diplomado
$800000
$800000
Universidad de
Pamplona
MATLAB 6.5
$ 0.0
$0.0
Mathworks Inc.
TOTAL DE
INVERSION
3
$2775000
$277500
0
Herramienta
computacional de
trabajo
CANTIDA
D
COSTO
UNITARIO
COSTO
TOTAL
PROVEDO
R
OBSERVACONE
S
Servicio de
Internet mensual
$ 35000
$140000
Telecom
Servicio publico
de Internet
Papelera
---
$ 90000
$90000
General
Materiales y otros
suministros como
fotocopias
Recursos
humanos
mensuales
TOTAL DE
INVERSION
$200000
$800000
Domicilio
Servicios bsicos
de recursos
humanos
$325000
$103000
0
182
ANALISIS DE LEGALIDAD
183
184
RESULTADOS
Se logr modelar la seal de voz, en cuanto al clculo de la excitacin,
teniendo en cuenta su doble naturaleza, por un lado su componente
peridica, y por el otro su componente estocstica, logrando una buena
adaptacin del modelo sugerido por el algoritmo de prediccin lineal excitado
por cdigo - CELP.
Por otro lado, este diseo y simulacin proporciona a los alumnos una
valiosa herramienta pedaggica, para el entendimiento sobre codificacin de
voz.
185
CONCLUSIONES
186
RECOMENDACIONES
187
REFERENCIAS BIBLIOGRAFICAS
Libros:
[1]
[2]
[3]
[4]
M.Sc. Ing. Gan Acosta Antonio, Ph. D. Ing. Tarantino Alvarado Rocco,
Metodologas para trabajos de grado, Pamplona, Colombia, Mayo del
2006
Wayne Tomasi, Sistemas de Comunicaciones Electronicas, Edit.
Pearson Educacin 2. Edicion, Latinoamrica 1996
A.M. Kondoz: Digital Speech: Coding for Low Bit Rate, Communications
Systems; Chichester, England: John Wiley & Sons; 1994.
P. Kroon and B.S. Atal: Predictive Coding of Speech Using Analysisby
Synthesis Techniques ; in Advances in Speech Signal Processing, S.
Furui and M. Sondhi, Ed.; New York, USA: Marcel Dekker; 1991.
Artculos:
[5]
188
189
Internet
[32]
[33]
[34]
[35]
[36]
[37]
[38]
[39]
[40]
[41]
[42]
[43]
[44]
[45]
www.angelfire.com/
www.dfgomezup.google.pages.com
www.tsc.uc3m.es/~fdiaz/ 'Fernando Daz
www.personal.us.es/murillo/docente/radio/ 'universidad de Sevilla'
www.inf.udec.cl/revista/edicion7/jbustos.htm
lilaproject.org/ 'tecnologias del habla'
www.eie.fceia.unr.edu.ar/ 'naturaleza del sonido'
es.wikipedia.org/Fontica 'fontica'
www.ehu.es/acustica/
lilaproject.org/veu/ 'seal de voz
www.tsc.uc3m.es/
physionet.cps.unizar.es/
paginas.fe.up.pt/
spanish.youth.hear-it.org/
190
[46]
[47]
[48]
[49]
www.jcee.upc.es/
es.wikipedia.org/ '
spanish.hear-it.org
www.personal.us.es/
191
ANALISIS BIBLIOGRAFICO
192
[A]
Agudos
Sonidos cuyas frecuencias de vibraciones son grandes.
Alfonos
Los alfonos son cada uno de los sonidos propios de una lengua.
[C]
Codificacin
Es la conversin de la seal de voz a una secuencia binaria o representacin
digital.
Convolucin
Es la multiplicacin entre dos o ms seales.
Cuantificacin
Es la conversin de una seal discreta evaluada en el tiempo de forma
continua a una seal discretamente evaluada en el tiempo.
[F]
Filtro
Sistema que dependiendo de algunos parmetros, realiza un proceso de
discriminacin de una seal de entrada obteniendo variaciones en su salida.
Fontica
Rama de la lingstica que estudia la produccin, naturaleza fsica y
percepcin de lo sonidos de una lengua.
193
[G]
Graves
Sonidos cuyas frecuencias de vibraciones son pequeas.
[I]
Intensidad
Es la cantidad de energa acstica que contiene un sonido.
[M]
Muestreo
Es el proceso de conversin de seales continuas a seales discretas en
tiempo.
[P]
Potencia (W)
Es la cantidad de energa radiada por una fuente determinada.
[T]
Timbre
Cualidad del sonido que permite distinguir ente dos sonidos de la misma
intensidad.
Tono
Caracterstica del sonido que permite distinguir entre sonidos graves, agudos
o medios.
194
SIMBOLOS NO CONVENCIONALES
W p (n ) = Ventana de anlisis.
fs
= Frecuencia de muestreo.
ai
F ' ( z ) = Polinomio.
e + jN i = Races conjugadas.
cos(mw) =Polinomio de chebyshev.
qi =Coeficientes LSP.
195
wi =Frecuencias normalizadas.
196
ABREVIATURAS UTILIZADAS
197
ANEXOS
Gua rpida sobre MATLAB 6.5
Definicin
MATLAB es el nombre abreviado de MATrix LABoratory . MATLAB es un
programa para realizar clculos numricos con vectores y matrices. Como
caso particular puede tambin trabajar con nmeros escalares tanto reales
como complejos, con cadenas de caracteres y con otras estructuras de
informacin ms complejas. Una de las capacidades ms atractivas es la de
realizar una amplia variedad de grficos en dos y tres dimensiones.
MATLAB tiene tambin un lenguaje de programacin propio.
MATLAB es un gran programa de clculo tcnico y cientfico. Para ciertas
operaciones es muy rpido, cuando puede ejecutar sus funciones en cdigo
nativo con los tamaos ms adecuados para aprovechar sus capacidades de
vectorizacin. En otras aplicaciones resulta bastante ms lento que el cdigo
equivalente desarrollado en C/C++ o Fortran.
198
199
definido en esta sesin y permite ver y modificar las matrices con las que se
est trabajando.
En la parte inferior derecha aparece la ventana Command History que
muestra los ltimos comandos ejecutados en la Command Window. Estos
comandos se pueden volver a ejecutar haciendo doble clic sobre ellos.
Clicando sobre un comando con el botn derecho del ratn se muestra un
men contextual con las posibilidades disponibles en ese momento. Para
editar uno de estos comandos hay que copiarlo antes a la Command
Window.
Comandos Bsicos
ver: Muestra la versin, el cdigo de licencia y las toolboxes disponibles.
whos: Lista todas las variables disponibles.
save archivo: Guarda todas las variables
>> save -ascii % almacena 8 cifras decimales.
>> save -ascii -double % almacena 16 cifras decimales.
>> save -ascii -double -tab % almacena 16 cifras separadas por tabs.
save archivo (a b): Guarda las variables a y b
load archivo: Carga variables
quit: Salir
Ayudas y documentacin
Ayuda en modo texto mediante comandos
200
Ayuda on-line
Pgina oficial de soporte: http: // www.mathworks.com/support/
*Documentacin.
*Soluciones a problemas ordenadas por categoras.
*Ejemplos de cdigo.
*Noticias.
*Actualizaciones.
201
Toolboxes.
Libreras especializadas en materias concretas. Incluyen:
* Manuales tipo tutorial (UsersGuide) (HTML, PDF).
Referencia de las funciones (Treference Guide) (HTML, PDF).
*Programas de demo.
*Aplicaciones completas listas para utilizar.
Entre las toolboxes ms utilizadas se encuentran:
Technical Computing
Mathematical computation, analysis, visualization, and algorithm development.
Control design
Model-Based
Design
for
control
systems,including
simulation,
rapid
202
(;). Por
>> A=[1 2 3; 4 5 6; 7 8 9]
203
A=
1
204
78
90
78
93
108
90
108 126
-3
-2
se
muestra
el
resultado
se
puede
cambiar
con
el
men
File/Preferences/General):
B=inv(A)
B=
0.1803
0.2213
-0.1885
0.1311
0.0246
0.0902
-0.0984
0.1066
0.0574
205
1.0000
0.0000
0.0000
0.0000
1.0000
0.0000
0.0000
0.0000
1.0000
Operadores Aritmticos
MATLAB puede operar con matrices por medio de operadores y por medio
de funciones. Se han visto ya los operadores suma (+), producto (*) y
traspuesta ('), as como la funcin invertir inv( ). Los operadores matriciales
de MATLAB son los siguientes:
+
adicin o suma
sustraccin o resta
multiplicacin
'
traspuesta
potenciacin
divisin-izquierda
divisin-derecha
.*
./ y .\
.^
Tipos de Datos
Ya se ha dicho que MATLAB es un programa preparado para trabajar con
vectores y matrices. Como caso particular tambin trabaja con variables
escalares (matrices de dimensin 1). MATLAB trabaja siempre en doble
precisin, es decir guardando cada dato en 8 bytes, con unas 15 cifras
decimales exactas.
206
207
>> i=int32(100);
>> A=magic(4)
A=
16
13
11 10 8
14 15 1
12
>> j=A>10
j=
1
208
>> isa(j,'logical')
ans =
1
>> A(j)=-10
A=
-10
-10 10
-10 -10
-10
8
-10
1
Variables y Expresiones
Una variable es un nombre que se da a una entidad numrica, que puede
ser una matriz, un vector o un escalar. El valor de esa variable, e incluso el
tipo de entidad numrica que representa, puede cambiar a lo largo de una
sesin de MATLAB o a lo largo de la ejecucin de un programa. La forma
ms normal de cambiar el valor de una variable es colocndola a la izquierda
del operador de asignacin (=).
Cuando se quiere tener una relacin de las variables que se han utilizado en
una sesin de trabajo se puede utilizar el comando who. Existe otro
comando llamado whos que proporciona adems informacin sobre el
tamao, la cantidad de memoria ocupada y el carcter real o complejo de
cada variable. Se sugiere utilizar de vez en cuando estos comandos en la
sesin de MATLAB que se tiene abierta. Esta misma informacin se puede
obtener grficamente con el Workspace Browser, que aparece con el
comando View/Workspace o activando la ventana correspondiente si estaba
abierto.
209
clear
clear global
clear functions
clear all
funciones.
210