Está en la página 1de 42

INTRUMENTACION BIOMEDICA

PRIMERA PARTE
INSTRUMENTACION BIOMEDICA

1. CONCEPTO DE SENSORES Y TRANSDUCTORES


Un sensor es un dispositivo que recibe una señal o estímulo y responde con una señal
eléctrica; mientras un transductor es un convertidor de un tipo de energía a otro.
Los sensores y sus circuitos electrónicos asociados son usados para medir diversas
propiedades físicas tales como temperatura, fuerza, presión, flujo, posición, intensidad de
luz, etc. Estas propiedades físicas actúan como estímulos al sensor, y la salida del sensor es
analizada y procesada para otorgar una medida física correspondiente a la magnitud
respectiva.
Las diferencias entre sensores y transductores son frecuentemente mínimas. Un sensor
desempeña una función de transducción y el transductor necesariamente debe sentir
cualquier propiedad física. La diferencia en ambos radica en la eficiencia de la conversión
que realizan. El objetivo de un sensor es detectar y medir, mientras que un transductor debe
convertir tipos de energía y su eficiencia es importante auque en algunos casos no es alta.

Especificación de sensores
Todos los instrumentos deben ser especificados a un punto tal que aseguren la operación
del proceso y que permita la estimación de sus costos. Estas especificaciones se pueden
sistematizar, aplicándolas tanto a sistemas sensores como a sistemas actuadores, sin que
todas y cada una de las definiciones que siguen a continuación sean aplicables a todo sensor
o actuador.
Sin embargo, las definiciones conforman parte del léxico básico del mundo de los sensores
son.

PRECISION (o EXACTITUD)
Todo sistema sensor responde a un principio físico, químico o biológico que permite su
funcionamiento.
Por ende, todo sistema sensor tendrá limitaciones que serán inherentes a sus principios. Una
de tales limitaciones es la precisión, que regula el margen de imprecisión instrumental. Por
ejemplo, dado un sistema de medición de temperatura, de precisión 0,05 ºC, cuando su
lectura fuese de 37,2 ºC significa que la temperatura del ambiente medido está entre 37,15 y
37,25 ºC.

Habitualmente, la precisión se expresa como porcentaje de la escala completa. Por ejemplo,


un termómetro cuyo tope de escala fuese 100ºC y de precisión 0,5% significa que toda
lectura de T ºC estará sujeta a una imprecisión de 0,5ºC (si se mide 37,2ºC, la temperatura
estará entre 36,7 y 37,7 ºC).
La precisión está asociada al cálculo de la desviación estándar del instrumento o de un
procedimiento analítico.

ERROR
Expresa la diferencia entre la magnitud medida y la lectura instrumental. En toda aplicación
se desearía que el error fuese 0; sin embargo, todos los instrumentos modifican su
comportamiento a lo largo de su vida y es común calibrarlos de cuando en cuando. Un
instrumento tan sencillo como un termómetro de mercurio se debe calibrar para corregir el
error. Por ejemplo, si un reactor está a 70ºC y el instrumento lee 69ºC, el error será de –1ºC.
El error se define, habitualmente, como Lectura-Valor real; si bien podría usarse a la
inversa sin mayores confusiones, con tan sólo especificar que opción se usa.

ERROR de NO LINEALIDAD
Los instrumentos ideales son lineales. De hecho, la mayoría de los sistemas instrumentales
comerciales tienen respuesta lineal. Puede ocurrir, sin embargo, que la respuesta no sea
estrictamente lineal y, por ende, que ocurra un error por no linealidad de la respuesta del
instrumento.

REPETIBILIDAD
Especifica la habilidad del instrumento para entregar la misma lectura en aplicaciones
repetidas del mismo valor de la variable medida.

REPRODUCIBILIDAD
Se refiere a la capacidad del instrumento de mantener una misma lectura cuando el valor de
la especie sensada está a valor constante.

También se utiliza este término para describir la capacidad de entregar el mismo valor
medio y desviación estándar al medir repetidamente un mismo valor.

SENSIBILIDAD
Término utilizado para describir el mínimo cambio en la especie sensada que el
instrumento puede detectar.
Su definición es similar a la definición de ganancia pero se refiere, más bien, a la
posibilidad de discriminar dos valores muy cercanos entre si.
La sensibilidad se expresa cuantitativamente mediante la tasa de cambio de la medición
respecto del cambio en la especie sensada.

Es común (pero erróneo) asociar la sensibilidad a la escala de lectura;


p.e. si una escala de temperatura tiene divisiones cada un grado centígrado, se podría pensar
que la sensibilidad fuese de ½ grado porque no sería posible "estimar" valores como ¼ de
grado. En realidad, es posible que el sistema termómetro en uso necesite un cambió de un
grado antes de modificar su aguja indicadora.

RESOLUCIÓN
Expresa la posibilidad de discriminar entre valores, debido a las graduaciones del
instrumento.

Se suele hablar de número de dígitos para indicadores numéricos digitales y de porcentaje


de escala para instrumentos de aguja.
Es bien sabido, por ejemplo, que los termómetros de baja calidad sólo tienen indicaciones
cada 10 ºC, sin subdivisiones, a fin de enfatizar al usuario que el instrumento sólo da una
noción y no se debe usar como instrumento de alta resolución.
La resolución está en directa relación a la escala del instrumento.
RANGO
Expresa los límites inferior y superior del instrumento. Por ejemplo, los sistemas de
medición de pH suelen ser de rango 0 a 14.

RANGO DE TRABAJO O DE OPERACIÓN


Muchos instrumentos, sobre todo los industriales, permiten definir sub rangos de su rango
intrínseco,

Típico de medidores de pH, subrangos de


0 a 1,4;
de 1 a 2,4;
de 2 a 3,4; etc.

El rango de trabajo mejora la resolución pero no necesariamente la sensibilidad.

BANDA MUERTA
Los instrumentos suelen ser insensibles a muy pequeños cambios, porque su sensibilidad
así lo impone.
Este mismo concepto puede ser visto a la inversa, especificando,
En cambio, la banda (en el sentido de espacio) muerta del instrumento, es decir, cuan
grande debe ser el cambio de la especie sensada para que el instrumento reaccione.
Este término también se aplica a los rangos de valor de la especie sensada para los que el
instrumento no responde; p.e. temperaturas debajo o sobre el rengo de un termómetro.

CORRIMIENTO DEL CERO


La lectura en cero suele cambiar por razones asociadas al uso de un instrumento o porque
las etapas amplificadoras sufren de deriva en el tiempo (como, por ejemplo, la línea base de
un cromatograma).
Los instrumentos deben especificar su tolerancia al corrimiento del cero y, además, los
procedimientos y periodicidad de recalibraciones. Un caso muy típico es el cero de la
escala de pH (la concentración molar de H+ es igual a la de OH- a pH 7,00) que se debe
recalibrar frecuentemente.

TIEMPO DE RESPUESTA
A medición de cualquier variable de proceso puede implicar una demora, (debida a
fenómenos de equilibrio, transporte, etc.) que debe ser definida adecuadamente. Si la
medición tiene una cinética más lenta que la de la propia variable, habrá que disponer de
sistemas complejos de predicción del valor en lugar de descansar sólo sobre la medición
instrumental.
Los tiempos de respuesta se definen en base al tiempo necesario para obtener una medida
que corresponda al 96% (o cualquier otro porcentaje) del valor final. Los electrodos de pH
comunes, por ejemplo, tienen tiempos de respuesta del orden 5 segundos; pero existen
electrodos de mejores tiempos de respuesta (electrodos de "Ross"), del orden de un
segundo.

HISTÉRESIS
lgunos instrumentos presentan un fenómeno de "memoria" que impone un histéresis a su
respuesta.
En particular, un sistema de medición de presión podría indicar los cambios de presión
según si la presión anterior era más alta o más baja que la actual, debido a fenómenos de
resistencia viscosa al desplazamiento de partes interiores del sensor. Así, una presión de 3
p.s.i.g., por ejemplo, podría leer 3,1 si la presión acaba de bajar, pero 2,9 si esta ha subido.
El diagrama tradicional de las respuestas con histéresis consiste de dos curvas, en lugar de
la línea recta hipotética.

FUNCION DE TRANSFERENCIA

La función de transferencia muestra la relación entre la entrada física y la salida eléctrica


del sistema.
Usualmente esta relación se presenta en un gráfico donde se muestra la relación entre la
entrada y la salida de la señal; y los detalles de esta relación constituyen una descripción
completa de las características del sensor.
Para sensores caros que son individualmente calibrados la gráfica de la función de
transferencia muestra la gráfica de la curva de calibración.

2. TIPOS DE SENSORES Y TRANSDUCTORES MÁS COMUNES


A pesar de que pueden existir decenas de clasificaciones para los sensores, tomaremos a
manera de guía las siguientes.

Atendiendo al tipo de señal de entrada.


Los sensores pueden ser clasificados dependiendo del tipo de señal al cual responden.

- Mecánica: Ejemplos: longitud, área, volumen, masa, flujo, fuerza, torque, presión,
velocidad, aceleración, posición, acústica, longitud de onda, intensidad acústica.

- Térmica: Ejemplos: temperatura, calor, entropía, flujo de calor.

- Eléctrica: Ejemplos: voltaje, corriente, carga, resistencia, inductancia, capacitancia,


constante dieléctrica, polarización, campo eléctrico, frecuencia, momento dipolar.

- Magnética: Ejemplos: intensidad de campo, densisdad de flujo, momento magnético,


permeabilidad.

- Radiación: Ejemplos: intensidad, longitud de onda, polarización, fase, reflactancia,


transmitancia, índice de refractancia.
- Química: Ejemplos: composición, concentración, oxidación/potencial de reducción,
porcentaje de reacción, PH.

ATENDIENDO AL TIPO DE SEÑAL ENTREGADA POR EL SENSOR


SENSORES ANÁLOGOS.

La gran mayoría de sensores entregan su señal de manera continua en el tiempo. Son


ejemplo de ellos los sensores generadores de señal y los sensores de parámetros variables

Sensores digitales.
Son dispositivos cuya salida es de cara´cter discreto. Son ejemplos de este tipo de sensores:
codificadores de posición, codificadores incrementales, codificadores absolutos, los
sensores autoresonantes (resonadores de cuarzo, galgas acústicas, cilindros vibrantes, de
ondas superficiales (SAW),
caudalímetros de vórtices digitales), entre otros.

Atendiendo a la naturaleza de la señal eléctrica generada.


Los sensores dependiendo de la naturaleza de la señal generada pueden ser clasificados en:
Sensores pasivos:
Son aquellos que generan señales representativas de las magnitudes a medir por intermedio
de una fuente auxiliar. Ejemplo: sensores de parámetros variables (de resistencia variable,
de capacidad variable, de inductancia variable).

Sensores activos o generadores de señal:


Son aquellos que generan señales representativas de las magnitudes a medir en forma
autónoma, sin
requerir de fuente alguna de alimentación. Ejemplo: sensores piezoeléctricos, fotovoltaícos,
termoeléctricos, electroquímicos, magnetoeléctricos.

2.1 TRANSDUCTORES DE TEMPERATURA

Conceptos Básicos Transductores de Temperatura


Los transductores eléctricos de temperatura utilizan diversos fenómenos que son influidos
por la temperatura y entre los cuales figuran:
- Variación de resistencia en un conductor (sondas de resistencia).
- Variación de resistencia de un semiconductor (termistores).
- f.e.m. creada en la unión de dos metales distintos (termopares).
- Intensidad de la radiación total emitida por el cuerpo (pirómetros de radiación).
- Otros fenómenos utilizados en laboratorio (velocidad del sonido en un gas,
frecuencia de resonancia de un cristal, etc.).

Los metales puros tienen un coeficiente de resistencia de temperatura positivo bastante


constante. El coeficiente de resistencia de temperatura, generalmente llamado coeficiente
de temperatura es la razón de cambio de resistencia al cambio de temperatura. Un
coeficiente positivo significa que la resistencia aumenta a medida que aumenta la
temperatura. Si el coeficiente es constante, significa que el factor de proporcionalidad entre
la resistencia y la temperatura es constante y que la resistencia y la temperatura
se graficarán en una línea recta.
Cuando se usa un alambre de metal puro para la medición de temperatura , se le refiere
como detector resistivo de temperatura , o RTD ( por las siglas en ingles de resistive
temperature detector).
Cuando se usan óxidos metálicos para la medición de temperatura, el material de oxido
metálicos conformado en forma que se asemejan a pequeños bulbos o pequeños
capacitores.

El dispositivo formado así se llama Termistor . Los termistores tienen coeficientes de


temperatura negativos grandes que no son constantes . En otras palabras, el cambio de
resistencia por unidad de cambio de temperatura es mucho mayor que para el metal puro,
pero el cambio es en la otra dirección: la resistencia disminuye a medida que se aumenta la
temperatura.
El hecho de que el coeficiente no sea constante significa que el cambio en la resistencia por
unidad de cambio de temperatura es diferentes a diferentes temperaturas.
La linealidad extrema de los termistores los hace poco apropiados para la medición de
temperatura a través de rangos amplios . Sin embargo, para la medición de temperaturas
dentro de bandas angostas, están muy bien dotados , pues dan una gran respuesta a un
cambio de temperatura pequeño. Como regla general, los termistores son preferibles
cuando la banda de temperaturas esperada es angosta, mientras que los RTD son preferibles
cuando la banda de temperatura esperada es amplia.

2.1.1. Termómetros de Resistencia

La medida de temperatura utilizando sondas de resistencia depende de las características de


resistencia en función de la temperatura que son propias del elemento de detección.
El elemento consiste usualmente en un arrollamiento de hilo muy fino del conductor
adecuado bobinado entre capas de material aislante y protegido con un revestimiento de
vidrio o de cerámica.
El material que forma el conductor se caracteriza por el llamado “coeficiente de
temperatura de resistencia” que expresa, a una temperatura especificada, la variación de la
resistencia en ohmios del conductor por cada grado que cambia su temperatura.
La relación entre estos factores puede verse en la expresión lineal siguiente:

Rt = R0 (1 + at)
En la que:
R0 = Resistencia en ohmios a 0°C.
Rt = Resistencia en ohmios t °C.
a = Coeficiente de temperatura de la resistencia.

DETECTORES DE TEMPERATURA DE RESISTENCIA

El detector de temperatura de resistencia (RTD) se basa en el principio según el cual la


resistencia de todos los metales depende de la temperatura. La elección del platino en los
RTD de la máxima calidad permite realizar medidas más exactas y estables hasta una
temperatura de aproximadamente 500 ºC. Los RTD más económicos utilizan níquel o
aleaciones de níquel, pero no son tan estables ni lineales como los que emplean platino.
En cuanto a las desventajas, el platino encarece los RTD, y otro inconveniente es el
autocalentamiento.
Para medir la resistencia hay que aplicar una corriente, que, por supuesto, produce una
cantidad de calor que distorsiona los resultados de la medida.
Una tercera desventaja, que afecta al uso de este dispositivo para medir la temperatura, es la
resistencia de los RTD. Al ser tan baja, la resistencia de los hilos conductores que conectan
el RTD puede provocar errores importantes. En la denominada técnica de dos hilos (Figura
1a), la resistencia se mide en los terminales del sistema de adquisición de datos, por lo que
la resistencia de los hilos forma parte de la cantidad desconocida que se pretende medir. Por
el contrario, la técnica de cuatro hilos (Figura 1b) mide la resistencia en los terminales del
RTD, con lo cual la resistencia de los hilos queda eliminada de la
medida. La contrapartida es que se necesita el doble de cables y el doble de canales de
adquisición de datos. (La técnica de tres hilos ofrece una solución intermedia que elimina
un cable, pero no es tan precisa.)

2.1.2 TERMISTORES

Los Termistores son semiconductores electrónicos con un coeficiente de temperatura de


resistencia negativo de valor elevado y que presentan una curva característica lineal
tensión-corriente siempre que la temperatura se mantenga constante.

La relación entre la resistencia y la temperatura viene dada por la expresión.


En la que:

Rt= Resistencia en ohmios a la temperatura absoluta Tt.


R0= Resistencia en ohmios a la temperatura absoluta de referencia T0.
ß= constante dentro de un intervalo moderado de temperaturas

2.1.3 SENSORES DE IC

Los sensores de circuitos integrados resuelven el problema de la linealidad y ofrecen altos


niveles de rendimiento. Son, además, relativamente económicos y bastante precisos a
temperatura ambiente.
Sin embargo, los sensores de IC no tienen tantas opciones de configuraciones del producto
o de gama de temperaturas, y además son dispositivos activos, por lo que requieren una
fuente de alimentación.
Los sensores de IC forman parte de la tendencia hacia los "sensores inteligentes", que son
unos transductores cuya inteligencia incorporada facilita las actividades de reducción y
análisis de datos que el usuario debe realizar normalmente en el sistema de adquisición de
datos.

2.1.4 TERMOPARES
Los termopares se utilizan extensamente, ya que ofrecen una gama de temperaturas mucho
más amplia y una construcción más robusta que otros tipos. Además, no precisan
alimentación de ningún tipo y su reducido precio los convierte en una opción muy atractiva
para grandes sistemas de adquisición de datos.
Sin embargo, para superar algunos de los inconvenientes inherentes a los termopares y
obtener resultados de calidad, es importante entender la naturaleza de estos dispositivos.
Estudios realizados sobre el comportamiento de termopares han permitido establecer tres
leyes fundamentales:

I. Ley del circuito homogéneo. En un conductor metálico homogéneo no puede sostenerse


la circulación de una corriente eléctrica por la aplicación exclusiva de calor.

II. Ley de metales intermedios. Si en un circuito de varios conductores la temperatura es


uniforme desde un punto de soldadura A a otro punto B, la suma algebraica de todas las
fuerzas electromotrices es totalmente independiente de los conductores metálicos
intermedios y es la misma que si se pusieran en contacto directo A y B.

III. Ley de las temperaturas sucesivas. La f.e.m. generada por un termopar con sus
uniones a las
temperaturas T1 T3 es la suma algebraica de la f.e.m. del termopar con sus uniones a T1 T2
de la f.e.m. del mismo termopar con sus uniones a las temperaturas T2 T3.
CÓMO FUNCIONAN LOS TERMOPARES
El comportamiento de un termopar se basa en la teoría del gradiente, según la cual los
propios hilos constituyen el sensor. La Figura 2A ilustra este concepto. Cuando se calienta
uno de los extremos de un hilo, le produce una tensión que es una función de (A) el
gradiente de temperatura desde uno de los extremos del hilo al otro, y (B) el coeficiente de
Seebeck, una constante de proporcionalidad que varía de un metal a otro.
Un termopar se compone sencillamente de dos hilos de diferentes metales unidos en un
extremo y abiertos en el otro (Figura 2b). La tensión que pasa por el extremo abierto es una
función tanto de la temperatura de la unión como de los metales utilizados en los dos hilos.
Todos los pares de metales distintos presentan esta tensión, denominada tensión de Seebeck
en honor a su descubridor, Thomas Seebeck.
2.2 SENSORES INDUCTIVOS
Los sensores inductivos están basados en el uso de osciladores, en los que su amplitud de
oscilación se ve afectada por la aproximación de un objeto. Ara generar oscilación
sinusoidal, se usan osciladores LC (consistentes de una bobina y un condensador).

L = bobina (inductancia, unidad: henrio H, 1H=1 Vs/A)


C = condensador (capacitancia, unidad: faradio F, 1F = 1 As/V)

Consideremos el circuito resonante LC como una aplicación en un sensor de proximidad


inductivo. La bobina de un oscilador LC está localizada en un medio núcleo magnético. EL
oscilador oscila típicamente a una frecuencia en el rango de aproximadamente 100 a 1000
kHz. El oscilador LC genera un campo electromagnético alterno de alta frecuencia (campo
HF), el cual es emitido desde la superficie activa del sensor.
Si se aproxima un objeto conductor al medio núcleo, la amplitud de la oscilación decrece o
es completamente atenuada.

Esto se debe a que se retira energía del campo magnético por causa de la formación de las
corrientes Hedí cuando el objeto se aproxima. Si se mueve una pieza de metal en un campo
magnético constante, este induce corrientes de Eddy en esta pieza. Lo mimo sucede si
partes metálicas estacionarias son expuestas a campos magnéticos alternos.
Un sensor inductivo opera con muy bajo consumo de potencia (algunos en microvatios) y
posee tres ventajas.
- Coproduce un efecto magnético significativo.
- El campo HF no causa ninguna interferencia.
- Las vibraciones de temperatura del objeto no son sensadas.

Oscilaciones
Las oscilaciones eléctricas pueden ser claramente ilustradas a partir de oscilaciones
mecánicas. En el caso de la oscilación mecánica de un resorte ocurre un cambio de periodo
entre el potencial y la energía cinética. De manera análoga, en el caso de una oscilación
electromagnética existe un intercambio de energía entre el campo eléctrico y magnético.
Se puede comparar las magnitudes eléctricas y mecánicas de la siguiente manera:
Deflexión: x › carga eléctrica q.
Carga m › Inductancia L.
Constante de fricción K › Resistencia R.
Constante de resorte D › Recíproco de capacitancia I/C

2.3 SENSORES ULTRASONICOS


Comúnmente se asocia, el sonido aun fenómeno percibible por el oído. Por esta causa la
acústica fue inicialmente confinada a sonido audible; luego que se desarrollaron
transmisores y receptores para sonidos no audibles, fue posible extender las bondades de la
acústica. El sonido esta dividido en categorías de acuerdo a la frecuencia de oscilación
generada:

Sonido Audible
El límite inferior de la percepción humana es 16 Hz, el límite inferior fluctúa entre 10 kHz
y 20 kHZ.

Ultrasonido.
El rango de frecuencia por encima de 20 kHz está descrito como ultrasonido.

Infrasonido.
Oscilaciones de una FREC. Inferior a 16 Hz son descritas como infrasonido. Este tipo de
onda sonora ocurre por ejemplo durante temblores y poseen periodos de un rango de 10 a
50 s.

Hipersonidos.
Las más altas frecuencias creadas son del orden de 10^10 Hz y 10^13 Hz y son conocidas
como hipersonidos. Los osciladores estáticos de estado sólido no logran vibrar a estas
frecuencias.
Emisor Ultrasónico
La frecuencia sonora que esta por encima del límite del oído humano (mayor 20 kHz) es
descrita como ultrasonido. Las características particulares del ultrasonido son el resultado
de la alta frecuencia junto con las longitudes de onda cortas. Estas características son
adoptadas principalmente para sensores de proximidad. Existen tres métodos diferentes de
generación de Ultrasonido:

· Mecanico.
· Magnético.
· Eléctrico.

Receptor Ultrasónico
La mayoría de receptores ultrasónicos están basados en la función inversa del principio del
emisor.
Circuitos electrónicos de control determinan la base de tiempo de generación del sonido, la
emisión de la señal del sensor y la medición de la señal de eco, con la tarea adicional de
conmutar entre operaciones de emisor y recepción.

Modo Pulso
El modo pulso es usado para detectar la presencia de un objeto así como para medir su
distancia. Este es el método típico, por el cual pulsos de corta duración son generados y
emitidos; si un objeto está dentro del rango de emisión del sensor, las ondas sonoras son
reflejadas como señales de eco, las cuales llegan al receptor , luego del retardo en la
propagación de señal. Este retardo en la propagación es proporcional a la distancia entre el
sensor y el objeto. La distancia absoluta del objeto es determinada por el tiempo medido.

a) Transductor Ultrasónico.
En el modo de emisión, el transductor ultrasónico es excitado por un corto pulso de voltaje.
Este pulso genera un breve pulso de oscilación ultrasónico de una frecuencia determinada
por la frecuencia de resonancia del transductor. El transductor ultrasónico es luego
conmutado al modo de recepción y las ondas ultrasónicas reflejadas (pulsos de eco) son
recibidas y evaluadas.

b) Unidad de Evaluación.
La unidad de evaluación primero verifica que las señales que llegan sean el eco de la onda
ultrasónica
emitida. Si la señal es reconocida como eco se determina el tiempo de propagación de la
onda sonora. El tiempo de propagación es el tiempo que ha pasado entre la emisión del
sonido y la recepción del eco. El resultado de esta evaluación es llevado ala etapa de salida.

c) Etapa de Salida.
La señal emitida por la etapa de salida depende del propósito para el cual es usado el sensor
ultrasónico.
Si el sensor es usado como sensor de proximidad, la ocurrencia de una señal ultrasónica
reflejada es evaluada en el receptor. En este caso la señal de salida indica si un objeto está
presente o no. Si el sensor es usado como sensor de distancia ultrasónico, entonces el
tiempo de propagación del sonido es calculado y se envía una señal eléctrica a través de la
unidad de salida, la cual es proporcional a la distancia entre el sensor y el objeto.

CONDICIONES DE OPERACIÓN DE SENSORES ULTRASÓNICOS.

Con el uso de sensores ultrasónicos es posible detectar sólidos, líquidos, sustancias


granulares y en polvo. De acuerdo a la aspereza de la superficie de un objeto, en rango del
sensor puede por u lado ser reducido debido a una señal de retorno difusa; pero por otro
lado el sensor no necesitará estar alineado con el objeto a un ángulo recto preciso para
obtener la reflexión. El color del objeto no afecta al comportamiento del sensor. Dentro de
la llamada parte local del campo del sonido del sensor, no debe haber ningún objeto
presente, ya que esto puede influir creando pulsos erróneos a la salida del sensor de
proximidad.

2.4 SENSORES Y TRANSDUCTORES EN FIBRA OPTICA

Principios De Desempeño En Sensores Y Transductores A Fibra Óptica En El Desarrollo


De Equipamiento.

CARACTERISTICAS BASICAS DE LA FIBRA OPTICA

Consisten básicamente en cilindros de cristal o de plástico de diámetro pequeños.


Hay un cilindro central, llamado núcleo, que se compone de un tipo de cristal o de plástico.
Rodea el núcleo una capa cilíndrica llamada revestimiento que se hace de un tipo levemente
diverso de cristal o plástico.
Este cilindro es rodeado generalmente por una envoltura protectora.
La capacidad conductora de luz de la fibra es dependiente de las características de la base y
del revestimiento mientras que la fortaleza mecánica de la fibra viene dada por el
revestimiento, que se hace generalmente de plástico.

ELECCION DE UNA FIBRA OPTICA CONVENIENTE

La luz es un fenómeno de la onda electromagnética.


Las fibras ópticas son guías de onda dieléctricas cilíndricas.
Con esto en mente es posible desarrollar conceptos con respecto a los modos
electromagnéticos permitidos de la propagación de una guía de onda cilíndrica e introducir
el parámetro óptico con frecuencia encontrado de la guía de onda de la fibra que debe ser
considerado al seleccionar una fibra conveniente para una aplicación determinada.
La velocidad de conducción de las fibras ópticas esta dada debido a la diferencia que existe
entre los índices de refracción de los dos medios (ley de Snell) Analizando el fenómeno de
la refracción y reflexión por el cual se rigen las fibras ópticas.

Deducimos que el índice de refracción del cual esta hecho el núcleo debe ser levemente
mayor que el índice de refracción de la vaina envolvente, esto hace que el rayo idealmente
se propague sin atenuación.

PROCESOS DE FABRICACION DE LAS FIBRAS OPTICAS

- Proceso de doble crisol (es el metodo mas directo).


- Proceso IVPO (de oxidación interno por fase de vapor).
- Proceso de oxidación externa por fase de vapor.
- Proceso de deposición axial por vapor.

Una gran cantidad de sensores de fibra óptica modulada en fase han sido demostrados,
incluyendo sensor acústico, eléctrico, magnético, un deseo de rotación, aceleración,
corriente eléctrica, presión y temperatura.
Estos sensores fueron aplicados a hidrófonos, magnetómetros, giróscopos, acelerómetros, y
otros dispositivos.
Estos dispositivos exhiben numerosas ventajas, las más importantes de las cuales son:
flexibilidad geométricas, inmunidad a interferencia electromagnética y pulsos
electromagnéticos, gran ancho de banda y una gran sensibilidad , como por ejemplo,
habilidad para detectar señales de niveles muy bajos y con pequeños cambios.

ELECCION DE UNA FIBRA OPTICA CONVENIENTE

La luz es un fenómeno de la onda electromagnética.


Las fibras ópticas son guías de onda dieléctricas cilíndricas.
La velocidad de conducción de las fibras ópticas esta dada debido a la diferencia que existe
entre los índices de refracción de los dos medios (ley de Snell) Analizando el fenómeno de
la refracción y reflexión por el cual se rigen las fibras ópticas.
Deducimos que el índice de refracción del cual esta hecho el núcleo debe ser levemente
mayor que el índice de refracción de la vaina envolvente, esto hace que el rayo idealmente
se propague sin atenuación.

PROCESOS DE FABRICACION DE LAS FIBRAS OPTICAS

- Proceso de doble crisol (es el metodo mas directo).


- Proceso IVPO (de oxidación interno por fase de vapor).
- Proceso de oxidación externa por fase de vapor.
- Proceso de deposición axial por vapor.

Estos dispositivos exhiben numerosas ventajas, las más importantes de las cuales son:

flexibilidad geométricas, inmunidad a interferencia electromagnética y pulsos


electromagnéticos, gran ancho de banda y una gran sensibilidad , como por ejemplo,
habilidad para detectar señales de niveles muy bajos y con pequeños cambios.

APLICACIONES DE LA FIBRA ÓPTICA EN LA MEDICINA

En este campo son evidentes las ventajas que puede aportar el uso de la fibra óptica como
ayuda a las técnicas endoscópicas clásicas y, de hecho, están siendo sustituidos los sistemas
tradicionales por los modernos fibroscopios.
Diversos aparatos como laringoscopios, rectoscopios, broncoscopios, vaginoscopios
gastroscopios y laparoscopios, incluyen ya esta tecnología, la cual nos permite con gran
precisión la exploración de cavidades internas del cuerpo humano.

LAPAROSCOPIA
La laparoscopía es la visión de la cavidad pélvica-abdominal a través de un tubo (óptica)
que contiene un sistema de lentes. A éste se le conecta una fibra óptica que transmite la luz
generada en una fuente externa, para iluminar la cavidad.
Habitualmente se acopla una cámara a la óptica para transmitir la imagen a un monitor.

FIBROSCOPIO GASTROINTESTINAL
El sistema óptico avanzado de alta resolución ofrece observación precisa y mejora la
precisión.
El tubo de inserción con flexibilidad graduada permite una inserción sencilla y suave.
El generoso canal de instrumentos de 2.8mm permite utilizar una variedad de dispositivos
de endoterapia.
El amplio campo de visión de 120° mejora la orientación.
Los componentes y accesorios desmontables son completamente esterilizables en
autoclave, lo que permite un reprocesamiento sencillo y minucioso
BRONCOSCOPIA

La visualización del interior de las vísceras huecas o los espacios virtuales (pleura y
peritoneo) mediante la introducción de tubos con una fuente de luz y un visor.
Incluye las siguientes pruebas:

Esofagoscopia
Gastroscopia
Colonoscopia
Sigmoidoscopia
Cistoscopia
Broncoscopia

Estos dispositivos y exhibe numerosas ventajas, la más importante de las cuales son
flexibilidad geométrica, inmunidad interferencia electromagnética y pulsos
electromagnéticos, gran ancho de banda y una gran sensibilidad , como por ejemplo
habilidad para detectar señales de niveles muy bajos y con pequeños cambios, así como su
reducido tamaño

SENSORES DE PRESIÓN:
Aquí, la fibra no actúa como sensor en sí, sino que detecta las variaciones de características
de un sensor mecánico que está bajo el efecto de una presión.

SENSORES DE TEMPERATURA:
Estos sensores están basados en el hecho de que el núcleo y la envoltura de la fibra varían
según el índice de refracción al cambiar la temperatura del medio en que está envuelta la
fibra.
Cuando la temperatura aumenta, disminuye la diferencia de índices, con lo que se
modifican las condiciones para la reflexión total, y, parte de la luz que antes permanecía en
el núcleo ahora escapa refractada por el revestimiento, dando origen a una disminución de
la intensidad lumínica en el extremo de medida de la fibra
SEGUNDA PARTE
Procesamiento Digital de la Voz.
Objetivos del Capítulo:
Conocer las características de la voz.
Introducir a los codificadores de voz en frecuencia y tiempo.
Implementar un Vocoder de sub-bandas en frecuencia.

2.1 ¿Cómo se produce la Voz?.


La voz se produce de la vibración de las cuerdas vocaIes. Estas están situadas en el
conducto que lleva el aire de la respiración desde los pulmones a la boca y la nariz. La
generación de sonidos mediante las cuerdas vocales se logra gracias a que se pueden
replegar a los lados dejando al aire pasar libremente; o pueden cerrarse, juntándose, con lo
cual el aire se ve obligado a salir presionando por el resquicio que dejan en su juntura.
Cuando las cuerdas vocales están abiertas, recogidas a los lados (esto es, cuando el aire
tiene vía libre) es cuando simplemente respiramos. Pero, cuando están cerradas el aire sube
de los pulmones choca con ellas y ese choque provoca una vibración, la cual, a su vez,
produce un sonido, que es la voz. Ese sonido producido por la vibración de las cuerdas
vocales es llevado al exterior por el propio aire espirado que causó la vibración.

Fig. 2.1 Las cuerdas vocales.


El aire expulsado de los pulmones, después de atravesar la laringe (donde están alojadas
las cuerdas vocales) sube por la faringe para salir por la boca o por la nariz. En estas tres
cavidades o espacios, sobre todo en la boca tiene lugar una serie do movimientos de
distintos órganos de los cuales resultan sonidos o resonancias acompañantes del sonido
espirado y de la voz que con él sale. Esos movimientos productores de sonidos son las
articulaciones, y los órganos que intervienen en la producción de estas se llaman órganos de
articulación (la lengua, los labios, el velo del paladar, etc.), los sonidos producidos por las
articulaciones son variados y muy numerosos.
El sonido más pequeño se denomina fonema. Por lo tanto, una expresión está construida a
base de fonemas. En la Fig. 2.2 se muestra una señal de voz con sus respectivos fonemas.

Fig. 2.2 Ejemplo de fonemas. Se distinguen los fonemas: MU-R-CI-E-LA-GO.

2.2.- Clasificación de los Sonidos de la Voz.


Los sonidos de voz humana se pueden clasificar en dos formas básicas, dependiendo de
como son generados. La primera categoría de sonidos son los producidos por la vibración
de las cuerdas vocales, llamados sonidos "vocales" (en inglés: voiced). Estos sonidos están
asociados a la generación de vocales y de algunas consonantes. Un ejemplo de la forma de
onda en el tiempo de los sonidos "vocales", se muestra en la Fig. 2.2.

Fig. 2.3 Forma de onda de un sonido vocal. Se aprecia también el intervalo de pitch.
La tasa de excitación de las cuerdas vocales es el tono (en inglés: pitch). Como se observa
en la Fig. 2.3 la forma de onda de un sonido "vocal", despliega un patrón repetitivo que
corresponde a la duración del tono. Cada sonido "vocal" está formado por estos patrones.
La duración típica de los tonos es de 5 a 20 [ms] para los hombres y 2.5 a 10 [ms] para las
mujeres. No todos los sonidos "vocales" producen una lectura tan identificable como los
tonos mostrados en la Fig. 2.3.
La segunda categoría incluye a los fricativos o sonidos "sordos" (en inglés: unvoiced), los
que no son producidos por las cuerdas vocales. Los fricativos son generados por la fricción
del aire expulsado por los pulmones con algún órgano de articulación. Corresponden a
ciertas consonantes tales como s, t, p, f, por lo que generalmente son llamadas consonantes
sordas. Por ejemplo la consonante “f”', se produce cuando se pone el labio inferior en
contacto con los dientes incisivos superiores dejando escapar el aire con un ruido de
frotamiento. Un ejemplo de la forma de onda en el tiempo de los fricativos es mostrado en
la Fig. 2.4. Nótese que los fricativos tienen una forma de onda mucho más aleatoria que los
sonidos "vocales".

Fig. 2.4 Forma de onda de un sonido fricativo.

2.2.1.- Energía de la Voz en función del Tiempo y la Frecuencia


El espectrograma despliega la energía en función del tiempo y la frecuencia Un
espectrograma se ilustra en la Fig. 2.5. El eje horizontal representa el tiempo, el eje vertical
representa la frecuencia y lo sombreado representa los niveles de energía. Las porciones
sombreadas con celeste en la Fig. 2.5 indican niveles de energía altos (formantes) en
instantes particulares en el tiempo.

Fig. 2.5 Espectrograma de la frase “Diseño de equipos”. Nótese el nivel de energía en la letra
“S”.

2.2.2.- Caracterización de la fuente de voz.


El sonido puede ser generado de tres maneras en el aparato vocal.
Sonidos de Voz. Las cuerdas vocales, actuando como un oscilador aerodinámico, generan
el flujo de aire desde los pulmones hacia la faringe. El flujo resultante es aproximadamente
una secuencia periódica de pulsos de aire. La impedancia acústica de esta válvula, relativa a
la impedancia del tracto de la faringe, es moderadamente alta. En otras palabras, las
cuerdas vocales pueden ser entendidas como una fuente de corriente, la cual exita a una red
pasiva, lineal y de lenta velocidad de respuesta. La envolvente espectral de esta exitación
periódica cae típicamente a 12 [db/octava].
Fricativos. Constantes sonidos son producidos dada la presión aleatoria resultante de la
turbulencia del aire que fluye en algún punto del sistema vocal y no son producidos
directamente por las cuerdas vocales. Desde un punto de vista de red, esta fuente aparece
como una fuente de voltaje en serie (presión). El espectro de esta fuente de presión presenta
un amplio ancho de banda, con una suave atenuación en los bordes de la banda.
Pausas. En los períodos transientes, los silencios son producidos por una abandono
abrupto de la presión. El resultado es un transiente de la presión, similar a una función
escalón , produciendo una caida en el espectro de 1/f , aplicado como la fuente de voltaje
en serie (presión) antes mencionada, en donde se produce la compresión de espacio. La
impedancia de dicha fuente depende de la cantidad de compresión del espacio.

En resumen, los sonidos de voz humana están compuestos de sonidos "vocales", “pausas”
y “fricativos”, definiéndose la unidad básica como “fonema”.
2.3.- Introducción a los Codificadores de Voz.
Un primer acercamiento hacia la comprensión de un codificador de voz, será la definición
de criterios que permitan determinar la calidad de la señal de voz recibida en el extremo
receptor. A este criterio se le denominará Criterio de fidelidad.
Cualquier evaluación de una señal implica una medida de fidelidad. Para la mayoría de los
sistemas de comunicación, esta medida es difícil de especificar, puesto que esta envuelve la
percepción humana. La calidad de voz es evaluada generalmente a través del criterio según
un oyente entiende qué es lo que se dijo o quién lo dijo (de aquí en adelante, se entenderá
el término calidad de voz como la calidad de señal de voz en el extremo receptor).
Mediciones objetivas que reflejen con acuciosidad dichos factores son difíciles de
establecer. A pesar de este incompleto estado del conocimiento, existen variados sistemas
que cuantifican la calidad de voz. Estos derivan de pruebas realizadas a través de
reconocimiento de palabras y sonidos, con distintos tipos de oyentes (humanos). Usando
estos datos, se han establecido guías para el diseño de codificadores de voz. A ello se
agregan las mediciones de densidad espectral de muestras de corta duración, relación señal
ruido, que analizadas correctamente, significan un paso hacia una definición objetiva de
dicha cuantificación de la percepción.
Una amplia gama de codificadores de voz son denominados codificadores de forma de
onda. Como su nombre lo indica, dichos codificadores reproducen la forma de onda de la
señal. En un principio, fueron diseñados para ser independientes del tipo de señal, dado
que pueden codificar con calidad una variedad de señales, por ejemplo música, tonos y
datos dentro de la banda de voz. Además, tienden a conservar la mayoría de las
características de la voz en un ambiente ruidoso. Para mantener dichas ventajas con un
mínimo de complejidad, los codificadores de forma de onda típicos apuntan a economizar
su tasa de transmisión de bits.
Los codificadores de forma de onda pueden ser optimizados y hechos para señales
específicas, logrando una gran eficiencia de código. Un desarrollo típico es realizado
utilizando observaciones estadísticas sobre un conjunto de señales, haciendo que el
codificador de forma de onda permita un mínimo de codificación de código para un tipo de
señal (por ejemplo, la voz). La construcción de dicho código es basado en un estudio
estadístico de la forma de onda de la voz, distinto de la parametrización de la información
obtenida de algún modelo físico de la señal. Las propiedades utilizadas en la creación de
un código para un codificador de forma de onda corresponden a la explotación de la
redundancia de las características de la señal de voz, ya sea en el dominio del tiempo o en
el dominio de la frecuencia.
Es así como en el dominio del tiempo se utilizan las siguientes redundancias:
Distribución no uniforme de la amplitud.
Correlación entre muestra y muestra.
Correlación ciclo a ciclo (periodicidad).
Correlación entre intervalos de igual duración (pitch interval).
Factores de inactividad de la voz (silencios).

Según esta descripción, se puede nombrar una larga lista de codificadores de forma de
onda. Dentro de los codificadores en el dominio del tiempo, se tiene:
Modulación por Código de Pulso (PCM).
Modulación por Diferencia de Código de Pulso (DPCM).
Modulación Delta (DM).
En el dominio de la frecuencia se utilizan las siguientes redundancias :
Densidad espectral no uniforme de los niveles altos.
Niveles bajos de la densidad espectral de sonidos específicos.
Dentro de los codificadores en el dominio de la frecuencia, se tiene, entre otros:
Codificación de Sub- Banda (SBC).
Codificación de Transformación Adaptiva (ATC).
El estudio y profundización de los codificadores y las características redundantes que
utilizan de la señal de voz se dejan al lector a través de los textos [2] y [3] de la referencia
bibliográfica. Allí se detallan cada uno de los sistemas de codificación de voz antes
mencionados.

2.4.- Compresión de la Voz.


La integración de los sistemas de comunicación, junto con el constante crecimiento de la
digitalización de las redes que utilizan dichos sistemas, hacen necesario una administración
eficiente de los recursos disponibles. Uno de estos recursos, corresponde a la capacidad de
memoria de almacenamiento de datos. Más específicamente, se busca que dicha capacidad
sea maximizada, a través de la reducción de los paquetes de información almacenados. Es
así como surge la compresión de datos como una de las posibles soluciones ( y quizás la
más lógica ) al problema planteado en la administración eficiente de la capacidad de
memoria.
La búsqueda de métodos de compresión de datos está ligada al tipo de datos almacenados,
entendiéndose por tipo al origen de dichos datos. Dentro de estos tipos de datos, tenemos
los datos procedentes del proceso de digitalización de la voz humana. A su vez, dichos
datos pueden ser nuevamente clasificados según el método de digitalización de voz
efectuado.
Dentro de las aplicaciones de la compresión de audio, se distinguen 4 áreas: Broadcasting
(difusión), almacenamiento, multimedia y telecomunicaciones. Ejemplos de estos son:
almacenamiento en disco (CD audio, video, etc.), televisión por cable y satelital, Internet
(audio y video “streaming”), aplicaciones ISDN, etc.
En la actualidad, la mayoría de las aplicaciones de software que hacen uso de la
compresión de audio para distintos fines, siguen el estándar creado por MPEG (Moving
Picture Experts Group). Este grupo trabaja para crear estándares para la codificación de
audio y vídeo definiendo para la parte de audio 3 estándares para comprimir conocidos
como “layers” (capas), cada uno define su propio formato de trama y el tipo de codificador
que necesita, diferenciándose también en su complejidad y en la tasa de compresión
lograda.
2.4.1.- Algoritmos de compresión de voz en el dominio de la frecuencia.
Introducción.

Como se mencionó en la introducción a los codificadores de voz, los algoritmos de


codificación explotan las distintas características de la voz humana. Un sitial importante
ocupa entre dichas características las propiedades de la voz humana en el dominio de la
frecuencia. A continuación se presentará el desarrollo de un algoritmo DSP de uno de los
más populares y antiguos codificadores de voz, el “Channel Vocoder” (codificador de voz
de canal. Se utiliza una moderada descripción de la voz, sabiendo de antemano cómo la
señal fue generada en la fuente. La idea es que alguna compresión física durante la
generación de la señal pueda ser cuantificada, utilizándola como descripción eficiente de la
señal. Esto implica que la señal debe ser puesta en un molde específico que permita
parametrizar la señal correctamente (en este caso, la señal de voz). Esta técnica utiliza las
variaciones de la generación de señal como una fuente de código. Por ello, se le denomina
a esta técnica Codificadores de fuente de voz o más comúnmente como Vocoders, debido a
la combinación de los términos anglosajones Voice (voz) y Encoder (codificador).
El objetivo es la preservación de la amplitud espectral de muestras de corta duración de
señales de voz en una audición de voz pronunciable.

2.4.1.1.- Vocoders.
Como ya se ha mencionado, la técnica del vocoder está diseñada específicamente para
señales de voz, por lo tanto no es aplicable su uso en las redes de telefonía pública, en las
cuales otros tipos de señales (como la señal de un modem) son transmitidas. Es más, los
vocoders típicos producen sonido de voz “artificial” o “poco natural”.
El objetivo principal de un vocoder es codificar solo las características perceptivas
importantes de la voz, con la menor cantidad de bits que el común de los codificadores.
Debido a esto, los vocoders son utilizados en aplicaciones de limitado ancho de banda,
donde otras técnicas no pueden aplicarse.
Algunas de las principales aplicaciones de los vocoders son:
- Grabación de mensajes almacenados (Ej. “Número equivocado”).
- Encriptación de voz en transmisión por linea telefónica.
- Salida de audio de un computador o máquina.
- Sintetizadores musicales y experimentación electrónica del sonido.
Fig. 2.6.- Modelo del sistema generador de Voz.
Se puede decir que el vocoder depende de una rígida parametrización de la señal de voz,
que concuerda con el modelo lineal y cuasi–estacionario de la generación de voz. En el
modelo tradicional, mostrado en la figura, la fuente de sonido es independiente del sistema
resonante que modifica (modula) el sonido.
Para comprender mejor el modelado de la generación de voz, se analizará algunas
características de dicha fuente.
A continuación, se analizará las características del sistema, con el cual se ha modelado la
generación de señales de voz, y que ha sido la guía para el diseño de diversos tipos de
vocoders,

2.4.1.2.- Caracterización del sistema.


De acuerdo al concepto de fuente lineal, la salida de sonido del tracto vocal, corresponde
a la convolución en el tiempo de las formas de onda de exitación y de la respuesta a
impulso del sistema vocal. En el dominio de la frecuencia, esto corresponde a la
multiplicación de sus transformadas de Fourier. Consecuentemente, la resonancia acústica
del tracto vocal modula o envuelve el espectro de la fuentes. Diferentes sonidos de voz
corresponden únicamente a distintas envolventes espectrales. Los vocoders han sido
realizados sobre la base de una descripción paramétrica del tracto vocal. Esta descripción
toma una variedad de formas, por ejemplo, amplitudes espectrales de muestras de pequeña
duración de señales de voz evaluadas en frecuencias específicas, como se verá en el
codificador de voz de canal (Channel Vocoder). Coeficientes de predicción lineal, que
describe el comportamiento de la envolvente espectral (LPC vocoder), valores de las
frecuencias que presentan una mayor resonancia (nivel de energía) en la densidad espectral
de la muestra analizada (Formant vocoder), funciones de autocorrelación de muestras de
voz de corta duración (vocoder de autocorrelación), coeficientes de un conjunto de
funciones ortonormales que se aproximan a la forma de onda de una señal de voz.,etc.
Existen muchas otras variantes.

2.4.1.3.- Vocoders en el dominio de la frecuencia


La voz consiste en una sucesión de “fonemas” (sonidos articulados por el tracto vocal).
Cada sonido de voz se caracteriza por su potencia espectral (es decir, el valor cuadrático de
la transformada de Fourier de la señal). La envolvente espectral de cada sonido de voz es
determinada por el mecanismo humano de generación de voz. A su vez, el sistema de
audición humana permite el reconocimiento de dichos fonemas, los cuales forman la voz.
Este hecho de analizar el espectro de la voz, es utilizado en el codificador de canal de voz
o más conocido por Channel Vocoder.

Fig. 2.7.- Diagrama en bloques de un Channel Vocoder.


Channel Vocoder. Fue desarrollado por primera vez en 1928, por Homer Dudley,
logrando comprimir señales de voz en un ancho de banda de 300 [Hz]. Basado en este
desarrollo, existen vocoders que operan en el rango de 1 a 2 [Kbps].
La mayor parte del proceso que envuelve a un channel vocoder corresponde a determinar
el espectro de muestras de corta duración en función del tiempo. Como se puede ver en la
figura , un banco de filtros pasabanda es utilizado para separar la energía de la voz en sub-
bandas, la cual es rectificada en forma completa, para así ser filtrada nuevamente por un
filtro pasabajos y obtener de esta manera su nivel de potencia relativa dentro de dicha
subbanda. Estos niveles de potencia individuales son codificados, multiplexados y
transmitidos hacia el receptor.
Además de medir el espectro de la señal, los vocoders determinan la naturaleza del
sonido, si corresponde a un sonido de voz o no, junto con medir la frecuencia de los pitch
de señales de voz. La medición de la exitación es utilizada para sintetizar la señal de voz en
el extremo receptor, es decir, en el decodificador, a través de una adecuada selección de la
fuente de señal, según el modelo de generación de voz, mencionado anteriormente. La
exitación de la voz es simulada con un generador de pulsos usando una frecuencia igual a la
medida en el pitch de la muestra de voz. Los sonidos que no corresponden a un sonido de
voz, son simulados con un generador de ruido. Debido a la naturaleza sintetizada de la
exitación, este tipo de vocoder es denominado a veces como vocoder de pitch exitador.
Como se puede apreciar en la figura , el decodificador implementa el modelo de
generación de voz con un banco de filtros pasabanda, cuyos niveles de potencia de entrada
son determinados por la respectiva subbanda en el codificador. Superponiendo las bandas
individuales que han sido recreadas en el espectro de frecuencias, se obtiene la señal
original.
Muchas variaciones de un channel vocoder se han desarrollado, utilizando la naturaleza
de la exitación y el promedio de los niveles de potencia. La mayor dificultad que enfrenta el
desarrollo de un channel vocoder corresponde a la determinación del pitch de la señal de
voz. Inclusive, algunos sonidos no se clasifican dentro de los sonidos de voz ni fuera de
ellos. Esto exige una mayor acuciosidad en el análisis de las características de la señal de
exitación. Sin esta acuciosidad se tienen resultados pobres, dependientes del tipo de persona
que habla y de los sonidos particulares que ha producido. Algunos de los más avanzados
channel vocoders desarrollados han producido señales de voz bastante inteligibles, con un
sonido sintético, a velocidades de 2400 [bps].
Un channel vocoder maneja una serie de valores que hacen de su codificación un proceso
eficiente en mayor o menor grado, según sea el caso. Por ejemplo, se puede tomar el ancho
de banda de voz, cercana a los 4000 [Hz] y dividirla en 16 sub bandas. Tomando muestras
de señal (proveniente de la rectificación y filtración en baja frecuencia de la salida de cada
filtro pasabanda) cada 20 [ms] y aplicando el teorema del muestreo, se obtiene que cada
canal espectral requiere un ancho de banda (para transmitir su información de potencia de
la sub-banda) de 1/(2 * 20 [ms]) = 25 [Hz]. Luego, el ancho de banda total requerido para
transmitir la información de señal de voz es de 16 * 25[Hz] = 400 [Hz]. Esto significa, en
pocas palabras, que se ha reducido el ancho de banda en aproximadamente un 90%. No se
debe perder de vista que la señal obtenida en el extremo receptor tendrá solo las
características más notorias de la voz codificada, por lo que es escuchar un sonido sintético
o artificial no debe ser motivo de sorpresa.
Finalmente, se puede observar que la calidad de la señal recibida en el extremo receptor de
un channel vocoder depende del número de filtros pasabanda que tenga el codificador, el
orden de dichos filtros (filtros muy abruptos y de bajo ancho de banda implican la
utilización de un mayor número de ellos), la duración de cada muestra, la correcta
detección de los pitch de la señal de voz y su respectiva generación (exitación) en el
decodificador.
Una mayor eficiencia en la descripción de la señal de voz se puede obtener especificando
solo las frecuencias de los niveles altos o peaks (formant) de la densidad espectral de la
muestra de voz analizada y las respectivas amplitudes de dichas frecuencia. Esto conlleva a
la realización de otro tipo de vocoder, denominado Formant Vocoder.
Formant Vocoder. Como una variación de un channel vocoder, el formant vocoder rescata
la formación de formant, o peaks de la densidad espectral. Es así como este codificador
determina la ubicación y la amplitud de este peak de densidad espectral, codificando a una
baja tasa de bit los niveles más significantes antes mencionados. El requerimiento más
importante en el uso de los formant vocoder envuelve el constante monitoreo de los
cambios en los peaks o formants. Con esta idea presente, se han desarrollado formant
vocoder que producen señales de voz inteligibles a menos de 1000 [bps].
2.5.- Implementación de un Vocoder de sub-bandas en frecuencia con Matlab:
A continuación se analizará la implementación de Vocoder de sub-bandas de frecuencia.
Fue desarrollado en Matlab, utilizando archivos .wav que fueron comprimidos y
descomprimidos en un computador PC.
2.5.1.- Etapas del algoritmo codificador (“cosubf.m”).
Primera etapa: Conversión del archivo de voz fuente con extensión .WAV en un vector
columna mediante el software Matlab. Esto es debido a que el manejo de archivos de audio
por parte de Matlab es realizado sobre un vector de datos, facilitando así el manejo de
archivos. Un factor limitante en los algoritmos es que Matlab solo acepta archivos
digitalizados en palabras de ocho bits.
Segunda etapa: Filtraje total de archivo, dentro de la banda de frecuencia de la voz humana
(300 [Hz] a 3400[Hz] aproximadamente). Con esto se asegura que la señal de voz del
archivo a comprimir no contenga componentes fuera de la banda de interés. Se utilizó un
filtro elíptico de cuarto orden, con un riple de 0.01 dentro de la banda (plano) y de 100
fuera de ella.
Tercera etapa: Separación del archivo de datos (vector) en subventanas de datos. Se
separaron los datos en grupos de vectores, según la velocidad de muestreo y el tiempo de la
ventana de datos que se va a analizar. Por ejemplo, se determinó que para un archivo
muestreado a 44100 [muestras/seg] se tomaron 882 datos por cada subventana de datos,
representando asi una ventana de tiempo equivalente a 20 [ms]. Esta asignación del número
de datos por ventana no se hizo al azar. Como más adelante se verá, el método utilizado
responde a los compromisos entre ancho de banda de los filtros y el tiempo de cada
subventana de datos, que surge al realizar un submuestreo de datos.
Cuarta etapa: Cálculo de la frecuencia fundamental de la señal correspondiente a cada
subventana de datos. Mediante la transformada rápida de Fourier, aplicada sobre la
subventana de datos, se obtienen las componentes en frecuencia dentro de la banda de
interés. Luego se calcula cuál de dichas componentes presenta un mayor nivel de potencia,
asignandose esta como frecuencia fundamental de la señal correspondiente a la subventana
de datos. De este análisis derivó también la determinación de presencia de ciertos niveles
de ruido, lo que permitió eliminarlos cuando no sobrepasaban ciertos niveles de potencia.
Quinta etapa: Separación de la señal correspondiente a la subventana de datos en distintas
subbandas de frecuencia. Se filtro en forma iterativa cada una de las subventanas de datos
mediante filtros pasabanda elípticos de cuarto orden, con frecuencias superior e inferior
como parámetros del algoritmo.
A continuación se detalla el criterio de elección del ancho de banda de cada filtro y del
número de datos de cada subventana, equivalente a una ventana de tiempo determinada.

En una señal sinusoidal con frecuencia , se muestrea con un pulso de duración


,se tiene que el ancho de banda de la señal (el ensanchamiento de su espectro

luego de haber sido muestreada) se encuentra entre como frecuencia mínima y

como frecuencia máxima, centrado en . Esto significa que el ancho de banda

obtenido luego del proceso de muestreo corresponde a .


Fig. 2.8.- Ventana de tiempo.
Según este desarrollo, se logra establecer el compromiso entre el ancho de banda mínimo
de los filtros para un determinado tiempo equivalente de subventana de datos. Por ejemplo,
se llegó a determinar que para una subventana de 882 datos (archivo original muestreado a
44100 [muestras/segundo] ) los filtros sean de un ancho de banda de por lo menos 100
[Hz], debido a que la ventana de tiempo equivalente (Tv) corresponde a 20 [ms]. Análisis
posteriores abordarán los efectos que resultan de la modificación de dichos valores.
Sexta etapa: Rectificación de la señal filtrada. Luego de obtenerse el filtrado de la señal
correspondiente a la ventana de datos para cada subfrecuencia, se procede a rectificar dicha
señal obtenida, mediante la funcion valor absoluto (abs) que posee Matlab. Con ello se
logra adaptar la señal para la próxima etapa.
Séptima etapa : Cálculo de la potencia de la señal en la sub-banda de frecuencia
correspondiente. Después de haberse rectificado la señal a la salida de cada filtro
pasabanda, la señal obtenida está en condiciones de analizarse y obtener de ella su valor
medio, lo cual se realiza con la función mean, de Matlab.
Octava etapa: Creación del vector resultado con los datos comprimidos. Luego de haber
realizado los cálculos de potencia de cada señal obtenida en los filtros pasabanda, estos se
ordenan en un vector columna, que pasará a ser el vector resultado con los datos
comprimidos. Finalizando esta etapa, se procede a tomar una nueva ventana de datos,
repitiéndose las etapas hasta completar el análisis de todo el vector de datos original.
2.5.2.- Etapas del algoritmo decodificador (“decosubf.m”).

A continuación, se detallan las etapas que componen este algoritmo:

Primera etapa: Se calcula la cantidad de datos que poseerá el archivo descomprimido y se


hacen los ajustes y rellenos necesarios.

Segunda etapa: Se analiza la frecuencia fundamental de la ventana de datos,


determinandose si corresponde a una señal de ruido o a una señal de voz. En el caso de que
fuera ruido, se asigna al vector resultado (archivo descomprimido) un período de silencio
(de la misma duración que la ventana de datos.

Tercera etapa: Se genera una señal cuadrada con la frecuencia fundamental asignada a la
ventana de datos analizada.

Cuarta etapa: Se filtra la señal cuadrada a través de los filtros pasabanda correspondientes
a cada sub-banda. Se utiliza una señal cuadrada debido a su alto numero de componentes
armónicos.
Quinta etapa: Cada señal obtenida a la salida de los filtros es multiplicada por los niveles
de potencia respectivos obtenidos en las mismas sub-bandas de la etapa de compresión.

Sexta etapa: Cada producto obtenido de la multiplicación anterior es sumado y de esta


forma se genera la señal correspondiente a la ventana de datos respectiva.

Séptima etapa: Se asignan todos los valores obtenidos de todas las sumas a un vector
resultado correspondiente al archivo descomprimido (recuperado):

Diagrama de flujo del Algoritmo Decodificador de Voz en sub-bandas de frecuencia


(Dcosubf.m).
2.6.- Implementación de un Vocoder de sub-bandas en
frecuenciaen tiempo real sobre una plataforma DSP.
Para la implementación en tiempo real del Vocoder en la plataforma DSP, se utilizó un
algoritmo similar al de Matlab, con los siguientes cambios:
Los datos provienen directamente del codec de audio que digitaliza la entrada de
voz.
La ventana de tiempo es proporcional a un buffer ajustable de hasta 200 datos.
El codec de audio utilizado es el que viene en la tarjeta DSK, con una tasa de
muestreo de 8 KHz.
Como se mencionó anteriormente, el Vocoder de sub-bandas se caracteriza por filtrar la
señal de voz mediante una serie de filtros pasabanda. De la distribución y características de
dichos filtros va a depender en gran medida la calidad de síntesis obtenida. No se debe
olvidar que este codificador de voz actualmente tiene solo usos pedagógicos, debido a la
calidad sintética de la decodificación. Los códigos implementados son “vocoder.c” y
“vocoder.gel”.
Para entender como se realiza el filtrado en el procesamiento digital de señales, a
continuación se estudiarán los Filtros de Respuesta a Impulso finito, más conocidos como
filtros FIR. Dichos filtros corresponden a una de las aplicaciones más utilizadas en DSP.
2.6.1.- Filtros de Respuesta a Impulso finito, FIR.

2.6.1.1.- Introducción a la Transformada Z.


La transformada Z es utilizada en el análisis de las señales en tiempo discreto, similar a la
transformada de Laplace en tiempo continuo. Podemos utilizar la transformada de Laplace
para solucionar ecuaciones diferenciales que representan a filtros analógicos, o la
transformada Z para solucionar ecuaciones de diferencia que representan a filtros digitales.
Consideremos una señal analógica x(t) idealmente muestreada:

x s(t) = (2.1)

donde is la función impulso (delta) retrasada por Kt y T = 1/Fs es el período de


muestreo. La función x s(t) is cero en todo t, exepto en t = Kt.
La transformada de Laplace de x s(t) es:

(2.2)
De la propiedad de la función impulso se tiene que:

Xs(s) en (2.2) se tiene:

(2.3)
sT
Haciendo e se tiene

(2.4)
Haciendo que el período de muestreo T este implícito, entonces x(nT) puede escribirse
como x(n) y se tiene:

(2.5)
el cual representa la transformada (ZT) de x(n). Existe una correspondencia “uno a uno”
entre x(n) y X(z), haciendo de la transformada Z una transformación única.
Ejemplo 2.1. Encontrar la transformada Z de la función exponencial x(n)= enK.
La transformada Z de x(n)= enk , n 0 y k constante es:

(2.6)
Utilizando la serie geométrica, se obtiene por aproximación de Taylor:

luego:

(2.7)

para . Si k = 0, entonces la transformada Z de x(n) = 1


es X(Z) = z / (z-1)
Ejemplo 2.2. Transformada Z de la función Sinusoidal x(n) = sen (nT).
Una función sinusoidal puede ser escrita en términos de una exponencial compleja. De la
fórmula de Euler se tiene que e j u = cos u + j sen u ,

Entonces
(2.8)
Utilizando la serie geométrica como en el ejercicio 2.1, se puede resolver X(Z); o el
resultado para la ecuación 2.7 se puede utilizar con k = jT en la primera sumatoria de la
ecuación 2.8 y utilizar k =- jT en la segunda sumatoria, obteniendo:

(2.9)
donde A = 2 cos T , B = -1 y C = sen T . De esta forma, se pueden obtener formas de
onda sinusoidales de distintas frecuencias, variando el  en la ecuación 2.9
De modo similar, utilizando la fórmula de Euler para obtener la transformada Z del coseno.
cos (nT) = (e jnT + e -jnT ) / 2, como:

(2.10)

2.6.1.2.- Del plano S al plano Z.


La tranformada de Laplace puede utilizarse para determinar la estabilidad de un sistema. Si
los polos del sistema están al lado izquierdo del eje j en el plano S, el sistema se
amortiguará con el tiempo, obteniéndose un sistema estable. Si los polos se encuentran a la
derecha del eje j en el plano S, la respuesta irá creciendo en el tiempo, haciendo del
sistema un sistema inestable. Polos ubicados en el eje j, es decir, polos imaginarios puros,
significarán una respuesta sinusoidal. La frecuencia sinusoidal es representada por el eje j
y  =0 representa la corriente continua (DC).
De manera similar, se puede determinar la estabilidad de un sistema basándose en la
ubicación de los polos en el plano Z asociado con la transformada Z, dado que existe una
relación entre las regiones del plano S y el plano Z.
Dado que esT y s =  + j

(2.11)

Luego, la magnitud de z es = eT con la fase  = T = 2f / Fs, donde Fs la frecuencia de


muestreo. Para mostrar la relación entre las regiones de los plano S y Z consideremos la
siguientes regiones:
Fig. 2.11.- Correspondencia entre el plano S y el plano Z.
<0
Polos en el lado izquierdo del eje j en el plano S (región 2) representa un sistema estable
y la ecuación (4.12) representa una magnitud de <1, por que eT < 1. De esta forma si 
varía desde - a 0-, variará desde 0 a 1. Entonces, los polos que están dentro del circulo
unitario (región 2) del plano Z implican que el sistema es un sistema estable. La respuesta
de este sistema irá decayendo exponencialmente si los polos son reales o decaerá
sinusoidalmente si los polos son complejos.
>0
Polos en el lado derecho del eje j en el plano S (región 3) representa un sistema inestable
y la ecuación (4.12) representa una magnitud de >1, por que eT > 1. De esta forma si 
varía desde 0+ a , variará desde 1+ a . Entonces, los polos que están fuera del circulo
unitario (región 3) del plano Z implican que el sistema es un sistema inestable. La respuesta
de este sistema irá creciendo exponencialmente si los polos son reales o crecerá
sinusoidalmente si los polos son complejos.
=0
Polos en el eje j en el plano S (región 1) representa un sistema marginalmente estable y
la ecuación (4.12) representa una magnitud de =1. Entonces, los polos que están sobre el
circulo unitario (región 1) del plano Z implican que el sistema tendrá una respuesta
sinusoidal. Esto nos servirá para implementar señales sinusoidales en el DSP, programando
los polos sobre el círculo unitario (capítulo cuatro).
Existen diferentes técnicas para el diseño de filtros FIR, siendo la más utilizadas las de
series de Fourier.
La ecuación de convolución es muy utilizada en el diseño de filtros FIR, debido a que lo
aproxima con un número finito de términos.
(2.12)

Si la entrada es un impulso unitario , la salida de respuesta a impulso será


. Los filtros FIR se diseñan con coeficientes , ,..., y con
muestras de entrada , ,..., . La muestra de entrada en el
tiempo es . Las muestras de entrada retardadas son ,..., . La
ecuación (2.12) muestra que un filtro FIR puede ser implementado conociendo la entrada
y las entradas retrasadas . Esto es no recursivo y no existe realimentación, es
decir, no se requieren salidas anteriores.
La transformada Z de la ecuación (2.12) con condiciones iniciales iguales a cero
corresponde a :

(2.13)
La ecuación (2.12) representa la convolución en el tiempo entre los coeficientes y las
muestras de entrada, lo que equivale a un multiplicación en el dominio de la frecuencia.
(2.14)

donde es la función de transferencia. Es decir:

(2.15)
lo cual muestra que existen polos, todos ubicados en el origen. Por esto es que el
filtro FIR es inherentemente estable, ya que sus polos están ubicados solamente dentro del
círculos unitario. En la figura 2.13 se muestra la estructura de un filtro FIR.
Otra característica importante de los filtros FIR es pueden garantizar una fase lineal. Esta
fase lineal puede ser muy útil en aplicaciones como análisis de voz, donde la distorsión de
fase puede ser crítica. Por ejemplo, con fase lineal, todas las componentes sinusoidales de
entrada son retrasadas por una misma cantidad. De otro modo, podría ocurrir distorsión de
fase.

La Transformada de Fourier de una muestra de entrada retardada es


, con una fase de , la cual es una función lineal en términos de .
Nótese que la función retardo de grupo, definida como la derivada de la fase, es constante,

es decir .
Fig. 2.13. Estructura de un filtro FIR.

2.6.1.3.- Cálculo de los coeficientes.


En la implementación en tiempo real realizada sobre la plataforma DSK, se calcularon los
coeficientes de los 19 filtros FIR mediante la herramienta “SPTOOL” de Matlab, que
utiliza el método de “ventanas” (Hamming, Hanning, Blackman, Kaiser, etc.) .
Específicamente, se utilizó la ventana Kaiser. En la figura 2.14 se muestra la respuesta en
frecuencia de uno de los filtros diseñados.
Ventana Kaiser.
El diseño de filtros FIR con la ventan Kaiser se ha hecho muy popular en los recientes
años. Posee una variable que controla el tamaño del lóbulo lateral con respecto al lóbulo
principal. La función de la ventana Kaiser corresponde a:

(2.16)

donde es una variable determinada empíricamente y .

es la función de Bessel modificada del primer tipo, definida como:

(2.17)

la cual converge rápidamente. Se puede obtener un compromiso entre el tamaño del lóbulo
lateral y el ancho del lóbulo principal cambiando el largo de la ventana y el parámetro .
Fig. 2.14. Diseño de un filtro FIR pasabanda utilizando la herramienta SPTOOL de
Matlab.

2.7.- Análisis de resultados.


A continuación se describen los resultados obtenidos en la compresión de archivos de voz
mediante el algoritmo de compresión de voz de sub-bandas de frecuencia.
Para hacer más didáctico el análisis, este se realizará desde el punto de vista gráfico. Con
ello se pretende que el lector también pueda obtener sus propias conclusiones.
El primer gráfico corresponde a la forma de onda en el tiempo de la frase “Diseño de
equipos”. Esta frase fue digitalizada con una tasa de muestreo de 44100 [muestras/segundo]
con un largo de ocho bits por muestra. El eje horizontal del gráfico corresponde a las
muestras de la señal a través del tiempo. El eje vertical corresponde a los niveles
discretizados alcanzados por la señal (entre 0 y 255).
Fig. 2.15. Amplitud en el tiempo de la señal de entrada. Frase “Diseño de equipos”.
A continuación se presenta el gráfico correspondiente a la señal recuperada luego de haber
sido descomprimida por el algoritmo descompresor.

Fig. 2.16. Amplitud en el tiempo de la señal decodificada. Frase “Diseño de equipos”.


Se puede observar que la señal recuperada es una aproximación básica de la señal original,
manteniendo solo los niveles en donde se aprecia una mayor amplitud. Nótese que la señal
recuperada no presenta signos de amplificación o atenuación en los peaks de la señal. Esto
se debe a la nula existencia de etapas amplificadoras en el algoritmo, a exepción de la
supresión de ciertos márgenes de ruido.
A continuación se presenta el gráfico de la distribución espectral de la señal original y sus
niveles de potencia en decibeles. Este gráfico está realizado bajo un análisis espectral de
Haning, con una escala logarítmica, con el fin de resaltar las bajas frecuencias.
Fig. 2.17. Espectro en frecuencia de la señal de entrada. Frase “Diseño de equipos”.
Nótese que la señal original alcanza niveles de potencia uniformes aproximadamente hasta
los 3.8 [kHz]. Luego cae en forma brusca unos 20 [db]. Esto confirma la decisión de
restringir el ancho de banda de la voz humana entre los 300 y los 3400 [Hz], la cual se ha
denominado en este capítulo como “banda de interés”.
En el siguiente gráfico se puede apreciar el análisis en frecuencia de la señal recuperada
por el algoritmo descompresor.

Fig. 2.18. Espectro en frecuencia de la señal decodificada. Frase “Diseño de equipos”.


Se puede apreciar claramente en el gráfico los niveles de potencia de las distintas sub-
bandas en que ha sido dividida la señal original. Junto a ello, se aprecia una tendencia
aproximadamente igual a la señal original en la distribución de las potencias de dichas sub-
bandas. Nótese el gran nivel de potencia que se presenta (al igual que en la señal original)
en las frecuencias cercanas a los 400 [Hz].
A continuación se presenta un gráfico correspondiente a los niveles de energía en función
de la frecuencia de la señal analizada. A este tipo de gráfico se le denomina
“Espectrograma”. El eje horizontal representa las muestras de la señal (también se suele
poner el tiempo en este eje). En el eje vertical se representa la frecuencia de la señal. Los
niveles de energía son representados mediante la degradación de un color. En este caso en
particular, los niveles altos de energía están representados por el color celeste. A medida
que se va disminuyendo los niveles de energía, la intensidad de color aumenta, llegando al
color azul marino para los niveles de energía más bajos de la señal.
El siguiente gráfico corresponde al espectrograma de la señal original.

Fig. 2.19. Espectrograma de energía de la señal de entrada. Frase “Diseño de equipos”.


En este gráfico se puede apreciar claramente que la energía se concentra en la banda de
interés mencionada anteriormente. La consonante que presenta un mayor nivel de energía
es la “S”. Esta letra también posee una alta frecuencia con respecto al tiempo y a su vez una
gran cantidad de componentes espectrales, lo que explica su elevado nivel de energía con
respecto a las otras vocales y consonantes.
El siguiente gráfico corresponde al espectrograma de la señal recuperada por el algoritmo
descompresor.

Fig. 2.20.- Espectrograma de energía de la señal decodificada. Frase “Diseño de equipos”.


En el gráfico se puede apreciar que los niveles de energía dentro de la banda de interés
han sido mantenidos, obteniéndose una aproximación básica de dichos niveles de energía.
Sin embargo, esto no debe confundir al lector y hacerlo pensar que los resultados obtenidos
son una detallada aproximación de la señal original.
Como se mencionó en la introducción de este capítulo, los resultados obtenidos en una
compresión con algoritmos de división de sub-bandas no se alejan demasiado de una
calidad sintética. Es por ello que el análisis de los resultados se concentran en la
verificación de que las componentes espectrales más importantes (de mayor amplitud) sean
reconocidas por el algoritmo compresor y a su vez reconstruidas por el algoritmo
descompresor.

2.8.- Posibles mejoras a la implementación:


Dado que la distribución espectral de las potencias de la señal de voz humana no es
totalmente plana en la banda de los 300 a 3400 [Hz], se puede rediseñar el programa para
que los anchos de banda de los filtros pasabanda no sean todos de una misma magnitud. Es
decir, asignar en forma no lineal (tal como lo es la respuesta en frecuencia de la voz) dichos
anchos de banda. Por ejemplo, se puede tener más cantidad de filtros en las bajas
frecuencias y menos en las altas. Para ello se debe anidar otra iteración en la subrutina de
asignación de frecuencias de corte mínima y máxima de cada filtro. Con ello se espera
obtener una mejor aproximación de la señal original.
En la busqueda de hacer menos sintética la señal recuperada y darle una mayor
“humanidad” a esta última, se propone como futura investigación, las consecuencias que
traería al algoritmo la inclusión de una etapa (determinando algún tipo de información) que
describiese la fase de la señal original en cada ventana de datos. Con esta posible
información de fase, el algoritmo descompresor desfasaría cada señal reconstruida, lo que
hipotéticamente podría generar un mayor acercamiento a la señal original o hacer más
humana dicha señal.
Finalmente, y apuntando al objetivo básico de este trabajo, se propone lograr un mayor
porcentaje de compresión mediante la re-compresión de los datos a través del algoritmo
compresor Huffman. Con ello se podría aumentar aún más los niveles de compresión, con
un determinado factor máximo. Esto se debe a que a diferencia de la señal original, el
vector de datos comprimidos posee una alta entropía, debido a que los datos guardados en
el vector resultado (datos comprimidos) corresponden a niveles de potencia espectral, los
cuales muestran grandes diferencias entre si. Una posible solución a esto sería restringir los
niveles de potencia obtenidos a un cierto rango, pero esto significaría sacrificar calidad de
la señal comprimida por mayor cantidad de compresión. Es por ello que dicha re-
compresión aumentaría solo en cierto porcentaje la compresión final de los datos.

2.9.- Potenciales Aplicaciones.


Dadas las características sintéticas de la señal recuperada por este algoritmo, las
potenciales aplicaciones se reducen sin duda al área de la experimentación y dentro de ella,
a aquellas que exigen un bajo ancho de banda en el caso en que se fuera a utilizar en
aplicaciones de tiempo real, como lo es la transmisión de voz. En estas últimas
aplicaciones, dado que los datos originales y los datos comprimidos deben ser obtenidos y
entregados en forma casi instantánea se debe tener en cuenta la rapidez del procesador con
que se ejecuta el algoritmo, siendo este tiempo uno de los factores críticos al momento de
elegir un método de compresión. Las posibles aplicaciones sugeridas son:
- Como compresor de archivos de voz almacenados como mensaje en una agenda
electrónica.
- Como contestador de mensajes telefónicos extensos que requieran ser comprimidos, en
donde no se necesite una verificación de la persona que habla.
- Como lectora de archivos de texto para personas no videntes y que requieran tener que
escribir textos en computador. Para ello se debe modificar el algoritmo, teniendo en una
base de datos todas las consonantes y vocales pronunciadas para que al ser reconocidos los
caracteres del texto se pueda recrear la palabra en forma audible.
El algoritmo compresor puede ser utilizado en las siguientes aplicaciones de tiempo real:
- Como compresor de datos de voz digitalizada en canales de servicio de los sistemas de
telefonía, ya sea alámbrica o inalámbrica. También se puede utilizar por ejemplo en un
edificio con muchas anexos y/o citófonos, permitiendo conducir por un mismo cable físico
una gran cantidad de conversaciones.
- El compresor de voz se puede utilizar en aplicaciones experimentales de
videoconferencia. Esto debido a que el reconocimiento de la persona que habla se hace a
través de la visualización de ella, permitiendo el uso del algoritmo compresor. Este último
lograría ahorrar ancho de banda, el cual puede ser destinado a lograr una mayor resolución
de la imagen transmitida.
- Por último, el compresor vocoder puede ser utilizado como instrumento musical. La
ganacia de los filtros es controlada por un teclado. A diferencia del Vocoder para
telecomunicaciones, los filtros estan centrados en las frecuencias de la escala musical. A
fines de la decada del 60 y durante los años 70’s el Vocoder musical fue explotado por
muchas bandas de rock progresivo y experimental. Destacan entre ellos las realizaciones de
Walter Carlos (hoy en día Wendy Carlos) con la música de la película “La Naranja
Mecánica”. Otros destacados músicos han utilizado el vocoder musical para darle el sello
electrónico a su música. Actualmente, el vocoder musical esta retomando importancia, ya
que es utilizado por bandas de música electrónica.

Fig. 2.21.- Vocoder musical.

2.10.- Conclusiones del Capítulo.


Luego de haber analizado a fondo el algoritmo compresor propuesto, se puede concluir lo
siguiente:
El factor de compresión del algoritmo bordea generalmente el 20-40% del número de
elementos del archivo original.
La calidad obtenida del archivo recuperado (descomprimido) es solo una aproximación
básica del archivo original, por lo que su calidad de recuperación es baja. Esta calidad está
dentro de las denominadas “calidades sintéticas”.
El algoritmo desarrollado resume una gran cantidad de conceptos básicos utilizados en el
estudio de las señales desde un punto de vista matemático, como lo es el análisis en
frecuencia de un archivo de datos de voz.
A través del algoritmo, se puede estudiar las características de la voz en el plano de la
frecuencia y se puede replantear los primeros estudios hechos en búsqueda de un método
eficiente de compresión de datos, como por ejemplo el “Channel Vocoder” como
aplicación de tiempo real.
Las posibles mejoras al algoritmo apuntan básicamente a disminuir la calidad sintética de
la señal recuperada (descomprimida), siendo esta una de las principales características del
algoritmo. Es decir, existe un compromiso entre la cantidad (porcentaje) de compresión y la
calidad de los archivos recuperados.
Las potenciales aplicaciones se resumen básicamente en aquellas de orden experimental,
debido a las propias restricciones que pone el algoritmo en los archivos recuperados (su
baja calidad y la dificultosa identificación de la persona que habla en dicho archivo
recuperado). Teniendo en cuenta dichas restricciones, las aplicaciones donde se requiere
bajo ancho de banda hacen de este algoritmo uno de los más eficientes dado el alto
porcentaje de compresión que se logra.

Referencias.
[1] Rulph Chassaing “DSP Applications using C and the TMS320C6x DSK”. Editorial
Wiley-Inter Science. 2002
[2] B. P. Lathi, “Digital and Analog Communication Systems”, 2da edición. Rinehart-
Winston 1989.
[3] J. Bellamy, “Digital Telephony”. 2da Edición.Willey Intersc. Publ.1991.
[4] J. W. Bayless, S.J. Campanella and A. Goldberg, “Voice signals, bit by bit.” IEEE
Spectrum , Octubre 1973, pp 28- 34.
[5] N. Jayant, J. Flanagan, M. Schroeder , B. Atal , J. Tribolet, R. Crochiere. “Speech
Coding”, IEEE Transactions on Communications, Abril, 1979 pp 710-733.
[6] C.A. Catalán, “Algoritmos de descarte de silencio en conversaciones telefónicas.”
Memoria presentada como requisito para optar al título de Ingeniero Ejecución
Electrónico. Departamento de Electrónica, Universidad Técnica Federico Santa María.
[7] Naim Dahnoun. Digital Signal Processing Implementation usign TMS320C6000
platform. Prentice Hall. 2000.
[8] John G. Proakis and Dimitris G. Manolakis. "Introduction to Digital Signal
Processing". Macmillan Publishing Company. 1988.
[9] - Vinay K. Ingle and John G. Proakis "Digital Signal Processing using MATLAB".
PWS Publishing Company. 1997.
[10] - Naser Kehtarnavaz. Burc Simsek. C6x Based Digital Signal Processing. Editorial
Prentice Hall. 2000.
[11] - Naser Kehtarnavaz. Mansour Keramat. DSP System Design using TMS320C6000.
Editorial Prentice Hall. 2001.
[12] Ayuda de Matlab. Mathworks.
http://www.mathworks.com/access/helpdesk/help/helpdesk.shtml

Fuente:
http://www.llanos.cl/vocoders/Procesamiento%20de%20la%20Voz_1.htm

También podría gustarte