Está en la página 1de 5

SISTEMA ACSTICO PTICO DE SUSTITUCIN SENSORIAL

Sergio Hernndez, Jonay Toledo, Jess Torres, Silvia Alayn, Roberto Marichal, Vanessa Muoz
{sergio, jonay, jesus, silvia, marichal, vanessa}@cyc.ull.es

Grupo de Computadoras y Control
Departamento de Fsica Fundamental y Experimental Electrnica y Sistemas
Universidad de La Laguna (Tenerife).


Resumen

Este artculo presenta un sistema de sustitucin
sensorial diseado para ayudar a personas con
problemas severos de audicin. El equipo, que
bsicamente consta de unas gafas con micrfonos y
un visor especial, recoge la informacin acstica del
ambiente y la transforma en una representacin
visual que es mostrada al usuario mediante el visor
montado en unas gafas especiales. Todo el proceso
se realiza en tiempo real.
Las gafas usadas por la persona sorda poseen una
ptica semitransparente que permite tener visin del
entorno y de la informacin que el sistema
suministra de manera simultanea. La informacin
suministrada apenas ocupa un espacio significativo
en el campo de visin del usuario. En la montura de
las gafas, y en un mismo plano horizontal, se colocan
los diminutos micrfonos encargados de adquirir la
seal acstica que el usuario por su minusvala no
percibe.
La seal captada por los micrfonos pasa a un
subsistema encargado de captar los parmetros ms
significativos de dichas seales, es decir, aquellos
parmetros que aportan una informacin ms til al
usuario. Estos parmetros son la localizacin
espacial de cada fuente, la potencia sonora y su
composicin espectral. Dicha informacin acstica
se transforma posteriormente en informacin visual.
El equipo est siendo probado por cinco usuarios
sordos de los que actualmente se estn recopilando
sus sugerencias de cara a hacer ms til el sistema.

Palabras Clave: Sordera, gafas, sustitucin
sensorial.


1 INTRODUCCIN

La sordera es un tipo de deficiencia sensorial que
impide la percepcin de los sonidos. Esta deficiencia
dificulta la relacin del sordo con el ambiente.

Una de las principales dificultades que la sordera
acarrea es la imposibilidad de localizar fuentes
sonoras, lo cual incrementa considerablemente el
riesgo de accidentes. As por ejemplo una persona
sorda movindose en la va pblica no puede detectar
muchos de los riesgos potenciales (como coches y
autobuses) que se aproximen por detrs. Los sordos
por tanto no pueden recibir ninguna seal acstica de
alarma o aviso como timbres de puertas, telfonos,
gritos, sirenas, etc.

La solucin a la sordera depende de la capacidad
residual que queda en el odo. Si hay un residuo
mnimo una solucin muy empleada es el audfono.
En otro caso hay que recurrir a soluciones ms
drsticas como el implante coclear, que conlleva una
operacin quirrgica compleja.

La solucin propuesta en este documento es un
dispositivo acstico-ptico-electrnico encargado de
transformar la informacin acstica del entorno y
transformar dicha informacin en informacin visual
que se representa en tiempo real. Con ello el sordo
percibe la informacin sonora por la vista. Es por
tanto un sistema de sustitucin sensorial entre el
sentido del odo y el de la vista.
2 DESCRIPCIN DEL SISTEMA

El equipo tiene dos componentes principales. En
primer lugar unas gafas con micrfonos
omnidireccionales y un pequeo visor incorporado en
una de las lentes. Los micrfonos se colocan en un
mismo plano horizontal alrededor de la cabeza para
adquirir las seales acsticas presentes en cada
momento. Como muestra la Figura 1, el visor que se
encuentra en las gafas recoge seales grficas en
formato VGA o video compuesto, y las proyecta de
tal forma que el usuario observa una imagen flotante
semitransparente que se encuentra entorno a un metro
de distancia de las gafas. La imagen generada
equivale a tener un monitor enfrente todo el tiempo;
visible sea cual sea el sitio al que se vaya.

La ptica semitransparente del display insertado en
las gafas permite al usuario ver toda la informacin
que el sistema muestra sin apenas afectar a la visin
normal. Esta tecnologa ha sido desarrollada entre
otros por [1].

El dispositivo cuenta con un ordenador encargado de
procesar las seales acsticas captadas por los
micrfonos y transformar dicha informacin en
sencillas imgenes que indiquen lo ms relevante de
lo que sucede en el espacio acstico.

Actualmente se ha desarrollado un prototipo porttil
alimentado por bateras (Figura 2) que se comunica
mediante un sistema de radio con el ordenador
central (arquitectura Intel x86) equipado con una
tarjeta de sonido estndar para la captura de las
fuentes sonoras. Existen dos conexiones via radio
entre el ordenador y las gafas. La primera permite
establecer una comunicacin entre los micrfonos
instalados en las gafas y la tarjeta de sonido, as el
ordenador recibe el sonido a procesar desde el
prototipo. La segunda entre la salida grfica del
ordenador y el sistema de visualizacin (gafas) del
prototipo, permitiendo mostrar el sonido procesado y
convertido en forma visual en el dispositivo. Ambas
conexiones se realizan mediante enlaces de radio, por
lo que el rango actual de accin esta limitado a unos
cientos de metros. Por otro lado, el usar ordenadores
personales acelera el desarrollo y la prueba de los
diferentes prototipos que se hagan del sistema,
facilitando la experimentacin de los usuarios en su
propio hogar. Se necesitan tan slo unos minutos
para preparar todo el sistema en un lugar
determinado.

El software tiene dos funciones principales. Una es la
localizacin espacial de los sonidos captados, el
anlisis de la potencia sonora y el clculo de las
componentes espectrales de las fuentes sonoras. La
otra es generar las imgenes en las que se muestra el
resultado de estos clculos.

2.1 SUBSISTEMA DE PROCESADO DE
SEAL

La principal tarea del subsistema de procesado de
seal es localizar las fuentes de sonido, reconstruir
dichas fuentes originales y cuantificar los volmenes
de cada fuente en las diferentes bandas de
frecuencias. Este subsistema toma los sonidos
mezclados desde los micrfonos montados en las
gafas y debe separar las fuentes ms importantes.

2.1.1 Mtodo de separacin y localizacin

El dispositivo puede usar dos o tres micrfonos. Si
usamos dos micrfonos el dispositivo slo puede
calcular el azimut de la fuente del sonido entre 90 y
90 grados, es decir no distingue si el sonido procede
de delante o detrs. Con ms micrfonos el
dispositivo puede calcular el azimut de la fuente del
sonido en todo el rango del espacio. La Figura 3
muestra la posicin de los tres micrfonos y el rango
espacial completo.

El mtodo de separacin del sonido empleado por el
subsistema de procesamiento de seal aparece en [4].
El mtodo asume que las seales son ortogonales W-
disjuntas. Esto aplicado a la localizacin y
reconstruccin de fuentes supone que hecha una
particin en tiempo y frecuencia de las mezclas
captadas (una por micrfono), en cada particin slo
hay presente como mucho un nica fuente sonora.

Esta suposicin nos permite recuperar las fuentes de
sonido original, y estimar la localizacin espacial de

mic. 0
mic. 1
mic. 2
0-deg.
-90-deg.
90-deg.
azimuth

Figura 3: Tres micrfonos sobre la regin azimutal.


Figura 1: MicroOptical EG-7 QVGA.

Figura 2: Prototipo desarrollado

cada una de ellas. La tcnica es vlida incluso en el
caso en el que el nmero de fuentes sea mayor que el
nmero de micrfonos.

Como se describe en [4], se puede escribir el modelo
para la i-sima y la j-sima seal mezclada como,

(
(
(

=
(


) , (
) , (
1 1
) , (
) , (
1
1
1
t S
t S
e a e a t X
t X
N
N
i
N
i
j
i


M
L
L
(1)

donde ) , ( t X
i
es la transformada de Fourier de la
mezcla ) (t x
i
y ) , ( t S
i
es la transformada de Fourier
de la fuente de sonido ) (t s
i
, en los intervalos de
tiempo entre t y t . La amplitud
k
a y el desfase
k
son los parmetros de mezcla de la fuente k-
sima en la seal mezclada ) (t x
j
.

Como ya se mencion en este apartado, para un
conjunto W-disjunto ortogonal de fuentes como
mucho una de las N fuentes ser distinta de cero
para un ) , ( t quedando, as que:

) , (
1
) , (
) , (
t S
e a t X
t X
k
k
i
k j
i

=
(

(2)

Despejando, los parmetros de la mezcla pueden ser
obtenidos como:

|
|
.
|

\
|
|
|
.
|

\
|
|
|
.
|

\
|
=




/
) , (
) , (
log Im ,
) , (
) , (
) , (
j
i
i
j
X
X
X
X
a (3)

El subsistema de procesado de seal puede usar (3)
para estimar los parmetros de amplitud y desfase a
partir de un nmero determinado de puntos ) , ( t
extrados de cada par de mezclas. Dado que a cada
punto del espacio tiempo-frecuencia le pueden
corresponder uno o ms puntos en el espacio
azimutal el mtodo calcula uno o ms valores
candidatos del azimut para cada punto ) , ( t . El
subsistema necesita utilizar algunas restricciones
bsicas entre los puntos de tiempo-frecuencia para
determinar las localizaciones vlidas.

El subsistema de procesado de seal hace un
histograma de los ngulos de desfase para cada banda
entre cada par de mezclas. Donde el histograma
alcanza un mximo se encuentra un desfase
posiblemente asociado con el azimut de alguna de las
fuentes sonoras.

2.1.2 Mejoras en el rechazo al Eco

El eco y las reverberaciones dificultan enormemente
la localizacin de las fuentes sonoras, es por ello que
el subsistema de procesado de seal tiene una versin
mejorada de [4] para conseguir un mejor rechazo al
eco. Esta mejora esta basada en el modelo del efecto
de la precedencia [2].

El efecto de precedencia permite al sistema auditivo
humano detectar el principio de un sonido e ignorar
la siguiente porcin de cara a la localizacin de las
fuentes sonoras. Es la adaptacin del sistema auditivo
a entornos con reverberacin.

El modelo de precedencia asume que las reflexiones
de un sonido impulsivo se retrasan un cierto tiempo,
tiempo antes de llegar a los odos (micrfonos en el
sistema descrito). Dicho retardo depende de la
distancia de la fuente de sonido a las paredes,
comparado con el sonido directo de la fuente. El
modelo de precedencia tambin asume que la
amplitud de las reflexiones se ir reduciendo
exponencialmente a lo largo del tiempo. El modelo
estima los ecos como la mxima potencia de un
sonido anterior por el patrn de amplitud de una
respuesta al impulso estndar, sin tener en cuenta el
tipo de sonido y la clase de entorno.

Utilizando el decaimiento exponencial como la tpica
respuesta al impulso, el algoritmo de estimacin de
eco puede ser implementado como se muestra en la
Figura 4, donde
s
t es el intervalo de muestra y,

s
t
e d

= (4)

En la Figura 4, el factor de atenuacin k , el tiempo
de retraso
0
t y el factor de cada deben ser
elegidos para coincidir con los casos ms generales
en un entorno estndar.

El subsistema de procesado de la seal mezcla la
amplitud de todos canales de entrada y estima el eco
para dicha mezcla. En cada punto ) , ( t calcula una
relacin entre la amplitud de la mezcla y el eco
estimado. Esta relacin es usada para pesar los

k
s
t t
Z
0

1
Z
d
max
) , ( t S ) , ( t E

Figura 4: Esquema del algoritmo de estimacin del eco.

ngulos candidatos de los puntos ) , ( t del
histograma.

En la Figura 5, se observa un diagrama de bloques
del sistema de localizacin con las mejoras de
rechazo de eco.

2.1.3 Mtodo en tiempo real

El subsistema de procesado de seal usa una versin
en tiempo real de [4]. El algoritmo usado est
presentado en [3]. Se trata de un mtodo de descenso
de gradiente basado en la mxima probabilidad para
seguir los parmetros de la mezcla de a y a partir de
la realizacin de un primer clculo. El objetivo es
aumentar la velocidad de procesamiento para poder
realizar los clculos en tiempo real. Como se acaba
de mencionar en primer lugar se utiliza el algoritmo
general para calcular por primera vez los parmetros
de la mezcla a y , el resultado es usado como punto
de partida sobre el que se calculan las variaciones de
los parmetros con el tiempo. As siguiendo la
ecuacin (4) que minimiza la funcin de costo (5), se
aplica el algoritmo en tiempo real durante un espacio
de tiempo predeterminado (en el que se supone que
no hay nuevas fuentes sonoras). Pasado un cierto
intervalo de tiempo se vuelve a aplicar el algoritmo
general para as volver a localizar el nuevo nmero
de fuentes a separar adaptndose el sistema a las
nuevas condiciones. La estrategia propuesta permite
un compromiso entre la velocidad del algoritmo en
tiempo real y la adaptacin a la variacin del nmero
de fuentes en el algoritmo general.

| | | | | |
( )
| | | | | |
( )
j
k
j j j
j
k
j j j

J
k k k
a
J
k k a k a

=
1
1
(4)

( )
|
.
|

\
|
=

+ +
w
e p
a a
N
p
N N
e J

...
,...,
1
1 1
ln
1
min (5)

2.2 SUBSISTEMA GRFICO

El subsistema de localizacin proporciona al
subsistema grfico la posicin espacial y el anlisis
en frecuencia de las fuentes sonoras previamente
localizadas. Esta informacin es utilizada por el
dispositivo para obtener una representacin visual del
sonido o sonidos presentes en cada instante. El
dispositivo cuenta con diferentes formas de
representacin, cada una de las cuales se ajusta a los
diferentes entornos en los que pueda encontrarse el
usuario: en la va pblica, en el hogar.... En algunos
casos dichas representaciones se pueden combinar
para ajustarse mejor a las necesidades de los
usuarios.

La forma de representacin elegida (Figura 6) parte
de la suposicin de que en la pantalla situada en las
gafas se representa el entorno en que se mueve el
usuario. Las fuentes sonoras se representan como
imgenes grficas y el ngulo con que se representan
con respecto al centro indica el ngulo azimut de
procedencia del sonido. La forma elegida para la
representacin de las fuentes sonoras son campanas
de Gauss. Esta funcin matemtica nos permite
indicar con facilidad el ngulo de procedencia ya que
se asemeja a una flecha indicando la direccin de la
fuente sonora, adems permite ocultar el menor
espacio visual al usuario del sistema. La potencia del
sonido se corresponde con el tamao de la Gaussiana,
cuanta ms amplitud tenga el sonido, mayor ser el
rea de la Gaussiana y ser ms llamativa para el
usuario. Las componentes en frecuencias de las
fuentes sonoras se representan mediante bandas de
colores que dividen la Gaussiana. As los colores
fros en la base de la Gaussiana representan las
frecuencias bajas (graves) y los clidos en la parte
superior, representan frecuencias ms agudas.
Adems la ordenacin de estas bandas es siempre la
misma, con lo que se puede ver en tiempo real la
localizacin de una fuente sonora y sus cambios en
frecuencia. Esta forma de representar el entorno
grfico permite las dos necesidades buscadas: por un
lado la sencillez de entendimiento, ya que la forma
de representar los sonidos es bastante intuitiva y
fcilmente entendible por el usuario, por otro una
riqueza de informacin que puede ser muy til tras el
necesario periodo de aprendizaje del usuario.

En el ejemplo de la Figura 6 se representa una
situacin normal en una vivienda. Se puede
comprobar que hay distintas fuentes sonoras
emitiendo simultneamente, cada una con
componentes espectrales distintas y con posiciones

FFT
FFT
FFT
Mezcla
Estimacin del
eco
Estimacin
de los
parmetros
mezclados
Integracin
M
i
c
r
o
s

peso

Figura 5: Mtodo de localizacin con mejoras en
el rechazo al eco.

de origen diferentes (las Gaussianas tienen colores,
posiciones y tamaos distintos). El usuario puede
comprobar fcilmente cual es el origen de cada una
de las fuentes sonoras. Esta es una captura en un
instante dado, los parmetros irn cambiando a lo
largo del tiempo.

Las representaciones pueden ser combinadas con
elementos ms complejos. El sistema puede detectar
la presencia de fuentes de sonido "criticas", como
sirenas o timbres, e informar a travs de un sistema
de alerta. Para detectar fuentes potenciales de peligro
se basa en la bsqueda de sonidos de potencia
elevada y frecuencias concretas que suelen coincidir
con circunstancias peligrosas en el entorno del
usuario.

El sistema no slo genera una representacin visual
del sonido. Es posible tambin combinarlo con otros
sistema de estimulacin tctil. De esta forma parte de
la informacin obtenida ser asimilada por el usuario
a travs del sentido del tacto.

3 PRUEBAS

El dispositivo esta siendo probado con un conjunto
de cinco sujetos sordos. La principal tarea es la de
evaluar la efectividad del interfaz grfico. Como esta
es una tarea muy subjetiva, se deben tener en cuenta
muchos aspectos: el interfaz debe permitir un efecto
de llamada de atencin e integrarse correctamente
con la visin del usuario y la cantidad de informacin
presentada debe ser controlada para ser constructiva
sin caer en la saturacin. La experiencia con los
usuarios ser utilizada para resolver estos problemas,
siendo las respuestas a las primeras pruebas bastante
prometedoras
4 CONCLUSIONES

Se ha presentado un dispositivo de substitucin
sensorial. El dispositivo tiene dos componentes
principales, unas gafas con micrfonos que captan el
sonidos del entorno y un visor que muestra la
informacin del sonido mediante imgenes intuitivas
por otro lado un ordenador de sobremesa se encarga
del procesamiento de las seales acsticas y
generacin grfica. Ordenador y gafas se comunican
por un doble enlace radio lo cual permite actualmente
la utilizacin del sistema en ambientes como el
hogar, la oficina.... En una versin posterior se
pretende fabricar una versin del dispositivo
completamente porttil de tal forma que tambin
pueda ser utilizado en cualquier entorno.

El sistema esta siendo probado por un conjunto de
usuarios para evaluar su efectividad y ajustar su
eficiencia.

Agradecimientos

Al Ministerio de Ciencia y Tecnologa por su
financiacin para el desarrollo de este proyecto a
travs del Programa de Fomento de la Investigacin
Tcnica, incluido en el Plan Nacional de
Investigacin Cientfica, Desarrollo e Innovacin
Tecnolgica.
Referencias
[1] The MicroOptical Corporation
http://www.microopticalcorp.com/

[2] Jie Huang, Noboru Ohnishi and Noboru Sugie,
Modeling the precedence effect for sound localization
in reverberant environment in Proceedings. IEEE
Instrum. Meas. Technol. Conf. (IMTC'96), pp.633-
636, (Brussels, June 1996).

[3] Scott Rickard, Radu Balan and Justinian Rosca. Real-
time time-frecuency based blind source separation in
Proceedings of ICA2001 Conference (San Diego CA,
December 2001).

[4] Alexander Jourjine, Scott Rickard and zgr Yilmaz
in Proceedings of the 2000 IEEE Conference on
Acoustics, Speech, and Signal Processing
(ICASSP2000), Volume 5, Pages 2985-2988 (Istanbul,
Turkey, June 2000).

Figura 6: Entorno grfico que recibe el usuario

También podría gustarte