Está en la página 1de 6

UNIVERSIDAD DE LOS LLANOS

PROYECTO DE ANALISIS DE
SEALES: RECONOCIMIENTO DEL
LLANTO DE UN BEBE
GALVIS CHRISTIAN, GOYENECHE JORGE, GONZALEZ CARLOS
christian.galvis@unillanos.edu.co
jorge.goyeneche@unillanos.edu.co
carlos.gonzalez@unillanos.edu.co
UNIVERSIDAD DE LOS LLANOS

INTRODUCCIN.
EN EL PRESENTE DOCUMENTO SE PUEDE
OBSERVAR PASO A PASO COMO SE FUE
LLEVANDO EL PROYECTO Y EL FIN DE
ESTE, FUE REALIZADO EN EL LENGUAJE
DE
JAVA
UTILIZANDO
EL
ID
DE
NETBEANS,
REALIZANDO
SUS
RESPECTIVAS CLASES MATEMATICAS SIN
EL USO DE LIBRERIAS. LAS PRIMERAS
PRUBEAS SE HICIERON EN EL SOFTWARE
DE MATLAB PARA PODER OBSERVAR EL
NIVEL DE LA ENERGIA PARA IDENTIFICAR
LAS DIFERENCIAS ENTRE CADA LLANTO.
SE TOMARON MUESTRAS DE BEBES DE
FORMA INDIVIDUAL Y CON LA AYUDA DE
UN
MEDICO
PEDIATRA
NOS
PROPORCIONO UNA GRAN VARIEDAD DE
LLANTOS
QUE
AYUDARON
A
LAS
IMPLEMENTACION.

OBJETIVOS
El objetivo es la creacin de una
aplicacin para el reconocimiento de voz
o del llanto de un bebe, y que esta
identifique el porqu del llanto del bebe y
as facilitar a los padres un nuevo
servicio para sus hijo.
I.

MARCO TEORICO

Tratamiento del sonido:


El tratamiento del sonido es un proceso que
utilizando
diversas
tcnicas
posibilita
el

reconocimiento del locutor y el reconocimiento de


vocablos.
Gran parte del procesamiento de seales est
vinculado a aplicaciones tales como deteccin y
estimacin. Deteccin es determinar si un conjunto
especfico de patrones o frecuencias estn presentes
o no en una seal, mientras que estimacin es la
tarea de obtener los valores de parmetros que la
describan.
Adquisicin de la seal de voz :
La voz humana es una seal analgica. Para poder
capturar esta seal se puede utilizar un micrfono,
que es un dispositivo que transforma las seales
acsticas emitidas por un locutor, en seales
elctricas. Estas seales elctricas deben ser
digitalizadas por medio de un conversor A/D
(Anlogo/digital - sigma delta de 16 o 32 bits). Esta
digitalizacin puede tambin ser efectuada por
medio de una grabadora digital.
Digitalizacin del sonido :
La palabra digital implica la presencia de valores
numricos para almacenar un objeto (imagen,
sonido, etc.). Los sistemas de audio digital tienen
circuitos elctricos para guardar el registro de la
msica, en pocas palabras lo que hacen estos
circuitos es grabar una larga cadena de nmeros
(digitalizacin o muestreo) con un dispositivo
llamado conversor anlogo/digital (ADC), que se
encarga de monitorear la evolucin de la onda y
asignarle a cada momento un valor numrico, luego
ese valor numrico es decodificado por un
conversor llamado digital/anlogo (DAC). Las
computadoras cuentan con tarjetas de sonido, las
cuales disponen de los conversores anteriormente
citados.
LABORATORIO DE ANALISIS DE SEALES

UNIVERSIDAD DE LOS LLANOS

Procesamiento de seales es el procesamiento,


amplificacin e interpretacin de seales. Las
seales pueden proceder de diversas fuentes. Hay
varios tipos de procesamiento de seales,
dependiendo de la naturaleza de las mismas.
Frecuencia de muestreo:
La frecuencia de muestreo se refiere al nmero de
mediciones que se hacen por segundo en la seal
analgica del sonido. Cuanto mayor sea el nmero
de muestras mejor es la calidad del sonido.
Si se aumenta la frecuencia de muestreo se pueden
capturar frecuencias ms altas de la onda original,
pero las frecuencias bajas siguen capturndose con
la misma calidad. Pero esto tiene un punto lmite.
Se han hecho estudios y se ha llegado a la
conclusin conocida como Criterio de Nyquist, el
mismo que establece que: el muestreo de una onda
se debe realizar al menos al doble de su frecuencia
mxima. Como el odo humano puede escuchar
aproximadamente hasta los 20.000 Hertzios, la
frecuencia ptima de muestreo ser de 44,1 Khz.,
esta es la frecuencia que se usa en los CD de
msica. Si se baja mucho la frecuencia de muestreo
el sonido se vuelve opaco o poco ntido pues se
pierden las frecuencias agudas.
Tamao de la muestra:
Define el nmero de bits que se necesitan para
grabar las amplitudes de los sonidos. Las tarjetas de
sonido antiguas ofrecan tamaos de 8 bits, mientras
que las actuales tienen un tamao de muestra de 16
bits.
Con 16 bits puede conseguirse un sonido igual al de
los CDs de audio, mientras que con 8 bits slo se
pueden conseguir sonidos similares a los de la radio
por lo que este tipo de tamao de muestra no debe
ser utilizado para sonido con calidad musical.
Extraccin de caractersticas:
Tambin llamado parametrizacin, consiste en
dividir la seal de voz en tramas (ventanas)
tpicamente de 10 a 30 ms donde se puede
considerar al sonido como una onda estacionaria, y
transformar los datos de dichas ventanas en un
vector N- dimensional de caractersticas. El
resultado es una secuencia de vectores que busca
conseguir
una representacin suficientemente
buena del sonido analizado.

Mediante la parametrizacin se consigue reducir la


cantidad de datos a tratar, reduciendo la
complejidad computacional del tratamiento de
sonidos digitalizados y haciendo ms sencillo el
discriminar entre los diferentes vocablos y
locutores.
Tratamiento de la voz en el dominio del tiempo:
Aunque el mayor esfuerzo del tratamiento de la voz
se centre en el anlisis espectral, existen mtodos
para el procesamiento de la voz en el dominio del
tiempo que pueden ser muy tiles. Debido a la
naturaleza cambiante de la voz es conveniente
aplicar el anlisis a porciones de voz, con el fin de
observar la evolucin de los distintos parmetros
calculados. Para eso se utiliza la funcin ventana.
Aplicacin de Ventanas:
La construccin de ventanas, conocida como
ventaneo (del vocablo ingles windowing) o
truncamiento es una operacin en el dominio
temporal, que limita la longitud de la seal a un
nmero de muestras N arbitrario, donde se
considera que la seal es estacionaria
(aproximadamente hasta unos 50 ms en el caso de
seales de sonido), con el fin de reducir el nmero
de clculos necesarios y poder aplicar mtodos
matemticos
utilizables
solo
en
seales
estacionarias. Una seal estacionaria es una seal
cuyas caractersticas estadsticas promedias sobre
tiempo quedan constantes, y puede ser determinista
o no. Este proceso de ventaneo crea
discontinuidades en el dominio del tiempo (o fuga
espectral), que son las responsables de las
contribuciones de otras frecuencias adems de la
frecuencia propia de la seal, ya que se hace
necesario el auxilio de componentes de alta
frecuencia para representar correctamente los saltos
que presenta la extensin peridica de la seal.
Energa y magnitud
Tanto la energa como la magnitud son tiles para
distinguir segmentos sordos y sonoros en la seal de
voz, dado que los valores de ambas caractersticas
aumentan en los sonidos sonoros respecto a los
sordos; es decir, los valores de mayor energa
corresponden con los segmentos voclicos de la
seal, mientras que en las consonantes oclusivas
ocurre lo contrario.
LABORATORIO DE ANALISIS DE SEALES

UNIVERSIDAD DE LOS LLANOS

Las muestras de las seales del llanto del


bebe:

Tratamiento de la voz en el dominio de las


frecuencias
Para realizar un estudio de una seal en el dominio
de las frecuencias se aplican las funciones
matemticas conocidas como las transformadas de
Fourier.
La transformada de Fourier permite representar en
las bases de Fourier (frecuencia) una seal que
originalmente est representada en las bases del
espacio o tiempo.
La potencia del anlisis de Fourier radica en que
permite descomponer una seal compleja en un
conjunto de componentes de frecuencia nica. El
problema es que no indica con precisin el instante
en que se han dado estas frecuencias dentro del
rango temporal de estudio. Por esto para poder
utilizar las transformadas de Fourier con seales de
voz se debe asumir que al menos en perodos cortos
de tiempo se cumple que la seal es estacionaria.
El anlisis de Fourier tiene gran importancia en el
procesamiento de seales sonoras, ya que presenta
analoga con el odo humano, el cual por medio del
caracol, descompone las seales auditivas que le
llegan en sus frecuencias fundamentales, y sta es
la informacin bsica a partir de la cual se elaboran
las seales que le llegan al cerebro.
Se define la trasformada de Fourier como:

Esta seal es por dolor, se muestra los


diferentes picos de energa.

Esta seal
hambre.

muestra

la

energa

por

Los grficos. MFCC de Hambre total grabaciones


y . MFCC de Dolor total grabaciones son el
conjunto de todas las grabaciones eliminando los
puntos sordos o de bajas amplitudes.
Generando estos MFCC totales pudimos hacer un
promedio de cada uno de los coeficientes
obteniendo as los siguientes datos:

LABORATORIO DE ANALISIS DE SEALES

UNIVERSIDAD DE LOS LLANOS

Tabla de Promedios general


100
80
60
Axis Title

Nmeros, y sta debe ser representativa


de la seal, y no perder la informacin
que Contiene.
Potencia:
Es la cantidad de trabajo efectuado por
unidad de tiempo.

40
20
0
-20
-40

La seal digital:
Es un tipo de seal generada por algn
tipo de fenmeno electromagntico en
que cada signo que codifica el contenido
de la misma puede ser analizado en
trmino de algunas magnitudes que
representan valores discretos, en lugar
de valores dentro de un cierto rango. Por
ejemplo, el interruptor de la luz slo
puede tomar dos valores o estados:
abierto o cerrado, o la misma lmpara:
encendida o apagada (vase circuito de
conmutacin). Esto no significa que la
seal fsicamente sea discreta ya que los
campos electromagnticos suelen ser
continuos, sino que en general existe una
forma de discretizarla unvocamente.
Muestreo de seales continas.
Las seales de voz- varan de manera
continua, as como su representacin
como seales elctricas. Sin embargo de
ese modo no pueden ser registradas en
un archivo en un ordenador, ni se puede
hacer
ningn
tratamiento
con
la
informacin que contienen. Para ello
deber tomarse una
Serie de muestras valores de la seal en
un instante de tiempo- en forma de
series de

Energa:
Se define como la
realizar un trabajo.

capacidad

para

Ancho de banda:
Es la longitud, medida en Hz, del rango
de frecuencias en el que se concentra la
mayor parte de la potencia de la seal.
Puede ser calculado a partir de una seal
temporal mediante el anlisis de Fourier.
Tambin
son
llamadas
frecuencias
efectivas las pertenecientes a este
rango.

Frecuencia:
Es una magnitud que mide el nmero de
repeticiones por unidad de tiempo de
cualquier fenmeno o suceso peridico.
Para calcular la frecuencia de un suceso,
se contabilizan un nmero de ocurrencias
de este teniendo en cuenta un intervalo
temporal, luego estas repeticiones se
dividen por el tiempo transcurrido. Segn
el Sistema
Internacional (SI),
la
frecuencia se mide en hercios (Hz), en
honor a Heinrich Rudolf Hertz. Un hercio
es la frecuencia de un suceso o
fenmeno repetido una vez por segundo.
As, un fenmeno con una frecuencia de
dos hercios se repite dos veces por
segundo.
Esta
unidad
se
llam
originariamente ciclo por segundo
(cps). Otras unidades para indicar la
LABORATORIO DE ANALISIS DE SEALES

UNIVERSIDAD DE LOS LLANOS

analizar el llanto de un beb. El llanto no


guarda patrones definidos, y depende de la
causa que lo origina. En este caso, luego de
investigar y probar con algunas de las
caractersticas, las que se utilizaron fueron
los coeficientes MFCC.

frecuencia son revoluciones por minuto


(rpm). Las pulsaciones del corazn y
el tempo musical se miden en pulsos
por minuto (bpm, del ingls beats per
minute).
CONCLUSIONES

A lo largo de este trabajo, se puede observar


como hemos hecho para escoger la mejor
extraccin de caractersticas, y tratamos de
comparar los resultados obtenidos por
mtodos de reduccin contra los que no
tienen reduccin, lo cual no haba mucha
diferencia. Por lo que podemos concluir que
las mejores caractersticas acsticas hasta el
momento son los coeficientes MFCC.

Tambin podemos concluir que para


reconocer tanto la clase de llanto, como al
beb cuyo llanto nunca estuvo en las
muestras de entrenamiento, es mucho mejor
usar un sistema de seleccin de
caractersticas.

tenemos que trabajar en estandarizar el


grabado de las muestras de llanto, desde su
forma de captura del sonido, hasta la
digitalizacin y procesamiento de las
muestras, para esto se debe establecer cual
es la mejor forma de grabar el llanto de los
nios. Tambin es importante decidir si es
mejor segmentar las muestras en segmentos
de n segundos, o si debemos primero extraer
las unidades de llanto para despus
segmentarlas y trabajar explcitamente la
intermitencia de la seal.

La principal dificultad que se encontr


durante el desarrollo del trabajo fue al
seleccionar las caractersticas adecuadas de
la seal de sonido que se deban utilizar, con

A diferencia de este sistema, casi todos los


sistemas que se refieren al estudio del llanto
de bebs encontrados en el Internet no estn
enfocados a la deteccin del llanto, ms bien
su objetivo es hacer un anlisis del llanto
con el fin de determinar la causa que origina
el mismo.

El material de consulta acerca del


tratamiento de voz, result muy escaso en la
biblioteca y en general en el medio. La
informacin que se puede encontrar en el
Internet es muy terica, y no profundiza
mucho en aspectos de detalle del tema o en
su desarrollo matemtico, por lo que la etapa
de investigacin y programacin tom ms
tiempo del planificado
BIBLIOGRAFIA

Tesis de la universidad tecnolgica


equinoccial sistema para deteccin del
llanto de bebes

Tesis del instituto tecnolgico de Apizaco


clasificacin de llanto de bebes para
identificacin de hipoacusia y asfixia por
medio de un sistema hibrido(genticoneuronal)

http://eventos.spc.org.pe/jpc2007/MyRevie
w/FILES/p49.pdf

http://es.wikipedia.org/wiki/MFCC

LABORATORIO DE ANALISIS DE SEALES

UNIVERSIDAD DE LOS LLANOS

http://es.wikipedia.org/wiki/Codificaci
%C3%B3n_predictiva_lineal

148.204.64.201/.../COEFICIENTES
%20MFCC%20(sergio%202).pp

LABORATORIO DE ANALISIS DE SEALES