Está en la página 1de 6

Conferencia internacional IEEE de 2019 sobre señales y sistemas (ICSigSys)

El estudio del análisis del llanto de un bebé utilizando MFCC y LFCC


en diferentes métodos de clasificación
Sita Purnama Dewi Anggunmeka Luhur Prasasti Budhi Irawan
Facultad de Ingeniería Eléctrica Facultad de Ingeniería Eléctrica Facultad de Ingeniería Eléctrica
Universidad Telkom, Bandung Universidad Telkom, Bandung Universidad Telkom, Bandung
Bandung, Indonesia Bandung, Indonesia Bandung, Indonesia
sittadewii@student.telkomuniversity.ac.id anggunmeka@telkomuniversity.ac.id budhiirawan@telkomuniversity.ac.id

Resumen - Hoy en día, existen muchas investigaciones sobre la detección del llanto del bebé el último es el proceso de clasificación. Los métodos populares de extracción de
para muchos propósitos. La interpretación correcta del bebé que llora es notable para el objetivo características para el procesamiento de audio son el Coeficiente Cepstral de
médico, de modo que el cuidador sepa cómo tratar bien al bebé. Los bebés dentro de los primeros Frecuencia Mel (MFCC) y el Coeficiente Cepstral de Frecuencia Lineal (LFCC),
tres meses de edad usan Dustan Baby Language (DBL) para comunicarse. Según algunas que utilizan la frecuencia del sonido. Para el proceso de clasificación, se han
investigaciones, hay cinco palabras para expresar sus necesidades, como "Neh" (tengo hambre), "Eh" utilizado muchos métodos, pero en este estudio, se analizan la clasificación KNN,
(se necesita eructar), "Owh / Oah" (fatiga), "Eair / Eargghh" (calambres ), "Je" (malestar físico;
la cuantificación vectorial (VQ) y la red neuronal simple (SNN) para informar la
sentirse caliente o mojado). Además de ese propósito, la tecnología del hogar inteligente implementa
condición apropiada cuando se usa esta combinación de métodos a partir de la
la detección del llanto del bebé para monitorear al bebé. Varias etapas para detectar el llanto del bebé
extracción de características. a la clasificación.
son el preprocesamiento, la extracción de características y la clasificación. Las extracciones de
características populares para el reconocimiento de voz o sonido son el coeficiente cepstral de
frecuencia Mel (MFCC) y el coeficiente cepstral de frecuencia lineal (LFCC). En este estudio, ambas
extracciones de características se han analizado para conocer la condición apropiada cuando se usa
II. TEORÍA BÁSICA
una de esas extracciones de características. Los métodos de clasificación (clasificación KNN,
cuantificación de vectores y red neuronal simple) afectan la precisión en la detección y el A. Señal de voz
reconocimiento del llanto del bebé. La clasificación KNN con resultados de LFCC es mejor que usar
El proceso de formación de señales del habla que comienza en la laringe
MFCC uno con los datos de muestra es voz femenina. Si usa la voz del bebé, no hay una precisión
(donde se ubican las cuerdas vocales) y termina en la boca. Señales de habla o
diferente significativa en ambas extracciones de funciones. Los métodos de clasificación (clasificación
KNN, cuantificación de vectores y red neuronal simple) afectan la precisión en la detección y el
voz categorizadas en sonoras y sordas. Sordo es una condición en la que el
reconocimiento del llanto del bebé. La clasificación KNN con resultados de LFCC es mejor que usar estado de las cuerdas vocales no vibra. La voz es una condición en la que el
MFCC uno con los datos de muestra es voz femenina. Si usa la voz del bebé, no hay una precisión estado de las cuerdas vocales vibra y produce un pulso de la glotis. El tono se
diferente significativa en ambas extracciones de funciones. Los métodos de clasificación (clasificación conoce como la frecuencia fundamental de la glotis [3]. La voz humana tiene un
KNN, cuantificación de vectores y red neuronal simple) afectan la precisión en la detección y el reconocimiento del llanto
rango del bebé.
de baja La clasificación
frecuencia KNN frecuencia
con una con resultados de LFCC es mejor
fundamental que usarde
alrededor MFCC
220uno
Hzcon los datos de mues
para mujeres y 130 Hz para hombres y para la primera discriminación vocal
Palabras clave— DBL, MFCC, LFCC, KNN, VQ.
formante por debajo de 1000 Hz [4].

YO. INTRODUCCIÓN

La investigación sobre el llanto del bebé consiste en detectar el sonido del llanto
del bebé y reconocer o identificar la necesidad del bebé cuando llora (traducción del
llanto del bebé). La detección del llanto del bebé se implementa en la tecnología del
hogar inteligente para monitorear al bebé fácilmente. Los padres no necesitan
inspeccionar siempre el circuito cerrado de televisión cuando el bebé está en casa
con la niñera, pero pueden recibir una notificación cuando su bebé llora
automáticamente. Para un objetivo médico, es importante saber qué necesita el bebé
de su llanto. Antes de llorar, el bebé intentará comunicarse con un lenguaje
específico que se conoce como Dustan Baby Language (DBL) que tiene algún
significado como “tengo hambre”, “tengo sueño”, entre otros. El lenguaje del bebé se
agrupa en cinco significados que utilizan como lenguaje universal de los bebés. El
(una)
sonido del llanto del bebé contiene mucha información sobre su condición física y
emocional, y también sobre la identidad del bebé. Priscilla Dustan descubrió que los
bebés con los primeros tres meses de edad utilizan protolenguaje para comunicarse,
que son cinco palabras para expresar sus necesidades [1]. Que las cinco palabras
son "Neh" (hambre), "Eh" (necesidad de eructar), "Owh / Oah" (fatiga), "Eair /
Eargghh" (calambres), "Heh" (malestar físico; sentir calor o mojado) . La frecuencia
fundamental en el llanto de un bebé varía entre 250 Hz y 600 Hz [2].

(segundo)
La detección de bebés que lloran por Dunstan Baby Language (DBL) se realiza a través de tres
Higo. 1. (a) Espectograma de sigma de llanto de bebé; (b) Espectograma del habla
etapas principales, la primera es el preprocesamiento para normalizar todos los datos de sonido, la
señal de sonido
segunda es la extracción de características y
La voz adulta y el sonido del llanto de los bebés tienen similitudes y
diferencias, en estudios previos se encontraron

978-1-7281-2177-2 / 19 / $ 31.00 © 2019 IEEE 18


Conferencia internacional IEEE de 2019 sobre señales y sistemas (ICSigSys)

diferencias en el carácter del sonido en el aspecto de la frecuencia fundamental (tono) C. Método de extracción de características

donde la voz de los bebés que lloran es más alta. La voz de los bebés que lloran tiene Después del preprocesamiento, el siguiente paso de los sistemas de
cuerdas vocales cortas y delgadas, por lo que se puede ver en el espectrograma que reconocimiento de voz es la extracción de características. Es un proceso importante
tienen caracteres prolijos [5]. Un sistema de clasificación de señales de voz debería obtener la característica del audio que puede distinguir uno del otro. Las características
poder categorizar diferentes tipos de voz de entrada, especialmente para detectar el de audio se extraen dividiendo la señal de entrada del marco con una longitud de
tipo de voz, ruido o género musical [3]. 10-40 ms y luego se calcula el valor de cada característica [3]. Muchos estudios del
sistema de reconocimiento de voz utilizan la extracción de características MFCC

B. Dunstan Baby Language (DBL) porque se considera similar al concepto de audición humana [6]. Otros estudios
también utilizan LFCC porque tiene similitudes con el concepto de MFCC.
Priscilla Dunstan propuso la idea de identificar el significado de un bebé
que llora llamado Dunstan Baby Language [2], que existen cinco tipos de
sonidos universales de bebés que lloran y sus significados son los siguientes:

"Neh": El sonido de "Neh" proviene de chupar y empujar la lengua en


su boca, lo que significa que el bebé tiene hambre.

"Owh / Oah": El sonido "Owh" sonaría como un hombre que bosteza, lo que (una)

significa que el bebé estaba durmiendo.


"Je": El sonido de "Je" se deriva de la respuesta del bebé al ardor o
picazón, lo que significa que el bebé no estaba cómodo.
(segundo)

"Eairh / Eargghh": El sonido "Eairh" se genera cuando el bebé no eructa lo que


Higo. 3. (a) Banco de filtros lineales; b) Banco de filtros Mel [7]
hace que las burbujas de aire entren en el estómago y no puedan ser liberadas,
esto significa que el bebé está experimentando problemas gástricos. Coeficiente cepstral de frecuencia Mel (MFCC)

MFCC es un método de extracción de características que convierte el sonido en


"Eh": El sonido "Eh" se genera cuando el viento queda atrapado y no sale por el
un vector de señal de voz. Este método proporciona una representación del espectro
pecho lo que provoca que las burbujas de aire salgan por la boca, esto quiere
de potencia a corto plazo de la señal. El concepto de MFCC era similar a la audición
decir que el bebé quiere eructar.
humana, que tiene un ancho de banda crítico del oído humano a una frecuencia por
debajo de 1000Hz. El proceso de MFCC comienza dividiendo la señal de sonido en
forma de un marco con una duración de 10-40 milisegundos de tiempo, este es el
bloqueo del marco. Luego, el bloqueo de cuadros se abre mediante martillado para
eliminar los efectos de alias que se producen debido al encuadre. El proceso de
ventanas donde w es un

ndowing
Wisconsin w función y N es un número de muestras en un marco, la ecuación
(1) es la fórmula para la ventana
proceso = s: 0,54 - 0,46 cos

,0≤n≤N-1 (1)

Los resultados de este proceso de ventanas seguidos por el cálculo de la


Transformación Rápida de Fourier (FFT) que convierte la señal del dominio del
tiempo en el dominio de la frecuencia. Banco de filtros aplicado a la señal con
el dominio de frecuencia para que la señal se convierta en frecuencia Mel por
el
equ METRO
hígado mi o l):norte
2595f registros
(2=

1+ (2)

MFCC utilizando filtro de banco Mel-scale, que es un filtro de paso de banda


logarítmico triangular [8]. Hace que un filtro de mayor frecuencia resulte en mayor ancho
de banda. La etapa final en el proceso MFCC es la Transformación de Coseno Discreta
(DCT) después de que los resultados del proceso anterior se conviertan nuevamente en
el dominio del tiempo, de modo que la señal se pueda presentar bien. Estos resultados
forman una fila de un vector acústico que se denomina Coeficiente Cepstral de
Frecuencia Mel.

Según la literatura anterior, el oído humano tiene características no


lineales en la percepción del tono. La relación entre la frecuencia y la escala de
Higo. 2. Espectograma de la señal de llanto del bebé: a) Neh; b) Je; c) Eh; re) Mel se describe para un caso de frecuencia por encima de 500Hz donde el
Eairh / Eargghh; e) Owh / Oah [1] valor creciente del intervalo es proporcional al aumento en el mismo tono, por
ejemplo, cuatro octavas en una escala Hz sobre dos octavas en el valor de la
escala Mel [ 3]. La relación entre el uso de la escala de Mel y

978-1-7281-2177-2 / 19 / $ 31.00 © 2019 IEEE 19


Conferencia internacional IEEE de 2019 sobre señales y sistemas (ICSigSys)

La escala Hz en una función de mapeo no lineal es útil para analizar señales sísmicas 2. Extracción de características: la extracción de características es una etapa que
donde hay pocas diferencias entre la señal de voz y la señal sísmica. El filtro se utiliza tiene como objetivo convertir las señales de voz mediante el procesamiento de
para el rango de frecuencia 0-22050 Hz en el reconocimiento de voz, pero en el caso señales digitales para que el sistema pueda diferenciar la señal. En esta etapa,
de estudio se tomaron muestras en la banda de señal sísmica por debajo de 500Hz. MFCC y LFCC se utilizan como métodos de extracción de características.
Función de mapeo que se pone por debajo de 1000 Hz relativamente lineal, por lo que
el uso del trabajo MFCC no es lo suficientemente bueno en frecuencias por debajo de
1000 Hz [9].

Coeficientes cepstrales de frecuencia lineal (LFCC)

LFCC es un método de extracción de características que se presentó bien. El


proceso comienza con la división del clip de audio en varios segmentos que constan de
un número fijo de fotogramas. LFCC tiene una característica de proceso de extracción
que es similar a MFCC [10]. LFCC usando un banco de filtros lineal para reemplazar el
banco de filtros Mel. El uso de bancos de filtros lineales se utiliza muy bien en el área de
alta frecuencia.
Higo. 5. Extracción de características de MFCC

D. Método de clasificación La etapa de MFCC se puede ver en la figura 5, LFCC tiene pasos similares a
MFCC, los cuales son diferentes solo en el tipo de banco de llenado utilizado.
Después de obtener el valor de la característica del proceso de extracción de
características, estos valores se calcularán mediante el método de clasificación utilizado.

3. Clasificación: la clasificación en esta etapa es una continuación de las


Cuantización vectorial etapas de extracción de características. La señal de sonido tendrá sus
propias características para que en esta etapa se pueda clasificar la
VQ es un método para mapear una gran cantidad de vectores del espacio al
número de conglomerados definidos por cada centro que se representa como un vector.
señal de sonido.

VQ produce menor distorsión. Donde se abarca la mayor parte del valor del vector de
4. El análisis de datos y el proceso de comparación se realizan después de que se
características y un conjunto de vectores de tamaño pequeño produce un valor que
clasifican las señales de sonido. En esta etapa, se analizan todas las muestras y
coincide con el centroide de distribución [2].
los resultados de la clasificación.

Algoritmo de vecino más cercano K (KNN) IV. RESULTADO Y DISCUSIÓN

KNN es un método que se centra en la clasificación de tipos de datos a El estudio anterior, MFCC es suficientemente bueno en el reconocimiento de
otros datos que tienen su propio vector de etiqueta. Esta clasificación determina voz, pero es suficientemente malo cuando el audio contiene muchos ruidos [10], por lo
el límite de decisión no lineal para aumentar su desempeño. Aquí hay una que necesita un procesamiento previo adecuado para eliminar el ruido. En un
métrica de distancia que se usa a menudo para calcular la distancia de la experimento para clasificar las muestras de nueve hablantes usando el libro de
muestra, la distancia euclidiana. Usando dos muestras xey, distancia euclidiana códigos MFCC y VQ, el proceso para obtener el valor cepstral se calcula usando 12
coeficientes de los nueve sonidos diferentes. La base de datos consta de 21 formas
entre el | sa - mp | le = s wa ∑
s determinar -ined por la fórmula (3):
de señal sonora, 8 de ellas de diferentes usuarios y el resto de los mismos usuarios.
Hay siete voces de mujeres y hombres. La prueba se lleva a cabo en un lugar ruidoso
(3)
da como resultado una alta tasa de falla de MFCC, es decir, un 20% donde la falla
donde n es el número de características que describen x e y [3].
ocurrió en la prueba del sonido. Speakers8-Male detectó como Spekers-9-Female.
Entonces, el uso de LFCC como la adición del método MFCC puede reducir la tasa de

III. DISEÑO Y VISIÓN GENERAL DEL SISTEMA error [11]. La Tabla I muestra el cambio en el valor del error antes y después de
agregar el método LFCC en la extracción de características MFCC de 146 hablantes
El sistema de detección del llanto del bebé se centra en el seguimiento del bebé. El
(73 hombres y 73 mujeres). La primera fila es EER con 10 oraciones comunes, y la
sistema se puede implementar en una casa inteligente para que los cuidadores o los padres
segunda fila es prueba de oraciones únicas.
puedan monitorear a sus hijos. Este sistema se puede explicar en la figura (4):

TABLA I. EER (E CALIDAD mi RROR R ATIO) segundo ANTES Y UNA DESPUÉS LFCC

ANTES DE DESPUÉS
Higo. 4. Descripción general del sistema

MASCULINO HEMBRA MASCULINO HEMBRA


Varias etapas del sistema son las siguientes: 2,63% 7,01% 2,28% 3,48%
2,49% 5,9% 1,96% 3,22%
1. Entrada de voz: La entrada de voz consiste en varios tipos de señales de voz
de los niños que son evidencia digital que se prueba si es el llanto
de un bebé o no. Antes de ingresar a la etapa de extracción, el En una prueba para el caso de una conversación telefónica, se encontró que

sonido se procesa previamente para eliminar las señales del ruido LFCC dio un aumento de EER del 21,5% y del 15,0% en relación con MFCC en el
área de consonantes nasales y no nasales [6]. La comparación de rendimiento
u otros sonidos inesperados.
entre MFCC y LFCC utilizando NIST SRE 2010 muestra que MFCC y LFCC
completan

978-1-7281-2177-2 / 19 / $ 31.00 © 2019 IEEE 20


Conferencia internacional IEEE de 2019 sobre señales y sistemas (ICSigSys)

El uno al otro. LFCC es mejor que MFCC para capturar espectros en regiones de alta B. Analizar usando LFCC
frecuencia, como en la detección de voz femenina, siempre que otros parámetros sean los
Usando el modelo de libro de códigos, LFCC y la distancia euclidiana, donde la
mismos. Esto se debe a que el canal vocal femenino es relativamente más corto y su
señal de voz se extrae usando parámetros de un tono pero no se registra usando una
frecuencia formante es más alta que la del masculino [12].
cuantificación vectorial, arroja una precisión de alrededor del 93% para detectar el llanto
del bebé [2]. Los beneficios de usar este método son:
A. Analizar usando MFCC

MFCC tiene algunas ventajas en la extracción de características que se utilizan para el


- Es fácil identificar a los bebés que lloran y verificar el uso de KNN para

análisis de la clasificación del llanto del bebé [13], como:


clasificar las emociones infantiles.

- Puede identificar el carácter del sonido para que pueda determinar el - Da como resultado una alta precisión si se usa la distancia euclidiana.

patrón de sonido. - Proporciona una mayor precisión en la detección de emociones de un bebé que
llora.
- El vector de salida tiene un tamaño de datos pequeño pero no elimina las
características de ruido en la extracción. - Cortar las señales de voz silenciosas para producir un sonido más específico
resulta en una mayor precisión.
- MFCC funciona de manera similar a la forma en que un oyente humano trabaja
al dar sus percepciones.
- LFCC produce la misma frecuencia que MFCC [16].

La prueba utiliza el método de clasificación KNN con el valor K = 1 cuando se C. Comparación de MFCC y LFCC
compara con la Red Neural Simple con dos capas ocultas, la primera capa tiene
Hay 40 datos que son llantos de bebés y 40 datos que no son llantos de
siete nudos. La precisión del reconocimiento se muestra en la tabla II.
bebés que consisten en ruido, sonidos mudos y risas de bebés como datos de
entrenamiento. luego se probaron los datos para cada uno de los 10 datos en
cada categoría de voz (llanto y no llanto) usando los métodos LFCC y MFCC
TABLA II. UNA CCURACY KNNV S SNN CON MFCC
usando la clasificación KNN con K = 3, los resultados se muestran en la Tabla III.
Método de clasificación
Tipo de llanto
KNN NN
Neh 80,00% 40,00%
TABLA III. UNA CCURACY LFCC VS MFCC CON KNN
Owh 100,00% 80,00%
Eh 66,67% 100,00% Caso de prueba LFCC MFCC
Eairh / Eh 57,14% 42,68% Llorando 90% 80%
Precisión media 75,95% 65,67% No llorar 90% 90%
Precisión media 90% 85%

La Tabla II es el resultado de la extracción de características de MFCC usando un


Se realizaron pruebas de la voz del bebé entre los 0 y los 9 meses de edad
paquete de sintonizador que tiene varios parámetros para los datos de entrada. Los
[17]. Hay adiciones de ruido como ruido de motor, transeúntes y motocicletas. Hay
datos de entrenamiento son el 85% de 4 clases (Eairh / Eh, Heh, Neh y Owh) de llanto de
140 datos de entrenamiento con 5 categorías con 28 muestras cada una. El
bebé; utilizando KNN K = 1; y la desviación estándar normalizada para el número de
pruebas de muestra es 139 audio [14]. Frecuencia de muestreo de grabación = 11205 número de datos de las pruebas es 35 y consta de 7 bebés que lloran por cada tipo

Hz; Espectros totales (n bandas) = 40; Tiempo de ventana = 0,02 a 0,08 segundos; La de llanto. Se realizaron pruebas para analizar el rendimiento de MFCC y LFCC.

distancia entre fotogramas (tiempo de salto) donde si la grabación de voz es inferior a 2 Hay un rendimiento significativo entre ambos métodos, el porcentaje medio de
segundos de lo establecido, el valor es 0,1 segundos, el tiempo de salto reduce la precisión de LFCC es de aproximadamente 91,58% y el porcentaje medio de
duración de la grabación, pero cuando se graba más de 2 segundos, el valor es 1 precisión de MFCC es de aproximadamente 82,14% [15]. La tasa de
segundo de tiempo de salto reducido. la duración de la grabación; Pre-enfatizar = 0,97; reconocimiento (número de palabras reconocibles / número de palabras
Suma de poder = verdadero; Valor exponencial de elevación (lifterexp) = 0,6; Ancho de presentadas) de cada clase de sonido de bebé llorando se muestra en la tabla IV
banda espectral (ancho de banda) = 10; Usecmp = Verdadero; Número de columnas en [18].
el vector de resultado (numcep) = 10 columnas por cada tiempo de salto donde el
número de características producidas en el proceso de extracción es 20 características
de frecuencia. La precisión media del 96,67% se encuentra en el sistema si el parámetro TABLA IV. T ÉL R ECONOCIMIENTO R ATE LFCC VS MFCC
Wintime = 0:08;
Caso de prueba LFCC MFCC
Eairh / Eh 87,22% 85,11%
Eh 88,19% 86,87%
Neh 94,57% 79,89%
Owh 93,33% 80,87%
A diferencia del caso con el uso de cinco tipos de llantos, la presentación de 50
Precisión media 90,83% 83,19%
muestras de datos consta de 40 muestras de datos de entrenamiento y 10 muestras
de datos de prueba para cada clase. La precisión de todo reconocimiento: Neh es
Se puede concluir con base en la Tabla III y la Tabla IV que el porcentaje de uso
60%, Eh es 70%, Owh es 60%, Eairh es 70% y Heh es 70%. Donde la señal se
de LFCC es mejor que MFCC aunque ambos métodos tienen valores de precisión
registró durante 20 segundos en el entorno hospitalario [8]. La precisión promedio
superiores al 80% [17]. Se debe a que el sonido de los bebés que lloran está en la región
general es del 66%.
de alta frecuencia.
El uso de LFCC combinado con el libro de códigos VQ utilizando el cálculo de
MFCC tiene alta precisión usando el parámetro de distancia euclidiana. Este BG con los datos recopilados del sonido de bebés de 0 a 6 meses. 150 voz como
modelo puede producir una precisión de aproximadamente el 94% [15]. Esto sucede datos de entrenamiento que representan cada uno de los 50 gritos de cada
porque la señal corta el sonido de investigación del silencio al principio y al final de la
categoría y datos de prueba hasta 40. LFCC funciona bien en la captura de áreas
señal de voz. La conclusión es que usar el método MFCC tiene valores de alta
de alta frecuencia, por lo que concluyó que LFCC es mejor que MFCC [18]. Sin
precisión cuando se usa KNN.
embargo, ambos métodos se consideran: para ser aplicado en el análisis de las
emociones en el llanto del bebé.

978-1-7281-2177-2 / 19 / $ 31.00 © 2019 IEEE 21


Conferencia internacional IEEE de 2019 sobre señales y sistemas (ICSigSys)

La siguiente ecuación producirá la envoltura de frecuencia cepstral en V. CONCLUSIÓN


C C oeficiente. Donde el valor N es el número de Mel
Los métodos automáticos de detección del llanto para bebés con alta
escala Mel, L es el número de Cepstral en escala Mel
frecuencia fundamental (tono), con cuerdas vocales cortas y delgadas en el
Coe =ffic ∑ ient. cos mk -
sonido del bebé que llora, utilizando la extracción de características LFCC y
E, m = 1,2,…, L (4) el algoritmo k-Nemost Neighbor (KNN) para la clasificación, son más
efectivos que usar MFCC y otras 2 clasificaciones (SNN y VQ). LFCC usa el
El experimento del sonido del llanto del bebé utiliza L o número de cepstral = coeficiente cepstral lineal, mientras que MFCC usa un banco de filtros que
19 resultados figura cepstral de MFCC y LFCC como se muestra en la figura 6 y 7 es un filtro de paso de banda triangular logarítmico. Debido a su
con 19 colores diferentes que representan los 19 cepstrales. característica de banco de filtros, el uso de MFCC no es relativamente lo
suficientemente bueno para la alta frecuencia de voz, como la voz femenina
y la voz de bebé, por lo que se recomienda usar LFCC. LFCC supera a
MFCC cuando se utilizan datos de prueba de voz femenina. Esto se debe a
que el tracto vocal femenino es relativamente corto y la frecuencia formante
obtenida es relativamente alta. Aparte de eso,

El valor de precisión puede ser mayor debido al factor de


preprocesamiento en el que la señal de sonido mudo se corta al principio, el
sonido sordo y el final del sonido, de modo que la función es más valiosa y
precisa. La elección del método MFCC de uso en una condición que está
llena de ruido se considera inadecuada, pero aún tiene un buen rendimiento
si se realiza un preprocesamiento adecuado y la voz está en frecuencia
Higo. 6. MFCC con 19-Cepstral regular. La precisión del valor en el uso de los métodos LFCC y MFCC
depende del número de muestras de prueba utilizadas y del tipo de muestra
que se analiza.

R EFERENCIAS

[1] E. Franti, I. Ispas y M. Dascalu, "Prueba de la hipótesis del lenguaje universal del
bebé: reconocimiento automático del habla infantil con CNN", 2018 41a Int. Conf.
Telecommun. Proceso de señal. Tsp 2018, Páginas. 1-4, 2018.

[2] SS Jagtap, PK Kadbe y PN Arotale, "Sistema propuesto para familiarizarse con la


emoción del llanto del recién nacido utilizando el coeficiente cepstral de frecuencia
lineal", En t. Conf. Electr. Electrón. Optim. Tech. Iceeot 2016, Páginas. 238–242, 2016.

[3] H. Subramanian, "Clasificación de señales de audio", Seminario M. Tech Credit. Reps., Páginas.
1-17, 2004.
Higo. 7.LFCC con 19-Cepstral
[4] RCG Smith y SR Price, "El modelado de la agudeza de localización de sonidos de
baja frecuencia humana demuestra el dominio de la variación espacial de la
La figura 8 es una combinación de las figuras 6 y 7 que representan MFCC con diferencia de tiempo interaccional y sugiere diferencias uniformes apenas
línea naranja y representan LFCC con línea azul. MFCC produce un patrón menos perceptibles en la diferencia de tiempo interaccional", Más uno, Vol. 9, No. 2, 2014.

estable en comparación con el patrón LFCC. Donde el sonido del llanto del bebé en el
[5] G. Gu, X. Shen y P. Xu, "Activos del sistema DSP para detectar el llanto de un bebé", 2018
área de alta frecuencia en el LFCC es mejor que el MFCC como se muestra en la
2nd Ieee Adv. Inf. Manag. Autom. Control Conf.,
siguiente figura. Pero, no es una precisión significativamente diferente en la voz del No. Imcec, pág. 411–415, 2018.
bebé que en la voz del adulto porque la característica de la voz del bebé no es tanto [6] H. Lei y E. Lopez, "Coeficientes cepstrales de frecuencia Mel, lineal y antimel en
regiones fonéticas amplias para el reconocimiento de los altavoces telefónicos", Proc.
como la voz de un adulto.
Annu. Conf. En t. Speech Commun. Assoc. Interspeech, Páginas. 2323–2326, 2009.

[7] N. Sengupta, M. Sahidullah y G. Saha, "Clasificación del sonido pulmonar mediante


características estadísticas de base central", Computación. Biol. Medicina., Vol. 75, pág.
118-129, 2016.
[8] S. Bano y KM Ravikumar, "Decodificando Baby Talk: un enfoque novedoso para la
clasificación de señales de llanto infantil normal", Proc. Ieee Int. Conf. Red de computación
blanda Asegurar. Icsns 2015, Páginas. 24-26,
2015.
[9] G. Jin, B. Ye, Y. Wu y F. Qu, "Clasificación de vehículos basada en firmas
sísmicas utilizando una red neuronal convolucional",
Ieee Geosci. Sensores remotos. Letón., Vol. Pp, Pp. 1-5, 2018.
[10] MJ Alam, P. Kenny y V. Gupta, "Funciones en tándem para la verificación del hablante
dependiente del texto en Reddots Corpus", Proc. Annu. Conf. En t. Speech Commun.
Assoc. Interspeech, Vol. 08-12– septiembre, pág. 420–424, 2016.

[11] AK Singh, R. Singh y Ashutosh Dwivedi, "Evolución e investigación reciente en


representaciones paramétricas de funciones del habla para el reconocimiento
Higo. 8. Resultado final de LFCC y MFCC automático del hablante", En t. J. Electr. Electrón. Comunicación de datos, Vol. 2, No.
1, pág. 11-15, 1389.

978-1-7281-2177-2 / 19 / $ 31.00 © 2019 IEEE 22


Conferencia internacional IEEE de 2019 sobre señales y sistemas (ICSigSys)

[12] X. Zhou, D. García-romero, R. Duraiswami, C. Espy-wilson, S. Shamma y A. identificación mediante el uso de libro de códigos como coincidencia de características y MFCC
Motivation, “Coeficientes cepstrales de frecuencia lineal versus mel para el como extracción de características " J. Theor. Apl. Inf. Technol., vol. 56, no. 3, págs. 437–442, 2013.
reconocimiento del hablante”, págs. 559–564,
2011. [dieciséis] RG Dandage y el Prof. PR Badadapure, "Una encuesta sobre la detección automática
[13] S. Sharma, PR Myakala, R. Nalumachu, SV Gangashetty y del llanto de un bebé usando coeficientes de cepstrum de frecuencia lineal
VK Mittal, "Análisis acústico de la señal de llanto infantil hacia la detección automática Rajeshwari", En t. J. Innov. Res. Computación. Comun. Ing., vol. 153, no. 9, págs.
de la causa del llanto", 2017 Séptimo Int. Conf. Afectar. Computación. Intell. Interactuar. 975–8887, 2017.
Trabajo. Demos, ACIIW 2017, vol. 2018 - Janua, págs. 117-122, 2018. [17] V. VBhagatpatil y PVM Sardar, “Detección automática del llanto de un lactante
utilizando coeficientes de cepstrum de frecuencia lineal (LFCC)”, vol. 5, no. 12,
[14] WS Limantoro, C. Fatichah y UL Yuhana, "Desarrollo de aplicaciones para págs. 1379-1383, 2014.
reconocer el tipo de sonido del llanto infantil", Proc. 2016 Int. Conf. Inf. Comun. [18] RG Dandage y PPR Badadapure, “Detección del llanto de los bebés mediante
Technol. Syst. ICTS 2016, páginas. 157– coeficientes cepstrum de frecuencia lineal”, págs. 5377–5383,
161, 2017. 2017.
[15] M. Dewi Renanti, A. Buono y W. Ananta Kusuma, “Infant llora

978-1-7281-2177-2 / 19 / $ 31.00 © 2019 IEEE 23

También podría gustarte