Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Resumen - Hoy en día, existen muchas investigaciones sobre la detección del llanto del bebé el último es el proceso de clasificación. Los métodos populares de extracción de
para muchos propósitos. La interpretación correcta del bebé que llora es notable para el objetivo características para el procesamiento de audio son el Coeficiente Cepstral de
médico, de modo que el cuidador sepa cómo tratar bien al bebé. Los bebés dentro de los primeros Frecuencia Mel (MFCC) y el Coeficiente Cepstral de Frecuencia Lineal (LFCC),
tres meses de edad usan Dustan Baby Language (DBL) para comunicarse. Según algunas que utilizan la frecuencia del sonido. Para el proceso de clasificación, se han
investigaciones, hay cinco palabras para expresar sus necesidades, como "Neh" (tengo hambre), "Eh" utilizado muchos métodos, pero en este estudio, se analizan la clasificación KNN,
(se necesita eructar), "Owh / Oah" (fatiga), "Eair / Eargghh" (calambres ), "Je" (malestar físico;
la cuantificación vectorial (VQ) y la red neuronal simple (SNN) para informar la
sentirse caliente o mojado). Además de ese propósito, la tecnología del hogar inteligente implementa
condición apropiada cuando se usa esta combinación de métodos a partir de la
la detección del llanto del bebé para monitorear al bebé. Varias etapas para detectar el llanto del bebé
extracción de características. a la clasificación.
son el preprocesamiento, la extracción de características y la clasificación. Las extracciones de
características populares para el reconocimiento de voz o sonido son el coeficiente cepstral de
frecuencia Mel (MFCC) y el coeficiente cepstral de frecuencia lineal (LFCC). En este estudio, ambas
extracciones de características se han analizado para conocer la condición apropiada cuando se usa
II. TEORÍA BÁSICA
una de esas extracciones de características. Los métodos de clasificación (clasificación KNN,
cuantificación de vectores y red neuronal simple) afectan la precisión en la detección y el A. Señal de voz
reconocimiento del llanto del bebé. La clasificación KNN con resultados de LFCC es mejor que usar
El proceso de formación de señales del habla que comienza en la laringe
MFCC uno con los datos de muestra es voz femenina. Si usa la voz del bebé, no hay una precisión
(donde se ubican las cuerdas vocales) y termina en la boca. Señales de habla o
diferente significativa en ambas extracciones de funciones. Los métodos de clasificación (clasificación
KNN, cuantificación de vectores y red neuronal simple) afectan la precisión en la detección y el
voz categorizadas en sonoras y sordas. Sordo es una condición en la que el
reconocimiento del llanto del bebé. La clasificación KNN con resultados de LFCC es mejor que usar estado de las cuerdas vocales no vibra. La voz es una condición en la que el
MFCC uno con los datos de muestra es voz femenina. Si usa la voz del bebé, no hay una precisión estado de las cuerdas vocales vibra y produce un pulso de la glotis. El tono se
diferente significativa en ambas extracciones de funciones. Los métodos de clasificación (clasificación conoce como la frecuencia fundamental de la glotis [3]. La voz humana tiene un
KNN, cuantificación de vectores y red neuronal simple) afectan la precisión en la detección y el reconocimiento del llanto
rango del bebé.
de baja La clasificación
frecuencia KNN frecuencia
con una con resultados de LFCC es mejor
fundamental que usarde
alrededor MFCC
220uno
Hzcon los datos de mues
para mujeres y 130 Hz para hombres y para la primera discriminación vocal
Palabras clave— DBL, MFCC, LFCC, KNN, VQ.
formante por debajo de 1000 Hz [4].
YO. INTRODUCCIÓN
La investigación sobre el llanto del bebé consiste en detectar el sonido del llanto
del bebé y reconocer o identificar la necesidad del bebé cuando llora (traducción del
llanto del bebé). La detección del llanto del bebé se implementa en la tecnología del
hogar inteligente para monitorear al bebé fácilmente. Los padres no necesitan
inspeccionar siempre el circuito cerrado de televisión cuando el bebé está en casa
con la niñera, pero pueden recibir una notificación cuando su bebé llora
automáticamente. Para un objetivo médico, es importante saber qué necesita el bebé
de su llanto. Antes de llorar, el bebé intentará comunicarse con un lenguaje
específico que se conoce como Dustan Baby Language (DBL) que tiene algún
significado como “tengo hambre”, “tengo sueño”, entre otros. El lenguaje del bebé se
agrupa en cinco significados que utilizan como lenguaje universal de los bebés. El
(una)
sonido del llanto del bebé contiene mucha información sobre su condición física y
emocional, y también sobre la identidad del bebé. Priscilla Dustan descubrió que los
bebés con los primeros tres meses de edad utilizan protolenguaje para comunicarse,
que son cinco palabras para expresar sus necesidades [1]. Que las cinco palabras
son "Neh" (hambre), "Eh" (necesidad de eructar), "Owh / Oah" (fatiga), "Eair /
Eargghh" (calambres), "Heh" (malestar físico; sentir calor o mojado) . La frecuencia
fundamental en el llanto de un bebé varía entre 250 Hz y 600 Hz [2].
(segundo)
La detección de bebés que lloran por Dunstan Baby Language (DBL) se realiza a través de tres
Higo. 1. (a) Espectograma de sigma de llanto de bebé; (b) Espectograma del habla
etapas principales, la primera es el preprocesamiento para normalizar todos los datos de sonido, la
señal de sonido
segunda es la extracción de características y
La voz adulta y el sonido del llanto de los bebés tienen similitudes y
diferencias, en estudios previos se encontraron
diferencias en el carácter del sonido en el aspecto de la frecuencia fundamental (tono) C. Método de extracción de características
donde la voz de los bebés que lloran es más alta. La voz de los bebés que lloran tiene Después del preprocesamiento, el siguiente paso de los sistemas de
cuerdas vocales cortas y delgadas, por lo que se puede ver en el espectrograma que reconocimiento de voz es la extracción de características. Es un proceso importante
tienen caracteres prolijos [5]. Un sistema de clasificación de señales de voz debería obtener la característica del audio que puede distinguir uno del otro. Las características
poder categorizar diferentes tipos de voz de entrada, especialmente para detectar el de audio se extraen dividiendo la señal de entrada del marco con una longitud de
tipo de voz, ruido o género musical [3]. 10-40 ms y luego se calcula el valor de cada característica [3]. Muchos estudios del
sistema de reconocimiento de voz utilizan la extracción de características MFCC
B. Dunstan Baby Language (DBL) porque se considera similar al concepto de audición humana [6]. Otros estudios
también utilizan LFCC porque tiene similitudes con el concepto de MFCC.
Priscilla Dunstan propuso la idea de identificar el significado de un bebé
que llora llamado Dunstan Baby Language [2], que existen cinco tipos de
sonidos universales de bebés que lloran y sus significados son los siguientes:
"Owh / Oah": El sonido "Owh" sonaría como un hombre que bosteza, lo que (una)
ndowing
Wisconsin w función y N es un número de muestras en un marco, la ecuación
(1) es la fórmula para la ventana
proceso = s: 0,54 - 0,46 cos
,0≤n≤N-1 (1)
1+ (2)
La escala Hz en una función de mapeo no lineal es útil para analizar señales sísmicas 2. Extracción de características: la extracción de características es una etapa que
donde hay pocas diferencias entre la señal de voz y la señal sísmica. El filtro se utiliza tiene como objetivo convertir las señales de voz mediante el procesamiento de
para el rango de frecuencia 0-22050 Hz en el reconocimiento de voz, pero en el caso señales digitales para que el sistema pueda diferenciar la señal. En esta etapa,
de estudio se tomaron muestras en la banda de señal sísmica por debajo de 500Hz. MFCC y LFCC se utilizan como métodos de extracción de características.
Función de mapeo que se pone por debajo de 1000 Hz relativamente lineal, por lo que
el uso del trabajo MFCC no es lo suficientemente bueno en frecuencias por debajo de
1000 Hz [9].
D. Método de clasificación La etapa de MFCC se puede ver en la figura 5, LFCC tiene pasos similares a
MFCC, los cuales son diferentes solo en el tipo de banco de llenado utilizado.
Después de obtener el valor de la característica del proceso de extracción de
características, estos valores se calcularán mediante el método de clasificación utilizado.
VQ produce menor distorsión. Donde se abarca la mayor parte del valor del vector de
4. El análisis de datos y el proceso de comparación se realizan después de que se
características y un conjunto de vectores de tamaño pequeño produce un valor que
clasifican las señales de sonido. En esta etapa, se analizan todas las muestras y
coincide con el centroide de distribución [2].
los resultados de la clasificación.
KNN es un método que se centra en la clasificación de tipos de datos a El estudio anterior, MFCC es suficientemente bueno en el reconocimiento de
otros datos que tienen su propio vector de etiqueta. Esta clasificación determina voz, pero es suficientemente malo cuando el audio contiene muchos ruidos [10], por lo
el límite de decisión no lineal para aumentar su desempeño. Aquí hay una que necesita un procesamiento previo adecuado para eliminar el ruido. En un
métrica de distancia que se usa a menudo para calcular la distancia de la experimento para clasificar las muestras de nueve hablantes usando el libro de
muestra, la distancia euclidiana. Usando dos muestras xey, distancia euclidiana códigos MFCC y VQ, el proceso para obtener el valor cepstral se calcula usando 12
coeficientes de los nueve sonidos diferentes. La base de datos consta de 21 formas
entre el | sa - mp | le = s wa ∑
s determinar -ined por la fórmula (3):
de señal sonora, 8 de ellas de diferentes usuarios y el resto de los mismos usuarios.
Hay siete voces de mujeres y hombres. La prueba se lleva a cabo en un lugar ruidoso
(3)
da como resultado una alta tasa de falla de MFCC, es decir, un 20% donde la falla
donde n es el número de características que describen x e y [3].
ocurrió en la prueba del sonido. Speakers8-Male detectó como Spekers-9-Female.
Entonces, el uso de LFCC como la adición del método MFCC puede reducir la tasa de
III. DISEÑO Y VISIÓN GENERAL DEL SISTEMA error [11]. La Tabla I muestra el cambio en el valor del error antes y después de
agregar el método LFCC en la extracción de características MFCC de 146 hablantes
El sistema de detección del llanto del bebé se centra en el seguimiento del bebé. El
(73 hombres y 73 mujeres). La primera fila es EER con 10 oraciones comunes, y la
sistema se puede implementar en una casa inteligente para que los cuidadores o los padres
segunda fila es prueba de oraciones únicas.
puedan monitorear a sus hijos. Este sistema se puede explicar en la figura (4):
TABLA I. EER (E CALIDAD mi RROR R ATIO) segundo ANTES Y UNA DESPUÉS LFCC
ANTES DE DESPUÉS
Higo. 4. Descripción general del sistema
sonido se procesa previamente para eliminar las señales del ruido LFCC dio un aumento de EER del 21,5% y del 15,0% en relación con MFCC en el
área de consonantes nasales y no nasales [6]. La comparación de rendimiento
u otros sonidos inesperados.
entre MFCC y LFCC utilizando NIST SRE 2010 muestra que MFCC y LFCC
completan
El uno al otro. LFCC es mejor que MFCC para capturar espectros en regiones de alta B. Analizar usando LFCC
frecuencia, como en la detección de voz femenina, siempre que otros parámetros sean los
Usando el modelo de libro de códigos, LFCC y la distancia euclidiana, donde la
mismos. Esto se debe a que el canal vocal femenino es relativamente más corto y su
señal de voz se extrae usando parámetros de un tono pero no se registra usando una
frecuencia formante es más alta que la del masculino [12].
cuantificación vectorial, arroja una precisión de alrededor del 93% para detectar el llanto
del bebé [2]. Los beneficios de usar este método son:
A. Analizar usando MFCC
- Puede identificar el carácter del sonido para que pueda determinar el - Da como resultado una alta precisión si se usa la distancia euclidiana.
patrón de sonido. - Proporciona una mayor precisión en la detección de emociones de un bebé que
llora.
- El vector de salida tiene un tamaño de datos pequeño pero no elimina las
características de ruido en la extracción. - Cortar las señales de voz silenciosas para producir un sonido más específico
resulta en una mayor precisión.
- MFCC funciona de manera similar a la forma en que un oyente humano trabaja
al dar sus percepciones.
- LFCC produce la misma frecuencia que MFCC [16].
La prueba utiliza el método de clasificación KNN con el valor K = 1 cuando se C. Comparación de MFCC y LFCC
compara con la Red Neural Simple con dos capas ocultas, la primera capa tiene
Hay 40 datos que son llantos de bebés y 40 datos que no son llantos de
siete nudos. La precisión del reconocimiento se muestra en la tabla II.
bebés que consisten en ruido, sonidos mudos y risas de bebés como datos de
entrenamiento. luego se probaron los datos para cada uno de los 10 datos en
cada categoría de voz (llanto y no llanto) usando los métodos LFCC y MFCC
TABLA II. UNA CCURACY KNNV S SNN CON MFCC
usando la clasificación KNN con K = 3, los resultados se muestran en la Tabla III.
Método de clasificación
Tipo de llanto
KNN NN
Neh 80,00% 40,00%
TABLA III. UNA CCURACY LFCC VS MFCC CON KNN
Owh 100,00% 80,00%
Eh 66,67% 100,00% Caso de prueba LFCC MFCC
Eairh / Eh 57,14% 42,68% Llorando 90% 80%
Precisión media 75,95% 65,67% No llorar 90% 90%
Precisión media 90% 85%
Hz; Espectros totales (n bandas) = 40; Tiempo de ventana = 0,02 a 0,08 segundos; La de llanto. Se realizaron pruebas para analizar el rendimiento de MFCC y LFCC.
distancia entre fotogramas (tiempo de salto) donde si la grabación de voz es inferior a 2 Hay un rendimiento significativo entre ambos métodos, el porcentaje medio de
segundos de lo establecido, el valor es 0,1 segundos, el tiempo de salto reduce la precisión de LFCC es de aproximadamente 91,58% y el porcentaje medio de
duración de la grabación, pero cuando se graba más de 2 segundos, el valor es 1 precisión de MFCC es de aproximadamente 82,14% [15]. La tasa de
segundo de tiempo de salto reducido. la duración de la grabación; Pre-enfatizar = 0,97; reconocimiento (número de palabras reconocibles / número de palabras
Suma de poder = verdadero; Valor exponencial de elevación (lifterexp) = 0,6; Ancho de presentadas) de cada clase de sonido de bebé llorando se muestra en la tabla IV
banda espectral (ancho de banda) = 10; Usecmp = Verdadero; Número de columnas en [18].
el vector de resultado (numcep) = 10 columnas por cada tiempo de salto donde el
número de características producidas en el proceso de extracción es 20 características
de frecuencia. La precisión media del 96,67% se encuentra en el sistema si el parámetro TABLA IV. T ÉL R ECONOCIMIENTO R ATE LFCC VS MFCC
Wintime = 0:08;
Caso de prueba LFCC MFCC
Eairh / Eh 87,22% 85,11%
Eh 88,19% 86,87%
Neh 94,57% 79,89%
Owh 93,33% 80,87%
A diferencia del caso con el uso de cinco tipos de llantos, la presentación de 50
Precisión media 90,83% 83,19%
muestras de datos consta de 40 muestras de datos de entrenamiento y 10 muestras
de datos de prueba para cada clase. La precisión de todo reconocimiento: Neh es
Se puede concluir con base en la Tabla III y la Tabla IV que el porcentaje de uso
60%, Eh es 70%, Owh es 60%, Eairh es 70% y Heh es 70%. Donde la señal se
de LFCC es mejor que MFCC aunque ambos métodos tienen valores de precisión
registró durante 20 segundos en el entorno hospitalario [8]. La precisión promedio
superiores al 80% [17]. Se debe a que el sonido de los bebés que lloran está en la región
general es del 66%.
de alta frecuencia.
El uso de LFCC combinado con el libro de códigos VQ utilizando el cálculo de
MFCC tiene alta precisión usando el parámetro de distancia euclidiana. Este BG con los datos recopilados del sonido de bebés de 0 a 6 meses. 150 voz como
modelo puede producir una precisión de aproximadamente el 94% [15]. Esto sucede datos de entrenamiento que representan cada uno de los 50 gritos de cada
porque la señal corta el sonido de investigación del silencio al principio y al final de la
categoría y datos de prueba hasta 40. LFCC funciona bien en la captura de áreas
señal de voz. La conclusión es que usar el método MFCC tiene valores de alta
de alta frecuencia, por lo que concluyó que LFCC es mejor que MFCC [18]. Sin
precisión cuando se usa KNN.
embargo, ambos métodos se consideran: para ser aplicado en el análisis de las
emociones en el llanto del bebé.
R EFERENCIAS
[1] E. Franti, I. Ispas y M. Dascalu, "Prueba de la hipótesis del lenguaje universal del
bebé: reconocimiento automático del habla infantil con CNN", 2018 41a Int. Conf.
Telecommun. Proceso de señal. Tsp 2018, Páginas. 1-4, 2018.
[3] H. Subramanian, "Clasificación de señales de audio", Seminario M. Tech Credit. Reps., Páginas.
1-17, 2004.
Higo. 7.LFCC con 19-Cepstral
[4] RCG Smith y SR Price, "El modelado de la agudeza de localización de sonidos de
baja frecuencia humana demuestra el dominio de la variación espacial de la
La figura 8 es una combinación de las figuras 6 y 7 que representan MFCC con diferencia de tiempo interaccional y sugiere diferencias uniformes apenas
línea naranja y representan LFCC con línea azul. MFCC produce un patrón menos perceptibles en la diferencia de tiempo interaccional", Más uno, Vol. 9, No. 2, 2014.
estable en comparación con el patrón LFCC. Donde el sonido del llanto del bebé en el
[5] G. Gu, X. Shen y P. Xu, "Activos del sistema DSP para detectar el llanto de un bebé", 2018
área de alta frecuencia en el LFCC es mejor que el MFCC como se muestra en la
2nd Ieee Adv. Inf. Manag. Autom. Control Conf.,
siguiente figura. Pero, no es una precisión significativamente diferente en la voz del No. Imcec, pág. 411–415, 2018.
bebé que en la voz del adulto porque la característica de la voz del bebé no es tanto [6] H. Lei y E. Lopez, "Coeficientes cepstrales de frecuencia Mel, lineal y antimel en
regiones fonéticas amplias para el reconocimiento de los altavoces telefónicos", Proc.
como la voz de un adulto.
Annu. Conf. En t. Speech Commun. Assoc. Interspeech, Páginas. 2323–2326, 2009.
[12] X. Zhou, D. García-romero, R. Duraiswami, C. Espy-wilson, S. Shamma y A. identificación mediante el uso de libro de códigos como coincidencia de características y MFCC
Motivation, “Coeficientes cepstrales de frecuencia lineal versus mel para el como extracción de características " J. Theor. Apl. Inf. Technol., vol. 56, no. 3, págs. 437–442, 2013.
reconocimiento del hablante”, págs. 559–564,
2011. [dieciséis] RG Dandage y el Prof. PR Badadapure, "Una encuesta sobre la detección automática
[13] S. Sharma, PR Myakala, R. Nalumachu, SV Gangashetty y del llanto de un bebé usando coeficientes de cepstrum de frecuencia lineal
VK Mittal, "Análisis acústico de la señal de llanto infantil hacia la detección automática Rajeshwari", En t. J. Innov. Res. Computación. Comun. Ing., vol. 153, no. 9, págs.
de la causa del llanto", 2017 Séptimo Int. Conf. Afectar. Computación. Intell. Interactuar. 975–8887, 2017.
Trabajo. Demos, ACIIW 2017, vol. 2018 - Janua, págs. 117-122, 2018. [17] V. VBhagatpatil y PVM Sardar, “Detección automática del llanto de un lactante
utilizando coeficientes de cepstrum de frecuencia lineal (LFCC)”, vol. 5, no. 12,
[14] WS Limantoro, C. Fatichah y UL Yuhana, "Desarrollo de aplicaciones para págs. 1379-1383, 2014.
reconocer el tipo de sonido del llanto infantil", Proc. 2016 Int. Conf. Inf. Comun. [18] RG Dandage y PPR Badadapure, “Detección del llanto de los bebés mediante
Technol. Syst. ICTS 2016, páginas. 157– coeficientes cepstrum de frecuencia lineal”, págs. 5377–5383,
161, 2017. 2017.
[15] M. Dewi Renanti, A. Buono y W. Ananta Kusuma, “Infant llora