Dewi2019 .Id - Es

Conferencia internacional IEEE 2019 sobre Internet de las cosas y sistema de inteligencia (IoTaIS)
Análisis de la extracción de características LFCC en bebés

Clasificación de llanto usando KNN
Sita Purnama Dewi Anggunmeka Luhur Prasasti Budhi Irawan

Facultad de Ingeniería Eléctrica Facultad de Ingeniería Eléctrica Facultad de Ingeniería Eléctrica
Universidad Telkom, Bandung Universidad Telkom, Bandung Universidad Telkom, Bandung
Bandung, Indonesia Bandung, Indonesia Bandung, Indonesia
sittadewii@student.telkomuniversity.ac.id anggunmeka@telkomuniversity.ac.id budhiirawan@telkomuniversity.ac.id
Resumen - El llanto es una forma de comunicación para que los niños expresen sus potencial porque está soportado por frecuencias cepstrales lineales en comparación con el
sentimientos. El llanto del bebé se puede caracterizar según su tono periódico natural y el coeficiente cepstral de frecuencia de Mel (MFCC) [9]. Sobre la base de estos
cambio de voz. Tiene una frecuencia base (tono) en el rango de 250 Hz a 600 Hz. A través de antecedentes, el uso de LFCC como método de extracción de características debe
la detección del llanto de su bebé, los padres pueden monitorear a su bebé de forma remota configurarse correctamente para que se analicen todos los números en el coeficiente de
solo en condiciones importantes. Este estudio de reconocimiento de sonido tiene dos procesos pre-énfasis, los números de banco de filtros y los números de centrales. Así como el uso
principales, el primer proceso es la extracción de características y el segundo proceso es la
de K-NN para clasificar si el bebé está llorando o no para que se pueda aplicar como
clasificación o determinación del patrón de sonido. En el método de Coeficiente Cepstral de
solución para que los padres controlen a sus hijos de forma remota solo en determinadas
Frecuencia Lineal (LFCC), se realiza el análisis de cambios en el pre-énfasis, números de
condiciones.
banco de filtros y números de cepstral. La selección del valor del banco de filtros que se aplicó
debe ser mayor que el valor tradicional que se aplicó. Los valores cepstrales se ajustan para
obtener una mayor precisión. El porcentaje más alto de precisión es del 90% cuando este
II. R EXALTADO W ORK
sistema usa 8 como valor cepstral y 3 como valor vecino más cercano, y todas las reglas se
consideran el mejor valor según los resultados de la prueba. El uso de LFCC como método de • (Detección automática del llanto infantil utilizando coeficientes cepstrales de
extracción de características y la clasificación K-Vecino más cercano (K-NN) se puede frecuencia lineal (LFCC), 2014) El análisis de rendimiento de la tasa de
implementar para detectar si el bebé está llorando o no, de modo que se pueda aplicar como reconocimiento promedio usando LFCC en la detección del llanto de bebés es de
una solución para que los padres monitoreen a sus hijos de forma remota solo en ciertas aproximadamente 91.58% y luego, cuando se usa MFCC, el rendimiento de la
condiciones .
tasa de reconocimiento promedio es de 78.8%. en el otro escenario, el
rendimiento promedio de la precisión de clasificación usando el clasificador FFNN
es de aproximadamente 91.02% cuando se usa LFCC y
Palabras clave— Reconocimiento de voz, procesamiento de audio, llanto de bebé, LFCC, KNN 85,76% cuando se utiliza MFCC. En este escenario, si el número de
muestras de entrenamiento es alto, el rendimiento final de la
clasificación es pequeño [9].
Yo NTRODUCCIÓN • (Prueba de la hipótesis del lenguaje universal para bebés:
El desarrollo de los niños hasta los cinco años es la base de desarrollos reconocimiento automático del habla infantil con CNN,
posteriores donde en esta fase el desarrollo del lenguaje, emocional, inteligencia 2018) El reconocimiento de voz y la clasificación KNN se han utilizado en sistemas
y creatividad ocurre rápidamente [1], por lo que necesitan ser monitoreados por de detección de llanto de bebés en los que se ha demostrado que el uso de LFCC
sus padres. La violencia contra los niños se produce en la edad de 0 a 18 años es más adecuado que el MFCC con una precisión de hasta el 90% y el 79% hasta
donde la tasa más alta se presenta en niños menores de 2 años, según los datos el nivel de reconocimiento de cinco clases (lenguaje de bebés Dunstan). [10]
del 55% los perpetradores de violencia contra los niños son familiares y
cuidadores [2]. Una de las muchas tecnologías que actualmente pueden manejar • (El estudio del análisis del llanto de un bebé utilizando MFCC y LFCC en
el problema de la supervisión de las actividades de la sala es la televisión de diferentes métodos de clasificación, 2019.)
circuito cerrado (CCTV), pero aún es necesario desarrollar un sistema de
La detección del sonido del bebé que llora mediante la extracción de
vigilancia que se refiera a los niños.
características LFCC y el algoritmo k-Nemost Neighbor (KNN) para la
clasificación es más eficaz que usar MFCC con clasificaciones SNN y VQ.
LFCC supera a MFCC cuando se utilizan datos de prueba de voz femenina.
El llanto es una forma de comunicación para que los niños expresen sus Esto se debe a que el tracto vocal femenino es relativamente corto y la
sentimientos. El llanto del bebé se puede caracterizar según su tono periódico frecuencia formante obtenida es relativamente alta. Además de eso, el uso
natural y el cambio de voz. Tiene una frecuencia base (tono) en el rango de 250 Hz a de extracción de características LFCC como una adición al método MFCC
600 Hz [3]. Este estudio de reconocimiento de sonido tiene dos procesos principales, puede ayudar a reducir la tasa de error en MFCC [11].
el primer proceso es la extracción de características y el segundo proceso es la
clasificación o determinación del patrón de sonido [4] [5] [6] [7]. La extracción de
características LFCC tiene pasos similares al Coeficiente Cepstral de Frecuencia Mel
(MFCC). Sin embargo, LFCC es diferente de MFCC al usar un banco de filtros de III. segundo ASIC T HEORY
frecuencia lineal en lugar del banco de filtros de frecuencia Mel en MFCC [8].
A. Señal de sonido del bebé
Investigaciones anteriores concluyen que el uso del algoritmo de coeficiente cepstral
de frecuencia lineal (LFCC) también tiene una alta eficiencia. Se escuchará sonido si el tímpano detecta variaciones de vibración,
donde el sistema auditivo humano es sensible al sonido con un rango de
frecuencias de 20 Hz a 20 kHz con el
978-1-7281-2516-9 / 19 / $ 31.00 © 2019 IEEE 86
Uso con licencia autorizado limitado a: Universidad de Wollongong. Descargado el 31 de mayo de 2020 a las 09:09:30 UTC de IEEE Xplore. Se aplican restricciones.
las intensidades de sonido oscilan entre 120 dB [12]. Existe una diferencia conocido como marco. En este proceso, la señal de sonido se divide en cuadros de
fisiológica entre las estructuras de sonido entre el sonido de un bebé que llora y la N muestras y cuadros adyacentes separados por
voz de los adultos en el rango de frecuencia. El sonido de los bebés que lloran es M. Donde el valor M es menor que el N. La longitud de la trama determinará la tasa
de 400 Hz a 500 Hz, mientras que la voz de los adultos entre 200 Hz y 300 Hz, se de éxito del análisis espectral. Este proceso se lleva a cabo de forma continua hasta
debe a que las cuerdas vocales del bebé son más cortas y delgadas en que todas las señales se procesan con éxito. Se produce una superposición para
comparación con los adultos [13]. evitar la pérdida de características de sonido en la intersección de cada cuadro.
Ventanas
Este proceso se utiliza para reducir la aparición de efectos de solapamiento

después de que la señal se procesa en el proceso de encuadre. El aliasing es una
nueva señal cuya frecuencia es diferente de la frecuencia de la señal original debido a
la baja frecuencia de muestreo que hace que la señal se interrumpa. En esta etapa, la
señal del bloqueo de la trama es mi
y XOye.
t0 4hw
donde la ecuación de la función de ventana está escrita en (2).
(una) (segundo)
Higo. 1. (a) espectograma de llanto de un bebé; (b) espectograma de voz adulta [11]
w ult = p y l 0 es4decir. 5 d =- 6 a.m
segundo (3)
co metro s ing windowval (u 2 mi),
B. Coeficiente cepstral de frecuencia lineal (LFCC)
norte
los 0 val norte ue o norte F - 1 es y el número de muestras en cada cuadro
El método LFCC generalmente se usa para extraer funciones de
dónde , es el valor muestral del resultado de
reconocimiento de voz. El resultado del método LFCC es un vector de señal de
señal de ventana, X es el valor de muestra de la señal n-frame y w es la
sonido. El uso de un banco de filtros de frecuencia lineal se considera bueno
función de ventana con la ecuación (3).
para detectar sonidos de alta frecuencia. Los ejemplos de sonidos con alta
frecuencia son bebés llorando y voces de mujeres [14]. LFCC produce una
frecuencia de habla más alta. El método LFCC tiene la fuerza equilibrada con
MFCC.
Las siguientes son las etapas del proceso de extracción de características de

LFCC que se pueden ver en la Figura 2.
Higo. 3. Ventanas
Transformada rápida de Fourier (FFT)
Este proceso se utiliza para convertir la frecuencia de cada cuadro hasta

N-muestras del dominio del tiempo al dominio de la frecuencia después de que
en este proceso cada cuadro se analizará sus propiedades espectrales o
espectrograma en función de la señal ingresada. En este proceso, la señal de
frecuencia de los resultados de la ventana se procesará utilizando la ecuación
(4), donde el valor X es el número de frecuencias k en la señal, k es la
frecuencia de audio antes de FFT, X es la señal
en el n-ésimo momento y N es la cantidad de tiempo en la muestra (. 4)
πkn, donde 0 n
x= X e - 2N N-1
Higo. 2. Proceso LFCC
Banco de filtros
Pre-énfasis
Este proceso se lleva a cabo para producir un buen espectro de magnitudes
Este proceso es un proceso en el que el espectro mantiene una alta frecuencia
y reducir el tamaño de la característica asociada.
al ingresar al proceso de producción de sonido.
valores. Este proceso se realiza aplicando un banco de filtros para determinar el
La ecuación en y th = eP X re-E
tamaño de una energía de frecuencia de banda particular. Estudios previos en los que
ecuación (1) donde y es una señal de preacentuación, X es una señal antes del
el uso de bancos de filtros con valores
pre-énfasis y el valor de α es el porcentaje de muestras de la muestra anterior,
12, 22, 32 y 42 obtuvieron los resultados de mayor precisión fue del 85% en 32
donde 0,9 α 1.0.
filtros [15]. La similitud entre MFCC y LFCC se puede ver en la diferencia en el
- metro α phasis X el proceso está escrito en (1) cálculo de la distancia desde el banco de filtros al MFCC, después del proceso
Bloqueo de cuadros de bloque FFT, el coeficiente de potencia se filtra al paso de banda del banco
llamado escala Mel. La escala de frecuencia Mel es un rango
Este proceso es un proceso donde la segmentación de señales de
frecuencia con un rango de 20-30 milisegundos es
978-1-7281-2516-9 / 19 / $ 31.00 © 2019 IEEE 87
de frecuencias lineales por debajo de 1 kHz y distancias logarítmicas por encima de 1 El flujo del sistema se explica a continuación:
kHz. LFCC tiene bancos de filtros adicionales en la sección de alta frecuencia para que
el MFCC sea menos potente en ruido blanco que LFCC. LFCC se utiliza para eliminar 1) Entrada de voz
el ruido. Ingrese la duración de la grabación de sonido de cuatro segundos con el formato de
sonido .wav usando un micrófono USB y almacenado temporalmente en la Raspberry Pi,
Transformada discreta de coseno (DCT)
con especificaciones de entrada de voz sobre la codificación usando Python de la
Este es el último proceso de la serie de procesos LFCC en el que este proceso siguiente manera:
se utiliza para convertir Magnitude Spectrum en un dominio similar al tiempo para

TROZO = 1024
que pueda estar bien representado. El resultado es un Cepstrum C deficiente de
FORMATO = pyaudio.paInt32
frecuencia lineal en forma de una fila de vectores acústicos que tiene la ecuación CANALES = 1
(5). Donde el valor de N es la suma de la energía logarítmica, L es la suma del TARIFA = 44100
coeficiente cepstral de escala lineal. En estudios anteriores, RECORD_SECONDS = 5
El resultado de la grabación de sonido es un sonido con una duración de 4

el uso de cep C Valores de Stral de 13 y 26 cepstral con una precisión de
segundos, con 1024 bytes de datos leídos del búfer, tiene un formato de 32
% en th co mi s noseo π norte pst mi ra,6]
k F26- 12 ce
metro l m1.,
[ 1 2,…,
= L (5)
bits por muestra y usa un canal mono que vale 1.
83,3 =
2) Extracción de características (LFCC)
Después de grabado y guardado, en el que un sonido grabado producirá
Levantamiento Cepstral
499 cuadros por sonido con una señal de 882 por cuadro, el sonido se extraerá
El levantamiento cepstral se utiliza para suavizar los resultados de todo el proceso. utilizando el método LFCC que produce un valor de matriz característico que se
Este proceso se implementa en los resultados de DCT en forma de características almacena en un archivo con el formato. csv. El resultado de este proceso es el
centrales mediante el uso de la ventana valor característico del sonido con los 19 valores cepstrales establecidos, se
función en la ecuación (6) w donde L es el número de coeficientes cepstrales muestra en la tabla 1.
fc 2
L ep
yn es el inde = x 1 o + si s norte tra π L l norte coeficientes.(6)
TABLA I. R ESULTADO DE LFCC
C. K-Vecino más cercano (KNN) Cepstral Valor Cepstral Valor
El vecino más cercano K (KNN) es un método de clasificación que se utiliza a 1 49.3353109 11 0,645401931
menudo para datos de audio [17]. El funcionamiento de este algoritmo es que los datos
2 1.71674902 12 0,645401931
de prueba se clasifican en una determinada clase en función del número de vecinos más
cercanos utilizando el cálculo de la distancia euclidiana. Al calcular, la distancia entre los 3 0.178338105 13 - 0.333752943
datos de prueba y todos los conjuntos de datos con sus etiquetas de clase se almacena 4 0.164296924 14 - 0.0928623375
en el vector y luego se ordena por la distancia más corta. Los datos de prueba
5 0.0350120616 15 - 0.216943061
ingresarán a ciertas clases según el mayor número de etiquetas del valor k especificado
[18]. La distancia euclidiana entre dos registros (o dos puntos en el espacio 6 - 0,493883704 dieciséis 0,300099716
n-dimensional) con el 7 0,297367858 17 0.00885368697
8 - 0.532704698 18 - 0.341785550
ecuación = en (7) donde y son dos registros con n
atributos. De modo que la ecuación (7) mide la distancia entre 9 0,282707012 19 0.399306423
dos patrones (s nam

10 0.0290244868 - -
, y ( X - = X (), ... ) Los siguientes son algunos de los escenarios utilizados para analizar LFCC como método de
( ely, …) a = nd) ∑. (7) extracción de características:
Escenario 1: Proceso de preacentuación

IV. S SISTEMA re ESIGN & O VER
Un sonido grabado produce 499 fotogramas por sonido con una señal de 882
El diseño general del sistema es el diseño de un sistema de monitoreo en bebés
por fotograma. Después de pasar por el proceso del banco de filtros, produce
mediante la detección del llanto del bebé para que los padres puedan realizar un
24 valores por cuadro y después del proceso DCT, produce un valor
monitoreo remoto. En este diseño, el método utilizado es LFCC como proceso de
característico de 19. El escenario de prueba de este sistema está cambiando
extracción de características y luego utiliza KNN para el proceso de clasificación. El
el valor del coeficiente del pre-énfasis. En el proceso de extracción de
resultado de este proceso es si el sonido se declara como llanto o no.
características, el primer escenario usa α = 0.93, el segundo escenario usa α
= 0.95, el tercer escenario usa α = 0.97 y el cuarto escenario es sin usar
pre-énfasis.
Escenario 2: Proceso de banco de filtros
Una voz grabada produce 499 cuadros por sonido con 882 datos de señal
por cuadro. Después de pasar por el proceso DCT, produce un valor
Higo. 4. Descripción general del sistema
característico de 19. La prueba
978-1-7281-2516-9 / 19 / $ 31.00 © 2019 IEEE 88
El escenario está llevando a cabo cambiando el valor del banco de filtros. En el proceso 4) Análisis y comparación de datos
de extracción de características, el primer escenario usa 12 como valor del banco de
Este sistema clasifica el sonido entre si el bebé está llorando o no. El análisis
filtros, el segundo escenario usa 24 como valor del banco de filtros, el tercer escenario usa
se realizó sobre el proceso de preacentuación, el proceso del banco de filtros y el
32 como valor del banco de filtros y el cuarto escenario usa 42 como valor del banco de
proceso DCT para dar como resultado la clasificación de los sonidos del llanto del
filtros.
bebé mediante el método KNN.
Escenario 3: Proceso DCT
Un sonido grabado produce 499 cuadros por voz y 882 señales de datos por V. R ESULT Y re ISCUSIÓN
un cuadro. Después de pasar por el proceso de filtrado, produce 32 bancos de
El estudio anterior, el uso de LFCC como extracción de características y
filtros. Este escenario de prueba se realiza cambiando el valor cepstral. En el
distancias euclidianas para la clasificación, obtiene una alta precisión. El modelo
proceso de extracción de características, el primer escenario usa 8 como valor
puede producir un valor de verdad para la clasificación del llanto infantil superior al
cepstral, el segundo escenario usa 10 como valor cepstral, el tercer escenario
93%, que en ese estudio elimina los tonos silenciosos al principio y al final de la señal
usa 16 como valor cepstral, el cuarto escenario usa 32 como valor cepstral y el
del habla [19]. En este sistema, se realizaron varias pruebas en el sistema de
quinto escenario usa 42 como valor cepstral .
detección del llanto de un niño diseñado utilizando el método LFCC y la clasificación
KNN. El método LFCC se ha probado comparando los valores de preacentuación, los
valores del banco de filtros, los valores centrales y los valores de K en la clasificación
KNN. Se muestra en los siguientes resultados:
3) Clasificación (KNN)
El proceso de clasificación es el siguiente paso después de la etapa de extracción

de características para detectar el llanto del bebé. En la figura 5 se muestra un
proceso de clasificación KNN, donde cada señal sonora tiene características para que Escenario 1: Proceso de preacentuación
en esta etapa se clasifique la señal sonora.
Los diferentes valores de pre-énfasis dan como resultado señales de diferente
magnitud después del proceso enfatizado, cuanto más alto es el valor del
coeficiente del pre-énfasis que más agudo es el sonido a alta frecuencia. La
diferencia de señal de magnitud entre usar el proceso de preacentuación y sin el
proceso de preacentuación se muestra en la figura 6. Esta diferente magnitud no
da impacto a la clasificación del sonido. Obtienen la misma precisión, aunque hay
diferentes valores de preacentuación en LFCC, como se muestra en la figura 7.
Higo. 5. Proceso KNN
El siguiente es el escenario para analizar el mejor desempeño del valor K en KNN a

través de LFCC como método de extracción de características:
Higo. 6. Magnitud de la señal usando diferentes valores de pre-énfasis
Escenario 4: Valor K en el proceso KNN.
escenario 1
Un sonido grabado produce 499 fotogramas por sonido con 882 datos de señal 100
86,67 86,67 86,67 86,67
por fotograma. Después de pasar por el proceso de filtrado, produce un valor de 80
32 para el banco de filtros y después del proceso DCT produce un valor

Exactitud (%)
60
característico de 8. El escenario de prueba de este sistema se realiza 40
cambiando el valor de K en el proceso de clasificación. En el proceso de 20
clasificación, el primer escenario usa 1 como valor K, el segundo escenario usa 0
3 como valor K, el tercer escenario usa 5 como valor K, el cuarto escenario usa a = 0,93 a = 0,95 a = 0,97 sin Pre-
énfasis
7 como valor K y el quinto escenario usa 9 como valor K. La comparación de los
Higo. 7. Resultado de la prueba con un valor de preacentuación diferente
datos del tren y los datos de prueba es 90:30.
978-1-7281-2516-9 / 19 / $ 31.00 © 2019 IEEE 89
Escenario 2: Proceso de banco de filtros La aplicación de valores de k superiores a 14 reduce la precisión al 66,66% y se hace
más pequeña, por lo que se puede concluir que los valores de k mayores pueden llevar a
El resultado de la comparación del valor del banco de filtros con la precisión de
una precisión de clasificación menor. Se muestra en la figura 11. La calidad de los datos
la clasificación de sonido se muestra en la figura 8. La precisión más alta es 86.67%
de entrenamiento puede afectar la precisión de la detección. En este sistema, los datos de
usando 24, 32 y 42 como el valor del banco de filtros, mientras que la precisión más baja
entrenamiento y de prueba son relativamente claros frente a cualquier tipo de ruido.
es 76.67% por utilizando 12 como valor del banco de filtros. La precisión se reduce
cuando el valor cepstral es mayor que el valor del banco de filtros, ya que podemos ver
que el valor cepstral aplicado es 19 y el valor del banco de filtros aplicado es 12.
Mientras que al usar el valor del banco de filtros mayor que el valor cepstral se produce
mejor exactitud. De modo que en este estudio, llegamos a la conclusión de que el valor
100 86,67 90
del banco de filtros no tiene un impacto significativo en la precisión de la clasificación. 83,33 86,67 83,33 83,33
80 83,33
Exactitud (%)
60 66,66
63,33 63,33
40
20
Escenario 2 1 3 5 7 9 11 13 15
90 86,67 86,67 86,67 valor de k 17
19
85
Exactitud (%)
80 76,67
75 Higo. 11. Gráfico de prueba del valor K
70
nfiltro = 12 nfiltro = 24 nfiltro = 32 nfiltro = 42
Basados en cuatro escenarios de prueba que se han realizado, muestran que
el uso de pre-énfasis en el método LFCC no da un impacto significativo al proceso
Higo. 8. Resultado de la prueba con un valor de banco de filtros diferente
de clasificación, pero recomendamos usar el pre-énfasis para evitar datos sólidos
con baja calidad. La selección del valor del banco de filtros aplicado debe ser mayor
Escenario 3: Proceso DCT
que el valor cepstral aplicado y los valores cepstrales se ajustan para obtener el
El resultado de la comparación de los valores cepstrales con la mejor desempeño en la detección del llanto del bebé. La precisión más alta es del
precisión de la clasificación del sonido se muestra en la figura 9. La precisión 90% utilizando el valor cepstral de 8 con el valor de vecino más cercano de 3, donde
más alta es del 90% usando un valor cepstral de 8. Cuando este sistema usa todos los parámetros se establecen en las mejores condiciones según los
32 y 64 como valor cepstral, la precisión baja a 76.67 %, A mayor valor resultados de la prueba.
central, menor precisión obtenida en este sistema.
VI. C ONCLUSIÓN
Escenario 3
100
El uso de LFCC como método de extracción de características y K- Vecino más
90
90
86,67
cercano (K-NN) como método de clasificación puede detectar si el bebé está
Exactitud (%)
83,33
76,67 76,67 llorando o no. Por lo tanto, se puede aplicar como una solución para que los padres
80
controlen a sus hijos de forma remota solo en ciertas condiciones. Las pruebas
70
nceps = 8 nceps = 10 nceps = 16 nceps = 32 nceps = 64 sobre el valor de preacentuación, el valor del banco de filtros, el valor central y el
valor K en K-NN tienen diferentes escenarios de cálculo. El uso de coeficientes en el
Higo. 9. Resultado de la prueba utilizando un valor cepstral diferente en el proceso DCT pre-énfasis no tiene un impacto significativo para mejorar la precisión en el proceso
de clasificación, pero afecta la calidad de los resultados de extracción de
Escenario 4: Valor K en el proceso KNN características. La elección del valor del banco de filtros y el valor central puede
afectar la precisión del proceso de clasificación, aunque no sea significativo. El uso
El resultado de la comparación del valor K con el proceso de clasificación de sonido
del valor K afectará la precisión durante el proceso de clasificación y también lo hará
se muestra en la figura 10. La mayor precisión obtenida es del 90% cuando se usa el
la calidad de los datos de prueba.
valor K es 3. Más información La precisión mínima obtenida es 83.33% cuando se usa el
valor K es 5 o 9. Esta prueba de precisión puede verse influenciada por la calidad de los
datos de entrenamiento y los datos de prueba. Para este sistema, podemos concluir que
A partir de este estudio, podemos concluir que los mejores resultados en el
la mayor precisión es usar el valor de k = 3 para los datos de entrenamiento y los datos
escenario de prueba son: El número del valor del banco de filtros debe ser mayor que el
de prueba.
valor cepstral y los valores cepstrales se ajustan para obtener el mejor rendimiento en la
detección del llanto del bebé. La precisión más alta es del 90% utilizando el valor
cepstral de 8 con el valor de vecino más cercano de 3, donde todos los parámetros se
Escenario 4 establecen en las mejores condiciones según los resultados de la prueba.
95
90
90 86,67 86,67
Exactitud (%)
85
83,33 83,33 Podemos concluir que el uso del método LFCC se puede implementar en el
sistema de detección del llanto del bebé. El sonido para los datos de entrenamiento y los
80
datos de prueba debe estar limpio de ruido para obtener la mejor precisión, por lo que
75
K=1 K=3 K=5 K=7 K=9 producirá buenos valores característicos. Este estudio de análisis aún no es suficiente
para superar el ruido del llanto del bebé. Tiene que agregar alguna normalización
Higo. 10. Resultado de la prueba usando un valor de K diferente en KNN
978-1-7281-2516-9 / 19 / $ 31.00 © 2019 IEEE 90
proceso y el proceso de preprocesamiento para reducir el ruido antes del proceso 1379-1383, 2014.
central. [10] E. Franti, I. Ispas y M. Dascalu, "Prueba de la hipótesis del
lenguaje universal del bebé: reconocimiento automático del habla
VII. F UTURE W ORK
infantil con CNN", 2018 41a Int. Conf. Telecommun. Proceso de
señal. TSP 2018,
La clasificación del llanto del bebé se puede realizar utilizando diversos datos de
páginas. 1-4, 2018.
bebés de diferentes etnias, un rango de edad más amplio, varios sonidos similares a los
[11] Dewi, SP, Prasasti, AL e Irawan, B. (2019). El estudio del análisis
sonidos de los bebés, etc. Las pruebas adicionales deben realizarse en un lugar ruidoso y
del llanto de un bebé utilizando MFCC y LFCC en diferentes
no ruidoso. Se pueden utilizar muchos otros métodos de extracción de características y
métodos de clasificación. La Conferencia Internacional IEEE sobre
métodos de clasificación para comparar su rendimiento.
señales y sistemas de 2019 (ICSigSys) ( páginas. 19-24). Bandung:
IEEE.
[12] RM Aarts, "Dispositivo de procesamiento de señales de audio", J. Acoust.
R EFERENCIAS Soc. A.m., vol. 120, no. 6, pág. 3445, 2006.

[13] GL -, YH -, LY - y MN -, "Análisis del tono del llanto infantil", En t.
[1] F. Melva, “| Monitoreo del desarrollo del niño pequeño ”, págs. 116-129, J. dígitos. Content Technol. su aplicación, vol. 7, no. 6, págs.
2007. 1072–1079, 2013.
[2] NE Green, "Child Abuse Child Abuse", Ciencia (80-.)., 2003. [14] X. Zhou, D. García-romero, R. Duraiswami, C. Espy-Wilson, S.
Shamma y A. Motivation, “Coeficientes cepstrales de frecuencia
[3] R. Cohen, "Análisis y detección del llanto infantil", lineal versus mel para el reconocimiento del hablante”, págs.
2012, págs. 2-6. 559–564, 2011.
[4] S. Sharma, PR Myakala, R. Nalumachu, SV Gangashetty y VK [15] EC Djamal, N. Nurhamidah y R. Ilyas, "Reconocimiento de palabras
Mittal, "Análisis acústico de la señal de llanto infantil hacia la habladas usando mfcc y cuantificación de vectores de aprendizaje", En
detección automática de la causa del llanto", 2017 Séptimo Int. Conf. t. Conf. Electr. Ing. Computación. Sci. Informática, vol. 4, no. Septiembre,
Afectar. Computación. Intell. Interactuar. Trabajo. Demos, ACIIW págs. 250-255,
2017, vol. 2018 - Janua, págs. 117-122, 2018. 2017.
[dieciséis] PK Sari, K. Priandana y A. Buono, "Comparación de sistemas de
[5] WS Limantoro, C. Fatichah y UL Yuhana, “Desarrollo de cálculo de aplausos con métodos basados en frecuencia y
aplicaciones para reconocer el tipo de sonido del llanto de un métodos basados en amplitud Comparación de sistemas de
bebé”, 2016, págs. 157-161. cálculo de aplausos que utilizan el método basado en frecuencia y
[6] RP Balandong, ANÁLISIS ACÚSTICO DE BABY CRY, No. Mayo. el método basado en amplitud", J. Ciencias de la Computación.
2013. Agriinformática, vol. 2 Número 1, págs. 29 a 37, 2013.
[7] OF Reyes-Galaviz, SD Cano-Ortiz y CA Reyes-García, “Sistema
neuronal evolutivo para clasificar las unidades de llanto infantil
para la identificación de patologías en recién nacidos”, en 7mo [17] N. Dave, "Métodos de extracción de características LPC, PLP y MFCC
mexicano en el reconocimiento de voz", En t. J. Adv. Res. Ing. Technol., vol. 1, no.
Conferencia Internacional sobre Inteligencia Artificial - Actas de la Vi, págs. 1-5, 2013.
Sesión Especial, MICAI 2008, [18] GVIS Silva y DS Wickramasinghe, "Sistema de detección de llanto
2008, págs. 330–335. infantil con funciones automáticas de control de video y alivio", J.
[8] MJ Alam, P. Kenny y V. Gupta, "Funciones en tándem para la Eng. Technol. Abra Univ. Sri Lanka, vol. 5, no. 1, págs. 36–53,
verificación del hablante dependiente del texto en el corpus de 2017.
RedDots", Proc. Annu. Conf. En t. Speech Commun. Assoc. [19] SS Jagtap, PK Kadbe y PN Arotale, "Sistema propuesto para
INTERSPEECH, vol. 08-12 - septiembre, págs. 420–424, 2016. familiarizarse con la emoción del llanto del recién nacido utilizando el
coeficiente cepstral de frecuencia lineal", En t. Conf. Electr. Electrón.
[9] V. VBhagatpatil y PVM Sardar, “Detección automática del llanto de Optim. Tech. ICEEOT 2016,
un lactante utilizando coeficientes de cepstrum de frecuencia lineal páginas. 238–242, 2016.
(LFCC)”, vol. 5, no. 12, págs.
978-1-7281-2516-9 / 19 / $ 31.00 © 2019 IEEE 91

Dewi2019 .Id - Es

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Dewi2019 .Id - Es

Cargado por

Copyright:

Formatos disponibles

Conferencia internacional IEEE 2019 sobre Internet de las cosas y sistema de inteligencia (IoTaIS)

Análisis de la extracción de características LFCC en bebés

Sita Purnama Dewi Anggunmeka Luhur Prasasti Budhi Irawan

978-1-7281-2516-9 / 19 / $ 31.00 © 2019 IEEE 86

Este proceso se utiliza para reducir la aparición de efectos de solapamiento

Las siguientes son las etapas del proceso de extracción de características de

Transformada rápida de Fourier (FFT)

Este proceso se utiliza para convertir la frecuencia de cada cuadro hasta

en el n-ésimo momento y N es la cantidad de tiempo en la muestra (. 4)

978-1-7281-2516-9 / 19 / $ 31.00 © 2019 IEEE 87

se utiliza para convertir Magnitude Spectrum en un dominio similar al tiempo para

El resultado de la grabación de sonido es un sonido con una duración de 4

C. K-Vecino más cercano (KNN) Cepstral Valor Cepstral Valor

n-dimensional) con el 7 0,297367858 17 0.00885368697

dos patrones (s nam

( ely, …) a = nd) ∑. (7) extracción de características:

Escenario 1: Proceso de preacentuación

Escenario 2: Proceso de banco de filtros

978-1-7281-2516-9 / 19 / $ 31.00 © 2019 IEEE 88

El proceso de clasificación es el siguiente paso después de la etapa de extracción

Higo. 5. Proceso KNN

El siguiente es el escenario para analizar el mejor desempeño del valor K en KNN a

Escenario 4: Valor K en el proceso KNN.

por fotograma. Después de pasar por el proceso de filtrado, produce un valor de 80

32 para el banco de filtros y después del proceso DCT produce un valor

característico de 8. El escenario de prueba de este sistema se realiza 40

cambiando el valor de K en el proceso de clasificación. En el proceso de 20

clasificación, el primer escenario usa 1 como valor K, el segundo escenario usa 0

978-1-7281-2516-9 / 19 / $ 31.00 © 2019 IEEE 89

75 Higo. 11. Gráfico de prueba del valor K

Higo. 10. Resultado de la prueba usando un valor de K diferente en KNN

978-1-7281-2516-9 / 19 / $ 31.00 © 2019 IEEE 90

R EFERENCIAS Soc. A.m., vol. 120, no. 6, pág. 3445, 2006.

978-1-7281-2516-9 / 19 / $ 31.00 © 2019 IEEE 91

También podría gustarte