Acoustic Characterization and Perceptual Analysis of The Relative Importance of Prosody in Speech of People With Down Syndrome ESPAÑOL

Traducido del inglés al español - www.onlinedoctranslator.
com
Comunicación del habla 99 (2018) 90–100
Listas de contenidos disponibles enCienciaDirecta
Comunicación del habla
revista Página de inicio:www.elsevier.com/locate/specom
Caracterización acústica y análisis perceptivo de la importancia relativa de la

prosodia en el habla de personas con síndrome de Down
Mario Corrales-Astorgano⁎, David Escudero Mancebo, César González Ferreras
Departamento de Informática, Universidad de Valladolid, Valladolid, España
INFORMACIÓN DEL ARTÍCULO ABSTRACTO
Palabras clave: Son muchos los estudios que identifican importantes déficits en la producción de la voz de las personas con síndrome de
Caracterización del habla Down. Estos déficits afectan no solo el dominio espectral, sino también la entonación, el acento, el ritmo y la velocidad del
Prosodia habla. El objetivo principal de este trabajo es la identificación de los rasgos acústicos que caracterizan el habla de las personas
Síndrome de Down
con síndrome de Down, teniendo en cuenta los diferentes dominios frecuencial, energético, temporal y espectral. La
Discapacidades intelectuales
comparación del peso relativo de estos rasgos para la caracterización del habla de las personas con síndrome de Down es
Clasificación automática Test
otro objetivo de este estudio. El kit de herramientas openSmile con el conjunto de funciones GeMAPS se utilizó para extraer
perceptivo
características acústicas de un corpus de habla de expresiones de personas con un desarrollo típico y personas con síndrome
de Down. Luego, se identificaron las características más discriminantes mediante pruebas estadísticas. Además, se
entrenaron tres clasificadores binarios usando estas características. La mejor tasa de clasificación, usando solo características
gy yfrecuencia,
espectrales, es 87.33%, y usando t ener emporales, es del 91,83%. Finalmente, se ha realizado una prueba de percepción del
características
usando grabaciones creadas con un pralgoritmo de transferencia de osody: la prosodia de los enunciados de un grupo de hablantes a otro
w fue transferido a utteran ces de un grupo. Los resultados de esta prueba muestran la importancia de la entonación y
ritmo en la identificación de una voz como no típica. Como conclusión, los resultados obtenidos apuntan al entrenamiento de
la prosodia para mejorar la calidad de la producción del habla de las personas con síndrome de Down.
1. Introducción realizarse con la asistencia de terapeutas que ayuden a los pacientes a manejar
adecuadamente sus patrones de respiración y entonación. Aunque existe un
Las personas con síndrome de Down (SD) tienen problemas en el consenso general sobre la importancia de mejorar la prosodia mediante el
desarrollo del lenguaje que dificultan sus relaciones sociales y su entrenamiento (verKent y Vorperian, 2013para una revisión completa del estado
capacidad de desarrollo (Cleland et al., 2010; Martín et al., 2009; del arte), existen muy pocos trabajos que aporten evidencia empírica de la
chapman, 1997). Muchos individuos con SD tienen algunas importancia de las características relacionadas con la prosodia (aquellas
peculiaridades fisiológicas que afectan la producción de su voz, como pertenecientes a los dominios fundamentales de frecuencia, energía y duración)
un tracto vocal más pequeño con respecto al tamaño de la lengua o la con respecto a otras características acústicas pertenecientes al dominio espectral.
forma del paladar blando, entre otras.Guimarães et al. (2008). La El uso del videojuego descrito porGonzález Ferreras et al. (2017)ha
hipotonía muscular también afecta sus capacidades para realizar una permitido la formación de un corpus de habla, que ha sido utilizado en este
correcta articulación, degradando la calidad de las características trabajo para analizar y caracterizar el habla de las personas con síndrome de
espectrales de los sonidos (Markaki y Stylianou, 2011). Además, la Down. Este corpus, descrito en Sección 3.1, contiene grabaciones de
pérdida de audición durante la infancia (Shott et al., 2001) y déficits de personas con síndrome de Down y personas con desarrollo típico. Ambos
fluidez (Devenny y Silverman, 1990) influyen en los dominios de grupos grabaron las mismas frases, por lo que se han utilizado pruebas
frecuencia, energía y tiempo de la señal de voz. estadísticas y de percepción para comparar las características acústicas de
Aunque los problemas derivados de peculiaridades fisiológicas son los dos grupos de hablantes, de forma que se pudieran identificar las
permanentes (incluso si la cirugíaLeshin, 2000o prótesis Bhagyalakshmi et diferencias más relevantes.
al., 2007podría mejorarlos), los déficits de entonación y fluidez pueden Este trabajo tiene como objetivo encontrar las mejores características
mejorarse mediante terapia y entrenamiento del habla. Hay herramientas acústicas para caracterizar el habla de las personas con síndrome de Down. Para
disponibles para este objetivo (Saz et al., 2009b; González Ferreras et al., ello, se han extraído características de los dominios frecuencial, energético,
2017) basado en actividades de percepción y producción para temporal y espectral de los registros del corpus recopilado. Además, el familiar
⁎Autor correspondiente.
Correos electrónicos:mcorrales@infor.uva.es (M. Corrales-Astorgano),descuder@infor.uva.es (D. Escudero-Mancebo),cesargf@infor.uva.es (C. González Ferreras).
https://doi.org/10.1016/j.specom.2018.03.006
Recibido el 18 de diciembre de 2017; Recibido en forma revisada el 21 de febrero de 2018; Aceptado el 13 de marzo de 2018
Disponible en línea el 14 de marzo de 2018
0167-6393/ © 2018 Elsevier BV Todos los derechos reservados.
M. Corrales-Astorgano et al. Comunicación del habla 99 (2018) 90–100
En este trabajo se ha incluido el peso de cada dominio en la caracterización Albertini et al. (2010)descubrió una menor duración de las palabras en
de las personas con síndrome de Down, especialmente la comparación entre adultos varones con síndrome de Down. Además, las personas con síndrome
el espectral y los otros dominios. de Down presentan algunos problemas de falta de fluidez. Aunque la
La metodología descrita anteriormente se desarrolló para responder a dos disfluencia (tartamudeo o parloteo) no se ha demostrado como una
preguntas principales de investigación (RQ): característica universal del síndrome de Down, es un problema común de
esta población (Van Borsel y Vandermeulen, 2008; Devenny y Silverman,
• RQ1: ¿Cuáles son las características acústicas más discriminatorias entre 1990; Eggers y Van Eerdenbrugh, 2017). Estas disfluencias pueden afectar el
las grabaciones de hablantes con síndrome de Down y hablantes con ritmo del habla de las personas con síndrome de Down.
desarrollo típico? Por otro lado,Zampini et al. (2016)indicaron que los niños con
• Problema 1.1:¿Hay diferencias estadísticas entre estas síndrome de Down tenían F0 más bajo que los niños sin discapacidad
características? Problema 1.2:¿Estas diferencias están de acuerdo intelectual.Mora et al. (2008)encontraron mayor nerviosismo en niños
con lo esperado o descrito en el estado del arte? con síndrome de Down que en niños sin discapacidad intelectual. En
• RQ2: ¿Cuál es el peso relativo de las características espectrales en términos de energía,Mora et al. (2008)indicó mayor brillo en niños con
comparación con el resto de los dominios? síndrome de Down que en niños sin discapacidad intelectual.
Problema 2.1:¿Cuál es el peso relativo de las diferentes características a la La unidad de análisis y las tareas de fonación utilizadas por los
hora de identificar el habla atípica mediante clasificadores automáticos? investigadores son diferentes.Rochet-Capellan y Dohen (2015)utilizado
Problema 2.2:¿Cuál es el peso relativo de los diferentes dominios a la hora Vocal-Consonante-Vocal por sílabas,Saz et al. (2009a)yAlbertini et al.
de identificar el habla atípica en un test perceptivo? (2010) palabras grabadas,Roger (2009)yZampini et al. (2016)
construyeron estos corpus utilizando habla semiespontánea yCorrales-
La estructura del artículo es la siguiente.Sección 2revisa trabajos relacionados Astorgano et al. (2016)oraciones analizadas.Lee et al. (2009)palabras
desde el estado del arte y presenta la innovación de nuestra propuesta.Seccion 3 combinadas, lectura y habla natural. La mayoría de los estudios se
describe el procedimiento experimental, incluyendo la descripción del corpus, el centran en el idioma inglés (Kent y Vorperian, 2013), pero hay otros
proceso de extracción de características, el experimento de clasificación centrados en el italiano (Zampini et al., 2016; Albertini et al., 2010),
automática y la prueba de percepción.Sección 4muestra los resultados de las Español (Corrales-Astorgano et al., 2016; Saz et al., 2009a), Francés (
pruebas estadísticas de las diferentes características del dominio, los resultados Rochet-Capellan y Dohen, 2015) o farsi (Seifpanahi et al., 2011).
de la clasificación automática y los resultados de las pruebas de percepción.
Finalmente,Sección 5 describe la discusión ySección 6las conclusiones. El uso de características espectrales para evaluar la voz patológica se ha
aplicado con frecuencia en la literatura.Dibazar et al. (2006)utilizó MFCC y
2. Antecedentes y trabajos relacionados frecuencia de tono con un clasificador de modelo oculto de Markov (HMM)
para la evaluación de la voz normal frente a la patológica utilizando una
La edad de la población seleccionada para el estudio parece ser importante vocal como unidad de análisis.Markaki y Stylianou (2011)sugirió el uso de
para los resultados obtenidos, debido a las diferencias fisiológicas entre niños y espectros de modulación para la detección y clasificación de patologías de la
adultos. En cuanto a los adultos,Lee et al. (2009), Rochet-Capellan y Dohen (2015), voz.Markaki y Stylianou (2010)creó un método para la evaluación objetiva de
Albertini et al. (2010)y Corrales-Astorgano et al. (2016)encontraron valores de F0 la calidad de la voz ronca, basado en espectros de modulación, utilizando un
significativamente más altos en adultos con síndrome de Down en comparación corpus de vocales sostenidas. La calidad de la voz se evaluó utilizando el
con adultos sin discapacidad intelectual. Además,Lee et al. (2009)ySeifpanahi et al. espectro promedio a largo plazo (LTAS) y la relación alfa porLeíno (2009). Si
(2011) encontraron menor jitter (perturbaciones de frecuencia) en hablantes bien estos trabajos no se refieren a personas con síndrome de Down, sí se
adultos con síndrome de Down. En cuanto a la energía,Albertini et al. (2010) refieren a algunos aspectos que aparecen en este tipo de hablantes y a los
encontró valores de energía significativamente más bajos en adultos con que nos referimos en el apartado de discusión.
síndrome de Down. Además,Saz et al. (2009a)concluyó que los adultos con La frecuencia y la amplitud de los formantes también se han estudiado en
síndrome de Down tenían un control deficiente sobre la energía en las vocales personas con síndrome de Down. Un mayor espacio de vocales en personas con
acentuadas frente a las átonas. Albertini et al. (2010)encontró menor brillo síndrome de Down fue encontrado porRochet-Capellan y Dohen (2015), mientras
(perturbaciones de amplitud) en hombres adultos con síndrome de Down que en que otros estudios denotaron una reducción del espacio vocálico en los niños (
adultos sin discapacidad intelectual. Finalmente, los resultados del dominio Mora et al., 2008) y adultos (Bunton y Leddy, 2011). Además, la voz de las personas
temporal dependen de la unidad de análisis empleada.Saz et al. (2009a) con síndrome de Down mostró niveles de intensidad de amplitud de formantes
encontraron que las personas con trastornos cognitivos presentaban una excesiva significativamente reducidos (Pentz hijo, 1987).
Con el fin de comparar nuestro estudio con el estado del arte, en la siguiente figura
variabilidad en la duración de las vocales, mientras que Rochet-Capellan y Dohen
se muestra un resumen de otros estudios similares.tabla 1. Una descripción del corpus
(2015)yBunton y Leddy (2011)informaron duraciones más largas de las vocales en
empleado por estos estudios se muestra enTabla 2. a lo mejor de nuestro
adultos con síndrome de Down.
tabla 1
Resultados de diferentes estudios en el estado del arte.
Autor Grupo Frecuencia Duración Volumen
Roger (2009) Adultos y sin diferencias

Niños
Zampini et al. (2016) Niños Buen control para lingüística bajo para
pragmática. F0 inferior.
Saz et al. (2009a) Adultos y Buen control en las vocales pronunciadas Vocales pronunciadas más largas. Vocales mal Bajo control de intensidad en vocales
Niños pronunciadas dispersas átonas
Albertini et al. (2010) Rochet- Adultos mayor F0 Menor duración (solo para hombres) Menor energía. Brillo menor (solo hombres)
Capellan y Dohen (2015) Lee et al. Adultos mayor F0 Vocales más largas
(2009) Adultos Rango de tono más pequeño. mayor F0. Menor
nerviosismo.
Corrales-Astorgano et al. (2016) Adultos Excursiones F0 superior Más pausas para completar giros Rango diferente
91
Tabla 2
Descripción del corpus utilizado en el estado del arte.
Autor Grupo Síndrome de Down Tipo de control Tamaño Idioma
Roger (2009) Adultos y 22 52 Semi espontáneo 5 descripciones de imágenes por altavoz Inglés
Niños
Zampini et al. (2016) Niños 9 12 Semi espontáneo 20 minutos por orador italiano
Saz et al. (2009a) Adultos y 3 168 Palabras 9576 palabras (6 horas) Control. 684 palabras (38 Español
Niños minutos) Síndrome de Down
Albertini et al. (2010) Rochet- Adultos 30 60 Palabras N/A italiano
Capellan y Dohen (2015) Lee et al. Adultos 8 8 vocal-consonante-vocal 144 por altavoz Francés
(2009) Adultos 9 9 Vocal. Lectura. Habla 3 vocales por hablante. 1 lectura por hablante. 1 Inglés
natural minuto por altavoz
Corrales-Astorgano et al. (2016) Adultos 18 20 Oraciones 479 declaraciones Español
conocimiento, nuestro estudio es uno de los primeros en analizar algunas 3.1. colección de corpus
características de los dominios de frecuencia, energía, temporal y espectral juntos.
Estas características fueron extraídas de las mismas grabaciones, lo que puede Desarrollamos un videojuego de ordenador para mejorar las habilidades
ayudar en el estudio de la importancia relativa de cada dominio en la prosódicas y comunicativas de las personas con síndrome de Down (
caracterización del habla de las personas con síndrome de Down. El uso de un González Ferreras et al., 2017). Este videojuego es un juego de aventuras
conjunto de funciones estándar (Conjunto de parámetros acústicos minimalistas gráficas donde los usuarios deben usar el mouse de la computadora para
de Ginebra extendido, eGeMAPS; detallado enSección 3.2yApéndice A) puede interactuar con los elementos en la pantalla, escuchar instrucciones de
reducir la dependencia de la metodología de extracción, lo que puede facilitar la audio y oraciones de los personajes del juego, y grabar expresiones usando
comparación de los resultados de diferentes estudios. un micrófono en diferentes contextos. El videojuego fue diseñado utilizando
Los estudios de percepción muestran resultados mixtos.Mora et al. (2008) una metodología iterativa en colaboración con una escuela de educación
describieron la voz de los niños con síndrome de Down como estadísticamente especial ubicada en Valladolid (España). La retroalimentación brindada por
diferente de la voz de los niños sin discapacidad intelectual en cinco problemas del los docentes de educación especial se complementó con investigaciones
habla: grado, aspereza, respiración entrecortada, habla asténica y habla forzada. sobre las dificultades de esta población para utilizar las tecnologías de la
Moran y Gilbert (1982)juzgó la calidad de la voz de los adultos con síndrome de información y la comunicación. Tienen algunas dificultades, como déficit de
Down como ronca. Además,Roger (2009) notó discrepancias entre los juicios de atención (Martínez et al., 2011), falta de motivación (Wuang et al., 2011), o
percepción del nivel de tono y las medidas acústicas de F0. En nuestro estudio, no problemas con la memoria a corto plazo (Chapman y Hesketh, 2001) que
queríamos comparar cada medida acústica con un juicio perceptivo de la misma había que tener en cuenta a la hora de desarrollar el videojuego. El juego
característica. Nuestro objetivo es la evaluación de la relevancia del dominio en la fue desarrollado para el idioma español.
identificación de una grabación como perteneciente a una persona con síndrome Dentro de la narrativa del juego, se incluyeron algunas actividades de
de Down, utilizando clasificadores automáticos y pruebas perceptivas. aprendizaje para practicar las habilidades comunicativas. Hay tres tipos diferentes
de actividades: comprensión, producción y visuales. En primer lugar, las
actividades de comprensión se centran en la comprensión léxico-semántica y en la
mejora de la percepción prosódica en contextos específicos. En segundo lugar, las
3. Procedimiento experimental actividades de producción se centran en la producción oral, por lo que el juego
anima a los jugadores a entrenar su habla, teniendo en cuenta aspectos
Figura 1muestra la metodología experimental que hemos seguido. En primer prosódicos como la entonación, la expresión de emociones o el énfasis silábico. Al
lugar, se recopiló el corpus de habla registrado por personas con síndrome de comienzo de estas actividades, el videojuego introduce el contexto donde se debe
Down y por personas con desarrollo típico. En segundo lugar, se extrajeron las decir la oración. Luego, el juego reproduce la oración y el jugador debe pronunciar
características acústicas de todas las grabaciones de cada corpus y se realizó una la oración mientras se muestra en la pantalla. Las actividades de producción
prueba estadística para analizar las diferencias entre grupos. Finalmente, se incluyen afirmativas, oraciones exclamativas e interrogativas. Finalmente, las
realizó el experimento de clasificación automática, en el que se utilizaron las actividades visuales incluyen otras actividades diseñadas para añadir variedad al
características con diferencias significativas. juego y reducir la sensación de
Figura 1.Esquema del procedimiento experimental que incluye recolección de corpus, extracción de características y clasificación automática.
92
monotonía al jugar. Tabla 4

El videojuego recopiló ejemplos de oraciones con diferentes modalidades (es Número de usuarios y registros de cada grupo del corpus.
decir, declarativas, interrogativas y exclamativas). Por lo general, los patrones de

Tipo de usuario # Usuarios # Grabaciones Duración (segundos)
entonación varían según la modalidad. Las oraciones declarativas neutrales
generalmente terminan con una disminución a un tono bajo, mientras que las Mando (TD) 22 250 650
interrogativas totales terminan con una elevación a un tono alto. Por otro lado, las Síndrome de Down (SD) 18 349 1442
oraciones interrogativas parciales, que se caracterizan por tener un elemento
interrogativo al principio de la oración, comienzan con un tono alto asociado a ese
hizo. Cabe señalar que para las actividades de producción, no todos los hablantes
elemento interrogativo y suelen terminar con una caída. Finalmente, las oraciones
con síndrome de Down reprodujeron exactamente la oración objetivo. Algunos de
exclamativas suelen ser una marcada variación de la declarativa correspondiente,
ellos presentaban problemas de audición, mientras que otros presentaban
por lo que la variación radica básicamente en aspectos como la intensidad, el
dificultades de lectura o parloteo derivado de su discapacidad intelectual.
volumen y la gama tonal utilizada por el hablante.
Para obtener una muestra de control de las grabaciones, se grabaron
Además, la combinación de diferentes oraciones permite la
veintidós hablantes adultos sin discapacidad intelectual, 13 hombres y 9
inclusión de flexiones que indican una determinada segmentación en la
mujeres. Por tanto, se obtuvieron dos grupos representativos de
producción oral. Según el contexto y la velocidad de elocución, estas
poblaciones diferentes: adultos con desarrollo típico (TD) y personas con
inflexiones pueden corresponder a una pausa, que implica un silencio
síndrome de Down (SD).Tabla 4muestra el número de usuarios de cada
y, normalmente, el final de la oración, o una semipausa, que implica un
grupo de altavoces, el número de grabaciones realizadas por ellos y la
cambio de entonación en la misma oración. Por ejemplo, uno de los
duración total en segundos de las grabaciones.
ejemplos recogidos en el corpus incluye las tres modalidades y obliga al
hablante a hacer una pausa entre frases:¡Hola! ¿Tienes lupas? Queria
comprar una. (¡Hola! ¿Tienes lupas? Quería comprar una). En otros 3.2. Extracción de características
casos, la inflexión tonal corresponde a una semipausa que no implica

cambio de modalidad ni silencio:¡Hasta luego, tío Pau! (¡Hasta luego, tío Los descriptores acústicos de bajo nivel (LLD) y las características temporales se
Pau!).Así, la combinación de estos tipos de flexión permite la extrajeron automáticamente de cada grabación utilizando el kit de herramientas
recopilación de ejemplos con diferente segmentación. Las frases openSmile (Eyben et al., 2013). Se utilizaron dos conjuntos de características
registradas se pueden ver enTabla 3. minimalistas. Por un lado, estos conjuntos proporcionaron características suficientes
Las sesiones de grabación se realizaron en las mismas instalaciones de los para caracterizar las grabaciones de audio. Por otro lado, evitamos el problema de tener
centros donde los jugadores asistían a sus clases regulares para asegurar la demasiados parámetros relativos al número de observaciones. Este problema puede
comodidad de los jugadores. Además, un miembro del personal de los centros producir sobreajuste en la fase de entrenamiento, debido a que el clasificador se adapta
siempre estuvo con los jugadores. Los jugadores fueron seleccionados por los al conjunto concreto de entradas. Esta adaptación puede producir buenos resultados de
miembros del personal porque las distintas habilidades cognitivas de cada clasificación para este conjunto en particular, pero afecta negativamente la capacidad de
estudiante limitaban sus posibilidades como jugadores potenciales, ya que generalización del clasificador. El conjunto de parámetros estándar minimalistas de
algunos de ellos no podían seguir el proceso estructurado del juego de manera Ginebra (GeMAPS) y el conjunto de parámetros acústicos minimalistas de Ginebra
confiable. Participaron dieciocho hablantes con síndrome de Down, 11 varones ampliado (eGeMAPS), descritos por Eyben et al. (2016), fueron seleccionados. Las
(edades cronológicas: 16, 16, 18, 20, 21, 21, 23, 24, 25, 26 y 30) y 7 mujeres (edades características extraídas de cada grabación se clasifican en cuatro grupos:
cronológicas: 16, 17, 18, 19, 21, 22, 25). Todos ellos eran hablantes nativos de
español, con edades comprendidas entre los 16 y los 30 años. Eran alumnos de
dos centros de educación especial ubicados en Valladolid y Barcelona (España) y • Características relacionadas con la frecuencia: frecuencia fundamental y jitter.
tienen una discapacidad intelectual moderada o leve. Además, para reducir el • Funciones relacionadas con la energía: sonoridad, brillo y
ruido ambiental en el proceso de grabación, los jugadores utilizaron unos relación entre armónicos y ruido.
auriculares con micrófono incorporado (auriculares USB de Plantronics). Además, • Características espectrales: relación alfa, índice de Hammarberg, pendiente
los jugadores registraron un número diferente de oraciones, dependiendo de su espectral, energía relativa del formante 1, 2, 3, diferencia armónica H1-H2, diferencia
desempeño en el videojuego y la cantidad de sesiones de juego que realizaron. armónica H1-A3, frecuencia del formante 1, 2, 3 y ancho de banda del formante 1, 2,
3.
Tabla 3
• Características temporales: la tasa de picos de sonoridad por segundo,
longitud media y desviación estándar de segmentos sonoros y sordos
Sentencias incluidas en el corpus.
continuos y la tasa de segmentos sonoros por segundo, que se aproxima a la
Oración en español oracion en ingles tasa de pseudosílabas.
¡Hasta luego, tío Pau! ¡Hasta luego, tío Pau! ¡Muchas En total, hay 25 LLD. La media aritmética y el coeficiente de variación se
¡Muchas gracias Juan! gracias, Juan! Hola, tienes lupas?
calculan sobre estos 25 LLD. Algunas funciones se aplican a la frecuencia
¡Hola! ¿Tienes lupas? queria comprar Quería comprar uno.
una fundamental y el volumen: percentil 20, 50 y 80, el rango del percentil 20 al
Sí, la necesito. ¿Cuánto vale? Si, lo necesito. ¿Cuánto cuesta? 80 y la desviación media y estándar de la pendiente de la señal ascendente/
¡Hola tío Pau! Ya volvio a casa. Sí, ¡Hola tío Pau! volveré a casa Sí, lo descendente partes. Todos estos funcionales son calculados por el kit de
esa es. ¡Hasta luego! es. ¡Adiós!
herramientas de openSmile. Además, el proceso utilizado por el kit de
¡Hola, tío Pau! ¿Sabes dónde vive la ¡Hola tío Pau! ¿Sabes dónde vive la
señora Luna? señora Luna? herramientas de openSmile para extraer las funciones de eGeMAPS no
¡Nos vemos luego, tío Pau! ¡Hasta luego, tío Pau! diferenció entre silencios y regiones sordas, lo que puede producir errores
Ha sido muy amable, Juan. Tanto como Has sido muy amable, Juan. ¡Muchas en las funciones aplicadas a cada función. Por lo tanto, el software Praat (
gracias! gracias! Bóersma, 2006) se utilizó para extraer todos los silencios de cada grabación
¡Hola! ¿Tienes lupas? Me gustaría Hola, tienes lupas? Me gustaría
y estos silencios se excluyeron del proceso de análisis.
comprar una. comprar uno.
Sí, necesito una sea como sea. ¿Cuánto Sí, realmente necesito uno. ¿Cuánto cuesta?
¿valle? Además, se añadieron 4 características temporales adicionales: los
Sí, lo es. Vivo allí desde pequeño. Sí, lo es. He vivido allí desde que era un porcentajes de silencio y sonoridad, los silencios por segundo y los silencios
¡Hasta luego! niño. ¡Adiós!
medios. Estas nuevas funciones se agregaron para mejorar la información sobre la
¡Hola, tío Pau! Tengo que encontrar a la ¡Hola tío Pau! Tengo que encontrar a
señora Luna ¿Sabes dónde vive? la señora Luna. ¿Sabes dónde vive?
caracterización temporal de las grabaciones. En este caso, el silencio inicial y final
de cada grabación fueron excluidos del proceso de análisis.
93
porque sus duraciones eran diferentes debido al proceso de grabación. En resumen, el Figura 2muestra el procedimiento experimental utilizado para realizar la
conjunto de funciones acústicas contiene 88 funciones del conjunto de funciones de prueba de percepción. La frase¡Hola tío Pau! ¿Sabes dónde vive la señora
eGeMAPS y 4 nuevas funciones introducidas por el equipo de investigación (92 Luna? (¡Hola tío Pau! ¿Sabes dónde vive la señora Luna?)grabada por todos
funciones). los ponentes fue seleccionada. Esta oración fue seleccionada por su riqueza
Se utilizó una prueba estadística para detectar las diferencias significativas prosódica (combinando una oración afirmativa y una interrogativa), porque
entre las características extraídas del registro de cada grupo. Se utilizó la prueba fue utilizada en otro de nuestros estudios (González Ferreras et al., 2017) y
no paramétrica de Mann-Whitney. Solo las características con un valor de p porque fue la frase más registrada. Para obtener una segmentación fonética
inferior a 0,01 fueron seleccionadas para su análisis y clasificación. de las grabaciones, los servicios web de BAS (Schiel, 1999; Kisler et al., 2017)
fueron usados. Esta herramienta devuelve los intervalos de tiempo de cada
3.3. Clasificación automática fonema utilizando como entradas el archivo de audio y la transcripción. Fue
necesaria la revisión manual de la segmentación para corregir errores de
Para hacer una clasificación automática de las grabaciones, el kit de herramientas de
transcripción. La frase fue grabada por 22 hablantes TD y por 16 hablantes
aprendizaje automático de Weka (Salón et al., 2009) se utilizó. Este conjunto de
con DS. Sin embargo, cada hablante no tenía el mismo número de
herramientas permite acceder a una colección de algoritmos de aprendizaje automático
grabaciones. En total, hubo 62 grabaciones.
para tareas de minería de datos. Se utilizaron tres clasificadores diferentes para
Una vez corregida la segmentación, se implementó un algoritmo de
comparar su rendimiento: el árbol de decisión (DT) C4.5, el perceptrón multicapa (MLP) y

transferencia de prosodia en Praat (Bóersma, 2006) Fue ejecutado. Este algoritmo
la máquina de vectores de soporte (SVM).

transfiere, fonema a fonema, el tono, la energía y la duración de un audio a otro.
Además, se utilizó la técnica de validación cruzada de 10 veces para crear los

Por lo tanto, el nuevo archivo de audio contiene el enunciado original pero con la
conjuntos de datos de entrenamiento y prueba. Para evitar la adaptación del clasificador,

prosodia transferida de otro enunciado. El algoritmo se ejecutó combinando los
todos los pliegues se crearon mediante grabaciones de diferentes hablantes. Por lo

audios de cada locutor con los audios del resto de locutores, por lo que, en total,
tanto, las grabaciones de cada locutor se unieron en el mismo pliegue y cada pliegue se
se generaron 3525 archivos de audio (no todos los locutores tenían el mismo
equilibró en términos de número de grabaciones.

número de grabaciones). Como resultado, hay cuatro tipos de archivos de audio,
Para analizar el desempeño de la clasificación, utilizamos la tasa de como se muestra enFigura 2. Se seleccionaron aleatoriamente cinco archivos de
clasificación. El recuerdo promedio no ponderado (UAR) (Schuller et al., 2016) audio de cada tipo para la prueba de percepción, por lo que la prueba incluyó
también fue utilizado. Esta métrica es la media de sensibilidad (recuerdo de casos veinte archivos de audio, balanceados en términos de género.
positivos) y especificidad (recuerdo de casos negativos). Se eligió UAR como la La prueba de percepción se realizó mediante una aplicación web. En primer
métrica de clasificación porque pondera por igual cada clase independientemente lugar, se recopiló información personal del evaluador. A continuación, se
de su número de muestras, por lo que representa con mayor precisión la precisión mostraban aleatoriamente los veinte archivos de audio seleccionados en la fase
de una prueba de clasificación utilizando datos no balanceados. anterior. Los evaluadores deben responder la siguiente pregunta para cada
enunciado: teniendo en cuenta la forma de hablar, ¿crees que la persona que
habla tiene discapacidad intelectual? Ignore la distorsión de audio producida por
3.4. Prueba de percepción
la síntesis de voz no natural.Las posibles respuestas a la pregunta estaban en una
escala tipo Likert de 5 puntos: 1 significa “de ninguna manera” y 5 significa “muy
Para evaluar el impacto de la prosodia en la percepción de los oyentes,
seguro”. Treinta evaluadores juzgaron cada enunciado utilizando esta escala. Para
utilizamos técnicas de transferencia de prosodia. Estas técnicas han sido utilizadas
esta prueba se seleccionaron personas sin antecedentes específicos en logopedia,
previamente en otros estudios del estado del arte. Por ejemplo,Luo et al. (2017)
ya que nos interesaba conocer la percepción de las personas normales sobre la
investigó el papel de diferentes características prosódicas en la naturalidad del
importancia de la prosodia en la identificación del habla de las personas con
habla en inglés L2. El método de modificación prosódica se aplicó al habla nativa y
discapacidad intelectual.
de los estudiantes de L2. Posteriormente, utilizaron una prueba de percepción
para evaluar el impacto de la modificación de la prosodia. Una metodología similar
fue utilizada porEscudero et al. (2017), donde se investigó los patrones prosódicos 4. Resultados
característicos del estilo de diferentes grupos de hablantes. Después de la
modificación prosódica de los enunciados, los patrones prosódicos característicos 4.1. Resultados de caracterización
fueron validados mediante una prueba perceptual. El procedimiento descrito en
Escudero et al. (2017)para transferir la prosodia se utiliza en los experimentos Tabla 5muestra las características con diferencias estadísticamente significativas
informados en este artículo. (prueba de Mann-Whitney con valor p < 0,01) relacionadas con la frecuencia, la energía
Figura 2.Procedimiento experimental seguido para realizar la prueba perceptiva. Los enunciados utilizados en la prueba fueron: TDutt+TDpro (enunciado de una persona TD con prosodia transferida de
un enunciado de otra persona TD), DSutt+TDpro (enunciado de una persona con SD con prosodia transferida de un enunciado de una persona TD) , TDutt+DSpro (enunciado de una persona TD con
prosodia transferida de un enunciado de una persona con SD) y DSutt+DSpro (enunciado de una persona con SD con prosodia transferida de un enunciado de otra persona con SD).
94
Tabla 5
Lista de características de frecuencia, energía y tiempo con mayores diferencias estadísticamente significativas (prueba de Mann-Whitney con valor de p < 0,01), ordenadas por diferencias de medias. El significado de las
características en la columna.Variablese puede ver enApéndice A. Las unidades se reportan en (Eyben et al., 2016).
Variable Control Control (IC 95%) Síndrome de Down Síndrome de Down (IC 95%)
dominio F0
F0_stddevRisingSlope 166.17 ± 231.44 (137.35,195.01) 220.85 ± 273.67 (192.08,249.62)
jitter_stddevNorm 1,15 ± 0.39 (1.11, 1.21) 1,46 ± 0.47 (1.42,1.52)
jitter_mean 0,04 ± 0.02 (0.045,0.050) 0,03 ± 0.01 (0.035,0.039)
F0_pctlrange 4,63 ± 1.9 (4.4,4.88) 3,91 ± 2.88 (3.61, 4.22)
F0_percentil20 26,89 ± 4.49 (26.33,27.45) 30,32 ± 4.63 (29.84,30.81)
F0_percentil50 29,18 ± 4.22 (28.66,29.71) 32,33 ± 4.28 (31.89,32.79)
F0_media 29,3 ± 4.11 (28.79,29.82) 32,38 ± 4.14 (31.95,32.82)
F0_stddevNorm 0,13 ± 0.07 (0.129,0.147) 0,12 ± 0.07 (0.116,0.132)
F0_percentil80 31,52 ± 4.34 (30.99,32.07) 34,24 ± 4.67 (33.75,34.73)
Dominio de la energía
percentil_de_sonoridad20 0,95 ± 0.38 (0.91,1.01) 1,77 ± 1.03 (1.66,1.88)

percentil_sonoridad50 1,93 ± 0.73 (1.84,2.02) 3,29 ± 2.22 (3.06,3.53)
volumen_medio 2,09 ± 0.78 (1.99,2.19) 3,37 ± 1.99 (3.17,3.58)
volumen_percentil80 3,15 ± 1.24 (3,3.31) 4,9 ± 2.94 (4.6,5.22)
rango_de_sonoridad_pctl 2,19 ± 0.96 (2.08, 2.32) 3,13 ± 2.06 (2.92,3.35)
loudness_stddevRisingSlope 15,3 ± 7.18 (14.41, 16.2) 19,63 ± 14.24 (18.14, 21.13)
loudness_stddevNorm 0,57 ± 0.07 (0.57,0.58) 0,49 ± 0.07 (0.48,0.5)
shimmer_mean 1,55 ± 0.38 (1.51,1.61) 1,36 ± 0.37 (1.32, 1.4)
shimmer_stddevNorma 0.86 ± 0.14 (0.84,0.88) 0.78 ± 0.16 (0.77,0.8)
dominio temporal
silencioPorcentaje 0.1 ± 0.11 (0.09,0.12) 0.22 ± 0.19 (0.2,0.24)
silenciosMean 0.16 ± 0.2 (0.14,0.19) 0.31 ± 0.3 (0.28,0.35)
StddevVoicedSegmentLengthSec 0.15 ± 0.08 (0.14,0.16) 0.25 ± 0.2 (0.23,0.27)
MeanVoicedSegmentLengthSec 0.26 ± 0.15 (0.25,0.29) 0.44 ± 0.39 (0.41,0.49)
silencios por segundo 0.39 ± 0.38 (0.35,0.44) 0.57 ± 0.4 (0.53,0.62)
Segmentos con voz por segundo 3,42 ± 1.06 (3.29,3.55) 2,47 ± 1.04 (2.37,2.59)
picos de volumen por segundo 5,76 ± 1 (5.64, 5.89) 4,39 ± 0.94 (4.29, 4.49)
PromedioSordoSegmentoDuración 0.05 ± 0.02 (0.05,0.06) 0.06 ± 0.03 (0.06,0.07)
del sondeoPorcentaje 0.89 ± 0.11 (0.88,0.91) 0.77 ± 0.19 (0.76,0.8)
y dominios temporales, ordenados por diferencias de medias. En el caso de la y el Formante 3 (en menor grado) también permiten identificar diferencias.
frecuencia, 9 de 12 características presentan diferencias significativas. Las Como era de esperar, los valores de MFCC (los cuatro analizados) permiten
primeras filas (desde F0_stddevRisingSlope hasta jitter_mean) se refieren a la separar ambos grupos. Con respecto a las variables relacionadas con las
evolución temporal del contorno F0. En todos los casos, las cifras presentan un diferencias armónicas, en la lista solo aparecen dos variables: log-
valor superior para los hablantes con síndrome de Down, tanto cuando eldev RelF0H1A3_stddevNorm y logRelF0H1A3_mean.
estándarse analiza el valor o sependiente ascendenteynerviosismo (nerviosismoel
valor es más bajo porque se enfoca en los períodos, que son los inversos de los
4.2. Resultados de clasificación
valores F0). Las últimas filas se refieren a valores medios, coeficiente de variación,
rangos y percentiles del contorno F0 (desde F0_pctlrange hasta F0_percetile80).
Tabla 7muestra los resultados de la clasificación en la tarea de identificar el
Los hablantes con síndrome de Down presentan valores más altos que los
grupo del hablante (TD o SD) de cada enunciado. Los clasificadores explicados en
hablantes del grupo control en todos los casos, con un coeficiente de variación
Sección 3.3y se utilizaron las características seleccionadas presentadas en la
menor en el grupo con síndrome de Down. Estos resultados parecen indicar que
sección anterior. Solo se utilizan las características con diferencias significativas
los participantes con síndrome de Down utilizan valores más altos de F0 con más
entre los grupos TD y DS. DT muestra los resultados de clasificación más bajos en
cambios temporales en los contornos de F0.
todos los grupos de características. MLP muestra un mejor desempeño usando
Hay 9 de 14 características de energía que presentan diferencias estadísticamente
frecuencia (UAR 0.64), temporal (UAR 0.78), frecuencia+energía
significativas (prueba de Mann-Whitney con valor de p < 0,01), como se muestra enTabla
+ temporal (UAR 0,91) y todos (UAR 0,95) grupos de características. SVM funciona mejor
5. Las primeras cuatro filas (de loudness_percentil20 a loudness_pctlrange) se refieren a
con funciones de energía (UAR 0.78). Los resultados usando características espectrales
los valores de la media, el rango y el percentil. Los valores son más altos para hablantes
son los mismos en los clasificadores MLP y SVM (UAR 0.87).
con síndrome de Down en todos los casos. Las últimas columnas se refieren a la variación
Además, los mejores resultados de clasificación se obtienen utilizando todas las funciones,
temporal de los valores de energía. En este caso, los hablantes de síndrome de Down
independientemente del clasificador que se utilice. Las funciones de frecuencia muestran el peor
exhiben valores más bajos. Estos resultados parecen indicar que los participantes con
rendimiento cuando se usan solas. Las características energéticas y temporales tienen resultados
síndrome de Down hablan más fuerte con menos variación en la energía.
similares, con solo 9 características por grupo.
Cuando las funciones de frecuencia, energía y tiempo se usan juntas, el rendimiento
Con respecto a las características temporales mostradas enTabla 5, 9 de 10
es notablemente mejor que usar cada grupo por separado. Finalmente, las características
características presentaron diferencias estadísticamente significativas (prueba de
espectrales muestran un desempeño ligeramente peor que todas las características de
Mann-Whitney con valor de p < 0,01). Los hablantes con síndrome de Down
frecuencia+energía+temporal.
utilizan más pausas y son más largas (mayor porcentaje de silencio, silencio por
segundo y media de silencio). La longitud del segmento sonoro es más larga, lo
4.3. Resultados de la prueba de percepción
que indica que los participantes con síndrome de Down hablan más despacio.
En cuanto a las características espectrales (Tabla 6), 34 de 56 características mostraron
diferencias estadísticamente significativas (prueba de Mann-Whitney con valor de p < 0,01). Los
Tabla 8muestra los resultados de la prueba de percepción yFig. 3presenta
resultados muestran que el LTAS podría ser un instrumento útil para detectar diferencias, ya que
visualmente las diferencias entre los grupos. Cuando se transfirió la prosodia de
aparecen claras diferencias cuando se tienen en cuenta las características relacionadas con la
hablantes de TD a enunciados de hablantes de TD, el 84% de las respuestas
pendiente, el índice de Hammarberg y el alfa. Formante 1

identificaron los audios como hablantes de TD (respuesta 1 de la fila TDutt
+ TDpro). En este caso, las dudas en la identificación de los archivos de audio
95
Tabla 6
Lista de características espectrales con mayores diferencias estadísticamente significativas (prueba de Mann-Whitney con valor de p < 0,01), ordenadas por diferencias de medias. El significado de las características en la
columna. Variablese puede ver enApéndice A. Las unidades se reportan en (Eyben et al., 2016).
Variable Control Control (IC 95%) Síndrome de Down Síndrome de Down (IC 95%)
Funciones relacionadas con LTAS
pendienteV0500_media 0± 0.03 (0,0.01) 0.05 ± 0.03 (0.056,0.063)

pendienteUV0500_media − 0,06 ± 0.04 (-0,07, −0,06) 0.05 ± 0.03 (0.02,0.03)
pendienteV0500_stddevNorma − 1,12 ± 13.82 (-2.85,0.6) 0,69 ± 2.64 (0.41,0.97)
relación alfaUV_media − 12.06 ± 11.37 (-13,48, −10,65) 1.07 ± 6.37 (0.41,1.75)
hammarbergIndexUV_mean 20,79 ± 13.51 (19.11,22.48) 5,4 ± 7.24 (4.64,6.16)
alfaRatioV_media − 11,79 ± 5,52 (-12.49, −11.11) − 8.46 ± 5.55 (-9,05, −7,88)
hammarbergIndexV_mean 20.8 ± 7.06 (19.93,21.69) 16,35 ± 7.14 (15.61,17.11)
hammarbergIndexV_stddevNorma 0.48 ± 0,67 (0.4,0.57) 0,57 ± 1.01 (0.47,0.68)
pendienteV5001500_mean − 0,02 ± 0 (-0,03, −0,02) − 0,02 ± 0 (-0,021, −0,020)
spectralFlux_mean 1,96 ± 1.09 (1.83,2.1) 2,94 ± 2.32 (2.7,3.19)
spectralFluxUV_mean 1,4 ± 1.35 (1.23,1.57) 2,1 ± 2.11 (1.88,2.32)
spectralFluxV_mean 2,11 ± 1.12 (1.98,2.26) 3,13 ± 2.53 (2.87,3.4)
espectralFlux_stddevNorm 0.72 ± 0.19 (0.7,0.75) 0,67 ± 0.12 (0.66,0.69)
Funciones relacionadas con MFCC
mfcc3_stddevNorma 0.25 ± 24.92 (-2.85,3.36) − 54,35 ± 1039.94 (-163.68,54.98)
mfcc2V_media 1,49 ± 7.41 (0.58,2.42) − 2,45 ± 6.88 (-3.17, −1.73)
mfcc4_stddevNorma 1,54 ± 44.52 (-4.01, 7.09) −2± 19.36 (-4.04,0.03)
mfcc2_stddevNorm 1,97 ± 26.17 (-1.29, 5.23) − 1,16 ± 27.11 (-4.01, 1.69)
mfcc2_mean 4,05 ± 7.08 (3.18,4.94) − 2,32 ± 6.45 (-3,−1,64)
mfcc4V_stddevNorma − 1,23 ± 9.51 (-2,42, −0,05) − 0,45 ± 4.73 (-0,96,0,04)
mfcc4_mean − 11.17 ± 7.74 (-12.14, −10.21) − 17.34 ± 9.91 (-18.39, −16.3)
mfcc3V_stddevNorma − 0,78 ± 71.43 (-9.68,8.11) − 0,28 ± 21.18 (-2.51,1.94)
mfcc4V_media − 14,75 ± 8.58 (-15,82, −13,68) − 18,3 ± 10.83 (-19.44, −17.17)
mfcc1V_media 26,42 ± 7.31 (25.51, 27.34) 20.93 ± 9.61 (19.93,21.95)
mfcc1_media 22,52 ± 7.73 (21.56,23.49) 18,16 ± 9.95 (17.11, 19.21)
Características relacionadas con los formantes
F3amplitudeLogRelF0_stddevNorm − 1,18 ± 0.25 (-1,22, −1,16) − 1,36 ± 0.41 (-1,41, −1,32)
F2amplitudeLogRelF0_mean − 49,47 ± 17.65 (-51,68, −47,28) − 42,63 ± 20.55 (-44,79, −40,47)
F2amplitudeLogRelF0_stddevNorm − 1,35 ± 0.26 (-1,39, −1,32) − 1,54 ± 0,61 (-1,61, −1,48)
F1bandwidth_stddevNorm 0.2 ± 0.08 (0.19,0.21) 0.23 ± 0.09 (0.22,0.24)
F1frequency_stddevNorm 0.35 ± 0.09 (0.34,0.37) 0.4 ± 0.09 (0.39,0.41)
F3frequency_stddevNorm 0.09 ± 0.02 (0.095,0.102) 0.1 ± 0.02 (0.1,0.11)
F3frecuencia_media 2665.98 ± 145.97 (2647.81,2684.17) 2643.51 ± 203.27 (2622.15,2664.89)
F3amplitudeLogRelF0_mean − 53,64 ± 17.44 (-55,82, −51,47) − 45.02 ± 19.5 (-47,08, −42,98)
Características de las diferencias
armónicas logRelF0H1A3_stddevNorm 1,6 ± 16.02 (-0.39,3.6) 0,18 ± 7.44 (-0.6,0.97)
logRelF0H1A3_mean 18,91 ± 6.26 (18.13,19.69) 15,86 ± 7.09 (15.12, 16.61)
Tabla 7 Tabla 8
Resultados de la clasificación para identificar el grupo del hablante. Se informa la tasa de clasificación (tasa Número de respuestas de las pruebas de percepción para cada tipo de archivo de audio. Una respuesta de
c.) y UAR utilizando diferentes conjuntos de características y diferentes clasificadores. Las características 1 significa “de ninguna manera” y 5 significa “muy seguro” en la identificación del archivo de audio como
utilizadas son aquellas con diferencias significativas entre los grupos TD y DS. Los clasificadores son árbol hablante con síndrome de Down. NR significa que no hay respuesta. TDutt+TDpro significa emisión de una
de decisión (DT), máquina de vectores de soporte (SVM) y perceptrón multicapa (MLP). # es el número de persona TD con prosodia transferida de una emisión de otra persona TD; DSutt
entidades de entrada en cada conjunto. + TDpro significa enunciado de una persona con SD con prosodia transferida de un enunciado de
una persona TD; TDutt+DSpro significa emisión de una persona TD con prosodia transferida de
MVS MLP DT una emisión de una persona con SD; y DSutt+DSpro significa enunciado de una persona con SD
con prosodia transferida de un enunciado de otra persona con SD.
Colocar # C. Tasa RAU C Tasa RAU C Tasa RAU
Tipo 1 2 3 4 5 NR Total
Frecuencia 9 62,67 0,61 64.33 0,64 60.17 0,60
Energía 9 79,33 0,78 76 0.76 72.5 0.71 TDutt+TDpro 124 15 3 1 4 3 150
Temporal 9 76,83 0,76 77,83 0,78 74.33 0.75 DSutt+TDpro 42 42 31 18 11 6 150
Frecuencia+Energía 27 90 0.9 91,83 0,91 82 0.82 TDutt+DSpro 17 21 34 43 31 4 150
+ Temporales DSutt+DSpro 1 11 26 49 56 7 150
Espectral 34 87.33 0.87 87.33 0.87 84.33 0.84
Todo 61 94.17 0.94 95.17 0,95 86.5 0.87
proceso que el enunciado original. Cuando se transfirió la prosodia de hablantes
TD a enunciados de hablantes con SD, el 58% de las respuestas identificaron los
ya que TD o DS representan solo el 2% de las respuestas (respuesta 3 de la fila TDutt
audios como hablantes TD (respuestas 1 y 2) frente a solo el 20% de
+ TDpro). Por otro lado, cuando se transfirió la prosodia de hablantes de DS a
identificaciones con SD (respuestas 4 y 5). Por otro lado, el 51% de las respuestas
enunciados de hablantes de DS, el 73% de las respuestas identificaron los audios
identificaron los audios como hablantes con SD (respuestas 4 y 5) cuando la
como hablantes de DS (respuestas 4 y 5 de la fila DSutt+DSpro). En este caso, las
prosodia de hablantes con SD fue trasladada a un enunciado de hablantes TD,
dudas en la identificación de los archivos de audio como TD o DS representan el
versus solo el 26% de identificaciones TD (respuestas 4 y 5). respuestas). En ambos
18% de las respuestas (respuesta 3 de la fila DSutt+DSpro), y las identificaciones
casos, el número de respuestas 3 es relevante (22% y 23% de respuestas 3,
como TD son solo el 8% (respuestas 1 y 2 de la fila DSutt
respectivamente).
+ DSpro).
Además, se utilizaron dos pruebas estadísticas para comparar las respuestas
Las respuestas dadas sobre los archivos de audio que combinan locuciones de
obtenidas. Los resultados de la prueba no paramétrica de Kruskal-Wallis
un grupo con prosodia del otro grupo presentan mucha más variabilidad. Sin
mostraron diferencias significativas (con un valor de p < 0,001) entre las
embargo, la prosodia tuvo más influencia en la identificación
respuestas dadas a los cuatro grupos (TDutt+TDpro, DSutt+TDpro, TDutt+DSpro
96
comúnmente utilizado en aplicaciones de reconocimiento de hablantes (

Martínez et al., 2012), ya que son representativos de la forma del tracto vocal
(Dusan y Deng, 1998). La importancia relativa de las características del MFCC
en la caracterización del habla de las personas con SD (como se muestra en
Tabla 6) podría así justificarse por la especial anatomía de la lengua, paladar,
mandíbula, etc. de este tipo de hablante (Roger, 2009). MFCC también se ha
utilizado para identificar la nasalidad porYuan y Liberman (2011)que es otro
aspecto que se ha relacionado con el habla de las personas con SD en
muchos trabajos (Kent y Vorperian, 2013). La posición relativa de los
formantes se ha asociado con el grado de nasalidad en muchos trabajos (
Casa y Stevens, 1956; Huffmann, 1989) que también se destacó en nuestra
tabla de resultados.
Finalmente, las personas con SD presentan hipotonía de los músculos y dificultades
en el control motor, que afectan el movimiento de los labios, la lengua y la mandíbula,
con la consiguiente repercusión en las características espectrales ya mencionadas. La
Fig. 3.Resultados de las pruebas de percepción para cada tipo de archivo de audio. TDutt+TDpro falta de fuerza muscular también podría ser otra razón que justifique el habla más lenta.
significa emisión de una persona TD con prosodia transferida de una emisión de otra persona TD;
Como la hipotonía también podía afectar al diafragma, los valores de energía deberían
DSutt+TDpro significa enunciado de una persona con SD con prosodia transferida de un
haber sido más bajos. Planteamos la hipótesis de que la razón por la que se obtuvieron
enunciado de una persona TD; TDutt+DSpro significa emisión de una persona TD con prosodia
transferida de una emisión de una persona con SD; y DSutt+DSpro significa enunciado de una
valores más altos de energía podría deberse al esfuerzo extra realizado por los
persona con SD con prosodia transferida de un enunciado de otra persona con SD. estudiantes para completar correctamente las actividades.
5.2. Impacto relativo de la prosodia

y DSutt+DSpro). Además, se utilizó la prueba no paramétrica de Mann-
Whitney para comparar cada grupo con los demás, en grupos de dos. Todas
Los resultados experimentales obtenidos muestran que las características
las comparaciones mostraron diferencias significativas (valor p < 0,001).
relativas a los dominios frecuencial, energético y temporal tienen igual o mayor
impacto que las características del dominio espectral para identificar el habla de
5. Discusión las personas con síndrome de Down:
5.1. Caracterización del habla de las personas con síndrome de Down • Hay un elevado número de características fuera del dominio espectral
que presentan diferencias significativas entre hablantes con síndrome de
La frecuencia fundamental es significativamente más alta en hablantes con Down y hablantes sin discapacidad intelectual.
síndrome de Down. Los mismos resultados fueron encontrados porAlbertini et al. • Las características espectrales alcanzan altas tasas de clasificación (hasta el 87 %), pero las
(2010), Rochet-Capellan y Dohen (2015)yLee et al. (2009). Además, el rango F0 es tasas de clasificación de las características de frecuencia, energía y tiempo juntas son más
más bajo en hablantes con síndrome de Down, lo que puede explicarse por una altas que las características espectrales (hasta el 91,83 %).
entonación menos melodiosa. Continuando con la frecuencia, el jitter es • Los enunciados de hablantes de control con frecuencia, energía y duración de
significativamente menor en el grupo DS, tal como lo encontróLee et al. (2009) y fonemas transferidos de hablantes con síndrome de Down se perciben en su
porSeifpanahi et al. (2011). mayoría como una voz anómala. Del mismo modo, las expresiones de
En cuanto a las características temporales, por un lado, el número de regiones hablantes con síndrome de Down con frecuencia, energía y duración de
sonoras continuas por segundo es menor en los hablantes con síndrome de fonemas transferidos desde hablantes de control se perciben en su mayoría
Down, lo que significa que la producción oral de los hablantes con síndrome de como habla típica.
Down fue más lenta que la de los hablantes control. Las dificultades de lectura que
presentan algunas personas con síndrome de Down pueden haber influido en Hasta donde sabemos, existen pocos estudios que evalúen, de forma
estos resultados. Por otro lado,Van Borsel y Vandermeulen (2008)encontraron experimental, el peso relativo de la prosodia en la percepción del habla de
disfluencias en el habla del síndrome de Down, como tartamudeo y parloteo. Estas las personas con síndrome de Down como una voz atípica. Las diferencias
disfluencias pueden producir la inserción de más silencios y la presencia de más entre hablantes con síndrome de Down y hablantes de control en el dominio
variedad temporal en el habla de las personas con síndrome de Down, tal como se espectral pueden derivarse de peculiaridades fisiológicas en su sistema
encuentra en este estudio. fonológico. Algunos podrían corregirse con cirugía, pero otros son
En términos de energía, se encontró que las características de sonoridad eran imposibles de corregir. Sin embargo, las características de frecuencia,
significativamente más altas en los hablantes con síndrome de Down y su rango energía y tiempo se pueden entrenar utilizando técnicas de terapia del habla
era más alto. Este resultado contradice lo informado porAlbertini et al. (2010), que centradas en la respiración y la repetición de actividades. Los resultados
mostró valores de energía más bajos en hablantes con síndrome de Down. Otro obtenidos en este trabajo muestran los beneficios potenciales del
estudio se centró en las vocales (Saz et al., 2009a) encontraron un aumento en la entrenamiento de la prosodia.
energía de las vocales átonas en hablantes con síndrome de Down. La energía es La distancia entre las características prosódicas de los hablantes con síndrome de
siempre una variable difícil en el análisis de la prosodia, ya que sus valores Down y las de los hablantes de control se puede utilizar para diseñar una métrica de
dependen mucho de las condiciones de grabación: el rango dinámico del calidad que se incluirá en aplicaciones de entrenamiento de pronunciación asistidas por
micrófono y la distancia entre el altavoz y el micrófono. Por otro lado, algunos de computadora. Se espera que nuestro trabajo futuro sobre la implementación de un
los participantes tienen problemas auditivos leves, lo que puede ser otra posible módulo de evaluación automática de la calidad de voz se beneficie de los resultados de
explicación de los valores de energía más altos. este documento. Este módulo se incluirá en nuestras herramientas de entrenamiento del
habla (González Ferreras et al., 2017), por lo que las características espectrales serán
Nuestro corpus también permitió la detección de diferencias relacionadas con útiles para identificar una grabación como un discurso no típico, mientras que el análisis
las características espectrales.Tabla 6destaca el hecho de que LTAS ha sido de prosodia será necesario para evaluar la mejora de los jugadores en las diferentes
propuesto enGauffin y Sundberg (1977)para la identificación de la voz sesiones de juego.
entrecortada e hipocinética. La amplitud relativa del primer armónico también se
relacionó con las voces entrecortadas porHillenbrand y Houde (1996). El habla de 5.3. Limitaciones
las personas con SD es descrita como entrecortada por Mundo DC (1979)y
disfónico porMorán (1986). Las características de MFCC son El tamaño del corpus en los estudios de análisis del habla es muy importante para
97
lograr resultados representativos. La grabación de un corpus de habla de características.
personas con síndrome de Down es siempre un reto por las especiales Un experimento de percepción, basado en la transferencia de prosodia,
características de estos hablantes (déficit de atención y problemas de permitió verificar la alta importancia relativa de las variables prosódicas de
memoria a corto plazo, entre otras). Nuestro videojuego ha permitido frecuencia, energía y dominios temporales en la percepción del habla
registrar un corpus de habla cuyo tamaño es mayor que otros corpus de atípica. Un control adecuado de estas variables en los enunciados de
habla utilizados en otros estudios (verTabla 2). Aunque el tamaño del corpus hablantes con síndrome de Down nos permite cambiar la percepción de las
podría ser mayor, las pruebas estadísticas realizadas garantizan que el mismas, aunque no se modifica la calidad de la voz. Además, transferir la
corpus tiene el tamaño necesario para obtener resultados significativos. prosodia de hablantes con síndrome de Down a hablantes del grupo de
Además, actualmente se están obteniendo nuevas grabaciones por el uso control significa que los enunciados se percibirán, en gran medida, como si
del videojuego en una escuela de educación especial. fueran de hablantes con síndrome de Down. Este resultado fomenta el uso
La heterogeneidad de la población con síndrome de Down puede influir de metodologías de entrenamiento de la prosodia como medio para mejorar
en la correcta generalización de los resultados. Sin embargo, la metodología la calidad general de la producción oral de los hablantes con síndrome de
presentada en este artículo se puede aplicar a individuos con el objetivo de Down.
identificar las características concretas que están utilizando
incorrectamente. Además, se puede analizar el impacto relativo de estos
rasgos en la identificación de su habla como patológica. Expresiones de gratitud
6. Conclusiones El trabajo descrito en este artículo fue financiado (1/2016-12/2017) por la

Fundación BBVA (proyecto “Pradia: la aventura gráfica de la pragmática y la
El experimento de caracterización del habla que se presenta en este artículo prosodia” - CF613399). Continúan las actividades de análisis del habla de
nos ha permitido encontrar diferencias significativas entre el habla de las síndrome de Down (1/2018-12/2020) en el proyecto financiado por el
personas con síndrome de Down y las del grupo control que inciden en el uso de Ministerio de Economía, Industria y Competitividad (MINECO) y el Fondo
un conjunto de variables acústicas relacionadas con los dominios frecuencial, Europeo de Desarrollo Regional FEDER (proyecto “Incorporación de un
energético, temporal y espectral. El uso de estas variables en un experimento de Módulo de Predicción Automática de la Calidad de la Comunicación Oral de
identificación automática permite obtener tasas de clasificación muy altas Personas con Síndrome de Down en un Videojuego Educativo” -
(superiores al 95%). Si estas variables se utilizan de forma independiente, las tasas TIN2017-88858-C2-1-R). Los autores desean agradecer a todos los
de clasificación disminuyen, siendo las más altas las obtenidas utilizando las participantes que participaron en la grabación del corpus. También
características espectrales. Sin embargo, la importancia del resto de las variables queremos agradecer a Lourdes Aguilar, Valle Flores, Yolanda Martín y Ferran
queda clara, ya que cuando se utilizan únicamente las variables relacionadas con Adell. Un agradecimiento especial a los alumnos de la Fundación Personas (
los dominios frecuencial, energético y temporal, la tasa de clasificación puede ser http://www.fundacionpersonas.org) por su motivación durante los
superior a la obtenida utilizando el espectro. entrenamientos.
Apéndice A. Descripción de las características
Las tablas incluidas en este apéndice describen las características utilizadas en cada uno de los dominios. Las características de frecuencia se presentan enTabla A.9. Las
características energéticas se describen enTabla A.10. Las características temporales se explican enTabla A.11. Las características espectrales se presentan enTablas A.12yA.13.
Tabla A.9
Características de frecuencia explicadas. Todas las funciones se aplican solo a las regiones con voz. El texto entre paréntesis muestra el nombre original de las características de eGeMAPS.
Característica Descripción
F0_stddevRisingSlope (F0semitoneFrom27.5Hz_sma3nz_stddevRisingSlope) Desviación estándar de la pendiente de las partes ascendentes de la señal de F0
jitter_stddevNorm (jitterLocal_sma3nz_stddevNorm) Coeficiente de variación de las desviaciones en periodos F0 consecutivos individuales Media
jitter_mean (jitterLocal_sma3nz_amean) de las desviaciones en periodos F0 consecutivos individuales
F0_pctlrange (F0semitoneFrom27.5Hz_sma3nz_pctlrange0-2) Rango de 20 a 80 de F0 logarítmico en una escala de frecuencia de semitono, comenzando en 27,5 Hz
F0_percentile20 (F0semitoneFrom27.5Hz_sma3nz_percentile20.0) Percentil 20 de F0 logarítmico en una escala de frecuencia de semitono, comenzando en 27,5 Hz
F0_percentile50 (F0semitoneFrom27.5Hz_sma3nz_percentile50.0) Percentil 50 de F0 logarítmico en una frecuencia de semitono escala, a partir de 27,5 Hz
F0_mean (F0semitoneFrom27.5Hz_sma3 nz_amean) Media de F0 logarítmico en una escala de frecuencia de semitono, a partir de 27,5 Hz
F0_stddevNorm (F0semitoneFrom27.5Hz_sma3nz_stddevNorm) Coeficiente de variación de F0 logarítmico en una escala de frecuencia de semitono, a partir de 27,5 Hz Percentil
F0_percentile80 (F0semitoneFrom27.5Hz_sma3nz_percentile80.0) 80-th de F0 logarítmico en una escala de frecuencia de semitono, a partir de 27,5 Hz
Tabla A.10
Características energéticas explicadas. Todos los funcionales se aplican a las regiones sonoras y sordas juntas. El texto entre paréntesis muestra el nombre original de las funciones de eGeMAPSe.
loudness_percentile20 (loudness_sma3_percentile20.0) Percentil 20-th de la estimación de la intensidad de la señal percibida de un espectro auditivo Percentil 50-th de
loudness_percentile50 (loudness_sma3_percentile50.0) la estimación de la intensidad de la señal percibida de un espectro auditivo Media de la estimación de la
loudness_mean (loudness_sma3_amean) intensidad de la señal percibida de un espectro auditivo Percentil 80-th de la estimación de la intensidad de la
loudness_percentile80 (loudness_sma3_percentile80.0) señal percibida de un espectro auditivo Rango de 20-th a 80-th de la estimación de la intensidad de la señal
loudness_pctlrange02 (loudness_sma3_pctlrange0-2) percibida de un espectro auditivo Desviación estándar de la pendiente de las partes crecientes de la sonoridad
loudness_stddevRisingSlope (loudness_sma3_stddevRisingSlope) de la señal
loudness_stddevNorm (loudness_sma3_stddevNorm) shimmer_mean Coeficiente de variación de la estimación de la intensidad de la señal percibida de un espectro auditivo Media
(shimmerLocaldB_sma3nz_amean) ) de la diferencia de las amplitudes máximas de períodos F0 consecutivos
shimmer_stddevNorm (shimmerLocaldB_sma3nz_stddevNorm) Coeficiente de variación de la diferencia de las amplitudes máximas de períodos F0 consecutivos
98
Tabla A.11
Explicación de las características temporales.
silencioPorcentaje Porcentaje de duración de regiones sordas

silenciosMean Media de regiones sordas
StddevVoicedSegmentLengthSec Desviación estándar de regiones con voz
continua
PromedioSonidoSegmentoLongitud Media de regiones sordas Número
silenciosPorSegundo de silencios por segundo
Segmentos con voz por segundo El número de regiones sonoras continuas por
segundo
picos de volumen por segundo Número de picos de sonoridad por segundo
PromedioSegmento sonoroLongitudSegmento Media de regiones con voz continua Porcentaje de
de sondeoPorcentaje duración de regiones con voz
Tabla A.12
Características espectrales explicadas (parte 1). Si no se dice nada, las funciones se aplican juntas a las regiones sonoras y sordas. El texto entre paréntesis muestra el nombre original de las características de eGeMAPS.
mfcc3_stddevNorm (mfcc3_sma3_stddevNorm) Coeficiente de variación de Mel-Frecuencia Cepstral Coeficiente 3

pendienteV0500_media (pendienteV0-500_sma3nz_amean) Media de la pendiente de regresión lineal del espectro de potencia logarítmica dentro de la banda de 0 a 500 Hz en las regiones sonoras
mfcc2V_media (mfcc2V_sma3nz_amean) mfcc4_stddevNorm Media del coeficiente 2 de la frecuencia Mel-Cepstral en las regiones sonoras
(mfcc4_sma3_stddevNorm) pendienteUV0500_media Coeficiente de variación de Mel-Frecuencia Cepstral Coeficiente 4
(pendienteUV0-500_s ma3nz_amean) Media de la pendiente de regresión lineal del espectro de potencia logarítmica dentro de la banda de 0 a 500 Hz en regiones
sordas
pendienteV0500_stddevNorm (pendienteV0-500_sma3nz_stddevNorm) Coeficiente de variación de la pendiente de regresión lineal del espectro de potencia logarítmica dentro de la banda de 0 a 500 Hz en regiones
sonoras
mfcc2_stddevNorm (mfcc2_sma3_stddevNorm) Coeficiente de variación de Mel-Frecuencia Cepstral Coeficiente 2
mfcc2_mean (mfcc2_sma3_amean) Media de Mel-Frecuencia Cepstral Coeficiente 2
alphaRatioUV_mean (alphaRatioUV_sma3nz_amean) Media de la relación de la energía sumada de 50 a 1000 Hz y de 1 a 5 kHz en regiones sordas Coeficiente de
logRelF0H1A3_stddevNorm (logRelF0-H1-A3_sma3nz_stddevNorm) variación de la relación de energía del primer armónico F0 (H1) a la energía del armónico más alto en el rango del
tercer formante ( A3) en regiones sonoras
hammarbergIndexUV_mean (hammarbergIndexUV_sma3nz_amean) Media de la relación entre el pico de energía más fuerte en la región de 0 a 2 kHz y el pico más fuerte en la región de 2 a 5 kHz
en regiones sordas
mfcc3V_stddevNorm (mfcc3V_sma3nz_stddevNorm) Coeficiente de variación del Coeficiente Cepstral 3 de la Frecuencia Mel en las regiones sonoras
mfcc4V_stddevNorm (mfcc4V_sma3nz_stddevNorm) Coeficiente de variación del Coeficiente Cepstral 4 de la Frecuencia Mel en las regiones sonoras
mfcc4_mean (mfcc4_sma3_amean) Media del Coeficiente Cepstral 4 de la Frecuencia Mel
spectralFlux_mean (spectralFlux_sma3nz_amean) Media de la diferencia de los espectros de dos fotogramas consecutivos
spectralFluxUV_mean (spectralFluxUV_sma3nz_amean) Media de la diferencia de los espectros de dos fotogramas consecutivos en regiones sordas Media de
spectralFluxV_mean (spectralFluxV_sma3nz_amean) la diferencia de los espectros de dos fotogramas consecutivos en regiones sonoras
Tabla A.13
Características espectrales explicadas (parte 2). Si no se dice nada, las funciones se aplican juntas a las regiones sonoras y sordas. El texto entre paréntesis muestra el nombre original de las características de eGeMAPS.
alphaRatioV_mean (alphaRatioV_sma3nz_amean) mfcc4V_mean Media de la relación de la energía sumada de 50 a 1000 Hz y de 1 a 5 kHz en regiones sonoras Media
(mfcc4V_sma3nz_amean) hammarbergIndexV_mean del coeficiente cepstral de frecuencia Mel 4 en regiones sonoras
(hammarbergIndexV_sma3nz_amean) Media de la relación entre el pico de energía más fuerte en la región de 0 a 2 kHz y el pico más fuerte en la
región de 2 a 5 kHz en las regiones sonoras
mfcc1V_mean (mfcc1V_sma3nz_amean) hammarbergIndexV_stddevNorm Media del coeficiente cepstral 1 de la frecuencia Mel en las regiones sonoras
(hammarbergIndexV_sma3nz_stddevNorm) Coeficiente de variación de la relación entre el pico de energía más fuerte en la región de 0 a 2 kHz y el pico más
fuerte en la región de 2 a 5 kHz en las regiones sonoras
mfcc1_media (mfcc1_sma3_media) logRelF0H1A3_media Coeficiente cepstral 1 de frecuencia Mel
(logRelF0-H1-A3_sma3nz_media) Media de la relación de energía del primer armónico F0 (H1) a la energía del armónico más alto
en el rango del tercer formante (A3) en regiones sonoras
F3amplitudeLogRelF0_mean (F3amplitudeLogRelF0_sma3nz_amean) Media de la relación entre la energía del pico armónico espectral en la frecuencia central del tercer
formante y la energía del pico espectral en F0 en las regiones sonoras
F3amplitudeLogRelF0_stddevNorm (F3amplitudeLogRelF0_sma3nz_stddevNorm) Coeficiente de variación de la relación entre la energía del pico armónico espectral en la frecuencia central del
tercer formante y la energía del pico espectral en F0 en las regiones sonoras Media de la pendiente de regresión
pendienteV5001500_media (pendienteV500-1500_sma3nz_media) lineal del espectro de potencia logarítmica dentro de la banda de 500–1500 Hz en las regiones sonoras regiones
F2amplitudeLogRelF0_mean (F2amplitudeLogRelF0_sma3nz_amean) Media de la relación entre la energía del pico armónico espectral en la frecuencia central del segundo
formante y la energía del pico espectral en F0 en las regiones sonoras
F2amplitudeLogRelF0_stddevNorm (F2amplitudeLogRelF0_sma3nz_stddevNorm) Coeficiente de variación de la relación entre la energía del pico armónico espectral en la frecuencia central del
segundo formante y la energía del pico espectral en F0 en las regiones sonoras Coeficiente de variación del
F1bandwidth_stddevNorm (F1bandwidth_sma3nz_stddevNorm) ancho de banda del primer formante en las regiones sonoras
F1frequency_stddevNorm (F1frequency_sma3nz_stddevNorm) Coeficiente de variación de la frecuencia central del primer formante en las regiones sonoras
F3frequency_stddevNorm (F3frequency_sma3nz_stddevNorm) Coeficiente de variación de la frecuencia central del tercer formante en las regiones sonoras
spectralFlux_stddevNorm (spectralFlux_sma3_stddevNorm) Coeficiente de variación de la diferencia de los espectros de dos fotogramas consecutivos Media de
F3frequency_mean (F3frecuencia_sma3nz_amean) la frecuencia central del tercer formante en las regiones sonoras
99
Referencias estudiantes universitarios varones sin formación. J. Voz 23 (6), 671–676.

Leshin, L., 2000. Cirugía Plástica en Niños con Síndrome de Down. Síndrome de Down:
Temas de salud: Noticias e información para padres y profesionales.
Albertini, G., Bonassi, S., Dall'Armi, V., Giachetti, I., Giaquinto, S., Mignano, M., 2010. Luo, D., Luo, R., Wang, L., 2017. Análisis de prosodia del inglés L2 para la evaluación de la naturalidad
Análisis espectral de la voz en síndrome de down. Res. desarrollo Deshabilitar 31 (5), 995–
a través de la modificación del habla. proc. Interdiscurso. págs. 1775–1778.
1001. Bhagyalakshmi, G., Renukarya, A., Rajangam, S., 2007. Análisis métrico del paladar duro
Markaki, M., Stylianou, Y., 2010. Características espectrales de modulación para una calidad de voz objetiva
en niños con síndrome de Down-un estudio comparativo. Síndrome de Down Res. Practica
evaluación. Comunicaciones, Control y Procesamiento de Señales (ISCCSP), 2010 4º
12 (1), 55–59.
Simposio Internacional sobre. IEEE, págs. 1–4.
Boersma, P., 2006. Praat: haciendo fonética por computadora.http://www.praat.org/. Bunton, K.,
Markaki, M., Stylianou, Y., 2011. Detección y discriminación de patologías de la voz basadas en
Leddy, M., 2011. Una evaluación del área del espacio de trabajo articulatorio en vocal
características espectrales de modulación. Trans. IEEE. Idioma de voz de audio Proceso. 19 (7),
producción de adultos con síndrome de down. Ling clínico. Fonética 25 (4), 321–334. 1938-1948.
Chapman, R., Hesketh, L., 2001. Language, cognition, and short-term memory in in- Martin, GE, Klusek, J., Estigarribia, B., Roberts, JE, 2009. Características lingüísticas de
individuos con síndrome de Down. Síndrome de Down Res. Practica 7 (1), 1–7. individuos con síndrome de Down. Arriba. Idioma Desorden. 29 (2), 112.
Chapman, RS, 1997. Desarrollo del lenguaje en niños y adolescentes con Down Martinez, J., Perez, H., Escamilla, E., Suzuki, MM, 2012. Reconocimiento del hablante usando Mel
síndrome. menta Retardar. desarrollo Deshabilitar Res. Rev. 3 (4), 307–312.
Coeficientes cepstrales de frecuencia (MFCC) y técnicas de cuantificación vectorial (VQ).
Cleland, J., Wood, S., Hardcastle, W., Wishart, J., Timmins, C., 2010. Relación entre Comunicaciones Eléctricas y Computación (CONIELECOMP). IEEE, págs. 248–251. Martínez,
entre el habla, oromotor, lenguaje y habilidades cognitivas en niños con síndrome MH, Duran, XP, Navarro, JN, 2011. Trastorno por déficit de atención con o
de Down. En t. J.Lang. común Desorden. 45 (1), 83–95. Corrales-Astorgano, M., sin hiperactividad ni impulsividad en niños con síndrome de Down. En t. Medicina. Rev.
Escudero-Mancebo, D., González-Ferreras, C., 2016. Acústica Síndrome de Down 15 (2), 18–22.
análisis del uso anómalo de rasgos prosódicos en un corpus de personas con discapacidad
Moran, MJ, 1986. Identificación de adultos con síndrome de Down a partir de vocales prolongadas
intelectual. Avances en las Tecnologías del Habla y el Lenguaje para las Lenguas Ibéricas:
muestras J. común. Desorden. 19 (5), 387–394.
Tercer Congreso Internacional IberSPEECH. Springer, págs. 151–161. Devenny, D., Silverman,
Moran, MJ, Gilbert, HR, 1982. Características acústicas seleccionadas y juicios del oyente
W., 1990. Disfluencia del habla y especialización manual en
de la voz de los adultos con síndrome de Down. Soy. J. Ment. Déficit.
Síndrome de Down. J. Intelecto. Deshabilitar Res. 34 (3), 253–260.
Moura, CP, Cunha, LM, Vilarinho, H., Cunha, MJ, Freitas, D., Palha, M., Pueschel,
Dibazar, AA, Berger, TW, Narayanan, SS, 2006. Evaluación patológica de la voz.
SM, Pais-Clemente, M., 2008. Parámetros de voz en niños con síndrome de Down. J.
Sociedad de Ingeniería en Medicina y Biología (EMBS). IEEE, págs. 1669–1673. Dusan, S.,
Voz 22 (1), 34–42.
Deng, L., 1998. Recuperación de formas del tracto vocal a partir de parámetros mfcc. ICSLP.
Pentz Jr, AL, 1987. Amplitud formante de niños con síndrome de Down. Soy. J. Ment.
Eggers, K., Van Eerdenbrugh, S., 2017. Dificultades del habla en niños con síndrome de Down
defecto 92 (2), 230–233.
dromo. J. común. desorden.
Rochet-Capellan, A., Dohen, M., 2015. Caracterización acústica de la producción de vocales por
Escudero, D., González, C., Gutiérrez, Y., Rodero, E., 2017. Característica identificativa adultos jóvenes con síndrome de Down. 18º Congreso Internacional de Ciencias Fonéticas
patrones prosódicos a través del análisis de la información de secuencias de etiquetas sp_tobi.
(ICPhS 2015).
computar Idioma del habla 45, 39–57.
Rodger, R., 2009. Calidad de voz de niños y jóvenes con Síndrome de Down y
Eyben, F., Scherer, KR, Schuller, BW, Sundberg, J., André, E., Busso, C., Devillers, LY, su impacto en el juicio del oyente. Universidad Reina Margarita.
Epps, J., Laukka, P., Narayanan, SS, et al., 2016. El conjunto de parámetros acústicos minimalistas de
Saz, O., Simón, J., Rodríguez, W., Lleida, E., Vaquero, C., et al., 2009. Análisis de acústica
Ginebra (GeMAPS) para la investigación de la voz y la computación afectiva. Trans. IEEE. Afectar.
características en hablantes con trastornos cognitivos y alteraciones del habla. EURASIP J.
computar 7 (2), 190–202.
Adv. Proceso de señal. 2009, 1.
Eyben, F., Weninger, F., Gross, F., Schuller, B., 2013. Desarrollos recientes en openmile,
Saz, O., Yin, SC, Lleida, E., Rose, R., Vaquero, C., Rodríguez, WR, 2009. Herramientas y
el extractor de funciones multimedia de código abierto de Munich. Actas de la 21ª
Tecnologías para la terapia del habla y lenguaje asistida por computadora.
conferencia internacional ACM sobre Multimedia. ACM, págs. 835–838.
Comunicación del habla 51 (10), 948–967.
Gauffin, J., Sundberg, J., 1977. Aplicaciones clínicas del análisis acústico de la voz. Parte II:
Schiel, F., 1999. Transcripción fonética automática del habla no estimulada. Internacional
análisis acústico, resultados y discusión. Laboratorio de transmisión del habla,
Congreso de Ciencias Fonéticas (ICPhS). págs. 607–610.
informe trimestral de progreso y estado.
Schuller, BW, Steidl, S., Batliner, A., Hirschberg, J., Burgoon, JK, Baird, A., Elkins, AC,
González-Ferreras, C., Escudero-Mancebo, D., Corrales-Astorgano, M., Aguilar-Cuevas, L.,
Zhang, Y., Coutinho, E., Evanini, K., 2016. El desafío de la paralingüística computacional
Flores-Lucas, V., 2017. Involucrar a adolescentes con síndrome de Down en un videojuego educativo.
interspeech 2016: engaño, sinceridad y lengua nativa. ENTRE DISCURSO. págs. 2001–2005.
En t. J. Computación humana. Interactuar. 1–20.
Guimaraes, CV, Donnelly, LF, Shott, SR, Amin, RS, Kalra, M., 2008. Relativo más bien
Seifpanahi, S., Bakhtiar, M., Salmalian, T., 2011. Parámetros vocales objetivos en farsi-
que la macroglosia absoluta en pacientes con síndrome de Down: implicaciones para el tratamiento
adultos hablantes con síndrome de down. Folia Phoniatrica et Logopaedica 63 (2), 72–
de la apnea obstructiva del sueño. pediatra Radiol. 38 (10), 1062.
76.
Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., Witten, IH, 2009. El
Shott, SR, Joseph, A., Heithaus, D., 2001. Pérdida auditiva en niños con síndrome de Down.
Software de minería de datos weka: una actualización. Boletín de exploraciones ACM SIGKDD. 11 (1),
En t. J. Pediatría. Otorrinolaringol. 61 (3), 199–205.
10–18.
Van Borsel, J., Vandermeulen, A., 2008. Desorden en el síndrome de Down. Folia foniatrica
Hillenbrand, J., Houde, RA, 1996. Correlatos acústicos de la calidad vocal entrecortada: dis-
et Logopaedica 60 (6), 312–317.
voces fónicas y habla continua. J. Idioma del habla. Audiencia Res. 39 (2), 311–321. House, AS,
Wold DC, MJ, 1979. Desviaciones preliminares de la voz percibidas y trastornos auditivos de
Stevens, KN, 1956. Estudios analógicos de la nasalización de las vocales. J. Discurso
adultos con síndrome de Down. Percepción. Agudeza. Habilidades 49, 564-564.
Trastorno Auditivo. 21 (2), 218–232.
Wuang, Y.-P., Chiang, C.-S., Su, C.-Y., Wang, CC-C., 2011. Eficacia de la realidad virtual
Huffman, MK, 1989. Implementación de nasal: sincronización y puntos de referencia articulatorios.
utilizando la tecnología de juegos de Wii en niños con síndrome de Down. Res. desarrollo Deshabilitar
Universidad de California, Los Angeles.
32 (1), 312–321.
Kent, RD, Vorperian, HK, 2013. Deterioro del habla en el síndrome de Down: una revisión. j
Yuan, J., Liberman, M., 2011. Medición automática y comparación de vocales nasa-
Idioma del habla Audiencia Res. 56 (1), 178–210.
lización a través de idiomas. Actas de ICPhS.
Kisler, T., Reichel, U., Schiel, F., 2017. Procesamiento multilingüe de voz a través de servicios web.
Zampini, L., Fasolo, M., Spinelli, M., Zanchi, P., Suttora, C., Salerni, N., 2016. Prosódico
computar Idioma del habla 45, 326–347.
habilidades en niños con síndrome de down y en niños con desarrollo típico. En t.
Lee, MT, Thorpe, J., Verhoeven, J., 2009. Entonación y fonación en adultos jóvenes con
J.Lang. común Desorden. 51 (1), 74–83.
Síndrome de Down. J. Voz 23 (1), 82–87.
Leino, T., 2009. Espectro medio a largo plazo en cribado de calidad de voz en habla:
100

Acoustic Characterization and Perceptual Analysis of The Relative Importance of Prosody in Speech of People With Down Syndrome ESPAÑOL

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Acoustic Characterization and Perceptual Analysis of The Relative Importance of Prosody in Speech of People With Down Syndrome ESPAÑOL

Cargado por

Copyright:

Formatos disponibles

Traducido del inglés al español - www.onlinedoctranslator.

Comunicación del habla 99 (2018) 90–100

Listas de contenidos disponibles enCienciaDirecta

Comunicación del habla

revista Página de inicio:www.elsevier.com/locate/specom

Caracterización acústica y análisis perceptivo de la importancia relativa de la

INFORMACIÓN DEL ARTÍCULO ABSTRACTO

Autor Grupo Frecuencia Duración Volumen

Roger (2009) Adultos y sin diferencias

Autor Grupo Síndrome de Down Tipo de control Tamaño Idioma

monotonía al jugar. Tabla 4

decir, declarativas, interrogativas y exclamativas). Por lo general, los patrones de

casos, la inflexión tonal corresponde a una semipausa que no implica

comparar su rendimiento: el árbol de decisión (DT) C4.5, el perceptrón multicapa (MLP) y

la máquina de vectores de soporte (SVM).

Además, se utilizó la técnica de validación cruzada de 10 veces para crear los

conjuntos de datos de entrenamiento y prueba. Para evitar la adaptación del clasificador,

todos los pliegues se crearon mediante grabaciones de diferentes hablantes. Por lo

equilibró en términos de número de grabaciones.

percentil_de_sonoridad20 0,95 ± 0.38 (0.91,1.01) 1,77 ± 1.03 (1.66,1.88)

pendiente, el índice de Hammarberg y el alfa. Formante 1

Funciones relacionadas con LTAS

pendienteV0500_media 0± 0.03 (0,0.01) 0.05 ± 0.03 (0.056,0.063)

comúnmente utilizado en aplicaciones de reconocimiento de hablantes (

5.2. Impacto relativo de la prosodia

lograr resultados representativos. La grabación de un corpus de habla de características.

6. Conclusiones El trabajo descrito en este artículo fue financiado (1/2016-12/2017) por la

Apéndice A. Descripción de las características

F0_stddevRisingSlope (F0semitoneFrom27.5Hz_sma3nz_stddevRisingSlope) Desviación estándar de la pendiente de las partes ascendentes de la señal de F0

silencioPorcentaje Porcentaje de duración de regiones sordas

mfcc3_stddevNorm (mfcc3_sma3_stddevNorm) Coeficiente de variación de Mel-Frecuencia Cepstral Coeficiente 3

Referencias estudiantes universitarios varones sin formación. J. Voz 23 (6), 671–676.

También podría gustarte