Percepcion Del Habla en Ruido

Revista
Española
de Lingüística
Órgano de la Sociedad Española de Lingüística
45 1
RSEL Enero-Junio
2015
Edita
Se L

REVISTA ESPAÑOLA DE LINGÜÍSTICA

(RSEL)
45/1
Edita
Se L
REVISTA ESPAÑOLA DE LINGÜÍSTICA (RSEL)
ISSN: 0210-1874 • eISSN: 2254-8769
Depósito Legal: M-24.769-1971
Director de honor: D. Francisco Rodríguez Adrados (RAE y RAH).

Director: Juan Antonio Álvarez-Pedrosa Núñez (UCM).
Secretario: Luis Unceta Gómez (UAM).
Consejo de redacción: Montserrat Benítez (CSIC), José Antonio Berenguer (CSIC),

Joaquín Garrido (UCM), Juana Gil Fernández (CSIC), Salvador Gutiérrez
Ordóñez (U. León y RAE), Antonio Hidalgo (U. Valencia), Patricia Infante (CSIC),
Manuel Leonetti (U. Alcalá), Eugenio Luján (UCM), Victoria Marrero (UNED),
Ventura Salazar (U. Jaén), Esperanza Torrego (UAM).
Consejo asesor: Alberto Bernabé (UCM), Margarita Cantarero (SEL), Ramón Cerdá
(UB), Victoria Escandell (UNED), Marina Fernández Lagunilla (UAM), José Manuel
González Calvo (U. Extremadura), Emma Martinell (UB), Juan Carlos Moreno Cabrera
(UAM), Gregorio Salvador (RAE), José Carlos de Torres (SEL), Jesús de la Villa (UAM).
A partir del número 38 (2008) la Revista Española de Lingüística ha recuperado el

formato de dos fascículos al año, con periodicidad semestral. Los trabajos enviados
para su publicación han de dirigirse al Secretario de la revista. Deberán ser originales
e inéditos y ajustarse a las normas que aparecen en el número 38/2, así como en la
página web de la Sociedad Española de Lingüística. Todos los trabajos son sometidos
al dictamen de al menos dos evaluadores designados por el Consejo de Redacción,
mediante informes de carácter confidencial.
Los derechos de publicación y difusión, bajo cualquier forma, son propiedad de RSEL.
Todo texto publicado en la revista obliga a sus autores a no cederlo a terceros, sin
autorización previa de la revista, quien sí queda autorizada a comercializarlo, debiendo
entregar, en este caso, el 50% de los beneficios obtenidos a sus autores.
Redacción: Sociedad Española de Lingüística, Centro de Ciencias Humanas y Sociales

del CSIC, c/ Albasanz, 26 - 28, 28037 Madrid. Correo electrónico: secretarioRSEL@
gmail.com. <http://www.sel.edu.es/>
Diseño y composición: Carmen Chincoa & Carlos Curiá (produccionRSEL@gmail.com)
Servicios de información: Los contenidos de la RSEL son recogidos sistemáticamente

en Bibliographie Linguistique / Linguistic Bibliography, CINDOC – Base de datos
Sumarios ISOC, CSA – Linguistic and Language Behavior Abstracts, Dialnet, Francis,
Modern Language ssociation (MLA) Bibliography.
ÍNDICE 45/1 (2015)
Introducción
Nuevas aportaciones al estudio de la percepción del habla................................7
J uana G il - E ugenia S an S egundo
A rtículos
Implicaciones perceptivas de la variación: la fricativa labiodental..................... 25
B eatriz B lecua F algueras - A ssumpció R ost B agudanch
La percepción de la cualidad de voz y los estereotipos vocales .........................45

M arianela F ernández T rinidad
La prosodia audiovisual de la ironía verbal: un estudio de caso .......................73

S antiago G onzález F uente
¿Son distintos el creak y la voz creaky?: Estudio perceptivo preliminar ..........105

P atricia I nfante
La percepción del habla en ruido: un reto para la lingüística ........................129

y para la evaluación audiológica (estudio experimental)
V ictoria M arrero -A guiar
Percepción de los enunciados interrogativos de duda y de enfado ................153

sin apoyo visual en alumnos chinos de ELE
S ílvia P lanas -M orales
Percepción y evaluación de la pronunciación del español como L2 ..............175

E nrique S antamaría B usto

ARTÍCULOS
LA PERCEPCIÓN DEL HABLA EN RUIDO:
UN RETO PARA LA LINGÜÍSTICA Y PARA
LA EVALUACIÓN AUDIOLÓGICA
(ESTUDIO EXPERIMENTAL)*
Victoria Marrero-Aguiar
IMIENS
Universidad Nacional de Educación a Distancia
Resumen
En este trabajo se presentan los resultados de un proyecto de investigación entre el
Programa Infantil Phonak y la UNED, cuyo objetivo fue desarrollar materiales para
evaluar la capacidad para discriminar el habla en ruido por parte de niños con pérdida
auditiva. En ese marco, se aborda la relación entre inteligibilidad del habla (tanto
en estilo normal como en habla hiperarticulada, consecuencia del llamado efecto
Lombard) y la discriminabilidad de la señal en el ruido producido por personas hablando
simultáneamente (multi-speaker babble noise). Hemos contado con dos grupos de
sujetos, el de control, 40 niños con audición normal, y el experimental, 23 niños con
hipoacusia, diferenciando, en este último, los que sufren una pérdida severa de los que
la sufren profunda, y los que cuentan con prótesis auditivas o implante único implante
y los que cuentan con implantación binaural, que obtuvieron más beneficios del habla
hiperarticulada incluso que el grupo de control. Finalmente, se consideran los resultados
en relación con la percepción multimodal del habla y la lectura labial en la hipoacusia.
Palabras clave: percepción del habla; discriminación auditiva; inteligibilidad; habla

clara; efecto Lombard; ruido multihablante; evaluación audiológica;
audiometría verbal en ruido; implante coclear.
Abstract
The results of a research project between the Programa Infantil Phonak and the UNED
are presented in this article. The aim of the Project was to develop a speech-in-noise test
* Agradecemos la colaboración de las siguientes personas en los distintos pasos de la elaboración

del trabajo: en primer lugar, y de forma imprescindible, Juan Carlos Calvo y Mariana Maggio,
del Programa Infantil Phonak, sin cuya participación entusiasta y constante no habría siquiera
nacido este proyecto. Marcelo Rodríguez y Nuria Polo de la UNED; Helena Alves del Consejo
Superior de Investigaciones Científicas; Clara Hernández del Colegio Tres Olivos; Silvia Marro del
CREDA Jordi Perelló; Rafaela Verdú del Centro Audiológico Sensori y todos los niños que han
participado y a sus familias. Por último, pero no menos importante, a los dos revisores anónimos
de la RSEL, cuyos comentarios han mejorado indudablemente este trabajo.
RSEL 45/1 · 2015 · pp. 129–151 · ISSN 0210-1874 · e-ISSN 2254-8769

130 Victoria Marrero-Aguiar
in Spanish for children. In this frame, we consider the relation between intelligibility
of the speech (both in normal style and in hyper-articulated speech, consequence of
the so called Lombard effect) and the discriminability of the signal in multi-speaker
babble noise. Our control group is composed by 40 normal-hearing children, and the
experimental group is composed by 23 hypoacusic children. In the latter, the results were
different for those suffering from severe hearing loss (with auditory prosthesis) versus
those suffering from profound hearing loss (mostly implanted), but also from children
having one cochlear implant or two. This latter group obtained more benefits of the
clear speech even that the control group. Finally, the results are discussed in relation
with the multimodal perception of the speech and the lip-reading in the auditory loss.
Keywords: speech perception; auditory discrimination; intelligibility; clear speech;

Lombard effect; multi-speaker babble noise; audiological evaluation; speech
audiometry; Spanish speech-in-noise test; cochlear implant.
Recibido: 07/04/2014 Aprobado: 16/02/2015
1. Introducción
Este apartado sintetiza algunos aspectos relevantes para el estudio de
los efectos del ruido sobre el habla y de los mecanismos perceptivos que
nos permiten afrontar la tarea de descodificar el mensaje lingüístico en
condiciones adversas (cf. Marrero-Aguiar, Rodríguez-Cruz e Igualada-Pérez
2014, para una exposición más detallada), resumiendo las razones que,
sumadas a su aplicación clínica, hacen de su análisis un objeto de estudio
relevante para la lingüística.
1.1. El ruido y sus efectos sobre el habla
El ruido es cualquier sonido molesto o indeseado (Namba, Kuwano y

Schick 1986), por tanto, solo la percepción subjetiva determina que un
sonido se convierta en ruido. Aunque existen muchas taxonomías para
clasificarlos y muchos tipos de ruidos, nos centraremos en los que mayores
interferencias producen para el reconocimiento del habla: precisamente
los generados mediante habla, que encontramos cuando diferentes con-
versaciones se superponen. Para su utilización con fines de investigación
se suele distinguir entre los siguientes:
• El ruido-multihablante (multitalker babble), se genera a partir de

grabaciones humanas de forma similar a la superposición de conver-
saciones. Su nivel de inteligibilidad depende, entre otros factores,
del número de locutores que se haya superpuesto para crear el estí-
mulo: dos, cuatro, seis, del mismo sexo, de ambos... (Wilson 2003).
Existe un cierto debate sobre los efectos de utilizar un ruido creado

La Percepción Del Habla En Ruido 131
con conversaciones de una lengua sobre una señal en otra; Hoen y

otros 2007 ponen de manifiesto que no solo factores fónicos parti-
culares de cada lengua (como la base de articulación, el predominio
de sonidos anteriores o posteriores), o prosódicos (tipo de acento,
patrones entonativos), sino incluso el contenido léxico y semántico de
los fragmentos de habla utilizados para la creación de ruido pueden
alterar sus efectos. La influencia de la lengua en la que se construye
el ruido multihablante sobre sus efectos como máscara de la señal
lingüística ha sido puesta de manifiesto para el contraste danés-sueco
por Rhebergen y otros 2005, inglés-chino por Van Engen y Bradlow
2007, y en español-inglés (aunque solo para identificar consonantes
inglesas) en García Lecumberri y Cooke 20061. En algunos de estos
trabajos se pone de manifiesto la interrelación entre el efecto de la
lengua utilizada en el ruido y el número de locutores: cuando este
es elevado (seis), los efectos del ruido son similares sea cual sea la
lengua utilizada, debido a que la posibilidad de identificar compo-
nentes con significado es mucho menor que con un número de lo-
cutores más bajo (dos).
• El ruido-con-forma-de-habla (speech-shaped noise) se consigue por
medio de programas informáticos, mediante lo que se conoce como
«separación de la fuente y el filtro», es decir, segregando la señal
originada en los pliegues vocales de la señal conformada por todas
las estructuras fijas o móviles implicadas en la articulación del habla.
Algunos estudios han comparado el efecto del ruido con forma de
habla y del ruido multihablante sobre la señal lingüística, concluyen-
do que resulta más enmascarante2 el segundo que el primero (Hoen
y otros 2007; Parikh y Loizou 2005; Hall, Grose, Buss y Dev 2002 lle-
gan a conclusiones similares, especialmente en niños).
• En trabajos de orientación psicolingüística, especialmente, aunque
también en algunos del ámbito audiológico (Tillman, Carhart y
Olsen 1970) se utiliza competing speech, habla en competencia,
para enmascarar la señal lingüística: en este caso, se trata de una
grabación paralela, a menudo perfectamente inteligible, pero a la
que el sujeto no debe prestar atención (aunque en algunos expe-
rimentos se invierte la señal, para quitarle el contenido semántico,
como en el trabajo clásico de Dirks y Bower 1969; en otros el habla
de la máscara está en distinto idioma que la de la señal, como en
García Lecumberri y Cooke 2006). El habla en competencia se uti-
liza especialmente para valorar el enmascaramiento informativo, y
1. Cuestión diferente, pero no menos interesante, son las variaciones interlingüísticas e
interculturales en cuanto a la tolerancia al ruido y sus efectos, cf. Namba, Kuwano y Schick 1986
para una comparación entre alemanes y japoneses.
2. Cf. p. 140 el concepto de enmascaramiento.

diferenciarlo del energético (Schneider, Li y Daneman 2007), como

veremos a continuación.
El ruido provoca un efecto sobre la señal que se conoce como enmas-

caramiento, «el proceso por el cual el umbral de audibilidad de un soni-
do aumenta debido a la presencia de otro sonido (máscara)» (American
Standards Association 1960). Por tanto, con este término nos referimos
«a la presencia de un estímulo que interfiere en la percepción de otro»
(Marrero 2008, p. 221). Según el orden de presentación de los estímulos,
se habla de enmascaramiento simultáneo (la energía de la máscara se
superpone a la de la señal); progresivo o regresivo (la máscara interfiere
con el procesamiento de la señal: intercepta la memoria, crea un referente
incorrecto, le añade información...); según el tipo de estímulo utilizado,
la máscara y el modelo pueden ser del mismo tipo (tono sobre tono) o
diferentes (ruido sobre tono); se puede variar la vía de presentación de
los estímulos (un oído, ambos, señal por uno y ruido por otro), la tarea a
la que se enfrenta el oyente, etc.
Pero cuando consideramos las interferencias que el ruido conversacional
provoca en la descodificación del habla es de especial interés considerar
por separado el efecto físico del cognitivo: por una parte sufrimos el lla-
mado «enmascaramiento energético», que se produce como un fenómeno
puramente auditivo, debido a que los dos estímulos presentan energía en
las mismas bandas de frecuencia (este es un fenómeno bien conocido y
descrito desde el punto de vista psicoacústico). A él se añade el «enmasca-
ramiento informativo», en referencia a la interferencia provocada por ele-
mentos cognitivos de alto nivel sobre la capacidad del oyente para extraer
un patrón de la señal enmascarada (Brungart 2001; Freyman, Balakrishnan
y Helfer 2001). Algunos de esos elementos son el grado de familiaridad
con el contenido del mensaje, la mayor o menor semejanza entre la voz
de la señal y las de la máscara (ruidos producidos por locutores del mismo
sexo que el del hablante producen más efecto que si son diferentes, por
ejemplo); la localización del ruido y la de la señal en el escenario auditivo;
la riqueza de claves visuales del habla en el locutor; y también las diferen-
cias cognitivas entre sujetos (cf. 1.2.2); todo ello hace que los resultados
del enmascaramiento informativo sean mucho más variables y difíciles de
cuantificar que los del enmascaramiento energético.
1.2. Recursos para afrontar la percepción del habla en ruido
El sistema de descodificación auditivo y lingüístico nos permite utilizar

una serie de herramientas para superar la compleja tarea de separar la
señal del ruido. Algunos de ellos son puramente neurofisiológicos, otros
proceden de la propia señal, tanto en su estructura puramente acústica
como en su carácter multimodal, y otros dependen de variables individuales.

En cuanto a los primeros, parece que el sistema de vías eferentes, que

se inician en el cerebro y terminan en el sistema auditivo, y más concre-
tamente uno de sus núcleos, el haz o fascículo olivo-coclear medial (en
inglés, auditory medial olivocochlear, MOC), actuaría como un potente
anti-enmascarador gracias a la capacidad de inhibición que le permiten
sus conexiones con las células ciliadas externas (Kawase, Delgutte y Liber-
man 1993; Kawase y Libeman 1993; Giraud y otros 1997, con pacientes con
las vías eferentes cortadas; Kumar y Vanaja 2004, con niños normoyentes
de alto rendimiento; Muchnik y otros 2004, con niños con trastornos del
procesamiento auditivo; Kim, Frisina y Frisina 2006 con adultos jóvenes,
de mediana edad y ancianos, etc.).
La propia señal del habla cuenta con elementos más redundantes o más
robustos que otros: las vocales son más resistentes que las consonantes y
los modos de articulación más que los lugares (Marrero 1990; Ziegler y
otros 2009); las variaciones tonales son uno de los elementos perceptiva-
mente más potentes en el habla: cuanto más distantes estén las frecuen-
cias fundamentales de los hablantes, más fácil será la discriminación del
mensaje. Todo ello se refuerza en el habla hiperarticulada, la que se emite
cuidando la inteligibilidad de la señal para lograr una descodificación óp-
tima (Lindblom 1996). En concreto, cuando un hablante está sometido a
ruido, es bien conocido que inconscientemente genera el llamado «efecto
Lombard», estrategia para incrementar la perceptibilidad de la señal en
entornos ruidosos (Lombard 1911). Tal efecto se consigue principalmente
elevando el tono, aumentando las frecuencias formánticas, subiendo la
intensidad y disminuyendo la tasa de habla. Estas modificaciones varían
en función del tipo de ruido y del contenido de la señal. En relaciones
señal/ruido altas afectan por igual a toda la señal, pero cuando el ruido
se acerca a la señal, los cambios son mayores en las palabras con conteni-
do semántico (Patel y Schell 2008; para el español, Castellanos, Benedí
y Casacuberta 1996; una revisión de cien años de investigación sobre el
mismo en Brumm y Zollinger 2011).
También facilita la descodificación la familiaridad con la voz de la señal
(Brungart 2001). Y en situaciones cotidianas de habla, donde la informa-
ción auditiva se suma a la visual, el gesto no se ve afectado por el ruido,
por lo que cobra especial preponderancia hasta el punto de alcanzar
una «efectividad inversa» respecto al sonido: «el efecto de verle el movi-
miento de los labios al hablante incrementa cuando se reduce la relación
señal-ruido» (Barutchu y otros 2010, p. 39; más adelante presentaremos
algunas reflexiones sobre este fenómeno en relación con la lectura labial
en la hipoacusia).
En entornos ruidosos, para extraer la información es necesario focalizar
la atención en una fuente de información e inhibirla simultáneamente de
los flujos informativos de fondo, una capacidad estudiada bajo la etiqueta
de «cocktail party effect» (Cherry 1953). En esta línea se ha estudiado la

separación espacial de las fuentes de información, las características de la

señal de habla que hacen posible este fenómeno: el espectro promediado
de larga duración, la modulación espectral, la semejanza de las voces que
se mezclan, etc. (Bronkhorst 2000).
En cuanto a variables individuales, la edad es un factor determinante: el
efecto del ruido multihablante sobre el mensaje lingüístico va atenuándose
a medida que los niños crecen, posiblemente debido al aprendizaje de
estrategias específicas para superar sus efectos, como la aplicación de
mecanismos de descodificación analíticos y no holísticos (Fallon 2001).
En el ámbito clínico, Ziegler y otros 2009 analizan las respuestas de niños
con patologías del habla y dislexia; según sus resultados, en ambos casos
la capacidad de discriminación está significativamente por debajo de la
que presenta la población normal en igualdad de condiciones (similar
nivel de desarrollo lector), concluyendo que «la percepción de habla
en ruido predice las habilidades lectoras subyacente a nivel audición
periférica (precoclear), memoria, producción o habilidades atencionales»
(Ziegler y otros 2009, p. 742). También los niños con problemas de
aprendizaje muestran especiales dificultades para interpretar el habla
en ruido; en un estudio con técnicas de neuroimagen se encontraron
«anomalías en la representación sensorial fundamental de los sonidos,
tanto a nivel cortical como en el tronco cerebral, en niños con problemas
de aprendizaje cuando los sonidos del habla se presentaban en ruido,
pero no en silencio» (Cunningham y otros 2001, p. 758). En cuanto al
otro extremo de la variable edad, la vejez, se ha demostrado que incluso en
personas que mantienen intacta su capacidad auditiva general, a medida
que aumenta la edad se incrementan las dificultades para entender el
habla en condiciones de ruido conversacional (Committee on Hearing,
Bioacoustics and Biomechanics 1988; Rajan y Cainer 2008). En sujetos
presbiacúsicos (es decir, con una pérdida de audición asociada a la edad),
el deterioro auditivo explicaría un 66% de los resultados, pero el 33%
restante tendría su origen en «un decremento general de la actuación
debido a una eficiencia mental reducida, indicada por un enlentecimiento
general y una menor capacidad de memoria» (van Rooij y Plomp 1990,
p. 2611). Estudios con neuroimagen (Wong y otros 2009) muestran que
la activación de la corteza auditiva durante la identificación de la señal
en ruido es menor en las personas de más edad que en los jóvenes, pero
en cambio aumenta la actividad cortical en regiones cognitivas generales,
probablemente como estrategia de compensación, con el coste asociado
en términos de esfuerzo.
Otra variable individual muy importante en la percepción del habla en
ruido es la relación con la lengua en la que se presenta el estímulo (lengua
materna vs. segunda lengua): contamos con numerosas investigaciones
(iniciadas en los años 70: Lane 1963; Gat y Keith 1978, entre otros), donde
se pone de manifiesto que el nivel de competencia en una segunda lengua

influye de manera decisiva en la capacidad para identificar la señal de

habla en ruido: incluso entre hablantes bilingües, si adquirieron la segunda
lengua después de los 14 años (bilingües tardíos) necesitan más intensidad
en la señal para poder diferenciarla del entorno e identificarla que los
monolingües o bilingües tempranos (Mayo, Florentine y Buus 1997); y
cuanto más adversas sean las condiciones (más cercanas la intensidad del
ruido y la de la señal), mayores serán las diferencias entre hablantes nativos
y no nativos, con las correspondientes repercusiones para el rendimiento
escolar de los niños (Crandell y Smaldino 1996) y para su evaluación
auditiva, incluso en el caso de los bilingües (Carlo 2009). Los efectos del
ruido (estacionario, de habla en competencia o multihablante) sobre una
señal lingüística en inglés por parte de aprendices españoles han sido
estudiados en García Lecumberri y Cooke 2006; Cooke, García Lecumberri
y Barker 2008. Estos investigadores analizan también qué parte de las
dificultades se pueden atribuir al enmascaramiento energético y cuáles
al informativo. Según sus resultados, aunque en silencio la actuación de
ambos grupos era similar, los no-nativos sufrieron mucho más que los
nativos el efecto de cualquiera de los ruidos, siendo el multihablante el que
más dificultades les supuso. Para una revisión de estudios experimentales
sobre percepción no nativa en condiciones adversas, puede verse García
Lecumberri, Cooke y Cutler 2010.
1.3. La percepción del habla en ruido en la deficiencia auditiva
Todo lo anteriormente expuesto no es óbice para considerar que, se-

guramente, el factor más determinante para superar las dificultades en la
descodificación de la señal en entornos ruidosos es el nivel de audición
de cada individuo. Cualquier disfunción auditiva produce un efecto de-
vastador sobre la misma, resulta uno de los principales retos de los profe-
sionales e investigadores en audiología, que en los últimos años han ido
desarrollando pruebas para evaluar la discriminación del mensaje oral
(frases, palabras o dígitos) en presencia de ruido enmascarante (Killion y
otros 2006; Wilson y otros 2007; para el español, Marrero-Aguiar y Cárde-
nas 2012; Marrero-Aguiar, Maggio y Calvo 2013).
La discriminación en ruido se ha revelado como la «piedra de toque»
para los sistemas de ayudas técnicas en este campo, tanto en prótesis au-
ditivas, cuyos modelos recientes cuentan con mecanismos para minimi-
zar en lo posible los efectos del ruido, como en los implantes cocleares.
Como consecuencia, es abundante la bibliografía sobre los beneficios de
la estimulación binaural, tanto combinando un implante con una pró-
tesis (Armstrong, Pegg, James y Blamey 1997; Tyler y otros 2002) como
mediante el uso de dos implantes (Wackym y otros 2007; Dunn y otros
2010). En todos los casos descritos, se pone de manifiesto la mejora en
los resultados de identificación de la señal en ruido cuando el paciente

cuenta con información procedente de los dos oídos (la mejora es menor
o inexistente ante la señal en silencio).
Es bien sabido que otro factor facilitador de la discriminación verbal
por parte de las personas con pérdida auditiva es la llamada «habla clara»
o clear speech, un estilo que intenta reforzar la inteligibilidad y es adop-
tado de forma espontánea por los hablantes cuando el oyente tiene una
dificultad perceptiva o una lengua materna diferente (Smiljanic y Brad-
low 2009). Se caracteriza por una menor tasa de habla y mayores modu-
laciones en la envolvente (Liu, del Río, Bradlow y Zeng 2004), y genera
una mejora en la inteligibilidad del 20% en normoyentes y del 26% en
hipoacúsicos (Feliciani 2011). Sin embargo, no conocemos trabajos que
analicen la relación entre el habla hiperarticulada generada por la locu-
ción en entorno ruidoso (efecto Lombard) y la identificación de la señal
verbal en ruido en personas con déficit auditivo; esta sería, por tanto, una
aportación en su estudio.
2. Las Pruebas de Audiometría Verbal en Ruido (PAVER) PIP-UNED

En el año 2011 se pone en marcha un contrato de investigación entre
el Programa Infantil Phonak (PIP) y la UNED, con el objetivo de crear
un conjunto de frases para audiometría infantil en ruido, fónicamente
equilibradas, léxicamente ajustadas al vocabulario frecuente en el grupo
de edad establecido (6-7 años), y gramaticalmente sencillas, para evitar
una sobrecarga de procesamiento ajena a los factores auditivo-perceptivos
(Maggio de Maggi, Marrero-Aguiar y Calvo, en prensa). Las frases de au-
diometría infantil en ruido debían permitir obtener una curva de respuesta
que pasara del 90-100% de aciertos a un 0% en seis frases, mediante un
incremento progresivo de la relación señal/ruido (S/R).
Nuestras hipótesis de partida podrían agruparse en las siguientes:
a) En niños normoyentes (mayores de 6 años) la principal caída en

la inteligibilidad, del 75-80% de aciertos, se producirá en las dos
frases presentadas en una relación S/R próxima a 0 dB (la misma
intensidad en la señal que en el ruido).
b) En niños con pérdida auditiva (mayores de 6 años) bien rehabilita-
dos, con su ayuda técnica en funcionamiento (audífono o implan-
te coclear) la curva de respuesta presentará una pendiente menos
pronunciada, con un descenso del 75-80% de la inteligibilidad en
tres frases, a partir de una relación S/R de 10 dB (más intensa la
señal que el ruido).
c) Las listas locutadas bajo efecto Lombard presentarán una tasa de
aciertos mayor que las emitidas en silencio, pero la diferencia solo
será significativa en las condiciones centrales de enmascaramien-
to (S/R 10 a-5 dB), tanto en sujetos con audición normal como

deficitaria. Por lo tanto, se mantendrá el patrón general descrito

en las dos hipótesis anteriores, con una ventaja de alrededor de 5
dB en relación S/R para las «listas Lombard».
d) Frases de audiometría infantil en ruido permitirán diferenciar un
patrón de resultados distinto según el nivel de pérdida auditiva de
los niños (media-severa frente a profunda).
2.1. Metodología
Las pruebas consisten en listas de seis frases, cada una de las cuales pre-
senta solo cuatro palabras con contenido semántico. El léxico fue selec-
cionado entre el más frecuente del primer ciclo de primaria, según datos
de Justicia 1995; la estructura gramatical más frecuente (75%) fue sujeto
(S) + verbo (V) + complemento (C), seguida por S + V + C + C (1%) y V
+ C + C: 10% (otras: 4%). El banco inicial de 80 frases fue sometido a un
test de familiaridad por parte de 49 niños sin patologías conocidas, en un
colegio de Madrid; se eliminaron las veinte frases que obtuvieron menor
puntuación. Con el resto se construyeron diez listas con seis frases cada
una; su coeficiente de correlación respecto a la frecuencia de fonemas del
español hablado (Moreno-Sandoval y otros 2006) fue en todas las listas
superior a 0,943 (Pearson). Las 60 frases fueron grabadas en un estudio
profesional por una locutora especializada en imitar voces infantiles, aun-
que con una frecuencia fundamental relativamente baja3. En primer lugar
se realizó una locución en silencio y, a continuación se volvieron a grabar
todas las frases mientras se presentaba a la locutora, mediante auriculares,
un ruido conversacional a intensidad media-alta, con el fin de provocar
en su emisión el efecto Lombard.
Como tarea adicional, relacionada pero no incluida en el proyecto, se
elaboró un ruido multihablante infantil, creado ad hoc para enmascarar
la señal (Marrero-Aguiar, Rodríguez-Cruz e Igualada-Pérez 2014).
Tanto la grabación de la señal como la del ruido fueron monitorizadas
de forma manual para controlar los picos de intensidad, de forma que
no hubiera diferencias superiores a 3 dB entre los puntos con mayor y
menor intensidad. Para determinar el patrón de enmascaramiento se
hizo un pre-test con seis ficheros de ruido superpuesto a las frases en in-
tensidad creciente y se realizaron pruebas aplicando diferentes relaciones
S/R con 10 niños normoyentes de 7 años. Se determinó así un patrón de
3. La selección de una locutora profesional responde a la necesidad de obtener una

emisión óptima tanto desde el punto de vista segmental como suprasegmental, sin rasgos
dialectales o sociolectales marcados. La elección de una hablante femenina con un tono
bajo es una solución de compromiso entre el habla masculina y la femenina, adoptada en
trabajos anteriores de gran difusión en el ámbito de la audiometría verbal (Cárdenas y
Marrero 1994).

enmascaramiento que nos permitió obtener un 100% de discriminación

en la primera frase, cuando la relación S/R era de 30 dB, y un 0% de dis-
criminación en la sexta y última, cuando la relación S/R era de -10 dB,
pasando del 85 % al 10 % de discriminación en dos escalones. El patrón
exacto de enmascaramiento resultó el siguiente:
Frase 1.ª 2.ª 3.ª 4.ª 5.ª 6.ª
Relación S/R (dB) 30 10 5 0 -5 -10
Esquema 1. Patrón de enmascaramiento.
En cuanto a la muestra, todas las listas fueron valoradas, en primer lu-

gar, en 40 sujetos normoyentes residentes al 50% en Madrid y Barcelona.
Además del grupo de control, contamos con un grupo experimental de
23 niños. La distribución por edad y sexo de los sujetos, así como el tipo
de pérdida auditiva y la ayuda técnica utilizada en el grupo experimental
aparecen en la Tabla 1.
Sexo Edad
Grupo
Niñas Niños 6 años 7 años 8 años
Control
21 19 5 24 11
normoyentes
10 13 4 6 13
Tipo de hipoacusia y ayuda técnica

Experimental
hipoacúsicos Severa Profunda
Dos Dos Un Implante y Dos
audífonos implantes implante audífono audífonos
9 7 5 1 1
Tabla 1. Características de la muestra.
En ambos grupos la valoración se realizó en cabina sonoamortiguada,

utilizando como transductores los altavoces de campo libre a 45º calibrados
con un tono puro de 1000 Hz a 60 dB SPL. Las listas se presentaron alea-
torizadas, cada sujeto respondió a diez listas (cinco del conjunto normal
y otras cinco Lombard), en cuatro órdenes de presentación diferentes.
3. Resultados en oídos normales y patológicos

El patrón general de resultados, considerando el conjunto de respuestas
obtenidas, puede verse en la Figura 1. La tasa de aciertos fue casi del 60%
en niños con audición normal para las listas grabadas en silencio, con una

Figura 1. Resultados generales. Grupo de control y grupo experimental.
mejora cercana al 8% en las grabadas bajo el efecto Lombard. En niños

con pérdida auditiva los aciertos se reducen casi a la mitad, pero la mejora
obtenida en las listas Lombard se confirma e incluso aumenta ligeramente
respecto a los normoyentes.
En el grupo de control no se observaron diferencias estadísticamente
significativas entre los sujetos (ANOVA de una vía para muestras emparejadas:
listas normales F= 1,2; p= 0.26 y listas Lombard: solo diferencias en dos
sujetos, el resto nivel p= 0.25), pero sí entre las listas normales y las Lombard
(T de Student para muestras emparejadas; p = 0,045 en conjunto, véase
más abajo la distribución por relaciones S/R). En el grupo experimental,
las diferencias entre sujetos por el tipo de hipoacusia (produnda/severa)
sí fueron significativas (T de Student para muestras emparejadas; p = 0,001
en listas normales y 0,01 en Lombard). Por lo tanto, es necesario presentar
por separado las respuestas de ambos grupos; como puede verse en la
Figura 2, los niños con un nivel de pérdida auditiva menor (hipoacusias
severas) presentan una tasa de aciertos algo mayor que los que sufren
una hipoacusia profunda, tanto en las listas grabadas en silencio como
Figura 2. Resultados generales del grupo experimental por tipo de

hipoacusia.

en las grabadas bajo efecto Lombard. La ventaja obtenida en la segunda
condición de locución es de un 9% para los primeros y algo más de un
7% para los segundos.
3.1. Resultados de relación S/R
Más allá del número global de aciertos, errores y omisiones, lo más

relevante es considerar en qué medida las distintas intensidades de ruido
han afectado a cada uno de los grupos, tanto en la locución en silencio
como bajo el efecto Lombard.
Como se observa en la Figura 3, el grupo de niños normoyentes comenzó
a verse afectado por el ruido cuando este tenía la misma intensidad que
la señal (0 dB S/R: 56% de aciertos) en las listas locutadas en silencio.
Pero en la locución Lombard, en esa misma condición la inteligibilidad se
mantuvo en más del 80% de las palabras; e incluso cuando la intensidad
del ruido superaba a la de la señal en 5 dB, la tasa de acierto fue superior
al 25% (no llegó al 6% en la locución en silencio). La flecha discontinua
en los gráficos de la Figura 3 corresponde al 50% de aciertos: en las listas
en silencio, ese punto se encuentra muy próximo a la relación S/R 0 dB,
mientras que en las listas Lombard está en un punto intermedio entre 0
y -5 dB.
Figura 3. Resultados por S/R. Grupo de control.
En cuanto a los sujetos con pérdida auditiva, considerando las distintas

intensidades de ruido, se confirman las diferencias entre las hipoacusias
severas y profundas (Figura 4): en las primeras el 50% de aciertos aparece
cuando la intensidad de la señal supera en 5 dB la del ruido (es decir, en
la tercera frase de cada lista); en cambio, cuando la pérdida es profunda,
ese punto aparece entre la S/R 10 dB y la S/R 5 dB (entre la segunda y
la tercera frase de cada lista)4. La comparación con el grupo de control
4. En estos gráficos iniciales no se diferencia el estilo de habla (normal/Lombard) porque

nos interesaba valorar la presentación clínica de las listas, en las que ambos se encuentran inter-
calados, con el fin de ofrecer varios sets diferentes pero de igual dificultad (intercambiables).

Figura 4. Resultados por S/R. Grupo experimental.
puede verse en la Figura 5: las mayores diferencias en tasas de aciertos

aparecen cuando el ruido presenta una intensidad similar a la de la señal
(S/R 0 dB, cuarta frase, donde se encuentra la mayor diferencia entre el
grupo de control y los hipoacúsicos severos: un 58% menos de aciertos),
o solo 5 dB menor (S/R 5 dB, tercera frase, donde aparece la mayor
diferencia entre el grupo de control y el de los hipoacúsicos profundos:
un 71% menos de aciertos). Los efectos del ruido, por lo tanto, resultan
especialmente perjudiciales para los niños con mayores pérdidas auditivas,
casi en su totalidad usuarios de implante coclear.
Figura 5. Tasas de acierto por S/R. Comparación de grupos.
Finalizaremos considerando los beneficios de la locución hiperarticu-

lada (listas Lombard) para el grupo de niños con pérdida auditiva. En la
Figura 6 se presentan los porcentajes de aciertos (barras oscuras, con valor
porcentual numérico) y de omisiones en los niños del grupo experimental,
diferenciando no solo el tipo de pérdida auditiva, sino también el tipo y
número de ayudas técnicas que utilizan: dos audífonos (correspondientes a

Figura 6. Comparación entre la locución en silencio y la locución en efecto

Lombard. Niños hipoacúsicos por tipo de ayuda técnica (hip. = hipoacusia;
sev = severa; prof = profunda: IC = implante coclear; aud = audífono), y niños
normooyentes (normo). La cifra en las barras corresponde al porcentaje de aciertos.
hipoacusias severas excepto en un sujeto), y uno o dos implantes cocleares

(IC, correspondientes siempre a hipoacusias profundas). En las listas gra-
badas en silencio, con un estilo normal, los resultados son los esperados:
se observa una relación directa entre el nivel de pérdida auditiva y la tasa
de aciertos, los niños con hipoacusia severa, usuarios de audífonos binau-
rales superan en un 11% los aciertos de los niños con hipoacusia profunda
y un implante, y en un 7% a los que cuentan con implantación binaural.
En cambio, en las listas grabadas en ruido, utilizando los mecanismos de
énfasis propios del efecto Lombard, desaparece la diferencia entre los niños
con pérdida profunda y dos implantes y los niños con pérdida severa y dos
audífonos: en ambos casos, la tasa de acierto global asciende al 41-42%,
un 10-11% superior a la de los niños con un solo implante.
Figura 7. Diferencias entre locución en silencio y locución bajo el efecto

Lombard. Hip. = hipoacusia; prof. = profunda; sev. = severa; aud = audífonos;
IC = implante coclear.

La Figura 7 permite comparar las tasas diferencias en los porcentajes

de acierto y omisión de los cuatro grupos, ante ambos estilos de habla:
son los niños con dos implantes cocleares los que sacan mayor partido al
reforzamiento propio del habla hiperarticulada (pasan de identificar un
27% de las palabras clave a un 41%, un incremento del 14%, mayor que
el de los demás grupos, incluidos los normoyentes). Este dato pone de ma-
nifiesto su control perceptivo sobre un mecanismo complejo de refuerzo
de la señal y el desarrollo de estrategias sofisticadas para la comprensión
lingüística, lo que, en último término, constituye un argumento objetivo
sobre los beneficios de la implantación binaural, especialmente para con-
diciones adversas de inteligibilidad.
4. Discusión y conclusiones. La multimodalidad del habla en la

hipoacusia: el papel de la lectura labial
Retomando nuestras hipótesis de partida, los resultados confirman que

las pruebas desarrolladas se ajustan al patrón de respuesta buscado: en ni-
ños de seis años o más, tanto normoyentes como hipoacúsicos, pasamos de
un 90-100% de aciertos a un 0% en seis frases, mediante un incremento
progresivo de la relación señal/ruido (S/R). Como era de esperar, además,
el momento en que la tasa de discriminación disminuyó varió en un grupo
y otro: los sujetos con audición normal mantuvieron un elevado porcen-
taje de aciertos, superior al 90%, hasta que la intensidad de la señal y la
del ruido se igualaron; en ese momento, y cuando el ruido superó en 5
dB a la señal, la inteligibilidad disminuyó bruscamente, en un 75-80%. En
cambio, en los niños con pérdida auditiva utilizando su ayuda técnica, el
descenso en la tasa de aciertos comenzó antes, cuando la intensidad de la
señal aún aventajaba a la del ruido en 10 dB; y el 0% de aciertos también
se alcanzó antes que en los normoyentes, cuando el ruido superaba a la
señal en 5 dB, con la misma intensidad la discriminación apenas alcanzó el
5-10%. Esto pone de manifiesto, una vez más, que el ruido es especialmente
perjudicial para las personas que sufren pérdida auditiva, que magnifican
sus efectos respecto a los normoyentes (Shield y Dockrell 2003; Bentler,
Palmer y Dittberner 2004). El patrón de respuestas, por otra parte, per-
mite diferenciar las pérdidas auditivas medias-severas (hasta 70 dB) de las
profundas (más de 70 dB de media en las frecuencias conversacionales).
También se confirma que las listas grabadas mientras la locutora recibía
mediante auriculares un ruido de conversaciones multihablante, y que por
lo tanto se emitieron bajo el efecto Lombard, un estilo inconscientemente
hiperarticulado, resultaron más inteligibles para todos los sujetos, tanto con
audición normal como con pérdida auditiva, permitiéndoles mantener un
50% de aciertos con 2-3 dB más de ruido que en la grabación en silencio.
Esa mejora resultó especialmente relevante para los niños con implanta-
ción binaural. Los beneficios de la implantación bilateral constituyen un

tema de debate de plena actualidad, especialmente desde que los recortes

económicos han llegado a la sanidad pública, que en España asume los
costes de los implantes cocleares. Estudios previos (Brown y Balkany 2007;
Wackym y otros 2007) ponen de relieve que hay dos capacidades para las
que el segundo implante es especialmente necesario: la localización de la
fuente sonora y la discriminación del habla en ruido. Nuestros resultados
confirman esta necesidad.
En cuanto a las razones que explican los resultados obtenidos, en ge-
neral, consideramos que el patrón de enmascaramiento empleado (ruido
de habla presentado por ambos oídos de forma simultánea, con la misma
fuente espacial que la señal, también de habla, y a intensidad creciente)
ha producido un efecto no solo de tipo energético (por superposición de
energía en las bandas de frecuencia críticas mediante las que el sistema
auditivo procesa la señal de entrada), sino también de carácter informativo,
en el que entra en juego el procesamiento cognitivo de orden superior.
Y no todos los grupos de niños analizados se comportan de forma similar
en cuanto a este último tipo de enmascaramiento: son los que cuentan
con un doble implante coclear quienes mejor rendimiento han obtenido
de los índices acústicos presentes en el habla hiperarticulada, con efecto
Lombard. Si, como indican Ziegler y otros 2009, la capacidad para discri-
minar el habla del ruido es un buen predictor de otras habilidades, como
la lectura, la memoria o la atención, parece evidente que es necesario más
material de este tipo, no solo para su uso diagnóstico o para valorar la cali-
dad de la rehabilitación, sino también para un uso terapéutico, integrado
en las prácticas logopédicas de los niños con hipoacusia, implantados o
usuarios de prótesis.
Concluiremos este trabajo con algunas consideraciones relacionadas
con el marco general de este número especial de la Revista de la Sociedad
Española de Lingüística, la percepción multimodal del habla, situándolo
en el contexto de la pérdida auditiva, es decir, con el papel de la lectura
labial como estrategia de compensación.
Según Schwartz y otros 2004, p. B69, «la lectura labial es la capacidad
para entender parcialmente el habla mirando a los labios del locutor».
En realidad, esta capacidad no tiene una relación directa con la pérdida
auditiva, aunque para las personas que la sufren constituye un recurso de
mayor necesidad: «la labiolectura permite a las personas sordas entender
el habla […] y, en personas con la capacidad auditiva intacta, facilita sus-
tancialmente la percepción del habla en condiciones de ruido ambiental»
(Ma y otros 2009, p. 4638). En relación con los objetivos de este trabajo, la
lectura labial presenta un interés adicional: no se ve afectada por el ruido
ambiente, por lo que sus beneficios son mayores en entornos ruidosos
que silenciosos (especialmente cuando el ruido es conversacional, y no
ruido estable: Helfer y Freyman 2005); es una consecuencia de la llamada

«efectividad inversa»: cuando la información unisensorial es pobre, la

multimodal se ve reforzada.
Esa mejora en la discriminación del mensaje hablado oscila entre 1-3
dB (Grant 2001), 1-2 dB (Schwartz 2004), 4-6 dB, que se traducirían en
un 10-15% más de inteligibilidad (Summerfield 1992), o incluso 11 dB,
la diferencia entre el umbral de recepción verbal con y sin información
visual establecido por Macleod y Summerfield 1987. Si aplicamos la corres-
pondencia habitual entre niveles de pérdida auditiva e incremento de la
intensidad necesario para mantener la discriminación (10 dB de pérdida
= 1 dB más de relación S/R), esos 4-6 dB supondrían compensar una pér-
dida de 40-60 dB, es decir, los efectos de una hipoacusia moderada. En
hipoacusias severas o profundas, muy pocas personas pueden sustituir la
señal auditiva por la visual, pero esta siempre supone un apoyo importante.
Y decimos que pocas personas podrían hacerlo porque, desde el pri-
mer estudio científico sobre labiolectura (Sumby y Pollack 1954), quedó
de manifiesto que se trata de una capacidad casi misteriosa, muy impre-
visible. Presenta grandes diferencias individuales entre sujetos de grupos
similares: en niños con pérdida profunda, la variación alcanza un rango
del 11% al 93%; en adultos con pérdida moderada, entre el 15-85%; en
jóvenes normoyentes, del 1-50% (aunque sus respuestas auditivas eran muy
homogéneas). No se correlaciona con la edad, ni con la inteligencia, ni
con el nivel de desarrollo verbal (aunque requiere un nivel mínimo en los
dos últimos); tampoco con el nivel de audición y el tipo de pérdida (los
sordos congénitos no presentan habilidades mayores que los oyentes). No
parece especialmente susceptible de entrenamiento. En buena medida,
parece una capacidad innata, como pone de manifiesto que bebés de tan
solo cuatro meses identifiquen la imagen labial correspondiente a la vocal
que escuchan (Kuhl y Meltzoff 1982), y aparece en etapas muy iniciales del
procesamiento psicolingüístico: antes del acceso al léxico, y quizá incluso
antes de la integración fonológica (Ma y otros 2009), se desencadena tan
solo 50 o 100 ms tras la presentación de la señal.
Son conocidos sus límites temporales: toleramos hasta 140 ms de asin-
cronía entre la imagen labio-facial y la señal auditiva, y diferencias de
40-80 ms no afectan a la inteligibilidad. Cuando la discordancia entre la
información visual y la auditiva supera la máxima tolerancia, simplemente
se ignora la señal visual, y se atiende solo a la auditiva (Summerfield 1992;
Grant y Seitz 2000). Algunas personas con formación musical presentan
mayor sensibilidad, ventanas temporales más estrechas que les permiten
detectar desajustes menores, de 30 ms (Summerfield 1992), coincidiendo
con una mayor capacidad para discriminar la señal en ruido, tanto con
sonido solo, como con sonido e imagen (Baskent y Bazo 2011).
En cuanto a los mecanismos que explicarían estas capacidades, se han
argumentado la rapidez en el procesamiento neurovisual (Summerfield
1992), o la capacidad para integrar información auditiva y visual (Grant

y Seitz 1998). Pero también habilidades más relacionadas con el proce-

samiento lingüístico, como la de correlacionar los movimientos visibles
de los órganos articulatorios y la envolvente acústica de la onda sonora
resultante (con especial relevancia para la zona central del espectro, en
torno al segundo formante), en una ventana temporal de unos 333 ms,
correspondiente a una sílaba (Grantz y Seitz 2000 denominan este efecto
sobre los umbrales de detección verbal bimodal coherence masking pro-
tection, BCMP). En todo caso, parece que el contenido lingüístico de la
señal, y más concretamente los rasgos articulatorios de las consonantes,
son una variable relevante en la labiolectura (Grant 1998). Estudios con
neuroimagen ponen de manifiesto también el papel de la identidad del
locutor (Mani y Schneider 2012).
De todo lo anterior se deduce el interés por analizar, como tarea futura
en el marco del proyecto aquí presentado, la diferencia entre discrimina-
ción unimodal (auditiva, con y sin efecto Lombard) y bimodal (incluyendo
también claves visuales, tanto coherentes como en conflicto), en las seis
condiciones de relación S/R y tanto con niños de audición normal como
con pérdida auditiva.
5. Referencias bibliográficas
Armstrong, M., Pegg, P., James, C. y Blamey, P. (1997): «Speech perception in noise
with implant and hearing aid», The American Journal of Otology 18, 6, S140-S14.
Barutchu A., Danaher, J., Crewther, S.G., Innes-Brown, H., Shivdasani, M.N. y
Paolini, A.G. (2010): «Audiovisual integration in noise by children and adults»,
Journal of Experimental Child Psychology 105, 1-2, pp. 38-50.
Başkent, D. y Bazo, D. (2011):«Audiovisual asynchrony detection and speech
intelligibility in noise with moderate to severe sensorineural hearing impairment»,
Ear & hearing 32, 5, pp. 582-592.
Bentler, R. A., Palmer, C. y Dittberner, A. B. (2004). «Hearing-in-noise: Comparison
of listeners with normal and (aided) impaired hearing», Journal of the American
Academy of Audiology 15, 3, pp. 216-225.
Bradlow, A.R. y Alexander, J.A. (2007): «Semantic and phonetic enhancements
for speech-in-noise recognition by native and non-native listeners», Journal of
the Acoustical Society of America 121, 4, pp. 2339-2349.
Bronkhorst, A.W. (2000): «The cocktail party phenomenon: A review of research
on speech intelligibility in multiple-talker conditions», Acustica 86, pp. 117-128
Brown, K.D. y Balkany, T.J. (2007): «Benefits of bilateral cochlear implantation:
a review», Current Opinion in Otolaryngology & Head and Neck Surgery 15, 5,
pp. 315-318.
Brumm, H. y Zollinger, S.A. (2011): «The evolution of the Lombard effect: 100
years of psychoacoustic research», Behaviour 148, pp. 11-13.
Brungart, D.S. (2001): «Informational and energetic masking effects in the
perception of two simultaneous talkers», Journal of the Acoustical Society of
America 109, 3, pp. 1101-1109

Cárdenas, M.R. y Marrero, V. (1994): Cuaderno de logoaudiometría, Madrid, UNED.

Carlo, A. (2009). «A review of the effects of bilingualism on speech recognition
performance», Perspectives on Hearing and Hearing Disorders: Research and
Diagnosis 13, pp. 14-20.
Castellanos, A., Benedi, J.M. y Casacuberta, F. (1996): «An analysis of general
acoustic phonetic features for Spanish speech produced with the Lombard
effect», Speech Communication 20, pp. 23-35.
Cherry, E.C. (1953): «Some experiments on the recognition of speech, with one
and with two ears.» The Journal of the Acoustical Society of America, 25(5), pp.
975-979
Committee on Hearing, Bioacoustics and Biomechanics (CHABA) (1988): «Speech
understanding and aging», Journal of the Acoustical Society of America 83, pp.
859-820.
Cooke, M., García Lecumberri, M.L. y Barker, J. (2008) «The foreign language
cocktail party problem: Energetic and informational masking effects in non-
native speech perception», Journal of the Acoustical Society of America 123, 1,
pp. 414-427.
Crandell, C. y Smaldino, J. (1996): «Sound field amplification in the classroom:
Applied and theoretical issues», Bess F. , Gravel J. y Tharpe A. (eds.), Amplification
for children with auditory deficits, Nashville, TN, Bill Wilkerson Center Press,
pp. 229–250.
Cunningham J., Nicol, T., Zecker, S.G., Bradlow, A. y Kraus, N. (2001): «Neurobiologic
responses to speech in noise in children with learning problems: dificits and
strategies for improvement», Clinical Neurophysiology 112, pp. 758-767.
Dirks, D.D., y Bower, D.R. (1969): Masking effects of speech competing messages.
Journal of Speech, Language, and Hearing Research, 12, 2, pp. 229-245.
Dunn, C.C., Noble, W., Tyler, R.S., Kordus, M., Gantz, B.J. y Ji, H. (2010): «Bilateral
and unilateral cochlear implant users compared on speech perception in noise»,
Ear & hearing 312, pp. 296-298.
Erber, N.P. (1969): «Interaction of audition and vision in the recognition of oral
speech stimuli», Journal of Speech and Hearing Research 12, pp. 423-425.
Fallon, M. (2001): «Children’s perception of speech in noise». Tesis doctoral de la
Universidad de Toronto.
Feliciani, L. (2011): Characterization of the features of clear speech: an acoustic
analysis of the influence of speech processing settings in cochlear implants,
Tesis doctoral, Universidad de Milán. <https://www.politesi.polimi.it/
bitstream/10589/12741/1/2011_03_Feliciani.pdf>
Freyman, R.L., Balakrishnan, U. y Helfer, K. S. (2001): «Spatial release from
informational masking in speech recognition», Journal of the Acoustical Society
of America 109, 5, pp. 2112-2122.
García Lecumberri, M.L. y Cooke, M. (2006): «Effect of masker type on native and
non-native consonant perception in noise», Journal of the Acoustical Society of
America 119, pp. 2445-2454.
—, y Cutler, A. (2010): «Non-native speech perception in adverse conditions: A
review», Speech Communication 52, 11, pp. 864-886.

Gat, I.B. y Keith, R.W. (1978): «An effect of linguistic experience. Auditory word
discrimination by native and non-native speakers of English», Audiology 17,
339-345
Gentner, T. y Ball, G. (2006): «A neuroethological perspective», en Pisoni, D.
y Remez, R. (eds.), The handbook of speech perception, Malden, MA,Wiley-
Blackwell, pp. 653-675.
Giraud, A.L., Garnier, S., Micheyl, C., Lina, G., Chays, A. y Chery Croze, S. (1997):
«Auditory efferents involved in speech-in-noise intelligibility», Neuroreport 8,
7, pp. 1779-1783.
Grant, K.W. y Seitz, P.F. (1998): Measures of auditory–visual integration in
nonsense syllables and sentences, Journal of the Acoustical Society of America,
104(4), pp. 2438-2450.
Grant K.W. y Seitz, P.F. (2000): «The use of visible speech cues for improving
auditory detection of spoken sentences», Journal of the Acoustical Society of
America 108, 3, pp. 1197-1208.
Grant, K.W. (2001), «The effect of speechreading on masked detection thresholds
for filtered speech», Journal of the Acoustical Society of America 109, pp. 2272-2275.
Hall, J.W., Grose, J.H., Buss, E., y Dev, M.B. (2002). Spondee recognition in a
two-talker masker and a speech-shaped noise masker in adults and children.
Ear and Hearing, 23(2), pp. 159-165.
Helfer, K.S. y Freyman, R.L. (2005): «The role of visual speech cues in reducing
energetic and informational masking», Journal of the Acoustical Society of America
117, 2, pp. 842-849.
Hoen, M., Meunier, F., Grataloup, C.L., Pellegrino, F., Grimault, N., Perrin, F.,
... y Collet, L. (2007), «Phonetic and lexical interferences in informational
masking during speech-in-speech comprehension», Speech Communication
49, 12, pp. 905-916.
Justicia, F. (1995): El desarrollo del vocabulario. Diccionario de frecuencias, Granada,
Universidad de Granada.
Kawase, T. y Liberman, M.C. (1993): «Antimasking effects of the olivocochlear reflex.
I. Enhancement of compound action potentials to masked tones», Journal of
Neurophysiology 70, 6, pp. 2519-2532.
Kawase, T., Delgutte, B. y Liberman, M. C. (1993a): «Antimasking effects of the
olivocochlear reflex. II. Enhancement of auditory-nerve response to masked
tones», Journal of Neurophysiology 70, 6, pp. 2533-2549.
Killion, M.C., Niquette; P.A., Gudmundsen; G.I., Revit; L.J. y Banerjee, S. (2006):
«Development of a quick speech-in-noise test for measuring signal-to-noise ratio
loss in normal-hearing and hearing-impaired listeners», Journal of the Acoustical
Society of America 119, 3, pp. 2395-2405.
Kim, S.H., Frisina, R.D. y Frisina, D.R. (2006): «Effects of age on speech understanding
in normal hearing listeners: Relationship between the auditory efferent system
and speech intelligibility in noise», Speech Communication 48, 7, pp. 855-862.
Kuhl, P.K., y meltzoff, A.N. (1982): «The bimodal perception of speech in infancy».
Science, 218, 4577, pp. 1138-1141.
Kumar, U.A. y Vanaja, C.S. (2004): «Functioning of olivocochlear bundle and
speech perception in noise», Ear & Hearing 25, 2, pp. 142-146.

Lane, H. (1963): «Foreign accent and speech distortion», Journal of the Acoustical
Society of America 35, 4, 45.
Lindblom, B. (1996): «Role of articulation in speech perception: Clues from
production», The Journal of the Acoustical Society of America 99, 3, pp. 1683-1692.
Ma, W.J., Zhou, X., Ross, L.A., Foxe, J.J., y Parra, L.C. (2009): «Lip-reading aids
word recognition most in moderate noise: a Bayesian explanation using high-
dimensional feature space», PLoS One, 4, 3, e4638.
Liu, S., Del Rio, E., Bradlow, A.R. y Zeng, F.G. (2004): «Clear speech perception
in acoustic and electric hearing», Journal of the Acoustical Society of America
116, 4, pp. 2374-2383.
Lombard, É. (1911): «Le signe de l’élévation de la voix», Annales des Maladies de
l’Oreille et du Larynx, 37, 2 2, pp. 101-9.
Macleod, A. y Summerfield, Q. (1987): «Quantifying the contribution of vision
to speech perception in noise», British Journal of Audiology 212, pp. 131-141.
Maggio De Maggi, M., Marrero-Aguiar V. y Calvo, J.C. (en prensa): «Material
para la evaluación de la percepción del habla en ruido en niños. Frases PIP-
UNED», Actas del X Congreso de la Asociación Española de Audiología, Sevilla,
3-4 de mayo de 2013.
Mani, N. y Schneider, S. (2012): «Speaker identity supports phonetic category
learning», Journal of Experimental Psychology: Human Perception and Performance
39, 3, p. 623.
Mayo, L.H., Florentine, M. y Buus, S. (1997): «Age of second-language acquisition
and perception of speech in noise», Journal of Speech Language and Hearing
Research, 40, pp. 686-693.
Marrero-Aguiar, V. (2008): «La fonética perceptiva: trascendencia lingüística de
mecanismos neuropsicofisiológicos», Estudios de Fonética Experimental 17,
pp. 207-245.
Marrero-Aguiar, V. y Cárdenas, M.R. (2012): «Audiometría verbal», Salesa, E. y
Perelló J. (eds.)Tratado de Audiología. Barcelona, Masson, pp. 103-125.
Marrero-Aguiar, V., Rodríguez Cruz, M. e Igualada Pérez, A. (2013): «Los efectos
del ruido sobre la percepción del habla. Aplicaciones audiométricas», en Penas
Ibáñez, M.A. (ed.), Panorama de la fonética española actual, Madrid, Arco/
Libros, pp. 367-400.
McArdle, R.A., Wilson, R.H. y Burks, C.A. (2005): «Speech recognition in multitalker
babble using digits, words and sentences», Journal of the American Academy of
Audiology 16, pp. 726-739.
McGurk, H. y MacDonald, J. (1976): «Hearing lips and seeing voices», Nature
264, pp. 746-748.
Moreno Sandoval, A., Toledano, D.T., Curto, N., y Torre, R.D.L. (2006):
«Inventario de frecuencias fonémicas y silábicas del castellano espontáneo y
escrito», en Buera, L., Lleida, E., Miguel, A. y Ortega, A. (eds.), IV Jornadas en
Tecnología del Habla, Zaragoza, Universidad de Zaragoza, pp. 77-81.
Muchnik C., Ari-Even Roth, D.E., Othman-Jebara, R., Putter-Katz, H., Shabtai, E. L. e
Hildesheimer, M. (2004): «Reduced medial olivocochlear bundle system function
in children with auditory processing disorders», Audiology and Neuro-otology
9, pp. 107-114.

Namba, S., Kuwano, S. y Schick, A. (1986): «A cross-cultural study on noise problems»,

Journal of the Acoustical Society of Japan 7, 5, pp. 279-288.
Parikh, G., y Loizou, P.C. (2005): «The influence of noise on vowel and consonant
cues», The Journal of the Acoustical Society of America 118, 6, pp. 3874-3888.
Patel, R. y Schell, K. (2008): «The Influence of linguistic content on the Lombard
effect», Journal of Speech Language and Hearing Research 51, pp. 209-220.
Rajan, R. y Cainer, K.E. (2008): «Ageing without hearing loss or cognitive impairment
causes a decrease in speech intelligibility only in informational maskers»,
Neuroscience 154, pp. 784-495.
Rhebergen, K.S., Versfeld, N.J., y Dreschler, W.A. (2005): «Release from
informational masking by time reversal of native and non-native interfering
speech», Journal of the Acoustical Society of America 118, pp. 1274–1277
Sandoval, A.M., Toledano, D.T., Curto, N. y de la Torre, R. (2006): «Inventario
de frecuencias fonémicas y silábicas del castellano espontáneo y escrito», IV
Jornadas en tecnologia del habla, Zaragoza, <http://elvira.lllf.uam.es/ING/
Publicaciones/LLI-UAM-4JTH.pdf>.
Schneider, B.A., Li, L. y Daneman, M. (2007): «How competing speech interferences
with speech comprehension in everyday listening situations», Journal of the
American Academy of Audiology 18, pp. 478-591.
Shield, B.M. y Dockrell, J. E. (2003): «The effects of noise on children at school:
a review», Building Acoustics 102, pp. 97-116.
Schwartz, J.L., Berthommier, F., y Savariaux, C. (2004): «Seeing to hear better:
Evidence for early audio-visual interactions in speech identification», Cognition,
93, 2, B69-B78.
Smiljanić, R. y Bradlow, A.R. (2009): «Speaking and hearing clearly: Talker and
listener factors in speaking style changes», Language and Linguistics Compass
3, 1, pp. 236-264.
Sumby, W.H y Pollack I. (1954): «Visual contribution to speech intelligibility in
noise», Journal of the Acoustical Society of America 26, 2, pp. 212-215.
Taylor, B. (2003): «Speech-in-noise tests. How and why to include them in your
basic test battery», The hearing journal 56, 1, pp. 40-44.
Tillman, T.W., Carhart, R., y Olsen, W.O. (1970): «Hearing aid efficiency in a
competing speech situation», Journal of Speech, Language, and Hearing Research
13(4), pp. 789-811.
Tyler, R.S., Parkinson, A.J., Wilson, B.S., Witt, S., Preece, J.P. y Noble, W. (2002):
«Patients utilizing a hearing aid and a cochlear implant: Speech perception
and localization», Ear & Hearing 23, 2, pp. 98-105.
Van Engen, K.J., y Bradlow, A.R. (2007): «Sentence recognition in native-and
foreign-language multi-talker background noisea)», The Journal of the Acoustical
Society of America 121, 1, pp. 519-526
Van Rooij, J.C.G.M. y Plomp, R. (1990): «Auditive and cognitive factors in speech
perception by elderly listeners. II: Multivariate analyses», Journal of the Acoustical
Society of America 88, 6, pp. 2611-2624.
Wackym, P.A., Runge-Samuelson, C.L., Firszt, J.B., Alkaf, F.M. y Burg, L.S. (2007):
«More challenging speech-perception tasks demonstrate binaural benefit in
bilateral cochlear implant users», Ear & Hearing 282, pp. 80s-85s.

Wilson, R.H. (2003): «Development of a speech-in-multitalker-babble paradigm

to assess word-recognition performance», Journal of the American Academy of
Audiology 14, 9, pp. 453-470.
Wilson, R.H., McArdle R.A. y Smith, S.L. (2007): «An evaluation of the BKB-SIN,
HINT, QuickSIN, and WIN Materials on Listeners With Normal Hearing and
listeners with hearing loss», Journal of Speech, Language, and Hearing Research
50, pp. 844-856.
Wong P., Jin, J. X., Gunasekera, G.M., Abel, R., Lee, E.R. y Dhar, S. (2009): «Aging
and cortical mechanisms of speech perception in noise», Neuropsychologia
47, 3, pp. 693-703.
Ziegler J.C., Pech‐Georgel, C., George, F. y Lorenzi, C. (2009): «Speech-perception-
in-noise deficits in dyslexia», Developmental Science 12, pp. 732-745.

Edita
Se L

Percepcion Del Habla en Ruido

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Percepcion Del Habla en Ruido

Cargado por

Copyright:

Formatos disponibles

Revista

REVISTA ESPAÑOLA DE LINGÜÍSTICA

Director de honor: D. Francisco Rodríguez Adrados (RAE y RAH).

Consejo de redacción: Montserrat Benítez (CSIC), José Antonio Berenguer (CSIC),

A partir del número 38 (2008) la Revista Española de Lingüística ha recuperado el

Redacción: Sociedad Española de Lingüística, Centro de Ciencias Humanas y Sociales

Diseño y composición: Carmen Chincoa & Carlos Curiá (produccionRSEL@gmail.com)

Servicios de información: Los contenidos de la RSEL son recogidos sistemáticamente

La percepción de la cualidad de voz y los estereotipos vocales .........................45

La prosodia audiovisual de la ironía verbal: un estudio de caso .......................73

¿Son distintos el creak y la voz creaky?: Estudio perceptivo preliminar ..........105

La percepción del habla en ruido: un reto para la lingüística ........................129

Percepción de los enunciados interrogativos de duda y de enfado ................153

Percepción y evaluación de la pronunciación del español como L2 ..............175

Palabras clave: percepción del habla; discriminación auditiva; inteligibilidad; habla

* Agradecemos la colaboración de las siguientes personas en los distintos pasos de la elaboración

RSEL 45/1 · 2015 · pp. 129–151 · ISSN 0210-1874 · e-ISSN 2254-8769

Keywords: speech perception; auditory discrimination; intelligibility; clear speech;

Recibido: 07/04/2014 Aprobado: 16/02/2015

1.1. El ruido y sus efectos sobre el habla

El ruido es cualquier sonido molesto o indeseado (Namba, Kuwano y

• El ruido-multihablante (multitalker babble), se genera a partir de

RSEL 45/1 · 2015 · pp. 129–151 · ISSN 0210-1874 · e-ISSN 2254-8769

con conversaciones de una lengua sobre una señal en otra; Hoen y

RSEL 45/1 · 2015 · pp. 129–151 · ISSN 0210-1874 · e-ISSN 2254-8769

diferenciarlo del energético (Schneider, Li y Daneman 2007), como

El ruido provoca un efecto sobre la señal que se conoce como enmas-

1.2. Recursos para afrontar la percepción del habla en ruido

El sistema de descodificación auditivo y lingüístico nos permite utilizar

RSEL 45/1 · 2015 · pp. 129–151 · ISSN 0210-1874 · e-ISSN 2254-8769

En cuanto a los primeros, parece que el sistema de vías eferentes, que

RSEL 45/1 · 2015 · pp. 129–151 · ISSN 0210-1874 · e-ISSN 2254-8769

separación espacial de las fuentes de información, las características de la

RSEL 45/1 · 2015 · pp. 129–151 · ISSN 0210-1874 · e-ISSN 2254-8769

influye de manera decisiva en la capacidad para identificar la señal de

1.3. La percepción del habla en ruido en la deficiencia auditiva

Todo lo anteriormente expuesto no es óbice para considerar que, se-

RSEL 45/1 · 2015 · pp. 129–151 · ISSN 0210-1874 · e-ISSN 2254-8769

2. Las Pruebas de Audiometría Verbal en Ruido (PAVER) PIP-UNED

a) En niños normoyentes (mayores de 6 años) la principal caída en

RSEL 45/1 · 2015 · pp. 129–151 · ISSN 0210-1874 · e-ISSN 2254-8769

deficitaria. Por lo tanto, se mantendrá el patrón general descrito

3. La selección de una locutora profesional responde a la necesidad de obtener una

RSEL 45/1 · 2015 · pp. 129–151 · ISSN 0210-1874 · e-ISSN 2254-8769

enmascaramiento que nos permitió obtener un 100% de discriminación

Frase 1.ª 2.ª 3.ª 4.ª 5.ª 6.ª

Relación S/R (dB) 30 10 5 0 -5 -10

Esquema 1. Patrón de enmascaramiento.

En cuanto a la muestra, todas las listas fueron valoradas, en primer lu-

Tipo de hipoacusia y ayuda técnica

Tabla 1. Características de la muestra.

En ambos grupos la valoración se realizó en cabina sonoamortiguada,

3. Resultados en oídos normales y patológicos

RSEL 45/1 · 2015 · pp. 129–151 · ISSN 0210-1874 · e-ISSN 2254-8769

Figura 1. Resultados generales. Grupo de control y grupo experimental.

mejora cercana al 8% en las grabadas bajo el efecto Lombard. En niños

Figura 2. Resultados generales del grupo experimental por tipo de

RSEL 45/1 · 2015 · pp. 129–151 · ISSN 0210-1874 · e-ISSN 2254-8769

3.1. Resultados de relación S/R

Más allá del número global de aciertos, errores y omisiones, lo más

Figura 3. Resultados por S/R. Grupo de control.

En cuanto a los sujetos con pérdida auditiva, considerando las distintas

4. En estos gráficos iniciales no se diferencia el estilo de habla (normal/Lombard) porque