Está en la página 1de 20

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/355751990

La voz como reacción emocional: De qué nos informa la prosodia

Article  in  Spanish in Context · February 2022


DOI: 10.1075/sic.20029.pad

CITATIONS READS

3 269

1 author:

Xose A. Padilla
University of Alicante
74 PUBLICATIONS   571 CITATIONS   

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

XXII Jornadas de Estudios de Lingüística de la Universidad de Alicante (JELUA21): Lenguaje y emociones. View project

El habla con significado emocional y expresivo/Speech with emotional and expressive meaning View project

All content following this page was uploaded by Xose A. Padilla on 29 October 2021.

The user has requested enhancement of the downloaded file.


1

Cite as: Padilla, Xose A. (2022): La voz como reacción emocional: de qué nos informa la
prosodia, in Spanish in Context, Volume 19, 1. (pp.1-19)

La voz como reacción emocional: de qué nos informa la prosodia


The voice as an emotional reaction: what the prosody tells us

Resumen:

Nuestra habilidad para entender las emociones de los demás en el habla es clave para conseguir una
interacción social exitosa. Estudios procedentes de varias disciplinas apuntan que la prosodia es un
elemento fundamental para que este éxito se produzca. Partiendo de la premisa de que la emoción es
principalmente una reacción o respuesta a un estímulo previo, en este trabajo hemos analizado si es posible
establecer una relación entre el enunciado que provoca la reacción emocional (detonador) y la respuesta
emocional propiamente dicha, observando el comportamiento de las magnitudes acústicas (F0, dB y VEL)
en el marco de la conversación coloquial. Para ello hemos llevado a cabo dos tipos de análisis: a) la reacción
sintagmática, entendida como la reacción a lo anterior (sea a la intervención de un hablante previo o sea a
la parte no emocional de la intervención de un mismo hablante); y b) la reacción paradigmática, esto es,
qué sucede con los parámetros acústicos mencionados si son cotejados con el registro medio del hablante
(F0, dB, VEL). Los resultados del análisis acústico-estadístico señalan que hay regularidad y
direccionalidad manifiestas en el comportamiento de la F0 en las relaciones sintagmáticas. Esta regularidad,
sin embargo, no es extrapolable a las otras dos magnitudes, ni a las reacciones paradigmáticas.

Palabras clave: emociones, prosodia, conversación coloquial

Abstract:

Our ability to understand other people’s emotions in speech is key to successful social interaction. Studies
from various disciplines suggest that prosody is a key element to this success. Starting from the premise
that emotion is mainly a reaction or response to a previous stimulus, we have analysed whether it is possible
to establish a relationship between the statement that provokes the emotional reaction (trigger) and the
emotional response itself by observing the behaviour of the acoustic magnitudes (F0, dB and VEL), within
the framework of colloquial speech. To this end, we have carried out two types of analysis: a) the
syntagmatic reaction, understood as the reaction to the above (either to the intervention of a previous
speaker or to the non-emotional part of the intervention of the same speaker); and b) the paradigmatic
reaction, that is, what happens to the previously mentioned acoustic parameters when compared with the
average register of the speaker (F0, dB, VEL). The results of the acoustic-statistical analysis show that there
are regularity and directionality evidences in the behaviour of the F0 in syntagmatic relationships. This
regularity, however, cannot be extrapolated to the other two magnitudes, nor to the paradigmatic reactions.

Keywords: emotions, prosody, colloquial speech


2

La voz como reacción emocional: de qué nos informa la prosodia


The voice as an emotional reaction: what the prosody tells us
Xose A. Padilla
Grupo EHSEE-Fonoemoción
Universitat d’Alacant/ University of Alicante (Spain)

The worst keeper of secrets is one’s own voice


(Truesdale y Pell 2018)

Quite an experience to live in fear, isn’t it? That’s what it is to be a slave


(Blade Runner 1982)

Resumen:

Nuestra habilidad para entender las emociones de los demás en el habla es clave para conseguir una
interacción social exitosa. Estudios procedentes de varias disciplinas apuntan que la prosodia es un
elemento fundamental para que este éxito se produzca. Partiendo de la premisa de que la emoción es
principalmente una reacción o respuesta a un estímulo previo, en este trabajo hemos analizado si es posible
establecer una relación entre el enunciado que provoca la reacción emocional (detonador) y la respuesta
emocional propiamente dicha, observando el comportamiento de las magnitudes acústicas (F0, dB y VEL)
en el marco de la conversación coloquial. Para ello hemos llevado a cabo dos tipos de análisis: a) la reacción
sintagmática, entendida como la reacción a lo anterior (sea a la intervención de un hablante previo o sea a
la parte no emocional de la intervención de un mismo hablante); y b) la reacción paradigmática, esto es,
qué sucede con los parámetros acústicos mencionados si son cotejados con el registro medio del hablante
(F0, dB, VEL). Los resultados del análisis acústico-estadístico señalan que hay regularidad y
direccionalidad manifiestas en el comportamiento de la F0 en las relaciones sintagmáticas. Esta regularidad,
sin embargo, no es extrapolable a las otras dos magnitudes, ni a las reacciones paradigmáticas.

Palabras clave: emociones, prosodia, conversación coloquial, reacción sintagmática y paradigmática

Abstract:

Our ability to understand other people’s emotions in speech is key to successful social interaction. Studies
from various disciplines suggest that prosody is a key element to this success. Starting from the premise
that emotion is mainly a reaction or response to a previous stimulus, we have analysed whether it is possible
to establish a relationship between the statement that provokes the emotional reaction (trigger) and the
emotional response itself by observing the behaviour of the acoustic magnitudes (F0, dB and VEL), within
the framework of colloquial speech. To this end, we have carried out two types of analysis: a) the
syntagmatic reaction, understood as the reaction to the above (either to the intervention of a previous
speaker or to the non-emotional part of the intervention of the same speaker); and b) the paradigmatic
reaction, that is, what happens to the previously mentioned acoustic parameters when compared with the
average register of the speaker (F0, dB, VEL). The results of the acoustic-statistical analysis show that there
are regularity and directionality evidences in the behaviour of the F0 in syntagmatic relationships. This
regularity, however, cannot be extrapolated to the other two magnitudes, nor to the paradigmatic reactions.

Keywords: emotions, prosody, colloquial speech, syntagmatic and paradigmatic reaction


3

1. Introducción1

Las emociones son una parte tan importante de nuestras vidas que sorprende que todavía
sepamos tan poco de ellas. Desde el primer trabajo de Darwin (1872), se han sucedido las
investigaciones en disciplinas como la neurobiología (Hebb, 1949; Ploog, 1986; Frühholz
et al. 2014), la psicología (Ekman, 1970, 1999; Scherer, 1986; Plutchik, 1994; Laukka,
2004; Juslin et al. 2017), la lingüística (Ladd et al. 1985; Pell et al., 2009; Cole, 2015;
Garrido, 2019; etc.) y, más recientemente, la robótica (Picard et al., 2001; Cañamero,
2005; Ríos et al. 2011; Cowie, 2001; De Silva, y Chi Ng. 2009; Cowie et al., 2012;
Canales et al., 2017; etc.). Sin embargo, a pesar de los avances conseguidos, las
emociones parecen seguir resistiendo a los deseos de formalización de los investigadores
y despiertan todavía más dudas que certezas en el discurso científico general.
En el marco de la lingüística, y, en concreto, dentro de los estudios prosódicos, las
emociones han sido vistas antes como un hándicap de la disciplina que como un objeto
de investigación. Tanto es así que uno de los principales fines de la entonología moderna2
ha sido, precisamente, desvincularse de la función emotiva de la entonación para
establecer qué es lo propiamente codificado y lingüístico, o función representativa
(Bülher, 1934/1950). No obstante, no habiéndose cerrado todavía esa puerta3, creemos
que un segundo camino, relacionado con la función expresivo-emotiva, también puede
tener su espacio, pues sería ilusorio pensar en el lenguaje, y particularmente en la
prosodia, como algo exclusivamente neutro o aséptico.
Así, con el propósito de investigar cómo afecta función emotiva a la prosodia, en este
estudio analizaremos cómo se producen las emociones básicas (o primarias): alegría,
tristeza, miedo, enfado, sorpresa y asco (Ekman, 1970, 1999), en el habla espontánea,
poniendo especial atención a la interacción de dos factores: a) el mecanismo de reacción
conversacional y b) la variación de las magnitudes acústicas (F0, dB y velocidad de
habla). El análisis de estas correlaciones proporcionará datos objetivos (acústicos y
estadísticos) que permitirán avanzar en un mejor conocimiento de la influencia de las
emociones en el uso del lenguaje.

2. La voz como respuesta-reacción emocional

La mayor parte de las emociones, al menos las que han sido descritas como primarias o
básicas (“core emotions”4), se explican de forma general como respuestas a ciertos

1
Este trabajo se ha llevado a cabo gracias al proyecto del Ministerio de Economía, Industria y
Competitividad (MINECO) El habla con significado emocional y expresivo: análisis fono-pragmático y
aplicaciones (FFI2017-88310-P/MINECO).
2
Han intentado llevar a cabo este objetivo las dos grandes tradiciones entonológicas más extendidas: a) el
análisis de configuraciones (la escuela británica de Crystal, 1969; Bolinger, 1986; Cruttenden, 1986; etc.;
la escuela holandesa y el modelo IPO o la escuela española de Navarro Tomás, 1944); y b) el análisis de
niveles (la escuela norteamericana de Pike, 1945; el análisis métrico-autosegmental de Pierrehumbert, 1980
y el sistema ToBI (Tone and Break Indices)); aunque desde perspectivas metodológicas muy diferentes.
Véase Cantero (2002); Hidalgo (2019).
3
Véase Font-Rotchés y Cantero (2008); Hidalgo, (2019); Martínez-Fernández (2019); etc.
4
Las emociones humanas han sido clasificadas de maneras diversas (Ekman, 1999). Se han dividido, por
ejemplo, en primarias y secundarias (la estrella de Plutchik; 1994: 139) puras y mezcladas (“blending
emotions”), etc. El debate es igualmente importante con respecto a si las etiquetas utilizadas para
nombrarlas responden a condicionamientos culturales, universales, o a una mezcla de ambos (Plutchik,
1994: 45 y ss.); o su número: ocho, seis, cuatro (Jack et al. 2014). En las conversaciones coloquiales, por
otra parte, aparecen numerosos casos de fenómenos que podrían denominarse emociones desde otra
emoción o emociones de segundo grado. Encontramos, por ejemplo, que, en un contexto alegre, se
4

estímulos (Plutchick 1994; Jang y Elfebein, 2015). Estas respuestas –innatas o no,
automáticas o programadas– nacen como un mecanismo evolutivo adaptativo
(“adaptative reactions”)5, y se reflejan a través de una extensa variedad de cambios
corporales: en los músculos de la cara6, en la presión sanguínea, en la dilatación de las
pupilas, etc.
En el caso del lenguaje, los cambios en la voz son también un ejemplo de reacción a
estímulos externos. Desde un punto de vista neurológico7, la actuación del sistema
límbico –y en concreto de la amígdala8 y del hipocampo9 (Frühhold et al, 2014)– ha sido
relacionado con la producción de sonidos no lingüísticos, como el llanto o la risa; no
obstante, el papel del sistema límbico parece tener un alcance mayor. Varios autores
(Frühhold et al, 2014; Hellbernd y Sammler, 2018; etc.) apuntan que, en situaciones
emocionales, este sistema condiciona asimismo las producciones lingüísticas, pues tiene
la posibilidad de influir en la actuación de mecanismos corporales relacionados con el
lenguaje, como la presión subglotal, el flujo de aire o la actuación de las cuerdas vocales.
La voz es, por tanto, un canal básico para expresar emociones y, consecuentemente, una
fuente muy rica de información.

2.1. Parámetros de análisis

Para dar cuenta de las señales emocionales que trasmite la voz se han establecido
diferentes criterios de medición10, relacionados con las magnitudes acústicas habituales:
la frecuencia (F0), la intensidad (dB), la velocidad de habla (sílabas x seg.), la duración
(T), la cualidad de la voz (“voice quality”), etc. (Eyden et al. 2016)11. En nuestro trabajo,
analizaremos la media de las magnitudes básicas: F0, dB y VEL y cotejaremos sus valores
en las tres variables seleccionadas: 1) el detonador (“trigger”) de la emoción (D), 2) la
reacción sintagmática (R1) y 3) la reacción paradigmática (R2).

comunican otras emociones como el miedo, la tristeza o el asco. Son muy comunes en el discurso referido,
aunque no solamente (Padilla, en prensa).
5
Una generalización importante de las diferentes propuestas permite considerar cuatro teorías principales
sobre la emoción (Plutchik, 1994: 19): a) las teorías motivacionales (las emociones son
respuestas/reacciones físicas innatas a estímulos externos); b) las teorías cognitivas (las emociones son
estados de ánimo o estados cognitivos, pero con +-reacción); c) las teorías psicoanalíticas (las emociones
son unidades no discretas (“blending”) guiadas por los rasgos [+-placer/+-dolor]); y d) las teorías evolutivas
(las emociones son señales comunicativas que garantizan la supervivencia). Las respuestas emocionales
combinan una decodificación rápida del estímulo (“trigger of emotion”) con patrones de comportamiento
medianamente programados. La respuesta emocional, desde la propuesta evolutiva, tiene como misión
aumentar el éxito de supervivencia de una determinada especie.
6
La cara tiene 43 músculos relacionados con la expresión y 10.000 hipotéticas expresiones distintas
(Matsumoto et al., 2008, 2013). No hay consenso general sobre la relación directa entre emociones
concretas y gestos concretos, no obstante, sí parece haber más o menos acuerdo en que existen siete tipos
de gestos universales, coincidentes en parte con las emociones básicas (Matsumoto et al., 2013: 123). En
relación con todo ello se ha establecido una especie de mapa emocional que numera cada una de las
posiciones de los músculos y denominado FACS (“Facial Action Coding System”).
7
Para abordar la cuestión de la lateralización cerebral (hemisferio izquierdo o derecho) en el procesamiento
de la información prosódica emocional, véase Pell (2006).
8
La amígdala es una región del cerebro con forma y tamaño de dos almendras, situada a ambos lados del
tálamo. Ha sido descrita como “the sensory gateway of emotions” (Plutchick, 1994: 276).
9
El hipocampo forma parte del sistema límbico y está situado en la parte medial del lóbulo temporal
(Plutchick, 1994: 276 y ss.).
10
Véase Ladd et al. (1985); Ofuka et al., (2000); Tatham y Morton, (2004; 2011); Pell et al., (2009); etc.
11
Eyden et al. (2016) agrupan los parámetros existentes en cuatro categorías principales: 1) el dominio de
la frecuencia fundamental (parámetros de F0, “jitter”, etc.), 2) el dominio de la amplitud (parámetros de
dB, “shimmer”, “Harmonics-to-Noise ratio” (HNR), etc.), 3) el dominio del tiempo (pausas, duración,
velocidad del habla, etc.) y 4) el dominio de la distribución espectral (formantes, armonicidad, etc.).
5

Hemos elegido el análisis de la media, y no otro tipo de indicador, por dos razones
principales. La primera tiene que ver con las limitaciones que el mismo corpus impone al
análisis. Los corpus espontáneos12 –como es nuestro caso– presentan interrupciones,
solapamientos entre los hablantes y fragmentos en los que la grabación baja su calidad,
por lo tanto, no todos los análisis acústicos son posibles. La segunda deriva del objeto de
estudio en sí. Para analizar las consecuencias prosódicas de la reacción conversacional,
necesitamos parámetros suficientemente flexibles y generales que permitan poder llevar
a cabo los cotejos posteriores. La media es la medición que mejor se acomoda a estos dos
requisitos, pues, permite tanto sortear las características de los corpus coloquiales como
la necesidad de cotejar información entre enunciados con distinta longitud o diferentes
componentes léxicos.

2.2. Vías de exploración prosódica

Además de proporcionar criterios acústicos de medición, el análisis prosódico ofrece dos


caminos principales para investigar las emociones: el experimental y el descriptivo
(Scherer et al., 1984). El primero de ellos consiste en evaluar, como hemos adelantado,
la conexión de las emociones con la variación de determinadas magnitudes acústicas,
como la frecuencia (F0), la intensidad (dB), la velocidad de habla (sílabas x seg.), la
cualidad de la voz (“voice quality”), etc. (Pell et al., 2009; Pell et al, 2011). El segundo
tiene como objetivo la descripción de patrones prosódicos asociados a determinados
contextos de uso, por ejemplo, qué sucede con el tonema (ascenso, descenso, etc.), o con
otros componentes de la curva (pico inicial, cuerpo) cuando el contorno melódico se
produce en una situación emocional concreta (Navarro Tomás, 1944; Bolinger, 1986;
Cantero, 2014; etc.).
Las dos aproximaciones mencionadas tienen una visión distinta de lo que supone expresar
una emoción a través del habla (Cutler, 1977; Scherer et al., 1984). La aproximación
experimental ve la emoción como un elemento añadido (“parallel cannel”), es decir, como
un segundo código (Fonágy, 1983; Tsur, 1992) que se suma al código habitual y que el
oyente tiene que descifrar. La aproximación descriptiva, por el contrario, contempla las
emociones en el habla como parte de un único código –en este caso, los esquemas
prosódicos– que se acomoda a un uso contextual (o marcado-emocional) adoptando un
significado específico (Cantero, 2014).
Las dos aproximaciones, por otra parte, suelen basar sus estudios en corpus distintos. La
tradición experimental desea controlar al máximo los elementos que se analizan (cotejos),
por consiguiente, suele crear corpus ad hoc que puedan ser examinados con precisión
acústica y estadística (Pell et al., 2009; Pell et al, 2011). La tradición descriptiva, por su
parte, estudia contextos espontáneos, que escapan al control del investigador, pero
proporcionan ejemplos procedentes del habla real (Hidalgo, 1997, 2019).
A pesar de sus diferencias metodológicas y epistemológicas, creemos que es posible
encontrar un punto intermedio entre los dos enfoques. Nuestro trabajo, como hemos
indicado, analizará qué sucede con magnitudes acústicas como la frecuencia, la intensidad
y la velocidad de habla (propuesta experimental), pero tomará como punto de partida
conversaciones coloquiales (corpus Val.Es.Co., 2002/Val.Es.Co.2.0) reales y
espontáneas (propuesta descriptiva).

12
Véase Juslin et al. (2017).
6

3. Reacciones pragmaprosódicas

El análisis conversacional13 ofrece algunas fórmulas interesantes para estudiar las


reacciones emocionales en el habla. Dentro de la propuesta del grupo Val.Es.Co. (Briz y
grupo Val.Es.Co, 2002 y 2014), el concepto reacción se utiliza con dos propósitos. Por
una parte, sirve para la definición de las llamadas unidades conversacionales: las
intervenciones y los intercambios conversacionales son reacciones dialógicas. Y, por otra,
el concepto reacción es el motor del dinamismo discursivo: los hablantes, cuando
conversan, pueden iniciar una intervención (intervención iniciativa14), pueden reaccionar
ante una intervención previa (intervención reactiva), o tienen la posibilidad de reaccionar
e iniciar nuevas intervenciones (intervención reactivo-iniciativa) (Briz y grupo
Val.Es.Co, 2002 y 2014; Padilla, 2019). Examinemos el siguiente ejemplo15:
(1)

0188 B: hubo una plaga§


0189 C: §es que/ mira/ mira↓ vosotras las pulgas no las queréis↓ pero yo a las cucarachas↑/ es que no las
puedo ver↓/ es algoo que se me pone toodo→ [(RISAS)]
0190 A: [¡ay! POR FAVOR callaros]
0191 D: [¡oye!] me está picando [todo↑]
0192 A: [por favor] callaros [yaa]
0193 C: [(…) (RISAS)]
(Cabedo y Pons, 2013. Corpus Valesco 2.0: en: www.valesco.es/ C13)

En el primer intercambio del diálogo, esto es, en la sucesión de las intervenciones 0188-
0189, la hablante C reacciona a la intervención previa (0188). Su intervención, como se
observa a continuación, provoca dos nuevas intervenciones: 0190 y 0191, que a su vez se
solapan entre sí. La hablante A, por su parte, vuelve a intervenir en 0192 como reacción
a la intervención de D (0191); y la hablante C, por último, reacciona a la intervención
0192 con la RISA.
Este mecanismo de estímulo-respuesta, o de movimientos conversacionales, configura
los diálogos de los hablantes y permite caracterizar al habla espontánea como un
fenómeno vivo que se desarrolla dinámicamente (Briz y grupo Val.Es.Co., 2014; Padilla,
2019).
Las reacciones conversacionales, por otra parte, tienen, además, consecuencias
prosódicas. A la sucesión de intervenciones conversacionales que hemos descrito
acompaña una estructura prosódica simultánea que se va construyendo también en
función de una serie de reacciones encadenadas (Menn y Boyce, 1982). Así, desde un
punto de vista prosódico-dialógico, las sucesiones de intervenciones acomodan los
valores tonales en función de la interacción y de los registros de su interlocutor
contribuyendo también al dinamismo discursivo. Este proceso, denominado negociación
del ámbito tonal, o “entrainment” (Padilla, 2017; Reichel y Cole, 2018), hace avanzar
también la conversación generando cohesión prosódico-discursiva (Hidalgo, 1997).
En nuestro trabajo, como veremos en los siguientes apartados, examinaremos cómo afecta
el mecanismo de reacción al comportamiento de la F0 de los enunciados, pero
observaremos, igualmente, si la interacción prosódica se produce en otros componentes

13
El Análisis Conversacional (Sacks,1986; Sack, Schegloff y Jefferson, 1974; Jefferson, 1974; etc.), el
Análisis del Discurso (Sinclair y Coulthard, 1992; etc.), la Escuela de Ginebra (Roulet, 1991; Roulet et al.,
1985; Moechler, 1985; etc.); la Lingüística Interaccional (Kerbrat-Orecchioni, 1986; Anscombre y Ducrot,
1983; etc.). Véase también Pons (2014).
14
Los conceptos iniciativo y reactivo fueron propuestos por Roulet et al. (1985).
15
El sistema de transcripción utilizado aparece en Briz y grupo Val.Es.Co. (2004).
7

acústicos, como la intensidad (dB) y la velocidad de habla (VEL), que, hipotéticamente,


también deberían ajustar sus valores al contexto de interacción.

3.1. Reacción sintagmática y reacción paradigmática

Teniendo en cuenta lo anterior, y partiendo, como decíamos, de la definición de la


emoción como respuesta-reacción ubicada en un contexto, el objetivo de nuestro estudio
es examinar si la reacción conversacional del hablante tiene algún tipo de reflejo acústico
en el habla (variación de la media de F0, dB y VEL). Este reflejo acústico, por otra parte,
podrá producirse en dos posibles escenarios:
a) La reacción sintagmática (R1): el enunciado emocional supone una reacción
(cambio) (>, < o =) a las variables numéricas del enunciado precedente o
detonador (“trigger of emotion”) (D),
b) La reacción paradigmática (R2): el enunciado emocional implica una reacción
(cambio) (>, < o =) al registro medio (F0, dB y VEL) del hablante que emite el
enunciado. El registro medio del hablante se obtiene, por otra parte, de la media
del conjunto de enunciados analizables proporcionados por la conversación objeto
de estudio. Es, pues, la línea base16 de la reacción paradigmática.

Cada tipo de emoción (alegría, tristeza, enfado, miedo, sorpresa, asco) será, por tanto, el
resultado de la reacción del hablante a un detonador conversacional-prosódico previo (D),
y tendrá, o podrá tener, hipotéticamente, diferentes resultados, bien en los dos escenarios
(R1, R2), o bien en uno de ellos (R1, [R2]), como se muestra en el algoritmo de la Fig.1:

Fig.1 (reacción emocional)

D ⇒ R1, [R2] ∨ (R1, R2)

4. El corpus y la selección de ejemplos

Para llevar a cabo la investigación que aquí presentamos, hemos analizado una
conversación coloquial espontánea de 30 minutos17 de duración procedente del Corpus
Val.Es.Co. 2.0. (Cabedo y Pons [en línea], http://www.valesco.es/ C13). La obtención de
ejemplos ha seguido el siguiente protocolo:

a) Creación de la rúbrica de evaluación18,


b) Instrucción de los evaluadores en el uso de la plantilla de identificación
perceptiva,

16
Véase Ladd, (1993; 1996); Shriberg et al. (1996); Rietveld y Vermillion (2003); Gussenhoven (2004);
etc.
17
Intervienen en la conversación cuatro mujeres (estudiantes universitarias) <25 años. Véase Cabedo y
Pons [en línea], http://www.valesco.es/.
18
La rúbrica de evaluación contiene dos tipos de identificadores: los fónico-perceptivos (F0, volumen,
velocidad de habla, pausas, grado de excitación, identificadores no verbales y cualidad de la voz) y los
analíticos o descriptivos (unidad conversacional, tipo de intervención, unidad prosódica y otros). Los
primeros permiten delimitar ejemplos a través de la audición de la conversación (impresión perceptiva de
los fenómenos prosódicos). Los segundos son un paso inicial para adelantar la descripción de los
componentes que se analizan acústicamente en la segunda fase de la investigación (Padilla, en prensa). Los
evaluadores son instruidos siguiendo una metodología inspirada en la identificación de locutores mediante
juicio de expertos (Escobar y Cuervo, 2008; Robles y Rojas, 2015).
8

c) Evaluaciones individuales (N>2) y medición del índice de concordancia


(estadístico Kappa de Feiss),
d) Selección de ejemplos.

Del protocolo de evaluación –o aplicación de la rúbrica–, se obtuvieron 79 ejemplos con


significado emocional. De este primer conjunto, fueron seleccionados, en una segunda
fase, aquellos ejemplos que cumpliesen, además, los siguientes requisitos:

1. que no hubiese solapamientos entre dos o más hablantes que impidiesen el análisis
acústico,
2. que el ejemplo emocional formase parte de una unidad monologal identificable,
es decir, que fuese intervención, acto o subacto (“sense unit”). Ello implica que
el segmento conversacional elegido tiene al menos un grupo de entonación19
ubicado en un subacto, unidad mínima conversacional monológica20.
a) corolario: la reacción sintagmática se producirá prototípicamente entre
hablantes diferentes (reacción dialógica), sin embargo, puede darse, en
algunos casos, entre segmentos monológicos de un mismo hablante,
cuando la intervención de la que forma parte es muy larga (reacción
monológica).

El resultado final de este proceso de filtrado fueron 53 ejemplos emocionales similares a


los siguientes:

(2) Tristeza

0254 B: § pero ¿piensas sacarlo todo en Junio?


0255 A: noo tía→ todo no se si voy a poder↓ siempre quedan algunas asignaturass↓ pero quiero decirte
que-quee§

(3) Miedo

0397 A: º(tía el otro día que miedo pasé/ tía→º)// cojoo→ // al-la/ al día siguiente ya la encendí/ ((cojo
y)) como todavía no he cambiado la bombillaa↑// […]

(4) Asco

0184 B: l- las pulgas↑§


0185 C: § ¡ah! las pulgas↑ me creía que eran cucarachas
0186 B: [noo↓]
0187 A: [¡qué asco de] Valencia­ puf!
0188 B: hubo una plaga§

(5) Sorpresa

0005 A: = a MUEERte/ tía// limpiando los ama[rios→]


0006 B: [¿los armarios]/ limpiaste también↓?§

(6) Alegría

19
El grupo de entonación (o grupo fónico en la propuesta de Navarro Tomás, 1944) es una unidad prosódica
delimitada por dos pausas o inflexiones melódicas. Véase Quilis et al. (1993); Hidalgo y Padilla (2006);
Cabedo (2009).
20
Sobre la definición de las diversas unidades conversacionales (turno, intervención, acto, subacto, etc.),
véase Briz y grupo Val.Es.Co. (2002, 2014); Hidalgo y [Author] (2006); Cabedo (2009); etc.
9

0008 B: [ pero/ ¿para] qué limpiaste tanto↑?


0009 A: tía/ porque estaba em- para[noyá (per)día↑=]
00010 C: [RISAS]

(7) Enfado

0295 A: […] pero quiero decirte que está tía guay porque no da ni pizca de miedo porque las gafas son
de mentira/ si fueran de verdad/ sí↓
0296 B: ¡pero a ti qué más te da que sean las gafas de mentira o que sean las gafas de verdá!// […]

(Corpus Val.Es.Co. 2.0. Cabedo y Pons [en línea], http://www.valesco.es/ C13)

Cada ejemplo obtenido fue categorizado, como dijimos, en una de las seis emociones
básicas (Ekman, 1977, 1990). Estas emociones funcionan como prototipos generales a
los que se acomodan los exponentes particulares.

5. Análisis acústico

Delimitadas, por tanto, las emociones –perceptivamente identificadas– en una unidad


conversacional concreta (intervención, acto, subacto21), y, en la medida de lo posible, en
una unidad prosódica independiente (grupo de entonación), cada uno de los 106 ejemplos
del corpus final (53 detonadores + 53 emociones) fue analizado acústicamente con el
programa Praat (http://www.fon.hum.uva.nl/praat/; Boersma y Weenink, 2019) siguiendo
el siguiente esquema:

(8)

0363 A: º(me da escalofríos)º


0364 B: no me- nno exageres/// […]
(Corpus Val.Es.Co. 2.0. Cabedo y Pons [en línea], http://www.valesco.es/ C13)

DETONADOR: 0363 A: º(me da escalofríos)º


⇒ medición de la variación media: Hz/ dB /VEL (187,3Hz, 75,1dB, 3,5 síl. x seg.)
REACCIÓN EMOCIONAL: 0364 B: no me- nno exageres/// [(…)] [enfado]
⇒ medición de la variación media: Hz/ dB /VEL (200Hz, 82,1dB, 3 síl. x seg.)
REGISTRO MEDIO DE B: Hz/ dB /VEL (190,2 Hz; 83,6 dB; 5,1 síl. x seg.).

De los 106 enunciados, descritos previamente como detonador o como exponente de las
seis emociones básicas (alegría, tristeza, miedo, enfado, sorpresa y asco), se extrajo la
media de los valores acústicos descritos (F0, dB y VEL (=síl x seg.)) por enunciado, y en
cotejo (elemento previo vs. emoción; emoción vs. registro medio), según los dos tipos de
reacción (sintagmática y paradigmática) que hemos definido22. Los resultados de este
proceso se resumen en la Tabla 1:

21
La intervención es “la unidad monologal máxima estructural, generalmente asociada al cambio de emisor,
que se caracteriza por ser o provocar una reacción, prototípicamente, lingüística” (Briz y grupo Val.Es.Co.,
2014: 7). Esta unidad puede esta formada por uno o más actos (enunciados). Los actos a su vez pueden
estar formados por uno o más subactos véase Briz y grupo Val.Es.Co. (2002, 2014). Cada subacto contiene
a su vez un grupo de entonación (Hidalgo y Padilla, 2006).
22
Véase Apéndice.
10

Tabla 1 (tendencia de medias)

Enfado Sorpresa Alegría Asco Miedo Tristeza


R1 R2 R1 R2 R1 R2 R1 R2 R1 R2 R1 R2
F0 > - > - > - > - < - < <
dB > - > - > > - - - - < <
VEL - - - - - > - > - - < -
N=53 21 10 4 5 6 7

Los signos que aparecen en la tabla nos informan sobre la tendencia de los diferentes
cotejos: > (mayor), < (menor), - (sin tendencia precisa), en función de los dos tipos de
reacciones analizados (R1, R2). Las cifras de la fila inferior indican el número de
ejemplos de cada una de las categorías emocionales.

5.1. Resultados

Los datos de la Tabla 1 muestran informaciones diversas que pasamos a analizar. Si


atendemos, en primer lugar, a la reacción paradigmática (R2), y al comportamiento que
muestran en ella los valores acústicos (>, <, =), observamos que no hay ninguna tendencia
regular, ni con respecto al aumento/descenso de los mismos, ni en su direccionalidad
(orientación similar en los datos extraídos), y que esta falta de regularidad se repite en las
tres magnitudes analizadas (F0, dB y VEL).
Probablemente, la mejor explicación para este fenómeno es que las variaciones que
presentan los ejemplos con respecto al registro medio del hablante (“F0 register”) están
influidas por otros factores además de la reacción emocional. Así, por ejemplo, los valores
obtenidos parecen depender no sólo de la reacción paradigmática en sí, sino de los
registros medios de los dos hablantes que interactúan. Consecuentemente, un aumento o
descenso de las variables podría ser más o menos necesario –exigible como R2– para
expresar la emoción según los casos. Dicho de otro modo, si los valores del enunciado
previo (detonador, D) son menores, por ejemplo, que el registro medio del hablante que
emite la reacción, la reacción paradigmática no tiene –en principio– por qué superar su
registro medio. Diferentes registros medios presuponen, por otra parte, distintas franjas
de F0 (“F0 range”) entre las cuales se mueve cada uno de los hablantes23. Es posible, por
tanto, señalar que R1 condiciona R2, y que, consecuentemente, esto propicia la
variabilidad y la falta de regularidad de los resultados.
El segundo comportamiento, en este caso, sí regular, se observa en la reacción
sintagmática (R1) y en la magnitud acústica F0 (Tabla 2). Esta regularidad, sin embargo,
no es extrapolable a las otras dos magnitudes, dB y VEL. Observamos, igualmente, que
las reacciones de los hablantes se agrupan en dos bloques más generales24: 1) aquel de las
denominadas emociones que contienen el rasgo [+excitación]25, esto es, enfado, sorpresa,

23
Véase Apéndice.
24
Algunos autores (Scherer et al. 1984; Laukka 2004; etc.) proponen que las emociones pueden ser diluidas
en una serie de rasgos o dimensiones: [excitación/evaluación]. Así, frente a la propuesta de inventario de
emociones, o unidades discretas, en esta hipótesis, las emociones se consideran de forma conjunta. Algunas
emociones comparten el grado de excitación (alto, para alegría y enfado; bajo, para tristeza); otras su
evaluación, positiva o negativa (positiva, para alegría o sorpresa; negativa, para enfado y tristeza). Véase
Garrido (2019).
25
De forma general, se describe la excitación (“arousal”) como la fuerza o intensidad con la que se presenta
una emoción (Scherer et al. 1984).
11

alegría y asco, y que aumentan la F0 (>); y 2) aquel de las denominadas emociones que
contienen el rasgo [-excitación], es decir, tristeza y miedo, y que disminuyen la F0 (<).

Tabla 2 (valores regulares de F0)

Enfado Sorpresa Alegría Asco Miedo Tristeza


R1 R1 R1 R1 R1 R1
F0 > > > > < <
N=53 21 10 4 5 6 7

Los resultados de la F0, en los casos de R1 (regulares y direccionales), permiten, por lo


tanto, avanzar un paso más en el análisis de los datos y buscar hipotéticas correlaciones
entre los valores de las dos variables cotejadas. Presentamos este análisis en el siguiente
apartado.

6. Análisis de correlación

Los datos de F0 en la reacción sintagmática (R1) procedentes del análisis acústico fueron
sometidos a un análisis estadístico con el propósito de estudiar las posibles correlaciones
significativas en las variables observadas. Para llevar a cabo este análisis examinamos si
era posible establecer una correlación entre dos elementos de la reacción sintagmática: el
enunciado emocional (x) y el segmento previo (y), en las muestras de F0 indicadas.
Atendiendo a lo anterior, aplicamos la fórmula del coeficiente de correlación de Pearson26

Fig. 2

a cada par de muestras, utilizando el software SPSS Statistics (versión 26). Nuestro
análisis presenta un nivel de significación del 95%, es decir, existe un 5% de probabilidad
de cometer un error al afirmar la conclusión de cada prueba de contraste de hipótesis
realizada. Previamente a la realización de este análisis, llevamos a cabo una prueba de
normalidad, también en SPSS, para verificar que los datos cumplían la hipótesis de estar
normalmente distribuidos. Al ser una muestra pequeña (menos de 50 datos por emoción),
aplicamos la prueba de normalidad Shapiro-Wilk, y obtuvimos como conclusión que se
puede suponer que todas las muestras siguen una distribución normal, salvo en el caso de
segmento previo en la emoción asco.
Mostramos los resultados de estos análisis en la Fig. 3 en la que presentamos tanto los
gráficos de las líneas de tendencia en la distribución de los ejemplos por emociones como
los valores r y p del análisis estadístico.

Fig.3 (gráficos de correlación)

26
En estadística, el coeficiente de correlación de Pearson, también denominado r de Pearson (o “Pearson
product-moment correlation coefficient”), es una medida de la correlación lineal entre dos variables X e Y.
Tiene un valor entre +1 y -1, donde 1 es correlación lineal positiva total, 0 no es correlación lineal y -1 es
correlación lineal negativa total (véase Field, 2009, cap. 6).
12

6.1. Interpretación estadística

El análisis de correlaciones que se observa en los gráficos de la Fig. 3 presenta los


siguientes resultados: enfado: r = .72, p < .01; sorpresa: r = .87, p < .01; alegría: r = .88,
p = NS; asco: r = NS, p = NS; tristeza: r = .84, p = NS; miedo: r = .70, p =<.05). Según
estos datos, todas las emociones analizadas, salvo una (el asco), muestran un índice de
correlación (o índice r) significativo, esto es, un valor positivo próximo a 1 (fuerza de la
correlación27). Aunque el índice de correlación es un valor estadístico en sí mismo, nótese
que todas las muestras examinadas señalan a su vez un valor p igualmente significativo
(p < .01/ p < .05). Ocurre así en todas las emociones salvo en el caso del asco (NS) y de
la tristeza (NS).
Si agrupamos, por otra parte, las emociones básicas (enfado, sorpresa, alegría, asco,
tristeza y miedo) en dos grupos, siguiendo el criterio del grado de excitación28 (“arousal”)
mayor o menor, esto es, en [+excitación] (enfado, sorpresa, alegría, asco) vs. [-excitación]
(tristeza y miedo), volvemos a encontrar correlaciones significativas, como se muestra en
la Fig. 4:

Fig. 4 (emociones agrupadas)

27
Véase nota 26.
28
Véanse notas 24 y 25.
13

El análisis de correlaciones de estos dos grupos generales señala una correlación positiva
y un valor p estadísticamente significativo: [+excitación]: r = .78, p < .01; [-excitación]:
r = .88, p < .01 en los dos casos. No obstante, es necesario informar de que la aplicación
de la prueba de normalidad Shapiro-Wilk indicó que las muestras agrupadas no siguen
una distribución normal en dos casos: el elemento previo de las emociones negativas y el
enunciado emocional en las emociones positivas. Este dato parece apoyar nuestra
propuesta de que la separación de emociones proporciona información más ajustada.
Es conveniente señalar, por último, que las correlaciones señaladas –por definición– no
indican una relación de causa-efecto entre dos factores (causalidad), sino una relación
matemática entre las variables objeto de análisis. No obstante, si examinamos, el valor
R2, o coeficiente de determinación, que proporcionan los datos (R2 (= índice r x índice r)
x100), enfado (R2=0.72 x 0.72 x 100), sorpresa (R2=0.87 x 0.87 x 100), alegría (R2=0.88
x 0.88 x 100=), tristeza (R2=0.84 x 0.84 x 100) y miedo (R2=0.70 x 0.70 x 100=), podemos
notificar que nuestra muestra explica un 51,84% de los casos en el enfado; 75,69%, en la
sorpresa; 77,44%, en alegría; y un 70,56%, en la tristeza, de los datos consignados.
Consecuentemente, es posible refrendar parte de su fuerza explicativa en las emociones
analizadas.

7. Discusión

Como indicábamos al principio de este trabajo, partimos de la idea de que la emoción es


una reacción o respuesta a un estímulo externo y que la voz, como sucede con otros
mecanismos corporales, también podría reflejar esta reacción. Para comprobar si esto era
así, planteamos un estudio pragmaprosódico que tomaba como punto de partida algunos
supuestos. El primero de ellos era que la emoción puede ser descrita como una reacción
pragmaprosódica, esto es, una reacción contextualizada en la conversación espontánea,
que podría afectar a la variación de determinadas magnitudes acústicas (F0, dB y VEL).
Planteamos así que la variación de la media de estas magnitudes podría observarse
hipotéticamente en dos posibles escenarios: a) la reacción sintagmática (R1) y b) la
reacción paradigmática (R2). Esta posibilidad se formuló de la siguiente manera: D ⇒
R1, [R2] ∨ (R1, R2). Cada tipo de emoción (alegría, tristeza, enfado, miedo, sorpresa, asco)
tendría, o podría tener, hipotéticamente, comportamientos objetivamente observables,
bien en los dos escenarios (R1, R2), o bien en uno de ellos (R1, [R2]). Para examinar estos
dos escenarios analizamos acústicamente todos los ejemplos del corpus atendiendo a los
dos tipos de reacciones y a las tres magnitudes indicadas.
El análisis acústico proporcionó informaciones diversas. No encontramos ni regularidad
ni direccionalidad en los resultados de las reacciones paradigmáticas (R2); tampoco
encontramos regularidad ni direccionalidad clara en algunas magnitudes (dB, VEL) de
las reacciones sintagmáticas (R1). Sí hallamos, por el contrario, regularidad y
direccionalidad en los datos de la F0~R1.
14

Ya que los resultados de F0~R1 permitían describir algunas tendencias generales en los
ejemplos del corpus, decidimos llevar a cabo un análisis estadístico de las relaciones
observadas para averiguar la mayor o menor fuerza de estas tendencias. El análisis de
correlaciones en este sentido nos proporcionó información adicional sobre la validez
descriptiva del análisis acústico. El índice de correlación observado en las emociones
marca tendencias estadísticamente validadas (tanto por el índice r como por el valor p)
en casi todas las emociones examinadas (enfado, sorpresa, alegría, tristeza y miedo).
Parecen escapar de estas tendencias los ejemplos de asco. Ahora bien, el número de
ejemplos y las características particulares de esta emoción (sus posibles conexiones con
la sorpresa y el enfado) no nos permiten aventurar respuestas categóricas sobre su
comportamiento definitivo.

8. Conclusiones

Como señalamos al principio de este artículo, el objetivo de nuestro trabajo era examinar
cómo los hablantes interactúan prosódicamente en situaciones emocionales, y analizar si
es posible establecer una relación entre el enunciado que provoca la reacción emocional
(detonador) y la respuesta emocional propiamente dicha observando el comportamiento
de las magnitudes acústicas (F0, dB y VEL) que ambos manejan. Para ello hemos llevado
a cabo dos tipos de análisis: a) la reacción sintagmática, entendida como la reacción a lo
anterior (sea a la intervención de un hablante previo o sea a la parte no emocional de la
intervención de un mismo hablante); y b) la reacción paradigmática, esto es, qué sucede
con los parámetros acústicos mencionados si son cotejados con el registro medio del
hablante (F0, dB, VEL). Hemos partido de la hipótesis de que los enunciados emocionales
podrían presentar algún tipo de variación (aumento, descenso, mantenimiento) en las
medias de las magnitudes acústicas de las dos relaciones mencionadas. Los resultados
obtenidos de todos los análisis validan una parte de aquellos estudios que proponen un
supuesto comportamiento errático o idiosincrático en la prosodia emocional. No obstante,
podemos aportar datos y explicaciones que complementan en un sentido contrario algunas
de las calificaciones genéricas. El primero de ellos es señalar que, partiendo de nuestros
datos, hay tendencias con validación estadística que muestran que la F0 en las reacciones
sintagmáticas sí obedece a un patrón. Hay un aumento de este valor en casi todas las
reacciones emocionales descritas con el rasgo [+excitación], esto es, el enfado, la sorpresa
y la alegría. No lo hay, sin embargo, en los ejemplos de asco, que presentan un
comportamiento irregular atribuible a sus características especiales (ser un estadio
intermedio entre la sorpresa y el enfado). Hay igualmente un descenso regular del valor
de la F0 en las reacciones emocionales descritas con el rasgo [-excitación], es decir, la
tristeza y el miedo. Es posible por tanto afirmar que sí hay algunas regularidades en la
prosodia emocional.
Finalizamos estas conclusiones señalando que este trabajo, como comentamos al inicio,
forma parte de un proyecto más amplio, por lo tanto, sólo puede considerarse un punto
de partida en el examen de algo tan complejo y variado como las emociones en contextos
conversaciones espontáneos. No obstante, a pesar de las dificultades que hemos
encontrado, tanto en el objeto de estudio como en el corpus en sí, creemos haber
establecido algunos principios que sirvan como base para iniciar el estudio de las
características prosódicas del habla emocional.
15

9. Referencias bibliográficas

Ascombre, Jean-Claude y Oswald Ducrot. 1983. L’argumentation dans la langue. Bruxelles:


Mardaga.
Briz, Antonio y grupo Val.Es.Co. 2002. Corpus de conversaciones coloquiales. Madrid: Arco
Libros.
Briz, Antonio y grupo Val.Es.Co. 2014. Las unidades del discurso oral.
La propuesta Val.Es.Co.
de segmentación de la conversación (coloquial). Estudios de Lingüística del Español 35.1: 11-
71.
Briz, Antonio y grupo Val.Es.Co. 2004. “El sistema de transcripción del Grupo Val.Es.Co.”
Español Actual 8: 35-55.
Bolinger, Dwight. L. 1986. Intonation and its parts. Standford: Standford University Press.
Bülher, Karl. 1934. Teoría del lenguaje. Madrid: Revista de Occidente (trad.1950).
Boersma, Paul, and Weenink, David. 2019. Praat, a system for doing Phonetics by computer.
Amsterdam: Report of the Institute of Phonetic Sciences Amsterdam.
http://www.fon.hum.uva.nl/praat/
Cabedo, Adrián. 2009. Segmentación prosódica de la conversación coloquial: sobre el grupo
entonativo como mecanismo demarcativo de unidades mínimas. Valencia: Universitat de
València.
Cabedo, Adrián y Pons, Salvador. eds. 2013. Corpus Val.Es.Co. 2.0. Consultado online en
http://www.valesco.es.
Canales, Lea, Boldrini, Ester, Daeleman, Walter y Patricio Martínez. 2017. “Towards the
Improvement of Automatic Emotion Pre-annotation with Polarity and Subjective
Information”. Proceedings of Recent Advances in Natural Language Processing 4-6 :157–
163.
Cantero, Francisco J. 2002. Teoría y análisis de la entonación. Barcelona, Edicions Universitat
de Barcelona.
Cantero, Francisco J. 2014. “Códigos de la entonación y entonación emocional”. In 31er
Congreso Internacional de la Asociación Española de Lingüística Aplicada.
Cañamero, Lola. 2005. “Emotion understanding from the perspective of autonomous robots
research”. In Neural Networks, 18 (4): 445-455.
Cruttenden, Alan. 1986. Intonation. Cambridge: Cambridge University Press.
Cole, Jennifer. 2015. “Prosody in context: A review”. Cognition and Neuroscience 30: 1-31.
Cowie, Roddy. 2001. “Describing the emotional states expressed in speech”. In ISCA ITRW
Speech and Emotion, Newcastle, Northern Ireland.
Cowie, Roddy, McKeewn, Gary y Douglas-Cowie, Ellen. 2012. “Tracing Emotion: An
Overview”. In International Journal of Synthetic Emotions, 3(1): 1-17.
Crystal, David. 1969. Prosodic systems and intonation in English. Cambridge: Cambridge
University Press.
Cutler, Anne. 1977. “The context-dependence of Intonation meaning”. Chicago Linguistic
Society 13: 104-115.
Darwin, Charles. 1872. The Expression of the Emotions in Man and Animals. Londres: John
Murray (traducción al español: La expresión de las emociones en los animales y en el hombre.
1998. Madrid, Alianza Editorial).
De Silva, Liyanage C. y Pei Chi Ng. 2009. “Bimodal emotion recognition”. Available from
https://www.researchgate.net/publication/3845464_Bimodal_emotion_recognition [accessed
Apr 09 2020].
Escobar, Jasmine y Ángela Cuervo. 2008. “Validez de contenido y juicio de expertos: una
aproximación a su utilización”. Avances en Medición 6: 27-36.
Ekman, Paul. 1970. “Universal Facial Expressions of Emotions”. California Mental Health
Research Digest, 8(4): 151-158.
Ekman, Paul. 1999. “Basic emotions”. In T. Dalgleish and M. Power. eds. Handbook of Cognition
an Emotion. New York: John Wiley & Sons Ltd.
16

Eyben, Florian, Florian Eyben, Klaus Scherer, Björn Schuller, Johan Sundberg, Elisabeth André,
Carlos Busso, Laurence Devillers, Julien Epps, Petri Laukka, Shrikanth Narayanan, Khiet
Truong. 2016. “The Geneva Minimalistic Acoustic Parameter Set (GeMAPS) for Voice
Research and Affective Computing”. In IEEE Transactions on Affective Computing 7:190-
202.
Fónagy, Iván. 1983. La vive voix. París: Payot.
Field, Andy 2009. Discovering Statistics Using SPSS. London: SAGE Publications.
Font-Rotchés, Dolors y Cantero, Francisco J. 2008. “La melodía del habla: acento, ritmo y
entonación”. Eufonía 43: 19-39.
Frühholz, Sascha, Wiebke Trost and Didier Grandjean. 2014. “The role of the medial temporal
limbic system in processing emotions in voice and music”. Prog. Neurobiol,
http://dx.doi.org/10.1016/j.pneurobio.2014.09.003
Garrido, J. María. 2019. “Análisis de las curvas melódicas del español en el habla emotiva
simulada”. Estudios de Fonética Experimental. XX: 205-55.
Gussenhoven, Carlos. 2004. The phonology of tone and intonation. Cambridge: Cambridge
University Press.
Hebb, Donald O. 1949. The Organization of Behaviour. John Wiley & Sons. ISBN 978-0-471-
36727-7
Hellbernd, Nele and Daniela Sammler. 2018. “Neural bases of social communicative intentions
in speech”. Social Cognitive and Affective Neuroscience 2018: 604–61
Hidalgo, Antonio. 1997. Entonación coloquial. Función Demarcativa y Unidades de Habla.
Valencia: Universitat de València.
Hidalgo, Antonio. 2019. Sistema y uso de la entonación en español hablado. Aproximación
interactivo-funcional. Santiago de Chile: UAH.
Hidalgo, Antonio y Xose A. Padilla. 2006. “Bases para el análisis de las unidades menores del
discurso oral: los subactos”. Oralia, 9: 109-139.
Jack, Rachel E. Oliver G.B. Garrod and Philippe G. Schyn. 2014. “Dynamic Facial Expressions
of Emotion Transmit an Evolving Hierarchy of Signals over Time”. In Current Biology 24:
187–192.
Jang, Daisung and Hillary Elfebein. 2015. “Emotion, Perception and Expression of” In: James
D.Wright (editor-in-chief), International Encyclopedia of the Social & Behavioral Sciences,
2nd edition, Oxford: Elsevier, 7: 483–489.
Jefferson, Gail (1974): “Error correction as an interactional resource”, Language in Society, 3,
pps. 181-201.
Juslin, P.N., Laukka, P. & Bänziger, T. 2017. The Mirror to Our Soul? Comparisons of
Spontaneous and Posed Vocal Expression of Emotion. Journal of Nonverbal Behavior 42: 1–
40.
Kerbrat-Orecchioni, Catherine. 1986. La enunciación. De la subjetividad en el lenguaje, Buenos
Aires: Hachette.
Ladd, Robert, Kim E. A. Silverman, Frank Tolkmitt, Günther Bergmann, and Klaus R. Scherer,
1985. “Evidence for the independent function of intonation contour type, voice quality, and
F0 range in signaling speaker affect”, Journal of the Acoustical Society of America 78, 435.
https://doi.org/10.1121/1.392466
Ladd, Robert, 1993. "On the Theoretical Status of “the Baseline” in Modelling Intonation".
Language and Speech 36(4): 435-451.
Ladd, Robert, 1996. Intonational phonology. Cambridge: Cambridge University Press.
Laukka, P. 2004. Vocal expression of emotion, discrete-emotions and dimensional accounts.
Uppsala: Uppsala University.
Martínez-Fernández, Diana. 2019. La expersión de la ironía en la conversación: estudio
fonopragmático en un corpus de habla semiespontánea. Valencia: Universita de València.
Matsumoto David, Yoo S. H., Fontaine J. 2008. “Mapping expressive differences around the
world: the relationship between emotional display rules and individualism versus
collectivism”. J. Cross. Cult. Psychology 39: 55–74.
17

Matsumoto, David, Hyi Sung Hwang, Rafael M. López y Miguel Ángel Pérez-Nieto. 2013.
“Lectura de la expresión facial de las emociones: investigación básica en la mejora del
reconocimiento de emociones”. Ansiedad y Estrés 19(2-3), 121-129.
Meen, Lise y Suzanne Boyce. 1982. “Fundamental frequency and discourse structure”. In
Language and Speech 25, 4: 341-383.
Moeschler, Jacques. 1985. Argumentation et conversation. Eléments pour une analyse
pragmatique du discours. Genève: Hatier-Credif.
Navarro Tomás, T. 1944. Manual de entonación española. Madrid: Guadarrama.
Ofuka, Etsuko, Denis McKeown, Mitch G. Waterman y Peter Roach. 2000. “Prosodic cues for
rated politeness in Japanese speech”. In Speech Communication 32: 199–217.
Padilla, Xose A. 2007. La comunicación no verbal. Madrid: Liceus.
Padilla, Xose A. 2017. “Prosodia y (des)cortesía en contexto de diálogo: la creación y la
negociación del ámbito tonal”. In LEA XXXIV/2: 243-268.
Padilla, Xose A. 2019, “El papel del mecanismo de reacción en la definición de las unidades
conversacionales. Su contribución a la caracterización del dinamismo discursivo”. In Antonio
Hidalgo y Adrián Cabedo. eds. Pragmática del español hablado: hacia nuevos horizontes.
Valencia: Universitat de València.
Padilla, Xose A. (en prensa). “Protocolo para abordar el estudio prosódico de las emociones en el
habla espontánea”. Revista Phonica.
Pell, Marc D. 2006. “Cerebral mechanisms for understanding emotional prosody in speech” In
Brain and Language 96: 221–234.
Pell, Marc D. 2009. “Recognizing Emotions in a Foreign Language”. In Journal of Nonverbal
Behavior 33: 107–120.
Pell, Marc D., & Skorup, Vera. 2008. “Implicit processing of emotional prosody in a foreign
versus native language”. Speech Communication 50: 519–530.
Pell, Marc D., Silke Paulmanna, Chinar Daraa, Areej Alasseria, Sonja A. Kotz. 2009. “Factors in
the recognition of vocally expressed emotions: A comparison of four languages”. In Journal
of Phonetics 37: 417–435.
Pell, Marc D. Abhishek Jaywant, Laura Monetta & Sonja A. Kotz. 2011. “Emotional speech
processing: Disentangling the effects of prosody and semantic cues”. Cognition & Emotion,
25/5: 834-853.
Picard, Rosalind W., Elias Vyzas and Jennifer Healey. 2001. “Toward machine emotional
intelligence: analysis of affective physiological state”. In IEEE Transactions on Pattern
Analysis and Machine Intelligence 23/10: 1175-1191.
Pierrehumbert, Janet B. 1980. The Phonology and Phonetics of English Intonation. MIT.
Pike, Kenneth L. 1945. The intonation of American English. Michigan: University of Michigan
Press.
Ploog, Detlev. 1986. “Biological foundations of vocal expressions of emotions”. In Robert
Plutchik and Henry Kellerman. eds. Biological Foundations of Emotion: Theories, Research
and Experience, New York: Academic Press.
Plutchik, Robert.1994. Emotion: Theory, research, and experience: Vol. 1. Theories of emotion,
1, New York: Academic.
Pons, Salvador. ed. 2014. Models of Discourse Segmentation. Explorations across Romance
Languages, Amsterdam: John Benjamins
Quilis, Antonio et al. 1993. “El grupo fónico y el grupo de entonación en español hablado”. In
RFE, 73: 55-64.
Reichel, Uwe D. y Jennifer Cole. 2018. “Entrainment analysis of categorical intonation
representations”, Proceedes P&P, 165–168.
Ríos, David, García, Diego, Gómez, Pablo y Alberto Redondo. 2011. “Máquinas que perciben,
sienten y deciden”. In Rev. R. Acad. Cienc. Exact. Fís. Nat. 105: 99-106.
Rietveld, Toni y Patricia Vermillion. 2003. “Cues for Perceived Pitch Register”. In Phonetica
60(4):261-72.
Robles, Pilar y Manuela del Carmen Rojas. 2015. “La validación por juicio de expertos: dos
investigaciones cualitativas en lingüística aplicada”. RNLA 7: 4-17.
18

Roulet, Eddy. 1991. “Vers une approche modulaire de l'analyse du discours”. Cahiers de
Linguistique Française 12: 53-81.
Roulet, Edy et al. 1985. L’articulation du discours en français contemporain, Berna: Peter Lang.
Sacks, Harvey. 1986. “Some considerations on story told in ordinary conversation”. In Poetics
15: 127-138.
Sacks, Harvey, Schegloff, Emanuel y Jefferson, Gail (1974): “A Symplest Systematics for the
Organization of Turn-Taking for Conversation”. Language, 50/4: 696-735
Searle, John R. 1986. Actos de habla, Madrid: Cátedra.
Sinclair, John, y Coulthard, Malcolm. 1992. “Towards an analysis of discourse”. In M. Coluthard,
ed., Advances in spoken discourse analysis. London/New York: Routledge, pp. 1-35.
Scherer, Klaus R. 1982. Emotion as a process: function, origin and regulation. Social Science
Information, 21. 550-570.
Scherer, Klaus R. 1986. “Vocal affect expression: A review and a model for future research,” In
Psychol. Bull. 99: 143–165.
Scherer, Klaus R. 2003. “Vocal communication of emotion: A review of research paradigms”.
Speech Communication, 40, 227-256.
Scherer, Klaus R., Ladd, D. Robert & Silverman, K. 1984. “Vocal cues to speaker affect: Testing
two models”, Journal of the Acoustical Society of America, 76: 1346-1356.
Shriberg, Elizabeth, Robert Ladd, Jacques Terken, Andreas Stolcke. 1996. “Modeling Pitch
Range Variation Within and Across Speakers: Predicting F0 Targets When “SPEAKING UP”.
In https://www.researchgate.net/publication/2650411_Modeling_Pitch_Range_Variation
Tatham, Mark and Katherine Morton. 2004. Expression in Speech: Analysis and Synthesis.
Oxford: Oxford U. Press.
Tatham, Mark and Katherine Morton. 2011. A Guide to Speech Production and Perception.
Edinburgh. Edinburgh: Edinburgh University Press.
Truesdale, Deirdre M. and Marc D. Pell.2018. “The sound of Passion and Indifference”. In
Speech Communication 99: 124–134.
Tsur, Reuven. 1992. What makes Sound patterns Expresives? (The Poetic mode of Speech
Perception). Durhan: Duke University Press.

10. Apéndice

Ejemplo de análisis acústico

Ej. Enfado reacción sintagmática reacción paradigmática


0364 B detonador emoción diferencia emoción registro medio diferencia
F0/Hz 187,3 200 12,7 > 200 190,2 9,8 >
dB 75,1 82,1 7 > 82,1 83,6 1,5 <
VEL (síl x seg.) 3,5 3 0,5 < 3 5,1 2,2 <

Ejemplo de Tabla de cotejos (enfado)

Ejs. Enfado reacción sintagmática (lo reacción paradigmática (registro de F0,


previo) dB, VEL)
Numeración/habl Cifra Cifra F d VE Cifra emoción F0register F0 d VE
ante previa emoción 0 B L B L
C13-005/A 218,5 226 > < < 226 221,8 > > >

C13-007/A 197,1 202,3 > < > 202,3 221,8 < < >

C13-0021/C 243 293 > > > 293 214,6 > > >

C13-0023/C 252,7 303,3 > > > 303,3 214,6 > > >

C13-0043/A 240,5 276 > > < 276 221,8 > > >

C13-0043/A 216,1 266,5 > > < 266,5 221,8 > > <

C13-0088/C 168,3 179,4 > > > 179,4 214,6 < > <
19

C13-00098/A 196 283,1 > > < 283,1 221,8 > > <

C13-139/B 174,1 211,6 > < > 211,6 190,2 > < >

C13-0176/B 222,8 224,8 > > < 224,8 190,2 > > >

C13-0190/A 220,7 262,2 > > < 262,2 214,6 > > <

C13-0227/B 204,3 205,5 > > > 205,5 190,2 > > >

C13-0237/C 185 205,8 > > < 205,8 214,6 < < <

C13-0244/C 208 234 > > < 234 221,8 > > <

C13-0249/A 200,8 211,8 > > < 211,8 221,8 < > >

C13-0251/A 229,8 212 > > > 212 221,8 < < >

C13-0296C 205,4 228,1 > > > 228,1 214,6 < > <

C13-0363B 187,3 200 > > < 200 190,2 > < <

C13-374C 168,1 219,3 > > < 219,3 214,6 > < <

C13-381A 202,4 238 > > > 238 221,8 > > <

C13-388A 263,6 271,1 > > > 271,1 221,8 > > >

View publication stats

También podría gustarte