Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Artículo:
edigraphic.com
Martínez LAE y cols. Estudio del efecto coarticulatorio en el habla MG 67
REVISTA MEXICANA DE
INGENIERÍA BIOMÉDICA
ARTÍCULO DE DIVULGACIÓN
SOMIB Vol. XXV, Núm. 1
Marzo 2004
pp 67 - 77
ABSTRACT
ABSTRACT
Key Words:
Words:
Coarticulation, Speech spectral representation.
Cuadro 1. Fonemas particulares del español mexi- espectros por ventanas da como resultado el es-
cano. pectrograma.
El espectrograma es una representación de las
Fonema Ejemplo Transcripción
variaciones de la frecuencia, las cuales se mues-
S Xocoyote Soco’’jjote tran en el eje vertical, y la intensidad en la señal
C Cojín coC’in de voz a lo largo del tiempo, en el eje horizontal.
Jj Ayer a’jjer El espectrograma sirve para analizar diversas ca-
T Zona Tona racterísticas de la señal del habla como la sono-
W Agua AGwa ridad, la duración, y la estructura de las frecuen-
cias formantes, el timbre, la intensidad, las
pausas, el acento y el ritmo 9. Normalmente se
gionales” que se presentan en las diversas áreas calcula y guarda en la memoria de la computa-
de habla hispana, el efecto coarticulatorio se ob- dora como una serie bidimensional de valores
serva con mayor claridad. El estudio de la coarti- de energía acústicos. Para un espectrograma
culación está muy relacionado con el contexto dado S, la energía de un componente de fre-
de la palabra o frase, ya que la pronunciación de cuencia dado w en un momento dado t es re-
algunos fonemas dependen de los fonemas que presentado por la tonalidad en la escala de gri-
le preceden o que le siguen. De esta manera es ses o color del punto correspondiente S(t, f). El
necesario definir reglas específicas para el estu- cálculo del espectrograma da lugar a una fun-
dio de la coarticulación en el idioma español to- ción compleja cuya expresión es:
mando en cuenta aspectos como el contexto y
el acento. P- 1
S ( w) = 1
P å s ( n) e - jwn
bajas se notan demasiado suaves. Sin llegar a nido /x/ (/j/ de jamón) tiene una apariencia simi-
ser completamente fricativa la presencia de lar a una fricativa sorda, es decir, con discretos
estos componentes espectrales denotan la niveles de energía a frecuencias bajas, y una
modulación dada por los articuladores. ligera percepción. Dado que el siguiente soni-
2. El sonido fricativo alveolar sordo /s/ se vuelve do es una vocal se puede notar la diferencia,
fricativo glotal sordo /h/. No se presentan las pero no siempre se da este caso.
componentes que dan la apariencia ruidosa de 2. Las oclusivas sordas /d/ y /b/ y /g/ se pronuncian
naturaleza alveolar en el espectro. Más bien se como oclusivas excepto en la posición postnu-
encuentran niveles bajos de energía obtenidos clear o en el inicio de una sílaba que comien-
por la aportación de la glotis a la emisión del za con vocal. En estos casos se presentan los
sonido. En la palabra “dos” de la Figura 2, la /s/ alófonos sonoros /B/, /D/, /G/. En la palabra “par-
presenta estas características y dado que el fo- tidos” de la Figura 4 se encuentra que la /d/ de
nema se presenta al final de palabra, se espe- la sílaba “dos” presenta las características oclu-
ra que la energía sea de menor intensidad. siva y plosiva claramente.
1. La fricativa velar sorda /x/ se pronuncia como El laboratorio Entropic Research diseñó la base de
fricativa glotal sorda /h/. En el caso de la pala- datos Latino-40 con el objetivo de obtener un con-
bra “jornada” presentada en la Figura 3, el so- junto de frases o enunciados que sirvieran de en-
edigraphic.com
trenamiento a sistemas de reconocimiento del como moverse a lo largo de la base de datos que
habla independientes del hablante que reconoz- estaban construyendo.
can el español latinoamericano 10 . La base de
datos resultante, denominada Entropic Latino40, ANÁLISIS DE LA COARTICULACIÓN EN PALABRAS
consta de 40 conjuntos de 125 enunciados para EMITIDAS POR DIFERENTES HABLANTES
un total de 5,000 archivos de voz. Cada conjunto
de enunciados fue asignado a uno de los 40 ha- A fin de apreciar el fenómeno de coarticulación
blantes, 20 femeninos y 20 masculinos, que for- con mayor claridad se describen las diferencias
maron parte del proyecto. Las grabaciones se rea- en la pronunciación de diversos hablantes en un
lizaron con un micrófono de alta calidad en un conjunto de cinco palabras. Se presentan los es-
ambiente de oficina y la grabación de las emisio- pectrogramas de las palabras aisladas enuncia-
nes se digitalizaron a 16-bits y una frecuencia de das en los contextos de las frases que se indican
muestreo de 16 kHz. así como el país de cada hablante.
Hablantes Transporte
Los hablantes participantes fueron voluntarios de 1. Esta palabra tiene dos oclusivas sordas /t/ y /p/
diferentes países de Latinoamérica, cuyas edades cuyas características se ven con claridad en la
iban entre 18 y 59 años y la lengua materna era el hablante de Argentina (Figura 5).
español. Siete de los hablantes eran de Perú, cin- 2. La característica fricativa de la /s/ se observa
co de cada uno de los siguientes países: Argenti- en todas las pronunciaciones siendo la más fuer-
na, Colombia, Guatemala, y Nicaragua, tres de te la del hablante de Nicaragua (Figura 6).
Venezuela y dos de Chile, Costa Rica, Cuba, El 3. En los hablantes de Nicaragua y Perú se nota
Salvador y México. levemente la presencia de la /n/ mientras
que en la de Argentina no se ve nada (Figu-
Procedimiento de grabación ras 6 y 7).
4. La /r/ de la segunda sílaba de la palabra trans-
Los hablantes se sentaron en una silla frente a una porte, /por/, se puede observar en todos los
estación de trabajo de Silicon Graphics, Indy (SGI). casos con cierta similitud, no así la /r/ de la síla-
Cada hablante fue instruido en el proceso de ba /trans/ que dada su corta duración se ve
grabación; se le indicó como controlar el software opacada por los fonemas de mayor energía,
utilizado, manejar apropiadamente el micrófono en este caso la /a/.
y evaluar la calidad de las frases grabadas. El con- 5. Para segmentar fonéticamente algunos de los
trol de las grabaciones se hizo mediante el uso de sonidos no permiten su identificación clara. En
un botón que iniciaba la grabación al tiempo que este caso es más fácil identificar la sílaba com-
desplegaba el texto en español que iba a ser leí- pleja /trans/ por la característica de la /s/ pre-
do. La grabación de la frase terminaba cuando
se accionaba un botón que daba acceso inme-
edigraphic.com sente en todos los casos.
Figura 5. Espectrograma de “transporte” en la frase “No se han completado los arreglos para el transporte”, hablante
femenino de Argentina.
Figura 6. Espectrograma de “transporte” en la frase “También se incluye el transporte espacial”, hablante masculino de
Nicaragua.
Figura 7. Espectrograma de “transporte” en la frase “También se incluye el transporte por vía lacustre”, hablante mascu-
lino de Perú.
da”, dura muy poco tiempo y su espectro se Argentina y Guatemala el sonido se muestra
opaca por el de la vocal /a/ más difuso. En el caso de Argentina, la pronun-
2. La pronunciación de /a/ es más clara en la ha- ciación de la palabra presenta un decremento
blante de Colombia, mientras que las hablan- en la energía de la última sílaba comparada
tes de Argentina y Guatemala la pronuncian de con la primera (Figura 8).
una manera muy suave y corta (Figura 9). 6. Con respecto a la última /s/ hay casos en los
3. La característica fricativa de /s/ es clara en las que su emisión es muy débil y de corta dura-
hablantes de Colombia y Guatemala, mientras ción, como en el caso de Colombia y Guate-
que en la de Argentina el fonema se presenta mala, mientras que en la emisión argentina se
muy suave y con energías a bajas frecuencias. logra apreciar el efecto fricativo.
4. El efecto de oclusión se nota en todas las ha-
blantes variando la duración y la claridad ya Viene
que mientras que en las hablantes de Argenti-
Figura 8. Espectrograma de “gastos” en la frase “ Como consecuencia hemos incurrido en grandes gastos”, hablante
femenino de Argentina.
Figura 9. Espectrograma de “gastos” en la frase “Los gastos y los beneficios resultan importante”, hablante femenino de
Colombia.
Figura 10. Espectrograma de “gastos” en la frase “Como consecuencia hemos incurrido en grandes gastos”, hablante
femenino de Guatemala.
1. De los tres ejemplos el del hablante de Guate- 3. En el caso del hablante de Chile se presentan
mala presenta mayor dificultad ya que, ade- dificultades para distinguir la /b/ y la /t/; las vo-
más de la baja energía que el espectrograma cales sí logran diferenciarse (Figura 15).
presenta, prácticamente no se logra observar 4. La hablante de México muestra componen-
ningún componente. Por otro lado el de Cuba tes claros en la segunda parte de la pala-
también presenta dificultad para el análisis, bra. Se logran diferenciar los sonidos /a/, /s/,
aunque su nivel de energía es mayor (Figuras /t/ y /a/, aunque la /u/ se confunde con la /b/
11 y 12). (Figura 16).
2. Para la hablante de Perú se presentan los mis-
mos problemas aunque pareciera que lo úni- Restaurados
co que se ve con claridad es el diptongo /ie/
(Figura 13). Para esta palabra se presentan tres formas dis-
tintas derivadas de sendas pronunciaciones di-
Subasta ferenciadas.
1. El espectrograma de la hablante de Nicaragua
1. En los tres casos el espectrograma permite ver no presenta la componente de la /r/ inicial, el
los límites entre los sonidos involucrados. sonido queda cubierto por la /e/; el cambio
2. En el espectrograma de la hablante de Gua-
temala la /t/ no logra presentar la caracterís-
edigraphic.com entre vocales /au/ se ve con claridad y el soni-
do oclusivo sonoro /d/ se pierde de nuevo ante
tica oclusiva ya que presenta leves niveles la presencia de la vocal (Figura 17).
de energía en todo momento; esto es sufi- 2. En el caso del hablante del Salvador su gráfica
ciente para diferenciarla de la /s/ y la /a/ (Fi- es la más clara del conjunto ya que logran dis-
gura 14). tinguirse todos los fonemas involucrados, tanto
74 MG Revista Mexicana de Ingeniería Biomédica • volumen XXV • número 1 • Marzo 2004
Figura 11. Espectrograma de “viene” en la frase “Cada vez que viene la registran, cuando llega y cuando se va”,
hablante masculino de Cuba.
Figura 12. Espectrograma de “viene” en la frase “Esto no se va a quedar así, viene la revancha, agregó”, hablante
masculino de Guatemala.
Figura 13. Espectrograma de “viene” en la frase “¿Por qué viene a un país a buscar fortuna?”, hablante femenino de
Perú.
Figura 14. Espectrograma de “subasta” en la frase “En la subasta de tierras no hubo cambio de dinero”, hablante
femenino de Guatemala.
edigraphic.com
Figura 15. Espectrograma de “subasta” en la frase “Empresa peruana gana subasta de fábrica de cemento”, hablante
femenino de Chile.
Martínez LAE y cols. Estudio del efecto coarticulatorio en el habla MG 75
Figura 16. Espectrograma de “subasta” en la frase “Empresa peruana gana subasta de fábrica de cemento”, hablante
femenino de México.
Figura 17. Espectrograma “restaurados” en la frase “Los templos dañados han sido restaurados”, hablante femenino de
Nicaragua.
Figura 18. Espectrograma “restaurados” en la frase “Los templos dañados han sido restaurados”, hablante masculino de
El Salvador.
edigraphic.com
Figura 19. Espectrograma “restaurados” en la frase “Sin embargo, la paz no se ha restaurado aún”, hablante masculino
de Perú.
76 MG Revista Mexicana de Ingeniería Biomédica • volumen XXV • número 1 • Marzo 2004
Uno de los más claros se relaciona con la in- En el caso de los hablantes de Colombia, la
tensidad en la pronunciación de las palabras; en pronunciación de la j (/x/) se escucha como fri-
la mayoría de los casos el espectrograma presen- cativa glotal sorda donde la energía que se pro-
ta un decremento de la energía al final de la pa- duce es leve a bajas frecuencias. Las vocales se
labra cuando ésta termina el enunciado, lo cual escuchan claras mientras que la oclusiva /t/ es
indica una menor intensidad en la pronunciación muy leve.
de la misma. La intensidad en la emisión de la Para los hablantes de Cuba se encontró que
palabra es un factor importante para la determi- cuando se pronuncia la fricativa velar sorda /x/,
nación de los fonemas a partir de la representa- ésta sale como fricativa glotal sorda /h/ donde
ción mediante el espectrograma. Algunos fone- continúan los bajos niveles de energía al arrastrar
mas, principalmente las consonantes, presentan el sonido. La nasal alveolar sonora /n/ se convierte
características espectrales difíciles de identificar en nasal velar sonora /N/ con una emisión unifor-
ya sea por su corta duración, como en el caso de me alcanzando casi todo el espectro de frecuen-
las oclusivas, o porque se involucran varias frecuen- cias presentes. Los fonemas oclusivos sonoros /d/
cias a la vez que dan una apariencia “ruidosa”, son muy cortos y casi no se alcanzan a ver en los
como en las fricativas. Cuando la palabra se pro- espectrogramas.
nuncia a baja intensidad, aumenta la dificultad En el caso de Chile, la fricativa velar /x/ previo a
en la identificación y el espectrograma puede in- las vocales /e/ e /i/, se convierte en fricativa pala-
cluso no mostrar las características de algunos de tal sorda. La característica sorda se alcanza a
los fonemas involucrados; la falta de información observar al no haber una concentración de ener-
clara puede ocasionar que en las transcripciones gía importante en el rango de frecuencias; hay
estos fonemas no aparezcan. casos en que la fricativa velar sorda /x/ se convier-
La calidad de la emisión de la palabra tam- te en fricativa glotal sorda /h/. Este efecto se pue-
bién influye en la identificación de los fonemas. de observar en palabras bisílabas con diferentes
:rop odarobale
La base de datos Latino40 presenta FDP
una variedad sustraídode-m.e.d.i.g.r.a.p.h.i.c
contextos, en la primera sílaba el efecto es ruido-
de pronunciaciones que resultó valiosa para este so mientras que en la segunda la velar se convier-
cihpargidemedodabor
estudio. Algunos VChablantes
ed AS, cidemihparG
se caracterizaban por te en glotal. Es difícil distinguir la /b/ y la /t/ cuando
una clara pronunciación y a una velocidad ade- en su contexto se encuentran vocales, las cuales
cuada que facilitaban la correctaarap identificación logran ser bien diferenciadas.
fonética, mientras que otros pronunciaban los Los hablantes de Guatemala se caracterizaron
acidémoiB
enunciados arutaretiLy :cihpargideM
lentamente con deficiencias, lo cual por tener un fonema fricativo /s/ muy bien defini-
sustraídode-m.e.d.i.g.r.a.p.h.i.c
dificultaba el análisis espectral. Al observar los es- do el cual se observa en el espectrograma con
pectrogramas se encontraba que en algunos ca- claridad, aunque en ocasiones la emisión en oca-
sos la representación no lograba evidenciar la pre- siones resulta corta. En el caso de la vocal /o/ el
sencia del fonema, mientras que en otros los sonido se presenta difuso; algunas vocales que se
fonemas se llegaban a confundir con otros cuyas encuentran al final de la palabra resultan difíciles
características espectrales eran similares. de identificar debido a la disminuida intensidad
Los efectos de coarticulación más relevantes con que se pronuncian. En los hablantes del Sal-
se encontraron en hablantes de los siguientes vador las palabras se pronunciaron con claridad
países: Argentina, Colombia, Cuba, Chile, Guate- destacando las oclusivas sordas /t/ y /p/, y las vo-
mala y El Salvador. Cabe mencionar que, aunque cales /o/ y /e/ cuyos espectrogramas presentaban
se incluye un ejemplo de hablante mexicano, no las características bien definidas.
se tomaron en cuenta los sonidos particulares del El uso del espectrograma permite una adecua-
español de México debido a que en la base de da identificación de los sonidos debido a las co-
datos los enunciados de los hablantes mexicanos rrelaciones entre las características acústicas y
no presentan palabras que los ejemplifiquen. A espectrales. Se pueden identificar diversos efec-
continuación se presentan los efectos coarticula- tos coarticulatorios comparando los espectrogra-
torios encontrados. edigraphic.com
Los hablantes de Argentina tienen el fenómeno
mas de las palabras o enunciados y observando
las diferencias en las formas y duraciones de las
denominado yeísmo muy marcado; la pronuncia- características espectrales. La información que
ción del sonido /jj/ presenta gran cantidad de ener- presentan es de utilidad para la elaboración de
gía y una clara representación ruidosa en el es- las transcripciones fonéticas de las bases de da-
pectrograma. tos siendo éstas necesarias para la evaluación de
Martínez LAE y cols. Estudio del efecto coarticulatorio en el habla MG 77
los sistemas de reconocimiento automático del 2. Bernal BJ, Bobadilla SJ, Gómez VP. Reconocimiento de
Voz y Fonética Acústica, Editorial: Alfaomega, 2000.
habla. Aunque representa una herramienta fun-
3. The International Phonetic Alphabet, International Phone-
damental para el análisis, es importante señalar tic Association, 1993, http://www.arts.gla.ac.uk/IPA/
que se basa en una estadística de segundo or- fullchart.html.
den, la cual no logra caracterizar completa y sa- 4. Hieronymous JL. ASCII Phonetic Symbols for the World’s Lan-
guajes: Worldbet, Technical Report, Bell Labs., 1993.
tisfactoriamente la señal del habla. Dado que se
5. Alfabeto fonético del Español de acuerdo a SAMPA, 1996,
le considera una señal de naturaleza dinámica, http://www.phon.ucl.ac.uk/home/sampa/spanish.htm.
la búsqueda de métodos de análisis y representa- 6. Speech Assessment Methods Phonetic Alphabet (SAMPA)
ción que caracterice los sonidos del habla con http://www.phon.ucl.ac.uk/home/sampa/home.htm.
7. Moreno A, Mariño J. Spanish Dialects: Phonetic Transcrip-
mayor exactitud y resuelva los conflictos coarticu-
tion, 5 th International Conference on Spoken Language Pro-
latorios se convierte en un campo atractivo de in- cessing, Sydney Australia, 1998.
vestigación m2d3gr1p(h)3c
edigraphic.com