Está en la página 1de 36

Lenguaje 3 GRADO

Curso 2011-2012 UNED

Aitziber Laguardia

Tema 6 Captulo 9: Comprensin del habla


1. Introduccin
La percepcin del habla trata de cmo identificamos o percibimos los sonidos del
lenguaje, mientras que el reconocimiento de la palabra hablada trata del proceso de
nivel superior consistente en reconocer las palabras que conforman los sonidos. Esta
separacin es artificial, ya que es posible que no identifiquemos todos los sonidos de
una palabra y despus los pongamos juntos para reconocerla, o tal vez el reconocer la
palabra nos ayude a identificar sus sonidos constituyentes. Tambin puede darse que
no necesitemos or todos los sonidos de una palabra antes de poder identificarla.

2. Reconocimiento del habla


Podemos distinguir entre:

Cdigo prelxico: representacin del sonido utilizada antes de la identificacin de


la palabra. Una tarea importante es que se debe tratar de especificar la
naturaleza de este cdigo.

Cdigo poslxico: informacin que slo est disponible tras el acceso lxico.
Se debe estudiar si los fonemas estn representados explcitamente o no en esta
representacin y el papel de las slabas en la percepcin del habla.

2.1 Por qu es tan difcil la percepcin del habla?


Hay diferencias entre la percepcin de la palabra hablada y la palabra escrita:
Las palabras habladas se presentan slo de forma muy breve. Slo se tiene una
oportunidad para reconocerlas.

La palabra escrita est ah, delante de uno, durante todo el tiempo que uno
quiera para analizarla. La persona puede volver atrs y comprobarla tantas veces
como quiera.
El proceso de reconocer el habla es automtico, no se puede detener ni obligarse a
no comprender, se produce sin esfuerzo, rpido y sin dificultad aparente. Cuando se
empieza a percibir el habla en un contexto, se empiezan a reconocer sonidos a los
200ms de haber empezado el mensaje y se pueden comprender hasta 20 fonemas por
segundo (a veces ms). Si los sonidos que se nos presentan son una secuencia de

Lenguaje 3 GRADO
Curso 2011-2012 UNED

Aitziber Laguardia

pitido, siseo, tono y vocal slo se pueden distinguir el orden de los sonidos a un
ritmo inferior a 1,5 sonidos por segundo.
Los sonidos del habla parecen tener ventaja sobre los sonidos que no son habla
cuando se oyen con ruido circundante. Cuantos ms sonidos haya que identificar
dentro de un conjunto mayor tiene que ser la seal respecto al ruido. Bruce demostr
que, con ruido de fondo:
las palabras en un contexto significativo se reconocen mejor que las palabras
fuera de contexto

se necesita el doble de tiempo para reconocer una palabra presentada de forma


aislada que si se presenta en el contexto de la frase.
En resumen, hay ventaja al reconocer palabras en un contexto en comparacin con
sonidos del habla fuera de contexto o con sonidos que no son habla.

Seales acsticas y segmentos fonticos: cmo segmentamos el habla?


Las propiedades acsticas de los fonemas no son fijas, sino que varan con el
contexto en que se encuentran e incluso varan acsticamente en funcin del ritmo
del habla. El sonido /b/ difiere en ball, bill, able o rob. Esta variabilidad
acstica hace que la identificacin de fonemas sea una tarea compleja, puesto que no
existe un ejemplo perfecto de ese fonema, llamado patrn, sino que hay distintos
fonos que se corresponden con un solo fonema.
Si nos fijamos en la seal acstica fsica y los sonidos que transmite la seal,
resulta evidente que la relacin entre ambos es compleja. Miller y Jusczyk sealaron
que esta complejidad surge debido a dos caractersticas que deben actuar como
restricciones fundamentales de las teoras sobre la percepcin del habla. Estas dos
caractersticas son facetas de la falta de identidad o isomorfismo entre el nivel
acstico y el fontico del lenguaje. Se conocen como el problema de segmentacin y
la invarianza.
El problema de la invarianza: el mismo fonema puede tener un sonido distinto en
funcin del contexto en el que se produce.
La invarianza acstica se produce debido a que los detalles de la realizacin de un
fonema varan en funcin del contexto de sus fonemas circundantes. Los fonemas

Lenguaje 3 GRADO
Curso 2011-2012 UNED

Aitziber Laguardia

adoptan parte de las propiedades acsticas de sus vecinos, un proceso conocido como
asimilacin. Por ejemplo el fonema /i/ no tiene una cualidad nasal, pero al
acompaarse de un fonema como /n/, lo adopta, ya que el tracto vocal anticipa la
forma que tiene que tomar para el siguiente fonema, por eso en pin la /i/ adquiere
una cualidad nasal. Es decir, se producen efectos de coarticulacin, ya que el tracto
vocal, cuando emitimos un sonido, ya ha adoptado la forma que necesita para el
siguiente. Este hecho tiene ventajas tanto para el que habla como para el que
escucha:
El que habla puede hacerlo ms rpido que si tuviera que adoptar su tracto vocal la
forma precisa y por separado ante cada fonema.

El que escucha puede repartir la informacin sobre la identidad de los segmentos


fonticos entre varios segmentos acsticos, por tanto no se recopila informacin
de un fonema en un momento dado, sino que se tiene informacin sobre los sonidos
circundantes (caracterstica conocida como transmisin paralela), son indica qu
se dir a continuacin.
El problema de la segmentacin : es que los sonidos se producen conjuntamente y
no se pueden separar fcilmente.
Los sonidos del habla se producen juntos (excepto las consonantes nasales y las
pausas). Esto no se aplica slo a las palabras en s, sino que las palabras tambin van
unidas entre ellas. El ejemplo ingls I scream-ice cream-> suenan igual. Los
segmentos

acsticos

visibles

en

un

espectrograma

no

ofrecen

ninguna

correspondencia fcil con los segmentos fonticos.


Una restriccin o va de segmentar el habla es que preferimos segmentar el habla
de forma que cada segmento se corresponda con una sola palabra, a lo que se llama
restriccin de la palabra posible. No nos gusta que algn segmento libre se
corresponda con una slaba sin unir a una palabra. Cualquier segmentacin del habla
que deje sola sonidos de consonantes ser ms probablemente rechazada (la
segmentacin de fill a green bucket ser preferida a filigree n bucket, donde una
n queda fuera)
Otras estrategias dependen del idioma en el que se crezca. Las slabas fuertes
van acentuadas y nunca se acortan a sonidos de vocales neutras sin acentuar,
mientras que las slabas dbiles no estn acentuadas y suelen acortarse a sonidos de

Lenguaje 3 GRADO
Curso 2011-2012 UNED

Aitziber Laguardia

vocales neutras sin acentuar. (En ingls las slabas fuertes suelen ser adems las que estn
las palabras del contenido fundamental del mensaje, mientras que las dbiles suelen ser slabas
que no estn al principio de la palabra o en el inicio de palabras funcionales ). Una estrategia

que usa este tipo de informacin es la conocida como estrategia de segmentacin


mtrica. Esto se puede manipular en las tareas experimentales, haciendo que las
expectativas no se cumplan en los materiales presentados a los participantes. Cutler
y Butterfield describen cmo un participante al que se le haba dado este conjunto
de palabras impredecibles conduct ascents uphill (conducta asciende colina arriba),
entendi the doctor sends the bill (el doctor presenta la factura) y otro entendi
a duck descends some pill (un pato se traga cierta pldora). Los oyentes han
insertado errneamente delimitaciones de palabras antes de las slabas fuertes y
han eliminado delimitaciones antes de las slabas dbiles. Este tipo de segmentacin,
por el que los oyentes segmentan el habla identificando las slabas acentuadas, se
denomina segmentacin en funcin de la acentuacin. En ingls, que sigue esta
estrategia, la delimitacin de las slabas no estn claras y la identificacin de las
mismas no es fiable.
Una alternativa es la segmentacin en funcin de las slabas, basado en detectar
slabas, se da en idiomas como el francs, donde las slabas son muy claras y poco
ambiguas. La forma del idioma, por tanto, determina la estrategia de segmentacin
precisa que se utiliza.
Para los bilinges la estrategia de segmentacin viene determinada por su idioma
dominante. Cutler y otros pusieron a prueba a bilinges ingls/francs segmentando
materiales en ambos idiomas usando la tarea de monitorizacin de las slabas, en la
que los participantes tenan que decir lo ms rpido posible si oan una determinada
secuencia de sonidos. A los franceses les pusieron las palabras balance (empieza
por la slaba ba) y balcon (que empieza por bal), les fue fcil detectar las slabas
por las que comenzaban ambas palabras, pero tardaron ms cuando la secuencia
estaba segmentada con bal como primera slaba para balance y cuando ba era la
primera slaba de balcon porque, aunque estos sonidos estn representados, no se
corresponden con las slabas de esas palabras. A los ingleses les pusieron balance y
balcony, pero la estructura en slabas de estas palabras no est tan clara como en
francs. La L de bal en ambas palabras puede pertenecer a la primera o la
segunda slaba, por lo que no hubo diferencias en el tiempo de deteccin de ambas
secuencias, ya que el ingls no utiliza slabas.

Lenguaje 3 GRADO
Curso 2011-2012 UNED

Aitziber Laguardia

Las personas que hablaban en ingls como idioma primario segmentaron en funcin
de la entonacin con el material ingls y nunca en funcin de las slabas. Los
franceses segmentaron en slabas slo con el material en francs. Es como si la
estrategia de segmentacin quedara fijada a una edad muy temprana y slo se usa
esa. Por tanto todas las personas bilinges son monolinges desde el punto de vista
de la segmentacin, pero esto no es una desventaja, ya que descartan procesos de
segmentacin ineficaces y usan otros procesos analticos ms generales.

Percepcin categrica
A pesar de la variabilidad en expresar un fonema, no observamos esas diferencias,
clasificamos los sonidos del habla como un fonema u otro, sin trmino medio, lo que
se conoce como percepcin categrica de los fonemas.
Liberman y otros usaron un sintetizador de palabras para crear un continuo de
slabas artificiales que diferan en su lugar de articulacin. Los participantes
colocaban estas slabas en 3 categoras bastante distintas, /b/, /d/ y /g/. Otro
ejemplo de esto es el tiempo de comienzo de la voz (VOT: tiempo que tarda la
vibracin de las cuerdas vocales cuando se cierra el tracto vocal):
para las consonantes sordas (como /p/ y /t/) es de 60 ms.
Para las sonoras (como /b/ y /d/), el retardo es 0.

Los pares [/p/-/b/] y [/t/-/d/] (una sonora y otra sorda en cada par), slo
difieren en esta caracterstica.
Aunque se pueden crear sonidos con caractersticas intermedias entre ellas, como
un VOT de 30 ms, la percepcin sigue siendo categrica, se elige una u otra, sonora o
sorda (que puede cambiar segn el momento de la clasificacin o el propio individuo,
hablndose de individuos sesgados hacia un extremos del continuo o el otro).
Tambin se puede medir esto con la tcnica de la adaptacin selectiva: donde se
cansa a los receptores de caractersticas supuestamente responsables de la
percepcin categrica para cambiar la percepcin hacia el extremo opuesto del
continuo. Para ello se expone repetidamente al sujeto a un sonido. Por ejemplo se
expone a un participante al sonido ba, se habita a los receptores de /b/-sonora y
en la siguiente exposicin de un sonido entre el par [/b/-/p/] se tender a
seleccionar /p/-sorda. Por tanto; aunque los estmulos puedan ser fsicamente
continuos, la percepcin es categrica.

Lenguaje 3 GRADO
Curso 2011-2012 UNED

Aitziber Laguardia

Las delimitaciones entre categoras no son fijas, sino que son sensibles a factores
contextuales, como el ritmo del habla. El sistema perceptivo parece capaz de
ajustarse a ritmos rpidos del habla de forma que, por ejemplo un sonido con un VOT
breve que debera ser percibido como /b/-sonora, se percibe como /p/-sorda. Un
intervalo corto (un VOT breve) en trminos absolutos puede ser considerado como
relativamente largo si el habla que lo rodea es suficientemente rpida. Los bebs
tambin son sensibles al ritmo del habla, por lo que no puede hablarse de un
fenmeno aprendido. Son capaces de interpretar la duracin relativa de los
componentes de frecuencia del habla en funcin del ritmo.
Al principio se pens que los oyentes eran incapaces de distinguir entre miembros
ligeramente distintos dentro de una categora de fonemas, pero no parece que sea
as. Pisoni y Tash determinaron que los participantes tardaban menos en calificar
como iguales dos slabas /ba/ si los sonidos de la /b/ eran acsticamente idnticos
que si diferan ligeramente en el VOT.
Se dice que los oyentes son sensibles a diferencias dentro de las categoras, por
lo que la importancia de la percepcin categrica se ha puesto en entredicho. Es
posible que muchos fenmenos de la percepcin del habla se expliquen mejor en
trminos de percepcin continua y no de categrica. Y aunque nuestra experiencia
fenomnica de la identificacin del habla es que los sonidos pertenecen a categoras
distintivas, la evidencia de que el temprano procesamiento sensorial es realmente
categrico es mucho ms dbil. Massaro afirm que la aparente mala discriminacin
entre categoras no deriva de un temprano procesamiento perceptivo, sino que surge
de un sesgo de los participantes a afirmar que los elementos de la misma categora
son idnticos.

Cul es el carcter del cdigo prelxico?


Savin y Bever pidieron a los participantes que respondieran en cuanto oyeran
determinada unidad que era, o bien, un nico fonema, o bien una slaba. Determinaron
que respondan ms lentamente a los fonemas que a las slabas y concluyeron que la
identificacin de los fonemas es posterior a la de las slabas. Propusieron que los
fonemas no son perceptivamente reales de la misma manera en que lo son las slabas.
No reconocemos las palabras mediante sus fonemas individuales, sino en base a la
percepcin de unidades ms fundamentales como la slaba. Foss y Swinney dijeron
que esto no tena por qu ser as, que el hecho de que en la consciencia apareciera la

Lenguaje 3 GRADO
Curso 2011-2012 UNED

Aitziber Laguardia

slaba (unidad superior) antes que el fonema no quera decir que su procesamiento
fuera tambin anterior.
Foss y Blank propusieron la teora del cdigo dual en la que el procesamiento del
habla utiliza:
Cdigo prelxico o fontico: se computa directamente a partir del anlisis
perceptivo de la informacin acstica de entrada.
Cdigo poslxico o fonmico : se deriva de la informacin que emana de las unidades
de nivel superior como las palabras.
En la tarea de monitorizacin de fonemas los sujetos tienen que apretar un
botn en cuanto oyen determinado sonido. Foss y Blank demostraron que los tiempos
de monitorizacin del fonema ante los fonemas objetivo en palabras reales e
inexistentes eran los mismos. En este caso los participantes deberan estar
respondiendo utilizando el cdigo prelxico o fontico, puesto que las palabras
inexistentes no pueden tener cdigos fonolgicos (no se corresponden con ninguna
regla de produccin de sonidos del idioma). La frecuencia de la palabra objetivo
tampoco influa en los tiempos de monitorizacin del fonema.
Por otra parte, la manipulacin del contexto semntico de una palabra hace que las
personas respondan desde el cdigo poslxico. Segn Foss y Blank se responde:
con el cdigo prelxico cuando se facilita la tarea de monitorizacin del fonema,
con el poslxico cuando la tarea es ms difcil (cuando la palabra objetivo es ms
difcil).
No encontraron despus evidencia experimental que apoyara el cdigo dual. El
incremento en la carga de procesamiento de los participantes, hacindoles responder
ante varios objetivos, no les llev a responder desde el cdigo poslxico. Concluyeron
que, por lo general, las personas contestan en una tarea de monitorizacin del
fonema a partir del cdigo prelxico, y slo en circunstancias excepcionales utilizan
el cdigo poslxico. Los resultados sugieren que los fonemas forman parte del cdigo
prelxico.
Marslen-Wilson y Warren proporcionaron una extensa evidencia experimental en
una serie de tareas en las que no hace falta terminar la clasificacin de los fonemas
antes de que pueda empezar la activacin lxica. Las palabras inexistentes que se

Lenguaje 3 GRADO
Curso 2011-2012 UNED

Aitziber Laguardia

construyen a partir de palabras reales son ms difciles de rechazar en una tarea de


decisin lxica que las palabras inexistentes construidas a partir de palabras
inexistentes. En este experimento se parte se smog (palabra real) y se va
cambiando la ltima letra para crear palabras inexistentes como smod, smob
Aunque puede que inicialmente suenen igual, es ms difcil rechazar la versin
inexistente de smog porque la informacin de coarticulacin de la vocal es
consistente con una palabra real. Se identificaron estos efectos en toda una serie de
tareas distintas. Si la representacin fontica de la vocal hubiera sido traducida a un
fonema antes del acceso lxico, la informacin de la coarticulacin se hubiera
perdido y los dos tipos de palabras inexistentes hubieran planteado la misma
dificultad. Ellos afirmaron que se accede directamente a las representaciones
lxicas a partir de informacin en la seal de sonido. La informacin de coarticulacin
de las vocales se utiliza enseguida para identificar la consonante siguiente y, por
tanto, para identificar la palabra.
Existe controversia sobre si necesitamos identificar los fonemas antes de
reconocer una palabra, la mayora de los datos dicen que, aunque es posible que se
computen los fonemas durante el reconocimiento de la palabra, no tenemos que
culminar la identificacin del fonema antes de que se pueda empezar a reconocer la
palabra. Parece que somos menos conscientes de los fonemas que de los otros
elementos fonolgicos constituyentes del habla, como las slabas . Morais y Kolinsky
propusieron 2 representaciones distintas de los fonemas:
Sistema inconsciente: acta en el reconocimiento y la produccin del habla.
Sistema consciente: desarrollado en el contexto del desarrollo de la alfabetizacin
(escritura y lectura)

2.2 Cul es el papel del contexto en la identificacin de los sonidos?


Las investigaciones tratan de aclarar si el reconocimiento del habla es un proceso
puramente de abajo arriba (de los sonidos a la interpretacin) o si el procesamiento
arriba abajo (el conocimiento y las estructuras previas influyen en la mera
percepcin de los sonidos):
Se habla de influencia arriba abajo en la percepcin del sonido si se puede
demostrar que la palabra en la que se produce un sonido, o incluso el significado de
toda una frase, puede influir sobre el reconocimiento de dicho sonido. Y entonces
se podr afirmar que la percepcin es un proceso interactivo; ya que el

Lenguaje 3 GRADO
Curso 2011-2012 UNED

Aitziber Laguardia

conocimiento sobre las palabras est influyendo sobre la percepcin de sus


sonidos constituyentes.
Los distintos tipos de contextos podran tener un efecto en cada uno de los
niveles de procesamiento fonolgico y los efectos podran ser distintos en cada nivel.
La primera evidencia relevante parte de la percepcin categrica de los sonidos.
Ganong vari un fonema ambiguo a lo largo de un continuo (de /k/ a /g/) e insert estas
variaciones delante de un contexto proporcionado por el final de una palabra, -iss. Los
participantes pusieron la variacin de sonidos del lado de /k/, algo que no haran normalmente, por
el mero hecho de que as se construa una palabra (kiss es una palabra y giss no lo es) .

Concluy que el contexto afectaba al punto de cambio perceptivo o cambio de


identificacin lxica, as, el contexto de una palabra influye en nuestra clasificacin
de los sonidos.
Connine y Clifton, usando esta misma tcnica, reforzaron que el conocimiento
lxico (la informacin sobre las palabras), est disponible para la percepcin
categrica de elementos ambiguos. As, se logran otras ventajas del procesamiento
de estmulos ambiguos cuando se invoca el conocimiento lxico, pero no en los
extremos del continuo donde la informacin perceptiva, por s sola, basta para tomar
una decisin.
Los estudios posteriores utilizando un mtodo de anlisis llamado deteccin de la
seal tambin sugieren que el cambio de identificacin lxica en una tarea de
percepcin categrica es autnticamente perceptivo. La teora de la deteccin de
seales proporciona un medio para describir la identificacin de estmulos
imperfectamente discriminables. El contexto lxico no es sensible a las
manipulaciones (fundamentalmente el grado en el que se recompensan las respuestas
correctas y se castigan las incorrectas) que se sabe que influyen sobre los procesos
posperceptivos. Connine determin que el contexto de la frase (proporcionado por el
significado de toda la frase) se comporta de forma distinta al contexto lxico
(contexto proporcionado por la palabra en la que se produce el fonema ambiguo). En
concreto, el contexto de la frase tiene un efecto anlogo al del efecto posperceptivo
evidente de la cuanta de la recompensa monetaria, donde determinadas respuestas
dan lugar a mayores recompensas. Por tanto, concluy que el contexto de la frase
tiene efectos posperceptivos.

Lenguaje 3 GRADO
Curso 2011-2012 UNED

Aitziber Laguardia

Efecto de la restauracin del fonema: es una conclusin psicolingstica clsica que


parece ser, a primera vista, una prueba de la participacin del contexto en la
identificacin del sonido. Warren et al., presentaron a los participantes frases como:
the State governors met with their respective legi*latures convening in the capital city. En el
punto marcado con un * se haba cortado un fragmento de 0,12 segundos de la frase (donde falta
la /s/), y se haba metido una tos (el efecto era igual si el sonido era una tos, un pitido o un
zumbido). Los participantes no pudieron detectar que faltaba un sonido de la frase.

Parecan restaurar el sonido /s/. Una vez informados de que faltaba un sonido, los
participantes seguan diciendo que los perciban todos, adems tampoco podan
localizar correctamente dnde estaba la tos en la frase. Tambin se encuentra este
efecto en omisiones ms largas, como en vez de legi*latures, poner le***latures . Warren y

colbs., afirmaron que los participantes, en su procesamiento del habla, estn usando,
ms all de los fonemas individuales, informacin semntica y sintctica. El efecto
desapareca si en vez de toses, pitos o zumbidos, se introduca un silencio, que era
detectado fcilmente.
El ejemplo ms drstico que hizo que Warren y colbs., afirmaran que la
informacin semntica y sintctica influa en la percepcin fue este: propusieron a
los participantes 4 frases, donde a una de las palabras se le omita un fonema
(siempre en la misma), pero el final de la frase cambiaba en todas las oraciones (slo
la palabra final).Todo lo dems permaneca igual. Los participantes introdujeron
sonidos diferentes dependiendo del contexto.
1) It was found that the *eel was on the table; aqu metieron una /p/ para crear peel, piel,
que le pega ms a naranja.
2) It was found that the *eel was on the axle; aqu metieron /w/ para crear wheel, que
encaja ms con axle/eje.
3) It was found that the *eel was on the shoe; aqu metieron /h/ para crear heel, tacn, que
le va ms a zapato.
4) It was found that the *eel was on the table; aqu metieron /m/, para crear meal, que le
pega ms a mesa.

Los participantes restauraban un fonema que mejor fuera con la palabra segn el
contexto.
Aunque a primera vista parece que la percepcin del habla est limitada por una
informacin de nivel superior (como restricciones semnticas y sintcticas), en estos
experimentos no est claro cmo se est produciendo la restauracin. Perciben
realmente los participantes el fonema ausente? Fodor investig si la restauracin se

Lenguaje 3 GRADO
Curso 2011-2012 UNED

Aitziber Laguardia

produca a un nivel de procesamiento fonolgico (bajo), o a un nivel superior, ya que


era posible que los participantes simplemente adivinaran qu fonema faltaba, cosa
que no tena por qu ser necesariamente consciente. La pregunta era si el contexto
afectaba al procesamiento perceptivo o al posperceptivo (de carcter superior).
Hay evidencia de que, en ciertas circunstancias, la restauracin de fonemas es un
autntico efecto perceptivo. Samuel analiz los efectos de aadir ruido al segmento,
en vez de sustituirlo:
Si la restauracin del fonema es realmente perceptiva, los participantes no
deberan ser capaces de detectar ninguna diferencia entre estas condiciones; en
cada caso, pensarn que oyen un fonema ms un sonido.
Por otra parte, si el efecto es posterior a la percepcin, debera haber una buena
discriminacin entre estas dos condiciones.
Samuel concluy que el contexto lxico da lugar a una autntica restauracin del
fonema y que el efecto era prelxico. Tambin concluy que el contexto de la frase
no afecta al reconocimiento del fonema y slo afecta al procesamiento poslxico. En
conclusin:

slo

la

informacin

sobre

determinadas

palabras

afecta

la

identificacin de las palabras; la informacin sobre el significado de la frase afecta


a una fase de procesamiento superior.
Samuel analiz la sugerencia de que los sujetos adivinaban el fonema en la tarea
de restauracin, en vez de restaurarlo de verdad perceptivamente, y combin esta
tarea con una de adaptacin selectiva para ponerlo a prueba. Los oyentes identificaban
sonidos del continuo /bi/-/di/ en el que los sonidos que actuaban como adaptadores eran la 3
slaba de las palabras que empezaban, o bien con /b/ (alphabet), o bien con /d/ (academic). Tras
or 40 veces alphabet, habiendo sido habituados los receptores de /b/, los sujetos tenan menos
probabilidades de clasificar como /b/ un sonido posterior. Si en vez de alphabet se les pona 40
veces alpha*et, siendo * un ruido potente, quedaban habituados igualmente al sonido /b/. Esto

indica que el sonido queda restaurado realmente y que estos fonemas restaurados
pueden actuar como los autnticos y causar adaptacin.
Sin embargo otros autores han afirmado que se pueden explicar estas
conclusiones sin interaccin si el cdigo fonolgico restaurado se crea por un
contexto lxico de arriba abajo en vez de que se provea simplemente por el cdigo
lxico. El contexto lxico no parece mejorar la perceptibilidad del fonema (la
sensibilidad), sino que slo afecta a cmo responden los participantes (el sesgo). En

Lenguaje 3 GRADO
Curso 2011-2012 UNED

Aitziber Laguardia

este sentido, la informacin de arriba abajo no est afectando realmente a la


sensibilidad del reconocimiento de la palabra. Tal vez los oyentes aprender a
reconocer el ruido como el sonido /b/ y por tanto provoca adaptacin de la misma
manera que la provocara una autntica /b/.
El contexto arriba abajo tiene, en el mejor de los casos, un papel limitado en la
identificacin de los sonidos. Hay poca evidencia de que el contexto de la frase
afecte al procesamiento del habla.

2.3 El curso temporal del reconocimiento de la palabra hablada


Los trminos reconocimiento del habla y acceso lxico se usan para hacer
referencia a dos procesos distintos. Podemos identificar 3 fases de la identificacin:
(Frauenfelder y Tyler) Fig. 9.1:
Contacto inicial: el reconocimiento de la palabra hablada empieza cuando cierta

representacin de la entrada sensorial hace un contacto inicial con el lxico


(lexicn). La representacin de contacto activa las entradas lxicas almacenadas.
La activacin puede ser: a) todo o nada (como en el modelo original de cohortes),
b) puede haber niveles de activacin relativa que dependen de ciertas
caractersticas como la frecuencia, c) puede que la activacin sea proporcional a la
bondad actual del ajuste con los datos sensoriales (como en el modelo de TRACE o
en el ms actualizado de cohortes)
Fase de seleccin lxica: la activacin sigue acumulndose hasta que se elige una
entrada lxica. El reconocimiento de la palabra es el punto final de esta fase.
Fase de reconocimiento de la palabra: se reconoce la palabra y el punto de
reconocimiento (momento en el que realmente se reconoce la palabra) suele
producirse antes de que se haya odo la palabra completa. En el caso ms sencillo,
el punto de reconocimiento se corresponde con su punto de singularidad (la
secuencia inicial de la palabra es comn a esa palabra y a ninguna otra). Con
frecuencia se retrasar el reconocimiento hasta despus de haber alcanzado el
punto de singularidad y, en principio, podramos reconocer la palabra antes de su
punto de singularidad, por ejemplo, en contextos muy sesgados. Si ocurre esto,
este punto en que se produce el reconocimiento se llama punto de aislamiento
(punto de una palabra en el que una proporcin de oyentes identifica la palabra,
aunque es posible que haya dudas sobre esta decisin). Al llegar al punto de
aislamiento, el oyente ha aislado una palabra candidata, pero sigue monitorizando

Lenguaje 3 GRADO
Curso 2011-2012 UNED

Aitziber Laguardia

la entrada sensorial hasta alcanzar cierto nivel de confianza, ste es el punto de


reconocimiento.
El acceso lxico hace referencia al punto en el que se encuentra disponible toda la
informacin sobre una palabra (fonolgica, semntica, sintctica, pragmtica) tras su
reconocimiento. El proceso de integracin que se produce a continuacin marca el
inicio de del proceso de comprensin propiamente dicho, donde se integran las
propiedades semnticas y sintcticas de la palabra en la representacin de la frase
de nivel superior.

Cundo afecta la frecuencia al reconocimiento de la palabra hablada?


La frecuencia tiene un efecto mucho ms temprano en el reconocimiento de la
palabra hablada. Dahan y otros analizaron los movimientos oculares de personas cuando miraban
imgenes en una pantalla. Los participantes tenan que seguir instrucciones habladas sobre el
objeto de la escena en el que tenan que hacer click con el ratn. Los participantes tendan a
mirar primero a los objetos con un nombre alta frecuencia, en comparacin con una imagen
competidora con un nombre de frecuencia inferior pero con los mismos sonidos iniciales (por
ejemplo, la palabra hablada era bench, y haba una imagen de un banco, pero a su lado haba una
imagen de una campana bell, de baja frecuencia, y otra de una cama bed de alta frecuencia).

Los participantes tambin necesitaban mirar durante menos tiempo los objetivos con
nombres de mayor frecuencia. La frecuencia de las palabras es importante desde las
primeras etapas de procesamiento y estos efectos persisten durante cierto tiempo.

2.4 Efectos del contexto en el reconocimiento de palabras


El contexto es toda la informacin que no se encuentra en la seal sensorial
inmediata. Incluye informacin disponible de la entrada sensorial previa (el contexto
anterior) y de fuentes de conocimiento superiores (informacin semntica, sintctica
y pragmtica). La naturaleza del contexto que se est analizando tambin depende
del nivel de anlisis, como puede ser el contexto de una palabra que opera en la
identificacin de un fonema o el contexto de una frase que opera en la identificacin
de una palabra.
Para demostrar que el contexto afecta al reconocimiento, tenemos que demostrar
que existen influencias de arriba abajo en el procesamiento de abajo arriba de la
seal acstica. Ya se ha visto si el contexto afecta al reconocimiento en el nivel
inferior, ahora se va a ver si el contexto de la frase afecta al procesamiento de

Lenguaje 3 GRADO
Curso 2011-2012 UNED

Aitziber Laguardia

palabras. Tambin se debe ver qu tipo de contexto afecta, en qu etapa o etapas


tienen efecto y cmo tienen ese efecto. Hay dos posturas opuestas sobre el papel
del contexto en el reconocimiento:
Postura autnoma: el contexto no puede tener un efecto previo al reconocimiento
de la palabra, slo puede contribuir a la evaluacin e integracin del resultado del
procesamiento lxico, no a su generacin. En estos modelos se permite el flujo
lateral de informacin (se permite un flujo de informacin dentro del lexicn,
pero no del lexicn a los procesos inferiores como la identificacin del fonema.)
Postura interaccionista: permite que los distintos tipos de informacin
interacten entre s. Se puede producir una retroalimentacin de los niveles
posteriores de procesamiento a los anteriores. Por ejemplo, la informacin sobre
el significado de la frase o del contexto pragmtico podra influir en la percepcin.
Tal vez habra que considerar estas dos posturas como extremos de un continuo
de posibles modelos. Puede que en los modelos interaccionistas haya algunas
restricciones de interaccin posible, por ejemplo, el contexto puede proponer
candidatos de la palabra a la que podra corresponder el estmulo antes de que haya
empezado el procesamiento sensorial, o puede que el contexto se limite a descartar
candidatos y no a proponerlos.
Al haber tantas diferencias entre los modelos, es difcil hacer pruebas entre
ellos. Una fuerte evidencia a favor de la perspectiva interaccionista es si el contexto
tiene un efecto antes o despus de las fases de acceso y seleccin. En un modelo
autnomo, el contexto slo puede tener influencia cuando una palabra ha emergido
como el mejor ajuste a la entrada sensorial.
Frauenfelder y Tyler distinguen dos tipos de contexto:
Contexto no estructural: puede ser considerado como informacin proveniente del
mismo nivel de procesamiento en el que se est procesando actualmente. Un
ejemplo es la facilitacin del procesamiento que surge del contexto intralxico,
como una relacin asociativa entre dos palabras, como doctor y enfermera. Se
puede explicar en trminos de relaciones dentro de un nico nivel de
procesamiento, por lo que no tiene por qu incumplir el principio de autonoma en
cuanto a la divulgacin de la actividad dentro del lexicn. Pero tambin se puede
considerar que la facilitacin se debe a potentes conexiones entre cosas similares

Lenguaje 3 GRADO
Curso 2011-2012 UNED

Aitziber Laguardia

en el mismo nivel. Segn tericos de la autonoma, este es el nico tipo de


contexto que afecta a los procesos antes del reconocimiento.
Contexto estructural: afecta a la combinacin de palabras en unidades de un nivel
superior, e implica un mayor nivel de informacin. Es un procesamiento arriba
abajo. Hay una serie de posibles tipos de contexto estructural. Se puede usar el
conocimiento de las palabras (contexto lxico) para ayudar a identificar los
fonemas y el conocimiento a nivel de la frase (contexto de la frase y sintctico),
para ayudar a identificar palabras individuales. Los tipos de contexto estructural
ms interesantes son los basados en el significado, distinguieron dos tipos:
o Semntico: se basa en los significados de la palabra. Gran evidencia de que este
contexto afecta al procesamiento de la palabra. Se responde ms rpidamente
a las palabras que son adecuadas al contexto que a las que no lo son, en toda una
serie de tareas. Pero no est claro si se pueden distinguir efectos del contexto
estructural semntico y el contexto no estructural, o en qu fases se producen.
Adems es necesario estudiar estos efectos usando tareas que minimizan la
posibilidad de que acten los factores posteriores a la percepcin. Por ello, el
retraso entre el estmulo y la respuesta no debe ser demasiado largo, de lo
contrario los sujetos tendran ocasin de reflexionar o de alterar sus
decisiones, lo que reflejara mecanismos de acceso posterior de una fase ms
tarda.
o Interpretativo: implica ms informacin de nivel superior, como la informacin
pragmtica, la informacin del discurso y el conocimiento del mundo. Hay cierta
evidencia de que el contexto no lingstico puede afectar al reconocimiento de
palabras. Se analizaron los movimientos oculares de los participantes cuando
estaban examinando una escena visual al tiempo que siguiendo instrucciones. Se
determin que el contexto visual puede facilitar el reconocimiento de la palabra
hablada. Por ejemplo candy (caramelo) suena parecida a candle (vela) hasta
la mitad de la palabra. Ante la instruccin pick up de candle (coge la vela), los
sujetos movan los ojos ms rpido hacia el objeto mencionado cuando slo
haba una vela en la escena que cuando haba una vela y un caramelo. Cuando no
haba objeto que generara confusin, los participantes identificaban el objeto
antes de or el final de la palabra. Este resultado sugiere que el contexto
interpretativo puede afectar al reconocimiento de las palabras.

3. Modelos de reconocimiento del habla

Lenguaje 3 GRADO
Curso 2011-2012 UNED

Aitziber Laguardia

Antes de que podamos acceder al lexicn, tenemos que traducir el resultado de los
nervios auditivos a un formato adecuado. La percepcin del habla se encarga de esta
primera fase del procesamiento.
Los primeros modelos de reconocimiento del habla analizaron la posibilidad de
hacer correspondencias entre patrones. Se almacenan palabras objetivo como
patrones, y se produce la identificacin cuando se encuentra una correspondencia.
Sin embargo en el habla hay demasiada variacin como para que esta posibilidad sea
verosmil, excepto en los campos ms restringidos. Las personas difieren en cuanto a
su dialecto, su tono bsico, la velocidad bsica a la que hablan. Una misma persona
puede producir un mismo fonema de varias formas diferentes, si habla muy alto o
ms rpido de lo normal. El nmero de patrones que habra que almacenar sera muy
elevado. En general los modelos de patrones no se consideran posibles en
psicolingstica.
Anlisis por sntesis: fue uno de los primeros modelos de la percepcin del habla. Su
base era que reconocemos el habla mediante referencia a las acciones necesarias
para producir un sonido. La idea importante que subyace a este modelo es que,
cuando omos hablar, producimos o sintetizamos una sucesin de sonidos del habla
hasta que encontramos una correspondencia con lo que omos.
El sintetizador crea la mejor conjetura inicial restringida por las pistas acsticas
de la entrada y despus intenta minimizar las diferencias entre esta conjetura
inicial y la entrada, no genera aleatoriamente candidatos que comparar con la
entrada; Este planteamiento tiene varias ventajas:
Utiliza nuestra capacidad de producir el habla tambin para el reconocimiento de
la misma.
Asume fcilmente las diferencias entre distintos hablantes, porque los oyentes
estn generando sus propias palabras candidatas.
Es fcil demostrar cmo podran tener efecto las restricciones de todos los
niveles; el sintetizador slo genera palabras posibles. No generar secuencias de
palabras imposibles.
Una variante del modelo de Anlisis por sntesis, La teora del motor, propone que
el sintetizador del habla modeliza el aparato articulatorio y los movimientos
motores de la persona que habla. Computa cules habran sido los movimientos
necesarios para producir los sonidos que se han escuchado.

Lenguaje 3 GRADO
Curso 2011-2012 UNED

Aitziber Laguardia

La evidencia de este modelo es que la forma en que se hacen los sonidos


proporciona una descripcin perfecta de los mismos; por ejemplo, en ingls todas
las /d/ se hacen golpeando la lengua contra el arco alveolar. La especificacin de los
movimientos motores debe ser bastante abstracta; las personas mudas pueden
comprender el habla perfectamente y podemos comprender cosas que se han dicho
que no podemos producir nosotros mismos (como el habla de un tartamudo o un
acento extranjero).
Los modelos de anlisis por sntesis padecen dos problemas:
No hay una forma evidente de traducir la hiptesis articulatoria, generada por el
sistema de produccin, al mismo formato que el habla oda para poder valorar la
correspondencia potencial.
Somos buenos reconociendo palabras claramente articuladas que son improbables
en su contexto, lo que sugiere que el reconocimiento del habla es un proceso
impulsado fundamentalmente por los datos.
En resumen: Esta teora est inespecificada y tiene poco poder predictivo.
No obstante, en los ltimos aos las teoras motoras de la percepcin han
resurgido. Siguen teniendo la ventaja de que la correspondencia de la seal auditiva
con representaciones motoras para producir nuestra propia lengua proporciona un
medio para clasificar la seal acstica; algunos investigadores afirman que estas
representaciones motoras tienen un papel significativo en el procesamiento del
lenguaje y que la percepcin del habla se parece a la percepcin de los gestos
motores, en el sentido de que el objetivo de la percepcin del habla es reconocer
cules son los movimientos del tracto vocal que dan lugar a sonidos, ms que la
identificacin ms abstracta de los propios sonidos. Las neuroimgenes demuestran
que las reas motoras del cerebro se activan durante la percepcin del habla aunque
esta activacin no demuestre un papel causal en la percepcin. Pero s parece al
menos que los procesos motores desempean algn papel.

3.1 El modelo de cohortes de reconocimiento de palabras


Presentado por Marslen-Wilson y Welsh (1978, 1984 y 1987). La idea central del
modelo es que, cuando omos hablar, generamos una cohorte de posibles elementos
que podran ser la palabra que omos. A continuacin, se van eliminando elementos de
este conjunto hasta que slo queda uno, que es el elemento que se acepta como la

Lenguaje 3 GRADO
Curso 2011-2012 UNED

Aitziber Laguardia

palabra que se est intentando reconocer. Es necesario distinguir entre dos


versiones del modelo;
La primera; permita una mayor interaccin
La revisada; en la que el procesamiento es ms autnomo y el sistema de
reconocimiento estaba ms capacitado para recuperarse si los principios de las
palabras estaban degradados.

POSLEXCA

APRELEXIC

En el modelo hay 3 fases del procesamiento:


Fig. 9.2 Modelo de cohortes en el reconocimiento de palabras
FASE DE ACCESO: se usa la representacin perceptiva para activar elementos
lxicos y generar un conjunto de candidatos, este conjunto se denomina cohorte.
El principio de la palabra es muy importante para genera la cohorte.
FASE DE SELECCIN: slo se elige un elemento dentro del conjunto. Se
selecciona un elemento de la cohorte.
FASE DE INTEGRACIN: se utilizan las propiedades semnticas y sintcticas
de la palabra elegida, por ejemplo, al integrar la palabra en una representacin
completa de toda la frase.

Modelo de los logogenes


Modelo original de cohortes
Se basa en un acceso directo, paralelo e Se basa en un acceso directo, paralelo e
interactivo
interactivo
Acumulan
pasivamente
evidencia Las palabras buscan activamente ser
positiva.
eliminadas
Al presentarse el principio de una
palabra, se constituye una cohorte de
inicios de palabras con las palabras
candidatas, luego se van eliminando
activamente estas palabras con todos los
medios
posibles,
incluyendo
ms
evidencia fonolgica y un contexto
semntico y un contexto sintctico. A
medida que se van oyendo fragmentos
adicionales de la palabra se van
eliminando candidatos.

Lenguaje 3 GRADO
Curso 2011-2012 UNED

Aitziber Laguardia

Recordamos que el punto de singularidad es el punto en el que se puede


distinguir de forma singular una palabra de todas las palabras similares. En torno al
punto de singularidad se produce el procesamiento ms intenso.
1)
2)
3)
4)
5)
6)

/t/
/tr/
/tre/
/tres/
/tresp/
/trespass/

Cuando se escucha /t/, la cohorte es enorme, ya que hay muchas palabras que comienzan con
ese fonema. Con /tr/ se reducir la cohorte, aunque seguir siendo muy grande. Con /tre/ se
reduce an ms la cohorte, pero sigue habiendo una serie de elementos posibles, como trespass,
trestle, trend o trench. Con /tres/ slo quedan 3 candidatas; trespass, tress y trestle.
Pero slo con /tresp/ se reduce la cohorte a una palabra (a un morfema raz), este es el punto
conocido como punto de singularidad.

El punto de reconocimiento no tiene por qu coincidir con el de singularidad. Si


la frase contexto de esa palabra fuera the poacher ignored the sign not to tres-,
no hara falta llegar hasta el punto de singularidad de esa palabra (/tresp/), porque
con slo escuchar /tres/, sabramos qu palabra va en esa frase. As, la primera
versin del modelo permita estas interacciones, donde el contexto est afectando
claramente a la fase de seleccin prelxica.
Por otra parte, si la informacin sensorial es mala, podra no alcanzarse el punto
de reconocimiento hasta mucho despus de haber alcanzado el punto de singularidad.
Es probable que slo lleguen a coincidir el punto de singularidad y de reconocimiento
en el caso de alguna palabra aislada muy clara.
En el modelo revisado, el contexto slo afecta a la fase de integracin. El modelo
tiene una prioridad de abajo arriba, lo que significa que no se puede usar el
contexto para restringir cules son los elementos que conforman la cohorte inicial.
La prioridad abajo arriba est presente en los dos modelos, pero en el revisado no
se puede usar el contexto para eliminar candidatas en una etapa temprana.
En el revisado la eliminacin de palabras de la cohorte deja de ser un proceso de
todo o nada, que sirve para explicar que aunque no se haya entendido bien el
comienzo de la palabra se puedan superar esas distorsiones. Por ejemplo si omos

Lenguaje 3 GRADO
Curso 2011-2012 UNED

Aitziber Laguardia

la frase la comida estaba beliciosa, podemos recuperar e identificar esa palabra


como deliciosa, aunque se tarde ms tiempo.
En el modelo revisado el grado de solapamiento es elevado, aunque el principio de
las palabras sea muy importante para generar la cohorte.
Tambin cambia respecto del anterior que a medida que las palabras de la cohorte
no se ven favorecidas por informacin positiva, van decayendo hasta quedar de
nuevo en estado de reposo. Se pueden reactivar con informacin positiva
posterior. El nivel de activacin de las palabras candidatas inadecuadas en el
contexto decae, por lo que el contexto dispone, pero no propone. Los candidatos
adecuados se integran en el siguiente nivel de representacin superior de la frase.
El contexto de la frase slo tiene un efecto tardo y no puede invalidar la
hiptesis de la percepcin, cuando una candidata est empezando a emerger como
probable ganadora.
La frecuencia de una palabra afecta al nivel de activacin de las candidatas en las
primeras etapas del acceso lxico. El tipo de ganancia de la activacin es mayor
para las palabras de mayor frecuencia.
Hay efectos de frecuencia relativa dentro de la cohorte inicial, de forma que
pertenecer a la cohorte no es una cuestin de todo o nada sino que los elementos
varan a lo largo de un continuo de activacin.
La versin ms reciente pone de relieve el acceso directo de las entradas lxicas
en funcin de un anlisis acstico de la seal del habla entrante.

Pruebas experimentales del modelo de cohortes


El experimento de Marlsen-Wilson y Wells tiene 3 variables de inters:
Magnitud de la discrepancia entre la palabra objetivo y la palabra errnea. Esta
discrepancia se meda en funcin de una serie de caractersticas distintivas
alteradas en el error (trachedy en vez de tragedy)
Restriccin lxica; reflejaba el nmero de candidatos disponibles en distintas
posiciones de una palabra manipulando la posicin de la slaba en la que se
localizaba el error (primera o tercera slaba)
Contexto; la palabra objetivo era continuacin probable o improbable del inicio de
la frase, poda ser de restriccin alta aun as, se quera fumar un ---- (muy
probablemente fuera cigarrillo la palabra), o de restriccin baja (fue su
---------- que estuvieran parados, donde mala suerte cabe pero hay otras
posibilidades)

Lenguaje 3 GRADO
Curso 2011-2012 UNED

Aitziber Laguardia

La tcnica de sombreado: se utiliza para analizar cmo interactan la sintaxis y la


semntica en el reconocimiento de palabras. En la prueba los participantes tienen
escuchar un discurso continuado y repetirlo lo antes posible (con un retardo de
250ms). Los discursos tienen errores deliberados, que son sonidos distorsionados
de forma que se pronuncian mal algunas palabras. El 50% de las veces los
participantes repiten el discurso como debera haber sido, sin los errores de
pronunciacin. A esto se le llama restauraciones de la fluidez. Cuanto ms
distorsionado est un sonido, ms probable es que se obtenga una repeticin
exacta. Conclusiones/Resultados:
Las restauraciones ms fluidas se hacan con distorsiones leves, de la ltima slaba
y cuando era predecible por el contexto (restriccin alta).
La mayora de reproducciones ms exactas con una mayor distorsin se daban
cuando la palabra estaba poco restringida por el contexto, si la restriccin es
adecuada, se restaura la fluidez mejor, aunque las desviaciones sean muy grandes.
Interpretaron los resultados como una demostracin de que la percepcin
inmediata es el producto tanto de la entrada perceptiva de abajo arriba como de
las restricciones contextuales de arriba abajo.
El anlisis sintctico y semntico empieza muy poco despus de haber empezado a
escuchar la frase, no se aplazan hasta haberla escuchado entera.
Escucha de pronunciaciones errneas (Cole y Jakimik): en esta tarea, los
participantes escuchan un discurso donde hay un sonido distorsionado (cambio de
bota por pota) y se detectan esos cambios. Los participantes son ms sensibles
a los cambios al principio de las palabras. No prstamos la misma atencin a todas
las partes de la palabra, al inicio de la misma se le presta ms atencin.
Los fragmentos que se corresponden con el comienzo de una palabra son una prima casi tan
eficaz como la palabra misma. capi- sera una prima tan buena para la palabra objetivo barco
como lo sera capitn. Por otra parte, los fragmentos de la rima producen muy poca
imprimacin, por ejemplo ni cattle (una palabra), ni yattle (una palabra derivada) seran
buenas primas para battle.

Tarea de activacin paulatina: tarea que consiste en revelar progresivamente ms


fragmentos de una palabra, como en el caso de /trespass/ de antes. Con ella se
pueden identificar los puntos de aislamiento, pero con cierto grado de duda. Esta
tarea demuestra la importancia del contexto adecuado, como en el zoo, los nios
montaron en el para la palabra camello. Estos estudios tambin demostraron

Lenguaje 3 GRADO
Curso 2011-2012 UNED

Aitziber Laguardia

que las palabras candidatas se generan de forma que son compatibles con la
representacin perceptiva hasta cierto punto, pero no con el contexto (que no
propone). Las fuertes restricciones semnticas y sintcticas no impiden que se
acceda, al menos al principio, a palabras candidatas compatibles con la entrada
sensorial pero no con el contexto. El contexto no puede tener un efecto temprano.
El contexto no influye en la generacin de palabras candidatas, pero s puede
eliminarlas. La Imprimacin multimodal permite medir los efectos del contexto en
distintos momentos de reconocimiento de una palabra: los participantes escuchan
un discurso en unos auriculares al tiempo que miran a la vez a una pantalla para
realizar una tarea de decisin lxica ante las palabras que se le presentan
visualmente. Se puede variar sistemticamente la relacin entre la palabra en la
pantalla y el discurso odo, y el momento en el que ambos pueden coincidir.
Zwitserlood demostr que el contexto puede ayudar a elegir las palabras
candidatas

semnticamente

adecuadas

antes

de

alcanzar

el

punto

de

reconocimiento de la palabra.
Ejemplo con la palabra capitn. Los participantes oan distintas cantidades de la palabra antes
de que apareciera en la pantalla, o bien oan una palabra relacionada o bien una palabra control.
En el momento de or slo cap, la palabra no es todava nica, puede seguirse con opciones
igualmente vlidas, como capitn pero tambin capital. Zwitserlood identific una facilitacin
para palabras relacionadas como barco, pero tambin hubo facilitacin para las relacionadas
con capital, como dinero. Sin embargo, al terminar la palabra capitn, slo se podan primar
las palabras relacionadas con ella. Tambin haba una imprimacin mayor de la palabra

candidata ms frecuente que de las menos frecuentes, como predice el modelo de


cohortes. El contexto no tiene ningn efecto al principio de la palabra: incluso si el
contexto favorece enrgicamente una palabra (tambin con competidoras poco
verosmiles). Pero una vez que se ha pasado el punto de aislamiento s influye el
contexto, cuyo efecto es fomentar el nivel de activacin de la palabra respecto al
de sus competidoras.
Estos resultados respaldan las ideas de que el contexto no puede anular las
hiptesis perceptivas y que el contexto de la frase tiene un efecto tardo sobre la
interpretacin de una palabra y su integracin con la sintaxis y la semntica de la
frase. El contexto acelera la integracin.
Experimento de Van Petten et al., sugiere que la integracin semntica puede
empezar cuando el sistema slo tiene informacin incompleta sobre la identidad de la

Lenguaje 3 GRADO
Curso 2011-2012 UNED

Aitziber Laguardia

palabra. Los estudios que usan potenciales evocados han demostrado que todas las
palabras crean un pico mximo de activacin a los 400 ms de haber empezado el
estmulo, lo que se conoce como N400. El N400 es mayor en amplitud cuando la
palabra est en un contexto incongruente. Van Petten encontr N400 diferenciales a
palabras semnticamente adecuadas e inadecuadas antes del punto de aislamiento de
la palabra.

La influencia de las vecinas lxicas


En el modelo de cohortes, el nmero de competidoras o el tamao de la cohorte,
en un momento dado no deberan tener ningn efecto sobre el reconocimiento de la
palabra objetivo. Pero los datos son contrarios.
Los resultados de Luce y otros sugieren que el tamao de la cohorte s afectaba al
curso temporal del reconocimiento de una palabra. Concluyeron que la estructura
del vecindario de una palabra afecta a la velocidad y a la precisin en una serie de
tareas. El nmero de las caractersticas de las competidoras de una palabra (como
su frecuencia), son muy importantes. Por ejemplo, somos menos capaces de
identificar palabras de alta frecuencia con muchos vecinos lxicos de gran
frecuencia que de identificar palabras con menor frecuencia o con vecinos menos
frecuentes. Ellos afirmaron que el nmero de vecinos o densidad del vecindario
influyen sobre la decisin. Se tarda ms y se cometen ms errores al identificar
palabras con muchos vecinos lxicos debido a la competencia.
Marslen-Wilson analizaron el efecto de la frecuencia de las palabras competidoras
en el reconocimiento. Concluy que el reconocimiento de una palabra como speech
no slo depende del punto de singularidad de sus competidoras (como speed, o
specious), sino tambin de la frecuencia de esas competidoras. Se identifica ms
rpidamente una palabra de alta frecuencia con vecinas de frecuencia baja que lo
contrario. El incremento de la activacin en una palabra de alta frecuencia es mucho
mayor que en el caso de una de poca frecuencia.
El vecindario fonolgico no es el nico factor que puede afectar al reconocimiento
auditivo. El vecindario ortogrfico tambin, pero lo hace de forma facilitadora. Se
identifican ms deprisa las palabras habladas con muchas vecinas de parecido visual
que las palabras habladas con pocas vecinas. Esto puede pasar porque en alguna parte

Lenguaje 3 GRADO
Curso 2011-2012 UNED

Aitziber Laguardia

del sistema hay unidades sublxicas, o unidades de palabras, o ambas, de distintas


modalidades vinculadas entre s.

Evaluacin del modelo de cohortes


El modelo ha cambiado a lo largo de los aos y a la luz de los datos ms recientes,
pone menos nfasis en el papel del contexto.
En la primera versin el contexto no poda afectar a la fase de acceso, pero s a las
de seleccin e integracin.
En la posterior slo afectaba a la integracin.
En la revisada los elementos no estn ni encendidos ni apagados, sino que tienen
un nivel de activacin proporcional a la bondad del ajuste entre el elemento y la
entrada acstica, de forma que se puede analizar a continuacin con ms detalle una
serie de palabras candidatas en paralelo. Esto permite una decada paulatina de las
candidatas ms que su eliminacin inmediata.
El modelo no distingue entre identificacin provisional y definitiva, hay algunos
aspectos probabilsticos del reconocimiento de palabras. La versin posterior, al
sustituir la eliminacin todo o nada por una eliminacin paulatina, tambin explica
mejor la capacidad que tiene el sistema para recuperarse de los errores. Un
problema persistente del modelo de cohortes es su dependencia del conocimiento de
cuando empiezan las palabras sin tener un mecanismo explcito para identificar el
inicio de una palabra.

3.2 TRACE
El modelo TRACE es un modelo muy interactivo del reconocimiento de la palabra
hablada, derivado del Modelo de activacin interactiva de las letras y de
identificacin visual de las palabras de McClelland.
La caracterstica ms importante de TRACE es que pone de relieve el papel del
procesamiento arriba abajo (el contexto) en el reconocimiento de las palabras. El
contexto lxico puede ayudar directamente al procesamiento perceptivoacstico y la
informacin por encima del nivel de la palabra (semntico, sintctico y pragmtico),
puede ayudar al reconocimiento de la misma.
TRACE es un modelo conexionista y est compuesto de muchas unidades simples
de procesamiento conectadas entre s. Supone el modelo un procesamiento temprano

Lenguaje 3 GRADO
Curso 2011-2012 UNED

Aitziber Laguardia

y bastante sofisticado de la seal acstica. Estas unidades se ordenan en 3 niveles


de procesamiento:
Unidades de entrada:
Representa caractersticas fonolgicas. stas estn conectadas a las unidades
de fonemas que, a su vez, estn conectadas a las unidades de salida que
representan palabras. Fig. 9.3
Estn provistas de energa o activadas, esta energa se propaga por las
conexiones (quedando activada al final una sola unidad de salida)
Unidades fonemas
Se produce una percepcin categrica a causa de una inhibicin dentro del mismo
nivel entre las unidades de fonemas
Conforme una activacin proporcionada por una entrada antigua va circulando por
el tiempo, la inhibicin mutua entre ellas, da lugar a que se clasifique la entrada
con en un extremo u otro del continuo.
Unidades de salida: representan palabras.
De los datos del nivel anterior y su combinacin surge la palabra identificada.
Del primer nivel por tanto surgen energa que se propaga por la red excitando e
inhibiendo de manera tal que al final slo queda una unidad de salida, la palabra
que ha reconocido la red. Las unidades en distintos niveles que son mutuamente
consistentes tienen conexiones excitadoras.
Todas las conexiones entre los niveles son de doble sentido en tanto que la
informacin fluye entre ellas en ambos sentidos. Esto permite tanto el
procesamiento abajo arriba como el arriba abajo.
Hay conexiones inhibidoras entre las unidades dentro de cada nivel, lo que implica
que una vez que una unidad se ha activado, tiende a inhibir a sus compaeras de
nivel. Por tanto este mecanismo pone de relieve el concepto de la competencia
entre unidades del mismo nivel.
El modelo tiene en cuenta el tiempo simulndolo como porciones discretas. Las
unidades se representan de manera independiente en cada porcin de tiempo. El
modelo se ejecuta en forma de simulaciones informticas y se comparan las series
de simulaciones con lo que ocurre en el procesamiento del habla en humanos.
Muestra cmo el conocimiento lxico puede ayudar a la percepcin; por ejemplo si
se da una entrada ambigua entre /p/ y /b/ y se sigue con una terminacin LAN, el
modelo reconoce /p/ (para formar plan).

Lenguaje 3 GRADO
Curso 2011-2012 UNED

Aitziber Laguardia

En el modelo se produce una percepcin categrica a consecuencia de una


inhibicin dentro del mismo nivel entre las unidades de fonema. A medida que una
activacin proporcionada por una entrada antigua va circulando por el tiempo, la
inhibicin mutua entre las unidades de fonemas da lugar a que se clasifique la
entrada como en un extremo u otro del continuo.
El modelo TRACE explica los efectos de la posicin en el reconocimiento de las
palabras (los sonidos al inicio de las palabras desempean un papel importante)
porque la entrada se va desvelando a lo largo del tiempo, de forma que los sonidos
del principio de la palabra contribuyen mucho ms a las estimaciones de los nodos
de la palabra que los sonidos del final de la misma.

Evaluacin del modelo TRACE


Ventajas:
TRACE trata muy bien los efectos del contexto en la percepcin del habla.
Puede operar con cierta variacin acstica y explica fenmenos como el efecto
de la restauracin del fonema y los efectos de la coarticulacin.
Explica los efectos del contexto lxico y es bueno para encontrar las
limitaciones de las palabras y opera bien con entradas con ruido, que se
aproximan ms al lenguaje natural. Las cuestiones que constituyen un problema
para los modelos antiguos, como los efectos de la coarticulacin en los modelos
de patrones, facilitan de hecho el procesamiento mediante un procesamiento de
arriba abajo.
TRACE es explcito, como todos los modelos informticos.
Presenta varios problemas:
Hay muchos parmetros que se pueden manipular en el modelo y se pueden
rebajar las crticas de que TRACE es demasiado potente en tanto que puede
acomodar cualquier resultado.
Al ajustar algunos de los parmetros se puede hacer que el modelo simule
cualquier dato de los experimentos sea lo que fuere lo que indiquen los datos
reales en las tareas.
El tratamiento del tiempo como porciones discretas es inverosmil.
Massaro plante una serie de problemas de TRACE. En una prueba de decisin forzosa
puso a los participantes un continuo de sonido entre /l/ y /r/, y tenan que decir cul haban

Lenguaje 3 GRADO
Curso 2011-2012 UNED

Aitziber Laguardia

percibido en tres contextos diferentes; s_i (ms proclive a /l/, ya que hay algunas palabras en
ingls que empiezan con sli), t_i (proclive a /r/) y p_i (proclive a /r/ y /l/). As se vio que
ocurra con humanos, dndose un 50% de elecciones en la condicin p_i entre /r/ y /l/, que
difera de los resultados de TRACE. En TRACE el contexto tiene un efecto mayor cuando

la seal es menos ambigua, pero en humanos el contexto afecta de manera constante


respecto a la ambigedad de la seal del habla. Massaro quera que el resultado de
TRACE fuera ms estocstico (o probabilista), pero aun cuando se introdujo en el
programa esta modificacin para hacerlo ms probabilista, los resultados siguieron
siendo errneos en este aspecto.
Massaro defiende un modelo en el que el reconocimiento fontico utiliza
caractersticas que actan como una entrada de la estrategia de decisin que implica
combinaciones variables de las caractersticas perceptivas llamadas prototipos
imprecisos.
TRACE se ocupa del curso temporal del acceso lxico y el modelo lgico impreciso
se ocupa ms de la toma de decisiones y los procesos de produccin de resultados.
El principal problema de TRACE es que se basa en la idea de que el contexto
afecta de arriba abajo al proceso de reconocimiento, y el grado en que esto puede
pasar es controvertido. De hecho existe evidencia experimental en contra del efecto
del procesamiento arriba abajo que TRACE predice: los efectos del contexto slo
aparecen ante estmulos degradados desde el punto de vista de la percepcin.
Elman y McClelland encontraron que los procesos entre niveles podan afectar a
los procesos de nivel inferior, lo que respaldaba el modelo TRACE. En concreto,
demostraron que los fonemas ilusorios creados por el conocimiento lxica de arriba
abajo (anlogos a la restauracin del fonema) pueden afectar a la coarticulacin
(influencia de un sonido sobre el vecino) que opera al nivel de percepcin bsica del
sonido de la forma en que lo predeca TRACE. Se puede ver en el ejemplo de los pares de
palabras English dates/gates y copiuos dates/gates, donde el fonema inicial de la segunda
palabra es ambiguo, en un punto entre /g/ y /d/ . Los efectos de coarticulacin del sonido

final de la primera palabra afectan a la forma exacta en que producimos el primer


sonido de la segunda palabra. Los oyentes son sensibles a estos efectos (lo que se
conoce como compensacin de la coarticulacin). Es ms probable que identifiquemos el
fonema ambiguo como /d/ si va seguido de una /sh/, pero ms probable que sea identificado
como /g/ si va seguido de /s/. Los sujetos tendan ms a entender English dates y copious

Lenguaje 3 GRADO
Curso 2011-2012 UNED

Aitziber Laguardia

gates, incluso cuando el sonido final de English fue modificado para dejarlo en un sonido a medio
camino entre /s/ y /sh/.

A primera vista estos datos respaldan ms un modelo interactivo que uno


autnomo. Parece que el lexicn est influyendo sobre un efecto prelxico
(compensacin). Sin embargo hay explicaciones de los datos compatibles con un
modelo autnomo:
No es necesario invocar al lexicn, ya que de por s algunas combinaciones de
sonidos son ms probables. Pitt y McQueen demostraron que se puede usar esta
secuencia en la percepcin del habla. Encontraron el efecto de compensacin de la
articulacin en la clasificacin de consonantes oclusivas cuando iban precedidas de
sonidos fricativos ambiguos al final de palabra inexistentes. Por ejemplo, la secuencia
de fonemas inexistente der? est sesgada hacia una terminacin /s/, mientras que la
secuencia nai? lo est hacia una /sh/. En realidad el fonema ? era uno a medio camino
entre /s/ y /sh/. Estas palabras iban seguidas del principio de una palabra con el sonido de una
oclusiva entre /t/ y /k/, de tapes a cakes. La identificacin de la oclusiva estaba

influida por la fricativa ambigua anterior dependiendo del contexto de la fricativa


de la palabra inexistente. Puesto que la palabra anterior era inexistente, no se
poda usar el conocimiento lxico. El hecho de que siguiera identificndose una
compensacin sugiere que se estaba usando el conocimiento secuencial sobre
cules son los fonemas que se producen juntos.
TRACE tampoco ofrece un buen rendimiento para detectar errores de
pronunciacin. Es un modelo de toma nica; el nico modo que tiene de identificar
fonemas consiste en ver cules son los fonemas que se identifican en el nivel de
los fonemas. Pero si se presenta una palabra mal pronunciada ese nivel activar los
fonemas que mejor correspondan. Este nivel a su vez activar al anterior, el de los
fonemas, de forma que se activan los fonemas de mejor correspondencia. La mala
pronunciacin tiene un efecto adverso sobre el rendimiento.
A diferencia de TRACE, que es un modelo de toma nica, Race es un modelo de
mltiples tomas, donde el anlisis prelxico almacenado sobre la palabra y la entrada
lxica de la palabra compiten por el resultado. La decisin se toma en funcin de la
ruta que produce la primera respuesta, de aqu lo de carrera (race). Puesto que hay
dos tomas, la lxica y la prelxica, debera ser posible poner de relieve una sobre
otra cambiando la atencin. Se deberan maximizar los efectos lexicn sobre el
procesamiento del fonema cuando las personas prestan especial atencin a la toma

Lenguaje 3 GRADO
Curso 2011-2012 UNED

Aitziber Laguardia

lxica y deberan quedar minimizados cuando prestan atencin a la toma prelxica.


Este patrn es exactamente el que se observa y los modelos de toma nica tienen
problemas para explicarlo. Por ejemplo, la magnitud del efecto lxico en las tareas
de monitorizacin del fonema depende de la composicin de los dems elementos de
relleno utilizados en el experimento.
McQueen et. al., afirmaron que nunca es necesaria la retroalimentacin en el
reconocimiento del habla. As, la influencia arriba abajo en reconocimiento slo
obstaculizara el proceso. La retroalimentacin no puede mejorar la precisin del
procesamiento (en efecto, puede anular la deteccin de los errores de pronunciacin
y de hecho, reducir la precisin); slo puede acelerar el procesamiento. El coste de
este incremento de la velocidad es un intercambio con la precisin.
Finalmente, existe evidencia emprica contra otros supuestos del modelo.
Frauenfelder et.al., no encontraron ninguna prueba de una inhibicin de arriba abajo
en los fonemas en una tarea que implicaba la monitorizacin de fonemas inesperados
al final de una palabra en comparacin con palabras inexistentes de control. TRACE
predice que, una vez que se ha accedido a una palabra, los fonemas que no estn en la
misma deberan ser objeto de una inhibicin arriba abajo. Tambin predice que los
fonemas objetivos (como /t/) en las palabras inexistentes derivadas de palabras
alteradas (como vocabutario) deberan ser identificados ms lentamente que los
fonemas objetivo en las palabras inexistentes de control (socabutario) porque el
fonema real compite con el fonema de la palabra dada (/l/ contra /t/ en vocabutario)
debido a la retroalimentacin arriba abajo. Sin embargo no hubo diferencia entre las
dos condiciones de palabras inexistentes.
Cutler y Norris concluyeron que las latencias de monitorizacin de fonemas eran
ms rpidas ante los fonemas del principio de la palabra real que de la inexistente.
Segn TRACE no debera haber diferencia en esto puesto que la activacin no ha
tenido tiempo de acrecentarse y volver a alimentar al nivel de fonema.
TRACE tampoco es capaz de explicar las conclusiones de los experimentos de
falta de correspondencia subcategrica. Marslen-Wilson examinaron el efecto de la
divisin en la decisin lxica (es una palabra?) y en la clasificacin de fonemas (qu
tipo de sonido ha odo?). El efecto de la divisin cruzada en palabras inexistentes era
mucho mayor cuando el material dividido provena de una palabra (por ejemplo en un
elemento como smob; sm- viene de la palabra real smog) de forma que el

Lenguaje 3 GRADO
Curso 2011-2012 UNED

Aitziber Laguardia

desempeo era peor cuando la palabra inexistente con divisin cruzada provena de
una palabra real, pero la divisin no marca una gran diferencia en el procesamiento de
las palabras. El modelo TRACE no ofrece buenos resultados porque no puede utilizar
los datos sobre la falta de correspondencia entre los dos elementos.
TRACE es bueno para explicar los efectos del contexto, pero es dbil en el grado
en que sus predicciones no estn respaldadas fehacientemente por los datos.

Otros modelos conexionistas del reconocimiento del habla


Las redes recientes utilizan conexiones recurrente de la capa oculta a un
contexto para almacenar informacin sobre estados previos de la red. Fig. 9.6
Esta modificacin permite a las redes codificar informacin sobre el tiempo, por
lo que ofrecen una explicacin mucho ms verosmil de carcter basado en el tiempo
del procesamiento del habla que un modelo TRACE, que usa unidades basadas en
tiempos fijos y esto da problemas a la hora de asimilar variaciones del ritmo del
habla.
Gaskell y Marslen-Wilson: ampliaron el modelo de cohortes para modelizar el
proceso que hace correspondencias entre la informacin lxica y la fonolgica.
Construyeron un modelo conexionista que pone de relieve el carcter distribuido de
las representaciones lxicas (a diferencia de TRACE, que usa representacin local),
de forma que se distribuye la informacin sobre una palabra cualquiera entre un gran
nmero de unidades de procesamiento.
Otra diferencia con otros modelos conexionistas es que la informacin del habla
de bajo nivel, representada por caractersticas fonticas, recibe directamente una
correspondencia en forma lxica. No hay niveles adicionales de procesamiento
fonolgico implicados (aunque hay una capa de unidades ocultas que media entre las
entradas de caractersticas y las capas de salida semntica y fonolgica).
Este modelo de Gaskell y Marslen-Wilson simulaba varias facetas importantes del
procesamiento del habla:
Ofreca una buena explicacin del curso temporal del acceso lxico, demuestra
que es posible que se activen mltiples candidatos en paralelo. La palabra objetivo

Lenguaje 3 GRADO
Curso 2011-2012 UNED

Aitziber Laguardia

slo se diferencia energticamente de sus competidoras cerca de su punto de


singularidad.
El modelo simulaba con xito los datos experimentales.
A diferencia de los modelos conexionistas como el TRACE, y como los humanos, el
modelo muestra muy poca tolerancia. Como en el experimento de los autores, una palabra
inexistente como smob, (que tiene una gran correspondencia con una real, smog, de la que
slo difiere en su lugar de articulacin del segmento final) que se construye de forma que las
vocales sean consistentes con la palabra objetivo, de hecho no activa demasiado la
representacin lxica de la palabra real smog. La red requiere gran cantidad de detalle

fontico para acceder a las palabras, como los humanos. Gaskell propone que esta
caracterstica del modelo es una consecuencia de la forma realista en que se
presentan las entradas (con palabras incorporadas en un flujo de habla) y del
entrenamiento de la red en un gran nmero de formas fonolgicas similares. Estas
caractersticas obligan a la red a ser intolerante sobre la clasificacin de los
elementos de entrada.
Puesto que las palabras estn representadas de tal manera que se solapan los
elementos similares en sus representaciones, la competencia entre elementos
similares es una parte esencial del procesamiento. La activacin simultnea de ms
de una palabra candidata crea conflicto. Wilson presenta una serie de experimentos
utilizando una imprimacin multimodal que muestra que la competencia reduce la magnitud del
efecto de imprimacin semntica. Cuando una palabra sigue siendo ambigua, como capt-, que
puede ser capitn o cautivo (captive), no es particularmente efectiva a la hora de primar
barco; slo lo es relativamente tarde, despus de haber alcanzado el punto de singularidad
de la palabra. No obstante, capt- sigue produciendo cierta imprimacin; puede acceder al
significado antes del punto de singularidad, lo que permite cierta facilitacin de las palabras
relacionadas semnticamente, pero como no puede lograr un acceso completo, la imprimacin
semntica es ms dbil que despus de pasado el punto de singularidad.

El modelo explica el distinto patrn de efectos que se encuentran en la


imprimacin por repeticin multimodal y en la imprimacin semntica multimodal.
Ellos afirman que la cantidad de competencia entre las palabras depende de la
coherencia del conjunto competitivo.
o Las palabras candidatas activadas por un sonido parcial sonarn necesariamente
similares, por lo que sern coherentes.

Por el contrario, las propiedades

semnticas de las palabras candidatas no estarn relacionadas entre s. Por


tanto, la imprimacin por repeticin puede hacer un uso directo del conjunto de
candidatas lxicas activadas directamente por la entrada. (Ej.: capt- est
relacionada con captain y captive).

Lenguaje 3 GRADO
Curso 2011-2012 UNED

Aitziber Laguardia

o La imprimacin semntica no puede hacerlo puesto que genera mltiples


elementos candidatos no relacionados entre s, por lo que son incoherentes (de
capt- saldran barco y prisionero, que en su sonido no tienen nada que ver).
Adems, con conjuntos incoherentes ms competencia habr, mientras que en los
coherentes no importa el nmero de candidatas y el tamao afectar menos a la
imprimacin. Por tanto, se determin que los efectos de la competencia y los
efectos del tamao de la cohorte seran mayores en la imprimacin semntica que
en la imprimacin por repeticin.
Norris cre el modelo SHORTLIST: Demostr que las redes recurrentes pueden
identificar palabras habladas en su punto de singularidad y tambin pueden asimilar
variaciones en el ritmo del habla. Pero, a diferencia de TRACE, no se pueden
recuperar si identifican incorrectamente partes de una palabra. No se pueden
deshacer las decisiones.
El modelo SHORTLIST intenta reunir lo mejor de los modelos con una
arquitectura hbrida donde una red recurrente proporciona los elementos de entrada
de una red de activacin interactiva. Este modelo es totalmente abajo arriba y parte
de un vocabulario de decenas de miles de palabras. En esencia considera que el
reconocimiento de palabras es una carrera abajo arriba entre palabras similares. Se
crea una red de competencia al vuelo desde la salida de una red de reconocimiento
en la que las palabras candidatas detectadas en el flujo de entrada pueden competir
entre s. Slo hay unas pocas palabras recientemente activas para ser utilizadas en la
lista (shortlist=lista reducida). El principal inconveniente de este modelo es la
viabilidad de crear una nueva red competitiva en cada momento.
Norris, McQueen y Cutler crean el modelo MERGE: Es tambin un modelo
completamente dependiente de los datos (abajo arriba) y tambin es un modelo de
competencia-activacin. Aqu, la activacin fluye del nivel prelxico al lexicn y los
nodos de decisin del fonema. No hay retroalimentacin entre los nodos lxicos y los
prelxicos. Sin embargo, la informacin lxica puede influir sobre los nodos de
decisin de los fonemas. Las decisiones se toman a partir de la fusin de estos dos
elementos de entrada. Algunos dicen que fusin es igual que interaccin, puesto que
los nodos de decisin del fonema estn influidos por la informacin lxica (lo que
implicara influencia de los arriba abajo). MERGE es en realidad un modelo que

Lenguaje 3 GRADO
Curso 2011-2012 UNED

Aitziber Laguardia

explica las tareas de decisin de los fonemas ms que un modelo general del
reconocimiento del habla.

3.3 Comparacin de los modelos de reconocimiento de la palabra hablada


Vamos a ver de nuevo los 3 casos de reconocimiento del habla ver qu ha dicho
cada modelo de ellos.
Cuando omos hablar tenemos que hacer dos cosas: 1.-Dividir el flujo del habla en
palabras y 2.-Reconocer las palabras. La cantidad de habla necesaria para computar
la representacin de contacto determina cundo se puede producir el contacto inicial.
El contacto inicial se puede producir apenas transcurridos 10 ms. Es evidente que los
modelos que utilizan slabas para localizar posibles comienzos de las palabras, y que
necesitan unidades de habla ms largas, requerirn ms tiempo para acceder al
lexicn. Los distintos modelos tambin ponen de relieve la forma en que hacen
contacto las representaciones con el lexicn. Por tanto, en el modelo de cohortes se
utiliza el principio de la palabra (los primeros 150 ms) para hacer el primer contacto.
En otros modelos se usa la parte ms prominente o fiable de la palabra, como la
slaba de mayor acentuacin. Todos estos modelos en los que se utiliza el contacto
inicial para generar un subconjunto de entradas lxicas tienen la desventaja de que
es difcil recuperarse de un error. Los modelos como TRACE, en los que no hay un
nico contacto para cada palabra, no padecen estos problemas. Cada fonema
identificado (la palabra completa) contribuye al conjunto de entradas lxicas activas.
El coste es que estos conjuntos pueden ser muy grandes, lo que puede resultar caro
en cuanto a computacin.
El modelo de cohortes revisado niega el problema de la recuperacin de tempranos
errores permitiendo una activacin paulatina de las palabras candidatas en vez de
una activacin poco o nada. Adems, aunque los principios de las palabras son
importantes en el acceso lxico, las partes de la rima no producen una imprimacin.
Por otra parte, la evidencia a favor de la cantidad de interaccin que implica el
modelo TRACE es limitada.
El modelo de Gaskell y Marlsen-Wilson es muy parecido al SHORTLIST de Norris.
Ambos difieren del modelo TRACE al utilizar menos la inhibicin arriba abajo y usar
ms la informacin abajo arriba. SHORTLIST combina las ventajas de redes
recurrentes y de TRACE. Estos tipos de modelos conexionistas demuestran cmo es

Lenguaje 3 GRADO
Curso 2011-2012 UNED

Aitziber Laguardia

probable que se desarrollen los modelos de reconocimiento del habla, aunque


SHORTLIST padece actualmente el problema de que no est claro cmo se pueden
crear al vuelo redes de activacin interactiva.
Todos los modelos de reconocimiento de la palabra

consideran que el

reconocimiento de la palabra hablada incorpora un elemento de competencia entre la


palabra objetivo y sus vecinos. La imprimacin de una palabra debera retrasar el
reconocimiento de otra que comparta los mismos sonidos iniciales. Por desgracia la
investigacin ha demostrado o bien una facilitacin o bien ningn efecto de
imprimacin de los elementos fonolgicamente relacionados, en vez de la inhibicin
esperada. Por qu? Monsell y Hirsh sealaron que, en estos estudios, el retraso
entre la prima y el elemento de incitacin era muy breve. Es posible que cualquier
efecto de inhibicin quede cancelado por el efecto de facilitacin de accin
inmediata generado por otros factores como el procesamiento de elementos
sublxicos compartidos (como fonemas y rimas). Si fuera as, entonces la inhibicin
debera resultar patente en retrasos ms largos, cuando los efectos de facilitacin
inmediata han tenido tiempo de desaparecer. Esto fue lo que observaron ellos. En una tarea
de decisin lxica auditiva, con retrasos temporales de 1 a 5 minutos entre la prima y la palabra
objetivo, el tiempo de respuesta de una palabra monosilbica precedida por una palabra que
comparte su comienzo y una vocal (chat y champ) aumentaba con respecto a una palabra de
control sin primar. Anlogamente el tiempo de respuesta aumentaba para las palabras

con mltiples slabas precedidas por otra que comparta la primera slaba (beacon y
beaker). El efecto estaba limitado a las palabras primas existentes, las primas
inexistentes (chass y beacal) no producan esta inhibicin. Por tanto la
imprimacin de competidores fonolgicos retrasa el reconocimiento posterior de los
elementos, pero el efecto slo se manifiesta cuando se han dado los efectos de
facilitacin a corto plazo.
Finalmente, usamos otro tipo de informacin cuando comprendemos el habla.
Incluso las personas con un sentido del odo normal pueden leer los labios en cierto
grado. Este efecto sugiere que la percepcin del habla es el resultado de las mejores
conjeturas de todo sistema de percepcin, utilizando mltiples fuentes de
informacin entre las que el habla suele ser la ms importante.

4. La neuropsicologa del reconocimiento de la palabra hablada

Lenguaje 3 GRADO
Curso 2011-2012 UNED

Aitziber Laguardia

En los adultos con una perturbacin de las funciones del lenguaje tras una lesin
cerebral suele ser frecuente que tengan dificultades en el reconocimiento del habla.
Varney inform que el 18% de estos pacientes tena problemas para discriminar los
sonidos del habla. Las lesiones cerebrales pueden afectar a la mayora de los niveles
del proceso de reconocimiento del habla, incluyendo el acceso a los cdigos lxico y
prelxico.
Hay muchos casos de pacientes que tienen dificultades para construir el cdigo
prelxico. Una lesin cerebral puede afectar a las diversas etapas del procesamiento
acusticofontico de las caractersticas, como el VOT, o las etapas posteriores que
implican la identificacin de sonidos en funcin de esas caractersticas. La evidencia
neuropsicolgica sugiere que las vocales y las consonantes son procesadas por
sistemas distintos. Se vio en dos pacientes: AS produca fundamentalmente errores
con las vocales, mientras que el paciente IFA lo haca con las consonantes. Estas
diferencias persistan incluso cuando se tenan en cuenta otros factores que podan
llevar a engao (como el grado de sonoridad; la cantidad de energa acstica de un
sonido)
Los pacientes con sordera de palabra pura pueden hablar, leer y escribir con
normalidad, pero no pueden comprender el habla, a pesar de que oyen con normalidad.
No pueden repetir el habla y tienen una comprensin auditiva muy pobre. Tienen
dificultades en tareas como la diferenciacin de las consonantes oclusivas entre s.
Por otra parte, el paciente de Saffran poda identificar instrumentos musicales y
ruidos distintos al habla, y poda identificar el gnero y el idioma de una voz grabada.
Este patrn de desempeo sugiere que estas personas padecen una perturbacin de
un mecanismo de procesamiento acstico prelxico. Una variante muy poco frecuente
y controvertida es la sordera de significado de la palabra. Los pacientes con este
trastorno muestran los mismos sntomas que los anteriores pero tienen intactas las
capacidades de repeticin. Esto demuestra que podemos reproducir palabras sin
tener que comprenderlas.
Slo una paciente (EDE) mostraba el procesamiento acusticofontico intacto (y
con l la capacidad de construir un cdigo prelxico), pero tambin hay que decir que
tena dificultades con el acceso lxico. Esta paciente tuvo buen rendimiento en todas
las pruebas de la discriminacin de fonemas de procesamiento acstico, pero cometi
muchos errores al decidir si esos fonemas constituan palabras o no. An as tena

Lenguaje 3 GRADO
Curso 2011-2012 UNED

Aitziber Laguardia

relativamente buena comprensin del lenguaje rutinario y sus errores en esta tarea
se explicaron como un dficit en la memoria a corto plazo ms que una dificultad de
acceso lxico. Hasta ahora no hay datos de pacientes con el sistema de
procesamiento fontico intacto pero que no puedan acceder al cdigo poslxico.

También podría gustarte