Está en la página 1de 36

UNIVERSIDAD DE CHILE

DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

Principios básicos del condicionamiento operante


Eric S. Murphy y Gwen J. Lupfer (2014)
Traducido por Aracelli Cañete y Fernanda Sánchez (2017)

El condicionamiento operante es una forma de aprendizaje en la cual la frecuencia


de un comportamiento es controlada por sus consecuencias (Skinner, 1953). El término
operante es la combinación de dos términos comunes: operar y ambiente. Es decir, el
término operante se refiere a una clase especial de conducta que opera en el ambiente para
producir consecuencias. Consecuencias, como los reforzadores, incrementan la frecuencia
del comportamiento. Los castigos, en cambio, disminuyen la frecuencia del
comportamiento.
Este capítulo describe los principios fundamentales del condicionamiento operante y
los métodos primarios para estudiarlo. Debiera verse como una introducción y como una
herramienta de referencia para entender los siguientes capítulos. Esta no es una revisión
comprensiva de principios básicos. Los capítulos subsecuentes en este volumen expandirán
a las ideas básicas presentadas acá.

Una breve historia


El estudio del condicionamiento operante fue iniciado por B. F. Skinner. En 1938, él
publicó “El comportamiento de los organismos” (​Behavior of organisms)​ , un recuento
inicial de los efectos de los antecedentes y las consecuencias en el comportamiento operante
en animales no humanos. En este libro, Skinner usó una aproximación de las ciencias
naturales para descubrir principios comportamentales fundamentales. Sus descubrimientos
inspiraron el innovador texto “Principios de la psicología” (​Principles of psychology [Keller
y Schoenfeld, 1950]) y llevó a la fundación del “Journal of the Experimental Analysis of
Behavior” (JEAB), el buque insignia de la investigación operante básica, en 1958. A
medida que el campo crecía, las aplicaciones del condicionamiento operante se volvían un
foco importante de investigación (e.g., Ayllon y Michael, 1959), y el Journal of Applied
Behavior Analysis fue fundado en 1968 para publicar aplicaciones del condicionamiento
operante a los problemas de importancia social (Baer, Wolf y Risley, 1968). En 1974, la
Asociación Internacional para el Análisis del Comportamiento fue establecida como la
principal organización profesional para los investigadores y practicantes del
condicionamiento operante. Más recientemente, el ​Panel de Certificación del Analista del
Comportamiento fue establecido para proveer calificaciones profesionales para los analistas
conductuales aplicados (Shook y Favell, 2008). Muchas universidades han desarrollado (o
actualmente están desarrollando) un currículum que lleva a la obtención de estas
credenciales.

1
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

Fundamentos conceptuales del análisis conductual: un nuevo objetivo para la


psicología
Skinner (1938, 1953) argumentó que el objetivo de la psicología era la predicción y
el control de la conducta. Al formular este objetivo, rechazó las hipótesis como una
característica crítica de la búsqueda científica. Al contrario, el análisis conductual se
describe mejor como una aproximación inductiva porque da mayor importancia a los datos
que a la formulación teórica. Como comentó Chiesa (1994), la psicología usualmente
comienza con una teoría y luego deriva hacia experimentos para comprobarla. Skinner
(1950) argumentó contra este método de búsqueda porque las teorías eventualmente se
descartan y como consecuencia, también los datos que son recogidos por esa teoría. En vez
de esto, Skinner sugirió que los experimentos debieran ser dirigidos por los resultados de
experimentos anteriores. Después de que muchos datos han sido recolectados debieran
emerger regularidades. Estas regularidades pueden llevar a afirmaciones formales sobre
variables ambientales importantes y sus efectos en el comportamiento. Una afirmación
formal, tanto si se propone matemáticamente o usando lenguaje preciso, debiese llevar a la
predicción y control del comportamiento en situaciones nuevas.
Skinner (1987, 1990) argumentó apasionadamente que la psicología debiese ser una
ciencia del comportamiento, y sólo de este. Definió al comportamiento como “cualquier
cosa que el organismo hace” (Skinner, 1938, p. 6). La definición de Skinner trasciende las
formas más tradicionales de ver el comportamiento como un fenómeno evidente y discreto.
Es decir, la definición de Skinner incluye también los comportamientos dentro del
organismo, tales como “pensar” (Skinner, 1953, 1974) y el lenguaje (véase Palmer, este
volumen; Skinner, 1957). Más aún, Skinner argumentó que el comportamiento debiese estar
al principio de la investigación más que como un síntoma de eventos ocurriendo en otro
nivel, o en otra dimensión. Estos otros eventos y dimensiones son constructos hipotéticos
que comúnmente sustituyen una explicación del comportamiento que dicen explicar
(Skinner, 1977). El problema con usar constructos como causas de comportamiento es que
estos constructos necesitan ser explicados. Por tanto, complican una conceptualización
adecuada del comportamiento en vez de clarificarla. Skinner llamó estos tipos de
explicaciones “ficciones explicativas”. La definición de Skinner de la psicología elude este
problema argumentando que los procesos internos son parte de lo que hace un organismo y,
por lo tanto, son variables dependientes en su propio derecho (i.e., no una causa, sino una
dimensión del comportamiento del organismo).
Al adoptar este supuesto, el análisis del comportamiento hace a este un objeto
disponible para la investigación científica y, por lo tanto, asume que los principios del
comportamiento serán descubiertos si se usan los métodos apropiados. Asumir esto es
especialmente relevante para la modificación de conductas problemáticas. Por ejemplo, un
entendimiento de las relaciones entre conducta y ambiente entregará técnicas para la
modificación de la conducta al cambiar las variables que la controlan.

2
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

Medición del comportamiento


Como el interés de Skinner estaba en la psicología como una ciencia experimental,
argumentó que esta debiera buscar las relaciones funcionales entre las variables
controlantes y el comportamiento.
Las relaciones funcionales son aquellas relaciones que ocurren cuando un cambio en
una variable independiente resulta en un cambio correspondiente en la variable dependiente.
El proceso de experimentación que lleva a la identificación de relaciones funcionales se
llama análisis funcional. Los resultados de estos análisis funcionales revelan las variables
controlantes del comportamiento y, por lo tanto, permiten la predicción y control de aquel
comportamiento. Para permitir observaciones precisas, las definiciones operacionales
especifican las operaciones usadas para producir el fenómeno (e.g., Skinner, 1945). Por
ejemplo, una definición operacional de “hambre” puede estipular que una rata fue privada
de comida por 23 horas.
En una demostración temprana de un análisis funcional, Skinner (1939) cambió
sistemáticamente el intervalo entre los refuerzos de comida de 3 a 9 minutos y midió el
efecto en la tasa de presión de palanca usando cuatro ratas. Notó que las tasas de respuestas
disminuían sistemáticamente a medida que el intervalo entre los refuerzos aumentaba. Al
hacer un cuidadoso análisis funcional, Skinner descubrió un principio del condicionamiento
operante: la tasa de refuerzo es una variable clave para controlar la tasa de respuesta.

Diseños de investigación de caso único


Dado que el objetivo del análisis del comportamiento es la predicción y el control
del comportamiento a nivel individual, los analistas del comportamiento comúnmente
emplean diseños experimentales de caso único en vez de diseños de grupo (e.g., Sidman,
1960). A nivel más básico, un único sujeto es expuesto a una condición de línea base y a
una de tratamiento (Johnston y Pennypacker, 2008). La condición de línea base es el
periodo del experimento sin el tratamiento. El tratamiento ocurre cuando se introduce la
variable independiente. Un diseño común de investigación de caso único es el diseño
inverso o ABA. Durante la línea base, el comportamiento es observado durante varias
sesiones hasta que se observa una tasa de respuesta estable (i.e., muy poca fluctuación al
responder entre las sesiones). Luego, la condición de tratamiento es introducida hasta que se
alcanza la estabilidad. Finalmente, se reintroduce la condición de línea base original. Si el
comportamiento cambia durante la condición de tratamiento y regresa al nivel de línea base
durante el regreso, los resultados proveen evidencia sólida de que la variable independiente
ha producido el cambio. Es decir, es poco probable que otros eventos hayan coincidido con
la condición de línea base. Por ejemplo, Hall, Lund, y Jackson (1968) estudiaron los efectos
del reforzamiento en el estudio en niños de primaria. Durante las condiciones de línea base
la conducta de estudiar fue ignorada. Durante las condiciones de tratamiento, estudiar fue
reforzado con la atención contingente del profesor. La figura 8.1 muestra los resultados de
uno de los participantes de Hall et al. En la primera condición de línea base, el participante

3
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

estudió en aproximadamente un 25% de los intervalos. Durante las condiciones de


tratamiento, el porcentaje de intervalos de estudio aumentó al 75%. Los resultados de Hall
et al. descartan explicaciones alternativas dado que la cantidad de estudio disminuyó y
aumentó apropiadamente cada vez que se replicaban las condiciones.

Figura 8.1 ​Porcentaje de intervalos en los cuales el estudio ocurrió, en un participante. En las
condiciones de línea base, la cantidad de estudio fue ignorada. En las condiciones de refuerzo, el
estudio fue reforzado de manera contingente por el profesor. Extraído de “Effects of teacher attention
on study behavior”, por R. V. Hall, D. Lund y D. Jackson (1968), ​Journal of Applied Behavior
Analysis​, I, p.3. Derechos de autor (1968) de la “Society for the Experimental Analysis of Behavior,
Inc”. Reimpreso con permiso.

Nota del traductor. ​La Figura 8.1 es un gráfico que en el eje horizontal muestra las distintas
sesiones del experimento, siendo estas Línea Base, Refuerzo 1, Inversión, Refuerzo 2, y un Chequeo
Posterior; mientras que en el eje vertical está el porcentaje de conducta de estudio desde 0% hasta
100%. Durante la primera condición, la de Línea Base, el porcentaje de conducta de estudio oscila
entre un 10% y un 40%. Durante la condición posterior de Refuerzo 1 hay un aumento en el
porcentaje de conducta de estudio, de tal manera que el porcentaje de conducta de estudio oscila entre
el 50% y el 90%. En la siguiente condición, la de Inversión, se produce una disminución, que lleva a
que el porcentaje de conducta de estudio oscile entre el 60% y el 40%. Luego, durante la fase de
Refuerzo 2, nuevamente vuelve a subir el porcentaje de conducta de estudio, partiendo desde el 30%
y manteniéndose posteriormente entre el 90% y el 60%. Un chequeo posterior donde se remueven las
claves tiene datos que continúan oscilando en los siguientes cinco ensayos alrededor del 70% y el
90%.

El diseño experimental de múltiples líneas bases es otro diseño frecuentemente


usado. Al igual que el diseño ABA, hay una condición de línea base y una de tratamiento;
sin embargo, los tratamientos son introducidos en momentos diferentes para diferentes
individuos o comportamientos (Miller, 2006). El diseño de líneas bases múltiples es usado
cuando el comportamiento no es reversible o cuando no es éticamente posible hacerlo. Al
igual que un diseño inverso, el diseño de líneas bases múltiples permite descartar
explicaciones alternativas para el cambio en el comportamiento debido a que la variable
independiente fue introducida en distintos momentos para distintos individuos o
comportamientos. Si cada comportamiento (o cada comportamiento del individuo) cambia

4
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

cuando el tratamiento es introducido, entonces es probable que la variable independiente


sea responsable del cambio.
Un tercer diseño experimental mide los efectos de varios niveles de la variable
independiente (e.g., varias tasas de refuerzo) en el comportamiento de un individuo
(Kazdin, 2011). Aunque hay muchas variaciones de este diseño de múltiples tratamientos,
cada nivel de la variable independiente es estudiado hasta que se observa una tasa de
respuesta estable. El diseño de múltiples tratamientos puede ser usado con o sin una línea
base inicial, y el orden de las condiciones de tratamiento puede ser sistemático (e.g.,
ABCDE) o al azar (e.g., DCEAB).

Resumen
El análisis del comportamiento tiene varias características que lo hacen diferente de
otras áreas de la psicología. Sus objetivos, tales como la predicción y el control de la
conducta, separan sus estrategias de investigación de las estrategias hipotético-deductivas
de otras áreas de la psicología. Su tema de estudio es el comportamiento en sí mismo, no
como un síntoma de un constructo interno. Metodológicamente, el análisis de la conducta es
la búsqueda de relaciones funcionales entre el ambiente y la conducta, no las relaciones
entre constructos hipotéticos y conductas evidentes. Por último, el análisis de la conducta
asume que la conducta está sujeta a leyes y, por lo tanto, abierta a la inspección científica.

Reforzamiento y castigo
Hay cuatro tipos de consecuencias en el condicionamiento operante. Estas
consecuencias pueden ser puestas en dos categorías distintas: reforzamiento y castigo.

Reforzamiento
El reforzamiento se refiere a un procedimiento que incrementa la tasa de respuesta.
Hay dos tipos de reforzamiento: positivo y negativo.
Reforzamiento positivo​. Este es, quizás, el procedimiento de condicionamiento
operante más familiar, dado que entrega lo que comúnmente se llama una “recompensa”.
Para que un estímulo recompensante sea llamado “reforzador”, sin embargo, debe venir
después de una conducta y aumentar la frecuencia de esa conducta (Miller, 2006). Si ambos
requisitos no se cumplen, el estímulo no es un refuerzo positivo. Una rata, por ejemplo,
puede recibir un pellet de comida cada vez que presiona una palanca, y la conducta de
presión de palanca puede aumentar. Se dice entonces que el pellet de comida sirve como un
refuerzo positivo porque es posterior a una conducta e incrementa la tasa de esa conducta.
En instancias aplicadas, los elogios pueden ser usados como un refuerzo positivo
para aumentar la frecuencia de conductas de interés en individuos con capacidades
diferentes (e.g., Dozier, Iwata, Thomason-Sassi, Worsdell y Willson, 2012). En el mundo
real, los refuerzos positivos pueden ser el dinero, la atención social, y la oportunidad de
realizar ciertas actividades preferidas.

5
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

Reforzamiento negativo. ​Como el reforzamiento positivo, el reforzamiento negativo


incrementa la frecuencia de una conducta, pero la respuesta remueve o previene la
presentación de un estímulo. Para que un procedimiento califique como reforzamiento
negativo, un estímulo debe terminar o ser evitado por una respuesta y esa terminación o
prevención debe incrementar la frecuencia de la respuesta (Miller, 2006).
Los investigadores han identificado dos tipos de procedimientos de reforzamiento
negativo. Si el estímulo es terminado por la respuesta, el procedimiento se denomina
escape, si el estímulo es prevenido por la respuesta el procedimiento se llama evitación. Por
ejemplo, una preparación inicial para el estudio del reforzamiento negativo implicaba
emparejar un estímulo condicionado (como un sonido) con la entrega de descargas
eléctricas en las patas a unas ratas. Al principio, las ratas escapaban de la descarga saltando
sobre una barrera en los aparatos. Luego de varios ensayos, sin embargo, las ratas aprendían
a evitar la descarga saltando sobre la barrera en presencia del sonido. Los primeros
investigadores (e.g., Mowrer y Lamoreaux, 1946) interpretaron el refuerzo negativo como
una reducción del “miedo”. Es decir, argumentaron que el sonido generaba miedo
condicionado mediante su asociación con las descargas, y que las ratas saltaban sobre la
barrera para reducir este miedo. Investigadores posteriores, sin embargo, discutieron esta
afirmación. Sidman (1953) presentó descargas eléctricas a unas ratas después de intervalos
fijos de tiempo (e.g., 5 segundos). La descarga eléctrica era pospuesta (i.e., evitada) por un
periodo de tiempo (e.g., 10 segundos) cuando presionaban la palanca. Dado que no había
estímulos externos que predijeran la entrega de la descarga eléctrica la reducción del miedo
no era una explicación adecuada para la respuesta de evitación. En vez de esto, la reducción
del shock era una variable controlante (véase Hineline, 1977, para una revisión de este
trabajo).
En instancias aplicadas, la gente puede comportarse inapropiadamente para escapar
o evitar las demandas de una tarea (e.g., LaRue et al., 2011). Los gobiernos usan
reforzamiento negativo para controlar el comportamiento de sus ciudadanos (véase Sidman,
1989; Skinner, 1953). Por ejemplo, puede que la gente pague sus impuestos para evitar una
multa o ir a prisión, en vez de hacerlo porque pagarlos entrega un refuerzo positivo.

Castigo
El término castigo se refiere a un procedimiento que disminuye la frecuencia de una
respuesta. Como en el reforzamiento, hay dos tipos de castigo: positivo y negativo.
Castigo positivo​. ​Para que un estímulo califique como castigo positivo, debe ser
entregado después de una conducta y disminuir la probabilidad de esa conducta (Miller,
2006). Una rata, por ejemplo, puede recibir una descarga eléctrica después de cada presión
de palanca. Si la tasa de presión de palanca disminuye, la descarga eléctrica es un castigo
positivo para la presión de palanca. En instancia aplicadas, el castigo ha sido usado para
disminuir las conductas autolesivas. En un ejemplo clásico, Risley (1968) aplicó una leve
descarga eléctrica a una niña con autismo cuando subía a objetos altos, tales como un

6
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

librero o una silla. Como resultado, la tasa de escalamiento peligroso disminuyó a cero,
mientras que aumentó la tasa de comportamientos apropiados, como el contacto visual con
el experimentador.
El castigo positivo es fácilmente observable en el mundo real. Por ejemplo, una
persona se puede quemar si pone su mano muy cerca de una estufa caliente. Como
resultado, es menos probable que la persona ponga su mano cerca de una estufa en el futuro.
Castigo negativo. E ​ l castigo negativo se refiere a la remoción contingente de un
estímulo que disminuye la tasa de una respuesta. Para que un estímulo califique como un
castigo negativo, la remoción del estímulo debe ser después de una conducta y esa
remoción debe disminuir la probabilidad de esa conducta (Miller, 2006). Por ejemplo, una
rata privada de comida puede recibir acceso libre a la comida, pero una presión de palanca
puede remover la comida. Si la remoción contingente de la comida disminuye la tasa de
presión de palanca, la remoción de comida sirve como un castigo negativo.
Una aplicación común del castigo negativo está en los procedimientos de tiempo
fuera (e.g., Wolf, Risley y Mees, 1964). Un procedimiento de tiempo fuera involucra
remover a un individuo de un ambiente reforzante hacia uno menos reforzante después de
una conducta inapropiada. En un ejemplo reciente, Donaldson y Vollmer (2011)
investigaron el uso del tiempo fuera en los comportamientos inapropiados de niños con
trastornos del desarrollo en el patio de juegos y en la sala de clases cuando los niños
mostraban conductas inapropiadas (e.g., saltar de los columpios o tirar materiales
académicos), eran puestos en un tiempo fuera por cuatro minutos. La tasa de las respuestas
inapropiadas disminuyó cuando la contingencia de tiempo fuera se implementaba, y
aumentaron cuando no. Ejemplos de castigos negativos pueden incluir las multas de tráfico
y los intereses por pagos tardíos con tarjetas de crédito.

Moldeamiento
El procedimiento de moldeamiento por aproximaciones sucesivas es usado tanto en
las investigaciones básicas como aplicadas para crear una nueva conducta (Skinner, 1951).
El procedimiento se empieza definiendo qué conducta se quiere entrenar, la “conducta de
interés”. Por ejemplo, en una investigación básica de laboratorio, presionar una palanca
podría ser definida como cualquier fuerza ejercida en la palanca que active un mini
interruptor. Una definición incluso más precisa podría especificar la topografía de la
respuesta. Por ejemplo, la presión de una palanca podría requerir que la rata empuje la
palanca con 0.25 newton de fuerza con ambas patas simultáneamente. La definición de una
conducta de interés puede ser tan específica, como se requiera, dependiendo de la
naturaleza de la respuesta y la pregunta de investigación (véase Johnston y Pennypacker,
2008, para una discusión comprehensiva de este problema). Luego, se identifican
aproximaciones a la respuesta de interés y se refuerzan sistemáticamente. Por ejemplo, la
proximidad a la palanca podría ser la primera aproximación que es reforzada. Una vez que
esta conducta ocurre con cierta frecuencia, la siguiente aproximación reforzada podría ser

7
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

que la rata se levante. La siguiente aproximación podría involucrar tocar la palanca con su
pata. Este proceso continúa hasta que la conducta de interés es realizada.
Las técnicas de moldeamiento son usadas ampliamente en instancias aplicadas. Por
ejemplo, el moldeamiento ha sido usado para entrenar muchas conductas socialmente
importantes tales como un apropiado uso del inodoro (e.g., Smeets, Lancioni, Ball, y Oliva,
1985), respuestas verbales (e.g., Kelley, Shillingsburg, Castro, Addison, y LaRue, 2007), y
habilidades académicas (Athens, Vollmer, y St. Peter Pipkin, 2007).
Los reforzadores deben ser inmediatamente después de la respuesta deseada para
que el moldeamiento sea efectivo. Como resultado, se pueden usar reforzadores
condicionados para disminuir la demora entre la conducta y la entrega de un reforzador
primario. Los reforzadores condicionados son estímulos previamente neutros que adquieren
la habilidad de reforzar después de ser pareados con un reforzador primario (véase Bell y
McDevitt, en este volumen). El uso de reforzadores condicionados es común en el
entrenamiento animal. Por ejemplo, clickers disponibles en el comercio son usados para
moldear las conductas de una amplia variedad de mascotas, incluyendo perros, gatos y
caballos (e.g., Pryor, 2001; véase Pryor y Ramírez, en este volumen). En instancias
aplicadas con personas, los reforzadores sociales, tales como decir “¡buen trabajo!” podrían
servir como un reforzador condicionado efectivo.

Programas de reforzamiento
Los programas de reforzamiento (véase Nota 2) son reglas que especifican cuáles
respuestas serán seguidas por un reforzador. Aun cuando Skinner condujo investigaciones
iniciales en los años 30 (e.g., Skinner, 1938), los programas de reforzamiento no fueron
ampliamente investigados hasta Ferster y Skinner (1957). Ferster y Skinner mostraron que
los programas de reforzamiento producen patrones predecibles y característicos en una
respuesta operante. Usaron un registro acumulativo para medir momento-a-momento los
cambios en la conducta de palomas y ratas. Un registro acumulativo presenta el número
acumulativo de respuestas en el eje Y como una función del tiempo en el eje X (véase
Figura 8.2). Una alta tasa de respuestas se indica en el registro acumulativo como una
pendiente empinada, mientras que la ausencia de respuesta se indica con una línea
horizontal. La entrega de los reforzadores se representa con una línea vertical.
Los reforzadores pueden ser entregados en un programa de reforzamiento continuo
(PRC) o parcial (PRP). Un PRC entrega un reforzador después de cada respuesta. Un PRP
no entrega un reforzador después de cada respuesta. Un PRP entrega reforzadores después
de la emisión de un cierto número de respuestas (programas de razón) o de acuerdo con el
paso del tiempo (programas de intervalo). Aquí se describirán cuatro programas de
reforzamiento.

8
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

Figura 8.2. ​La respuesta individual de una paloma en un programa de razón fija de 120 (A), un
programa de razón variable de 360(B), un programa de IF de 4 minutos (C), y un programa de
intervalo variable de 2 minutos. Extraído de “Schedules of reinforcement” por C.B. Ferster y B.F.
Skinner (1975), pp. 51, 159, 332 y 393. Derechos de autor (1997) de la Fundación B.F. Skinner.
Reimpreso con permiso.

Programas de razón
Programas de razón fija​. ​Durante los programas de Razón Fija (RF) los
reforzadores son entregados después de la emisión de un cierto número de respuestas
(Ferster y Skinner, 1957). El número de respuestas requeridas para el reforzamiento se usa
para describir el programa. Un programa de reforzamiento continuo es técnicamente un
programa RF1 porque cada respuesta es seguida de un reforzador. Por otro lado, un
programa RF15 requiere 15 respuestas emitidas por cada reforzador entregado. La tasa de
reforzamiento, por lo tanto, depende de qué tan rápido responde el organismo, y la
probabilidad de reforzamiento aumenta con cada respuesta (Mazur, 1982).
Los programas de razón fija producen un patrón característico de respuestas en una
variedad de especies con muchos tipos de reforzadores, incluyendo fichas y dinero (Mazur,
1983; Tatham, Wanchisen y Hineline, 1993). Una pausa post-reforzamiento (PPR) ocurre
inmediatamente después de un reforzamiento, y la fuerza de la PPR depende de la exigencia
del programa. Por ejemplo, programas de RF con una exigencia de razón mayor, producirán
mayores PPRs que programas de RF con un requisito de razón menor (Powell, 1968). Una
rápida emisión de respuestas ocurre luego de la PPR. Este clásico patrón de descanso-y-
emisión es conocido como un “escalón” en el registro acumulativo (véase Figura 8.2A). En
el mundo real, un programa de RF podría involucrar a una persona recibiendo un pago
(reforzador) después de haber producido un cierto número de cosas (respuestas; véase Nota
1).
Programas de razón variable.​ Durante los programas de razón variable (RV), la
respuesta es reforzada después de la emisión de un número de respuestas determinadas
aleatoriamente (Ferster y Skinner, 1957). El número promedio de respuestas requeridas para
producir el reforzamiento es usado para describir el programa. Por ejemplo, un programa

9
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

RV15 indica que la cantidad promedio de respuestas requeridas para producir reforzamiento
es de 15. Sin embargo, el requisito del programa podría variar entre valores extremos de
modo que, se podría exigir 29 respuestas durante un intervalo entre reforzamientos, y se
podría exigir solo una respuesta al siguiente intervalo.
La tasa de respuestas generadas por un programa de RV es generalmente más rápida
que con programas de RF con similares exigencias de respuesta. No se observan en general
PPRs en un programa de RV, y las tasas de respuestas, por lo general, son relativamente
constantes en el tiempo (véase Figura 8.2B).
Un posible ejemplo de un programa de RV en el mundo real es pescar. La
probabilidad de capturar un pez (reforzador) depende (hasta cierto punto) del número de
veces que se retira el sedal (respuestas). Sin embargo, el número de intentos necesarios para
capturar cada pez puede variar de un intento exitoso al siguiente.

Programas de intervalo
Programas de intervalo fijo​. ​Durante los programas de Intervalo Fijo (IF), la
primera respuesta emitida después de una cantidad determinada de tiempo es seguida de un
reforzador (Ferster y Skinner, 1957). Por ejemplo, en un programa de IF60 se refuerza la
primera respuesta emitida después de 60 segundos usualmente medidos desde la obtención
del reforzador anterior.
Los programas de IF producen un patrón característico de respuestas en una
variedad de especies con reforzadores primarios y condicionados (Barnes y Keenan, 1993;
Dews, 1978). El patrón es un PPR seguido de una tasa lenta de respuestas al inicio del
intervalo, y una alta tasa de respuestas hacia el fin de este (Ferster y Skinner, 1957; Innis,
Mitchell y Staddon, 1993). En un registro acumulativo, este característico patrón es
conocido como “festoneo” (véase Figura 8.2C).
Asumiendo que uno tiene un cartero confiable, revisar el buzón y encontrar un
correo puede ser interpretado como un programa de IF. La entrega del correo ocurre
aproximadamente a la misma hora cada día, y se ejecuta solo una respuesta para obtener el
correo.
Programas de intervalo variable.​ Durante los programas de intervalo variable (IV),
la respuesta es reforzada después de una cantidad de tiempo determinada al azar,
usualmente medida desde el último reforzador (Ferster y Skinner, 1957). El promedio de
estos intervalos de tiempo es usado para describir el programa. Un programa de IV60, por
ejemplo, refuerza la respuesta en promedio cada minuto, a pesar de que los intervalos entre
reforzamiento diferirán de una ocasión a la siguiente.
La tasa de respuestas producidas por un programa de IV son, por lo general,
relativamente constantes y moderadas (Ferster y Skinner, 1957). La PPR comúnmente
observada en programas de IF y RF no aparecen en programas de IV, excepto en tasas
inusualmente bajas de reforzamiento (e.g., Baum, 1993). El programa de IV es, quizás, uno
de los más usados comúnmente en investigación operante porque produce desempeños

10
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

estables y predecibles (véase Figura 8.2D). Si se usa una cantidad variable de agua o una
fuente de calor variable, cada vez que se hierve agua, la respuesta de mirar para ver si el
agua está hirviendo podría ser reforzada al ver el agua hirviendo en un programa de IV.
En general, los programas de IV son mejores opciones que los programas de RV
cuando se usan programas para medir el efecto de alguna otra variable, como las drogas.
Como se mencionó anteriormente, la tasa de reforzamientos es proporcional a la tasa de
respuestas en un programa de razón. Por lo tanto, si una droga cambia la tasa de respuestas
en un programa de razón, también cambiará la tasa de reforzamientos obtenida. Entonces
será imposible determinar cuánta de la variación de la tasa de respuestas fue producto de la
administración de la droga, y cuánta fue producida por el cambio en la tasa del
reforzamiento obtenido. En cambio, la cantidad de reforzamiento obtenido en un programa
de intervalo es relativamente constante en un amplio rango de tasas de respuesta. Como
resultado, los cambios observados en la tasa de respuestas en los programas de IV pueden
ser claramente atribuidos a la administración de la droga, más que a los cambios en la
cantidad de reforzamiento obtenido.

Programas Complejos
Los programas simples (véase Nota 3) discutidos anteriormente son los comúnmente
usados en el laboratorio, pero para investigar conductas complejas, como la de elección
(Baum, 1974; véase Mazur y Fantino, en este volumen), momentum conductual (véase
Craig, Nevin y Odum, en este volumen; Nevin y Grace, 2000) y contraste conductual (e.g.,
Reynolds, 1961), se necesitan programas complejos de reforzamiento. Los programas
complejos involucran el uso de dos o más programas simples que operan concurrentemente
o en sucesión. Cada programa simple se considera un componente del programa complejo.
Aunque Ferster y Skinner (1957) describieron seis programas complejos de reforzamiento,
solo dos programas serán discutidos aquí.
Programas concurrentes​. ​Ferster y Skinner (1957) estudiaron la conducta de
elección entrenando palomas con dos o más operandos asociados a programas
independientes de reforzamiento. Los dos operandos estaban disponibles al mismo tiempo.
Este procedimiento de programa concurrente permite a un animal distribuir sus respuestas
entre dos o más alternativas. Los programas concurrentes de reforzamiento han demostrado
ser útiles para la formulación de teorías de elección, como la ley de igualación de
Herrnstein (1961, 1970; véase Mazur y Fantino, en este volumen). La ley de igualación es
una descripción cuantitativa que indica que tasa relativa de respuestas a dos o más
alternativas tienden a coincidir (igualar) con la tasa relativa de reforzamientos obtenidas de
aquellas alternativas.
Programas múltiples.​ Los programas múltiples de reforzamiento involucran la
presentación sucesiva de dos o más programas simples de reforzamiento con estímulos
discriminativos claramente diferentes presentes durante cada programa simple. Cada
programa simple constituye un componente del programa múltiple y aspectos cualitativos

11
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

de la respuesta (por ejemplo, registros acumulativos) durante cada componente son


característicos del programa simple predominante en cada componente. Por ejemplo, una
rata privada de comida podría responder en un programa de reforzamiento IF60s señalizado
por una luz. Después del reforzamiento en este programa, este puede ser reemplazado por
un programa de RF10 señalizado por un ruido blanco. Se dice que el control múltiple está
establecido si el animal demuestra el típico festoneo de IF en presencia de la luz, y un
escalón de RF en presencia del ruido.
La tasa de respuestas en el componente de un programa múltiple también depende
del programa disponible en el otro componente. La habilidad de estos programas simples
para influenciarse unos a otros a través del tiempo es conocida como ​interacción de
programas múltiples ​(e.g., Reynolds, 1961). Estas interacciones han sido estudiadas
extensivamente (e.g., McSweeney y Weatherly, 1998) y tienen implicancias para el
tratamiento conductual en humanos (Gross y Drabman, 1981).

Variables que influencian la efectividad del reforzador


Además de los programas de reforzamiento, otros procedimientos influencian la tasa
de conducta operante alterando la efectividad del reforzador.

Características del reforzador


Tasa de refuerzo​. ​La tasa de reforzamiento (número de refuerzos por un período de
tiempo) es una variable crítica que influencia la tasa de una respuesta operante (número de
respuestas por período de tiempo). Por ejemplo, Catania y Reynolds (1968) estudiaron el
picoteo a claves en palomas en un programa de reforzamiento de IV. Las tasas programadas
de reforzamiento variaron de 8.4 a 300 reforzadores por hora en diferentes condiciones. Los
resultados mostraron que la tasa de respuestas se fue incrementando, acelerando
negativamente, en función de la tasa de reforzamiento.
Cantidad de refuerzo.​ ​En general, aunque no siempre, la tasa de respuestas operante
está relacionada directamente con el tamaño del reforzador. Es decir, reforzadores más
grandes tienden a mantener una mayor tasa de respuestas que reforzadores pequeños. Reed
and Wright (1988), por ejemplo, estudiaron la tasa de presiones de palanca en ratas en un
programa de RV30. En diferentes condiciones se entregaron de 1 a 4 pellets de comida por
refuerzo entregado. Los resultados mostraron un incremento sistemático en la tasa de
respuestas en función del número de pellets de comida entregados por reforzador.
Calidad del refuerzo.​ Los reforzadores también difieren en calidad. La calidad es, de
cierto modo, difícil de definir, pero se prefieren usualmente refuerzos de mayor calidad que
de menor calidad. En general, los refuerzos de mayor calidad son también más efectivos en
mejorar la respuesta operante que refuerzos de menor calidad.
La variación de la calidad de los reforzadores ha sido usada en instancias aplicadas.
Por ejemplo, Lee, Yu, Martin y Martin (2010) estudiaron las respuestas operantes para seis
refuerzos de comida cualitativamente diferentes (e.g., jugo de naranja, pretzels y galletas) en

12
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

adultos con trastornos del desarrollo. Luego, se midió la preferencia de cada participante para
cada estímulo requiriendo 10 elecciones entre esos estímulos y otros estímulos. Los
resultados indicaron que la tasa de respuestas estuvo altamente correlacionada con la
preferencia de cada participante por los artículos. Es decir, se observó una mayor tasa de
respuestas para los estímulos que fueron más preferidos que para aquellos que fueron menos
preferidos.

Contingencias
Una contingencia de reforzamiento se refiere a la diferencia entre la probabilidad de
que una conducta sea seguida por un refuerzo, y la probabilidad de que el refuerzo sea
entregado en ausencia de esa conducta (Catania, 2007). Para que una consecuencia sea
efectiva la primera probabilidad tiene que ser más alta que la segunda probabilidad.
En una demostración clásica del efecto de las contingencias de reforzamiento,
Hammond (1980) expuso ratas a dos condiciones. En la primera condición, la probabilidad de
recibir agua luego de una presión de palanca era de 0.05 y la probabilidad de recibir un
reforzador en ausencia de la presión de palanca era de 0 (contingencia positiva). En la
segunda condición, la primera probabilidad permaneció en 0.05, pero la probabilidad de
entrega del reforzamiento en ausencia de la presión de palanca fue aumentada a 0.05
(contingencia cero). Los resultados de Hammond mostraron que cuando la probabilidad de
recibir un refuerzo era mayor para presionar una palanca que cuando no había que presionar
palanca, se mantuvieron mayores tasas de respuesta en comparación a cuando las dos
probabilidades eran la misma (Véase Figura 8.3).

13
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

Figura 8.3 ​Las respuestas por hora en función de cada condición. En la primera condición, la
probabilidad de recibir el reforzador de agua luego de presionar una palanca fue de 0.05, y la
probabilidad de recibir reforzamiento en la ausencia de presión de palanca fue de 0.0. En la segunda
condición, la primera probabilidad fue la misma, pero la probabilidad de entregar el reforzamiento en
ausencia de la presión de palanca se cambió a 0.05. Extraído de “The effect of contingency upon the
appetitive conditioning of free-operant behavior”, de L. Hammond (1980), ​Journal of the
Experimental Analysis of Behavior​, 34, p. 300. Derechos de autor (1980) de la “Society for the
Experimental Analysis of Behavior”, Inc. Reimpreso con permiso.

Identificar las contingencias puede ser importante en el tratamiento de conductas


problemáticas en instancias aplicadas. Una vez que se ha identificado el reforzador que
mantiene la conducta problemática, este puede ser entregado no contingentemente para
reducir la conducta (Carr, Severtson y Lepper, 2009). Tal procedimiento podría ser
preferido al castigo, otro método para reducir conductas problemáticas, porque involucra la
entrega de estímulos positivos en vez de aversivos.

Consecuencias demoradas
En general, la efectividad de un reforzador decrece en función de la demora entre la
respuesta y la entrega del reforzador (Mazur, 1987). Este fenómeno es conocido como
descuento por demora y es un área rica de investigación en el análisis del comportamiento
(véase Green, Myerson, y Vanderveldt, en este volumen). Los individuos que pueden
desarrollar problemas de comportamiento, como problemas con las apuestas (Dixon,
Marley, y Jacobs, 2003) y abuso de sustancias (Carroll, Anker, Mach, Newman, y Perry,
2010) pueden mostrar un descuento por demora del reforzador bastante empinado.
El descuento por demora también se usa para estudiar problemas de autocontrol. El
autocontrol puede ser definido como una preferencia por los reforzadores grandes, pero
demorados en comparación a reforzadores inmediatos y pequeños (Logue, 1995). La
impulsividad se puede definir como la elección del reforzador inmediato y pequeño por
sobre el demorado, pero más grande. El tamaño relativo de los reforzadores es importante
en el desarrollo del autocontrol. Por ejemplo, incrementar el tamaño relativo del reforzador
demorado o disminuir el tamaño del reforzador inmediato aumenta el autocontrol (Logue,
1995, 2000).

Operaciones motivantes
La efectividad de los refuerzos puede ser alterada por operaciones motivantes. Una
operación motivante es “un evento ambiental, operación, o condición de estímulos que
afecta momentáneamente al organismo al alterar (a) la efectividad del refuerzo de otros
eventos y (b) la frecuencia de la ocurrencia de esa parte del repertorio del organismo
relevante a los eventos como consecuencias” (Michael, 1993, p. 192). Establecer
operaciones incrementa, y abolir operaciones decrece, la efectividad de una consecuencia.
Quizás el procedimiento más común para incrementar la efectividad de un
reforzador es la privación. Esto es, privar a un organismo de un estímulo (i.e., comida)

14
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

establece a este estímulo como un reforzador e incrementa la frecuencia de la conducta que


permite obtenerlo (e.g., Michael, 1982). Un procedimiento común para disminuir la
efectividad de un estímulo es incrementar la cantidad de exposición que un animal tiene a
este. En la práctica, incrementar la exposición a un reforzador puede involucrar usar
programas de reforzamiento densos e incrementar la magnitud del refuerzo (i.e., el tamaño).
McSweeney y Murphy (en este volumen; McSweeney y Murphy, 2009) describen
cómo los procesos de habituación y sensibilización a las propiedades sensoriales del
refuerzo pueden alterar la efectividad de un reforzador. La habituación es un decremento en
la responsividad a un estímulo que ha sido presentado repetidamente (R. F. Thompson, en
este volumen). La sensibilización es el efecto opuesto, un incremento en la responsividad a
un estímulo presentado repetidamente que ocurre bajo condiciones específicas. Los
procedimientos que pueden disminuir la habituación (e.g., la variabilidad en la entrega del
estímulo), o aumentar la sensibilización (e.g., la introducción de un estímulo novedoso)
pueden incrementar la efectividad del refuerzo. Potenciar la habituación (e.g., incrementar
la exposición al estímulo) o reducir la sensibilización (e.g., disminuyendo los estímulos
impredecibles), pueden perjudicar la efectividad de los reforzadores. La descripción de
habituación-sensibilización de la efectividad de los reforzadores ofrece predicciones
novedosas acerca de cómo los eventos ambientales pueden alterar la efectividad del
reforzador.

Extinción
La extinción es un procedimiento usado para disminuir el control operante. Si una
respuesta fue reforzada previamente, entonces la extinción disminuirá su frecuencia. Si una
respuesta fue previamente castigada, entonces la extinción aumentará su frecuencia. La
extinción puede producirse de dos formas. Primero, se puede detener la entrega de la
consecuencia (i.e., reforzadores y castigadores). Por ejemplo, Skinner (1938) reforzó con
comida 100 presiones de palanca a ratas. Luego, discontinuo la entrega de comida
(extinción). La presión de palanca era bastante rápida antes de la extinción, pero luego
decreció hasta 0 después de una hora de extinción (véase Figura 8.4). En segundo lugar, las
consecuencias (i.e., reforzadores y castigadores) pueden ser presentadas
independientemente de la conducta. La condición de contingencia cero de Hammond (1980)
descrita anteriormente es un ejemplo de este procedimiento (véase Figura 8.3).

15
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

Figura 8.4 ​Presiones de palanca acumulativas de cuatro ratas durante la extinción en función del
tiempo. Las ratas presionan palanca en mayor velocidad al comienzo de la extinción, pasado el
tiempo las ratas comienzan a responder en menor medida por lo que las respuestas totales dejan de
aumentar y la curva se vuelve plana. Extraído de “The behavior of organisms: An experimental
analysis,”,” de B. F. Skinner (1938), p. 75. Derechos de autor (1991) de la fundación B. F. Skinner.
Reimpreso con permiso.

La conducta bajo extinción muestra características complejas e inesperadas. Por


ejemplo, la conducta extinguida muestra recuperación espontánea después de un período de
tiempo desde la sesión de extinción. La conducta extinguida también aumenta después de la
presentación repentina de un estímulo como un tono o una luz (desinhibición). La
restauración de parte del episodio de condicionamiento restaurará una respuesta
previamente extinguida (reinstalación). Además, una respuesta operante se recuperará
cuando el contexto original es reintroducido si la respuesta es condicionada en un contexto y
extinguida en un contexto diferente (renovación; Bouton y Peck, 1989). El efecto del
reforzamiento parcial en la extinción (ERPE; e.g., Humphreys, 1939) también refiere al
hallazgo de que las respuestas que han sido parcialmente reforzadas se extinguen más
lentamente que las que han sido reforzadas continuamente. El ERPE ha sido considerado
paradójico debido a que su observación sugiere que, la conducta que ha sido reforzada
menos frecuentemente tiene mayor fuerza de respuesta (i.e., indicado por una mayor
resistencia a la extinción) que la que ha sido reforzada continuamente. Debido a la
complejidad de estas características, es un desafío explicar teóricamente porque la extinción
ocurre, incluso si parece obvio que debiera ocurrir (véase Vurbic y Bouton, en este volumen
para el entendimiento actual de la extinción).
Otras características de la conducta bajo extinción son las ráfagas y la variabilidad
conductual. Una ráfaga es un incremento temporal en la frecuencia de la respuesta al
comienzo de la extinción (Alessandri, Sullivan, y Lewis 1990). Adicionalmente, la
topografía de una respuesta bajo extinción varía más que si la misma respuesta fue seguida
de un reforzador (Antonitis, 1951). Estas propiedades de la extinción tienen importantes
implicancias en situaciones aplicadas (Lerman e Iwata, 1996). Por ejemplo, una forma

16
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

común de disminuir la conducta autolesiva mantenida por reforzamiento social es poner la


conducta bajo extinción. Las ráfagas de extinción de las conductas autolesivas, sin embargo,
pueden llevar a más heridas. Por esto, los investigadores usualmente equipan a los
participantes con elementos de protección durante la extinción, o usan la extinción en
conjunto con otros procedimientos (Lerman e Iwata, 1996). En contraste, la variabilidad
conductual inducida por la extinción puede llevar al moldeamiento de nuevas respuestas
más apropiadas (Duker y van Lent, 1991).
La extinción es útil para disminuir la fuerza de una conducta operante, pero su uso
no siempre es apropiado. Por ejemplo, extinguir una conducta ignorando la conducta podría
no ser la mejor manera de disminuir el llanto de un bebé. Al comenzar la extinción, el llanto
generalmente aumentará (ráfaga). Un padre o madre podría resistir el reconfortar al bebé por
un rato frente al aumento del llanto, pero si eventualmente el padre o la madre cede y
reconforta al bebé, la conducta del llanto habrá sido puesta en un programa de
reforzamiento intermitente. Así, el ERPE hará esta conducta del llanto aún más resistente a
una extinción futura. Incluso si los padres son capaces de ignorar el llanto, es posible que no
puedan controlar a los abuelos que pueden apresurarse para reconfortar al bebé, y así
reforzarían el llanto. La extinción es más fácil de usar cuando se puede tolerar una lenta
pérdida de la fuerza de una conducta y cuando todos los reforzadores que apoyan la
conducta han sido identificados y están bajo control del analista del comportamiento.

Control de estímulos
Estímulos en el ambiente pueden llegar a controlar el comportamiento operante.
Cuando esto ocurre, se le denomina control de estímulos. Existen dos tipos básicos de
control de estímulos: generalización y discriminación.
Generalización. ​La generalización ocurre cuando una respuesta que ha sido
reforzada en presencia de un estímulo también ocurre en la presencia de otro estímulo
similar. En un experimento clásico, Guttman y Kalish (1956) entrenaron a palomas para que
picotearan una clave para obtener comida sólo en la presencia de una clave de luz de color
de 530, 550, 580, o 600 nanómetros. Después se testeó a las palomas con múltiples
longitudes de onda. Un examen de la tasa de respuestas en función de la longitud de onda
reveló que la tasa más alta de respuestas ocurrió en la presencia del estímulo de
entrenamiento. La tasa de respuestas a los nuevos estímulos disminuyó como una función
normal de la distancia en nanómetros entre los nuevos estímulos y el de entrenamiento.
Discriminación. ​La discriminación ocurre cuando una conducta produce
reforzadores en la presencia de algunos estímulos, pero no en la presencia de otros. La
conducta ocurrirá en la presencia del estímulo que señalizó la disponibilidad del reforzador
y no en la presencia de los otros estímulos. Los estímulos que están presentes cuando la
conducta es reforzada se abrevian ED; los estímulos que están presentes cuando el hecho de
realizar la conducta no tiene consecuencias son E-deltas (abreviados E∆). Por ejemplo,
hacer parar un taxi que ya está ocupado es poco efectivo y, por lo tanto, la mayoría de los

17
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

taxistas tienen algún letrero que se puede iluminar para indicar que está vacío. El letrero
iluminado del taxi es un ED para la respuesta de hacer parar ese taxi; un letrero no
iluminado es un E∆ para hacer parar ese taxi. Las personas que están acostumbradas a
transportarse en taxis sólo hacen parar un taxi cuando tiene el letrero iluminado. La
conducta de hacer parar un taxi se dice que esté bajo el control de estímulo del letrero
iluminado.
Los estímulos discriminativos también pueden indicar que realizar una conducta
producirá castigo. En este caso, la conducta disminuirá en frecuencia en la presencia de
estímulos que señalan castigadores, y no en la presencia de estímulos que no señalan
castigadores. Por ejemplo, los niños pueden aprender rápidamente que muchas de sus
conductas alegres serán castigadas cuando sus madres fruncen el ceño, pero no cuando
sonríen. Como resultado, van a restringir su conducta en la presencia del ceño fruncido,
pero no en presencia de la sonrisa.
Aprender a discriminar puede afectar el gradiente de generalización de estímulos
cercanos al ED. Por ejemplo, Hanson (1959) entrenó palomas con una luz de longitud de
onda de 550 nanómetros (ED). Luego, algunos sujetos recibieron entrenamiento con luces
de 550, 560, 570 y 590 nanómetros como el E∆. Todos los sujetos mostraron la
generalización de estímulos, pero el nivel más alto de respuesta no ocurrió en la presencia
de ED. En cambio, el ​peak d​ e respuestas ocurrió con un estímulo que era similar al ED, pero
en la dirección contraria al E∆. Esto es, las palomas entrenadas con un E∆ de mayor
longitud de onda exhibieron respuestas significativamente mayores a la luz de 540
nanómetros en comparación a las palomas entrenadas solo con el ED de 550 nanómetros.
Este fenómeno es conocido como un “cambio en el ´​peak d​ e respuestas”.
Estímulos relativamente complejos pueden servir como estímulos discriminativos
efectivos incluso en animales no humanos, como palomas. Por ejemplo, Watanabe,
Sakamoto, y Wakita (1995) usaron pinturas de Monet y Picasso como el ED y E∆
(contrabalanceados entre los sujetos). El picoteo de las palomas no solo cayó bajo el control
de los estímulos, sino que también exhibió una impresionante generalización de estímulos.
Los sujetos entrenados para responder a las pinturas de Monet picotearon cuando se
presentaron otras pinturas de Monet (no familiares para los sujetos) y a pinturas de otros
impresionistas (Cézanne y Renoir). Los sujetos entrenados con Picasso como ED
respondieron frente a nuevas pinturas de Picasso y a pinturas de otros cubistas (Matisse y
Braque).
Los estados internos producidos por las drogas también pueden servir como
estímulos discriminativos. En un experimento, unas ratas recibieron inyecciones de delta9-
THC (i.e., el ingrediente activo de la marihuana) y nicotina como ED y E∆
(contrabalanceado entre los sujetos) en una tarea de reforzamiento con comida. Los sujetos
discriminaron entre las drogas, evidenciado como una respuesta más rápida, posterior a
inyecciones de la droga ED en relación con la droga E∆ (Troisi, LeMay, y Järbe, 2010).
Debido a que los experimentadores inyectaron ambas drogas de la misma forma, los

18
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

animales tienen que haber basado su discriminación en los efectos subjetivos producidos por
esas drogas, indicando que podrían discriminar entre estos estados subjetivos.
Tanto la generalización y la discriminación pueden verse afectadas por la saliencia
del ED. Un claro determinante de la saliencia de los estímulos es su intensidad. Con todas
las demás condiciones iguales, un ruido fuerte o una luz brillante son más salientes que un
ruido suave y una luz tenue. La saliencia de los estímulos también es afectada por la
presencia de otros estímulos. Van Houten y Rudolph (1972), entrenaron palomas a picotear
en total oscuridad solo cuando se presentaba un soplido de 30 millas. Los sujetos
aprendieron rápidamente la tarea y mostraron generalización a soplidos de velocidades
similares (véase Figura 8.5). Las palomas que aprendieron la tarea con una luz presente en
la caja operante fallaron en exhibir generalización de estímulos y aprendieron más lento una
discriminación entre 10 millas y 20 millas, en comparación a las aves entrenadas en la
oscuridad. Esto significa que la presencia de la luz redujo el control por parte del soplido.
Con mayor entrenamiento, sin embargo, los sujetos aprendieron a responder solo a la
presencia del soplido que señalaba la contingencia conducta-reforzador.

Figura 8.5 ​Porcentaje de respuestas totales emitidas en la presencia de soplidos de diferentes


velocidades durante un test de generalización para palomas entrenadas con un compuesto del soplido
y una clave lumínica ED, un compuesto de un soplido y una luz hogar ED, o solo un soplido ED sin
una luz presente. La velocidad del soplido en el entrenamiento era siempre de 30 millas por hora, y
líneas que representan las respuestas de cada sujeto individualmente. Extraído de “The development
of stimulus control with and without a lighted key”, por R. Van Houten y R. Rudolph (1972), ​Journal
of the Experimental Analysis of Behavior​, 18, p. 219. Derechos de autor (1972), de la “Society for the
Experimental Analysis of Behavior, Inc”. Reimpreso con permiso.

Nota del traductor. ​Se presentan 3 gráficos separados uno para cada tipo de estímulo presentado
(soplido + clave lumínica, soplido + luz hogar, soplido solo), se observa que la discriminación de las
ratas entrenadas en la oscuridad es mejor que la de las ratas entrenadas con el compuesto de luz y

19
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

soplido. Además, se observa que entre más distinta es la velocidad del soplido con el que se está
testeando, con relación al soplido con el que fue entrenado, menor es la respuesta que el sujeto
ejecuta.

Aplicaciones prácticas. ​Los procedimientos de discriminación proveen una


herramienta útil para las preguntas acerca de animales no-verbales (e.g., infantes, animales
no humanos). Por ejemplo, el experimento de Watanabe et al. (1995), descrito
anteriormente, responde la pregunta desi las palomas pueden distinguir entre pinturas de
Monet y Picasso. Los estudios de discriminación proveen una forma de medir cómo se
“siente” una droga para un animal. Cuando la respuesta se generaliza de una droga a otra
(i.e., cuando una droga se puede sustituir por otra como el ED), esto indica que las dos
drogas producen un efecto subjetivo similar posiblemente porque actúan en las mismas
sinapsis neurales. Por ejemplo, ratas entrenadas para discriminar diazepam de una solución
salina también respondieron en la palanca de la droga cuando fueron inyectadas con la
droga barbitúrica pentobarbital (véase Lelas, Spealman, y Rowlett, 2000, para una revisión
de las sustituciones de tales drogas). Estos resultados sugieren que el diazepam y el
pentobarbital producen efectos subjetivos parecidos, lo cual es esperable dado que ambas
drogas actúan en receptores del mismo neurotransmisor (i.e., GABA). Los estudios de
discriminación de las drogas pueden ser herramientas útiles cuando nuevas drogas con
acciones desconocidas en los receptores se sustituyen con drogas con efectos sinápticos
conocidos.
Los procedimientos de discriminación son usualmente utilizados para enseñar
nuevas conductas en situaciones aplicadas. Cuando los individuos tienen dificultades
discriminando entre el ED y el E∆, una técnica llamada “desvanecimiento estimular” puede
ayudar. En el desvanecimiento estimular, las diferencias entre el ED y el E∆ son exageradas
al comienzo del entrenamiento para facilitar la discriminación exitosa. A medida que el
aprendizaje progresa, las diferencias exageradas son reducidas o desvanecidas. Un estudio
reciente usó desvanecimiento estimular para enseñar a dos niños con autismo a escalar
rocas en un gimnasio (Kaplan-Reimer, Sidener, Reeve, y Sidener, 2011). En este estudio, la
muralla para escalar contenía varias rutas que variaban en dificultad y fueron marcadas por
pequeñas piezas de cinta extendida desde cada roca sintética (llamada “soporte”). Una cinta
azul servía como ED e indicaba una ruta exitosa. Cualquier otro color de cinta era el E∆. La
tarea de discriminación era muy difícil para los niños por lo que los investigadores la
hicieron más fácil al enmarcar cada soporte con un cuadrado coloreado de cartón. Este
marco hizo el color más saliente que una simple cinta, y con este color de los soportes,
ambos niños aprendieron a trepar sin problemas. En fases subsecuentes del estudio, los
marcos se fueron desvaneciendo al hacerlos cada vez más pequeños y la cinta fue removida.
De manera importante, la conducta de escalar rocas de ambos niños se generalizó a otras
situaciones. Las pruebas indicaron que podían seguir nuevas rutas de colores, podían trepar
en ambientes ruidosos y que ya no necesitaban reforzadores verbales o comestibles para
elegir el soporte adecuado.

20
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

Stokes y Baer (1977) identificaron tácticas para aumentar la generalización desde un


contexto de aprendizaje a una situación del mundo real. La más confiable de estas tácticas
involucra tomar ventaja de contingencias naturales, que pueden lograrse a través del
“encapsulamiento” (p. 353). Encapsular involucra cambiar temporalmente las contingencias
naturales de modo que la conducta deseada produzca un reforzamiento de un maestro o
experimentador. Cuando la conducta de interés ocurre con mayor frecuencia, los
reforzadores naturales debieran ser suficientes para mantener la conducta en el ambiente
natural de la persona. Por ejemplo, si la conducta de interés es un incremento en las
interacciones sociales con pares, el experimentador puede incrementar la tasa de
reforzadores sociales para comenzar interacciones sociales a través de un cómplice.
Posteriormente, las contingencias naturales presentes en la interacción social humana
deberían mantener esta conducta. En el ejemplo de trepar rocas de arriba, los padres
reportaron que ambos niños pidieron ir a escalar fuera del experimento. Esto sugiere que
escalar rocas pasó a ser controlado por reforzadores naturales.

Encadenamiento y reforzamiento condicionado


Cuando una tarea consiste en una secuencia de conductas (una cadena conductual),
las conductas pueden aprenderse mejor usando un procedimiento paso a paso en vez de uno
de todo a la vez. Durante el encadenamiento, una serie de conductas secuenciales es
enseñada una a una. En el ​encadenamiento hacia adelante​, un sujeto o participante aprende
primero el primer paso de una secuencia, y los pasos siguientes se agregan luego en orden.
Por ejemplo, en una tarea consistente en cuatro conductas A, B, C y D, usar
encadenamiento hacia adelante consistiría en “enseñar A, luego AB, luego ABC y luego
ABCD” (Walls, Zane, y Ellis, 1981, p. 62). En el ​encadenamiento hacia atrás​, la conducta
final en una secuencia se enseña primero antes de agregar conductas hacia el inicio de la
cadena (i.e., “se enseña D, CD, BCD y por último ABCD”; Walls et al., p. 63). Una cadena
conductual (una cadena de respuestas) es similar a un programa encadenado en que se le
presenta a un organismo sucesivamente dos o más programas de reforzamiento, cada uno
correlacionado con un estímulo discriminativo diferente (una cadena de programas; Ferster
y Skinner, 1957). Solo el programa final de la cadena produce el reforzamiento primario.
Tanto en un programa de encadenamiento como en una cadena conductual, el
reforzamiento primario puede estar bastante alejado de la ejecución del eslabón inicial. Los
reforzadores condicionados (i.e., estímulos que adquieren propiedades reforzantes por su
asociación con reforzadores primarios; véase Bell y McDevitt en este volumen) pueden, por
lo tanto, tener un rol importante en la ejecución de la tarea. Cuando el primer eslabón de la
cadena es completado, los estímulos que acompañan al segundo eslabón pueden servir
como reforzadores condicionados para completar la primera conducta. Esos mismos
estímulos pueden servir además como estímulos discriminativos que señalizan una
oportunidad para obtener otro reforzador condicionado tras completar la siguiente conducta
en la cadena. De esta manera, el reforzamiento condicionado y el control de estímulos

21
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

conducen al sujeto a través de todos los eslabones de la cadena hasta que la ejecución de la
conducta final produce un reforzamiento primario.
Tanto el encadenamiento hacia adelante como hacia atrás pueden resultar en un
desempeño superior, en comparación al aprendizaje de todos los pasos de una vez. Por
ejemplo, Walls et al. (1981) enseñaron a adultos con trastornos del desarrollo a armar un
carburador, un freno de bicicleta, y una moledora de carne. Cuando a los participantes se les
enseñaba a armar estos objetos usando el método de la tarea completa, su proporción de
respuestas incorrectas fue más del doble, en comparación a cuando aprendieron la tarea con
un encadenamiento hacia adelante o hacia atrás (Walls et al., 1981).
El encadenamiento también es efectivo con sujetos no humanos. Por ejemplo,
Pisacreta (1982), entrenó palomas para ejecutar una secuencia de cuatro picoteos en unas
teclas usando encadenamiento hacia adelante o hacia atrás. Los sujetos entrenados mediante
encadenamiento hacia atrás tuvieron la mayor cantidad de errores en el eslabón inicial de la
cadena, mientras los sujetos entrenados con encadenamiento hacia adelante tendieron a
cometer errores en el eslabón final. La proporción general de picoteos incorrectos fue, sin
embargo, similar en ambos grupos.

Comparando el encadenamiento hacia adelante y el encadenamiento hacia atrás


No está claro si el encadenamiento hacia adelante o el encadenamiento hacia atrás
produce mejor aprendizaje. Por ejemplo, Spooner y Spooner (1984) revisaron estudios en
los que se enseñaba a personas con trastornos del desarrollo a ejecutar tareas usando el
encadenamiento hacia adelante o hacia atrás. Cual técnica generó el mejor desempeño
varió, sin ventajas consistentes al usar un método sobre otro a lo largo de los estudios. Más
recientemente, Slocum y Tiger (2011) compararon el encadenamiento hacia adelante y
hacia atrás en la enseñanza de una secuencia de movimientos corporales simples (e.g.,
aplaudir, tocarse la cabeza) a un grupo de niños con problemas de aprendizaje. Los
resultados, nuevamente, no mostraron ventajas para alguna de las técnicas, y tampoco hubo
evidencia de que individuos particulares aprendieran consistentemente mejor o prefirieran
un tipo de encadenamiento sobre el otro.
Si bien los resultados comparando la eficacia general del encadenamiento hacia
adelante versus hacia atrás han sido mixtos, cada procedimiento puede poseer algunas
ventajas específicas. Weiss (1978) señaló que cuando se aprende algo con encadenamiento
hacia adelante y no hacia atrás, el término exitoso de cada paso produce un reforzador
primario en algún momento del entrenamiento. Tal reforzamiento primario inmediato puede
producir mejor aprendizaje. De hecho, Weiss reportó menos errores cometidos por
estudiantes universitarios que habían aprendido a presionar unas teclas en secuencia con el
encadenamiento hacia adelante en vez de usar el encadenamiento hacia atrás.
Otros investigadores han identificado potenciales ventajas en el encadenamiento
hacia atrás. Por ejemplo, el encadenamiento hacia atrás posibilita que los individuos se
concentren en nuevos eslabones antes de tener que ejecutar los eslabones aprendidos más

22
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

recientemente. Rushall y Ford (1982), argumentaron que el requisito del encadenamiento


hacia adelante de que los participantes deban ejecutar conductas relativamente desconocidas
antes de intentar una conducta completamente nueva puede interferir con el aprendizaje de
nuevos pasos en la cadena. Ellos abogaron por el uso del encadenamiento hacia atrás para el
entrenamiento de varios aspectos deportivos, incluyendo el mover un palo de golf, y taclear
o derribar al oponente en el fútbol o en la lucha libre.
Un ejemplo de la eficacia del encadenamiento hacia atrás para el entrenamiento del
golf fue ilustrado por Simek y O’Brien (1981), quienes lo compararon con una instrucción
tradicional en dos experimentos con golfistas novatos. Ambos métodos incluyeron
demostraciones e instrucciones verbales. Sin embargo, la instrucción tradicional comenzó
en la salida y fue avanzando hacia el agujero, mientras que la enseñanza en el
encadenamiento hacia atrás comenzó a 15 centímetros del agujero y progresó hacia atrás.
Los participantes en el grupo con el encadenamiento hacia atrás dominaron primero el
golpear con el ​putter a​ ntes de avanzar a golpes cortos en el ​green,​ luego los tiros de
acercamiento, luego los tiros largos, y finalmente la selección del palo de golf. Luego de
ocho sesiones de entrenamiento, los participantes de ambos grupos jugaron una ronda de 18
hoyos. El encadenamiento hacia atrás mostró ser un procedimiento de entrenamiento
superior para el golf; los participantes entrenados con encadenamiento hacia atrás superaron
a los de instrucción tradicional en promedio por 17 golpes.

Aprendizaje social
Imitación/aprendizaje E-R
Mucho de lo que los humanos aprenden viene de la observación de otros en vez de
la exposición directa a contingencias de reforzamiento. Una forma de aprendizaje
observacional es la imitación, que ocurre cuando la conducta de un sujeto se aproxima a las
acciones de un modelo. El concepto de imitación se reserva generalmente para conductas
dirigidas a meta en las cuales las asociaciones conducta-consecuencia se adquieren por
observación. Otro término, facilitación social, describe la conducta más simple o refleja,
tales como bostezar o aplaudir. Cuando la observación de una conducta reforzada aumenta
la probabilidad de que un observador ejecute la conducta, el procedimiento se denomina
usualmente reforzamiento vicario.
En un estudio de imitación, niños de tres años observaron a un modelo usar una
herramienta para sacar un juguete de un tubo (condición experimental) u observaron a un
modelo empujar la herramienta a través del aire sobre el tubo sin insertarla (condición
control). Los niños en la condición experimental fueron más exitosos en usar la herramienta
para sacar el juguete del tubo que aquellos de la condición de control (Horner y Whiten,
2007; Want y Harris, 2001). Algunos niños incluso se beneficiaron de observar qué no
había que hacer (castigo vicario). Es decir, aquellos que observaron un modelo demostrar
tanto el método correcto como el incorrecto para insertar la herramienta en el tubo

23
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

superaron a los niños que solo vieron el método correcto, al menos cuando la tarea no era
demasiado difícil.

Figura 8.6 ​Porcentajes del reforzamiento diferencial de otra conducta, RDC, y un retorno al
reforzamiento en un sujeto. La línea continua indica conductas imitativas que produjeron (o
previnieron, durante el RDC) el reforzamiento. La línea punteada representa la conducta imitativa sin
consecuencias. Extraído de “The development of imitation by reinforcing behavioral similarity to a
model”, por D. Baer, R. Peterson y J. Sherman (1967), ​Journal of the Experimental Analysis of
Behavior​, 10, p. 413. Derechos de autor (1967) de la Society for the Experimental Analysis of
Behavior, Inc. Reimpreso con permiso.

Nota del traductor. ​La Figura 8.6 es un gráfico de líneas que describe las respuestas entregadas por
el sujeto número 3 del estudio de Baer et al. (1967). El eje vertical describe el porcentaje de
demostraciones imitadas por el sujeto, por lo que inicia en cero en la parte inferior, y termina arriba
en 100. El eje horizontal describe las sesiones de entrenamiento desde la sesión 15 hasta la 38. Las
sesiones de la 27 a la 32 incluyeron reforzamiento diferencial de otra conducta (RDC). La línea
continua describe las respuestas de imitación que fueron reforzadas, mientras que la línea punteada
muestra las respuestas de imitación no reforzadas. En la sesión 15 la línea punteada parte en 50%,
sube a 90% en la sesión 18, y se mantiene en ese nivel con variaciones menores hasta la sesión 27. La
línea continua muestra un patrón similar, aunque comienza en 70%. Luego de la sesión 27, se inicia
el entrenamiento de reforzamiento diferencial de otra conducta, lo que causa que ambas líneas bajen.
La línea continua baja desde aproximadamente 70% a 40%, mientras que la línea punteada tiene una
baja desde aproximadamente 30% a 10%. Cuando termina el reforzamiento diferencial, en la sesión
32, los porcentajes se recuperan para ambas líneas. La línea continua (que indica conductas
reforzadas) vuelve a niveles similares a los de las sesiones iniciales, mientras que la línea punteada
(que indica las imitaciones no reforzadas) inicia en 10%, sube a 70% en una sesión, baja a 40% en la
siguiente sesión, y luego vuelve a subir al nivel anterior.

A veces los niños imitan en ausencia de un reforzador obvio. Baer y colegas (Baer,
Peterson, y Sherman, 1967) expusieron tres niños con trastornos del desarrollo sin
habilidades imitativas a demostraciones de muchas acciones y vocalizaciones. La imitación
de varias de estas conductas (e.g., “apuntar un arma y decir Bang’”, y “caminar y sostener
un libro en la cabeza”) producía el reforzamiento de comida. La línea continua en la Figura

24
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

8.6 muestra el porcentaje de las conductas imitativas reforzadas emitidas por un niño a lo
largo de las sesiones. Otras conductas, sin embargo, (e.g., “clavarse un cuchillo de goma”, y
“colocar un sombrero sobre el caballo de juguete”) fueron modeladas, aunque nunca fueron
reforzadas. La imitación de estas acciones no reforzadas se muestra en la línea punteada en
la Figura 8.6.
A continuación, se implementó una fase de reforzamiento diferencial de otra
conducta (RDC) en la cual las acciones previamente reforzadas luego previnieron el
refuerzo. Las acciones no reforzadas anteriormente siguieron sin tener efecto. Durante esta
fase los niños cesaron de imitar ambos tipos de acciones. Finalmente, la contingencia inicial
fue restablecida, y los niños volvieron a imitar todas las acciones del modelo. Baer et al.
(1967) explicaron la imitación de conductas no reforzadas argumentando que una vez que
los niños tenían experiencia con el reforzamiento positivo por copiar la conducta de un
modelo, el mismo acto de imitar exitosamente se puede volver un reforzador condicionado.

Neuronas espejo contribuyen a la imitación


Varios estudios muestran un rol importante de las neuronas espejo en la imitación.
Las neuronas espejo son neuronas que disparan cuando uno ejecuta y observa una acción
particular. Por ejemplo, Buccino et al. (2004), encontraron que observar a un modelo tocar
acordes en el puente de una guitarra activó en mayor extensión áreas del cerebro conocidas
por tener neuronas espejo, si los participantes intentaban imitar la acción ellos mismos en
vez de simplemente observarla. Además, inhibir la actividad de las neuronas espejo
disminuye la capacidad de imitar. Cuando se usó estimulación magnética transcraneal para
inhibir la sección posterior del área de Broca (que se piensa contiene neuronas espejo), los
participantes fallaron en repetir el movimiento de los dedos del modelo en un teclado, pero
no en presionar las teclas indicadas por un punto rojo (Heiser, Iacoboni, Maeda, Marcus, y
Mazziotta, 2003).
Es bien conocido que los individuos afectados por desórdenes del espectro autista
son pobres imitadores (e.g., Hobson y Lee, 1999). Debido a la relación entre neuronas
espejo e imitación, algunos investigadores han sugerido un rol para la disfunción de
neuronas espejo en desórdenes del espectro autista (e.g., Rizzolatti y Fabbri-Destro, 2010).
Se ha documentado algo de apoyo para esta “hipótesis de las neuronas espejo del autismo”.
Por ejemplo, niños con autismo exhibieron mucha menos activación de las neuronas espejo
que niños con un desarrollo normal cuando observaron e imitaron expresiones faciales. El
nivel de activación estuvo correlacionado negativamente con la severidad del autismo
(Dapretto et al., 2006).
Aunque la imitación en general, y específicamente la imitación de expresiones
faciales, es frecuentemente difícil para niños con autismo, ellos pueden aprender a imitar
muestras de emoción con refuerzo positivo. Por ejemplo, DeQunzio, Townsend, Sturmey, y
Poulson (2007) usaron fichas (que podían intercambiarse por bocadillos) para reforzar la
imitación de sonreír, fruncir el ceño, y mostrar sorpresa en tres niños con autismo. Los tres

25
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

niños aumentaron de manera dramática su imitación de expresiones faciales. Para dos de los
tres niños, la imitación se generalizó a una expresión facial que no había sido reforzada.
Este resultado es similar al reportado por Baer et al., (1967) en la Figura 8.6.
Otra prometedora intervención para niños con autismo implica entrenar la imitación
de gestos con las manos y manipulación de objetos. Los niños que recibieron Entrenamiento
de Imitación Recíproca (una técnica que incluye modelamiento, reforzamiento por imitar y
también imitación por el modelo de los actos de los niños) durante 10 semanas incrementó
tanto la imitación “elicitada” (i.e., pedida verbalmente) como la “espontánea” (i.e., ocurrida
tras instrucciones específicas) en comparación a un grupo de control aleatorio (Ingersoll,
2010).
Finalmente, se ha usado recientemente la observación e imitación de acciones
manuales para complementar la terapia física tradicional tras un derrame cerebral. Ertelt et
al., (2007), expusieron a participantes que sufrían de la disfunción de la movilidad de los
miembros superiores a videos diarios de movimientos comunes de las manos, tales como
abrir o cerrar una llave de agua, antes de que los participantes practicaran la acción por sí
mismos. Estos participantes mejoraron significativamente más, en comparación a un grupo
control que practicó las mismas acciones, pero no vieron los videos de estas acciones
previamente. Ertelt y sus colegas atribuyeron esta mejora a la activación de neuronas espejo
implicadas en la representación y ejecución de las acciones observadas.

Conclusión
El condicionamiento operante comenzó como una ciencia básica para descubrir los
principios conductuales fundamentales de los animales no humanos (e.g., Skinner, 1938). A
medida que los descubrimientos se acumulaban y principios clave, como el reforzamiento y
el castigo, eran identificados, estos fueron aplicados sistemáticamente a mejorar conductas
de importancia social (e.g., Baer et al., 1968). Debido a la generalidad de los principios
operantes, están ahora siendo aplicados en una amplia variedad de áreas, incluyendo el
entrenamiento de animales (e.g., Pryor y Ramírez, en este volumen), el tratamiento del
autismo (T. Thompson, en este volumen), crianza (Miltenberg y Crossland, en este
volumen), educación (Twyman, en este volumen), y la conducta organizacional (Abernathy
y Lattal, en este volumen), por nombrar algunos. Una potente área ha surgido del
descubrimiento de unos pocos principios simples. En un tributo adecuado al número e
importancia de estos desarrollos, B. F. Skinner fue identificado como el psicólogo más
influyente del siglo 20 (Hagbloom et al., 2002).

26
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

Notas
1. Traducir un concepto de laboratorio a un ejemplo del mundo real es siempre un riesgo. Por ello,
sugerimos precaución al lector al interpretar nuestros ejemplos. Un análisis más detallado puede
mostrar que muchos de ellos están equivocados.
2. Reforzadores negativos, castigos positivos y castigos negativos también pueden ser entregados de
acuerdo con un programa. Debido a limitaciones de espacio describiremos solamente programas de
reforzamiento positivo.
3. Hay varios otros programas simples de reforzamiento usados para investigar el condicionamiento
operante. Por ejemplo, comúnmente se usan también en investigación básica y aplicada el
reforzamiento diferencial de tasa baja de respuestas, el reforzamiento diferencial de alta tasa de
respuestas, el reforzamiento diferencial de otra conducta, el reforzamiento diferencial de una
conducta alternativa, el reforzamiento diferencial de una conducta incompatible, y programas de
intervalo fijo y variable. Lamentablemente no tenemos el espacio para cubrirlos aquí. El lector
interesado puede ver Lattal (1991) para más detalles acerca de programas de reforzamiento simples y
complejos.

Referencias
Abernathy, W. B., y Lattal, D. (2014). Organizational behavior management: Past, present,
and future. In F. K. McSweeney y E. S. Murphy (Eds.), ​Wiley-Blackwell handbook
of operant and classical conditioning (​ pp. 645–668). Oxford: Wiley-Blackwell.

Alessandri, S. M., Sullivan, M. W., y Lewis, M. (1990). Violation of expectancy and


frustration in early infancy. ​Developmental Psychology, 26, ​738–744.

Antonitis, J. J. (1951). Response variability in the white rat during conditioning,


extinction, and re-conditioning. ​Journal of Experimental Psychology, 42, ​273–281.

Athens, E. S., Vollmer, T. R., y St. Peter Pipkin, C. C. (2007). Shaping academic task
engagement with percentile schedules. ​Journal of Applied Behavior Analysis, 40,
475–488.

Ayllon, T., y Michael, J. (1959). The psychiatric nurse as a behavioral engineer. ​Journal of
the Experimental Analysis of Behavior, 2, 3​ 23–334.

Baer, D., Peterson, R., y Sherman, J. (1967). The development of imitation by reinforcing
behavioral similarity to a model. ​Journal of the Experimental Analysis of Behavior,
10, ​405–416.

Baer, D. M., Wolf, M. M., y Risley, T. R. (1968). Some current dimensions of applied
behavior analysis. ​Journal of Applied Behavior Analysis, 1,​ 91–97.

27
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

Barnes, D., y Keenan, M. (1993). Concurrent activities and instructed human


fixed-interval performance. ​Journal of the Experimental Analysis of Behavior, 59,​
501–520.

Baum, W. M. (1974). On two types of deviation from the matching law: Bias and
undermatching. ​Journal of the Experimental Analysis of Behavior, 22, 2​ 31–342.

Baum, W. M. (1993). Performances on ratio and interval schedules of reinforcement: Data


and theory. ​Journal of the Experimental Analysis of Behavior, 59, ​245–264.

Bell, M. C., y McDevitt, M. A. (2014). Conditioned reinforcement. In F. K. McSweeney y


E.S. Murphy (Eds.) ​Wiley-Blackwell handbook of operant and classical
conditioning​. (pp. 221–248) Oxford: Wiley-Blackwell.

Bouton, M. E., y Peck, C. A. (1989). Context effects on conditioning, extinction, and


reinstatement in an appetitive conditioning preparation. ​Animal Learning &
Behavior,17​, 188–198.

Buccino, G., Vogt, S., Ritzl, A., Fink, G. R., Zilles, K., Freund, H. J., y Rizzolatti G.
(2004). Neural circuits underlying imitation learning of hand actions: An
event-related fMRI study. ​Neuron, 42(​ 2), 323–334.

Carr, J. E., Severtson, J. M., y Lepper, T. L. (2009). Noncontingent reinforcement is an


empirically supported treatment for problem behavior exhibited by individuals
with developmental disabilities. ​Research in Developmental Disabilities, 30​,
44–57.

Carroll, M. E., Anker, J. J., Mach, J. L., Newman, J. L., y Perry, J. L. (2010). Delay
discounting as a predictor of drug abuse. In G. J. Madden & W. K. Bickel (Eds.),
Impulsivity: ​The behavioral and neurological science of discounting ​(pp.
243–271). Washington, DC: American Psychological Association.

Catania, A. C. (2007). Learning (interim 4th ed.). Cornwall-on-Hudson, NY: Sloan.

Catania, A. C., y Reynolds, G. S. (1968). A quantitative analysis of the responding


maintained by interval schedules of reinforcement. ​Journal of the Experimental
Analysis of Behavior,​ 11, 327–383.

Chiesa, M. (1994). ​Radical behaviorism: The philosophy and the science.​ Boston: Authors
Cooperative.

28
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

Craig, A. R., Nevin, J. A., y Odum, A. L. (2014). Behavioral momentum and resistance to
change. In F. K. McSweeney & E. S. Murphy (Eds.), ​Wiley-Blackwell handbook of
operant and classical conditioning ​(pp. 249–274). Oxford: Wiley-Blackwell.

Dapretto, M., Davies, M. S., Pfeifer, J. H., Scott, A. A., Sigman, M., Bookheimer, S. Y., y
Iacoboni, M. (2006). Understanding emotions in others: Mirror neuron dysfunction
in children with autism spectrum disorders. ​Nature Neuroscience, 9(​ 1), 28–30.

DeQuinzio, J., Townsend, D., Sturmey, P., y Poulson, C. L. (2007). Generalized imitation
of facial models by children with autism. ​Journal of Applied Behavior Analysis,
40​(4), 755–759.

Dews, P. B. (1978). Studies on responding under fixed-interval schedules of


reinforcement: II. The scalloped pattern of the cumulative record. ​Journal of the
Experimental Analysis of Behavior, 290​, 67–75.

Dixon, M. R., Marley, J., y Jacobs, E. A. (2003). Delay discounting by pathological


gamblers. ​Journal of Applied Behavior Analysis, 36​, 449–458.

Donaldson, J. M., y Vollmer, T. R. (2011). An evaluation and comparison of time-out


procedures with and without release contingencies. ​Journal of Applied Behavior
Analysis, 44,​ 693–705.

Dozier, C. L., Iwata, B. A., Thomason-Sassi, J., Worsdell, A. S., y Wilson, D. M. (2012).
A comparison of two pairing procedures to establish praise as a reinforcer. ​Journal
of Applied Behavior Analysis, 45​, 721–735.

Duker, P. C., y van Lent, C. (1991). Inducing variability in communicative gestures used
by severely retarded individuals. ​Journal of Applied Behavior Analysis, 24,​
379–386.

Ertelt, D., Small, S., Solodkin, A., Dettmers, C., McNamara, A., Binkofski, F., y Buccino,
G. (2007). Action observation has a positive impact on rehabilitation of motor
deficits after stroke. ​Neuroimage, 36(​ Suppl 2), T164–T173.Ferster, C. B., y
Skinner, B. F. (1957). ​Schedules of reinforcement.​ New York: Appleton-
Century-Crofts.

Green, L., Myerson, J., y Vanderveldt, A. (2014). Delay and probability discounting. In F.
K. McSweeney & E. S. Murphy (Eds.), ​Wiley-Blackwell handbook of operant and
classical conditioning ​(pp. 307–337). Oxford: Wiley-Blackwell.

29
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

Gross, A. M., y Drabman, R. S. (1981). Behavioral contrast and behavioral therapy.


Behavior Therapy,​ 12, 231–246.

Guttman, N., y Kalish, H. I. (1956). Discriminability and stimulus generalization. ​Journal


of Experimental Psychology, 51​, 79–88.

Hagbloom, S. J., Warnick, R., Warnick, J., Jones, V., Yarbrough, G., Russell, T.,
Brorecky, C., McGahhey, R., Powell, J., Beavers, J., y Monte, E. (2002). The most
eminent psychologists of the twentieth century. ​Review of General Psychology, 6,
139–152.

Hall, R. V., Lund, D., y Jackson, D. (1968). Effects of teacher attention on study behavior.
Journal of Applied Behavior Analysis, 1,​ 1–12.

Hammond, L. (1980). The effect of contingency upon the appetitive conditioning of free
operant behavior. ​Journal of the Experimental Analysis of Behavior, 34,​ 297–304.

Hanson, H. M. (1959). Effects of discrimination training on stimulus generalization.


Journal of Experimental Psychology, 58(​ 5), 321–334.

Heiser, M., Iacoboni, M., Maeda, F., Marcus J., y Mazziotta J. C. (2003). The essential
role of Broca’s area in imitation. ​European Journal of Neuroscience, 17​(5),
1123–1128.

Herrnstein, R. J. (1961). Relative and absolute strength of responses as a function of


frequency of reinforcement. ​Journal of the Experimental Analysis of Behavior, 4,
267–272.

Herrnstein, R. J. (1970). On the law of effect. ​Journal of the Experimental Analysis of


Behavior, ​13, 243–266.

Hineline, P. N. (1977). Negative reinforcement and avoidance. In W. K. Honig & J. E. R.


Staddon (Eds.) ​Handbook of operant behavior (​ pp. 364–414). Englewood Cliffs,
NJ: Prentice.

Hall. Hobson, R., y Lee, A. (1999). Imitation and identification in autism. ​Journal of Child
Psychology and Psychiatry, 40(​ 4), 649–659.

30
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

Horner, V., y Whiten, A. (2007). Learning from others’ mistakes? Limits on understanding
a trap-tube task by young chimpanzees and children. ​Journal of Comparative
Psychology, 121​, 12–21.

Humphreys, L. G. (1939). The effect of random alternation of reinforcement on the


acquisition and extinction of conditioned eyelid reactions. ​Journal of Experimental
Psychology, 25, ​141–158.

Ingersoll, B. (2010). Brief report: Pilot randomized controlled trial of reciprocal imitation
training for teaching elicited and spontaneous imitation to children with autism.
Journal of Autism and Developmental Disorders, 40​(9), 1154–1160.

Innis, N. K., Mitchell, S. K., y Staddon, J. E. R. (1993). Temporal control on interval


schedules: What determines the postreinforcement
pause? Journal of the Experimental Analysis of Behavior, 60,​
293–311.

Johnston, J. M., y Pennypacker, H. S. (2008). ​Strategies and tactics of behavioral research


(3rd ed.). London: Routledge.

Kaplan-Reimer, H., Sidener, T. M., Reeve, K. F., y Sidener, D. W. (2011). Using stimulus
control procedures to teach indoor rock-climbing to children with autism.
Behavioral Interventions, 26​(1), 1–22.

Kazdin, A. E. (2011). ​Single-case research designs: Methods for clinical and applied
settings ​(2nd ed.). New York: Oxford University Press.

Keller, F. S., y Schoenfeld, W. N. (1950). ​Principles of psychology​. New York: Appleton-


Century-Crofts.

Kelley, M. E., Shillingsburg, M. A., Castro, M. J., Addison, L. R., y LaRue Jr., R. H.
(2007). Further evaluation of emerging speech in children with developmental
disabilities: Training verbal behavior. ​Journal of Applied Behavior Analysis, 40,
431–445.

LaRue, R. H., Stewart, V., Piazza, C. C., Volkert, V. M., Patel, M., y Zeleny, J. (2011).
Escape as reinforcement and escape extinction in the treatment of feeding
problems. ​Journal of Applied Behavior Analysis, 44, ​719–735.

31
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

Lattal, K. A. (1991). Scheduling positive reinforcers. In I. H. Iverson & K. A. Lattal


(Eds.), ​Experimental analysis of behavior (​ Vol. 1, pp. 87–134). New York:
Elsevier.

Lee, M. S. H., Yu, C. T., Martin, T. L.,y Martin, G. L. (2010). On the relation between
reinforcer efficacy and preference. ​Journal of Applied Behavior Analysis, 43​, 995–
100.

Lelas, S., Spealman, R. D., y Rowlett, J. K. (2000). Using behavior to elucidate receptor
mechanisms: A review of the discriminative stimulus effects of benzodiazepines.
Experimental and Clinical Psychopharmacology, 8​(3), 294–311.

Lerman, D. C., y Iwata, B.A. (1996). Developing a technology for the use of operant
extinction in clinical settings: An examination of the basic and applied literature.
Journal of Applied Behavior Analysis, 29, 3​ 45–382.

Logue, A. W. (1995). Self-control: Waiting until tomorrow for what you want today.
Englewood Cliffs, NJ: Prentice Hall. Logue, A. W. (2000). Self-control and health
behavior. In W. K. Bickel & R. E. Vuchinich (Eds.), ​Reframing health behavior
change with behavioral economics (​ pp. 167–192).

Mahwah, N.J., y Erlbaum Mazur, J. E. (1982). A molecular approach to ratio schedule


performance. In M. L. Commons, R. J. Herrnstein, & H. Rachlin (Eds.),
Quantitative analyses of behavior (Vol. 2). ​Matching and maximizing accounts.
Cambridge, MA: Ballinger.

Mazur, J. E. (1983). Steady-state performance on fixed-, mixed-, and random-ratio


schedules. ​Journal of the Experimental Analysis of Behavior, 39,​ 293–307.

Mazur, J. E. (1987). An adjusting procedure for studying delayed reinforcement. In M. L.


Commons, J. E. Mazur, J. A. Nevin, & H. Rachlin (Eds.), Quantitative analyses of
behavior: Vol. 5. ​The effect of delay and of intervening events on reinforcement
value ​(pp. 55–73). Hillsdale, NJ: Erlbaum.

Mazur, J. E., y Fantino, E. (2014). Choice. In F. K. McSweeney & E. S. Murphy (Eds.)


Wiley-Blackwell handbook of operant and classical conditioning (​ pp. 195–220).
Oxford: Wiley-Blackwell.

McSweeney, F. K., y Murphy, E. S. (2009). Sensitization and habituation regulate


reinforcer effectiveness. ​Neurobiology of Learning and Memory, 92, 1​ 89–198.

32
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

McSweeney, F. K., y Murphy, E. S. (2014). Characteristics, theories, and implications of


dynamic changes in reinforcer effectiveness. In F. K. McSweeney & E. S. Murphy
(Eds.) ​Wiley-Blackwell handbook of operant and classical conditioning ​(pp. 339–
368). Oxford: Wiley-Blackwell.

McSweeney, F. K., y Weatherly, J. N. (1998). Habituation to the reinforcer may contribute


to multiple-schedule behavioral contrast. ​Journal of the Experimental Analysis of
Behavior, 69, ​199–221.

Michael, J. (1982). Distinguishing between the discriminative and motivational functions


of stimuli. Journal of the Experimental Analysis of Behavior, 37, 149–155.

Michael, J. (1993). Establishing operations. ​The Behavior Analyst, 16, ​191–206.

Miller, L. K. (2006). Principles of everyday behavior analysis (4th ed.). Belmont, CA:
Thomson Wadsworth.

Miltenberger, R. G., y Crosland, K. A. (2014). Parenting. In F. K. McSweeney & E. S.


Murphy (Eds.), ​Wiley-Blackwell handbook of operant and classical conditioning
(pp. 509– 531). Oxford: Wiley-Blackwell.

Mowrer, O. H., y Lamoreaux, R. R. (1946). Fear as an intervening variable in avoidance


conditioning. ​Journal of Comparative and Physiological Psychology, 39​, 29–50.

Nevin, J. A., y Grace, R. C. (2000). Behavioral momentum and the Law of Effect.
Behavioral and Brain Sciences, 23,​ 73–130.

Palmer, D. C. (2014). Verbal behavior. In F. K. McSweeney & E. S. Murphy (Eds.), ​Wiley


Blackwell handbook of operant and classical conditioning (​ pp. 369–391). Oxford:
Wiley-Blackwell.

Pisacreta, R. (1982). A comparison of forward and backward procedures for the


acquisition of response chains in pigeons. ​Bulletin of the Psychonomic Society,
20​(4), 233–236.

Powell, R. W. (1968). The effect of small sequential changes in fixed-ratio size upon the
post reinforcement pause. Journal of the Experimental Analysis of Behavior, 11,
589–593. Pryor, K. (2001). ​Getting started: Clicker training for cats. ​Waltham,
MA: Sunshine Books.

33
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

Pryor, K., y Ramirez, K. (2014). Modern animal training. In F. K. McSweeney & E. S.


Murphy (Eds.), ​Wiley-Blackwell handbook of operant and classical conditioning
(pp. 455– 482). Oxford: Wiley-Blackwell.

Reed, P., y Wright, J. E. (1988). Effects of magnitude of food reinforcement on


free-operant response rates. ​Journal of the Experimental Analysis of Behavior​, 49,
75–85.

Reynolds, G. S. (1961). Behavioral contrast. ​Journal of the Experimental Analysis of


Behavior, 4, ​57–71.

Risley, T. R. (1968). The effects and side effects of punishing the autistic behaviors of a
deviant child​. Journal of Applied Behavior Analysis, 1,​ 21–34.

Rizzolatti, G., y Fabbri-Destro, M. (2010). ​Mirror neurons: From discovery to Autism.


Experimental Brain Research,​ 200(3–4), 223–237.

Rushall, B. S., y Ford, D. (1982). Teaching backwards—an alternate skill instruction


progression. ​CAHPER Journal​, 48(5), 16–20.

Shook, G. L., y Favell, J. E. (2008). The Behavior Analyst Certification Board and the
profession of behavior analysis. ​Behavior Analysis in Practice, 1​(1), 44–48.

Sidman, M. (1953). Two temporal parameters in the maintenance of avoidance behavior of


the white rat. ​Journal of Comparative and Physiological Psychology, 46, 2​ 53–261.

Sidman, M. (1960). Tactic of scientific research​: Evaluating experimental data in


​ ew York: Basic Books.
psychology. N

​ oston, MA: Authors Cooperative.


Sidman, M. (1989). ​Coercion and its fallout. B

Simek, T. C., y O’Brien, R. M. (1981). ​Total golf: A behavioral approach to lowering


​ ew York: Doubleday.
your score and getting more out of your game. N

Skinner, B. F. (1938). ​Behavior of organisms: An experimental analysis.​ New York:


Appleton-Century-Crofts.

Skinner, B. F. (1945). The operational analysis of psychological terms. ​Psychological


Review, 52, ​270–277.

34
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

Skinner, B. F. (1950). Are theories of learning necessary? ​Psychological Review, 57​, 193–
216.

Skinner, B. F. (1951). ​How to teach animals. Scientific American, 185(​ 12), 26–29.
​ ew York: Macmillan.
Skinner, B. F. (1953). ​Science and human behavior. N

​ ew York: Appleton-Century-Crofts. Skinner, B.


Skinner, B. F. (1957). ​Verbal behavior. N
F. (1974). ​About behaviorism​. New York: Knopf.

Skinner, B. F. (1977). Why I am not a cognitive psychologist. ​Behaviorism, 5​, 1–10.

Skinner, B. F. (1987). Whatever happened to psychology as the science of behavior?


American Psychologist, 42, 7​ 80–786.

Skinner, B. F. (1990). Can psychology be a science of mind? ​American Psychologist, 45,


1206–1210.

Slocum, S. K., y Tiger, J. H. (2011). An assessment of the efficiency of and child


preference for forward and backward chaining. ​Journal of Applied Behavior
Analysis, 44(​ 4), 793–805.

Smeets, P. M., Lancioni, G. E., Ball, T. S., y Oliva, D. S. (1985). Shaping self-initiated
toileting in infants. ​Journal of Applied Behavior Analysis, 18,​ 303–308.

Spooner, F., y Spooner, D. (1984). A review of chaining techniques: Implications for


future research and practice. ​Education and Training of the Mentally Retarded,
19​(2), 114–124.

Stokes, T. F., y Baer, D. M. (1977). An implicit technology of generalization. ​Journal of


Applied Behavior Analysis, 10​(2), 349–367.

Tatham, T. A., Wanchisen, B. A., y Hineline, P. N. (1993). Effects of fixed and variable
ratios on human behavioral variability. ​Journal of the Experimental Analysis of
Behavior, 59, ​349–359.

Thompson, R. F. (2014). Habituation revisited. In F. K. McSweeney & E. S. Murphy


(Eds.), ​Wiley-Blackwell handbook of operant and classical conditioning ​(pp.
79–94). Oxford: Wiley-Blackwell.

35
UNIVERSIDAD DE CHILE
DEPARTAMENTO DE PSICOLOGÍA
USO EXCLUSIVO DE LA CÁTEDRA
Procesos Básicos de Aprendizaje

Thompson, T. (2014). Autism and behavior analysis: History and current status. In F. K.
McSweeney & E. S. Murphy (Eds.), ​Wiley-Blackwell handbook of operant and
classical conditioning ​(pp. 483–508). Oxford: Wiley-Blackwell.

Troisi, J., LeMay, B. J., y Järbe, T. C. (2010). Transfer of the discriminative stimulus
effects of Δ9-THC and nicotine from one operant response to another in rats.
Psychopharmacology, 212​(2), 171–179.

Twyman, J. (2014). Behavior analysis in education. In F. K. McSweeney & E. S. Murphy


(Eds.), ​Wiley-Blackwell handbook of operant and classical conditioning ​(pp. 553–
558). Oxford: Wiley-Blackwell.

Van Houten, R., y Rudolph, R. (1972). The development of stimulus control with and
without a lighted key. ​Journal of the Experimental Analysis of Behavior, 18(​ 2),
217– 222.

Vurbic, D., y Bouton, M.E. (2014). A contemporary behavioral perspective on extinction.


In F. K. McSweeney & E. S. Murphy (Eds.) ​Wiley-Blackwell handbook of operant
and classical conditioning ​(pp. 53–76). Oxford: Wiley-Blackwell.

Walls, R. T., Zane, T., y Ellis, W. D. (1981). Forward and backward chaining, and whole
task methods: Training assembly tasks in vocational rehabilitation. ​Behavior
Modification, 5(​ 1), 61–74.

Want, S. C., y Harris, P. L. (2001). Learning from other people’s mistakes: Causal
understanding in learning to use a tool. ​Child Development, 72​(2), 431–443.

Watanabe, S., Sakamoto, J., y Wakita, M. (1995). Pigeons’ discrimination of painting by


Monet and Picasso. ​Journal of the Experimental Analysis of Behavior, 63​(2), 165–
174.

Weiss, K. M. (1978). A comparison of forward and backward procedures for the


acquisition of response chains in humans. ​Journal of the Experimental Analysis of
Behavior, 29​(2), 255–259.

Wolf, M. M., Risley, T. R., y Mees, H. (1964). Application of operant conditioning


procedures to the behaviour problems of an autistic child. ​Behaviour Research and
Therapy, 1, ​305-312.

36

También podría gustarte