Está en la página 1de 79

Discos experimentales

y cuasiexpcrimcntalcs
en la investigacin social

Disenos experimentales
y cuasiexperimentales
en la investigaci{>n social

Donald T. Campbcll

J ulian

( :. Stanlcy

Amorrortu editores
Buenos Aires

, 1' . . .
l i "' ' 1 ' :!.J
~-

.:!

~l

Director de la hibliotec1 de sociologa, 1.uis A. Rigal


/.'xjJerilllm/({1 r111rl (ll({.li-l.'x'jil'rimm!ol /)I'S,i!JIS jor Resmrrh, Don~tld
T. Camplwll y Juli;ln C. Stanlcy
O lbnd McNally S Company, l<)(j(j
l'rinwr;1 <dici{n ('ll ingll-.s, 1<)()(); sexta rcirnpnsi<'nt, 1970
l'rinHTa ('(licin ('11 castellano, 1!l7:\; primera reimpresin,
1!l71; segunda tTitnpresin, 1<l7S; tncer;1 reimprcsin, 19S~;
Cllart;l 1Tin1pre.sin, ]<)SS; quiiiLI reilll[lresi<'ln, 1!)!)1; sexta ninlpre.siII, l<)<J:\; s(ptilna ni1npresi<.lll, l!l!l!
Tr;ld11ccin, IVLturicio Kitaigorodzki
Re\'isin, Jo.s( ( :. Onics (' lb;1rs
lltlicl cdicitHI ('11 castellano atttori/;ld<l por lmd McN({/ly &
(.'ollljmlll', Clticago, y debidamente protcgid;1 ('ll todos los pases. QuelLt !tecito el depsito que previene la ley n" 11.7~::1.
(t) Todos los der('( hos de b edicin c1stdLma reservados por
Amotrorlu editores, S. A., Paraguay 1~~!\ 7" piso, Buenos Aires.
1.a reprod1tccin total o parcial de este libro <'ti f(mn;l i<kntic;l
o 1nodificada por cualquier medio mecnico o ekctrtHJico, incluyendo ftocopia, grabacin o cualquier sistema de alm;lcell<lllliento y nTUJl<T<tci{n de inlrmacin, no ;lutorizad; por los
editores, viob derechos rcseiYados. Cualquier utilizaci{m debe
s<T previanHnte solicitad;\.

Nota preliminar

Este trabajo apareci originalmente en el libro compilado por


N. L. Gagc, Handbook of rcsearcb on teachin[!, ( Chicago:
Rand McNally Co., 1963), con un ttulo algo distinto: Diseos experimentales y cuasiexperimenta1es en la investigacin
educacional. Por esa razn, las primeras pginas y gran parte
de los ejemplos ofrecidos versan sobre la investigacin en el
campo educativo. No obstante, si se examina la lista de referencias bibliogrficas al final de la obra, se observar que
el estudio que aqu presentamos extrae sus datos de todas las
ciencias sociales, siendo por tanto de aplicacin general sus
recomendaciones metodolgicas.
Donald T. Campbell
Julian C. Stanley

Industr<I <1rge11lina. Made in Argentina.

Impreso en los Talleres Cr:lficos Color Efe, Paso 192, Avellane<la, proncia ele Buenos Aires, en junio de 1()l)!J.
Tirada de esta edicin:

~.000

ejemplares.

l. Introduccin

Examinaremos en esta obra 1 la v;llicle;,: de diecisis diseios


experimentales respecto de dllCC amenazas corrientes rr la inferencia vlid,1. Pot experimento entendemos
pal'te
de la investigacin en la cnal se manipulan ciertas variables y
se observan sus efectos sobre otras. C<'lWcne aclarar que el
propsito particular de este libto no es estudiar el diseo cxperimen tal dentro
la tradicin
Fishcr 119 25, 19 3 5 l,
donde el experimentador, con pleno dominio de la sittucin,
prognuna tratamientos y mediciones a fin de lograr la mejor
eficiencia estadstica, nico objetivo al que obeckce la mayor o
menor complejidad
disefo. Los diseos aqu analizados
son tlnto ms complejos cuanto mayor es la inflexibilidad del
ambiente; es decir, en h medida en que el experimentador
carece de control absoluto sobre la situacin. Aunque hay
no pocos puntos de contacto entre nuestro tratamiento y el
de la corriente de Fisher, juzgamos apropL1do
la exposicin de esta ltima pta obras de mayor envergadura,
corno las
Brownlee [1960], Cox [ 19 58], Edwards [ 1960],
Ferguson [1959], Johnson [1949], Johnson y Jackson
[1959], Lindquist [195 3], McNemar [ 1962]
Winer
f 1962] (Tambin puede consultarse Stanley,
)

La preparacin de esta obra, en la que colaboraron Keith N. Clayton


Paul C. Rosenblatt, cont con el auspicio del Proyecto Psicologade la Northwestern Univcrsity, bajo el patrocinio de lB
'--"-"'"""' Corr;mation.

ma

us

entes

!!JfcCall como

W /\. 1\1cCall
m
(

to

comenzaremos, pues,
Deca McCall en su
Y
que exponen el
cxpcrlmentalcs, pero muy pocos acerca
cmo obtener datos
<lclccuados y co_rrectos a los cuales
aplicar el
mtento cstadfsttco.
enunciado contina siendo
tan
cclto <.me
pu~de servirnos de leitmotiv. Aunque Ja
inf:lucncia de 11' co r nen.e

reme d la situacin en
aspectos fundamentales, su efecto ms
ha~e1 sidn c1 de afinar y perfeccionar el anlisis estr.,. ". :nas que el
ayudar a conseguir datos adecuados y

gulados por azar. As como se puede lograr la representativdad por el mtodo aleatorio ( ... ) tambin se puede
conseguir la equV<llencia por el mismo medio, siempre que
el nmero de sujetos que havan de utilizarse sea lo suficientemente grande,> ( P<g. 41). Tambin en otro punto se anticip a Pishcr: la introduccin del diseo del cuadrado latino
con el
de e:qx:rimcnto rotatorio, que por otra parte
habLm utilizado ya Thorndike, McCnll y Chapman [1916],
tanto en forma:; 5 >; 5 como 2 X 2, unos 10 aos antes de
que Fisher [ l 926] lo incorporase de modo sistemtico a su
esquema de dise1o exp;rmental con aleatorizacin."
La forma en que McClil utiliz, el ,<C.'Xpcrimento rotatorim>
ilustra muv bien el nfasis t<lnto de su obra como de la pre~cntc. El experimento rotatorio !;e introduce, no por razones
de cficienci,l, sino nis bien para logr,r algn control cuando
no es posible la a-;ign;lCn aleatoria
grupos equivalentes.
Con una intencin similar examinaremos aqu las imperfecciones de mucho~ programas experimentales, abogando no
obstante por su aplicacin en aquellas configuraciones en que
no hav<l modo de recurrir a mejores diseos experimentales.
En este sentido, b mayor pHrtc de los diseos analizados, incluso el <<experimento rotatorio no aleatorizado, se denominan disco<; cuasexpcrmentales.

~Otrec.OSt>.

por su orie~lta:-in prctica y sentido comn, v porque


no pretende consttt~llr un aporte capital, el libro d~ McC.lll
representa un . ;=lstco insuficientemente valorado todava.
aparcc1o: dos aos antes de la primera edicin de
.
n;ethods for research workers (Mtodos estadsticos
para mvesu_;ad?rcs), de Fisher [ 1925], no haba nada comparable cwtlrt?ttVll1lcnte a l en el mbito de la arrricultura ni
en el
la psicologa. Se anticip en varios punto~ fundamentales }1 ~as metodologas ortodoxas de esas dos ciencias. Acaso
la
de. las

:!"o a
mas tmportantc
f
" contribuc1'or1es
"
nava s!t
le ca . ot?;urlar la Igualacin preexpermental de gru;os por
aleatortzGcwn.
Esta .idea, )~ el consecuente rechazo de Ja tentativa de lleaar
a tallgua.la~tn por equiparacin (pese a su intuitiva atraccln
Y. potenc1ah~ad d~ error), no mereci Lcilmente la aprobacw,n de los }nvestJgador~s del ~mbto educacional. En 1923,
~c~all habla comprendtdo cuales eran Jos elementos cua. 1tat1vos fundamentales del problema. Dio, como primer mtodo para establecer grupos comparables, el de los grupos
10

La desilusin provocada por los experimentos llevados a cabo


en el campo de la educacin

En esta obra nos declaramos partidarios del mtodo experimental como nico medio de zanj,u las disputas relativas a
la prctica educacional, nica forma de verificar adelantos en
el campo pedaggico y nico mtodo para acumular un saber
al cual puedan introducrsclc mejoras sin correr el peligro de
que se descarten caprichosamente los conocimientos ya adquiridos a cambio de novedades de inferior calidad. Sin embargo,
con nuestra enrgica defensa de la experimentacin no pretendemos significar que este nfasis sea nuevo. Como lo manifiesta la existencia misma del libro de McCall, en tiempos
de Thorndike una ola de entusiasmo experimental recorra el
mbito de la educacin, alcanzando quiz su punto culminante
2 Kendall y Buckland [1957] afirman que el cuadrado latino fue in
ventado por el mattmtico Euler en 1782. Thorndike, Chapman y
~lcCall no utilizan esta expresin.

11

en la dcada del veinte. Aquel entusiasmo se convirti des


pus en apatfa y rechazo, as como en la adopcin de nuev~1s
doctrinas psicolgicas no smccptibles de verificacin experimental. Good Senes [ 1
71f-21 l han documcnudo un
general,
se retrotrae quiz:1s a 1935,
y citan incluso n Monroc [ 1
], aquel decidido defensor de
la experimentacin controlada nos han dcsilusion<1dO. Cabe
destacar, adDn~s, qnc el trcnsito de In experimentacin a la
rcdacdcn de ensayos, acompa1ado a menudo por una conversin de! conductismo tipo Thorndike a b psicologa de la
gucst<dt o al psicoan~lisis, se
etJ percon una
en la tradicitn
sonas que con
experimental.
Pc1ra cvirar que se repita este
debemos conocer
los
de la reaccin flnteriur, procnrando sortear las
que condujeron a ella. 1\:lcrceen destacarse
asignar a los resulta
varios aspectos. Ante todo, se
1n experimentacin un
ritmo y grado exagerado
dos
progreso, a! par que se menospreciaba injustificadamente el
conocimiento no experimental. Los primeros defensores
sieron que el progreso en la tecnologa pedaggica haba
lento solo porque no se haba aplcado a ella el sistema cientfico: crean que la prctica tradicional era ineficaz solo porno h<1ha sido fruto de la experimentacin. Cuando se
que los experimentos eran a menudo tediosos, equvocos, de re terahilidad insegura y ratficadores, por lo comn,
ele conocimientos precientficos, los fundamentos excesivamente optimistas con qu.e se haba querido justificar la experimentncin quedaron minados por la base, y al primitivo entusiasmo sucedi el desilusionado abandono.
Aquella sensacin era compartida tanto por los observadores
involucrados. Entre los experimentacomo por los
dores se adverta una innegable aversin hacia la experimentacin. Para el investigador normal muv motivado el
una de las hiptesis que su;tent no sea cor;firhecho de
por
doloroso. Como animal boloico v
mada
psicolgico, est sujeto a leyes de aprendizaje que lo co1~duce~
inevitablemente a asociar este dolor con los estmulos y acontecimientos inmediatos. No es extrao, pues, que tales est
mulos estn constituidos por el mismo proceso experimental
de modo ms vvido y directo que la verdadera fuente de la
frustracin, a saber: la inadecuada teora. Una situacin tal
puede inducir, inconscientemente quizs, a evitar o rechazar
el proceso experimental. Si, como parece probable, la ecologa

de nuestra cienca est constituida de tal manera que


en ella
muchas ms respuestas errneas que correctas, cabe prever el
fracaso de la mayor parte de los experimentos. Hay que inmuni?:ar, pues, de algn modo a los jvenes investigadores contra
ese resultado y, en general, justificar ante ellos la
tacin sobre fundamentos ms realistas: no como una panacea,
pero s como el nico camino hacia el progreso acumulativo.
Tenemos que inculcar en nuestros discpulos la expectativa
del tedio y la decepcin, y el deber de la tenaz persistencia,
actitudes ambas que con tanto xito se ha logrado irnplantar
ya en las ciencias biolgicas y fsico-naturales. Hay que ampliar el voto de pobreza de nuestros alumnos, de modo que
no solo se avengan a trabajar con insuficientes recursos finansus resultados expecieros sino a admitir la insuficiencia
rimentales.
Ms concretamente: debemos ensanchar nuestra perspectiva
temporal, y reconocer que la experimentacin continua y mltiple es ms propia de la actividad cientfica que los experimentos nicos y definitivos. Las pruebas que realiZlmos hoy,
si llegan a tener xito, exigirn repeticin y validaciones en,.
zadas en otros momentos y en otras condiciones antes
con..
venirse en adquisicin estable para el acervo cientfico y ser
susceptibles de segura interpretacin terica. Adems, mm
cuando reconocemos que la experimentacin es el lenguaje fundamental de la demostracin y el nico tribunal decisivo para
resolver los desacuerdos entre posibles teoras rivales, no es
previsible que los experimentos cruciales que contrapongan
a las teoras opuestas vayan a producir resu.ltados claramente
definitorios. Cuando se descubra, por ejemplo, que observadores competentes sustentan puntos de vista muy dispares entre s, ser razonable suponer tt
que ambos habrn encontrado algo vlido sobre la situacin estudiada, y que ambos
representarn una parte de la verdad completa. Cuanto m<Iyor
sea la controversia, ms probable ser que as ocurra. Podemos, pues, esperar en tales casos un resultado experimental
de carcter mixto, o con sutiles variaciones en el saldo de verdad entre una prueba y otra. La posicin ms sensata -lograda en gran parte por la psicologa experimental (por ejemplo, Underwood, 1957b)- evita los experimentos cruciales,
reemplazndolos por relaciones e interacciones dimensionales
a lo largo de muchas gradaciones diversas de las variables.
Tampoco hay que olvidar los muy perfeccionados procedimientos estadsticos que en poca reciente se han ido introduciendo
poco a poco en la psicologa y la educacin. Durante su perodo

12

1.3

de mayor Hctividad, la experimentacin educacional avanz


empleando medios y procedimientos burdos.
McCall [ 1923] y sus contemporneos realizaron investigaciones en las cuales se estudiaba una sola variable por vez. Pam
la enorme complejidad que caracteriza las situaciones de aprendiz,je humano, aquello resultaba demasiado lento. Hoy se sabe
la gnm importancia que pueden asumir diversas contingencias,
depen(Jentcs de la accin conjunt de dos o ms variahl~s
experimentales. Stanlcy [1957a, 1960, 1961b, 196lc, 1962],
Stanlcy y \Viley [1962] y otros han dest<Kado la imperiosa
necesidad
evaluar tales interacciones.
Los experimentos pueden incluir algunas variables en cual
quiem de dos sentidos o en ambos a la vez. Por eemplo, incorpoNndo al disco ms de una variable independiente>?
(sexo, grado escolar, mtodo co11 que se ensea aritmtica,
estilo y tamnfo de los tipos de rnprcnta, etc), y/ o emp1eandn m!.s de un<l variable <<tlcpcnJientc (nmero de errores,
velocidad, divcts<ls pruebas, etc.). Los procedimientos de
Fshcr son multivnriados en d primer sentido y univariados
en el st:gundo. Estadsticos matemticos como Roy y Gnana ..
desikan [ l J'l9] tratan de encontr<lr diseos y an,1lisis que
unifiquen ambas formns de diseos multivariados. 'I\1l vez pernumcdemlo <lkttas a la evolucin de tales dise1os puedan los
investig<Kiores en el campo de la educacin reducir la brecha,
por lo comn demasindo tmplia, entre la exposicin en la litetatura cspeciaizmla de un procedimiento estadstico y su
aplicacin prctica a investigaciones de envergndura.
No cabe duda de qne una capacitacin ms a fondo de los
investigadorcs educacionales en tcnicas modernas de estadstica experimental permitira elevar la calidad de la experimentacin pedaggica.

Concepcin evolutiva sob1e la ciencia y la acumulacin


de conocimientos
Como fundamento de lo expuesto en los prrafos precedentes
y lo que se expondr en los que siguen sealamos una concepcin evolutiva del conocimiento [Campbell, 1959], segn
la cunl la aplicacin prctica y el conocimiento centifico son
el resultado de la acumulacin de ciertas tentativas seleccionadas y remanentes del caudal de observaciones recogidas por
la experiencia. Esta concepcin inspira gran respeto por la tr~
dicin en la prctica pedaggica. Si en el trascurso de los s114

se han ensayado muchos enfoques distintos, si de eilcs


. ha~! obtenido mejore:; resultados que otros y los que
Junclonaban es de suponer que habtn
los aplica
por

pm:s,
neccsmimncnte concon relacin al
tr,;dicional, sino ms bien
como rnccanismo de refinacin superpuesto a las
ncs prohablemen'lc valiosas de la prctica sensata.
pues, una ciencia
de la educacin no
pudbr el saber
Algnnos lectores abrgadn tal vez la
de que la ana~ogfa con el esquema evolutivo darwinano se complique con
factores de carcter especficamente humano. Cunndo
Prez, director de escuela, tiene que decidir entre adoptar un
libro de texto modificado o continuar con la versin anterior,
es probable que h<lga su eleccin fundndose en
insuficientes. Aparte de la eficiencia misma para la enseanza y
el aprendizaje, son muchas las consideraciones que habr de
tomar en cuenta. El director har lo correcto en una de estas
dos formas posibles: reteniendo el libro antiguo cuando sea tan
bueno o mejor que el revisado, o adoptando este ltimo cuando sea superior al primero. Pero puede equivocarse tambin
de dos maneras: reteniendo el libro antiguo cuando el nuevo
es mejor, o adoptando este cuando no es superior al primero.
En cada una de las dos elecciones errneas es de suponer que
se producirn inconvenientes diversos: 1) mayor costo finan
ciero y de gasto de energas; 2) costo para el director, en forma de quejas de los maestros, padres y miembros del consejo
escolar; 3) costo para los maestros, los alumnos y la sociedad
a causa de una peor instruccin. Estos costos, evaluados en
trminos de dinero, energa, confusin, menor aprendizaje y
mayor riesgo personal, deben sopesarse frente a la probabili
dad
que se produzca cada una de dichas alternativas, as
como la de que se detecte el error mismo. Si el director toma

su decsin sin
elementos
mc1o, fruto de una
investigacin a fondo, sobre el costo 3 (peor instr?ccin), es
posible
los costos 1 v 2. T.os
VIenen barajad?s en
un criterio co1~scrvdor: mantener el libro
antumo
un ao ms. Cabe, sin
tratar de prepar~~. un
con ambos libros a In vez, de acuerdo
con un esquema de tcorL1 de la decisin [ Chernoff .Y 1'v1oscs,
1959], adoplar un :e resolucin
tome explcitamente en
diversos costos
Cmc conseguir
excelente administrade teora de la
bien vale la pena
encarar.

Factores que atc11lan contra la


interna como externa

ta;zto

captulos de esta
amc:nazan la validez
varios
cxpcrmen.
uno de dichos factores se
con todo dcta11c
Pv<>r"rr los diseos a propsito
los cuales constituye un
particular; diez de los
diseos se presentamtes de
la lista. A fin de lograr una perspecseria
sin embargo, que
tiva ms
una lista de dichos factores, as como una gua general acerca
de los cuadros 1, 2 y 3, que resumen parcialmente el anisis.
Es fnndmnental a este respecto distinguir bien entre validez
intcma y validez externa. Llamamos validez interna a la mni ..
ma imprescindible, sin la cual es impo~ible iD:terpretar el ~o
Introducan, en realidad, una d1ferenc1a los tratamienen este caso
concreto? Por su
externa plantea el interrogante de la posibiliA
poblaciones, situaciones, varade tratamiento
medicin puede
zarse este efecto?
criterios son sin duda importantes,
aunque con frecuencia se contrapongan, en el sentido de que
ciertos aspectos que favorecen a uno de ellos perjudican al
otro. Si bien la valde.z interna es el sine qua non, y a la cuestin de la validez cxterm~, como a la de la inferencia
tva, nunca se pHede responder plenamente, es obvio que nues-

tm ideal lo

la seleccin de diseos ricos en

otrcl vadez. As ocurre, particularmente, respecto

vestigacin sohrc
de ensef:anza, donde el
ser la generalizacin a stu.;Jeiones prcticas de carcter conocido. T;mto las distiudoncs como las relaciones entre estos
dos tipos de consideraciones de validez irn
cxptci tas a medida que se las ilustre durante
de el iscos
Con relacin
distintas de

1. Tistoria, los acontecimientos especficos


primera y la
adcm,.s de
experimentaL
2. Jvfi!cluracirn, procesos internos de los participantes, que
<1peran como resultado del rncro paso del tiempo (no son peculiares de los acontecimientos en cuestn), y que incluyen el
aumento de la
el han:2brc, el cansancio y
3.
tests, el influjo
la administracin
de un test
otro
4.
medicin o en los observadores o
que
pueden
variaciones en las mediciones que se obteng;:111.

'5.

opera alli donde se


seleccionado
d~ sus puntajes extremos.
(J. Sesgos
en una seleccin
de participantes para los grupos de comparacin.
7.
expetmental, o diferencia en la prdida de
particpantes
los grupos de comparacin.
8. Interaccin entre la seleccin y la
gunos d~ los diseos cuaslexperimentales
como el
se
con el efecto de la
mental (es
que podra tomarse por l).
Los factores que amenazan la validez externa o representatiuiclad, y que vamos a analizar aqu, son:

3 Gran parte de esta exposicin se funda en Campbell [1957]. En


no
harn referencias
a esta fuente.

las pruebas, cuando


9. El efecto reactivo o de interaccin
aumentar o disminuir la sensibilidad o la
reaccin del participante a la
experimen-

16

17

tal, haciendo que


resultados obtenidos para una poblacin
con pretest no fuer<lll representativos de los efectos de la variable experimental para el conjunto sin pretest del
se
seleccionaron los participantes experimentales.
1 O. Los efectos de interaccin de los sesgos
seleccin y la

3. Tres diseos preexperimentales

l. Estudio de caso con una sola medicin

reactivos de los
que
hacer extensivo el efecto de la variable experimental a las personns expuestas a ella en una situacin no
experimental.
12. Illtcrferenclas de los tratamientos mltiples, que
producirse cuando se apliquen tratamientos mltiples a los
mismos
pues sm:lcn persistir los efectos de tratamientos anteriores. Este es un problema particular de los
diseos de un solo grupo de tipo 8 o 9.

Gran parte de las investigaciones actuales sobre educacin se


ajustan a un diseo en el cual se estudia un solo grupo cada
vez, despus de someterlo a la accin de algn agente o tratamiento que se presuma capaz de provocar un cambio. Estos
estudios podran diagramarse de la siguiente forma:

En la presentacin de los diseos cxpetimen t<lles se adoptarn un cdigo y unos smbolos grficos unifotmes, a fin de
compendiar la mayora, si no la totalidad, de sus caractersticas
distintivas. Una X representar la exposicin del grupo a una
variable o acontecimiento experimental, cuyos efectos se han
de medir; O har
a algn proceso particular de observaci6n o medicin;
X y O en una fila dada se anlican
a las mismas personas especficas. La dimensin repres~ntncb
de izquierda a derecha indica el orden temporal, en tant)
que las X y O dispuestas en
vertical sealan la presencia
simultaneidad. Para hacer ciertas distinciones importantes, como entre los disc:fos 2 y 6 o entre el 4 y el 10 hav
que utilizar un smbolo R, que indica asignacin aleato~ia ~
diferentes grupos de tratamiento. Esa aleatorizacin se concibe
como un proceso que se produce en un momento dado, y sirve
para lograr, dentro de lmites estadsticos conocidos, la igualdi!d de los grupos antes del tratamiento. Agregaremos a ella
c:tra convencn .gr.fi.ca: las filas paralelas no separadas por
]mea de \>untos signtflcan grupos de comparacin no igualados
por dicho procedimiento. No se ha empleado ningn smbolo
para .la equipar~cin corno proceso para conseguir la igualacin
prev1.a al tratamiento de grupos de comparacin, porque el valor
de d1cho proceso se ha exagerado mucho y suele ms bien
conducir a inferencias errneas que contribuir a extraer conclusiones vlidas. (Vanse ms adelante el anlisis del diseo
1O y la seccin final sobre diseos correlacionales). En el diseo 9 se ha utilizado explcitamente un smbolo M para
identificar m a tcriales.

Como ya se ha destacado [p. ej., Boring, 1954; Stouffer,


1949], tales estudios adolecen de tan absoluta falta de control que su valor cientfico es casi nulo. Presentamos este
diseo como punto mnimo de referencia. No obstante, a causa de la continua inversin en esta clase de estudios y de la
extraccin de inferencias causales de ellos, ser imprescindible formular alguno que otro comentario. El proceso de comparacin, de registro de diferencias o de contrastes es fundamental para la comprobacin cientfica (y para todos los procesos de diagnstico del conocimiento, incluso aquellos vinculados con la retina). Resulta ilusoria cualquier apariencia
de conocimiento absoluto o intrnseco sobre objetos singulares aislados. La obtencin de datos cientficos imtJlica, por
lo menos, una comparacin, cuya utilidad depende de que las
partes integrantes se estructuren con el mismo cuidado e
idntica precisin.
En los estudios de casos del diseo 1, se compara implcitamente un caso nico, cuidadosamente estudiado, con otros
acontecimientos observados de manera casual y recordados. Las
inferencias se fundan en expectaciones generales de cules hubieran sido los datos de no haberse producido X, etc. Tales
estudios suelen requerir una tediosa recopilacin de detalles
concretos, cuidadosa observacin, administracin de tests y similares, y en tales casos se corre el riesgo de hacer precisio-nes injustificadas. Cunto ms provechoso seria el estudio si
ese caudal de observaciones se redujese a la mitad, aplicndose

18

X O

19

el esfuerzo ahorrado al estudio igualmente cuidadoso de un


apropiado caso de comparacin! Parece hasta casi falto de tica
el aceptar hoy, como tesis de doctorado en el mbito educacional, estudios de casos de esa ndole (es decir, que implican
un solo grupo observado una sola vez). En ellos, los tests
estandarizados solo ofrecen una ayuda muy limitada, puesto
que las fuentes antagnicas de diferencias (distintas de X)
son tan <lbundantcs que tornan casi intil el grupo estndan> de referencia como <<grupo de control. Por los mismos
motivos, las muchas fuentes no controladas de diferencias entre el estudio actual de un caso concreto y otros que, plantendose en el futuro, pudieran compararse con aquel son tantas, que hacn tmnbin intil su justificacin como punto de
referencia p.tra estudios posteriores. En general, sera mejor
distribuir el esfuerzo descriptivo entre los dos miembros de
una comparacin interesante.
Si se lo toma en conjunto con las comparaciones implcitas de
conocimiento comn, el diseo 1 presenta la mayor parle
de los inconvenientes de cada uno de los diseos posteriores.
Por eso dejaremos el estudio de esos inconvenientes para cuando encaremos situaciones ms especficas.

2. Diseo pretcst-postest de un solo grupo


Si bien este diseo contina siendo de gran aplicacin en la
investigacin edncacionr~l, y se lo considera tan superior al
diseo 1 que se lo utiliza all c1onde no cabe hacer nada mejor
(vase 1m's adelante el r~nlisis de los diseos cuasiexperimentalcs), lo presentamos aqu como un mal ejemplo para ilustrar algunas de las variables externas entremezcladas que pueden atentar contra la validez interna. Esas variables ofrecen hiptesis aceptables que explican una diferencia t - O:z,
opuesta a la hiptesis de que X caus la diferencia:

La primera de estas hiptesis rivales no controladas es la historia. Entre 01 y o~ pueden haber ocurrido muchos otros
acontecimientos capaces de determinar cambios, adems de la
X sugerida por el experimentador. Si el pretest ( OI) y el
postest (o~) se administraron en das distintos, los acontecimientos intermedios pueden haber causado la diferencia. Para

20

convertirse en una hiptesis rival aceptable, tal acontecimiento


debera haber afectado a la mayor parte de los estudiantes que
integran el grupo examinado (p. ej., en algn otro perodo lectivo o por medio de una noticia periodstica muy difundida). En el estudio escolar realizado por Collicr en 1940,
sobre el cual inform en 1944, se produjo la cada de Francia
mientras los estudiantes lean abundante material de propaganda nazi; los cambios de actitud comprobados parecieron ser
consecuencia, ms probablemente, de ese suceso que de la propaganda en sU La historia se convierte en una explicacin rival
m<s aceptable del cambio cuanto ms extenso es el lapso entre
;Ot y 0:!, y podra considerarse un detalle trivial en un experimento realizado dentro del breve lapso de una o dos horas,
si bien mm en tal caso deben investigarse fuentes externas
como las risas, las distracciones, etc. La variable historia se
relaciona con la caracterstica de aislamiento experimental,
que en muchos laboratorios de fsica suele conseguirse con
tanta aproximacin que el diseo 2 resulta aceptable a propsito de la mayor parte de sus investigaciones. Pero en el estudio
de mtodos de enseanza casi nunca se puede suponer un
aislamiento experimental tan completo. Por eso en el cuadro 1
el diseo 2 se ha marcado con un signo negativo bajo el ttulo Historia, en el que incluiremos un grupo de posibles efectos estacionales o de programacin de acontecimientos institucionales, aunque tambin estos podran situarse al pie del ttu.lo Maduracin. As, el optimismo podra variar con las
estaciones y la ansiedad producida por el programa de exmenes semestrales [p. ej., Crook, 1937; Windle, 1954]. Tales
efectos acaso produjesen una variacin 01- Oz confundible
con el efecto de X.
Una segunda variable o categora de variables rivales recibe
el nombre de maduracin. Tal como lo entendemos aqu, este
trmino abarca todos aquellos procesos biolgicos o psicolgicos que varan de manera sistemtica con el correr del tiempo e independientemente de determinados acontecimientos externos. As, es probable que entre 01 y o~ los estudia;1tes
hayan aumentado de edad, apetito, fatiga, aburrimiento, etc.,
y acaso la diferencia obtenida refleje ese cambio y no el
de X. En educacin correctiva, que se aplica a personas excepcionalmente disminuidas, un proceso de remisin espontnea, anlogo al que se produce en la curacin de heridas,
1 En realidad, Collier utiliz un diseo ms adecuado que este, que
en el presente sistema se denomina diset'o 10.

21

Cuadro l. Fuentes de invalidacin para los diseos 1 a 6.


Fuf'ntcs de invalidacin
Tutnna

Extnna

.:;

" o"
15"'

O
~

;
"2

f::

.,:;
..::;

--.

r:

"'a "
-~

"' 5
..-,:

:::J

:U

cr;

" "':l"

<;

::;
v

d..l

en

E
D

;:::

J)isnlos

;recxperimentales
l. Estudio de caso
COJI una sola
medicin
X o

Di:.:C'o prde.st-

pnste;-;t de

solo grupo

llTl

3. Comparacin ctm
un grupo esttico
X o

Di11 o~
cxperimentrtl(:s
propiamente dichos
4. Di.cwo de
grupo (h con troJ

+ +

+ +

+ +

+ + + +

prch~t-po.<>t(:;t

R
1l.

o
o

o
o

5. Diseo de cuatro
grupos de
Snlmnoll
H () X
ll o

R
R

f-

o
o
o
o

l. Dist>fio de gniJHl
f.1e control con
postcst
l'tnicnmentc

X o

qne hay iir.perfeccin defiel int<'J'!Ot;ativo, la pr('sencla


ltinw, el espacio en blanco

confundirse con el
de una X correctiva.
nc se considera
Ni que decir tiene que tal
tnea >> en ningn sentido causal, sino que representa ms
los
acumulativos de los procesos
aprendizaje y prede la experiencia global diaria, que se proaunque no se hubiese introducido ninguna X.)
Una tercera explicacin rival entremezclada es el efecto de la
de pruebas, el efecto del prctest mismo. En pruercndimiento e inteligencia,
estudiantes a quienes se
somete a ellas por segunda ve;~, o a untl de sus variantes,
etc., suelen desempci1arse mej0r
l0s que las encaran por
vez primera [p. ej., Anastasi, 1
190-91; Cane y
1950]. Esos efectos, que alcanzan de 3 a 5 puntos
de
en promedio para sujetos sin experiencia previa, se proacerca de sus
ducen aun sin haberles hecho comentario
errores en el test anterior.
las pruebas de
se advierte un resultado
en las segundas
en general, un mejor ajuste, aunque en ocasiones
se halla tambin un efecto altamente significativo en senddo
contrario [ \vindle, 19541. En cuanto a las actitudes hacia
grupos minoritm:ios, una segunda prueba suele indic,u un mayor prcjnido, aunque los datos disponibles son todava escasos [Rankin y Campbell, 19'55]. Es obvio que el anonimato,
una mavor conci~encia de qu respuesta es la socialmente
<lprobada, etc., influiran en general sobre la ndole del resulanonimato, el
tado. Para tests de prejuicio en condiciones
r:ivd de
creado por las expresiones hostiles presenmodificar las apreciaciones del
en lo
tadas
a la tolerancia que existe para actitudes de mayor hostilidad. En un inventario de adaptacin o de personalidad que lleva la firm<J del sujeto, la
administracin del test forma parte de una situacin
solucin de prohlcmas en que el estudiante trata de descubrir el propsito
oculto de la prueba. Si ya ha pasado por aquella experiencia
(o si habl con sus amigos sobre las respuestas que ellos dieron a algunos
los puntos ms destacados), sabe mejor cmo comportarse la segunda vez.
Con el problema
los efectos del test se relaciona la distincin entre las posibles mediciones de su reactividad, lo cual
constituir un importante tema en todo este libro, as como
una exhortacin general a que se hagan mediciones no reactivas siempre que sea posible. Desde hace mucho tiempo ha
sido una verdad manifiesta en las ciencias sociales que el proceso mismo de medicin puede hacer cambiar aquello que se

23

mide. La ganancia test-retest sera una importante consecuencia de ese cambio. (Otra, la interaccin entre la realizacin de
la prueba y X, la estudiaremos Im1s adelante, junto con el diseo 4. Adems, es importante evitar esas reacciones al pretest, aun cuando surtan efectos diferentes para sujetos clistir>
tos.) Es de esperar el efecto reactivo siempre que el proceso
de prueba sea en s un estmulo al cambio, y no un mero registro ele comportamiento. As, en un experimento sobre terapia para el control del peso, el pesaje inicial puede ser ele
suyo un estmulo para el adelgazamiento, aun sin tratamiento
curativo alguno. De manera similar, la ubicacin ele observadores en el aula para estudiar la capacidad prcentrenamienlo
del docente en el mbito de las rebciones humanas puede modificar de por s su forma ele comport~1rsc. La colocacin de un
rnicnfono sobre el escritorio o pupitre suele variar la pauta
de interaccin del grupo, etc. En general, cuanto ms nuevo y
motivan te sea el clemen to utilizado para las pruebas, mayor
ser su influencia.
La iiiStrumentacin o deterioro de los instrumentos [ cf.
Campbell, 19 57] es el trmino con que se designa una cuarta
hiptesis rival no controlada. Esa expresin se refiere a las
variaciones autnomas en el instrumento de medicin que podran ser la causa de una diferencia 01- 02. Tales cambios
seran anlogos a la mayor o menor tensin observada en el
dinammetro, la condensacin en una cmara de niebla, etc.
Cuando se recurre a observadores humanos a fin de obtener
01 y 02, su propio aprendizaje, tensin, etc., determinarn
02. Si se califican los ejercicios de redifc:rencias de 01
daccin, ensayos o trabajos de investigacin, los estndarc:s
aplicados variadn de 01 a 0:2 (la tcnica de control sugiere que se mezclen los ejercicios de redaccin 0 1 y 0 2 y se
los haga calificar sin tener conocimiento de cul ha llerrado
primero). Si se observa la participacin en el aula, tat"' vez
en la segunda sesin los observadores sean ms h<biles, o ms
indiferentes. Si se entrevista a los padres, la familiaridad de
quien realiza esa labor con el programa de entrevistas y con
determinados padres puede producir ciertos desplazamientos.
Un cambio en los observadores entre 0 1 y 0 2 tambin podra
provocar alguna diferencia.

Una quinta variable entremezclada en algunos casos del diseo 2 es la regresin estadstica. Por ejemplo, si en una
prue~a correctiva se seleccionan alumnos para un experimento
espec1al porque han tenido puntajes particularmente bajos en
el test de rendimiento escolar (que para ellos se convierte en

OI), en una prueba posterior en que se adopte la misma forma de antes u otra similar a ella, casi con segurid>h 0 2 tendr
para ese grupo un promedio ms elevado que 01. Este resul..
tado confiable no se deber a ningn efecto Penuino de X a
ningn efecto de la pdctica de test y retest, ~te. Es ms bien
un aspecto tautolgico de la correlacin imperfecta entre 0 1
y 02. Los errores de inferencia ocasionados por no haber
tomado en cuenta el .efecto de la regresin han planteado tantos problemas en la investigacin educacional porque muy a
menudo se desconoce su verdadera naturaleza -aun por estudiantes que han realizado cursos avanzados de estadstica mo
derna-. Como en exposiciones posteriores (p. ej., el diseo
1 O y el anlisis ex post jacto) la daremos por conocida, nos
detendremos aqu a explicarla brevemente, aunque sea en
forma muy elemental. La figura 1 presenta algunos datos
imaginarios en los que el pretest y el postest de una poblacin
entera tienen una correlacin de 0,50, sin variacin en la
media grupal o variabilidad. (Los datos se seleccionaron ex
prcsamente para que la colocacin de las medias de fila y
columna sean obvias a la simple observacin visual. El valor
de 0,50 tambin se elige por conveniencia de exposicin.) En
este caso hipottico no se ha producido ningn camoio real,
pero, como es corriente, los puntajes falibles del test indican
una correlacin de retcst considerablemente inferior a la unidad. Si, como se sugiri en el ejemplo dado antes, comenza-
mos por observar solo a los escolares calificados con puntajes
muy bajos en el pret:est -p. ej., 7 puntos--, y en el postest solo reparamos en el puntaje de esos alumnos, nos encontraremos con que los puntajes postest estn dispersos, pero
son en general mejores, y en promedio regresionar011
hacia la media grupal con un coeficiente de regresin o correlacin de 0,50, obteniendo una media de 8,5. No obstante,
en vez de constituir una prueba de progreso, esto es una ratificaci(n tautolgica, si bien especfica, de que hay una correlacin imperfecta, y de cul es su medida.
Cuando al trascurrir el tiempo se producen acontecimientos
entre el pretest y el postest, nos sentimos tentados a establecer una relacin causal entre dicho cambio y la accin espe
cfica del paso del tiempo. Pero obsrvese que cabe hacer
aqu un anlisis cronolgico a la inversa, comenzando, por
ejemplo, con aquellos cuyo puntaje postest es 7 y observando la dispersin de sus puntajes pretest, de los cuales se
extraera la implicacin inversa, a saber: que los puntajes van
empeorando.

24

25

1, Regresin en la prediccin de
pretest, y viceversa.

postest

dequ<: indica

prediccin
a pos test

Pl!nlc!I'S pOSl(',;ts

M edicto>
g

pretests

')

!O

)'OSIC'SIS

11.5

ll,O

L?
,-,

11
lO

9,5

!2

1
00

\Jl

,_..
\0

vo

\D

V.

,_..
o

V.

(a)

Prediccin
De grupos
A medi~s
prercsts
---Jo- postcsls
homor1;neos

>-'

V.

Lnea de regreslOn c.
que indica la mejor
prediccin de postes!
a pretest
Ptedccin

A medias

12

11

11

9
g
7

.-------;;

...--------/~
/

(b)

postesl:s
hon1ng(~nct )S

10

De grupos

pretests -

26

,....

10
<)

R
7

..
.,.____________.,
~

~
(e)

Las inferencias causales ms errneas son las que se extraen


cuando la informacin se presenta en la forma indicada en
la figura 1 ( b) [o la parte superior o inferior de 1 ( b) l. As
se da la impresin de que los alumnos ms brillantes van
perdiendo su ventaja, y viceversa, como si fuese por el efecto
vulgarizador y homogenezante del medio institucional. Aunque esta errnea interpretaci6n implica que la variabilidad poblacional en el postcst debera ser menor que en el pretest,
ambas son en realidad iguales. Ms todava: si se procede al
anlisis con grupos puros de puntajes pos test [como en la lnea de rcgresi6n ,e y la figura 1 (e) l, quiz se llegue a la conclusi6n contraria. Como lo senl McNemar [ 1940], el uso
del anlisis de control de tiempo invertido y el examen directo
en busca de cambios en las variabilidades poblacionales son
precauciones tiles contra dicho error de interpretacin.
Cabe observar la regresin hada la meda en otra forma anloga. Cuanto ms desviado sea el puntaje, mayor ser el probable error de medicin. As, en cierto sentido, el tpico alumno habituado a la obtencin de puntajes elevados se habr
visto favorecido por una <<suerte extraordinaria (gran error
positivo), al paso que la mala fortuna acompa6 a quien
obtuvo puntaje muy bajo (gran error negativo). La suerte
es, sin embargo, caprichosa, por lo cual en tm postest se ;;spera que quienes poseen puntajes elevados declinen algo en
el promedio, as como que los de puntajes bajos mejoren su
posicin relativa. (Se aplica la misma lgica si se comienza con
los puntajes de postest y se procede hacia atrs, en direccin
al pretes t. )
La regresi6n hacia la media es un fenmeno general, que no
se limita a la administracin del pretest y del postest con Ja
misma prueba o formas similares de ella. El director que observa que sus estudiantes de mayor CI suelen obtener puntajes inferiores a los mximos (aunque muy elevados) en las
pruebas de rendimiento escolar, mientras los de menor CI no
suelen ocupar el extremo inferior en esas pruebas (aunque s
puestos bastante bajos), sera culpable de falacia en la regresin si dijese que su escuela subestimula a los alumnos ms
brillantes y recarga de trabajo a los atrasados. Si seleccionase
a los que obtuvieron el mayor y el menor puntaje en la prueba
de rendimiento y analizara sus CI, la misma falta de lgica lo
forzara a llegar a la conclusin opuesta.
Si bien hemos hablado aqu de la regresin a propsito de los
errores de medicin, en general, ella depende ms bien del
grado de correlacin: cuanto menor sea esta, mayor ser la
27

r<:gresin hacia la media. La falta de correlacin perfecta puede


deberse a error y/ o a fuentes sistemticas de variancia especfica propia de una o de otra medicin.
Los efectos de la regresin son, pues, acompaamientos inevitables de 1a correlacin imperfecta de test-retest para grupos
seleccionados por su ubicacin extrema. No son, sin embargo,
concomitantes necesarios de puntajes extremos dondequiera
que ellos se produzcan. Si un grupo seleccionado por razones
independientes resulta poseer una media extrema, hay una
menor expectacin a priori ele que la media grupal regresione
en una segunda prueba, pues se ha permitido a las fuerzas
aleatorias o externas de variancia que influyan sobre los pun
tajes iniciales en ambas direcciones. Pero no ocurre as en un
grupo seleccionado a causa de su extremidad en una variable
falible, pues ella es artificial y dicho grupo regresionar hacia
la media de la poblacin de donde se lo seleccion.
Efectos de regresin ms indirectos pueden obedecer a la seleccin de sujetos con puntos extremos en mediciones diferentes del pretest. Consideremos un caso en el cual se eligen,
para recibir adiestramiento experimental, estudiantes que fracasan en pruebas tomadas en el aula. Como pretest, se les
administra el tipo A de un test estndar de rendimiento escolar, y como postest el tipo B de dicho test. Es probable
que la prueba tomada en clase tenga una correlacin ms alta
con la administracin inmediata del tipo A que con la administracin del tipo B unos tres meses despus (si en cada sesin toda la clase ha sido objeto de la prueba). Cuanto ms
elevada sea la correlacin, menor ser la regresin hacia la
media. Por consiguiente, los fracasos de la clase habrn determinado una regresin ascendente menor en el pretest que en
el postest, dando una seudoganancia que podra haberse confundido con un conato afortunado de educacin correctiva.
[Para ms detalles sobre ganancias y regresin, vase Lord,
1956; McNemar, 1958; Rulan, 1941; R. L. Thorndike, 1942.]
Con ello se concluye la lista de inconvenientes del diseo 2
que podemos analizar en este momento. En el cuadro 1 aparece otro signo negativo bajo el ttulo Validez interna, correspondiente a un factor que no analizaremos hasta exponer
el diseo 10 (vase pgina 93) en la seccin de diseos
cuasiexperimentales, y dos signos negativos bajo Validez externa, que no explicaremos hasta haber realizado el anlisis
del diseo 4 (vase pgina 32).

28

'. Comparacin con un grupo esttico


1<] tercer diseo preexperimental necesario para nuestra exposicin de los factores de invalidacin es la comparacin con
nn grupo esttico. Es un diseo en el cual un grupo que ha
experimentado X se compara con otro que no lo ha hecho, a
fin de establecer el efecto de X.

Ejemplos de esta clase de investigacin son: la comparacin


de sistemas escolares que requieren que los maestros tengan
ttulo universitario (la X) con otros que no exigen esa condicin; la comparaci6n de alumnos de cursos qu~ reciben instruccin en lectura veloz con otros que no la reoben; la comparacin entre quienes presenciaron determinado programa de
televisin y los que no lo hicieron, etc. En marcado contraste
con el experimento del diseo 6 propiamente dich~,_ que
veremos m6s adelante, no hay en estos casos del d1seno 3
ningn medio explcito que permita asegurar que los gr_upos
habran sido equivalentes de no ser por la X. La ausenCia de
un medio tal, indicada en el diagrama por las lneas punteadas
que separan ambos grupos, seala el prximo factor que requiere control: la seleccin. Si hay diferencias entre 01 y Oz,
ello bien puede deberse al reclutamiento diferencial de las personas que componen los grupos: estos podran haber diferido
aun sin la presencia de X. Como se ver ms adelante en el
anlisis ex post Jacto, la equiparacin fundada en caractersticas que no sean O suele resultar ineficaz y conducir a erro~,
particularmente en los casos en que las personas que c~n?~l
tuyen el grupo experimental han procurado la exposlClon
a la X.
Una ltima variable entremezclada que, por ende, debe incluirse en esta lista es la llamada mortalidad experimental, o produccin de diferencias 01- Oz en grupos, al retirarse en
mayor o menor nmero personas pertenecientes a ellos. As,
aunque en el diseo 3 ambos grupos haban sido algm:a vez
idnticos, quiz difiriesen ahora, no por haberse produodo un
cambio en los integrantes individualmente considerados, sino
ms bien a causa del abandono selectivo de personas de uno
de los grupos. En el campo de la investigacin educacional,
este problema suele encontrarse a menudo en los estudios so-

29

bre los efectos de la formacin universltaria cuando se comparan las med!ciones ~fectuadas entre alumn~s recin ingresados (que no nan temdo la X) y los que estn a punto de
egr~sar ( qu~ Ja ~an tenido)_ Si esos estudios indicaran que las
mujeres reCien mgresadas son ms bellas que las que estn
por graduarse, recha7:aramos de plano la consecuencia lgica
de que nuestro duro curso de capacitacin menoscaba la belleza femenina, y sealaramos e_n su lugar las dificultades que
encuentra una muchacha agraciada para finalizar su carrera
antes c~e contrae~ matrimonio. Este efecto se clasifica como
m?rtalzdad expenmental. (Por supuesto, si observamos a las
mtsmas muchachas cuando acahan de ingresar y cuando egresan, este problema desaparece, con lo cual tenemos el diseo 2.)

30

disei1os expcrirnentales
dichos

Ls tres diseos fundamentales que vamos a exponer en e:ste

son los recomendados en la actualidad por la litera


tura metodolgica. Son tambin, como se ver, los m;is rccoInendados por nosotros, aun cuando tal respaldo est sujeto a
muchas resLticcioncs concretas en cuanto a la prctica habitual,
y d lugar a que aparezcan algunos signos negativos en el
cuadro 1 bajo el ttulo Valide:;:. externa.
El diseo 4 es d ms empleado de los tres; por eso, nos
permitiremos la libertad de explayarnos mucho ms en su anlisis, haciendo de l. el centro de convergencia de otras consideraciones, cuya aplicacin es m;s general. Obsrvese que los tres
diseos se presentan en forma de comparaciones diversas de
una sola X con ninguna X. Los diseos que han recibido mayor cantidad de tratamientos por parte de la corriente del expEdmcnto factorial de Fisher representan elaboraciones importantes pero tangenciales respecto del hilo conductor de
esta obra, y se estudian al final del presente captulo, a continuacin del diseo 6. Ahora bien, esta perspectiva puede
servirnos para recordar aqu que comparar X con no X es un
exceso de simplificacin. En realidad la comparacin se establece con las actividades especficas desplegadas por el grupo
de control dnrante el perodo en que el grupo experimental
recibe la X. Por lo tanto, sera mejor establecerla entre X1
y Xc, o entre X1 y Xa, o entre X1 y Xz. El que la actividad
de esos grupos de control con frecuencia no est especificada
aade un indeseable elemento de ambigedad a la interpretacin del efecto de X.
Teniendo 'en cuenta todos estos comentarios, continuaremos
en este captulo insistiendo en la convencin grfica de no
presentar ninguna X en el grupo de control.

31

4. Diseo a e grupo de control pretest- postest

Como el diseo controla en forma tan ntida las siete hiptesis


descritas, las presentaciones que de l se han hecho no han
establecido en forma explcita las necesidades de control que
satisfaca. En la tradicin de las investigaciones del aprendizaje, los efectos prcticos de la administracin de pruebas parecen ofrecer el primer reconocimiento de la necesidad
contar con un grupo de control. La maduracin era a menudo el
punto crtico de los estudios experimentales en educacin, as
como del problema naturaleza-cultura ( nature-nurture) en el
campo del desarrollo infantiL En la investigacin de los cambios actitudinales, como en los primeros estudios sobre los
efectos de las pelculas cinematogrficas, la historia puede haber sido la consideracin primaria de necesidad. De cualquier
manera, creemos conveniente analizar brevemente aqu la
forma en que se controlan esos factores, as como las condiciones en que se lo hace.
La historia se controla en la medida en que los acontecimientos histricos generales que podran haber producido una diferencia del tipo 01 - 02 causaran tambin una diferencia del tipo 03 - 0+. Advirtase, sin embargo, que mu-

supuestas utilizaciones del diseo 4 (o 5, o 6) 110


controlan la existencia de una historia intrasesional nica. Si
a todos los estudiantes, elegidos al azar, que integran el grupo
se los trata en una sola sesin, hacindose lo
con los controles, los nicos acontecimientos ocurridos
en cada una de esas sesiones y que carecen de importancia
(la broma exagerada, el incendio en la otra cuadra, los comentarios introductorios del experimentador, etc.) se convierten en hiptesis rivales que explican la diferencia d_e
contra 0: 1 - 0 1 Este tto es un verdadero experimento, aunque se lo presente como paradigma ilustrativo,
como en la prueba de Solomon [ 1949] sobre la enseanza del
alfabeto. (Para ser exactos, tenemos que puntualizar que Soloman lo eligi para ilustrar un aspecto diferente.) Meditando sobre nuestras mejores pr,cticas en relacin con ese
aspecto,
que ello carezca de importancia, pero nuestras
mejores pr<cticas consisten en presentar experimentos que
con harta frecuencia son imposibles de repetir, y esa misma
fuente de diferencias significativas pero externas bien podra ser una falla importante. Adems, en los tpicos experimentos que describe el Journal of Experimental Psychology,
el control de la historia intrasesional, &e logra exponiendo a
estudiantes y animales a pruebas individuales, y sometiendo
aleatoriamente a los estudiantes y los perodos de prueba a
condiciones experimentales o de control. Obsrvese, no obstante, que aun con sesiones individuales la historia puede
escapar al control si se trabaja con todo el grupo experimental
y no con el grupo de control, etc. El diseo 4 requiere que
las sesiones experimentales y de control sean simultneas. Si
realizamos sesiones verdaderamente simultneas, tienen que
emplearse distintos experimentadores, y las diferencias entre
ellos acaso se conviertan en una forma de historia intrasesonal que se confunda con X.
La solucin ptima es una aleatorizacin de las sesiones experimentales, aplicando las restricciones requeridas para lograr
una representacin equilibrada de fuentes de sesgo tan probables como son los experimentadores, la hora, el da de la
semana, la parte del semestre, la proximidad de los exmenes,
etc. El recurso habitual de trabajar con sujetos experimentales
en pequeos grupos -en vez de hacerlo individualmente- es
inaceptable si se prescinde de ese agrupamiento en el anlisi'>
estadstico. ( Cf. ms adelante el examen de la asignacin de
grupos intactos a diversos tratamientos.) Todos los que toman
parte en la misma sesin participan de la misma historia in-

32

33

Controles de validez i11terna


Algunas de las consideraciones anteriores indujeron a los investigadores psicolgicos y educacionales, entre 1900 y 1920,
a agregar al diseo 2 un grupo de control, creando el actual
diseo ortodoxo con grupo de control. McCall [ 1923], Solomon [ 1949] y Boring [ 1954] fueron en parte los protagonistas de esta histol'ia, y una revisin del T eachers Coltege Record de aquel perodo implica ms todava, pues ya en 1912
se mencionaban grupos de control sin necesidad de mayores
explicaciones [p. ej., Pearson, 1912]. Los diseos con grupos
de control as introducidos se clasifican en esta seccin bajo
dos encabezamientos: el presente diseo 4, en el que se emplean grupos equivalentes logrados por aleatorizacin, y el
diseo 1O cuasi experimental, en el que se utilizan grupos intactos de comparacin ya existentes, de equivalencia no asegurada. El diseo 4 adopta la forma

control regresiona tanto como el


en las condiciones
vados interpretativos, a
Un experimentador
abandonarlo mien~
"",."'1tv,c de puntaje

n1ayores

llega a la estimuprincipio estaban


e! mayor adela_nt;o, rnien
mao: elevada qwza no
se asegura porque, en
el grupo, el rnectmismo
para los participantes
a elinnarlo
Si en el

a dos efectos muy el retroceso de


CL~ evitar esos errores
interpretacin es
de aquellos cne en el grupo de control
las interpretade los pun-

re:mente

como para
debern ignorar
de los distintos
ese hecho no se~gue sus
al sesgo so1 causas
firma la
con un segundo
estudios r~Tentes

va

regresin se controla, en lo que a las diferencias de


concierne y por muy extremo que sea el grupo en ]os
pretest, si tanto el grupo
:al como el de conttol se
al azar, tomndolos
eRte 11ismo conjunto extremo.

Se elimina
seleccin como explicacin
la medida en que la aleatorzacin haya "e'~"""'"
grupal en el momento
medida que
nuestra estadst ca
muestreo. As,
l~S mayor
que para pequeas
Este supuesto fallar en ocasiones en el
naciones
grado sugerido por el trmino de error para la hiptesis de no
diferencia. En el diseo 4, ello significa que a veces habr
una aparente
significativa entre los puntajes pretest. Por lo
la aleatorizacin simple o estratifi..
cada asegura la
no sesgada a los grupos de
experimentales, constituye un medio muy imperfecto para garantizar la equivalencia inicial de dichos grupos. No obstante,
es la nica forma
de hacerlo. Lo decimos
tan
categricamente, a causa
una muy difundida y errnea pre-

34

35

Uphoff, 1939;
de h1 interaccin

dan evaluar una serie


dones pretest, postest, expennl1Cl1ta
contribuye al perfecto control
la instrumentacin en
sobre la conducta escolar y la interaccin

dileccin, evidenciada en la investigacin educacional durante


los ltimos treinta aos, por la igualacin mediante la equiparacin.
[ 1923l y Petcrs v Van Voorhis [1940]
contribuyen a perpetuar este equvco. Corno
mayor detalle al estudiar el diseo 10 v el
equiparacin no
una ayuda re~]
para
iniciales de
fica que propugnemos In eliminacin lisa
nditamento a b
como
cedimicnto como
ca.ando se
mayor precisin estadstica
estudiantes a pares cquiprados y asignando
al azar un
miembro de cada par al grupo experimental y otro al de con
troJ. En la liter;1tura sohrc estadstica, esto se designa con el
trmino hlmuc(J. Vansc, en particulnr, los estudios de Cox
[ l957], fcldt [1958
Lindcuist [1953]. Pero la cquipara~Jn cor~10 :ittsti~uto .
alcatorizacin es tnb
pnrc1
los d1scnus cuilsiexperlmcntalcs que no emplean ms que dos
grupos naturales
uno experimental y otro
control:
aun en c:-;e endeble
hay medios
que la
entre
armonizacin para tratar de corregir diferencias
las medas de una y otra muestra. ~
Los elatos de que disponemos gracias al diseo 4 permiten establecer qu mortalidad explica aceptablemente la
01 - 0". Mortalidad, casos perdidos y casos para los cuales
solo se dispone de datos parciales, son difciles ele manejar
y por lo comn se los trata de disimular. La experimentacin
se
tpica con mtodos educativos se prolonga durante
manas o meses. Si se
los pretests y postests en las
aulas de las que se toman el grupo experimental y el grupo de
control, y la condicin experimental requiere la concunencia
a determinadas sesiones sin que ocurra lo mismo con la condicin de control, la distinta concurrencia a las tres sesione'i
( pretest, tratamiento y
) produce una mortalidath
que puede introducir en
muestra sutiles sesgos. Si de todos
los designados en un primer momento como participantes del
grupo experimental eliminamos a los que no concurren a las
s~siones de prueba, re?ucimos selectivamente el grupo expenmental con un mecamsmo que no se aplica en forma similar
al grupo de control, sesgando al primero en el sentido de los
responsables y sanos. El modo preferido de tratamiento aunno de utilizacin habitual, parece ser el empleo de 'todos
estudiantes seleccionados, experimentales y de control, gue
completaron tanto el pre.test como el postest, incluso los integrantes del grupo c';:oenmental que no obtuvieron la X. Es

36

uuq<,u~L que este procedimiento atena el efecto aparente de


pero evita el sesgo de muestreo, fundndose en el
:mpilesto de que no haba
de mortalid<1d .ms
Este supuesto es susceptible
paroal
do tanto el nmero como los
pretest de
en el pretest pero no en el postest. Es posible
X influveran en esa tasa de abandono, en vez de
los punlaj~s inJividunlcs. Por supuesto, aun cuando
t<lsas sean las mismas, queda todava en pie la poslbide que se produ,:can complicadas interacciones
a diferenciar el ClUiicter de los abandonos en
experimentales y de control.
problema de la mortalidad. puede obs~rvarse con .toda ~la
rielad en el estudio de mtodos correctwos con votrmtrmos.
por ejemplo, se invita a un grupo de lectores deficiel:tes
secundaria a participar en sesiones correctivas
de una
voluntarias mientws que otro grupo en las mismas condiciones
no es invitado. Del primero de ellos, quiz participen en las sesiones un 30 f!6 de sus integrantes. Los puntajes post:ests, as
como los prctcst, provienen de pruebas de lectura estndar administradas a todos los que asistian a
No es razonable
comparar el 30 % de voluntarios con el total del grupo de control, porque representan a los m? preocupados por, sus puntajes pretest, los capaces de trabnJa~ con. mayor ~~hrnco en su
propio mejoramiento, cte.; pero es 1mpostble locahzlt sus exactos equivalentes en el grupo de control. .Aunque tampoco parece justo para la hiptesis de eficacia terapt~tic~ comparar el
total Jel grupo invitado con el total del no mvltado, es esta
una solucin aceptable, si. bien moderada. Ntese, empe~o, 9-~e
puede ocurrir que lo que produce. e11 efecto sea la mvttacton
misma, y no precisamente)a templa: En genera.!,~~ grupo de
control no invitado deberta poseer 1gual conocumento de su
posicin en el prctest que el g~upo in':itado. Otra posibilld~d
es invitar a todos los que necesitan ses10nes correctivas y as1g
nar los voluntarios a grupos de tratamiento verdaderos y f.alsos mas en el estado t~ctual del arte es probable que cu~llqtuer
ter~pia suficientemente bien presentada como para qne pa~ezca
una ayuda al estudiante sea tan eficaz como el ttatamtento
mismo que se estudia. Cabe, no obstante, destacar la consecuencia innegable de que las pruebas experimentales
la
eficacia relativa de dos procedimientos teraputicos son mucho ms fciles ele
que la eficacia absoluta
cuales
quiera de ellos. La nica solucin utilizada en la
crear grupos experimentales y de control entre quienes desean

37

re~; u} LJ as atractiva a
tiene
cun ~odr
que se
ha sossin rnol ivo en el lJ':tl.amcnto formd cornn sobre rw.:tc
El anlisis

los perodos de espera [p .


supuesto,, sm;cit~1 a
abandono pot parte
ccJn,l con
po~;pucst;:, Una aplicacin
no reactiva de un mccanisHJo de !olera pata
o
un
cui"'''O correctivo (le lcc ura

CXlL'YUi

que, 1.1Ha vez

dectos evidentes
sumaran
los de X en el
propio del
vanancws
n:a[iza'Cin de
, etc . - se
efectos principales, y como tales se
ha con
ofKio en d disee- 4, dndole validez interna, Las mnenaz:as
a b validez externa, por otra parte, pueden considerarse efectos k interaccin entre X y alguna otra variable. Constituyen,
1rna posible especificidad de los efectos de X respecto
conjunto de condiciones inconvenientemente limitaanticipo diremos que, hasta donde nosotros sabeBY''''
4 los efectos observados de X pueden ser
cs;;;:~:ificos de gmpos cuyo inters fue intensificado por d
pretest. Corno es natural, no podemos extender nuestras conclusiones al conjunto mayor no sometido a prctest, <lcerca del
cmd desearamos cxtmer conclusiones.
En este captulo cxnminaremos unas cu::mtas de esas amenazas
a la posibilidad de generalizacin, as como los procedimientos
para sortearas. Es decir que se prefieren estos diseos por razones de validez externa o posibilidad de generalizacin, dado
que hay diseos vlidos que evitan el pretest y en muchas
situaciones (aunque no necesariamente en la investigacin educacional) se desea generalizar precisamente con respecto a los
grupos no sometidos a pretest. En el campo de la docencia
constituyen juicios acerca de la validez externa las dudas que
con frecuencia se expresan sobre la aplicabilidad prctica de
los resultados de ciertos experimentos muy artificiales. La introduccin de tales consideraciones en el anlisis de los me38

bci6n en un

, ha
1 ~
: lCtleEnos
dccto ;ucda
.
m::' cspcnf1cas que el
1wn ..:u cornn, es decir,
en rel:win con
prctcst, pero de determinada
snci ucconm ica, regin
\'in csLcbr, orientacin
cam:Jo
nivel de radiaciones g1mrna, ctci;lera
punto
vista
no
ms
,,IJ: de dichos lmites; es
que nu podemos generalizar
er1 modo alguno. Pero tratamos de hacerlo conjeturando
y verificando algunas de dchas generalizaciones en Otras mn
dicioncs no menos especficas pero diferente3, A
largo de
la l1isloria dr:: cada una de las ciencias, se aprcndea justificm>
bs generalizaciones propias de ella a causa de la acumulacin
misma de la experiencia en hacerlo, pero no es esa una generalizacin lgica, deducible de los resultados del experimento
miginal. En esa situacin hacemos, al generali:.oar, suposiciones
sobre leyes an no demostradas, incluyendo algunas que ni si
quiera se indagaron. As, en la investigacin educacional, suponemos por lo comn que la orientacin del campo magnticn no la afecta. Pero sabemos de ciertos estudios que con
frecuencia el pretest ha tenido un efecto, y por lo tanto quisir;1mos eliminarlo como obstculo para nuestra generalizacin.
Si hiciramos una investigacin sobre barras de hierro, sabra-

'(_;s }Cctivas.

39

Interaccin de las pruebas y X. En estudios del diseo experien s, el peligro que constituye el pretest para la valexterna fue denunciado por primera vez por Solomon
[ 1949], aunque idnticas consideraciones haban llevado an-

tes a algunos experimentadores a la aplicacin del


6,
que omite el pretest. En especial durante los estudios de cambios de actitud, en que los mismos tests introducen grandes
ecmtidades de contenido extraordinario (p. ej., una tan abuncbnte dosis de declaraciones hostiles como las que se hallan
en el test tpico de prejuicios), es bastante probable que las
actitudes de la pL~rsona y su propensin a dejarse persuadir
varen por influjo del pretest. Como psiclogos, dudamos seriamente de la comparabilidad del pblico que asiste a una
proyeccin de Gcntlcrneu's Agreement (un film antiprejuicial)
inmediatamente
habrsele administrado un test de
100 tcms sobre
con otro pblico
vea la
misma pelcula sin que se
sometido
dicho tl'st. Estas dudas se
no solo
p:1l del pretest, sino tarr.bin a su efecto sobre la respuesta a
b persuasin. Supongamos que esa pelcula en particular fue
tan hicn re;tlizada que algunas personas llegaron a disfrutarla
por su inters romntico, sin darse cuenta siquiera del problema social que planteaba. Tales personas no existiran proballlementc en un grupo al que se hubiere administrado un pre!cst. S el pretcst sensibiliz al pblico sobre el problema,
podra, por medio
una concentracin de la atencin, inteneducativo de X. Sera concebible que
sificar en s el
c:sn X solo resultase
para un grupo al que se hubiese
administrado un pretest.
Aunque es frecuente mencionar un efecto sensibilizador de esta
ndole en comentarios anecdticos sobre el tema, los pocos
resultados publicados de investigaciones indican tanto la ausencia de efectos f p. ej., Anderson, 1959; Duncan y otros, 1957;
Glock, 1958; Lana, 1959a, 1959b; Lana y King, 1960; Piers,
1955; Sobol, 1959; Zeisel, 1947] como un
de interaccin que equivale a un amortiguador. As, Solomon [ 1949]
descubri que administrando un pretest se reduca la eficacia
del entrenamiento ortogrfico experimental, y Hovland, Lumsdaine y Shcffield [ 1949] sugirieron que un pretest restringa
los efectos persuasivos de las pelculas cinematogrficas. Bien
vale la pena evitar este efecto de interaccin aunque no sea
tan expuesto a error como la sensibilizacin (ya que los falsos
positivos son un problema mayor en nuestra literatura que los
falsos negativos, a causa de la gran cantidad de descubrimientos publicados [Campbell, 1959, pgs. 168-70]).
Al restringir la validez externa, el efecto del pretest sobre X
depende, naturalmente, del grado en que tales mediciones
repetidas son caractersticas del conjunto respecto del cual se

40

41

mos por la
que una primera pesada nunca produce efe~tos
pero que la orientacin del campo magntico, si no se la regulara de manera sistemtica, podra limitar
gravemente la posibilidad de generalizar nuestros descubrimientos. Los motivos, pues, de invalidacin externa son presunciones de leyes generales en la ciencia de una ciencia: conjeturas acerca de los bctores qne pueden intetactuar con nuestras
de tratamiento segn cierta
y, por lo tanto,
los que pueden dejarse de lado.
de los
especficos existe una ley general
que nosotros, :1s como el resto
los hombres de
aceptamos como ;,upucsto: es la versin moderna de
"'"<Pete de Mill acerca de la <<legalidad de la naturaleza.
Esa versin, menos tajante y drstica, puede enunciarse como el supuesto del aglutinamiento ( stickiness) de la na tu~
ralczc1: cuanto ms cercanos se hallan dos acontecimientos en
tiempo, espado y valor -medido este en cualquiera de sus
dimensiones o en todas ellas-, ms tienden a ajustarse a las
mismas leyes. Si bien las interacciones complejas v las relaciones curvilneas habrn de confundir presumiblemente los intentos de generalizacin, tal posibilidad aumenta en relacin
directa con el grado en que la situacin experimental difiere
de la si tu acin con respecto a la cual se desea generalizar,
Nuestra necesidad de una mayor validez externa ser pues, el
requerimiento de la mxima similitud entre experi~entos y
condiciones de aplicacin que sea compatible con la valiaez
interna.
Tngase en cuenta, en este sentido, que las ciencias ms
prsperas, como la fsica y la qumica, han avanzado sin
prestnr la menor atencin a Ja represent:atividad (aunque s, y
mucha, a la reiterabilidad por parte de investigadores ind). Un laboratorio artificial dentro de una torre de
marfl quiz sea una maravilla, pero no ser representativo, y
a menudo la artificialidad puede resultar imprescindible si se
quiere s.ep?rar analticamente variables fundamentales para
descubnm1entos de muchas ciencias. Pero, sin duda, si no incon la validez interna o el anlisis, la validez externa
es un~ co~sider?cin de la mayor importancia, sobre todo pra
una ocncJa aplicada como es la pedagoga.

fntcrau.Jl entre la seleccin 'V X. f\un cunndo el


controla
efectos de seleccin a fin de explicar
experimental y el Je control, conlna en
cas enlre el
la
de que los efectos vliclamenlc demostrntlc>s
solo se verifiquen en aquella poblacin
de la cual se
a la vez ambos grupos. Esta posibilidad es tanto
cuanto m;s graves son nuestras dificultades de consesujetos para el experimento. Consideremos las posihles
consecuencias de un experimento de enseanza en el cual el
investigador se ha visto rechazado por nueve sistemas
y <1Ccptado por el dC:cimo. Es casi seguro que ese ltimo difera, en ms de un aspecto, de los nueve anteriores, as como
del conjunto de escuelas para el que quisiramos generalizar.
Por lo t;lnto, no es representativo. Podra asegurarse qw~, e1l
cuanto a la escuela media, su personal tiene ms espritu, menos temor a las inspecciones y ms deseo de mejorar. Y aunque los
que descubriramos fuesen internamente vlitales escuelas. A fin de
dos, podran ser especficos
formular un juicio lo ms exacto posible sobre b mater<l, convendr< que los informes de investigacin proporcionen cbtos sobre cm1ntas y cmo eran las escuelas y los cursos de los
que se solicit cooperacin y la negaron, a fin de que el lector
pueda estimar la gravedad de posibles sesgos selectivos. En
general, cuanto mayor es la cooperacin prestada, mayor el
grado en que se afecte la rutina y ms elevada nuestra tasa de
negativas, mayor ser tambin la oportunidad de que exista
un efecto de especificidad de seleccin.
Aclaremos ms puntualmente qu es lo que en realidad significa la interaccn entre seleccin y X>>. Si estuvisemos

42

por realizar un estudio dentro de una nica escuela voluntaria, empleando la asignacin aleatoria de suietos a grupos ~x
perimentales y de control, no nos preocupana el efecto prmcipal de la escuela en s. Si este factor elevara por igual ~a
media del grupo experimental y la del de control, no se caus~tla
dao alguno. Pero si existiesen en la escuela caractersticas
que hicieran ms eficaz al tratamiento e~perimental en ella
que en la poblacin de escuelas que consutuyen el verdadero
objetivo de la prueba, las consecuencias podran ser graves.
Queremos estar seguros de que puede menospreciarse la interaccin entre las caractersticas de la escuela (probablemente
relacionadas con el hecho de que es voluntaria) y los tratamientos experimentales aplicados. Algunas variables experimentales podran ser bastante sensibles a las caractersticas de
la escuela, lo cual quiere decir que interactuaran con ellas;
otras, no. La interaccin podra darse en escu~las co.n CI
medios similares, o no presentarse all donde las t!lferenoas de
CI fuesen elevadas. Sera de esperar, sin embargo, una mayor
probabilidad de interaccin si las escuelas difiriesen mucho en
distintas caractersticas que si fuesen anlogas.
A menudo se producen importantes sesgos de muestreo a cau ..
sa de la inercia de los experimentadores, que no conceden a
una seleccin ms representativa de escuelas la oportunidad
de negarse a participar. De ah que la mayora d~ l.as investigaciones sobre educacin se ~wgan en los est~.blecumentos que
cuentan con mayor porcentaJe de alumnos ht)Os de profesores
universitarios. Aunque es imposible la representatvidad perfecta en el muestreo, y aun se la descuida casi en absoluto .en
muchas ciencias (por ejemplo, en la mayora de los estudios
publicados en el ]ournal of Experimen~al ~sychology) '. pued.e
y debe aspirarse a ella como a un destderatum en la m':estlgadn educacional. Una forma de aumentarla es reducir el
nmero de alumnos o aulas participantes que pertenezcan a
un coleaio o nivel dado y aumentar la cantidad de escuelas y
niveles ~n que se lleve a cabo el experimento. Es obvio que
nunca vamos a realizar experimentos sobre muestras que representen a todas las aulas de Estados Unidos o del mundo.
Solo poco a poco aprenderemos hasta dn~e se puede g~nera
lizar un descubrimiento internamente. vhdo, por m~d10 de
comprobaciones empricas en ese sent1do. Pero t.ales mtentos
de generalizacin tendrn xito ms ,a menudo si en el .experimento original se demuestra el fenomeno en una ampha variedad de condiciones.
En cuanto a los signos positivos y negativos que aparecen en

43

el cuadro 1, resulta evidente que nada seguro puede consignarse en esa columna. Se la presenta, no obstante, porque los requisitos de algunos diseos exageran o atenan la gravedad
de este problema. El diseo 4, dentro del mbito de las actitudes sociales, es tan exigente en lo que a cooperacin por
parte de los participantes se refiere, que en definitiva la investigacin solo se hace con un pblico cautivo en vez de realizarla con ciudadanos comunes, que son a quienes quisiramos
referirnos. En una situacin de esa ndole, el diseo 4 merecera un signo negativo en cuanto a seleccin. No obstante,
en la investigacin pedaggica nuestro universo de inters est
constituido por un pblico cautivo para el cual se pueden obtener diseos 4 de elevada representatvidad.

Otras intertlcciones con X. De manera parecida, las interacciones de X con los dems factores pueden examinarse como
amenazas a b validez externa. La mortalidad diferencial sera
un prodncto de X y no una interaccin con ella. La interaccin
de la instrumentacin con X se ha incluido implcitamente en
el ani'lisis de validez interna, ya que un efecto especfico de
instrumentacin ante la presencia de X falseara el verdadero
efecto de X (p. ej., cuando los observadores asignan puntajes,
conocen las hiptesis y saben cules son los estudiantes que
recibieron X). Una amenaza a la validez externa es la posibilidad de que los efectos sean especficos de los instrumentos
paniculares (tests, observadores, medidores, etc.) empleados
en el estudio. Si en todos los tratamientos se utilzan observadores o entrevistadores mltiples, tales interacciones pueden estudiarse directamente [Stanley, 1961a]. La regresin
no interacciona con X.
La maduracin tiene consecuencias de especificidad de seleccin: los resultados pueden ser especficos de un determinado grupo ctario, del cansancio, etc. La interaccin de la
bisLoria y X implicara que el efecto haba sido especfico de
las condiciones histricas del experimento, y aunque su observacin es vlida, no se lo hallara en otras.
El hecho de que . el experimento se llevase a cabo en el
trascurso de una guerra, o a continuacin de haber fracasado
una huelga de maestros, etc., podra producir una reaccin
frente a X que no aparecera en otras circunstancias. Si tuvisemos que preparar un modelo de muestreo para este problema, nos gustara que el experimento se repitiese en una
muestra aleatoria de ocasiones pretritas y futuras, lo cual,
como es obvio, resulta imposible. Adems, compartimos con

44

otras ciencias el supuesto emprico de que no existen leyes


que dependan en verdad del tiemr_o, que lo~ ef:ctos de la
historia, cuando los haya, se deberan a combmactones especficas de condiciones de estmulo que se dieron en aquel momento, y que llegarn a incorporarse en definitiva a leyes generales independientes del tiempo [Ney~an, 1960]. (Tal_ ;ez
parezca que las cosmologas de un <<Umverso en expanston
requieren una restriccin de esta afir:nacin, p~ro no en formas pertinentes a lo que ahora estudta:nos. )_Su~ ,embarg.o, .la
feliz reiteracin de los resultados de la mvesngacton en dtstmtos tiempos y situaciones aumenta nuestra confianza en el valor
la generalizacin, al disminuir la probabilidad de la interaccin con la bistoria.
Estos distintos factores no se han incluido como otros tantos
encabezamientos de columnas en el cuadro 1, porque no ofrecen bases firmes de discriminacin entre diferentes diseos.
Dispositivos reactivos. En el ex:r;erimento J;scol~~i~o .comn,
si no en la investigacin educativa, la obvia arttftCiahdad de
la situacin experimental y la conciencia del estudiante de
que est participando en un experime_n~o son causas _ms que
suficientes de carencia de representatrvtdad. Para suetos humanos, se proyecta una tarea de resolucin de problemas d.e
orden ms elevado, en la cual se reacciona contra los procedimientos y el tratamiento experimental no solo en razn de
sus simples valores de estmul<:, sino. ;ambin por ?u funcin
de claves para interpretar la mtencwn del expenmentador.
El representar cargos, el adivinar la intencin, el prepar~.rse
para la inspeccin, el sentir cad~ cual q~e soy un conerllo
de Indias o muchas otras actitudes as1 generadas, no son
en modo ,~Iguno representativas de la verdadera sitl~a~n
escolar; parecen calificar m~s ?~en el efecto ~e X,. dlfrcu!tando gravemente la generaltzacion. Cuando es 1mposrble evitar tales dispositivos reactivos, habra que continuar de cualquier manera con los experiment?s de esa n~lole. que te~gan
validez interna, pero resulta obv1a la conven~enc1a. ,de evlta~
los cuando ello sea posible. Al hacer esta aftrmacwn adherimos en parte a la conocida crtica antexperimental que es
frecuente en los consejos de educacin y entre los docentes,
contra la futilidad}> de toda esa experimentacin. Nuestra
ms moderada conclusin no es, sin embargo, que habra que
abandonar la investigacin por ese motivo, sino ms bien
que, a cansa de l, habra que mejorarla. A este respecto tenemos unas cuantas sugerencias que ofrecer.
45

de gr:ncnd izarse

otras situaciones

Cualquier aspecto del procedimiento experimental puede producir ese resultado de dispositivos reactivos. La administracin
de pretests, prescindiendo de su contenido, puede hacerlo, y
parte de la interaccin del pretest con X puede ser de ese
tipo, aunque hay poderosas razones para sospechar de los aspectos mismos de contenido de la aplicacin del test. El sistema de aleatorizacin y asignacin a tratamientos quiz sea
de esa ndole. Consideremos el efecto que se produce sobre
una clase cuando (como en Solomon [ 1949] se hace pasar
a una habitacin separada a la mitad de los alumnos, elegidos al azar. Ese acto, ms la presencia de maestros extraos, tiene qne crear por fuerza expectaciones de hechos
desusados, snscitndose as el asombro y una activa curiosidad en cuanto a su objeto y finalidad. La presentacin del
tratamiento X, si fuese un acontecimiento inusitado, podra
tener un efecto similar. Es de presumir que aun el postest, en
un diseo 6 de postest solamente, podra crear esas mismas
actitudes. Cuanto ms evidente sea la conexin entre el tratamiento experimental y el contenido postest, ms probable
ser ese efecto.
En d campo de los cambios de opinin pblica, esos dispositivos reactivos suelen ser difciles de evitar. Pero en la mayor
parte de la investigacin de mtodos educativos no hay necesidad de que los estudiantes sepan que se est realizando un
experimento. (Sera muy conveniente que tambin los maestros lo ignorasen, a la manera del doble ciego en medicina,
pero por lo comn esto suele ser imposible.) Varios recursos
permiten disimularlo. Si las X son variables sobre acontecimientos usuales en el aula, pero que se producen a intervalos
bastante largos dentro del calendario escolar, un tercio de la
batalla se habr ganado si los tratamientos mencionados se
aplican sin previo anuncio. En forma similar, si se incluyen
las O en exmenes regulares, se llena el segundo requisito.
Si las X son comunicaciones centradas en determinados estudiantes, puede lograrse la aleatorizacin sin necesidad de trasportar fsicamente muestras aleatorias equivalentes a aulas
distintas, etctera.
A la luz de estas consideraciones, as como de observaciones
personales de los experimentadores que han publicado datos
pese a tener un rapport tan pobre que sus hallazgos eran bastante engaosos, los autores del presente volumen van llegando poco a poco a la conclusin de que la experimentacin
dentro de las escuelas debe realizarse, siempre que sea posible, con el personal regular de ella, en especial cuando los

c:-;tm en boga dos tipos pri.ncipadenlro de las escuelas: 1) estudios


a la cscw:la por ~,dguicn de fuera, que persigne
tttcrc:;c:; y cu.yo objetivo no es que la escuela emwench un:1 a~'Ciilt inmediata (o cambio), y 2) d llamado
,nves1 ig:H!ol' <<de accin, qm procura qmc sc~1.11 los maestros
iJtsmos quiciH:s <<Cxpcritncn!cn, tomado este tn1ino en senLido muy attlplin" En d printct c1so los
Lados pueden
ser rigurosos pero no aplicahlcs. En el segundo, en cambio,
sc;llt llluy aplicables pero probablement~ no son Cerus, a causa ele una gran fnltn ck rigor en la investigacin.
ro modelo posible es que las ideas p:.H\ la invest.igacin eS
. obr partan de los maestros y directores, se elaboren los
disef1os para someterlas a prueba en coop,~racin con especialistas en metodologa de investig;JCn y luego se encarguen de la mayor parte de la experimentacin los promo ..
lores de la idea. Los anlisis estadsticos respectivos podra
re;dizarlos el investigador mctodologista, y los resultados los
yoh,era a introducir al gm po un intermediario idneo (supervisor, director de investigaciones del consejo escolar, etc.)
que hubiera servido en tal carcter durante todo el proceso.
De esa manera se lograran rcsnlt:1dos pertinentes y <'corree
tos>>. La forma de realizar investigacin bsica con un sistema de esta ndole es un problema en gran parte sin resolver
~(m, pero los estudios podran ser cada vez menos ad hoc y
orientarse ms hacia los aspectos tericos, bajo la supervisin
de un intermediario competente.
Aunque no tenemos en esta obra la intencin de destacr
los buenos o malos ejemplos observables en la literatura es ..
pccializada, un reciente estudio de Page [ 1958] indica una
utilizacin tan buena de estos aspectos (evitando dispositivos
reactivos, logrando representatividad de muestreo y evitanJo
las interacciones entre las pruebas y X), que vamos a citarlos
aqu como ilustracin concreta de la prctica ptima. Su estudio
indica que breves comentarios escritos agregados a exmenes
objetivos que se devuelven a los alumnos hacen mejorar el rendimiento en pruebas objetivas posteriores. A esta conclusin se
lleg actuando con 74 maestros, 12 consejos escolares, 6 niveles o grados (7-12), 5 niveles de rendimiento (A, B, C, D, F)
y gran variedad de sujetos; no hubo casi prueba alguna de
efectos de interaccin.
Los alumnos y las clases se eligieron al azar. Se emple como

46

47

pretest el
examen objetivo
en
clase. Arrojando un
especial, el maestro
alumnos a grupos
de tratamiento y, segn los Cilsos,
o no comentarlos
escritos a la prueba. La siguiente
objetiva, tomada de
acuerdo con la progrnmacin normal, pas a ser el postes t.
Hasta donde pudo determinarse, ninguno de los 2.139 alumn<:s se ente~ de J: experimentacin. Ptlcos son los procedimientos
mstn!CCJOllL'S que se prestan a est; tan disimulada
ya que por lo comn la comunicacin oral neccsar:l.se.
a to~la L1
y no a
individuos. (L1s
comunlcanones esctJtas permiten
aunque la
por parte del
ntos trataconstituye un problema.
investig:Hlores pueden
que los
tengan menos carnctersticas reactivas que en la actualidad.
Por
de exmenes regulares tomados en el aula, o tests
presentados corno exmenes regulares y anlogos en su contcmdo, a la vez que mediante procedimientos altcrn<Jtivos
de enseanza prcsenta_dos, sin previo aviso ni peticin de
en d curso de las actividades escolares, es probable
de los casos puedan ev tarse estas
caureactivos. A
en grandes escuelas ~eo en universidades
alumnos se inscriben
en cursos populares dictados en determinados horarios
se
asigna en forma
a mltiples
.
. podran lograrse
de equivalencia
tona medt:mte el control del proceso
asignacin (vase en
y S1egel r1957] la aplicacin de un proceso aleatorio
natun~l, que se. apr:Jvech en esta forma). Sin embargo, por
la ac~K?n de ~tstonas
nicas, tales secciones, al
prmnp1o eqUlvalcntes,, se .tornan. con el correr del tiempo en
segmentos cada vez mas dJferer.crados.
Lr solucin a este problema,
en J!,eneral, es trasladar la
al aula .
como unidad y consttur
experimentales y de
constituido cada uno de
muchas aulas
azar !vase Lindquist,
1940, 953]. Por lo comn, aunque no es imprescindible
f~cto
cursos se clasificaran para su anlisis sobre la base
res corn<? escuela, J~aes:ro o (
este tenga varias
},
hor:, as1gnatura, m ve] Intelectual medio, etc.; de ellos se
nanm: por un proceso aleatorio varios grupos de tratamiento
~xpenmental. Ya se han realizado algunos estudios de est,1
mdole, pero creemos que pronto se generalizarn. Ntese
el test de significacin apropiado no consiste en mezclar
48

los estudiantes como si se los hubiese asignado al azar. Los


detalles se estudiarn en el captulo siguiente.

Tests de significacin para el diseo 4


Hay que distinguir el diseo experimental del uso de tests
estadsticos de significacin. El primero es el arte de lograr
comparaciones interpretables y, como tal, sera necesario aunque el producto final consistiera en porcentajes graficados,
fotografas de grupos en accin, etc. En todos estos casos, la
interpretabilidad de los resultados depende del control sobre los factores a que hemos hecho referencia. Si la comparasignicin es interpretable, se requieren tests estadsticos
o no
ficacin para decidir si las diferencias obtenidas
las fluctuaciones previsibles cuando no existan verdaderas diferencias para muestras de ese tamao. El uso de tests de significacin presume que es factible establecer comparaciones entre los grupos, y que la diferencia descubierta es interpretable,
pero no da pruebas
ello. De ah que nos gustara exponer el
diseo experimental sobre la base del sentido comn y de consideraciones no matemticas. Esperamos que la mayor parte
de esta obra resulte accesible a los estudiantes de ciencias de
la educacin que carezcan todava de preparacin estadstica.
No obstante, hay que reconocer que la cuestin de los procedimientos estadsticos est ntimamente vinculada al diseo
experimental, razn por la cual ofrecemos estos comentarios
particulares sobre el tema. [Vase, asimismo, Green y Tukey,
1960; Kaiser, 1960; Nunnally, 1960, y Rozeboom, 1960.]

Una estadstica errnea de uso comn. Aunque el diseo 4 es


el comn y frecuente, los tests de significacin que con l se
utilizan son a menudo errneos, incompletos o inapropidos.
Al aplicar la razn crtica comn o prueba t a ese cliseo
experimental estndar, muchos investigadores han computado
dos t: una para la diferencia pretest-postest en el grupo experimental y otra para la ganancia pretest-postest en el grupo de control. Si la primera resulta estadsticamente significativa y la otra no, llegan a la conclusin de que X tuvo
un efecto, sin ninguna comparacin estadstica directa entre
el grupo experimental y el de control. A menudo las condiciones fueron tales que, de haberse aplicado una prueba ms
apropiada, la diferencia no habra sido significativa (como
cuando los valores de significacin son casos lmites y el gru-

49

po de control indica una ganancia que casi alcanza el nivel


de significacin). Windle [1954] y Cantor [1956] han demostrado la frecuencia de este error.
Utilizacin de puntajes de ganancia y covariancia. La prueba
aceptable de uso ms comn consiste en computar para cada
grupo pu.ntajcs de ganancia pretest-postest y calcular unq t
entre los grupos experimentales y de control sobre la base de
esos puntajes. El bloqueo o nivelacin aleatoria de puntajes pretest y el anlisis de covaranca utilizando corno covariablc los puntajes de pretest son, por lo comn, preferibles
a las simples comparaciones de puntajes de ganancia. Puesto
que la mayor parte de los experimentos en educacin no acusan diferencias significativas, y por lo tanto no suelen informarse, el uso de este anlisis ms preciso parece ser muy conveniente. Considerando la labor que implica conducir un 'experimento, el trabajo de realizar el anlisis correcto es relativamente trivial. Para ms detalles, pueden consultarse tratamientos estndar de anlisis del tipo Fisher [ vanse tambin
Cox, 1957, 1958; Feldt, 1958, y Lindquist, 1953].
Aspectos estadstico.r de la asignacin aleatoria a tratamientos
de cursos lttactos. La estadstica habitual solo resulta apropiada en casos de asignacin aleatoria de alumnos individuales a los tt<ltamientos. Si, en cambio, se asignaran cursos intactos, las frmu bs precedentes daran un trmino de error demasiado pequefo, pues, como es natural, el procedimiento de
aleatorizacin hahn sido ms global y se habrn utilizado
menos . ;Jcontccimientos aleatorios. Lindquist ( 1953, pgs.
172-89] ha suministrado el fundamento lgico y las frmulas pam la realizacin de un correcto anlisis. En esencia, se
emplean las medias de la clase como observaciones bsicas,
y se prueban los efectos del tratamiento contra variaciones en
esas medi,Js. Un anlisis de covatiancia utilizara como covariahle medias pretest.
Aspectos estadsticos de la validez interna. Las observaciones
precedentes se hicieron a fin de dar a conocer la ortodoxia
estadstica reh1tiva al diseo experimental. Las siguientes representan un esfuerzo por ampliar o corregir esa ortodoxia,
extendiendo al terreno de la estadstica del muestreo u.na inferencia de la distincin entre validez externa y validez interna. Los principios estadsticos antes analizados implican en
su totalidtd::el muestreo en un universo infinitamente grande, ms aprqP,~ado para una encuesta de opinin pblica que

para el experimento habitual de laboratorio. En casos muy


raros, como el estudio de Page [ 1958], hay un muestreo real
tomado de un gran universo predesignado, que se apropia las
frmulas habitu,ales. En el extremo opuesto se encuentra el
experimento de laboratorio presentado en el Journal of Experimental Psychology, por ejemplo, en el que la validez intema ha sido la nica consideracin y todos los integrantes
de un pequeo universo nico se asignaron a los grupos de
tratamiento. En este tipo de prueba se pone gran nfasis en
el procedimiento aleatorio, pero no a fin de asegurarse la representatividad respecto de otra pobh1cin mayor, sino al exclusivo efecto de igualar los grupos experimentales y de control
o los distintos grupos de tratamiento. La aleatorizacin se aplica, pues, a una poblacin finita muy reducida, que es en realidad la suma
los grupos experimentales y de control.
Esta posicin extrema sobre el universo de muestreo se justifica cuando se describen procedimientos de laboratorio de
esta ndole: se solicitan voluntarios, prometindoles o no una
gratficacin en dinero, puntajes de personalidad, puntajes para la aprobacin de cursos, o cumplimiento de un requisito obligatorio que de todos modos tendrn que satisfacer
en algn momento del curso acadmico. A medida que llegan,
se los va asignando al azar a los distintos tratamientos. Cuando se ha alcanzado determinado nmero de sujetos, se interrumpe el experimento. Ni siquiera ha habido una seleccin
aleatoria entre los integrantes de una lista mucho mayor de
voluntarios. Los primeros constituyen una muestra sesgada y
el universo total muestreado cambia de un da a otro a
medida que el experimento contina, que se requiere ms
presin para reclutar voluntarios, etc. En un momento dado
se detiene el procedimiento, despus de haberse utilizado a
todos los miembros designables del universo en uno u otro
de los grupos de tratamiento. Ntese que los sesgos implicados de muestreo no amenazan en lo ms mnimo la equivalencia aleatoria de los grupos de tratamiento, sino solo su
represen tatividad.
Consideremos ahora a un cientfico ms meticuloso, que de
una clase integrada por 250 personas extrae 100 al azar, se
pone en contacto con ellas por carta o por telfono y, despus
de entrevistarlos, los asigna, tambin al azar, a grupos de tratamiento. Por supuesto, unos 20 de ellos no pueden ajustarse
al horario de laboratorio, estn enfermos, etc., por lo cual
se ha producido una redefinicin implcita del universo. Y
aunque gradas a su perseverancia consiga los 100, lo que ha-

~-. ,.;,

51

br ganado, desde el punto de vista de la :epresenta~lv~dad,


ser la posibilidad de generalzar con segunda? e~tadtst~ca a
propsto del curso del ao 1961 de Psicologw EducaciOnal
A en la Escuela Normal del Estado. Este nuevo universo,
aunque mayor, carece de positiv<; inters ci~ntf~co., ~us lmites no son los estatuidos por nmguna teona cientiflca. Los
aspectos de verdadero inters para la generaliza~in debern
explorarse por medio del muestreo de expenmentos r~a
lzadus en otros lugares. Por supuesto, al ser menos seleccionados sus alumnos, se tiene una mayor validez externa, pero
no ganancia suficiente para que la mayora de los psiclogos
experimentales consideren que se compensa con ello el esfuerzo realizado.
Resulta, en general, obvio que el fin principal que se l?ersiguc con la alcatorizacin en experimentos de la~oratono .c.s
la validez interna, no la externa. Por tanto, habna que utthzar mrgenes de error ms reducidos y apropiados, basados
en pequeos universos finitos. Siguiendo a Kempthorne
[1955] y Wilk y Kempthorne [1956], creemos que el modelo correcto es la aleatorizacin en urnas en vez de la extraccin de muestras de un universo. De ese modo se dispone de
un test no pnramtrico ms apropiado y preciso, en _el cual
se toman los puntajes obtenidos en los grupos expenmentales y de control v se los asigna una y otra vez a dos LUnas,
aenerando emprica o matemticamente una distribucin de
diferencias medias que resultan en su totalidad de asignaciones aleatorias de esos puntajes particulares. Tal distri~mcin
constituve el criterio con que debera compararse la diferencia media obtenida. Cuando exista una interaccin posicintratamiento (heterogeneidad de efectos reales entre los
sujetos), esa distribucin tendr una variabilidad menor CJ_Ue
ia correspondiente distribucin adoptada en la.J?rueba comun.
Con estos comentarios no pretendemos modificar mucho la
actual prctica en la administracin de tests de significacin
en la investigacin pedaggica. Las soluciones exactas son
difciles de conseguir y, por lo comn, muy laboriosas. La aleatorizacin por urnas, por ejemplo, suele exigir la utilizacin
de computadoras de gran velocidad. La direccin del erro_r es
conocida: el empleo de la estadstica tradicional es demasia?o
conservador con una excesiva tendencia a decir no se regtstran efectos:>. Si juzgamos que nuestras publicaciones estn
saturadas de falsos positivos, es decir, de informacin sobre efectos que no resiste la prueba de una validacin cruzada (como acaece, por cierto, con la psicologa experimental

No hay ningn procedimiento estadstico particular que utilice a un mismo tiempo los seis conjuntos de observaciones.
Las :::simetras del diseo descartan el anlisis de la variancia

52

53

1 social, aunque no todava con la investigacin pedaggica),


' '"~ error -~si lo es- ser siempre preferible. La posibilidad
'k: subestimar la significacin es mayor mando solo hay dos
, nndiciones experimentales y se emplean todos los sujetos
,!isponibies [Wilk y Kempthorne, 1955, pg. 1154].

'1.

Discr1o de cuatro grupos de Solomon

\ungue el diseo 4 se usa m,is, el 5, denominado


de
lUatro grupos de Solomon [ 1949] tiene con tazn un maI'Or prestigio y constituye la primera consideracin explcita
de factores de validez externa. El diseo es el siguiente:

R 01 X 02
R 0:1
04
R
X 0:;
R
06
Tra;o,mdo u1 forma paralela los elementos del diseo 4 ( 0 1
a ) con los grupos experimental y de control sin pretest,
cabe determinar tanto Jos efectos principales de la realizacin
de la pruc!Ja como la interaccin entre ella y X. De ese modo,
no solo se <1tlmenta la posibilidad de generalizar, sino que
adems se repite el efecto de X en cuatro formas diferentes:
02
01, o~ > 04, 0:. > Oa y 05 > Oa. Las inestabilidades
concretas de la experimentacin son tales que, si esas comparaciones concuerdan, el vigor de la inferencia queda muy incrementa(1o. Otra contribucin indirecta a la posibilidad de generalizar los hallazgos experimentales es tambin que, en virtud de la experiencia con el diseo 5 en cualquier mbito de
investigacin dado, se averigua la posibilidad general de interacciones de pruebas por X, pudindose as interpretar
mejor los diseos 4, tanto futuros como pasados. Asimismo,
puede advertirse (comparando Oe con 01 y O:J) un efecto
combinado de maduracin e historia.
Pruebas estadsticas para el diseo 5

de puntajes. (Las sugerencias de Saloman a este respecto se


consideran inaceptables.) Dejando de lado los pretests, salvo
como un nuevo tratamiento coordinado con X, se pueden
estudiar los puntajes postest mediante un
anlisis 2 X 2
del diseo de variancia:
Con administrncin de pretest
Sin administracin de pretest

, 1~: la informacin presentada al jurado por el abogado defen' ll'. El diseo 6 responde a esa necesidad, y adems es aproiado para todas las situaciones en que podran utilizarse los
diseos 4 o 5, es decir, aquellas en que es posible una verdadera alcatorizacin. Su forma es la siguiente:

Sin X

El pretest es un concepto muy arraigado en el pensamiento


de los investigadores en los campos de la educacin y la psicologa, pero en realidad no es imprescindible para los dis\:os experimentales propiamente dichos. Por razones psicolgicas, es difcil renunciar a t<"ner la seguridad
que los
grupos experimentales y de control eran iguales antes del
tratamiento experimental diferencial. No obstante, la aleatorizacin implica la mayor seguridad, aplicable a cualquier fin,
de la carencia de sesgos iniciales entre grupos. Dentro de los
mrgenes de confianza establecidos por las pruebas de significacin, la aleatorizacn puede ser suficiente, sin necesidad
de recurrir al pretest. En realidad, casi todos los experimentos agrcolas realizados en la tradicin de Fisher [ 1925, 1935]
carecen de pretest. Ms todava, en investigacin pedaggca,
sobre todo en los grados primarios, tenemos que experimentar a menudo con mtodos que permitan la introduccin inicial de elementos absolutamente nuevos, para los cuales son
imposibles los pretests en el sentido ordinario del trmino, lo
mismo que estaran fuera de lugar los referidos a la presunta
culpabilidad o inocencia en un estudio acerca de los efectos

Si bien este diseo se utilizaba ya en la dcada de 1920, la


111ayorfa de los textos. metodolgicos no lo han recomendado.
l<Jlo se debi en parte a que se lo confunda con el diseo
), y tambin a la falta de confianza en la aleatorizacin como
procedimiento de igualacin.
Puede considerarse que este diseo comprende los ltimos dos grupos idel diseo de cuatro grupos de Saloman;
controla la aplicacin del test como efecto principal y la inleraccin, pero, a diferencia del diseo 5, no los mide. Sin
nnbargo, esa medicin es tangencial a la cuestin bsica de
si X tuvo o no un efecto. As, pues, el diseo 5 es preferible
:1l 6 por las razones apuntadas, pero las mayores ventaias
(!el 5 quiz no justfquen el esfuerzo que demanda (ms del
doble ) . Asimismo, el diseo 6 es por lo comn preferible al
4, a menos que haya alguna duda a propsito de la autentiddad del proceso aleatorio de asignacin. El diseo 6 se usa
demasiado poco en investigacin educacional y psicolgica.
Pero en el caso de repeticin de pruebas, que se presenta
con frecuencia en la investigacin educacional, si se dispone de
antecedentes apropiados en materia de variables, se los debera emplear para bloqueo o nivelacin, o como covariables.
Esta recomendacin la hacemos por dos motivos. Primero,
porque las pruebas estadsticas en que se apoya el diseo 4
son ms decisivas que las existentes para el 6. El esfuer:w
que exige el diseo 4 anula esta ventaja en la mayor parte
de las situaciones de investigacin, pero no ocurrira as si se
dispusiese en forma automtica de antecedentes apropiados
sobre puntajes. En segundo lugar, la disponibilidad de puntajes pretest permite examinar la interaccin de X y el nivel
de habilidad en el pretest, explorando as ms a fondo la
posibilidad de generalizar el hallazgo. Algo similar puede hacerse a propsito del diseo 6, empleando otras medidas disponibles en vez del pretest, pero estas consideraciones, sumadas al hecho de que para la investigacin pedaggica los tests
frecuentes son caractersticos del universo al cual se ~naan

54

55

Sobre la base
las medias de las columnas se estima el
efecto principal de X; de las medias de las filas, el efecto
casilleros, la
principal del pretest y de las medins ele
intc:raccin entre la aplicacin del t<.:st y X. Si los efectos
principales <.: interactivos de la aplicacin de las pruebas son
muy pequeos, acaso sea conveniente realiz<lr un an1lisis de
covariancia de O, contra 0 2 , con los puntajes del pretest por
covariable.

6. Diseo de grupo de control con postest


nicamente

extender las generalizaciones, pueden invertir el criterio de


preferir por lo comn el diseo 6 al 4. Ntese asimismo que
para cualquier mortalidad sustancial entre R y el pos test los
datos de pretest del diseo 4 ofrecen mayores oportunidades
de eliminar la hiptesis de mortalidad diferencial entre los
grupos experimental y de control.
Aun as, hay muchos problemas para los cuales no se dispone
de pretests, o estos resultan inconvenientes o capaces de provocar reacciones, y para esos casos es preciso seguir insistiendo en muchos sectores acerca de la legitimidad del cliseo' 6. Acbmis de los ~studios sobre el modo de ensear
material nuevo, queda una gran cantidad de casos en los que
la X y la O postest pueden entregarse a los alumnos o grupos
como un solo paquete natural, y un pretest resultara molesto. Tales situaciones se producen con frecuencia en los
mismos procedimientos de prueba, as como en estudios de
instrucciones distintas, planillas de respuesta de formato diferente, etc. Algo similar ocurre con los estudios sobre campaas para reclutar voluntarios, etc. En los casos en que hay
que guardar el anonimato del alumno, el diseo 6 suele ser
el ms conveniente, encarndose entonces la aleatorizacin
por medio del ordenamiento mezclado de materiales destinados a la distribucin.

como medicin postest, a causa de su probable insensibilidad


a X si se lo compara con una medicin ms especficamente
apropiada en contenido y oportunidad. No tiene mucha importancia decidir si ese scudodisco de pretest debe cbsificarse como 6 o como 4. Tendra las ventajas del primero, ya
que evitara una sesin pretest introducida por el experitrl'tntador, as como la reveladora repeticin de un contenido
poco usual idntico o muy similar (como en los estudios de
cambios de actitud). Por estas razones la inclusin del diseo 6 bajo el ttulo de Dispositivos reactivos debera ser algo
ms positiva que respecto de los diseos 4 y 5. La justificacin de esta diferencia es, por cierto, mucho ms vlida para
las ciencias sociales en general que para la investigacin sobre
instruccin pedaggica.

Diseos factoriales

El modo ms sencillo sera la prueba t. El diseo 6 es qwza


la nica situacin para la cual esa prueba es ptima. Sin embargo, se pueden emplear el anlisis de covariancia y el
bloqueo de variables sujeto [Underwood, 1957 b], as como
niveles anteriores de educacin, puntajes en tests, ocupacin
de los padres, etc., consiguindose as mayor poder del test
de significacin, muy similar al que brinda un pretest. No es
necesario que el pretest y el postest sean idnticos. A menudo
sern formas diferentes del mismo test y por lo tanto menos idnticos que una repeticin del pretest. La mayor precisin obtenida se vincula en forma directa con el grado de
covariancia, y aunque esta suele ser ms elevada en formas
alternadas del mismo test que en tests diferentes, se
trata de una cuestin de grado tan confiable y factorialmente
compleja como la superioridad eventual de un promedio puntual respecto de un breve pretest. Advirtase, sin embargo,
que un promedio puntual no es por lo comn conveniente

Sobre la base conceptual de los tres diseos anteriores, pero


en particular el 4 y el 6, pueden ampliarse las complejas eh
boraciones tpicas de los diseos factoriales de Fisher, agregando otros grupos con otras X. En un criterio tpico de clasificacin nica o anlisis de la variancia en un solo sentido,
tendramos varios niveles del tratamiento, por ejemplo,
X 1 , X:2, X:, etc., y quiz tambin un grupo X o (ausencia de
X). Si se considera el grupo de control como uno de los tratamientos, habra en los diseos 4 y 6 un grupo para cada
tratamiento. En el diseo 5 habra dos. grupos (uno sometido a pretcst, el otro no) para cada tratamiento, y aun sera
posible un anlisis de variancia de doble clasificacin (en
dos sentidos). No tenemos noticia de que se hayan realizado
diseos del tipo 5 en ms de dos niveles. Por lo comn, si
nos preocupa la interaccin pretest, empleamos el diseo 6,
a causa del gran nmero de grupos que de no hacerlo as
seran necesarios. Muy a menudo se utilizarn d0s o m<is variables de tratamiento, una en cada uno de los distintos niveles, dando una serie de grupos que podran designarse Xal
Xo1, Xat,Xv~, X"1 Xb:, ... , Xa2 Xbt, etctera.
Tales elaboraciones, complicadas con intentos de economizar
eliminando algunas de las posibles. permutaciones de Xa. por
X a, han producido parte de los inquietantes misterios del diseo factorial (bloques aleatorizados, parcelas divididas, cuadrados grecolatinos, repeticin fracciona!, confusin, etc.),

56

'57

Aspectos estadsticos del diseo 6

Interaccin

origen de la enorme brecha que separa las metodologas avanzadas ?e las tradicionales en el mbito de la investigacion
educacJonal. Esperamos que esta obra ayude a salvar ese vado
por medio de una continuidad con la metodologa tradicional
y las consideraciones dictadas por el sentido comn qlle el estudiante lleva siempre consigo. Tambin estimamos que gran
parte de lo que debe ensearse sobre disef:io experimental se
entiende mejor si se lo expone en forma de diseos de dos
tratamientos, sin interferencia de otras complicaciones. No
obstante, la exposicn completa de los problemas planteados
por el uso comn provocar una comprensin mayor tanto de
ln necesidad como de la localiz,cin de modernos enfoques.
Al bus~ar la ~or~a ms efic~z de resumir el anticuado pero tan
dlfund1do dtseno 4 nos vunos ya constreidos a disponer
de un anlisis de covariancia, casi no utilizado en esta situacin. Y en el disefio 5, con un problema de dos tratamientos
que se elabora slo para obtener controles necesarios, nos
a!ejamos de las relaciones crticas o pruebas t, y nos introducunos en la estadstica del anlisis de varianca.
Los detalles de los anlisis estadsticos para diseos factoriales no pueden ensearse ni aun esbozarse siquiera en esta
obra. Edwards [1960], Ferguson [1959], Tohnson y Jackson
[1959] y Lindqust [1953] presentan a -los investigadores
P.edaggcos aspectos elementales de tales mtodos. Confiamos,
stn embargo, en que las explicaciones siguientes permitirn
~lguna rnnyor c~lmprensin de ciertas alternativas y compleJldades de particular relevancia en los aspectos de diseo
anali?:ado~ en nuestra obra. Las complejidades que tenemos
que anaiJzar no comprenden !as razones comunes para recurrir a cuadrados latinos ni a muchos otros diseos incompletos en que el conocimiento de ciertas interacciones se sacrifica por meras razones de costo. (Pero el uso de cuadrados
btinos como sustituto de los grupos de control en los casos
en que no hay modo de aleatorizar se estudiar 1ms adelante
como diseo cuasiexperimental 11.) La razn de haber pres~
cindido aqu de esos diseos incompletos es que para el
problema de validez externa resulta muv conveniente contar
con un conocimiento detallado de las int~racciones, sobre todo
en una ciencia que ha tenido problemas para repetir los de~
cubrimientos de un investigador en otro ambiente distinto
[vase Wilk y Kempthome, 1957]. Los conceptos que tratamos de exponer en este captulo son los de la nteraccp
las clasificaciones inclusivas y las clasificaciones cruzadas, y lo~
modelos factoriales finitos, fijos, aleatorios y mixtos.

\'a hemos utilizado este concepto en situaciones en que, segn creemos, el lector no especializado lo habr encontrado
comprensible. Como antes, insistimos aqu en las consecuencias relativas a la posibilidad de generalizar. Expondremos en
forma grfica (figura 2) cinco posibles resultados de un diseo con tres niveles, compuesto cada uno de ellos de Xa y
Xb, que denominaremos A y B. (Puesto qu.e se han de graficar tres dimensiones [A, B y O] en dos, son varias las
presentaciones que resultan posibles, de las cuales no emplearemos m1s que una.) En la figura 2(a) puede apreciarse un
notable efecto principal tanto para A como para B, pero ninguna interaccin. (Hay, por supuesto, una suma de efectos
~siendo A:, Ba el ms fuerte-, pero ninguna interaccin,
ya que los efectos son aditivos.) En todos los dems casos
encontramos interacciones significativas adicionales, o bien en
reemplazo de los efectos principales de A y B. Es decir que la
ley sobre el efecto de A vara de acuerdo con el valor especfico de B.
En este sentido, los efectos de interaccin son reglas de especificidad de efecto y, por tanto, conducen al intento de generalizacin. El efecto de interaccin en 2(d) es, sin duda
alguna, de ese orden. Aqu, A no produce un efecto principal
(es decir que, si se promedian los valores de las tres B pa,ra
cada A, resulta una lnea horizontal). Pero cuando se mantiene B en el nivel 1, los aumentos en A producen un efecto
decreciente, en tanto que si se mantiene B en d nivel 3, A
tiene un efecto incremental. Ntese gue si el experimentador
slo hubiese variado A, manteniendo B constante en el nivel
, los resultados, aunque internamente vlidos, hubiesen dado
pie a que se hiciesen generalizaciones errneas a propsito de
B2 y Ba. La caracterstica de mltiple factorial del diseo ha
llevado, pues, a realizar valiosas exploraciones sobre la posible generalizacin o validez externa de cualquier enunciacin
sumaria sobre el efecto principal de A. Las limitaciones de la
posibilidad de generalizar o de la espeficidad de los efectos
aparecen en el anlisis estadstico como interacciones significativas.
La figura 2( e) representa una forma de interaccin an m~s
extrema: ni A ni B producen efecto principal alguno (no resultan reglas generales sobre qu nivel de ambas es mejor)
pero las interacciones son fuertes y bien definidas. Consideremos un resultado hipottico de esta ndole. Supongamos

58

59

Figura 2. Algunos resultados posibles de un diseo factorial


3 X 3.
Grados de O

Grados de O

~
1

(a)

~:'

~~Jj
A

A.t

A,

Grados de O
!

Grados de O

(e)

(d)

~B,

~:'
A,

A.,

A,

Grados de O
(e)

A,

que tres clases de maestros son, en general, de la misma


eficiencia (p. ej., los improvisadores espontneos, los que preparan a conciencia su, trabajo y los que supervisan con esmero
la tarea de sus alumnos). Asimismo, tres mtodos de enseanza resultan, en general, de idntica eficacia (p. ej., discusin en grupo, exposicin formal y supervisin individual).
En tal caso, aun en ausencia de efectos principales en cualquiera de los tipos de maestros o mtodos pedaggicos, podra
ocurrir que estos segundos tuviesen gran interaccin con ]a
modalidad del maestro: el improvisador espontneo tendra
ms xito con la discusin en grupo y menos con la supervisin individual, mientras que el acostumbrado a seguir de
cerca a sus alumnos alcanzara los mejores resultados en la
supervisin individual y los peores en el sistema de la discusin en grupo.
Desde este punto de vista, cabe distinguir los tipos de interacciones significativas halladas. Quiz nos resulte provechoso un
concepto como el de interacciones montonas. Ntese que
en 2 ( b), como en el 2 (a), hay un efecto principal tanto de
A como de B, y que A produce el mismo efecto direccional
en cualquier panel separado de valores de B. En consecuenda,
nos sentimos mucho ms seguros si generalizamos a situaciones nuevas la expectativa de aumento en O con aumentos
en A que si lo hacemos en 2 (e), que podra producir tambin
efectos principales significativos en A y B, as como u!la mteraccin A-B significativa. En realidad, podramos estar casi
tan seguros de la generaldad del efecto principal de A en el
caso 2 ( b) como en el 2 (a), libre este de interaccin. Por
cierto qu.e al interpretar .efectos con miras a la generalizacin
se las debera graficar y examinar bien, en todos sus detalles.
Algunas interacciones montonas o unidireccionales producen pocas limitaciones -y a veces ninguna- sobre la especificidad. (Vase en Lubin [1961] un profundo estudio de
este problema.)
Clasificaciones inclusivas

A,

60

A,

En los ejemplos dados hasta aqu, todos los criterios de clasificacin (las A y las B) se han cruzado con todos los
dems criterios. Es decir que todos los niveles de A se han
dado con todos los niveles de B. Sin embargo, el anlisis
de variancia no se limita a esa situacin.
Hasta ahora hemos utilizado, a ttulo de ilustracin, criterios

61

de clasificacin que eran tratamientos experimentales. Otros


tipos de criterios de clasificacin, como el sexo y la edad de
los alumnos, podran introducirse en muchos experimentos en
forma de clasificaciones plenamente cruzadas. Pero a fin de
incorporar los usos ms comunes de clasificaciones inclusivas, presentaremos la posibilidad de criterios de clasificacin
menos obvios. Uno de ellos es maestros. Operando en el
nivel de cruzado total, se podra hacer una prueba en una
escuela secundaria en la cual diez maestros emplearan uno
de los dos mtodos posibles para ensear una determinada
asignatura a distintos cursos experimentales. En ese caso los
maestros seran un criterio de clasificacin absolntamente
cruzado, pues cada uno de ellos constituira un nivel diferente. El efecto principal de los maestros~> sera la evidencia de que algunos de ellos son mejores que otros, con
prescin<lencia del mtodo que emplearon. (Los estudiantes o
las clases se habrn asignado al azar; de lo contrario se confundiran las idiosincrasias del maestro con las diferencias de
seleccin.) Una interaccin significativa entre maestros y mtodos significara que el mtodo que mejor funcion haba
dependido del docente en particular a quien se estaba considerando.
Supongamos ahora, siguiendo una interaccin de esta ndole,
que nos interesa conocer si, en general, una tcnica dada es
mejor para maestros que para maestras. Si dividimos ahora
nuestros diez maestros en cinco hombres y cinco mujeres, se
obtiene una clasificacin inclusiva en el sentido de que la
clasificacin maestros, aunque todava til, no considera los
sexos; es decir que el mismo maestro no aparece en uno y
otro sexo, en tanto que cada maestro y cada sexo s considera
los mtodos. Esta inclusividad exige un anlisis algo distinto
de aquel en que todas las clasificaciones se cruzan entre s.
(Un anlisis ilustrativo puede verse en Green y Tukey [ 1960]
y Stanley [1961a].) Adems, quedan eliminadas ciertas interacciones de las variables inclusivas. As, no son computables
-ni tienen, en realidad, sentido desde el punto de vista conceptual- las interacciones maestros-sexo y maestros-sexo-mtodo.
Maestros tambin podra convertirse en una clasificacin
inclusiva, si el experimento anterior se extendiese a varias
escuelas, de manera que ellas viniesen a constituir un criterio
de clasificacin (en el cual los efectos principales acusaran
diferencias en la tasa de aprendizaje de los alumnos de los
distintos establecimientos). En tal caso los maestros seran por

lo comn inclusivos dentro de las escuelas, ya que lo habitual es que un maestro d clases en un solo colegio. En
este caso es concebible una interaccin maestro-escuela, pero
no se la podra computar a menos que todos los maestros
enseasen en uno y otro establecimiento, en cuyo caso maestros y escuelas seran cruzados, no inclusivos.
A los alumnos, o sujetos de un experimento, tambin se los
puede tratar como criterio de clasificacin. En un mecanismo
totalmente cruzado, a cada alumno se lo somete a cada uno
de los distintos tratamientos, pero en muchos casos entra en
varios, aunque no en todos, los tratamientos; es decir que
no se produce el fenmeno ele la inclusin. Un caso frecuente
es el estudio, durante el aprendizaje, de datos obtenidos por
pruebas individuales. Aqu podramos tener curvas de aprendizaje para los distintos alumnos, divididos estos entre dos
mtodos de estudio. Podran analizarse las interacciones prueba-mtodo y alumno-prueba, pero no alumno-mtodo. Si a
los alumnos se los clasifica por el sexo, se genera tambin
un fenmeno de inclusin.
Casi todas las variables de inters en la experimentacin educacional pueden cruzarse con otras variables y no tienen por
qu ser objeto de inclusin. Excepciones notables, adems de
las ya mencionadas, son la edad cronolgica, la edad mental,
el grado escolar (primero, segundo, etc.) y el nivel sociocconmico. El lector inteligente habr notado que las variables
independientes, o los criterios de clasificacin, pertenecen a
distintos tipos: 1) variables manipuladas, como el mtodo
de enseanza, que el experimentador puede asignar a voluntad; 2) aspectos potencialmente manipulables, como materias estudiadas, que el experimentador podra asignar de alguna manera aleatoria entre los alumnos que utiliza, pero
que rara vez lo hace; 3) aspectos relativamente fijos del
ambiente, como comunidad, escuela o nivel socioeconmico,
fuera del control directo del experimentador pero que sirven
de bases explcitas para la estratificacin de la prueba; 4) caractersticas orgnicas de los alumnos, como edad, estatura,
peso y sexo, y 5) caractersticas de reaccin de los alumnos,
como puntajes en distintos tests. Por lo comn las variables
independientes manipuladas de la clase 1 son de inters fundamental, mientras que las variables independientes no roamanipuladas de las clases 3, 4 y a veces 5 sirven para aumentar
la precisin y revelar hasta qu punto son generalizables los
efectos de las variables manipuladas. Las variables de clase 5
aparecen de ordinario como covariables o variables depen

62

63

dientes. Otra forma de considerar las variables independientes es como intrnsecamente ordenadas (grado, nivel socioeconmico, estatura, pruebas, etc.) o no ordenadas (mtodo
de enseanza, asignatura, maestro, sexo, etc.). A menudo,
los efectos de las variables ordenadas suelen analizarse ms a
fondo, a fin de ver si la tendencia es lineal, cuadrtica, cbica o de grado ms elevado [Grant, 1956; Myers, 19591.

Otras dimensiones de extensin


Antes de abandonar los verdaderos experimentos a propsito de los diseos cuasiexpermentales, queremos explorar
algunas otras extensiones desde este simple ncleo, aplicables
a todos los diseos que se vern ms adelante.
Aplicacin de tests en busca de efectos mediatos

Modelos finitos, aleatorios, fijo.f y mixtos

Hace poco, estimulados por el trabajo indito de Tukev Jel


ao 1949, varios estadsticos m<ltemlticos crearon modelos
finitos para el nnlisls de variancias que aplican al muestreo de niveles de factores experimentales (variables independientes) los princpios, bien elaborados ya, del muestreo
en poblaciones finitas. Scheff [ 1956] public una resefa
histrica de aquel desarrollo clarificador. Se dispone de medias cuadt;ticas esperadas, que ayudan a determinar trminos de error apropiados [Stanley, 1956] para el diseo factorial totalmente aleatorzado de tres clasificaciones. Los
modelos finitos resultan de particular provecho porque pueden
generaliz:1rse con facilidad a situaciones en que llflO o ms de
los factores son aleatorios o fijos. Ferguson dio una sencilla
explicacin de aquellas extensiones en 1959.
En vez de presentar frmulas, recurriremos a una ilustracin
verbal para mostrar cmo difieren entre s las selecciones finitq,
aleatoria y fija de niveles de un factor. Supongamos que en
un experimento dado los ~<maestros constituyen una de las
distintas bases de clasificacin (es decir, variables independientes). Si se dispone de 50 maestros, se podran extraer
5 de ellos al azar y utilizarlos en el estudio. Aparecera entonces en algunas de nuestras frmulas un coeficiente de
5/50) o 0,9. Si se utilizara el tomuestreo de factores ( 1
tal de 50 maestros, constituiran un efecto fijo, y el coeficiente se convertira en ( 1 - 50/50)= O. Por lo contrario,
si existiese una poblacin prcticamente infinita de maestros, 50 de ellos elegidos al azar constituiran un porcentaje
infinitesimal, por lo que en cada efecto aleatorio el coeficiente tendera a l. Los anteriores coeficientes modifican las
frmulas de medias cuadrticas esperadas, y por lo tanto de
trminos de erron>. Ms detalles pueden verse en Brownlee
[1960], Cornfield y Tukey [1956], Ferguson ,[1959], Wilk
yKempthorne [1956] yWiner [1962].

64

En la esfera de la persuasin --bastante afn a la de la educacin v la enseanza-, Hovland y sus colegas comprobaron e1{ reiteradas oportunidades, que los efectos a largo
pla~o son no solo cuantitativa sino tambin cu~litati':'amente
diferentes. Estos efectos son mayores que los mm edra tos. en
las actitudes generales, aunque m_s dbiles el? algunas actitudes especficas [Hovland, Lumsdame y Shefheld, 1949]. Las
afirmaciones de una persona desacreditada carecen de ~fect?
persuasivo inmediato, pero ese efecto puede resultar srgnrtlcatvo un mes ms adelante, a menos que se recuerde a. los
interlocutores de qu fuente provienen [Hovland, Jams Y
Kellcv 19 53]. Estos descubrimientos nos alertan contra la
prcd~a de establecer toda nuestra evaluacin experiment~l
de los mtodos pedaggicos sobre la bn~e de postes~s o medlciones inmediatas realizadas en cualquJCr punto arslado del
tiempo.
d
A pesar de los problemas incomparablemente mayo:es e eJecucin implicados (y la incomodidad que ello constituye _pata
el desarrollo del programa de nueve meses de una tes1_s. de
doctorado), nos permitimos recomendar que en la plamflcacin de las investigacones se incluyan perodos de postests de
un mes, seis meses y un ao.
.
.. .
Cuando las mediciones del postest consistan en cahf1cacwnes
y ~untajes de exmenes que de todos modos va_n. a obtenerse,
ese estudio ser un simple problema de contab1hdad (Y mortalidad). Pero cuando sea el experimentador quien intr~d;l;
ca las O casi todos los autores consideran que la repetlcron
de med~iones postest con los mismos alumnos se:a ms
engaosa que el pretest. As se ha comprobado por c1erto en
investigacones sobre memoria [p. ej., ~nderwo~d; 1957_a,].
Al paso que el grupo de Hovland recurna ~ la t1p1ca aplh.:acin de un pretest (diseo 4), ellos organrzaran grupo_s separados experimentales y de control para cada aplazamiento
cronolgico del postest, por ejemplo:

65

R
R
R
R

()
()

X
X

o
o

o
o

Para los diseos 5 o 6 se exigira una duplicacin similar de


grupos. Nt~s~ que este diseo carece de control perfecto
para su p;oposlt? de comparar las diferencias en los efectos como f~mcton del tlemp(: trascurrido, puesto que tales diferencias
p_odnan deberse tambtn a la interaccin entre X v los acontecm:i~ntos histricos especficos que se produjeron ~ntr~ ]a aplicacwn de los postests de corto y de largo plazo. Un control
COJ?pleto de. esta posibilidad lleva a la elaboracin de diseos
mas comr:leJOS . tod:wa. A causa de los grandes gastos que
esos e~tudws e:;=tge:l, salvo cuando las O se obtienen por algn
mecantsm? rutmano, parece recomendable que quienes realiz,~n es~ud10s empleando O institucionalizadas reiteradamente
(llspomb!es aprovec~1en la ventaja que ello representa y realicen
observacwncs ultenores de los efectos en varios momentos
sucesivos.

Generalizacin a otras X: Variabilidad en la ejecucin de X


El objetivo de. la ciencia comprende la generalizacin, no solo
a otras po~lac10ne~ ~ momentos cronolgicos, sino tambin a
representaciOnes ~.hstmtas del mismo tratamiento, es decir, a
otras represe~tac10nes que en .teora deberan ser idnticas,
p~r? que no 10 s~m en det.ermmados aspectos que, en princlpw, carecen de JmportanCJa. Esta meta es contraria a la de
manda de un mayor control experimental, que a menudo resulta _e,vJdente ~ q_ue conduce al deseo de obtener en cada repe ..
t1c1on una repltca exacta de X. As, al estudiar el efecto de
una. apelacin ~m~c~onal frente a otra raciona], y volviendo
al ,eJemplo del tTI_divtduo que. hace declaraciones pblicas, pod:la!llos c<:msegwr que la m1sma persona se dirigiese a los
dlstt_n,tos tti_Jos de grupo empleando todos los grados de persua.sron pos~bles o, con mayor rigor todava, grabar sus declara~wnes a fm d~ que todos los pblicos incluidos en un determ~nado tratamiento oyesen exactamente el mismo>> mensaJe. Aparentemente, esto sera mejor que si varias personas
hablasen una sola vez cada una en los distintos niveles de
persuasin, ya que en este caso no sabramos con exactitud
gu estmulos experimentales se aplicaron en cada sesin
66

Pero ocurre lo contrario si por saber interpretamos la habilidad para seleccionar la correcta clasificacin abstracta del
tratamiento v trasmitir eficazmente la informacin a nuevos
destinatarios~ Con la entrevista grabada hemos repetido cada
vez muchos aspectos especficos carentes de importancia; hasta donde nos fue dado conocer, el efecto pudo haberse creado
por esos detalles y no por las caractersticas que incluimos
adrede. No obstante, si tenemos muchos ejemplos independientes, los detalles especficos sin importancia no sern susceptibles de repeticin en cada caso, y por tanto ser ms
probable que nuestra interpretacin de la causa de los efectos
sea correcta.
Consideremos, por ejemplo, la comparacin de Guetzkow,
Kelly y McKeachie [ 1954] entre los mtodos de enseanza
por disertacin y por discusin. Nuestro conocimiento de
cules fueron los tratamientos experimentales, en el sentido
de poder extraer recomendaciones para otros maestros, es mejor porque se emplearon ocho docentes, cada uno de los cuales interpret cada mtodo a su manera, en vez de utilizar
uno solo, o de hacer que los ocho memorizasen detalles comunes no incluidos en la descripcin abstracta de los procedimientos comparados. (Como en Guetzkow y otros [1954],
esa ejecucin heterognea de X debera complementarse, de ser
posible, con la prctica de que cada tratamiento lo ejecutara ca
da uno de los participantes en el experimento, para que ningn
elemento especfico sin importancia se confundiera con un
tratamiento especfico. A fin de poder estimar la significacin
de la interaccin maestro-mtodo cuando se emplean cursos
intactos, convendra que cada maestro aplicara dos veces cada
mtodo.)
En un ejemplo ms sencillo, un estudio del efecto del sexo del
docente sobre los primeros pasos de instruccin aritmtica
debera utilizar no uno solo, sino muchos ejemplos de cada
sexo. Aunque esta es una precaucin obvia, no siempre se
la ha respetado, como lo seala Hammond [ 19 54]. El problema constituye un aspecto de la insistencia de Brunswik
[1956] en el diseo representativo. Underwood [1957b,
pgs. 281-87] ha sostenido, sobre fundamentos similares, una
posicin contraria a la estandarizacin o rplica exacta de los
aparatos utilizados en los distintos estudios, de manera compatible con su vigoroso operacionalismo.

67

Generalizacin a otras X: Refinamiento secuencial de X 'V


g1upos de control noveles
-

En cualquier experimento la X real es un complicado conjunte~ ~e lo qne. eventualmente se habr de conceptualizar como
c~ls~ultas vanables. Una vez detectado un efecto fuerte y defmKio, el curso del proceso cientfico exige que se realicen
nuevos experimentos q~1e refinen la
destacando bien los
aspectos n1<s esenciales al efecto. Ese refinamiento se loarar por medio de tratamientos definidos y presentados en forma ms panicular y concreta, o bien organizando nuevos
grupos de control, que igualen al grupo experimental en un
nmero cada vez mayor de aspectos del tratamiento reduciendo
diferencias a caractersticas ms especfica; de la
compleja X original. El grupo de control falso y el de control
con operacin simulada que se utilizan en la investi<>acin mdica son ejemplos de ello. Los experimentos anterio;es demostraron un efecto internamente vlido, pero que, no obstante,
pudo haberse debido a que el paciente saba que se lo someta
al tratamiento, o bien al shock quirrgico, y no a las propiedades especficas de la droga o a la remocin del tejido cerebral: de ah la introduccin de los con troles especiales
para prever esas posibilidades. La generalizacin a otras X es
un proceso exploratorio de extrapolaciones sugeridas por la
teo~a, pero sujetas a la experiencia, en cuyo transcurso es
pos1ble que el mencionado refinamiento de X represente un
importante papel.
Generalizctcin a otras O

As: como una X dada arrastra un bagaje de caracteres especficos te6ricamente sin importancia, pero que pueden resultar
los causantes del efecto, as tambin cualquier O dada, cualquier instrumento de medicin, es un complejo en el cual el
contenido correspondiente est necesariamente inserto en una
situacin instrumental concreta, cuyos detalles son marginales
a la finalidad terica. As, cuando utilizamos lpices y planillas de respuesta con calificacin mecnica IBM solemos ha~erlo. por razones de conveniencia y no porque queramos
mclmr en nuestros puntajes la variancia debida a la habilidad
los empleados, la familiaridad con el formulario del test
la exactitud en la observancia de las instrucciones, ete. Asi~
mismo, nuestro examen de la competencia especifica en un

68

tema objeto de investigacin por medio de pruebas consistentes en la redaccin de ensayos habr de efectuarse empleando
como vehculos la habilidad literaria y el uso del vocabulario
y, por lo tanto, deber contener la variancia debida a esas
fuentes que, con frecuencia, no son importantes para nuestros
fines. Dada esa complejidad inherente a cualquier O, nos
encontramos con un problema cuando queremos generalizar
los resultados a otras O posibles. A qu aspecto de nuestra
O experimental se debi aquel efecto internamente v:lido?
Como la finalidad de la enseanza no es solo la de preparar
individuos para futuros exmenes de ensayo y objetivos,
debe tomarse siempre en cuenta ese problema de la validez
externa o la posibilidad de generalizacin.
Una vez ms, desde el punto de vista conceptual, la solucin
no est en confiar a ciegas en que se tendrn mediciones
puras sin complejidades carentes de importancia, sino ms
bien en utilizar medidas mltiples en las cuales los medios y
detalles especficos sin importancia sean todo lo diferentes
que sea posible, al paso que el contenido comn que nos
preocupa est presente en todos y cada uno de ellos. Dentro
de un experimento aislado, es ms lo que puede hacerse en
este sentido por las O que por las X, pues en un solo experimento se pueden lograr muchas mediciones de efecto (es
decir, variables dependientes). En el estudio
Guetzkow,
Kelly y McKeachie [ 1954], se notaron efectos no solo en los
exmenes regulares de curso y en pruebas
de actitud introducidas a este fin, sino tambin en comportamientos ulteriores, como la eleccin de carrera y la inscripcin en
cursos superiores sobre el mismo tema. (Aquellos comportamientos resultaron de igual sensibilidad a las diferencias de
tratamiento que las mediciones del test.) Las O mltiples
deberan ser un requisito ortodoxo en cualquier estudio sobre
mtodos de e;zseanza. En el plano ms simple, deberan aplicarse tanto exmenes objetivos como de ensayo [vanse Stanley y Beeman, 1956], junto con ndices de participacin en
clase, etc. (Una extensin de esta perspectiva a la cuestin
de la validez de los tests se hallar en Campbell y Fiske
[1959] y Campbell [1960].)

69

5. Diseos cuasiexperimentales 1

Son m~1chas la~ situaciones sociales en que el investigador


puede mt~~ducu algo ~I~lar al diseo experimental en su
progr~1macwn ,de procedumentos para la recopilacin de datos
(p. eJ., el cuando y el a quin de la medicin), aunque carezca _de control total acerca de b programacin de estmulos
expenm~ntales (el cu!tdo y el a qttin de la exposicin y
1~ capacidad de aleatorrzarla), que permite realizar un autnt~co experimento: En general, tales situaciones pueden consi?~rarse como diseos cuasiexperimentales. Uno de los proJ::Osltos. de esta obra es inducir a que se utilicen estos cua
s~exp~nmcntos y se aumente el conocimiento de los tipos de
situac10ne~ en que se dan oportunidades para su empleo.
Pero pre:tsamen~e J?Orque se carece de control experimental
to.tal, es 1mprescmd1ble que el investigador tenga un conocimJen.to _a fond? de cules son las variables especficas que
su d1seno particular no controla. Por esa necesidad de evaluar cuasiexperimentos, ms que para satisfacer la de compren.der los exr:e!im~~tos propiamente dichos, se prepararon
las hstas de venhcac10n de fuentes de invalidacin en los cuadws 1, 2 v 3.
El ~studa~te ? posil?l~ investigador medio que haya ledo el
capitulo antenor qu1za se encuentre con ms problemas sin
reso~ver en el diseo de un experimento que los que haba
con~1derado al. con.lienzo que pudieran plantearse siquiera.
Sera p:ua su bien .sl todo ello lo induce al diseo y ejecucin
de meJores ex~enmentos y a una mayor circunspeccin al
e;-:traer conclustones de los resultados obtenidos. Constituir,
sm embargo, un efecto secundario indeseable si crea en l
la sensacin de desesperanza en cuanto al logro del control
experimental y lo induce a abandonar tales esfuerzos para

acogerse a la prctica de mtodos de investigacin ms informales todava. Adems, esta larga lista de fuentes
invali~acin podra, con mayor probabilidad an, reducir la voluntad
de realizar los diseos cuasiexperimentales en que se advierta
desde un primer momento que se carece de pleno control experimental. Este resultado seria la anttesis de lo que nos habamos propuesto.
pesde el punto de vista de su interpretacin definitiva y del
mtento de adaptarlo al proceso evolutivo de la ciencia, todo
experimento es imperfecto. Lo que puede lograr una lista de
verificacin de criterios de validez es qu.e el experimentador
tenga ms conciencia de las imperfecciones residuales que implica su diseo, para poder determinar en los puntos pertinentes las distintas interpretaciones de sus datos. Por supuesto que debera disear el mejor experimento que la situacin
permitiera, y buscar con el mayor empeo los laboratorios
artificinles y naturales que ofrecieran las mejores oportunidades de control. Pero, adems de todo ello, tendra que seguir experimentando e interpretando con plena conciencia de
los puntos donde los resultados son an equvocos. Esa conc~encia es importante en los experimentos en que se ha ejercttado un control total, pero es imprescindible en los diseos cuasiexperimentales.
En persecucin de ese objetivo general, researemos a esta
altura de nuestra obra las ventajas e inconvenientes de un conjunto heterogneo de diseos cuaslexperimentales, cada uno de
los cuales merece utilizarse all donde no haJ'a otros mejores
susceptible.> de que se los aplique. Veremos primero tres diseos experimentales unigrupales. Despus, cinco tipos generales de experimentos multigtc1pales. Una seccin aparte se
ocupar de la correlacin, los diseos ex post facto, los estuen panel y otros temas anlogos.

Algunos comentarios preliminares sobre

b teora de la experimentacin

nos cuasJexpenmentales para su aplicacin en situaciones sociales natmales>> en D. T. Campbell, Experimentng, validatng, knozL'ng: problems of mcthod m tbe social scie1/ces, 1\ueva York: McGraw-Hill
en preparacin.

Este captulo est destinado en principio al experimentador


que desee sacar sus investigaciones del laboratorio para trasladarlas a la situacin operativa. Sin embargo, los autores no
pueden dejar de reconocer que los psiclogos experimentales
quiz vern con suspicacia cualquier intento de recomendacin de estudios en que el control experimental no' sea com-

70

71

1_ Este captul~l recurre en su mayor parte a D. T. Campbell, Dise-

pleto. En parte para justificar el presente trabajo ante esos


moni tares, ofrecemos algunos comentarios generales acerca
de la funcin de los experimentos en la ciencia, con la conviccin de que son compatibles con la mayor parte de las modernas teoras cientficas que ellos fundan en la perspectiva
de una posible psicologa general de los procesos inductivos
[Campbell, 1959].
La ciencia, como otros procesos cognitivos, comprende h
formulacin de teoras, hiptesis, modelos, etc., as como la
acept~1cin o el rechazo de ellos en virtud de algn conjunto
de crtterws externos. La experimentacin pertenece a esa se
gnnda fase, la del desbroz<lmiento, el recha,o v la revisin.
Podernos suponer para nuestra ciencia una ecologa en la cual
el nmero de posiblc:s hiptesis positivas exceda en mucho al
de las hiptesis que a la Lll'ga demostrarn ser compatibles
con nuestras observaciones. La caracterstica predominante
de la tarea de compilacin de datos para la prueba de teoras
es, pues, el rechazo de hiptesis inadecuadas. Para conseguirlo resulta provechoso cualquier ordenamiento de observaciones .en virtud del cual se desautorice la teora correspondiente, mcluyendo diseos cuasiexperimenta les de menor efica::a
que los verdaderos experimentos.
Cabe preguntarse, sin embargo, si tales diseos imperfectos
no vendrn a confirmar con falsedad una teora inadecuada
descarriando del buen camino los siguientes esfuerzos v des~
perdiciando el espacio de nuestras publicaciones con las docenas de estudios que parecen necesitarse para desarraigar un
falso positivo de notable divulgacin. Es este un grave riesgo,
que, no obstante, debemos encarar, y del cual participan -en
esencia, ya que no en grado-- los verdaderos experimentos
de los diseos 4, 5 y 6. En un sentido muy fundamental, los
resultados experimentales nunca confirman>> ni demuestram> una teora: ms bien, la teora triunfante est probada
y escapa a la refutacin. La palabra demostrar, a menudo
empleada para designar la validez deductiva, ha adquirido en
nuestra generacin un significado impropio, tanto respecto
de sus anteriores aplicaciones como a su utilizacin actual en
procedimientos inductivos, como la experimentacin cientfica.
Los resultados de un experimento ponen a prueba pero no
prueban una teora. Una hiptesis bien fundada es aquella
que ha sobrevivido en reiteradas ocasiones a esos exmenes,
pero que siempre puede ser desplazada por otra nueva investigacin.
En la actualidad se entiende que la hiptesis nula>>, utilizada
72

a menudo por conveniencia al enunciar la hip~tesis de un


experimento, nunca puede ser aceptada en virtud de los
datos obtenidos;
cabe rechazarla o no rechazarla.
De igual modo, las hiptesis ms g~ne~ales .d.e hecho nun~a
se confirman>>' cuando por convemencta utlhzamos ese termino queremos' significar, ms bien, que la hiptesis fue _expuesta a r~futacin y sali ain:sa d~ ella. Este punto de_ v1s!a
es compatible con todas las fdosoas humanas de la ctencJa
que proclaman la imposibilidad de obte.ner pru_ebas concluyentes para leyes inductivas. En trabaJos reCientes, Hanson
[1958] y P~)pper [1959] han sido taxativos a e.ste re?pec;t;>.
Muchos conjuntos de datos recopilados en la mvest1gac10n
educacional tienen poco o ningn valor indagatorio, y muchos
grupos de hiptesis son tan intrincados que no se los. pued~
confirmar por medio de los mecanismos de sondeo dt~~om
bles. No deseamos en modo alguno acrecentar la aceptab1lldad
de esa seudoinvestigacn. Creemos que los diseos de investigacin que estudiamos ms adelante son, sin em~~rgo, 1~
bastante indagatorios para merecer :Jue se los .uttltc; aii!
donde no se disponga de otros me'dws de estudzo mas eftcaces.
Aunque correcta, la idea de que los experimentos jam~s confirman la teora contradice de tal forma nuestras actitudes Y
experiencias como cientficos que nos resulta casi intolerable.
En particular, ese nfasis r:arece. poco acept~ble frent~ .a las
ruidosas y llamativas conflrtnaclones obtemdas en flSlca y
qumica, donde los trabajos de experimentacin pued~n. _ajustarse con minuciosidad, sobre muchos puntos de med1c10n, a
una compleja curva prevista por la _teora. Y para la ~ayora
de nosotros la perspectiva se torna maceptable, en sentido fenomenolcrico cuando se la extiende a las conclusiones inductivas de
visin. Resulta, por ejemplo, difcil comprender
que las mesas y sillas que <<vemos;> ~nte _nos?tros t;o sean
Confirmadas o aprobadas por la ev1denC1a v1sual, smo que
consistan en meras hiptesis sobre objetos externos an no
desautorizadas por las mltiples indagaciones del sistema ptico. Hay algo de razn en ese rechazo.
.
.,
Se confiere a una teora diversos grados de conflrmaCiom> a
tenor de la mavor o menor cantidad de hiptesis rivales aceptables de que ;e dispone para explicar la informacin. Cuanto
menos hiptesis rivales queden, mayor ser el grado de COnfirmacin. Es de presumir que en cualquier etapa de la. recopilacin de datos, aun para la ms avanzada de las ciencias, hay muchas teoras compatibles con la informacin, en

ht

73

espe~ial s se o:msideran todas las teoras que abarcan circunstanCias cor_npieas. Sin embargo, en la prctica se dispone de
que hagan frente a las bien
pocas te.ortas -cuando las
e~tableCJdas. o a las que han sido verificadas a fondo mediante compltcacl?s e~pcriment:)s; tampoco se proponen seriam~nte es~s . teonas nvales. D1cha escasez es el equivalente
eptstemologJCo de la a~irmacin positiva de la teora que parec~n ofrecer los expenmentos espectaculares. Una escasez seI~eante de hiptesis rivales se da en el conocimiento fenomn.tcamente pc:s~tjvo que por co!1traste parece ofrecer, por
ee~plo~ 1~ vtst~m a la comparativa ambigednd de la exploraclOn tactJ a ciegas.
Dentro de esta perspectiva, la lista de fuentes de invalidacin
que controlan los diseos experimentales puede considerarse
c~m1o una enu~~rac~n de hiptesis -a menudo aceptables~
r;vales de la htpotesis de que la variable experimental ha surtido un efecto. Donde un disefio experimental <~controla>~ uno
~e esos factores, se lmi~a a hacer insostenible esta hip6tesis
rlVal~ aun cu_an_do, en vutud tal vez de complicadas coincidencias, conttm~e ,op~ran?o para producir el resultado experimental. L_as <:hlpotests rtvales aceptables que han requerido
el uso tutlnano de grupos especiales de control actan a modo
de leyes ~mpricas bien establecidas: por ejemplo, los efectos
d~ 1~ practica par~ ~1. agregado de un grupo de control al
dtseno 2,_ 1~ s~Igesttbi!Idad para el falso grupo de control, el
shock_ q;mu_rgi~o para el control con operacin simulada, etc.
l,a~ h1potes1s nvales son crebles en la medida en que pueda
atnbt:ttseles categora de leyes empricas. Cuando en un cuasiexpenmento se carece de controles, al interpretar los resultados hay que considerar bien la posibilidad de que tales resulta~o~ obedezcan a factores no tomados en cuenta. Cuanto
ma: Improbable sea esta posibilidad, ms vlido ser el experimento.
Como lo sealamos al, exponer el di~eo de cuatro grupos
de Solomon, cuanto mas numerosas e Independientes sean las
formas en que se demuestra el efecto experimental, menos nu~nero~as y probables se tornan todas las dems hiptesis rivales
mval1?antes. S~ apela entonces a la economa. La validez del
expenmento viene a ser, pues, la de la admisibilidad relativa de
las teoras rivales: la teora de que X tuvo un efecto frente a
las teoras de causacin que comprenden los factores no cont~olados; Si cabe explicar la totalidad de varios conjuntos de
d1ferenCJas por la hiptesis nica de que X tiene un efecto
al paso que es necesario hipotetizar varios efectos separado~

de variables no controladas, una para cada diferencia observada, entonces el efecto de X viene a ser el ms defendible.
Es frecuente recurrir a este modo de inferencia cuando los
cientficos tienen que limitarse a resumir literatura por carecer
de experimentos petfectmente controlados. As, Watson
[ 1959, pg. 296] hall confirmatoria la evidencia de los efectos nocivos de la privacin materna, porque se la ve confirmada por una ampla variedad de datos, cuyas insuficiencias
especficas varan de <J.l1os estudios a otros. A su vez, Glickman
[ 1961], a pesar de la presencia de hiptesis rivales sostenibles
en cada uno de los estudios, consider importantes las pruebas de un proceso de consolidacin slo porgue la hiptesis
rival sostenible variaba de un estudio a otro. Esta forma de
induccin lgica, adoptada por lo comn en la combinacin de
inferencias de distintos estudios, se introduce deliberadamente dentro de ciertos diseos cuasiexperimentales, en especial
los remendados, como el 15.
El recurrir a la economa no se justifica desde el punto de
vista deductivo, sino que constituye ms bien un supuesto
general acerca ele la naturaleza del mundo, que fundamenta
casi toda aplicacin de la teora en la ciencia, por ms que
en aplicaciones particulares resulte a menudo errnea. En relacin con esta observacin hay otro argumento de admisibilidad,
que invocaremos acaso ms en detalle a propsito del muy
utilizado diseo 1O (un buen diseo cuasiexperimental, que
a menudo se confunde con el verdadero diseo 4). Es la presuncin de que, en casos de ignorancia, el efecto principal
de una variable debe juzgarse ms probable que la interaccin
de otras dos variables; o que, en general, los efectos principales son ms probables que las interacciones. En su mxima
expresin, cabe sealar que si cada interaccin de orden superior es significativa y cada efecto es especfico de determinados valores en todas las dems dimensiones posibles de tratamiento, ya no hay lugar para la ciencia. Si podemos generalizar alguna vez, es porque podemos hacer caso omiso de
un gran cmulo de factores potenciales determinantes.
Esto fue denominado por Underwood [1957b, p>g. 6] Supuesto de causacin finita. En otro lugar [ 1954], el mismo
autor ha registrado la frecuencia de efectos principales y
de interacciones en el Journal of Experimental Psychology,
confirmando la relativa escasez de interacciones significativas
(aunque las correcciones introducidas por el editor, tendientes
a presentar resultados claros, nos hacen dudar de este hallazgo).

74

75

En los p<rrafos siguientes expondremos primero los experimentos con un solo grupo. Desde 1920, por lo menos, el diseo experimental predominante en psicologa y educacin
ha sido el de grupo de colltrol, como el 4, 6 o, acaso ms
a menudo an, el disci'o 1O, que veremos ms adelante. En
bs ciencias sociales, y considerando situaciones sobre el terreno, los diseos de grupo de conaol han predominado a
tal pnnto que par<1 ;llgunos son sinnimo de experimentaci6n. A consent.ctKia de ello llltlchos investigadores llegan
a abandonar todo intento <k ex pcri m en taci(lll en si tnaciones
en las cuales no se disponga de grupos de cotJtrol, terminando
as como una imprecisitn itllll'LTS:Jria. Fn realidad, varios diseos cnasiexperimentaks aplicthlcs a grupos aislados podran
emplearse provechosamente, y segttir los dnones lgicos e interpretativos experimentales, en muchos casos en que es imposible el discio con grupo de control. La coopcr<Kin y la
posibilidad de cxpcriment:H se dan a menudo en unidades administrativas naturales: una lll:tcstra dispone de su clase; el
director de una escuel:t secuntbria tal vez est dispuesto a
realizar encuestas peridic1s sohre el cst:1do de nimo de los
alumnos, etc. En tales situaciones el tratamiento diferencial
de segmentos dentro de la unidad administt'<ltiva (requerido
para el experimento con grupo de control) qu.iz< resulte imposible en sentido administrativo o, aun cuando ello no ocurra, sea indeseable como experimento a causa de los efectos
re:JCtivos ele los dispositivos. P:1ra situaciones de esta ndole
bien podr:m <Jdoptarse experimentos con un grupo n!co.

riado durante muchos meses se sumerge y retira de un bao


de cido ntrico, la deduccin que relacionara esta operacin
con la prdida de peso de la barra seguira alguna lgica e.xperimental de esta ndole. Por supuesto,. pueden haber .exlstido grupos de control de barras de h1erro ql7e.
d~aron
en los estantes y no perdieron peso, pero la med1c10n e lt1formacin de esos pesos constituira un caso tpico en el cual no
se la considerara ni necesaria ni pertinente. Parece, pues,
probable que ese ?iseo e~p?r~men~al.se considere a menudo
vlido en las ciencias ele mas ex!lo, s1 b1en rara vez se lo acepte
en las enumeraciones de disei'os experimentales disponibles
en las ciencias sociales. [Vase, sin embargo, Maxwell, 1958;
Underwood, 1957b, pg. 133.1 Hay buenas razones que justifican esa diferencia de categoras, y una cuidadosa consideracin de ellas ofrecer una mejor comprensin de las condiciones en que los cientficos sociales podran emplear con provecho el diseo cuando no hay modo de utilizar un control
experimental ms preciso. El diseo es tpico de los experimentos clsicos del British Industrial Fatigue Research Board
sobre factores que influyen en la produccin industrial [p.
ej., Farmer, Brooks y Chambers, 1923].
La figura 3 indica algunas posibles situ~ci?nes res~Itantes en
series cronolgicas en las cuales se habw tnlroducJdo una alteraci6n experimental, segn se indica por medio de la lnea
vertical X. Supongamos, a los fines de este estudio, que sentimos la tentacin de deducir que X tuvo algn efecto en las
series cronolgicas con resultados como A y B, y quiz C,
D y E, pero no un efecto en las series Cronolgicas tal como
F, G y H, aunque el salto de valores d_e
a r; fu~se tan
grande y desde el punto de vista estadlsttco tan persistente
como, por ejemplo, las diferencias o~ a Or; en A y B. A~n9ue
dejaremos el anlisis del problema de Lis pruebas estad1st1cas
para algunas pginas ms adclan te, se su:o.n~ que el pro~l,e
ma de la validez interna se reduce en dehnltlva a la cuestwn
de hiptesis competitivas aceptables que ofrezcan otras explicaciones probables, distintas del efecto de X, acerca del
desplazamiento en las series cronolgicas. Ofrecemos en el cuadro 2 un intento de lista de comprobacin de los controles
suministrados por este experimento en las mencionadas condiciones ptimas de resultado. Las ventajas del diseo de series cronolgicas resultan muy evidentes en contraste con el
diseo 2 con el que guarda una similitud superficial, ya que
carece d~ grupo de control y utiliza mediciones previas y posteriores.

:e

?4

7. Experimento de senes cronolgicas


El diseo de series cronolgicas consiste, en lo esencial, en
un proceso peri6dico de medicin sobre algn grupo o individuo y la introduccin de una variacin experimental en esa
serie cronolgica de mediciones, cuvos resultados se indican
por medio de una discontinuidad en las mediciones registradas en b serie. Se lo puede diagramar ele la manera siguiente:

Este diseo experimental tipific gran parte de la experimentacin clsica del sfglo X!X en Jas ciencias fsicas y biolgicas. Por ejemplo, si una barra de hierro cuyo peso no ha va
7(.,

77

Figura 3. Posibles configuraciones de lo.1 resultados de l'lmen el


en una serie
de
0".
en el caso D, la
01es la
las .\cres cronolcn tanto que la
c/ec/o vara
siendo mxima en 11 v H v
injustificada
C!1 F, (;y H.
.
.

cl ueir una V(Jriable

X
_____,___ _._.. A

78

Observando en el cuadro 2 la lista de problemas de validez


interna, vemos que la imposibilidad de controlar la historia
es el ms grave inconveniente del diseo 7. Es decir que existe la hiptesis rival de que uo sea X sino otro acontecimiento
ms o menos simuh<nco el que provoc el desplazamiento.
Sobre la admisibilidad de eliminar tales estmulos externos
debe hasarse en todos los casos la confianza depositada en
la interpretacin de este experimento. Analicemos un experimento que exija mediciones reiteradas y el efecto que un
flme documental produce sobre el optimismo o pesimismo de
los alumnos con relacin a la probabilicbd de que estalle o no
una guerra. En tal caso, no suministrar un control definido
sobre la h:itora parecera sin duda muy grave, ya que es obvio que los estudiantes estn todos los das expuestos a multitud de fuentes de estr;:mlo en ese mismo sentido, adems
de las que maneja el experimentador en el aula. Por supuesto
que, aun as, si el experimento se complementara con un cuidadoso registro de estmulos no experimentales de alguna relevancia, sera quizs aceptable una interpretacin por la cual
se justificara llevarlo a cabo. Como ya hemos dicho, la variable historia es la contrapar! ida de lo que en el bboratorio
fsico
biolgico ha sido dcnomi nado aislamiento
La admisibilidad de la historia como explicacin de
desplazamientos del tipo de los verificados en las seres cronolgicas A y B de la figura :3 depende, en gran parte, de la medida del aislamiento experimental que pueda conseguir el ex
perimentadot. Los estudios sobre reflejos condidon;tdos realizados por Pavlov con perros, y que eran en definitiva experimentos de un grupo o un <l!1nwl, hubiesen sido mucho
menos admisibles como fundamento
bs teoras del sabio
ruso si, en vez de haberlos efectmKio en un lnboratorio alejado
de todo ruido, los hubiese pm..:ticado en cualquier esquin;l
de la ciudad. Que es lo que constituye un aislamiento experimental vara con el problem::J qne se estudia y el tipo de elementos de medicin que se utilizan. Se exigen, sin duda, ms
precauciones para establecer el aislamiento experimental necesario cuando se han de estudiar partculas suhatmicas en
cmara de niebla o con un contador de centelleo, que para
el experimento hipottico acerca del peso de las barras de
hierro baadas en cido ntrico. En muchas situaciones que
permitiran utilizar el diseo 7, sera admisible que el experimentador sostuviese haber trabajaclo en condiciones de
aislamiento experimental, si tuvo conciencia de los posibles
acontecimientos rivales tambin capaces de producir el cam79

Cuadro 2. Fuentes de invalidacin para los diseos 7 a 12.

ctuzsicxwrint rnl,al r! s:

1. Series
cronolgicas

o o () oxo o o o
8. Discfio de

Jnlwstras
cnmol{)glcas
('(jnival~'lJtcs

x,o x,o x,o


X 0 0, de.
9. DisPo de

1-

mtt('c.trns
mat<"rial<s
eqniv~J<'ntcs

M.x,o M,,x,,o
MaX,O
A'rXIIO, t>h.

10. Dscio de
grupo de

control

+ +

no <quivalente

()

+ +

comptttsa(II)S

:!rO- X,o X,P X,o


Xp X,O

_x,o x,o
12.
muestra
separada
pretE'st-postest

RO (X)
R
X O
RO (X)
R
R
R

R 0

X O
O (X)
X O

bio, y pudo descartar con suficiente lgica la probabilidad de


que estos ltimos lo explicaran.
Entre otras variables externas que, por razones de conveniencia, podran incluirse en el bctor bistoria, estn los efectos
meteorolgicos. Los experimentos de esa ndole (p. ej., los
estudios sobre rendimiento lnbnral) tnl vez se prolonguen
durante lapsos que ;lbarqucn cambios csucionnles, y entonces
las fluctuaciones cst:1Cionalc:s en ilurnin:Kin, condiciones meteorolgicas, cte., pm'dcn confundirse con la introduccin de
variaciones cxperimcnt:1lcs. Quiz, fuera mejor incluir en ia
historia, aunque sean en cierto sentido anlogos a Ll maduracin, los desplazamientos peridicos de lns series cronolgicns
tefericlns a las costumbres inslitu.cionalcs del grupo, como
ciclos semanales de trabajo y de pagos de salarios, los perodos
de cx.1mcnes y vacnciones, y las fiestas cscobrcs. Las series
de observaciones deberan ordenarse de tal manera gue se
mantuvierm1 constantes los ciclos conocidos, o de lo contrario
ser lo bastante prolongadas como para incluir en su totalidnd
varios de esos ciclos.
Continuemos con los bctores que hay gue controlar: la 11Zildttrtlcirn parece quedar eliminada sobre la hase de que, si el
resultado es como los de los ejemplos A y B de la figura 3,
ella no ofrece de ordinario hiptesis rivales aceptables para
explicar algn despbznmiento producido entre Oct y 0;; que
no se hnba dado en los nnteriores perodos observados. (No
obstante, la m,Jdnracin no siempre es uniforme y regular.
Ntese cmo la sbita iniciacin de las menstruaciones en
alumnas del primer ao de la escuela secundaria podra aparecer en un diseo 7 como un efecto del cambio de escuelas
sobre los registros fisiolgicos. si no supisemos gue no era
asf.) Asimismo, la aplicacin de tests parece, en general, hiptesis rival no creble pnra un salto entre 04 y 0;;. Si solo
tuviramos las observaciones en 04 y Or;, como en el diseo
2, careceramos de ese medio de convertir en inaceptables los
efectos de maduracin y los tests-retests. Esta es la gran ventaja del diseo 7 sobre el diseo 2.
De igual modo, muchas hiptesis que invocaran variaciones
en la mtrumentacin carecernn de base racional especfica
para suponer gue en aquella ocasin particular, a diferencia
de otras anteriores, se haba producido el error de los aparatos de medicin. No obstante, el signo de interrogacin en el
cuadro 2 llama la atencin recordando las posibles situaciones en que un cambio en la calibracin del instrumento de
medicin podra dar lugar a gue se lo interpretase como ef<>c-

81

to de X Si el procedimiento de medicin implica las apreciaclones de observadores Jmmnnos conocedores del plan expenmcntal, puede producnse una sendoconfirm,tcn de b hia causa de las expectativ;s del observador. As, el
cambio ~xpermental de poner en posesin de su cargo a. un
nuevo ,hrector puede producir una variacin en las estadstiGIS de faltas disciplinari,!s, en vez de influir sobre la tasa de
infracciones como tal. A menudo puede empicarse el diseilo
7 p,tra medie los efectos de un imporunte cambio introducido
en la poltica administrativa. Teniendo esto en cuenta, convendra evitar el cambio de instrumentos de medicin a la
vez que se modifica la politca. En la mayor parte de los casos
sera preferible, a fin dt: prcserv,\r la interpretahlidad de un;J
seri.e cronolgica, continuar empleando dispositivos un t~mto
antlcu;Jdos, en vez de sustituirlo,; por otrus mt1s modernos
pero distintos.
Los efectos de la tef!,tC!l suelen consistir en un, funcin
negativamente acelerada del tiempo trascurrido, razn por
la cual no son aceptables como explicaciones de un efecto en
Or. mayor que los efectos en o~, 0:1 y 01. La sclcccir)n como
fuente de efectos principales se elimina tanto en este diseo
como en el 2, si en todas las O estn implicadas las mismas
personas. S en un determinado grupo los datos se recopilan
sobre la base de sus integrantes individuales, se puede eliminar la mortalidad en ese experimento lo mismo que en el
diseo 2. No obs1ante, s las observ;tciones se refieren a datos
colectivos, h,lhra que llewr un registro del ausentsmo, las
renuncias y las reposiciones, a fin de asegurarse de que las
coincidencas de cambios de
no ofrezcan hipctesis rivales aceptables.
,
En cuanto a la V<lidez externa, est claro que el dccto experimental bien podra ser especfico para las poblaciones SL;jetas a reiteracin de pruebas. Es improbable qLic ello constituya una limitacin a la investigacin sobre la ense1anza en
establecimientos escolares, a menos que d experimento se
realice con O artificiales no comunes en la situacin escoLu
habitual. Aderws, este diseo es de particular ap]icaci6n en las
situaciones in.stitucionales en que se llevan r~gistros regulares que consutuyen, por tanto, parte natural del ambiente en
que se realiza el experimento. Las pr~1cbas anuales de calificacin en las escuelas pblicas, los registros de enfermedad,
etc., no son por lo comn reactivos, puesto que son tpicos
del universo :d cual se quiere hacer ]a generalizacin. La interaccin seleccin-X se refiere a la restriccin de los efectos

de la variable experimental a esa muestra especfica, as como


a la posibilidad de que esa reaccin no fuese tpica de algn
universo de inters ms general, con respecto al cual el grupo
expuesto, constituido naturalmente, sea una muestra sesgada.
Por ejemplo, la necesidad de datos puede limitarnos a aquellos
alumnos que han tenido asistencia perfecta durante largos perodo:<: un evidente subconjunto selecto. Adems, si se han
utilizado O nuevas, ese reiterado acontecimiento puede haber
provocado au.sentismo.
P<lf<l que estas series cronolgicas se interpreten como experimentos, es imprescindible que el experimentador especifique
de antemano la relacin cronolgica esperada entre la introduccn de la variable experimental y la manifestacin de un
efc:cto. S se lo hubiese hecho m:, la si ttHlcin indicada en la
serie cronolgica D de b figura 3 podra ser tan concluyente
como la ele A. Las encuestas exploratorias que decidiesen se
gn las circunstancias sobre las interpretaciones de efecto
diferido, requeriran una valkbcin cruzada antes de que fueran interprc~tables. A medida que aumenta el lapso trascurrido entre X Y el efecto, aumenta asimismo la admisibilidad de
los efeetos r-esultantes de acontecimientos histricos externos.
Tnmhin parece imprescindible que se especifique la X antes
de examinar el resultado de la serie cronolgica. El examen
post boc de una serie cronolgica para inferir cul fue la X
que precedi al desplazamiento ms notable tiene que descartarse, a c1usa de que el aprovechamiento oportunista del
azar que l permite dificulta, y hasta imposibilita, cualquier
intento de comprobar la significacin de los efectos.
Ll preponderancia de este diseo en las ciencias ms prsper<lS debera hacernos sentir algn respeto por l; recurdese,
sin embargo, que los aspectos de aislamiento experimental
v las condiciones constantes lo hacen ms interpretable para ellos que para nosotros. Recurdese, asimismo, que en el
uso que suele hacerse de l, un experirn~Cnto nico jams es
concluyente. Aunque puede ocurrir que no se utilice un grupo
de control, antes de establecer un principio es menester que
varios investigadores repitan el diseo 7 en muchos lugares
distintos. Tal debera ser, asimismo, la aplicacin que nosotros le diramos a este diseo. Deberamos utilizarlo all
donde no se pueda hacer nada mejor controludo. Organizaremos nuestra contabilidad institucional de tal modo que nos
suministre el mayor nmero posible de series cronolgicas
para dichas evaluaciones, y trataremos de examinar con mayor
cuidfldo que hasta entonces los efectos de los cambios admi-

82

83

Si las ciencias ms avnnzadas no empbm t<llltos tests de


nificacin como la psicolog<l la pedagoga es, sin duda, por~
que !a magnitud y claridad
los dccros con gue trabajan
son tales que los hacen innecesarios. Si se ;lplicase en ellas
nuestros tests lwbitualcs de significacin, se descubriran tam~
bin all elevados ndices de este factor. p,rece, sin embargo,
tpico de la ecologa de las ciencias sociales tener que trabajar
con minerales pobres, para los que no son necesarias las pruc~
bas de significacin. Tambin es probable que all donde
el sentido comn o las apreciaciones intuitivas scil.ah.:n con
claridad un efecto res u !te po:cible, por lo comn, alguna pruc~
ha de significacin que ratit:kue las consideraciones en que se
funda el juicio intuitivo. As, se pueden ilplcar pruebas de
significacin sobre los efectos de X que distinguiran entre los
vados
que ilustra la figura 3, juzgando que A y B
son significativos y que F y G no lo son. Veamos algunos
posibles enfoques.
Ante
debemos rechazar, por inadecuados, ciertos trata~
mientos imaginables. Si la informacin recogida en la figura 3
representa medias grupales, ser insuficiente una simple prueba
de significacin de la diferencia entre las observaciones de
0.1 y o~. Aunque en las series P y G estas suministrasen relaciones t de elevada significacin, no podramos
que los
datos demostraban el efecto ele X a causa de la presencia de
otros desplazamientos significativos similares, que a veces ocu~
rren, y para los cuales no tendramos explicacin experimental
alguna que les correspondiese. Cuando se trabaja con la infor~
macin obtenida de encuestas nacionales de opinin, suelen
encontrarse desplazamientos muy significativos entre una y
otra consulta que, desde el punto de vista del cientfico en~
cargado ele las interpretaciones, no wn ms que ruidos
aleatorios, ya que constituyen una parte de la variacin en los
fenmenos para la que se carece
explicacin. A fin de
que sea interpretable, el efecto de un bien perfilado acontec~
miento o variable experimental debe trascender ese nivel
ordinario de desplazamiento. Asimismo, una prueba de signi~
ficacin que abarque los datos combinados de todas las obser-

vaciones pre~X y post-X resulta inadecuada, pues no distin~


guira entre casos del tipo F y casos del tipo A.
En el desarrollo de un test de significacin suele haber una
enojosa falta de indepeudencia. Si tal carencia estuviese distribuida en forma homognea entre todas las observaciones,
ella dejara de constituir una amenaza para la validez interna,
aunque fuera una limitacin a la validez externa. Lo que s
resulla inoportuno es que en casi todas las series cronolgicas
se eucuntran que las obscrvacio11es adyacentes son ms S
mihrcs que las no <ldyaccntes (es decir, que la autocorre!acin del dcfasaje 1 es mayor que la del 2, etc.). As, una mfluenca o perturbacin aleatoria externa que influya sobre
un punto de observacin, por ejemplo, en 0:; n (),;, tambin
alterad 07 y Os, por lo cual no se las puede tratar como
varas desviaciones independientes de la extrapolacin de la
tendencia 01 01.
El test de significacin utilizado depender en parte de la
ndole hipottica del efecto de X. Si est implicado un modelo como la lnea B, se podra utilizar una prueba de la desviacin de 0;, respecto de la extrapolacin de 01- 0.. Mood
[1950, pgs. 297~98] ofrece una prueba de esta ndole. Ese
test podra emplearse en todos los c;1.sos, pero parecera innecesariamente insdiciente si se supone una mejora constante o un mayor ndice de ganancia. Para esos casos, sera
aconsejable una prueba que emplease todos los puntos. Son
dos los componentes que constituiran tales pruebas de signticacin: la interseccin y la pendil~nte. Por intersecci6n
queremos significar el salto en la serie cronolgica en el pnn~
to X (o en <1lgn desplazamiento especificado dcspu(>s de X).
As lHs lneas A y C indican un despla?.amiento (le interseccin sin variacin en la pendiente. La lnea ; ilttsTl nn cambio en la pendiente pero no en la interseccin, ya qne coin~
ciden las extrapolaciones prc~X a X y post~X a X. A menurlo
ambas se cortan, y la pendiente quedara modificada por una
X efectiva. Podra conseguirse una prueba pnra de ntersec~
dn en forma anloga a la aplicacin de una prueba Mood
desde una v otra direccin a la vez. En este caso estaran implicados ds puntos extrapolados, con observaciones pre y
X extrapoladas a un punto X intermedio entre 1 y Or,.
pruebas estadsticas casi con seguridad comprenderan,
en todas ias series cronolgicas (con excepcin de las ms extensas) ajustes lineales a los datos, tanto por conveniencia
como porqu.e un ajuste ms exacto agotara los grados de libertad, no dejando oportunidad alguna para verificar la hip~

84

85

nistrativos y otros acontecJmleJHos sbitos y arbitrarios co


mo X. Pero no los consideraremos definitivos hasta haberlos
repetido una y otra vez en situaciones diversas.

TestJ de significacin para el dsei/o ,le serie cronol,gica

tesis de cambio. Sin embargo, en muchos casos la presunc10n


de linealidad puede no ser correcta. La admisibilidad de inferir
un efecto ele X es mayor en un punto prximo a X. Cuanto
m<ls gradual o ms tento sea el efecto supuesto, ms grave ser
la conrusin con la historia, ya que aumenta el nmero de
posibles causas externas.

Este disd1o ptwdc cnnsiderarse una forma del experimento de


serie cronolgica co11 la introduccin reiterada de 1<1 v;~riable
expcrimL"tltal. l':l experimento es, sin duda, de mayor utilidad
cu;mdo se anticipa que el efecto de la variable experimcnt:ll
scr: de c:u:kter transitorio o reversible. Al paso qne la logita
dd e:xpet imento puede considerarse una extensin del e~pe
rimento de serie cronolgic:1, el modo de anlisis estadstico tiene m:1yor similitud, en gem:ral, con el del experimento de dos
grupos en los cuales se emplea la significacin de la diferencia
entre las medias de dos conjuntos de mediciones. Por lo comn, las mediciones estn apareadas de manera mny especfica con las presentaciones de .la variable experimental, siendo
a menudo concomitante, como en los estudios de aprendizaje,
rendimiento laboral, condicionamiento, reaccin fisiolgica,
etc. Acaso el ms tpico de los primeros usos de este diseo
experimental, como en los estudios de Allport [1920] y Sorokin [ J 930] sobre el rendimiento escolar en condiciones diversas, consisti en la comparacin mutua de dos variables
experimentales, es decir X1 versus X2, en vez de una sola
de etlas cun un control. Para la mayora de los fines resultan
ineficaces la simple alternacin de condiciones y el empleo de

un espaciamiento temporal constante, sobre todo cuando pueden introducir un elemento de confusin con un ciclo diario,
semanal o mensual, o cuando a causa de la periodicidad predecible, un condicionamienl(J indeseable al intervalo temporal puede intensificar la diferencia entre las distintas presentaciones. As, Sorokin se asegur6 de que cada tratamiento experiment:d se reali:~.ara con idntica frecuencia de maana y
de t<lrde.
Casi todos los experimentos con este disco han empleado en
proporcin poc1s repeticiones de c1da concliciLn Lxperimental,
pero una extensin dL: In teora 1kl muestreo como h representada por Brunswik L19561 Sl'll<da la necesidad de grandes
Tnitl"SllTOs :dL'ntorios, rL:prcsentativos v equivnlcntes, de los perodos. Kerr [ 19-15 J es ljiJicn lll<s se ha apro:ximado ul w~: a
este idL<d en sns cxpcrillll'lllilS :ll'l"IT:l del itd~l11jo de b mscl sohre el rendimiento industrial. Cada uno de ellos comprendi un solo grupo c:xpcriment:d con una llll!Cstra alcatori:~.:ld:l y equivalente de d:1s a lo largo de varios meses. De
esta forma, en un experimento pudo comparar 56 das con
msica y 51 das sin ella, y en otro tres tipos diferentes de
msica, representada cada una por muestras equivalentes de
14 das.
Tal como lo emple Kerr, por ejemplo, el diseo 8 parece
en general internamente vlido. La historia, qu.e es el principal
inconveniente del experimento con series cronolgicas, se controla presentando X en numerosas sesiones separadas, haciendo as improbable en extremo cualquier otra explicacin
fundada en la coincidencia de acontecimientos externos. Las
otras fuentes de invalidacin se controlan con la misma lgica
detallada a propsito del diseo 7. En cuanto a la validez
externa, es evidente que solo cabe extender la generalizacin
a poblaciones probadas con frecuencia. El efecto reactivo de
los dispositivos y la conciencia de que se es objeto de la
experimentacin constituyen una deficiencia ele esta prueba.
Cuando son grupos separados los que reciben las distintas X,
puede ocurrir (sobre todo en el diseo 6) que jgnoren por
completo la existencia del experimento o de los tratamientos qne se comparan. No ocurre ns cuando se maneja un
solo grupo y se lo expone en repetidas sesiones a una u otra
condicin, por ejemplo, a una base de cmputo de pago contm otra en el experimento de Sorokin; una condicin de trabajo contra otra en el de Allport; un tipo de ventilacin contra otro en los esudios de Wyatt, Fraser y Stock [ 1926],
y una clase de msica contra otra en el de Kerr (aunque es re

86

87

8. Diseo de muestras cronolgicas equivalentes


La forma ms comn de diseo experimental utiliza una
muestra nJIIvalcnte de personas a fin ele snministrar la base
con la cual comparar los dectos de la variahlc experimental.
Como contras te, una forma recurrente de experimentacin
con un solo grupo utili:~.a dos nmcstras equiv;dentes de sesiones, con la v:niahlc experimental en una ele ellas y no en la
otra. EsL: disdo piicde csqucmati:~.arse de la siguiente manera
(aunque la in tLncin es obtener una ;1lternacin aleatoria, no
regular):

investigador tom cuidados;ls precauciones para conseguir que


una programacin variada se convirtiese en parte intearante
del ambiente laboral). En cuanto a la interc1ccin de scl~ccin
Y.:'<, se da, como es hahitual, la limitacin de la generalizacton de los efectos demostrados de X al tipo particular de la
pobhci<n de qu.c se t r:u-a.
l:stc dis6io cxperinwnt:t! lkv:1 implcito un riesgo p:m1 la
valtdcz L'xtcrna que se encontrar en todos los experimentos
descritos en este trah:1jo en los cuales se presentan muchos
niveles de X para el llli.m?n conjunto de personas. Ese efecto
se],, denominado intcrfcrcnci:l <le X mltiples>>. -: dccto de
X1, en la situaci<n ms simple, en que se la compara con
Xo, s(lo pued( generalizarse a cr)Jldi(iones de ptTsentaciones
repetidas y espaci:Hlas de X1. No se ofrece una base slida
p_ara la gcner:1lizaci<n a posihlcs situaciones en que X 1 est
stemwe presente, o a la condicitn en que se la introduzca en
una sob scsiln. Ackm.s, la condici<n Xo n la :msl'ncia ele X
no es tpica ele pc~rodos sin X en general, sino que es representativa solo de :mscncias de X intercaladas entre presenci:ls de este factor. Si X1 tiene alo(Jil
efecto Jrolonunclo
cjue
h
h
11ega a influir en los perodos sin X, como parece por lo
cotmn probable, el diseo l'xperiment:ll, comp:1rado con un
estudio con diseo 6, por ejemplo, puede subestimar el efecto
de X 1. Por el contrario, el hecho mismo de que se produzcan
frecuentes desplazamientos puede incrementar el valor de estmulo de una X, exccclicnclo al que se dara en una presentacin continua y homognea. En el estudio ele Kerr l&s
melodas haw:1ianas influiran sohre el trabajo de manera hast;mtc diferente si se las intercalase durante todo un da entre
otras formas de msica, que si constituyen el nico :llimen to musical. Los diseos experimentales de Ebbinghaus
r188 5 J pueden considerarse en lo esencial de esta ndole y'
como lo ha destacado Underwood [1957a], hs leves por
l descubiertas estn limitadas en sus posibilidades de gen~
rak,:acin a una poblacin de personas que hayan aprendido
docenas de otras listas muy similares. Incluso gran p~ te de
sus descubrimientos no se verifican en personas que ::~prenden
tu:a sola lista de slabas despwvist:1s de significado. As,
mtentras el diseo es internamente vlido, su validez externa
suele verse limitada en gran parte por ciertos tipos de contenido. [Vase tambin Kempthorne, ] 9 52, cap. 29.]
Ntese, sin embargo, que muchos aspectos de la enseanza
sobre lns cuales se deseara experimentar pueden muv bien
tener efectos restringidos, para los fines prcticos, al p~erodo

de presencia concreta de X. Para esos objetivos, este diseo


podra ser muy valioso. Supongamos que un maestro pone
en tela de juicio el valor de las lecciones en voz alta contra el
del estudio individual en silencio. Variando esos dos procedimientos durante una serie de unidades de lecciones, se
podra preparar un experimento interpretable. De ese modo
cabra estudiar el efecto de la presencia en el aula de un padre que actuara como observador durante un debate voluntario entre los alumnos. El conocimiento de ese tipo de diseos puede poner al alcance de un maestro individual la
verificacin experimental de las alternativas. Esto podra dar
lugar a procedimientos de tipo piloto que, de resultar promisarios, se examinaran por medio de experimentos de mayor envergadura y mejor coordinados.
Este enfoque es aplicable a un muestreo de sesiones con un
solo sujeto. Aunque no es habitu-al todava administrar tests
de significacin, es este un diseo muy utilizado en la investigacin fisiolgica, en la cual se aplica repetidas veces un
estmulo a un animal, poniendo sumo cuidado en evitar cualquier periodicidad en la estimulacin, ya que este ltimo aspecto corresponde al requisito de aleatorizacin para aquellas
sesiones en que as lo demande la lgica del diseo. Tambin
pueden utilizarse cuadrados latinos en vez de la aleatorizacin
simple [p. ej., Cox, 1951; Maxwell, 1958].

Tests de significacin para el diseo 8


Una vez ms necesitamos pruebas de significacin apropiadas
para este tipo particular de diseo. Advirtase que hay implcitas en l dos dimensiones de generalizacin: con respecto
a las sesiones y con respecto a las personas. Si consideraf!l.GS
un caso en que se utilice una sola persona, es obvio que la
generalizacin de la prueba de significacin se limitar a esa
persona en particular, comprendiendo una generalizacin entre casos, para cuyo fin convendr utilizar una t con un nmero de grados de libertad igual al de sesiones menos dos.
Si se poseen registros individuales de cierto nmero de personas sometidas al mismo tratamiento y todas ellas comparten
el mismo grupo, se tendrn tambin datos para generalizar
entre personas. En esta situacin habitual dos estrategias parecen comunes. Una, errnea, es la de generar a propsito de
cada individuo un puntaje nico para cada tratamiento experimental, y aplicar luego tests de significacin de la diferen-

89

ca entre las medias con datos correlacionados. Esta es la lgica de los anlisis de Allport y Sorokin, aunque en realidad
no se utilizaron tests de significacin. Pero cuando solo estn
implicadas una o dos repeticiones de cada condicin experimental, los errores de muestreo de las sesiones pueden ser
muy grandes o el control de la historia muy deficiente. Los
errores aleatorios en el muestreo de sesiones podran constituir lo que a la luz de este anlisis parecen ser diferencias
significativas entre unos y otros tratamientos. Esto ser un
error muy grave si el efecto de las sesiones es significativo
y apreciable. Sobre ese supuesw lgico se podra obtener, por
ejemplo, una diferencia sumamente significativa entre X 1 y
X:;, cuando cada una solo haya sido presentada una vez y cuando c11 una sesitn ;dgn acontecimiento externo haya producido
por azar un resultado nouhlc. Parece, pues, imprescindihle
que para c:Hia tratamiento se incluyam> por lo menos dos sesiones y estn representados los grados de lihertad entre ellas.
La mejor forma de cumplir con este requisito es, quiz, prohar ante todo la diferencia <:ntre bs medias de tratamiento y
un trmino de error entre las diversas sesiones y con respecto a cada tratamiento. Despus de establecer as la significacin del efecto del tratamiento, se podra proceder a determinar la proporcin de sujetos para los cuales se verifica,
obteniendo as datos sobre la posibilid,ld de generalizar el ef~c
to a diwrsas personas. Las mediciones y muestreos repetidos
de sesiones plantean muchos problemas estadsticos, algunos
de los cuales no han sido resueltos todava [ Collier, 1960;
Cnx, 1951; Kempthorne, 1952].

deben aplicarse a un contenido no idntico. El diseo puede


expresarse as:

Las M indican materiales especficos, siendo la muestra Ma,


i\-ic, etc., en trminos de muestreo, igual a la muestra Mo,
Ma, etc. La importancia de la equivalencia de muestreo de
ambos conjuntos de materiales quedara acaso mejor indicada
si se diagramara el diseo de esta manera:
Una persona o
gmpo

Muestra de materiales A (O) X o O


Muestra de materiales B (O) X1 O

El diseo 9 est ntimamente relacionado con el de muestras


cronolgicas equivalentes, y su argumento se funda en la equivalencia de las muestras de materiales a que se aplican las
variables experimentales que se comparan. Siempre, o casi
siempre, hay tambin implicadas muestras cronolgicas equivalentes, pero pueden estar intercaladas en forma tan sutil o
intrincada, que prcticamente vienen a constituir una equivalencia temporal. En un diseo con un grupo y X repetida,
se requieren materiales equivalentes all donde la ndole de las
variables experimentales sea tal que los efectos son permanentes, y los distintos tratamientos y repeticiones de ellos

Las O entre parntesis indican que en algunos diseos se


utilizar un pretest y en otros no.
El experimento de Jost [ 18971 sobre prctica masiva contta
prctica distribuida ofrece un magnfico ejemplo. En su tercer experimento se prepararon bastante al azar doce listas de
doce slabas carentes de sentido. Seis se asignaron a la
prctica distribuida y seis a la masiva. Las doce se aprendieron
simultneamente en un lapso de siete das, combinndose con
cuidado su programacin de modo que se controlasen la fatiga y otros aspectos. Siete de aquellos conjuntos de seis listas distribuidas y seis masivas se aprendieron durante un lapso
que se extendi desde el 6 de noviembre de 1895 hasta el 7 de
abril de 1896. Al final, Jost obtuvo resultados sobre 40 listas
diferentes de slabas aprendidas con prctica masiva y 40 con
prctica distribuida. La interpretabilidad de las diferencias
descubiertas en el nico sujeto de la prueba, G. E. Mller,
depende de la equivalencia de muestreo de las listas no idnticas existentes. Dentro de estos mrgenes, el experimento
descripto parece tener validez interna. Los descubrimientos,
naturalmente, se limitan a los rasgos psicolgicos de Mller
en 1895 y 1896 y al universo de material de memorizacin
muestreado. Para poder generalizar a otras personas y establecer una ley psicolgica ms general, habra, por supuesto,
que repetir el experimento con muchos individuos.
Otro ejemplo proviene de los primeros estudios sobre conformidad a la opinin del grupo. Moore [ 1921], por ejemplo, obtuvo una estimacin control de estabilidad en retest
de las respuestas a un conjunto de tems de un cuestionario,
despus de lo cual compar esa medida con la variacin resultante cuando, con otro conjunto, se acompa el retest con

90

91

9. Diseo de materiales equivalentes

una manifestacin de la opinin de la mayora. Consideremos


en cambio un estudio en el cual se solicita de los alumnos que
manifiesten su parecer acerca de un determinado nmero de
temas presentados en un extenso cuestionario. Se dividen entonces las preguntas en dos grupos tan equivalentes como sea
posible. En un momento posterior, se devuelven los cuestionarios a los alumnos y el grupo vota por cada uno de los
tems indicados. Se falsifican esos votos a fin de indicar mayoras opuestas a las que prevalecieron en las dos muestras de tems. Como medicin post-X, se solicita de los alumnos que vuelvan a votar sobre todos los temas. En caso de
que el argumento de equivalencia de muestreo de ambos conjuntos de elementos fuera correcto, las diferencias de despLtz<1mientos entre los dos tratamientos pareceran suministrar una prueba definitiva acerca de los efectos de dar a conocer bs opiniones del grupo, aun en ausencia de grupo de control alguno.
A semejanza del diseo 8, el 9 tiene validez interna en todos
los puntos, y en general por los mismos motivos. Obsrvese,
a propsito de la validez externa, que en el diseo 9, como
en todos los experimentos con mediciones repetidas, los efectos pueden ser bastante especficos de las personas medidas
en varias sesiones. En pruebas de aprendizaje, las mediciones
son parte tan integrante de la situacin experimental propia
del mtodo tpico utilizado en la actualidad (aunque no necesariamente en el mtodo de Jost, en el cual las prcticas
comprendieron cantidades controladas de lecturas de las listas), que esta limitacin a la generalizacin pierde toda import<tnca. Parecera que en el diseo 9 hay menos posibili
dades de dispositivos reactivos que en el 8 a causa de la heterogeneidad de los mnterales y la mayor probabilidad de que
los sujetos no adviertan que reciben tratamientos diferentes en
momentos diferentes y para tems diferentes. Esta escasa reactividad no aparecera en el experimento de Jost, pero s en el
estudio de conformidad. Es probable, pues, que la interferencia entre los niveles de la variable experimental o entre los
materiales sea una innegable imperfeccin de este experimento, al igual que en el diseo 8.
Tenemos un ejemplo especfico del tipo de limitacin as introducido acerca de los descubrimientos de Jost. Este investigador inform que el aprendizaje espaciado era ms eficaz
que la prctica masiva. De las condiciones generales de su
experimentacin cabe inferir que estaba justificado al generalizar slo para las personas que estuviesen aprendiendo muchas

listas, o sea, las que tenan un elevado nivel de interferencia.


La investigacin contempornea indica que la superioridad del
aprendizaje espaciado slo se restringe a tales poblaciones,
y que en personas que aprenden por primera vez materiales
muy nuevos, no se da es, ventaja ( Underwood y Richardson,
1958].

92

93

Estadsticas del diseo 9


Es obvio que el muestreo de materiales guarda relacin con
la validez y el grado de prueba del experimento. Como tal,
es probable que la N para el dlculo de la significacin de
las diferencias entre las medas de grupos de tratamiento debiera haber sido una N de listas en el experimento de Jost
(o una N de elementos en el estudio de conformidad) a fin
de que se representara ese importante cmnpo de muestreo. Se
lo debe completar con una base de generalizacin entre personas. En la actualidad, acaso lo mejor sea hacerlo en forma
seriada, estableciendo ante todo la generalizacin entre la
muestra de listas o tems, computando despus un puntaje
de efectos experimentales para cada persona, y empleando
todo ello como base para la generalizacin entre personas.
(Vase la bibliografa antes citada, a propsito del diseo 8,
con respecto a las precauciones que deben tomarse.)

1O. Diseo de grupo de control no equivalente


Uno de los diseos experimentales ms difundidos en ]a investigacin educacional comprende un grupo experimental y
otro de control, de los cuales ambos han recibido un pretest
y un postest, pero no poseen equivalencia preexperimental de
muestreo. Por lo contrario, los grupos constituyen entidades
formadas naturalmente (como una clase, por ejemplo) tan similares como la disponibilidad lo permita, aunque no tanto,
sin embargo, que se pueda prescindir del pretest. La asignacin de X a uno u otro grupo se supone aleatoria y controlada por el experimentador.

o
o

Dos cosas han de tenerse clars sobre este diseo. Ante todo,
que no se lo debe confundir con el 4, el diseo con grupo
de control pretest-postest, donde los sujetos experimentales
que se toman de una poblacin comn se asignan en forma
aleatoria al grupo experimental y de control. En segundo
lugar, que, a pesar de ello, hay que admitir que el_disc? 10
es utilizable en muchas oportunidades en que son tmposrbles
los diseos 4, 5 o 6. Sobre todo, habn1 que reconocer que
aun el agregado de un grupo de control no equiparado o ~o
equivalente reduce en gran parte la ambigedad de las mterpretaciones que derivan del diseo 2 de un grupo. pretestpostest. Cuanto ms similares sean en sn reclutamiento el
grupo experimer:tal y ~1 de control y m,s se confirme esa
similitud por los pnntaes del pretest, mas ehcaz resulta ese
control. Suponiendo que estos ideales se aproximen a los
objetivos de la validez interna, .podemos con~idcr~r que el
diseo controla Jos principales electos de la hrstona, la maduracin, la administracin de tests y la instrumcntac 11,
donde la diferencia para el grupo experimental entre el pretest y el pos test (si fuera mayor que para el grupo de control) no puede explicarse por efectos princpales de ~sas variables, como los que afectaran tanto al grupo expemnental
como al ele control. (Sin embargo, deben extremarse las precauciones sobre la historia intrasesional mencionadas en el
diseo 4.)
Un esfuerzo por explicar una ganancia pretest-postest propia
del grupo experimental en trminos de factor~s externos, como
hisroria, maduracin o aplicacin
tests, ttene que suponer
una interaccin entre esas variables y las diferencias especficas de seleccin que se den entre el grupo experimental y
el de control. Aunque tales interacciones son en general poco
probables, hay un cierto nmero de situaciones en las que
podran invocarse. Acaso las ms comunes sean las interacciones que implican maduracin. Si el grupo experimental
consta de pacientes de psicoterapia y el de control de alguna
otra poblacin disponible a la cual se le hayan administrado
un test y un retest, una ganancia peculiar al grupo experimental bien podra interpretarse como un proceso espontneo
de remisin tpico de grupo tan extremo, ganancia que se hubiese producido tambin aun en ausencia de X. Tal interaccin entre seleccin y maduracin (o seleccin-historia, o seleccin-test) podra confundirse con e1 efecto de X, constituyendo por tanto una amenaza a la validez interna del experimento. Esta posibilidad ha sido representach -::n la octava
94

columna del cuadro 2 y es el principal factor de validez


interna que caracteriza a los diseos 4 y 10.
Acaso se aclare este punto con un ejemplo concreto de investigacin educacional. El estudio de Sanford y Hemphll
[19.52] sobre los efectos de un curso de psicologa en Annapolis ofrece una excelente ilustracin del diseo 10. En ese
trabajo, el Segundo Curso de Annapols constituy el grupo
experimental, y el Tercero, el de control. Las mayores ganancias registradas por el grupo experimental podran explicarse como parte de un proceso general de perfeccionamiento,
con resultados mximos en los primeros dos cursos y mnimos en el tercero y cuarto, constituyendo, por tanto, una
interaccin entre los factores de seleccin que diferencian los
grupos experimental y de control y las variaciones naturales
maduracin caractersticas de tales grupos, y no un efecto
del programa experimenta 1. El grupo particular de control
utilizado por Snford y Hemphill posibilita alguna verificacin de esta interpretacin rival (en forma un tanto similar al diseo 15, que expondremos ms adelante). La hiptesis de seleccin-maduracin pronosticara que el Tercer
Curso (grupo de control) habra de indicar en su test inicial
una superioridad respecto de las mediciones pretest del Segundo Curso (grupo experimental), con magnitud casi igual
a la ha11ada entre el pretest y el postest de este ltimo grupo. Por fortuna para la interpretacin de su experimento, no
ocurri en general as. Las diferencias entre los cursos en el
pretest no presentaban en la mayora de los casos el mismo
sentido ni igual magnitud que las ganancias pretest-postest
del grupo experimental. Sin embargo, sus comprobaciones de
una ganancia significativa para el grupo experimental en puntajes de confianza en el cuestionario de situaciones sociales
pueden explicarse como un mecanismo artificial de seleccinmaduracin. El grupo experimental pas de 4.3,26 puntos
a 51,42, en tanto que el Tercer Curso comenz por un pun-
taje de 5.5,82 y continu aumentando hasta alcanzar 56,78.
La hiptesis de interaccin entre seleccin y maduracin ser
en ocasiones aceptable, aun cuando los grupos obtengan puntajes pretest idnticos. El ms comn de tales casos ser aquel
en que un grupo obtenga una tasa de maduracin o variacin
autnoma ms elevada que el otro. El diseo 14 ofrece una
extensin del 10 que tendera a eliminar este factor.
otro gran problema de la validez interna en el diseo 10
es la regresin. Como se indic con? en el cuadro 2, cabe
evitar ese riesgo, pero no siempre al tropezar con l se lo
95

sortea. En g.e?eral, si se ha e!egido cualquiera de los grupos


de comparacton por sus puntaes extremos de O o mediciones
correlativas, una diferencia en el grado de desplazamiento de
pretest a postest ~ntre ambos grupos bien puede ser produ~to de la rcgrestn y no efecto de X. Esta posibilidad ha
terildo may~1r. yascendencia a causa de una obcecada y eng~nosa trad1c10n en el mbito de la experimentacin educac:on:d, por l~ que se considera la equiparacin como una
tecmca apropiada y suficiente para establecer la equivalencia
preexpenmental de grupos. Este error ha ido acompaado
p~1r la falta de distincin entre los diseos 4 y 10 y los
difere~tes papeles representados por la equiparacin en los
puntaes de pretcst en ambas condiciones. En el diseo 4
puede consider<use este procedimiento como un comple~
mento provechoso de la aleatorizacitn, pero no como un
sustJtu:o de ella; ~n trminos de puntajes en el prctest o en
las :~mables r~lauvas, cabe organizar la poblacin total dispomble para f1.nes experimentales en pares de sujetos cuidados~mentc eqmparados; ~o:" integrant~s de esos pares se asignaran al. azar .a las cond1c1ones experlmentales o de controL
Esa. eqUJpa~ac~n ms. la ulterior aleatorizacin suelen prod.l:CJr un ~1seno expenmental ms preciso que la aleatorizacwn por s1 sola.
~o debe c.on~undirse con ese ideal la tcnica, correspondiente al d1seno 10, de tratar de compensar las diferencias
entr~ los grupos exp~ri:nentales y de control no equivalentes
med1ante un procedumcnto de equiparacin, cuando no se
p~et!e hacer la asignacin aleatoria a tratamientos. Si en el
diseno 1 O las medias de los grupos son sustancialmente diferent~s, el p_roccso de_ egui.paracin, no solo no suministra la Ig~alaCJon pretendida, smo que provoca la presencia de
efectos Indese_ado_s ,de regresin. Se torna previsible que ambos grup~s difer1r~n en sus puntajes postest en forma por
completo mdepend1ente de cualesquiera efectos de X as como
q_ue esa diferencia variar en proporcin directa a 1~ diferencia entre las P?_bla~iones totales de las que se hizo la seleccin,
Y en proporcwn mversa a la correlacin entre el test y el
pre-retest.
Rulon [ 1~41 ], Stanley y Beeman [1958] y Thorndike [ 1942]
han e~t.u:Jtado este problema en forma exh,1ustiva, destacando
el anahs1s de covariancia y otras tcnicas estadsticas sugerid~s por Johnson y Neyman [vase Johnson y Jackson, 1959,
pags. 424-44] y por Peter? y Van Voorhis [1940] para probar los efectos de la variable experimental sin el proced-

miento de hallar pres de grupos similares. No obstante,


habra que tomar en cuenta recientes advertencias de Lord
[1960] a propsito del anlisis de covariancia cuando la confiabilidad de la covariable no es absoluta. Tambin pueden
aplicarse puntajes simples de ganancia, pero suelen ser menos
convenientes que el anlisis de covariancia. La aplicacin del
anlisis de covariancia a esta situacin del diseo 10 implica
supuestos (como el de homogeneidad de regresin) menos
posibles aqu que en los casos del <liseo 4 [vase Lindqust,
1953].
Al interpretar estudios publicados del diseo 1O, en que se
recurri a la cquiparncin, se puede advertir que el sentido
del error es predecible. Consideremos un experimento de psicoterapia que utiliza como O calificaciones de descontento con
la propia personalidad. Supongamos que el grupo experimental
consta de personas sometidas a terapia, en tanto que d grupo
de control seleccionado est formado por personas consideradas normales. En este caso el grupo de control presentar
puntajes extremadamente bajos con respecto al grupo normal
(seleccionados por esta caracterstica), y regresionar en el
postest en el sentido de la media del grupo normal, haciendo
as menos probable que se demuestre un efecto significativo
de la terapia en vez de producir una falsa impresin de eficacia en favor del procedimiento teraputico.
El ejemplo de los pacientes de psicoterapia nos ofrece tambin un caso en el cual los supuestos de regresin homognea
y muestreo del mismo universo, salvo para los puntajes extremos, parecen inapropiados. La inclusin de controles normales en la investigacin psicoteraputica, es de alguna uti1idad, pero hay que poner suma cautela en la interpretacin
de los resultados. Es importante distinguir dos versiones del
diseo 10, y darles diferente jerarqua como aproximaciones
a la experimentacin propiamente dicha. Por una parte, se
cla la situacin en que el experimentador dispone de dos grupos naturales, por ejemplo dos clases, y puede elegir con
libertad cul ha de recibir X, o por lo menos no tiene ningn
motivo para sospechar que se haga un reclutamiento diferencial con relacin a X. Aunque los grupos pueden diferir en
sus medias iniciales de O, el estudio se aproximar a la experimentacin propiamente dicha. Por otra parte, hay casos
del diseo 10 en que los participantes son a todas luces
autoseleccionados: el grupo experimental busca deliberadamente la exposicin a X, y no se cuenta con un grupo de
control tomado de esa misma poblacin. En este ltimo caso,

96

97

es menos probable que se cumpla el supuesto de regresin


uniforme entre los grupos experimental y de control, aumentando en cambio la posibilidad de interaccin seleccinmaduracin (y las dems interacciones de seleccin). El diseo 10 autoselecconador> es, pues, mucho ms endeble,
pero no ofrece informacin que en muchos casos eliminara
control
la hiptesis de que X surte algn efecto. El grupo
ayuda a interpretar, aunque sea muy divergente en el mtodo
de reclutamiento y el nivel medio.
La amenaza que la administracin de tests constituye para la
validez externa es la expuesta a propsito del diseo 4 ( vase pg. 32). El signo de interrogacin para la intcl:<lcci6n de
la seleccin y X nos recuerda que el efecto de X bwn puede
ser especfico de los participantes seleccionados como lo fue
de los participantes de nuestro experimento. Con~o _los requisitos del diseo 10 pueden poner menos restnccwnes a
nuestra libertad de muestreo que los del
4, esa especificidad ser por lo comn menor que en un experimento
de laboratorio. La amenaza a la validez externa proveniente
de la reactvidad de los dispositivos existe, pero tal vez
en menor grndo que en la mayora de los experimentos pro.
pamente dichos, como el diseo 4.
Donde existe la posibilidad de utilizar dos cursos mtacto.>
con el diseo 10, o la de tomar muestras aleatorias de los
alumnos fuera
las aulas para distintos tratamientos expe-rimentales segn un diseo 4, 5 o 6, es casi seguro que
este ltimo dispo~itivo scn1 ms reactivo, creando mayor conciencia de que se est siendo sometido a experimento -la
sensacin de ser un conejillo de Indias>> y similares.
Los estudios de Thorndike sobre disciplina formal y transfe-rencia [p. ej., E. L. Thorndike y \X'oodworth, 1901; Brolyer,
Thorndike y Woodyard, 1927] constituyen otras tantas aplcndones del diseo 10 a X no controladas por el expermen~
tador. Tales estudios soslayaron, al menos en parte, el error
de los
de regresin causados por la equpamci6n simple, pero habra que compararlos cuidadosamente con k~s ~D
todos modernos. As, es prob,lb1e que el uso de estad1st1cas
de covariancia produjera una prneba ms contundente, por
ejemplo, de trasferencia del vocabulario latino al ingls.
En otro sentido, los efectos por lo comn positivos, annqne
mnimos, que se hallaron podran explicarse no como trnsferencias sino como la seleccin en los cursos de latn de los
alumnos cuyo ndice anual de enriquecimiento de vocabulario
habra sido mayor que el del grupo de control, aun sin la

presencia del estudio del latn. Este resultado se clasificara


aqu como interaccin seleccin~maduracin. En muchos sistemas escolares esta hiptesis rival podra verificarse ampliando la gama de las O previas al aprendizaje del latn que
se toman en consideracin como en un diseo 14.
Tales estudios constituveron denodados esfuerzos por introducir b mentalidad ex;crimental en la investigacin de cam'po,
merecen que se les preste renovada atencin y se los
con los mtodos modernos.

98

99

1 J. Diseos compensados
Bajo este ttulo se renen todos aquellos disei'os en los cua
les se logra el control experimental o se aumenta la precisin
aplicando a todos los participantes (o situaciones) la totalidad
de los tratamientos. Esos dsefos recibieron las denominaciones de experimentos rotativos>~
19 23], -di.
scfos compensados
cj.,
1949], llsefos
cru:;:ados [Cochran y
19.58] y diseos
de connnJI<>~in
.
dispositivo de cua~
drado
es
utiliza en .la compensacin.
en el
11, esquema
Ese cuadrado
tb:ado
en el

y por turno a
ncra natural o incluso a cuatro
1958]:
Primera

Tercera

Cuarta

ve,z

vez
X::C)

Grupo B

x,o

vez

vez

X10
~-~-

Grupo C

x,o
-x~o

D
El disciio ha
slo con postests, d,ldo que
presta particular
donde los pretcsts resultan
inapropiados y no se dispone de
como el 10. El
dse1o contiene tres clasificaciones (grupos, sesiones y X
o tr<ltamentos experimentales).
clasificacin es Orto-

gonal respecto de las otras dos, en el sentido de que cada


variable de cada clasificacin se produce con la misma frecuencia (una vez para un cuadrado latino) con cada variable
de cada una de las otras clasificaciones. Obsrvese que c8da
tratamiento (o X) >slo se da una vez en cada columna y cae! a
fila. El mismo cuadrado latino puede modificarse de tal manera que las X se conviertan en ttulos de filas o de columnas:
Grupo A
Grupo B
Grupo e
Grupo D

x1
t10
t:;O
t~O
(()

x~
t~O

t10
t()
[;0

X:~

x1

t.10
t10
[()

t40
t20
t30

t~O

ttO

Resultan as comparables las sumas de puntajes por X, al tener representados, en cada una de ellas, cada oportunidad y
grupo. Las diferencias en tales sumas no se podran interpretar como resultados artificiales de las discrepancias grupales
iniciales o de efectos de la prctica, la historia, etc. De parecida comparabilidad son las sumas de las filas para diferencias grupales intrnsecas, y las sumas de las columnas de la
primera presentacin para las diferencias en las sesiones. Desde el punto de vista del anlisis de variancia, el diseo parece
suministrar as informacin acerca de tres efectos principales
con el nmero de casilleros que suelen exigirse para dos. Resulta evidente el costo de esta mayor eficacia: lo que parece
ser un efecto principal significativo segn cualquiera de los
tres criterios de clasificacin, acaso constituye en cambio una
compleja interaccin significativa entre los otros dos [Lindquist, 1953, pgs. 258-64]. Las diferencias aparentes entre
los efectos de las X podran resultar un complejo efecto especfico de interaccin entre las diferencias grupales y las
sesiones. Las inferencias sobre los efectos de X dependern
de la admisibilidad de esta hiptesis rival, y por lo tanto las
estudiaremos en forma ms detallada.
Digamos, en primer lugar, que la hiptesis de tal interaccin
es ms admisible para la aplicacin cuasiexperimentill descrita,
que para las de los cuadrados latinos en los experimentos
propiamente dichos mencionados en los textos. En lo que
se ha denominado la dimensin grupal, se entremezclan dos
posibles fuentes de efectos sistemticos. Ante todo, estn los
factores de seleccin sistemtica implicados en la formacin
natural de los grupos. Cabe esperar que esos factores tengan
a la vez efectos principales e interacten con la historia, la

lOO

maduracin, los efectos de la prctica, etc. Si se tuviese que


organizar as un experimento con control tata~, cada p~rso
na debera ser asignada a cada grupo en forma mdependier;,te
v aleatoria, eliminndose esta fuente tanto de los efectos prm~ipales como ele la interaccin, al menos en lo que concierne
al error de muestreo. Es caracterstico del cuasiexperimento
que la compensacin se introduzca p~ra st~I:?inistrar ~na suerte de igualacin, solo porgue tal as1gnac10n aleatoria no es
posible. (Como contraste, en diseos del todo controlados, se
emplea el cuadrado latino por razones de economa o para resolver problemas peculiares del muestreo de parcelas.) Una
segunda posible fuente de efectos entremezclados en l~s grupos e'i la vinculada con secuencias esp~cficas de tr~tamiento~.
Si todas las repeticiones de un expenmento propiamente dicho hubiesen seguido el mismo cuadrado latino, esta fuente
ele efectos principales y de interacci?n tambi~n habra es~a
clo presente. Sin embargo, en el tpico ~x;perunento propiamente dicho, a algunos grupos de participantes se les. habran asignado en la repeticin diferentes cuadrados latinos,
climiw'ndose as el efecto sistemtico de secuencias especficas. De ese modo se elimina tambin la posibilidad de gue
determinada interaccin sistemtica haya producido un aparente efecto principal de las X.
. .
Es probable que las sesiones produzcan un efecto pr:nCipal
debido a la repetida aplicacin de pruebas, la ~adura~I~n, la
pnctica y los efectos acumulados o trasferencias. Asun_Ismo,
la historia puede generar efectos con respecto a las seswnes.
El dispositivo en cuadrado latino impide, por supuesto, que
esos efectos principales contaminen los de ~- Per? d??de_ tales efectos son sntomas de una heterogeneidad sigmficatlva,
es probable que se justifique ms la sospe~ha_ de interacCiones
significativas que cuando tales efectos pnnCipales no se producen. Los efectos de la prctica, por ejemplo, quiz sean
montonos, pero tambin es probable que no sean lineales" y
generen efectos tanto principales _como de inte~accin. Muc~as
aplicnciones de los cuadrados latinos en expenmentos propiamente dichos, como en la agricultura, por ejemplo, no exigen
reiteradas mediciones y es caracterstico que no produzcan
ningn efecto sistemtico correspondiente de colu~na .. Los del
tipo cruzado, sin embargo, comparten este posible mconveniente con los cuasiexperimentos.
Estas consideraciones permiten apreciar la mxima importancia de la repeticin del diseo cuasiexperimental con diferentes cuadrados latinos especficos. Tales repeticiones, realizadas

101

en nmero suficiente, haran del cuasiexperimento un experimento propiamente dicho. Es probable que implicasen tambin cantidades suficientes de grupos para posibilitar la asignacin aleatoria de grupos intactos a los tratamientos, medio
de control que por lo comn es preferible. No obstante, careciendo de tales posibilidades, un cuadrado latino nico cons"
tituyt: un diseo cn~1siexperimental intuitivamente satisfactorio, a causa de su demostraci(m de todos los efectos en la
totalidad de los grupos de comparacin. flttn reconociendo
los posibles errores de interprct;JCin, constituye un discf'o
qul' bien vale la pena adoptar cuando no hay posibilidades de 1111 control 1ms eficaz. lJna vez desLK:Hh's sus graves
inctlnvcnientl's, cx:1mincmos sus ventajas relativas.
Como todos los cuasiexperimcntos, gana este en pujanza con
la congruencia de las repeticiones intert1:1s de la prucba. Para
poner de relieve esa collgrucncia, deben eliminarse los efectos
principales de las sesiones y los grupos, expresando cacla
casillero como un desvo respecto de las mcdi,s de filas (gntpo) y columnas (momentos): M 11 ,-M,,.-M.,+M ... Despus se reordenan los datos, con los tratamientos (X) enea"
bezando las columnas. Supongamos que el cuadro que ohte"
nemos es de una satisfactoria congruencia, que el ms eficaz ele
los tratamientos es el mismo en los cuatro grupos, etc. Cules
son las probabilidades de que eso no sea un efecto rc<1l de los
tratamic:ntos, 'ino una interaccin de grupos y sesiones? Podemos observar que casi todas las posibles interacciones de
grupos y sesiones reducirLm o enturbiaran el efecto maOiificsto de X. Una interaccin que imitara un efecto principal
de X sera poco probable, y lo sera menos an en cuadrados
latinos mavores.
Nos sentirmnos muy atrados por este diseo cuando tuvisemos control de programacin sobre unos cuantos grupos de
formacin natural, como por ejemplo clasc:s, pero no nos fuese posible subdividir esos grupos naturales en subgrupos de
equivalencia aleatoria, sea para una presentacin de X o para
aplicar tests. En tal situacin, si hubiera cmo aplicar un
pretest, se dispondra asimismo del diseo 10: tambin im"
plica una posible confusin de los efectos de X con interacciones de seleccin y sesiones. Se juzga que esta posibilidad
es menos probable en el diseo compensado, porque en caJa
grupo se demuestran todas las comparaciones y por lo tanto
se necesitaran varias interacciones equiparadas a fin de imL
tar el efecto experimental.
Mientras que en los otros diseos la especial sensibilidad de
102

uno solo de los grupos a un acontecimiento externo (historia)


o a la prctica (maduracin) podra simular un efecto de X,
en el diseo compensado tales efectos coinciden tes tendran
que darse en sucesivas sesiones separadas y en cada uno de
los grupos. Este resultado supone, por supuesto, que no nter"
pretaramos un efecto principal de X como significativo si la
inspeccin de los casilleros indicase que un efecto principal
desde el punto de vista estadstico ha sido originado, funda
mentalmente, por un muy poderoso efecto en solo uno de los
grupos. Para un estudio ms detenido de esta cuestin, vanse
WilkyKempthorne [1957],Lubin [1961] yStanley{1955].

12. Diseo de muestra separada pretest-postest


Para grandes poblaciones -p. ej., ciudades, fbricas, escuelas y unidades militares-, suele ocurrir que, aunque no se
pueden segregar subgrupos en forma aleatoria para tratamien"
tos experimentales diferenciales, cabe ejercer algo as como
un control experimental completo sobre el momento de apli"
eacin y los destinatarios de la O, utilizando procedimientos
de asignacin aleatoria. Ese control posibilita el diseo 12:

RO (X)

X O

En este esquema, las filas constituyen subgrupos de equivalencia aleatoria, representando la X entre parntesis una presentacin de X sin importancia. Se mide una muestra antes de X, otra equivalente despus de X. El diseo no es intrnsecamente eficaz, como lo indica su fila en el cuadro 2.
No obstante, suele resultar viable, y a menudo merece que
se lo aplique. Se lo ha utilizado en experimentos de ciencias
sociales que son an los mejores estudios existentes en sus
temas especficos [p. ej., Star y Hughes, 1950J. Aunque se
lo ha denominado diseo simulado antes-y-despus [ Selltiz,
Jahoda, Deutsch y Cook, 1959, pg. 116], vale la pena destacar su superioridad respecto del diseo comn antes-y-des"
pus, el diseo 2, por su control tanto del efecto principal de
la aplicacin de tests como de la interaccin de la adminis"
tracin de tests con X. El defecto fundamental del diseo es
que no puede controlar la historia. As, en el estudio de la
campaa de publicidad realizado en Cincinnati para las Na-

103

ciones Unidas y la UNESCO [Star y Hughes, 1950], es probable que hechos externos de la escena internacional lmbieran sido la causa de la reduccin observada en el optimismo
sobre la coexistencia pacfica con Rusia.
Est<l obra aspira a estimular los dsefos (<de retazos, en los
cuales se agregan aspectos que permitan controlar factores
especficos, de ordinario uno por vez (en contraste con los
experimentos propiamente dichos, <Je mayor elegancia, en que
con un solo grupo se controlan todas las amenazas a la validez
interna). Repitiendo el diseo 12 en diferentes situaciones y
momentos, como en el diseo l2a (vase cuadro 2, xg. 80),
se controla la historia, pues si el mismo efecto se da en varas
ocasiones, la posibilidad de qne sea tesult:Hlo de acontecimien
tos hist6ricos coincidentes se torna menos probable. No obsbant(~, las tendencias histricas persistentes o los ciclos estacionales siguen constituyendo explicaciones rivales no controladas. Por la repeticin del efecto en otras condiciones, cabe
reducir la posibilidad de que el
observado sea caracte-J'stico
la nica poblacin seleccionada en el primer momento. No obstante, s la situacin
la investigacin permite
utilizar el diseo 12a, tambin ser vinble el 13, que en genemlte:mltar preferible.
Es poco probable que se invoque la maduracin, o el
to del envejecimiento de los participantes, como explicacin
rival, ni aun en estudios sobre la opinin pblica que se extiendan durante meses. Pero en la encuesta por muestreo, y
hasta en ciertos cursos universitarios, las muestras son suficientemente grandes y las edades lo bastante heterogneas para que se puedan comparar las submuestras del grupo pretest
que difieren en maduracin (edad, nmero de semestres cutetc.). La maduracin, y la acaso ms peligrosa posibilidad
tendencias persistentes y estacionales, tambin es controlable por un diseo como el 1
que agrega un grupo pretest anterior, aproximando el diseo al de series cronolgicas,
aunque sin la aplicacin reiterada de tests. Para poblaciones
como la de pacientes a quienes se aplican tratamientos de
cotempia, donde podra darse una mejora espontnea o curacin, los supuestos de linealidad implicados en forma implcita en este control quiz no fueran aceptables. Es ms prohable que la tendencia de maduracin reciba una aceleracin
negativa, haciendo as que la ganancia de maduracin 01 o~
sea mayor que la de 02- 0:;, en detrimento, por tanto, de la
interpretacin de que X ha producido efecto.
La instrumentacin constituye un riesgo en este diseo, cuan-

do se la utiliza en el marco de las encuestas por muestreo. Si


en el prctest y el postest se recurre a los mismos encuestadores,
suele ocnrrir que muchos, carentes an de experiencia en el
pretest, la hayan adquirido en el postest o tengan en l mayor
soltura. Si en cada tanda de encuestas se recurre a
personas para esa tarea, y su nm1ero no es elevado, las diferencias en la idiosincrasia de los encucstndores se confunden con la variable experimenta!. Si los experimentadores
conocen la hiptesis, su.s expectativas pueden provocar diferencias, hyase o no t msmi ti do la X, como lo demostraron
con sus experimentos S tan ton y Haker [1942] y Smith y Hyman [1950]. En un caso ideal se utilizaran muestras aleatorias equivalentes de distintos entrevistadores en
tanda,
mantenindolos
acerca del objeto del experimento.
Adems, el reclutamiento de los encuestadores puede indicar
diferencias estacionales, por ejemplo, ya que durante los meses de verano se dispone de ms estudiantes universitarios,
etc. Las tasas de rechazo son acaso menores y la duracin de
las entrevistas mayor en verano que en invierno. Para cuestionarios autoadministrados en el aula, este error instrumental
ser menos probable, aunque las orientaciones baca la administracin de tests
se desplacen en formas mejor clasificables como instrumentacin que como influjos
X sobre O.
Pata prctests y postcsts aplicados con varios meses de separacin, la mortalidad puede plantear un problema en el diseo
12. Si ambas muestras se eligen en forma simultnea (punto
R) , es de su poner que a medida que trascurra el tiempo ms
integrantes de la muestra elegida se tornen inaccesibles, perdindose los segmentos ms transitorios de la poblacin, lo
cual producir una diferencia poblacional entre los distintos
perodos de entrevista. Una advertencia de esa posibilidad la
constituyen las diferencias entre los grupos en el nmero de
personas no entrevistadas.
En estudios realizados a lo largo de perodos extensos, las
muestras para
y postest deberan seleccionarse acaso
en forma independiente y en momentos distintos apropiados,
aunque ello tambin posee una fuente de sesgo sistemtico,
resultante de los posibles cambios en el esquema residencial
del conjunto del universo. En algunos medios (p. ej., en las
escuelas, los archivos permitirn que se eliminen los puntajes
pretest de
no estarn ya disponibles en el momento
del postest, haciendo as ms comparables el postest con el
pretest. Para lograr un mecanismo que
posible esa correccin en la encuesta con muestras, as como una ratificacin

104

105

del efecto que no pudiera contarmnarse con la mortalidad se


puede someter el grupo pretest a un nuevo test, como e~ el
diseo 12c, donde la diferencia 01
confirmara la comp~racin 01 Oa. As, el estudio que Duncan y otros [1957]
etectuaron sobre la reduccin en las creencias errneas lograda
durante un cu.rso introductorio de psicologa. (En este di.
el gnqm so.metido a un retest no permite que se exammen las g<1ila11CHlS de personas con puntajes iniciales divers~Js, por no haberse utilizado un grupo de control para verificar la existencia de regresin.)
Lo cnracrerstico de este diseo es que lleva el laboratorio <l la
situ.JCn de campo a la cual el investigador desea extender
sus generalizaciones, probando los efectos de X en su ambiente na.tut;_al. En ge!1eral, segn se indica en los cuadros 1 y 2,
los. d1senos 12, 12a, 12b y 12c pueden resultar superiores en
va!Jde% c:cterna o pos.ibilidad (~e generalizacin respecto de
l~)S expe.m~entos prop1~rnente d1chos de los diseos 4, 5 y 6.
hstos dtsenos no reqweren gran cooperacin de los participnntes, ni que estn disponibles en ciertos lugares y momentos,
e.tc., de modo .que se puede utilizar un muestreo representattvo de poblacwnes previamente determinadas.
En }os diseos 12 y 1_! (y sin lugar a dudas tambin en algunas
vanantes de los d1senos 4 y 6, donde X y O se trasmiten por
cor~tactos individuales, etc.), es posible el muestreo representativo. Los
positivos en la columna de interaccin selecci~n-X son muy relativos y con todo derecho se los podra
cambwr por. signos de interro~acin ya que en la prctica general las unidades no se selecciOnan por su relevancia terica
sin<~ a menudo por razones de cooperacin y accesibilidad, qu~
pos1blemcnte las tornen atpicas del universo al cual se las
desea generalizar.
Star yHughes [1950] no deseaban generalizar a Cincinnati
sino ms bien a los ciudadanos de Estados Unidos o al mun~
do en general, y persiste la posibilidad de que la reaccin a
X en aquella urbe fuese atpica de esos universos. Pero el
grado de ese sesgo
accesibilidad es tan inferior al de otros
diseos ms exigentes que, en comparacin, parece justificado
atribuirle un carcter positivo.

o:J

106

13, Diseo de muestra separada pretest-postest


con grupo de control

supone que el diseo 12 ha de utilizarse en aquellas situaciones en que la


si existe, debe presentarse al grupo como
un todo. Si se cuenta con grupos cornparables (ya que no
) a los cuales sea posible rehusar la X, se podr
agregar un grupo de control al diseo 12, creando as el
dscfo U:

RO (X)

R
RO
R

X O

Este dsefto es bastante


al 10, solo que no se vuelve
a someter a test a las mismas personas y, por lo tanto, se
evita la posible interaccin entre la administracin de tests
y X. Como en el diseo 10, la desventaja del 13 en cuanto a
la
interna proviene de la posibilidad de interpretar como efecto de X otra tendencia local propia del grupo experimental que, en realidad, no ha influido. Aumentando el nmero de las unidades sociales implicadas (escuelas, ciudades,
fbricas, buques, etc.) y asignndolas en cierto nmero y con
aleatorizacin a los tratamientos experimentales y de control, 0e conseguir eliminar la nica fuente de invalidacin,
logn1ndose as un experimento propiamente dicho, anlogo al
disefo 4, con la nica diferencia de que se evitan nuevss
pruebas sobre los mismos individuos. Este diseo
designarse 13a. Su esquematizacin (en el cuadro 3) se ha visto
complicada por los dos niveles de equivalencia (logrados por
asignacin aleatoria) en l implicados. En el nivel de participantes, existe en el interior de cada unidad social la equiva
lencia de las muestras separadas pretest y postest, indicadas
por el punto R de asig::1acin. Enrre las varias unidades sociales que reciben cualquiera de los tratamientos, no se verifica
esa equivalencia, lo cual se indica con la lnea punteada.
La R' designa la igualacin del grupo experimental y el de
control por la asignacin aleatoria de esas muchas unidades
sociales a uno u otro tratamiento.
Como puede verse en la fila correspondiente a 13a del cuadro 3, este diseo
un puntaje perfecto para validez
107

tanto intema como externa, esta ltima en virtud de los


fundamentos ya expuestos a propsito del disefo
y con
rrwyor hincapi en el problema de h interaccin seleccin-X,
'1 causa de que estn representadas mu.chas unidades sociales y
no una sola. Que nosotros sepamos, este dise11o, excelente
pero costoso, no ha sido utilizado nunca.

Cuadro 3. Fuentes de invalidaci1z para los diseos 13 a 16.


Fn<'ntt>S de Jnvallaein
lntcrna

"

"

-~

I 4. Diseo de senes cronolgicas mltiples


.En los estudios de grandes cambios administra! ivos por medio
de datos en series cronolgicas, al investigador le conviene buscar una institucin similar no sujeta a X, de la cual tomar
una serie cronolgica de control an6loga (idealmente, con
X asignada ,] azar):

o () o () o o

108

fii ;:;;

~v

-~

i5"

"6

"

:~
;':;
M

'"

:o"
o

"'

:Q

'E

" ;::;

'V

:n

Di.vntos
(cm d.

mr:11lafr.1.'

]3. ])i.<;<fo df

:-wr)arada

HHl\'>ha

pret"st-);>slist
con .t;rnpo de
contrqJ
JI O (X)
ll
X O

no

]{

"" ro

(X

Este disdio contiene (en las O que comprenden a X) el mmero 10, de grupo de control no equivalente, pero gana
certidumbre de interpretacin por las mltiples mediciones representadas, ya que en cierto sentido el efecto experimental se
demuestra dos veces, respecto del control y respecto de los
valores pre-X en su propia serie, como en el diseo 7.
ms, !u interaccin entre seleccin y maduracin se controla
en el sentido de que, si el grupo experimental demostr por
lo comn una mayor tasa de ganancia, aparecera as en las
O pre-X. En los cuadros 2 y 3 es escasa la representacin de
esta nueva ganancia, pero aparece en la ce lumna final de validez interna, titulada <nteraccin de seleccin y maduracin. Puesto que la maduracin se controla tanto en la serie
experimental como en la de control, por las razones expuestas en nuestra primera presentacin del diseo 7 de serie
cronolgica, la diferencia en la seleccin de
grupos, q;ze
opera juntamente con la maduracin, instrumentacin o re~
grcsin, difcilmente podr explicar un efecto notorio. Sin
embargo, no se excluye la posibilidad de una interaccin entre la diferencia de seleccin y la historia.
Como con el diseo 7 de serie cronolgica, se ha puesto un
signo negativo en la columna de validez externa para la m-

.m

"' aa

;;; 'O"m

o o o oxo ()o o
()1.()

Ti

l {:::;: "
rw

(X)

ii o

(X)

R'

o
o

}{()

o
+

14. Scre,-.; cronolbgcns


ntlltiplc;.;

-o~

i5.

o oxo o

()

o o

1-

()
-~

))i~wo de ciclo
institucional

CJ. A X o,
C. llO" X O,

J;

_X 0'--~

(;I._B"H
eJ. e

~"~
Gen. Pol>.
p/Cl. IJ 0,;
Con t. Gen. Pob.
p/CI. e o,

c;;;;i.

<O, } +
<Oa
o" <O.to"
o,
Oc
o". O;:o

()"

-1

Oc. <"O.J

-+-

+
+-

+
+
?

teraccn entre la aplicacin de pruebas y X, aunque como en


el caso del mismo dise'o 7, el que comen tamos se emplear
a menudo cuando la administracin de los tests no sea reactiva . .'I:a~1bin la habitual preocupacin acerca de la posible
espenftctdad de un efecto demostrado de en la poblacin que
se estudia
registrada en el cuadro 3. En cuanto a los tests
de significacin, se
qu::: la;; difcrcnCfls entre la serie
experimental y la
control se nna.liccn como
datos del
7. Parece mucho ms probable la linealidad de estas
los datos no elaborados de las series
diferencias que la
cronolgicas.
Este es, en trminos generales, Ull excelente diseo cuasicxncrimcntal, ,1caso el mejor de los Jn<s viables. Presenta cla;as
1O, como ya lo hemos
yell.t:ljns respecto de los disdos 7
lll:l1cado al presentar el disci1n .1 O.
posibilidad de cfectnar
rc:tcradas mediciones torna pm1cuhrmente apropiadas las
sc1ies cNmohgicas mtiltiplcs para las i nvcstigaciuncs que se
llevan a cabo en cstahlecimicntos educativo~.

1 5.
un

n:currente:
retazos

disc'o l '5
investigacwn de
campo en la Cital ':e comkn:rt
insuficiente v se
van s!lmando luego
de {vcsu otra dt: las fuentes recurrentes de
rcstJltmln LoS a menudo una burda acumulacin
vcrificJcioque
la simdda intrnseca de los
dichos,
parte de

ofrece, y
las posibles
Otro aspeccl cfect'J

que exponemos se limita


retazos
conjunto de cuestiones y situaciones, y explota
circunstancias las caractersticas que estas exhiben.

110

La idea fundamental puede apreciarse en las filas segunda y


tercera del cuadro 1, donde se advierte que los signos po~'
tivos y negativos de los. dise'os 2 y .3 son en su mayor part~.:
complementarios, y que, en consecuencia, la correcta combinacin de esos dos criterios, insuficientes por s solos, podr.a tener gran vigor. El diseo es apropiado para aquellas
situaciones en que se presenta en forma cclica, a cada nuevo
grupo de participantes, cierto aspecto de un proceso institucional (escuelas, mtodos ele adoctrinamiento, aprendizaje de
oficios, etc.). S en esas situaciones nos interesa la evaluacin
los efectos de una X tan global y compleja corno un programa de adoctrinamiento, es probable que el dise'o de ciclo
institucional recurrente ofrc%Gl la respuesta ms aproximada
posible resultante de los discfos que }wsta ,qui hemos expuesto.
El tlsefo se ide otiginnrianu:nte durante una investigacin
los efectos de un afio de cntten:nniento para oficiales
pilotos sobre las actitudes hacia los superiores y los
nados y las funciones de lidcrn'l.go de un gtnpo de cadetes de
la l.'ucrza
mientras sc completaba un ciclo de entrenamiento de 14 meses [ Campbcll y McCormack, 1957]. La restriccin que impidi qne se realizara un experimento propiamente dicho fue la irnposibi licbd de controlar quines esta
ran expuestos >1 la variable cxpcrmen tal. No haba forma
dividir el curso
ingreso en dos mitades ignalacbs, una de
las cuales cu.rsara el programa anual pbnific1do, mientras que
a la otra se la hara volver a la vida civiL Aun en el supuesto
de que
posible un experimento propiamente dicho de esa
ndole (y el aprovechamiento opottunc de
reducciones presupuestarias pudo h1hcrlo hecho
de
una ocasin), los dectm reactivos de ese
mc11tal -el inevitable trastorno en las
sen aceptados, seleccionados, trasportrKlos a b base area y
devueltos despus a sus casas- distathl mucho de
de
ellos nn grupo ideal
control. La
entre ellos y el
grupo experimental
recibra el adoctrinamiento difcilmente podra
una base adecuada
la cual ge
normaneralizar las conclusiones obtenidas a las
les de reclutamiento y entrenamiento de las milicias. Quedaba, sin embargo, el control
experimentador sobre la programacin del momento v los destinatarios de los procedimientos de observacin.
- ms el hecho de que la variable experimental era recurrente y se presentaba constantemente a
participantes, hi:zo posible cierta formn
cada nuevo grupo

llJ

de control experimental. En aquel estudio se dispona de dos


clases de comparaciones relativas al influjo de la experiencia
militar sobre las actitudes. Cada una de ellas era bastante
insuficiente desde el punto de vista del control experimental,
pero cuando <lmbas suministraron pruebas coincidentes, se
ratificaron entre si en la medida en que ambas incluan :;us
respectivos puntos dbiles. La primera ofreca comparaciones
entre poblaciones medidas al mismo tiempo pero con distinta
duracin de ~crvicio. La segunda inclua mediciones del mismo grupo de personas en sn primera semana de entrcnmnicnto milit<lf y otra vez despus, trascurridos ya unos 13 meses
de servicio. lJn tanto estilizado, el discio e~ como sigue:
Clase A

X 01

Clase B
Este diseo combina los enfoques longicudinab y de corte
trasversal que suelen emplearse en la investigaci6n del desarrollu. En esta se supone que la comparacin es tal, que pueden
medirse a la vez un grupo expuesto a X y otro que va a serlo;
esta comparacin entre 01 y 0:! corresponde as al diseo 3,
Comparacin de grupos estticos. La segunda mcdici6n del
personal de la Cbse B, un ciclo despus, nos da el segmento
de diseo 2, Pretest-postest de un grupo. En el cuadro,
txg. 109, las dos primcr<ls filas referentes al diseo 15 muestran un nn:lisis de esas comparaciones. La comparacin cruo~ su mi 11 stra diferencias que no podran explizada de () 1
carse por los efectos de la historia o por el test-retest, sino
que podrLm deberse a diferencias en el reclutamiento de un
a fo a otro (como se indica por medio del signo negativo en
Seleccin) o a la circunstancia de que los participantes eran
un ao mayores (signo negativo en Maduracin). Cuando
todas las pruebas se realizan durante el mismo perodo, parece improbable que haya una variable entremezclada de instrumentacin o desvos en la ndole del instrumento de medicin.
En la tpica comparacin de las diferencias de actitud entre
alumnos universitarios de primero y segundo ao, el efecto de
la mortalidad no pasa de ser una explicacin rival: ol y 02 podran diferir solo a causa del tipo de personas que han abandonado sus estudios en la Clase A, pero contina teniendo
representacin en la B. Este inconveniente se puede evitar si
las reacciones se identifican por individuos y el experimentador espera antes de analizar sus datos a que la Clase B haya
112

completado su exposicin a X y l~~go elimina de Oz ,todas


las medidas pertenecientes a pattlClpantes qu~ despues no
completaron su instruccin. La frecuente ausen.Cla de est~ procedimiento justifica la insercin de un signo mterrogauv.c;. al
lado de la variable de mortalidad. La columna Regreswm>
se completa con signos interrogativos .a fin de se~l~r la posibilidad de efectos espurios si la medida que se utthza en el
diseo experimental es la misma en que se fundan la a~epta
cin o el rechazo de candidatos al curso de entrenamiento.
En tales circunstancias seran de prever diferencias constantes no atribuiblcs a los efectos de X. La comparacin pretestp~stcst implicada en 0:! y 0:,, si resulta ser e~ n;smo tipo d,e
diferencia que en la comparacin 0:!- Ot, ehmma las demas
hiptesis posibles de que .la diferencia se deba a' un ,desvo
en la seleccin o reclutarlento entre ambas clases, as1 como
cualquier posibilidad de que la mortalidad haya sido la ca~s,a.
No obstante, si: no se utilizara ms que la compara~10n
0 2 0::, sera vulnerable a las explicaciones rivales de historia y aplicacin de tests.
.
En un1 situacin donde el lapso de entrenamtento que se examina ~s de un ao, el aspecto ms costoso del diseo es la
prognunacin de ambos coni~?tos de m.ediciones con un ~o
de diferencia. Dada la invers10n ya realizada en este sentido,
constituye Ll11 pequeo gasto ms rea 1izar nuevas pruebas en
la segunda oca3n. Teniendo en cuenta todo ello, .ca~e extender el diseo institucional recurrente al esquema mdtcado en
el cuadro 3. Ejerciendo el poder de designar cundo y a quin
se h1 de medir la Clase B se ha dividido en dos muestras
iguaadas, una :nedida antes y despus de la exposicin Y la
otra medida solo despus
ella, como en 04. Este ~egundo
grupo permite una comparac~.~, s_o~r~ muestras curdad?samente igualadas, de una med1c1on J!11Clal antes y des pues;
es ms precisa que la comparacin 01- <.?z en lo que respecta
a la seleccin, y superior a la c?mparae1n 02- Oa, ya, que
evita los efectos de test-retest. El efecto de X queda as1 documentado por medio de tres comparaciones distintas,

01

>

02, 02

< 03

02

< 0.1.

Ntese, sin embargo, que 0:; apar~ce en l~s tres, tazo?- por la
cual todo ello podra parecer confl~matorlO so!o en vut~d de
una actuacin excntrica del menc10nado conunto particular
de mediciones. La introduccin de 05, o sea la Clase C, probada en ocasin del segundo test antes de ser expuesta a X,
ofrece una nueva medicin pre-X que puede compararse con
0,1 y 0 1 , etc., brindando una redundancia necesaria. La divi-

113

sin de la Clase' B hace esta comparacin de 0.1 05 ms clara


que Io que sera una Oa- 0;,. Advirtase, empero, que la divisin de una clase en dos mitades, sometida una a test y la
otra no, suele constituir un dispositivo reactivo. Por eso se
ha. incluido un signo de interrogacin para ese factor en la
fila 0:; < 04 del cuadro 3. Que sea o no un procedimiento
reactivo depende de las condiciones concretas. Cuando se
echan suertes y se pide que la mitad de la clase pase a otra
aula, es probable que el procedimiento sea reactivo [p. ej.,
Duncan y otros, 1957; Solomon, 1949]. Cuando, como sucede
en muchos estudios sobre militares, las entrevistas se han realizado en forma individual, una clase puede dividirse en mitades iguales sin que el hecho resulte tan ostensible. Cuando
un curso est formado por un cierto nmero de divisiones
con programas diferentes, hay la posibililbd de asignar esas
unidades intactas a los grupos con pretest y sin l [p. ej.,
Hovland, Lumsdaine y Sheffield, 1949]. Para una clase nica,
el recurso de distribuir cuestionarios o tests a todos, pero vttriando el contenido a fin de que una mitad aleatoria obtenga
lo que constituira el pretest y la otra se pruebe con algn
otro instrumento, puede servir para lograr que la divisin del
curso no sea ms reactiva que el test de la clase total.
El diseo, tal como se lo representa por medio de las mediciones Ot a 0;, falla siempre en el control de la maduraci6n.
La gravedad de esa limitacin variar de acuerdo con el m<tterial que se investigue. Si el experimento versa sobre la adquisicin de una habilidad o tcnica muy poco comn, la hiptesis rival de maduracin -que el simple hecho de envejecer
o de adquirir experiencia gracias a las prcticas sociales cotidianas habra producido esa habilidad- puede resu.Itar sumamente improbable.
Sin embargo, en el citado estudio de actitudes hada superiores y subalternos [ Campbell y McCormack, 1957], el desvo
fue tal que bien podra explicarse a causa de la mayor preparacin que, casi en cualquier contexto, habra adquirido un
grupo de aquella edad y tipo particular de ambiente al crecer
en edad o estar lejos ele sus hogares respectivos. En tal situacin parece imprescindible un control de maduracin. Por ese
motivo se han agregado OG y 01 al diseo, a fin de ofrecer
una prueba de corte trasversal de una hiptesis general de
maduracin hecha en ocasin del segundo perodo de testo.
Ello exigir someter a prueba a dos grupos ele personas de la
poblacin general que solo difieran en la eclacl, la cual se elegira a fin de que coincidiera con las de las Clases B y C en

la poca de las pruebas. Para confirmar la hiptesis de un


efecto de X, los grupos 06 y 01 deberan ser iguales, o al menos acusar una discrepancia menor que las comparaciones
que abarcan la exposicin a X. La seleccin de tales controles
poblacionales generales dependera de lo especfico ele la hiptesis. Dado nuestro conocimiento acerca de la universal
importancia de las consideraciones de clase social y educacin,
esos controles podran seleccionarse de tal modo que equiparasen el reclutamiento institucional con la clase social y la
educacin anterior. Asimismo, podran ser personas que vivieran fuera de sus hogares por primera vez y que tuviesen la
edad tpica de bsqueda de independencia; as en el ejemplo
dado, el grupo 06 habra estado lejos de su casa durante un
ao, y el 01 estara a punto de abandonarla. Esos controles
de relacin de edad en la poblacin general seran siempre
hasta cierto punto insatisfactorios y constituiran el rubro
ms costoso, ya que la aplicacin de pruebas dentro del
esquema de una institucin es por lo comn ms simple que
seleccionar casos ele una poblacin general. Por esa razn,
Ou y 01 han sido programados con la segunda tanda de pruebas, pero si no resulta ningn efecto de X en el primer conjunto de resultados (la comparacin Ot > 2), tan costosos
procedimientos estaran por lo comn injustificados (a menos,
claro est, que se propugnase la hiptesis de que la X institucional haba eliminado un proceso normal de maduracin).
Otro enfoque por corte trasversal del control de la maduracin
puede darse si hay heterogeneidad de edades (o un cierto
nmero de aos fuera del hogar, etc.) dentro de la poblacin
que ingresa en el ciclo institucional. As ocurrira en muchas situaciones; por ejemplo, al estudiar los efectos de un curso
universitario aislado. En este caso, las mediciones ele 02 podran subdividirse en un grupo de mayor y otro de menor
edad, a fin de examinar si esos dos subgrupos ( 02o y 02v en
el cuadro 3) diferan como lo haban hecho Ot y Oz (aunque la universal correlacin negativa entre edad y capacidad
dentro de los grados escolares, etc., introduce aqu no pocos
peligros). Mejor que el control con los coetneos de toda la
poblacin, la comparacin podra hacerse con otra institucin
determinada, por ejemplo, entre los conscriptos de la Fuerza
Area y los estudiantes universitarios de primer ao. Si se ha
de hacer una comparacin de esta ndole, se reduce la variable experimental a aquellos aspectos que ambas instituciones
no tienen en comn. En tal caso, es probable que los diseos
10 y 13, por lo comn ms eficaces, sean igualmente factibles.

114

115

Los requisitos formales de este diseo parecen aplicables incl_u_so a un problema como el de la psicoterapia. Esta posiblltdad revela cun difcil es una verificacin correcta de la
variable maduracin. Comoquiera que se elijan los controles
poblacionalcs para una situacin de psicoterapia, si no reciben
este tipo de tratamiento diferirn en aspectos importantes.
Aunque estn tan enfermos como los sometidos a tratamiento psicoteraputco, es casi seguro que diferirn en su conocimiento de l, as como en sus creencias al respecto y su
fe en ese procedimiento curativo. Un grupo de esta ndole,
enfermo pero optimista, podra muy bien tener posibilidades
de recuperacin tpicas de cualquier grupo de comparacin
que pudisemos echar mano y, por consiguiente, podra
m<llinterpretarsc una interaccin de seleccin y maduracin
como un efecto de X.
'
Para el estudio aislado de procesos de desarrollo, el no poder
controlar la maduracin no es, ciertamente, un inconveniente,
ya que ella es el objetivo mismo del anlisis. Esa combinacin de comparaciones longitudinales y de corte trHsversal debera emplearse en forma ms sistemtica en este tipo de estudios. El estudio aislado de cortes trasversales confunde maduracin con seleccin y mortalidad. El estudio longitudinal
confunde maduracin con aplicacin reiterada de tests e historia. Por s solo no es probablemente mejor que el de corte
t~a.sversal, aunque su costo ms elevado le otorga mayor prestJg!O. La combinacin de ambos, quiz con reiteradas comparaciones de cortes trasversales en diversos momentos parece ideal.
'
Tal como se presentan los esquemas del diseo 15, se supone
que se podr aplicar el postest a un grupo al mismo tiempo
que el pretest a otro. No siempre ocurre as en situaciones
en que tal vez se descara utilizar este diseo. La siguiente es
una representacin ms precisa del caso tpico en la situacin
escolar:
Clase A
Clase Bt
Clase Bz
Clase C

Ot
ROz

Oa
01

neidad. No obstante, difcilmente podra aceptarse la explicacin desde el punto de vista de la historia s ambas comparaciones acusaran el efecto, como no fuera postulando una
serie bastante compleja de coincidencias.
N6tese que ninguna tendencia histrica general, como la que
sin duda hallamos en las actitudes sociales, se confunde con
resultados experimentHles concretos. Una tendencia de esa ndole colocara a Oz en posicin intermedia entre 01 y ,
mientras que la hiptesis de que X tiene un efecto exige que
01 y 0:1 sean iguales y o~ difiera de ambas en el mismo sentido. En general, si se repite varias veces el experimento,
es poco probable que la confusin con la historia constituya
un problema, ni siquiera en esta versin del diseo. Pero,
para ciclos institucionales de menos de un ao, habr posibilidad de confusin con variaciones estacionales en actitudes,
moral, optimismo, inteligencia, etc. S lH X es un curso desarrollado solo en la temporHda de otoo,'' y entre setiembre y
enero la gente suele experimentar mayor agresividad y pesimismo a causa de los factores climticos de la estacin, esa
tendencia estacional recurrente se confundir con los efectos
X en todas sus manifestaciones. Para situaciones de esta
ndole pueden utilizarse, y resultan aconsejables, los diseos
10 y 13.
Si las comparaciones de corte trasversal y longitudinales indican efectos anlogos de X, ello sera inexplicable como
interaccin entre la maduracin y las diferencias de seleccin
entre las clases. No obstante, se ha dejado en blanco la columna porque este control no aparece en las presentaciones
ftaamentariHs del cuadro 3. Las calificaciones de los criterios de
validez externa se ajustan en general al esquema de los diseos anteriores que contienen los mismos fragmentos. Los
signos de interrogacin en la columna <nteraccin
seleccin y X, advierten simplemente que los descubrimientos se
limitan al ciclo institucional que se estudie!. Dada la complejidad de X, es posible que se realice la investigacin por
razones prcticas ms que con propsitos tericos, y tal vez
se quiera en este caso generalizar a una institucin en particular.

o.,x

Este diseo carece del claro control sobre la historia en la'


comparaciones 01 > 02 y o > 05, por falta de simulta-

* Vale decir, la primera en

116

117

el hemisferio Sur. (N. del E.)

16. Anlisis de discontinuidad en la regresin


Este diseo es practicable en una situacin en que se han
utilizado ya diseos ex post facto. Aunque de muy limitada
aplicacin, parece justificado presentarlo aqu por el hecho
de que esas situaciones poco numerosas son, en su mayor
parte, educacionales. Tambin parece oportuno incluirlo como ejemplo de la conveniencia de indagar, en cada situacin
concreta, todas las implicaciones de una hiptesis causal, buscando nuevos afloramientos de esta ltima, mediante los cuales se la pudiera verificar. La situacin que tomaremos [Thistlethwaite y Campbell 1960] consiste en el otorgamiento de
prenlos a los aspirantes ms calificados, sobre la base de un
puntaje de corte dentro de un conjunto cuantificado de calificaciones. El premio puede ser una beca, el ingreso en una uruversidad tan prestigiosa que todos los aprobados se inscriben
en ella, un ao de estudios en Europa, etc. Despus de ese
acontecimiento, tanto los solicitantes que reciben el premio
como los que no lo obtienen son objetos de mediciones respecto de varias O que representan logros, actitudes, etc., posteriores. Se plantea entonces el interrogante de si el premio
provoca alguna diferencia. El problema de inferencia es difcil porque casi todas las cualidades que acreditan a un alumno para el premio (salvo, a veces, otros factores, como sus
necesidades econmicas y el estado en que reside) son las mismas que habran llevado a un mejor desempeo en esas O.
Tenemos casi la certeza anticipada de que los premiados habran obtenido puntajes superiores en las O que quienes no lo
fueron, aunque no se hubiesen otorgado los premios.
La figura 4 presenta el tema del diseo. Ilustra la relacin
prevista entre capacidad pre-premio y rendimientos posteriores, ms los resultados adicionales de las oportunidades educacionales o motivacionales consiguientes. Consideremos ante
todo un experimento propiamente dicho del tipo del diseo
6, con el cual contrastaremos nuestro cuasiexperimento. Ese
experimento propiamente dicho podra racionalizarse como un
proceso de solucin de empate, o como un experimento adicional, en el que, para una estrecha amplitud de puntajes
en el punto de corte o por debajo pero muy cerca de l, la
asignacin aleatoria dara lugar a un grupo experimental ganador del premio y un grupo de control no ganador. Es de
presumir que tales grupos tendran un desempeo similar al
representado por los dos crculos en la lnea de corte de la
figura 4. P.!lra esa estrecha amplitud de capacidades, se logra118

ra un experimento propiamente dicho. Tales experimentos


son factibles y habra que realizarlos.
diseo cuasiexperimental 16 trata de establecer ese experimento propiamente dicho examinando la lnea de regresin
para una discontinuidad en el punto de corte, claramente implcita en la hiptesis causal. Si el resultado fuese como el
diagramado y los crculos de la figura 4 representasen extrapobciones de las dos mitades de la lnea de regresin, y no
un experimento de solucin de empate dividido al azar, la
pmcha del efecto sera casi tan incontestable como en el
experimento propiamente dicho.
Figura 4. Anlisis de discontinuidad en la regresin.

Desempeo posterior, O
40

JO

20

10

60

70 80 90

100 110 120

1)0 140

150

Puntajes en los cuales influy el premi

Algunos de los tests de significacin estudiados en el diseo


7 son tambin aplicables aqu. Ntese que la hiptesis es a
todas luces de diferencia de ordenada ms que de pendiente, y que el paso tiene que estar localizado en el punto X de
la lnea de regresin: cualquier desfasaje o dspersim> es
incompatible con la hiptesis. Son, pues, apropiadas las pruebas paramtricas y no paramtricas que evitan supuestos de
linealidad. Ntese asimismo que tales supuestos son por lo
comn ms aceptables para los datos de regresin que para
series cronolgicas. (Con determinados tipos de datos, como
119

los porcentajes, puede ser necesaria una trasformacin lineal}.


Tal vez sea conveniente efectuar una prueba t vinculada con
la diferencia entre los dos puntos linealmente extrapolados.
Acaso el test ms eficaz fuera un anlisis de covarianca, en
el cual el puntaje de decisin de otorgamiento del premio
sera la covarablc de los rendimientos ulLeriores, y el tratamiento cstaria representado por la adjudicacin o no adjudicacin del premio.
Es probable la aplicacin de este tipo de disefo? Sin duda
alguna se refiere a una situacin recurrente en la cual abundan las afirmaciones en favor de la eficacia de X. Vale la
pena verificar esas afirmaciones? Un s,1crificio nece>'31rio es
que todos los elementos que entran en la decisin hnal se
combinen en un ndice compuesto, ckterrninando con iitidcz
el punto de corte. Pero estamos convencidos de que todos lus
factores que influyen en una dedsin -el aspecto que presenta la fotografa, la jerarqua del curso deducida de la reputacin
ele la escuela secundaria, las relaciones del padre con los directivos del establecimiento, etc.-, pueden incluirse en un
ndice de esta ndole, por medio de puntajes, si no se
cuenta con un medio ms directo. Tambin deberamos estar
ya convencidos [Meehl, 1954] de que una frmula de ponderacin correlacional mltiple para la combinacin de los
elementos (aun empleando como criterio decisiones anteriores del comit de seleccin) suele ser mejor que las ponderaciones de un comit en cada caso particular. Nada perderamos, pues, y mucho se podra ganar en todo sentido, cuantificando las decisiones de todo tipo relativas al premio. De
proceder as, y si se llevasen registros de otorgamientos y
rechazos, cabra hacer un seguimiento de los efectos varios
aos despus.
Acaso convenga relatar aqu una parbola verdica. Una ge.
nerosa fundacin, interesada en mejorar la educacin superior, don a una universidad de Estados Unidos medio milln de dlares para que estudiase los efectos de la escuela
sobre sus alumnos. Diez aos despus no haba aparecido un
solo informe ni siquiera remotamente relacionado con el tema.
Tomaron con alguna seriedad los donantes o los favorecidos
con la donacin las especificaciones de la propuesta formal?
,;Exista alguna respuesta posible al interrogante propuesto?
Los diseos 15 y 16 parecen ofrecer las nic'l aproximaciones
viables. Pero, por supuesto, quiz ningn cientfico sienta
verdadera curiosidad por los efectos de una X tan globaL
V e amos el anlisis del cuadro 3. A causa de la sincrona entre

120

el grupo experimental y el de control, historia y maduracin


estar controladas. La administracin de tests como
principal tambin lo est, pues tanto el grupo experimental como el de control la han recibido. Los errores de
instrumentacin bien podran plantear un problema si la O
de seguimiento se reali7.ase bajos los auspicios determinantc:s
del premio, en el sentido
que la gra~ttud p~)f hab.erlo ~eCl
bido y el resentimiento por lo. contrano pudieran mduc1r a
distintas manifestaciones de actitud, mayor o menor exageracin del xito alcanzado en la vida, etc. Este defect~ se observara asimismo en el experimento propiamente dicho de
solucin de empate. Podra control:selo ha.de~do . 9ue }os
seguimientos los efectmun otro orgamsrno o mst1tuc1on diferente. Creemos, conforme a los argumentos que anteceden, que
tanto la regresin coino la seleccin estn cont.roladas e? lo
que atae a sus posibles contribuciones espur.tas a la l.t~fe
rencia, aun cuando la seleccin sea sesgada y ex1sta regresmn:
ambas han sido controladas al representrselas en detalle, no
mediante la igualacin. La mort<~lidad consttu~ra un pr<:blema si fuese el ente de otorgaJmento del premto el que dirigiese la medicin de seguimiento, pues quienes lo recibieron, los ex alumnos, etc., cooperaran probablemente con
mucha meor disposicin que los no ganadores. Ntese cmo
el deseo, por lo comn conveniente, del i~westigador de ,lograr que la muestra selecci?nada sea ~J}en represe;nt~tlva
puede inducir aqu a error. SI la conduccwn del se.gmm1ento
con un membrete distinto provocara una reduccin en la
cooperacin, por ejemplo, del 90 al ?O %, el expe1~imentador
tal vez se resistiese a hacer el cmnhw,
que el t1ene como
meta una representacin del 100 %
los ganad?r~s del
premio. Es posible que olvide que .su ,verdadero c~bJCtlvo es
obtener datos interpretables, que mngHn dato es mterpretablc si est aislado y que es imprescindible contar con un
grup,o de contrast~ sinilar a fi~ de utilizar la inf.ormacin
que posee sobre los. ganadores. ~:mto ~o~ este mot~vo como
por el problema de .mst,r~1mentac10n, qt~I?;a l:1ese me<?r desde
el punto de vista c1ent1flco tener auspiCios mdepenchentes y
un 50 % de respuestas de ambos grupos en vez de un 90 %
de los ganadores y un 50 % de los no ganadores. Una vez
. el
ms, el problema de la n:ortalidad se~~a el mismo
experimento propiamente dicho ~e soluc10n de ~mpat.e.
ambos casos, la amenaza que imphca para la vahdez mterna la
interaccin seleccin-maduracin queda controlada. En cuanto
al cuasiexperimento, se lo controla en el sentido de que esa

121

l~terac~i~ no podra dar una explicacin licita de una clara


d!scontu:;mdad de la lnea de regresin en X. La amenaza
a la validez externa de una interaccin aplicacin de pmebas-~- queda controlada, a su vez, en la medida en que las
med1c10n~s ~undamentales. utilizadas al decidir la adjudicacin
del premto mtegran el u~1verso al cual se quiere generalizar.
Tanto, ~1 _verdad~ro exper~mento de solucin de empate como
el anal1s1~ de d1scon~m_utd~? de regresin estn particular~nente ~~Jetos a !~ Iumtacwn de la validez externa por la
mteracoon seleccwn-X, ya que el efecto slo ha quedado
demos~rado_ con respecto ~ una gama muy estrecha de talentos,
es dec1:, sol~ para los sltuados en el puntaje de corte. En
el cuas1exp;nment?, las posibilidades de inferencia tal vez
parezcan mas _amplt~s, pero ntese que los inconvenientes del
supuesto de aJuste hneal son mnimos cuando se los extrapola
s?lamente a un punto, como en el diseo ilustrado en la
flg~;a 4. Generalizaciones ms amplias implican la extrapolacwn del ajuste debajo de X a travs de toda la gama de
valores de X, y en cada grado mayor de extrapolacin aumenta el n:-r1ero .1e hiptesis rivales aceptables. Tambin
aume_nta la d1spers1n de los valores extrapolados de diferentes, tipos de curvas ajustadas a los valores inferiores a X
etcetera.
'

6. Diseos correlacionales y ex post


facto

Una de las dimensiones de cuasidad>> ( quasiness) que ha


ido en aumento a lo largo de los ltimos nueve diseos es
la medida en que X podra ser manipulada por el experimentador, es decir, en que podra introducrsela en el curso normal de los acontecimientos. Por supuesto, cuanto ms ocurre
as, ms cerca se est de la experimentacin propiamente dicha, como hemos ido viendo, en particular con referencia a
los diseos 7 y 10. Los diseos 7, 10, 12, 13 (pero no 13a)
y 14 seran aplicables tanto para X producidas en forma natural como para las introducidas de propsito por el experimentador. Los diseos seran ms sospechosos cuando la X no
estuviese controlada, y algunos qu.e acaso estuviesen dispuestos a denominar cuasiexperimentos a las versiones controladas por el experimentador, tal vez no quisieran aplicar este
trmino a la X no controlada. No es nuestro nimo hacer
una cuestin por ello, pero s destacar el valor de los anlisis
de datos de tipo experimental para X no controladas, en
comparacin con los ensayos evaluativos y los anlisis engaosos que con demasiada frecuencia se emplean en tales situaciones. Es evidente que el diseo 15 est del todo limitado
a una X natural, y los diseos de esta seccin ( aunque se
los denomine de anlisis de datos y no cuasiexperimentales)
se hallan enclavados an ms en la situacin natural. En este
captulo comenzaremos de nuevo con el anlisis correlaciona}
simple, veremos a continuaciin dos diseos bastante aceptables, y retornaremos por ltimo a los experimentos ex post
jacto, que se consideran en el mejor de los casos insatisfactorios.

Correlacin y causacin

El diseo 3 es un diseo correlaciona! muy endeble, puesto


que implica la comparacin de solo dos unidades naturales,
que difieren en la presencia y ausencia de X, as como tam-

122

123

bin en muchsimos otros atributos. Cada uno de ellos podra


crear diferencias en las O, y por lo tanto cada uno ofrece una
hiptesis aceptable, opuesta a la de que X ha producido
un efecto. Nos queda una regla general: que las diferencias
entre dos objetos naturales no son interpretables. Consideremos ahora esta comparacin dilatada hasta el punto en que
dispongamos de muchas situaciones naturales independientes
de X y muchas otras tambin de no-X, as como diferencias
concomitantes en O. En la medida en que las situaciones naturales de X varen entre s en sus dems atributos, esos otros
atributos se tornarn menos aceptables como hiptesis rivales.
Pneden establecerse, as, correbciones de naturaleza espectacular, como las postu.ladas entre los fumadores empedernidos y el cncer de pulmn. Cul es la jerarqua de esos datos como prueba de causacin anloga a la suministrada por
la experimentacin?
Cabe ante todo hacer una reflexin positiva. Esos datos son
pertinentes <1 las hiptesis causales en la medida en que las exponen a la refutacin. Si se obtiene una correlacin nula, se
reduce la admisibildad de la hiptesis. Si se produce una correhcin elevada, su admisibilidad es mayor, ya que ha sobrevivido una posibilidad de refutacin. Planteado el asunto en
otra forma: la correlacin no indica necesariamente causacin,
pero una ley causal del tipo que produce diferencias medias
en los experimentos implica correlacin. En cualquier experimento en que X aumente a O, se hallar una correlacin biserial positiva entre la presencia-ausencia de X y los puntajes
postest o los de ganancia. La ausencia de esa correlacin puede eliminar muchas hiptesis causales simples y generales, relativas a los efectos principales de X. En este sentido, el enfoque correlacional, relativamente poco costoso, quizs ofrezca
una revisin preliminar de hiptesis, y las que sobrevivan a
ese proceso podrn verificarse entonces por medio de la ms
onerosa manipulacin experimental. Katz, Maccoby y Morse
[ 1951] han defendido esta tesis, ofreciendo una secuencia en
la que los efectos del liderazgo sobre la productividad se estudiaron primero en forma correiacional, tras lo cual se verific,
por experimentacin, una importante hiptesis [Morse y Reimer, 1956].
Si pasamos revista a las investigaciones sobre educacin, pronto nos convenceremos de que son ms los casos en que la interpretacin causal de la informacin correlaciona! se exagera
que aquellos en que se la desconoce, as como que suelen pa"
satse por alto hiptesis rivales aceptadas, y qu.e para establecer
124

la antecedencia-consecuencia temporal de una relacin causal


es imprescindible realizar observaciones a lo largo del tiempo,
cuando no apelar a la introduccin experimental de X. S se
correlaciona, por ejemplo, el comportamiento del maestro y el
alumno, nuestros estereotipos culturales casi nunca nos permitirn considerar la posibilidad de que el comportamiento
del segundo provoque el del primero. Aun en una situacin
natmal, parece hallarse implcita una prioridad temporal, y
los procesos selectivos de retencin pueden determinar una
causalidad en sentido contrario. Consideremos, por ejemplo,
posibles confirmaciones de cpc los inspectores que tienen a
su cargo las mejores escuelas son los ms cultos y que las escuelas con frecuentes cambios de inspectores tienen una moral colectiva ms escasa. Es casi inevitable que extraigamos la
consecuencia de que el nivel educacional de los inspectores y
directivos estables causan mejores escuelas. La cadena causal
bien podra ser a la inversa: las escuelas mejores (por el motivo que fuere) podran ser la causa de que los hombres mejor educados permanecieran en ellas, mientras que las peores
podran inducirlos a que se sintiesen tentados a cambiar su
puesto por otro mejor. De igual modo, las escuelas mejores
podran hacer que los inspectores se quedaran ms tiempo en
sus cargos. Aun ms universal que la engaosa correlacin
inversa es la de una tercera variable, tambin conducente a
error, de que los determinantes lcitos de quien est expuesto a X son de tal naturaleza, que produciran asimismo elevados puntajes de O, aun sin la presencia de X. Volveremos sobre estos casos en el apartado final, acerca del diseo ex post
jacto.
El experimento propiamente dicho slo difiere de la situacin
correlaciona] en que el proceso de aleatorizacn destruye cualquier relacin lcita entre el carcter o los antecedentes de los
alumnos y su exposicin a X. Donde se tienen pretests y no
se dispone de una clara determinacin de quines estuvieron
expuestos y quines no, quiz sean convincentes, aun sin la
aleatorizacin, los diseos 10 y 14. Pero para qu.e un diseo
que carece de pretest (imitando al 6) se produzca en forma
natural se requieren circunstancias muy especiales, que casi
nunca se dan. As y todo, de acuerdo con nuestra tesis general
relativa al aprovechamiento oportuno de las situaciones que
ofrezcan datos interpretables, conviene estar alerta y con los
ojos bien abiertos por si acaso se presentan. Esas situaciones
sern aquellas en que parezca aceptable que la exposicin a X
no se sujete a regla alguna, sino que sea arbitraria y sin
125

correlacin alguna con otras consideraciones. En teora, esas


decisiones de exposicin arbitraria sern tambin muchas e i~
dependientes entre s. Adems, hay que sustentarlas por medlo
de cualquier otro tipo de prueba de que se disponga, por dbil que sea, como en el pretest retrospectivo que analizamos
ms adelante. Como lo han sostenido en parte Simon [ 1957,
pgs. 10-61] y Wold [ 1956], la interpretacin causal d~ una
correlacin simple o parcial depende tanto de la presenoa de
una aceptable hiptesis causal compatible como de la ausencia de hiptesis rivales lgicas para explicar la correlacin sobre otros fundamentos.
Un estudio correlaciona] de esta ndole es tan admirablemente oportuno que merece destacrselo. Barch, Trumbo y Nangle
[ 1957] utilizaron como X la presencia o la ausencia de
sci'iales ele giro en el automvil que iba delante, la presencia
o ausencia de las mismas sei1ales en el auto posterior como O,
y demostraron un significativo efecto ele imitacin, determinacin de patrones o conformidad que concordaba con muchos estudios de laboratorio. Careciendo, como se careca, de
un pretest, la interpretacin dependi del supuesto previo
de que no hay relacin entre las tendencias a marcar el gi_ro
en los mencionados automviles, independientemente de la 111fluencia ejercida por el comportamiento del automvil que
lleve la delantera. Tal como se public, la informacin pareca
convincente. Ntese, sin embargo, que cualquier tercer variable que hubiera influido en forma similar sobre la frecuencia
de sei1alcs de ambos pares de conductores se habra convertido en hiptesis rival aceptable. Por ende, si las condiciones
atmosfricas, el grado de visibilidad, las actitudes del conductor tal como son afectadas por la hora, la presencia de un
automvil policial estacionado, etc., influyen sobre ambos conductores, y si se combinan los datos provenientes de condiciones heterogneas en tales terceras variables, la correlacin
puede explicarse sin necesidad de suponer efecto alguno producido por el hecho aislado de que el auto que va delante haga
la seal. Ms importante como diseo 6 natural es el informe de Brim [ 1958] acerca del influjo del sexo del hermano
sobre la personalidad de un nio en una familia que tiene dos
hijos. La determinacin del sexo puede ser una lotera casi
perfecta. Hasta donde hoy se sabe, no guarda correlacin alguna con los determinantes familiares, sociales o genticos de
la personalidad. La codeterminacin de una tercera variable del
sexo del hermano y la personalidad de un nio no es por el
momento una hiptesis rival aceptable para la interpretacin

126

causal de los interesantes descubrimientos, como tampoco lo


es la causacin inversa de la personalidad del nio respecto
al sexo de su hermano.

El pretest retrospectivo
En muchas situaciones militares de tiempos de guerra, puede
ocurrir que la asignacin de hombres de igual rango y especializacin a distintas unidades se haga por medio de procesos
caticos, sin consideracin alguna a privilegios, preferencias o
capacidades especiales. Una comparacin entre las actitudes
de blancos que se asignaron a unidades de infantera racialmente mixtas y las de aquellos destinados a otras integradas
solo por blancos puede resultar de inters por sus determinaciones causales [Information and Education Division, 1947].
No podemos, sin duda, hacer caso omiso de estos datos, sino
ms bien buscar informacin complementaria a fin de eliminar hiptesis rivales aceptables, sin perder conciencia de las
dems fuentes de invalidacin. En aquel caso la entrevista
postest, no solo contena informacin sobre las actitudes
corrientes hacia los negros (ms favorables en las compaas mixtas), sino que adems requera que se recordasen las
actitudes anteriores al destino actual. Aquellos pretests retrospectivos no arrojaron diferencia alguna entre ambos grllr
pos, aumentando as la posibilidad de que antes de la asignacin al destino no hubiera existido ninguna disparidad.
Un anlisis parecido result importante en un estudio realizado por Deutsch y Collins [ 19 51] comparando los ocupantes
de un barrio formado por unidades integradas con los que
ocupaban unidades segregadas, en momentos en que la escasez
de viviendas era tal, que caba presumir que la gente haba de
tomar cualquier comodidad disponible, con prescindencia casi
total de sus actitudes. Teniendo tan solo mediciones postest,
podra haberse considerado que las diferencias que descubrieron reflejaban sesgos de seleccin sobre actitudes iniciales.
La interpretacin de que la experiencia integrada provoc las
actitudes ms favorables se vio fortalecida cuando un pretest
retrospectivo indic que no haba diferencias entre los dos tipos de grupos de vivienda en actitudes anteriores que se recordaran. Dados los factores autistas que, segn se sabe distorsionan la memoria y los informes de las entrevistas, tales
datos nunca pueden ser decisivos.
Deseamos intensamente poder trabajar con la entrevista de

127

pretest de entrada (y tambin con la asignacin aleatoria a


tratamientos de los moradores). Tales estudios, sin duda alguna, se ~stn realizando. Pero hasta que se los sustituya por
o~ros meJor fundados los descubrimientos de Deutsch y Collms, entre ellos el prctcst retrospectivo, son contribuciones
preciosas a una ciencia de orientacin experimental en este
difcil terreno.
El l?ctor 1?0 ~cbc pasa_r por alto que es probable que la memarta se mchne a dclormar las actitudes pasadas a fin de
que concuerden con lns actuales, o con lo que el morador ha
llegado ~ considerar actitudes socialmente deseables. Parece,
pues; _mas probable que en tales casos el sesgo de memoria
se diSimule, en vez de disfrazarse, como efecto signHcativo
de X.
Si se contina con los estudios comparativos de actitudes de
los alumnos universitarios de primero y ltimo ao para demostrar la influencia de la institucin, parece conveniente el
us<: de pretests ~et~osr:ectvos en apoyo de las dems compar~Clon.es como llm1tac1n parcial de las hiptesis rivales de
ht~tona, mortalidnd selectiva y desvos en la seleccin inicial.
(_Ello no quiere decir que apoyemos ninguna repeticin adiclO~lal de tales estudios de corte trasversal, cuando lo que necesitamos son ms estudios longitudinales, como los de Newc~)mb [ 194 3], ,que ofrece mediciones repetidas duran te el penodo de cuatro aos, completadas en varias encuestas de corte
trasversnl en la forma comn de una extensin a cuatro aos
del diseo 15. Que las tesis de doctorado necesariamente
urgidas por el tiempo, se escriban sobre ot;os temas.)

son pruebas muy superficiales del efecto conseguido. Intro


ducen un nuevo factor que atenta contra la validez interna:
la errnea clasificacin sesgada de exposicin a
que no nos
molestamos en incluir en nuestros cuadros.
En la metodologa de la encuesta, se gana mucho con la introduccin del mtodo de panel, consistente en la repeticin
de cn_trevistas con las mismas personas. B~en practicados, los
estudJOs en panel parecen ofrecer datos tiles para la versin
ms endeble del diseo 10, con X natural, cuando entre las dos tandas de entrevistas o cuestionarios interviene alagente de variacin, como una pelcula cinematogrfica
o un contacto de asesoramiento. El estudiante de ciencias
de la educacn debe saber, sin embargo, que dentro de la
sociologa . esa importante innovacin metodolgica suele ir
acompaada por una engaosa tradicin de anlisis. La tabla
rotativa [Glock, 1955], que es una tabulacin cruzada con
porcentajes computados con respecto a subtotales tomados como base, est muy sujeta a la confusin interpretativa de efectos de regresin con hiptesis causales, segn lo sealaron
Campbell y Clayton [ 1961]. Au.n cuando se analice desde el
punto de vista de las ganancias pretest-postest para un grupo
expuesto frente a otro no expuesto, contina existiendo otra
fuente ms sutil de sesgo. En esta modalidad de estudio en
pa_n~l, la _exposicin a la X (p. ej., una pelcula contra los preJulclos v1sta por mucha gente) se establece en la segunda
t~nda del panel en dos tandas. El diseo tiene el siguiente
dwgrama:

'O) (XO'

.. (. . . .

\o'

Estudios en panel

. . . ? ... ) ..

Las encuestas ms simples recogen observaciones realizadas


e? un solo punto del tiempo, que a menudo ofrecen al partiCipante la oportunidad de autodasificarse como expuesto o no
a X. A la_s correlaciones de exposicin y postest que as resultan contribuye no solo el sesgo causal comn (en que los determinantes de quin recibe X tambin causarian aun sin X
elevados puntajes de O) sino tambin una dst~rsin de 1~
memc:ria con respecto a X, dando mayor
a la aparicin
espur:a de c~us,a [Stouffer, 1950, pg. 356]. Aunque estos
e?~udtos contmuan apoyando las inferencias causales que justifiCan los presupuestos publicitarios (correlaciones entre
Vio usted el programa? y Compra usted el producto?),

Aqu, los parntesis indican la ocurrencia de O o X en la


misma entrevista; el signo de interrogacin, ambigedad de
clasificacin en grupos X y no-X. A diferencia del diseo 10
la X est correlacionada con las O del pretest (en que los d~
menos prejuicios realizan los mayores esfuerzos por ir a ver
la pelcula). Pero, adems, aunque X no hubiera tenido ning~ efecto real sobre O, la correlacin entre X y los postests
sena mayor que entre X y el pretest solo, porque se producen
en la misma entrevista.

128

129

Diseilo en panel con dos tandas (inaceptable)

En la investigacin con pruebas y mediciones es bastante


habitual que se observe una mayor tendencia a la correlacin
entre dos puntos cualesquiera incluidos en el mismo cuestionario que si se encontraran en distintos cuestionarios. Stockford y Bissell [ 1949] comprobaron que los tems adyacentes
se correlacionaban ms que los no adyacentes, incluso en el
mismo instrumento. Las pruebas administradas en el mismo
da tienen mayor correlacin que aquellas que se aplican en
das distintos. En el estudio en panel que comentamos [ Glock,
19 55], ambas entrevistas se produjeron con unos 8 meses de
intervalo. Las fuentes de correlacin que destacan las que aparecen en una misma entrevista y oscurecen las existentes en
entrevistas separadas no solo incluyen fluctuaciones autnomas en los prejuicios, sino tambin diferencias en los entrevistadores. Los inevitables errores cometidos por el entrevistador, as como las inexactas manifestaciones del entrevistado
al reidentificar a participantes anteriores, provocan que algunos de los pares pretest-postest deriven, en realidad, de
personas distintas. La ms elevada correlacin resultante Xpostest implica que habr una menor regresin del informe
de X al postest que al pretest y, por tanto, que las diferencias
postest en O sern mayores que las pretest. Esto se traducir
(si no se ha producido ningn incremento de poblacin) en
una seudoganancia para los autoclasificados como expuestos
y una seudoprdida para los que se clasificaron como no expuestos. Este resultado se confundir por lo comn con una
confirmacin de la hiptesis de que X ha tenido un efecto
[vase Campbell y Clayton, 1961, para los detalles de esta
argumentacin].
Para evitar esta fuente espuria de mayor correlacin, se podra determinar la exposicin a X en forma independiente de la
entrevista, o en una tanda intermedia de entrevistas separadas. En este ltimo caso, aunque se conservase un recuerdo
sesgado de exposicin, ello no producira artificialmente ninguna correlacin X-postest ms elevada que la X-pretest. Un
diseo de esta ndole adoptara la siguiente forma:

El cuadro de diecisis partes de Lazarsfe!d


Otra ingeniosa aplicacin cuasiexperimental de la informacin
de panel, introducida por Lazarsfeld alrededor de 1948 en
un informe mimeografiado titulado The mutual effect of statistical variables (El efecto mutuo de las variables estadsticas), tuvo por objetivo en un primer momento la obtenci.Sn
de un ndice del sentido (y fuerza) de la causacin existente entre dos variables. Ese anlisis se designa en la actualidad con el nombre de Cuadro de diecisis partes [p. ej.,
Lipset, Lazarsfeld, Barton y Linz, 1954, pgs. 1160-63], y
se emplea por lo comn para averiguar la fuerza o profundidad relativa de varias actitudes, ms que para inferir el sentido de causacin. Este ltimo propsito es el que lo convierte en cuasiexperimental.
Supongamos que en determinada ocasin podemos clasificar
el comportamiento de cien maestros como clido o fro,
y el correspondiente a sus alumnos como de interesados o
no interesados.
Al hacerlo as, descubrimos una correlacin positiva: los maestros clidos tienen clases interesadas. Cabe plantearse ahora
el interrogante de si es la calidez del maestro la que provoca
el inters de la clase, o viceversa. Aunque nuestras expectativas culturales nos predisponen en favor de la primera interpretacin, puede presentarse tambin un argumento nada
desdeable en favor de la segunda. (Interviene, sin duda,
un efecto de causacin recproca.) Un estudio en panel agregara datos pertinentes, .al volver a ponderar las mismas variables en una segunda sesin, con los mismos maestros y
cursos. (Dos niveles de medicin para dos variables generan
cuatro tipos de reacciones para cada sesin, o sea 4 X 4 posibles configuraciones de reaccin para ambas acciones, produciendo el cuadro de diecisis partes).
Con fines simplemente ilustrativos, supongamos ahora el siguen te resultado:
Primera sesin.

C~-) .. (.r.) .. (.~-) ..

Alumnos

Interesados
No interesados

130

131

Maestros
Fro
Clido

Segunda sesin.
Alumnos
Ir.tcresados
i ~o interesados

Maestros
Fro
Clido

::

Saltan a la vista tanto la posibilidad de error de la informacin cmrelacional ordinaria como el ingenio del anlisis de
Lazarsfdd, si notamos que entre los desplazamientos. q~e habran posibilitado la trasformacin se dan los siguientes
'Jpuestos polares:
La

del maestro prouoca inters en los alumnos.


Alumnos

Maestros
Fro
Clido

Interesados

10

preponderncia del uno sobre el otro. Estos diagramas representan los dos resultados ms claros posibles. De producirse
uno de ellos, el .examen de los sujetos que se desplazan, posibilitado por la recopilacin de datos tipo panel (imposible
s en cada caso actuasen distintos alumnos y maestros), parece otorgar gran admisibilidad a una inferencia causal monodireccionaL Para los que se desplazaron, pueden notarse la
dimensin temporal y el sentido del cambio. De verificarse el
caso indicado en primer trmino, sera poco probable que los
alumnos estuvieran cambiando de maestros, y muy probable
que los maestros estuvieran cambiando de alumnos, al menos
en esos veinte cursos cambiantes.
Aunque los socilogos dejan el anlisis al nivel dicotmico,
estos requisitos pueden formularse de nuevo en forma ms
general, como correlaciones desfasadas en el tiempo, donde el
efecto debera tener una correlacin ms elevada con
una causa anterior que con una <mlterior; es decir,
rx 1 o 3 > rx 2 o 1 Tomando el caso en que los maestros son lns
causantes de la conducta de los alumnos, obtenemos:
Alumnos segunda v.ez

No interesados

lvfaestros primera' vez

Fro

30

Cldo

Interesados

El inters de los alumnos prouoca calidez en el maestro.


Alumnos

No interesados

Aaestros
Fro
( :lido

Alumncs primera vez

Interesados

'Jaestros segunda vez


Fro
Cldo

Interesados
No interesados

No interesados

Hemos considerado aqu solo los cambios que aumentan la


intercorrelacin, soslayando las inevitables oscilaciones.
en este diagrama, a diferencia
de Lazarsfeld, no pr~st:;n~~
tamos ms que 8 de los 16 casilleros de su cuadro en dJeciseis
partes, limitndonos a los cuatro tipos estables (repetidos tanto en el diagrama superior como en el inferior) y los cuatro
tipos de desplazamientos que aum_entaran la correla_cn (dos
arriba y dos abajo). Los cuatro tlpos de desplazamientos podran, por supuesto, producirse a la vez, y cualquier inferencia a propsito del sentido
la causacin se fundara en una

En este caso el ejemplo parece una reformulacin trivial de


los cuadros originales, ya que los maestros no cambiaron en
absoluto. Sin embargo, .es tal vez la mejor forma general de
anlisis. Ntese que, pese a ser aceptable, tal vez no debera
utilizarse el argumento rx1 02 > rx1 01, a causa de las muchas
fuentes no pertinentes de correlacin que .se producen entre
conjuntos de datos tomados en la misma sesin, que inflaran
el valor rx 1 o 1. Tngase en cuenta que el rx1 02 > rx2 O sugerido no otorga a ninguna de las correlaciones la menor ven
taja a este respecto,
Cules son los inconvenientes de este diseo? La aplicacin

132

133

de tests, porque su repeticin puede traducirse de manera


bastante general en correlaciones ms elevadas entre las variables correlacionadas. El rx1 01 < rx2 02 preliminar puede
explicarse sobre esta base. No obstante, ello no explicara
con facilidad el hallazgo de rxt 02 > rx2 01, a menos que fuese aceptable un efecto de interaccin o aplicacin de tests
peculiar de solo tma de las variables.
La regresin parece constituir un problema menor para este
diseo que para el estudio en panel con dos tandas rechazado
antes, porque tanto X como O se evalan en ambas tandas,
y por consiguiente la clasificacin en tales trminos resulta
simtrica. Sin embargo, para el anlisis dicotmico tipo Lazarsfeld, la regresin pasa a ser un problema si los marginales
de cualquiera de las variables presentan una asimetra grave
(p. ej., divisiones 10-90 en vez de las 50-50 utilizadas en estos ejemplos). El anlisis de correlaciones entre variables continuas, empleando todos los casos, no parecera estar en conflicto con los mecanismos de regresin. La maduracin diferencial en ambas variables, o los efectos diferenciales de la
historia, podran ser efectos de interaccin que pusieran en
peligro la validez interna. En cuanto a la externa, son de aplicacin las precauciones habituales, con particular insistencia
en la interaccin seleccin-X en el sentido de que el efecto se
ha observado solo a propsito de la subpoblacin que se desplaza.
Si bien en la mayor parte de las situaciones de enseanza se
dispondra de los diseos 10 o 14 para el tipo de problema
planteado en nuestro ejemplo (y seran preferibles) es probable
que existan situaciones en las cuales debera considerarse este
anlisis. El doctor Winfred F. Hill, por ejemplo, ha recomendado su aplicacin a los datos obtenidos sobre el comportamen to de padres e hijos en estudios longitudinales. 1
Cuando se generaliza a datos no dicotmicos, el nombrt> Cuadro en diecisis partes deja de ser apropiado; recomendamos
que se lo denomine Cori-elacin en panel con desfasaje cruzado.

Anlisis ex post facto


En la actualidad, la frase experimento ex post facto designa
los esfuerzos para simular la experimentacin por medio de
1 Comunicacin personal.

134

un proceso en el que se intenta una situacin de diseo 3 con


miras a lograr una ecuacin pre-X, empleando un proceso de
equiparacin en atributos pre-X. El modo de anlisis y su nombre los introdujo por primera vez Chapn [Chapn y Queen,
1937]. Ms adelante han expuesto con amplitud este diseo
Greenwood [1945] y Chapn [1947, 1955]. Aunque estas
referencias provienen de la sociologa y no de la pedagoga, y
consideramos que el anlisis conduce a error, entendemos que
corresponde exponerlo tambin en esta obra. Constituye uno
de los esfuerzos ms amplios con miras al diseo cuasiexperimental. Los ejemplos proceden con frecuencia del mbito educacional. La lgica utilizada y los errores en que se incurre,
son tambin frecuentes en la investigacin pedaggica.
En un tpico estudio ex post facto [Chapn, 1955, pgs. 99124], la X era la educacin recibida en la escuela scundaria
(sobre todo en sus ltimos aos) y las O se relacionaban con
el xito y el ajuste comunitario diez aos despus, juzgados
sobre la base de datos obtenidos en entrevistas personales. La
equiparacin se hizo en aquella oportunidad recurriendo a
los archivos escolares (aunque en estudios anlogos, ms endebles todava, aquellos hechos pre-X se obtenan en las entrevistas post-X). En principio los datos indicaron que quienes completaban la escuela secundaria haban tenido ms
xito, pero tambin haba influido en ello el mejor puntaje
obtenido en la escuela primaria, la ocupacin de los padres en
niveles superiores, la menor edad, los mejores vecindarios,
etc. Esos antecedentes, pues, podran haber sido la causa, tanto de la finalizacin de la escuela secundaria como del xito
posterior.
Ejerci la escuela algn influjo adicional por encima del mejor comienzo ofrecido por esos factores ambientales? La solucin de Chapn a este interrogante fue examinar subconjuntos de estudiantes equiparados en todos aquellos factores
ambientales, pero con diferencias al concluir la escuela secundaria. El agregado de cada factor de equiparacin redujo a su
vez la discrepancia postest entre los grupos X y no X, pero
una vez realizadas todas las equiparaciones qued una diferencia significativa. Chapn lleg a la conclusin, si bien cauta,
de que la educacin haba tenido un efecto. Un universo inicial de 2.127 estudiantes se redujo a 1.194 entrevistas completadas sobre casos con antecedentes adecuados. El ajuste
redujo los casos utilizables a 46, es decir, 23 graduados y 23
no graduados, meno3 del 4 % de los entrevistados.
Chapn sostiene correctamente que 46 casos comparables son
135

preferibles a 1.194 no comparables, sobre fundamentos similares a nuestro nfasis relativo a la prioridad de la validez interna sobre la externa. Lo lamentable es que sus 46 casos
tampoco son comparables, y lo que es ms grave todava:
aun admitiendo su defectuosa argumentacin, la reduccin era
innecesaria.
Incurri en una grave subequiparacn por dos razones distintas. Su primera fuente de subequiparacin
que la equiparaci6n est sujeta a regresin diferencial, la que en este caso
producira por cierto una diferencia final en el sentido obtenido (ele b manera inclicacla por R. L. Thorndike, 1942 y
analizada a propsito de la equiparacin en el diseo 1O). El
sentido del seudoefecto de la regresin relativa a medias grupales despus ele la equiparacin es en este caso seguro, pues
las diferencias en los factores de equiparacin entre los que
lograron xito frente a los que no lo tuvieron tienen el mismo sentido para cada factor que las diferencias entre los que
completaron la escuela secundaria y los que la abandonaron
antes de finalizar sus estudios.
Cada determinante de exposicin a X es, de manera similar
y aun sin X, un determinante de O. Todas las variables
equiparadas correlacionan con X y O en el mismo sentido.
Aunque bien podra no ocurrir as en todas las variables de to
dos los estudios ex post facto, s acaece, si no en todos, en la
mayor parte de los ejemplos publicados. Este ,error y la reduc
cin en el nmero de casos pueden evitarse por medio de la esnlclstica moderna, que elude el error ele equiparacin en el
diseo 10.
Las variables de equiparacin podran ser utilizadas en su totalidad como covarables en un anlisis de covariancia con covariables mltiples. Estimamos con toda seriedad que ese anlisis eliminara los efectos aparentemente significativos en los
estudios especficos presentados por Chapn. (Vase, sin embargo, Lord [ 1960], por su crtica del anlisis de covariancia
para problemas de esta ndole.) Pero hay otra inevitable
fuente de subequiparacin en la configuracin ele Chapn.
Greenwood [ 1945] la designa con el nombre de autosdeccin de exposicin o no exposicin. La exposicin es consecuencia lgica de muchos antecedentes. En el caso del abandono
ele la escuela secundaria antes ele finalizarla, sabemos que son
innumerables los determinantes posibles, aclen~s de aquellos
sobre los cuales se hizo la equiparacin. Podemos suponer,
con gran seguridad, que casi todos ellos tendrn un efecto
similar sobre xitos ulteriores, independientemente de su efec136

to por medio de X. Este solo hecho aseg~~a que la s_ubequparacn sobrepasar el efecto de re~r~~ln por e9u1p~
racin. Aun con el predictor pre-X y el anahs1s de covanancra
de O solo es interpretable un efecto significativo de tratamien;o cuando se han incluido todas las variables equiparadas
que contribuyen en forma conjunta.

137

7. Comentarios finales

Esta obra es ya en s una exposicin condensada. Un resumen


de ella puede inducir a engao. En este sentido, parece imprescindible una advertencia final a propsito de la tendencia
a utilizar con ese fin los cuadros 1, 2 y 3, de aparente pero
falsa conveniencia. Esos cuadros, en calidad de bosquejo recurrente, han contribuido en parte a ordenar la obra hacindola menos reiterativa. Pero la colocacin de signos positivos,
negativos e interrogativos ha sido siempre equvoca y, por lo
comn, constituye un mal resumen del correspondiente anlisis. Es probable que en cualquier ejecucin particular de un
diseo, la fila de comprobacin resulte distinta de h que aparece en el correspondiente cuadro.
Por ejemplo, la solucin de empate del diseo 6 a la cual
aludimos al pasar en el diseo cuasiexperimental 16 tiene, segn lo all expuesto, dos signos interrogativos y uno negativo
que no aparecen en el cuadro 1 en la fila del diseo 6. La mejor forma de utilizar los cuadros es hacerlo a manera de otros
tantos bosquejos de un cuidadoso estudio de los detalles particulares de un experimento durante la etapa de su planifcacin. Del mismo modo, esta obra no pretende sustituir con
el dogma de los 13 diseos aceptables otro dogma anterior
del diseo o par de diseos aceptables. Ms bien habra que
estimular una actitud abierta hacia la indagacin de los nuevos mecanismos de obtencin de datos, y un nuevo anlisis
acerca de algunas de las imperfecciones que acompaan a la
aplicacin rutinaria de los tradicionales.
Por ltimo, hemos visto en este trabajo distintas alternativas
sobre los dispositiv-::>s o diseos experimentales, con particular
referencia a los p;oblemas de control de variables externas y
amenazas a la validez. Hay que distinguir entre validez interna y externa, o posibilidad de generalizar. Se han empleado
ocho clases de amenazas a la validez interna y cuatro a la externa, para evaluar diecisis diseos experimentales y unas
cuantas variaciones sobre ellos. Tres de esos diseos se han
clasificado como preexperimentales y se los ha empleado so138

bre todo para ilustrar los factores de validez que requieren


control. Tres de ellos se consideraron diseos experiment~les
propiamente dichos. Y de diez se ha dicho que ~o~ cuastex
permentos pues carecen de un control perfecto.' s1 b1en :nerecen que se los adopte cuando no haya nada meJor. Para mterpretar los resultados de esos experimentos, es de particular
importancia la lista de verificacin de factores de valdez. En
general hemos llamado la atencin sobre la posibilidad de
utilizar' creatvamente las caractersticas peculiares de cualquier situacin concreta de investigacin al disear pruebas
especficas de las hiptesis causales.

139

Referencias bibliogrficas

Brownlee, K. A.
1960. Statistical theory and methodology in scu'!JCt' '",/ , ''
gineering, Nueva York: Wiley.
Brunswik, E.
1956. Perception and the representative design of Jllv,f,,"
gical experiments, Berkeley: University of California l'w..
2a. ecl.

Allport, F. H.
1920. The influence of the group upon assocratwn and
thought, ]. Exp. Psychol., vol. 3, pgs. 159-82.
Anastasi, A.
1958. Dfferential psycholog,y, Nueva York: Macmillan, 3a.
ed. (Psicologa diferencial, Madrid: Aguilar, 1964.)
Anderson, N. H.
1959. Test of a model for opinion change,]. Abnorm. Soc.
Psychol., vol. 59, pgs. 371-81.
Batch, A. M., Trumbo, D. y Nangle, J.
1957. Social setting and conformity to a legal requirementr>
]. Abnorm. Soc. Psychol., vol. 55, pgs. 396-98.
'
Blalock, H. M.
1964. Causal inferences in nonexperimental research, Chapel
Hill: University of North Carolina Press.
Boring, E. G.
1954. The nature and the history of experimental control,
Amer. ]. Psychol., vol. 67, pgs. 573-89.
Box, G. ,E. ,P.
196 7. Bayesian approaches to sorne bothersome problems in
data analysis, en J. C. Stanley, ed., Improving experimental
design and statistical analysis, Chicago: Rand McNally.
Box, G. E. P. y Tiao, G. C.
1965. A change in level of a non-stationary time series,
Biometrika, vol. 52, pgs. 181-92.
Brim, O. G.
195 8. Family structure and sex role learning by children:
A further analysis of Helen Koch's data, Sociometry, vol.
21, pgs. 1-16.
Brolyer, C. R., Thorndike, E. L. y Woodyard, E.
1927. A second study of mental discipline in high school studies,]. Educ. Psychol., vol. 18, pgs. 377-404.
140

Campbell, D. T.
1957. Factors relevant to the validity of experimenls 111 '"
cial scttings, Psychol. Bull., vol. 54, pgs. 297-312.
1959. Methodological suggestions from a comparativc 1''"
chology of knowledge processes, Inquiry, vol. 2, pgs. 1 ').'
82.
1960. Recommendations for APA test standards regardi111~
construct, trait, or discriminant validity, Amer. Psycholo~irr
vol. 15, pgs. 546-53.
1963. From description to experimentation: Interprct ing
trends as cuasi experiments, en C. W. Harris, ed., Prob!C!!I\
in measuring change, Madison: University of Wisconsin Prcs~ ..
pgs. 212-42. 1
196 7. Administrative experimentation, institutional records.
and nonreactive measures, en J. C. Stanley, ed., Improui11:
experimental design and statistical analysis, Chicago: H.:u1,l
McNally.
Quasi-experimental designs for use in natural social sLt
tings, en D. T. Campbell, Experimenting, validating, kJ1ou
ing: Problems of method in the social sciences, Nueva York
McGraw-Hill, en preparacin.
Campbell, D. T. y Clayton, K. N.
1961. Avoiding regression effects in panel studies of con1
munication impact, Stud. Pub. Commun., n? 3, pgs. l)')
118.
Campbell, D. T. y Fiske, D. W.
1959. Convergent and discriminant validation by the multi
trait-multimethod matrix, Psychol. Bull., vol. 56, pgs. 81
105.
Campbell, D. T. y McCormack, T. H.
1957. Military experience and attitudes toward authority,
Amer. ]. Saciol., vol. 62, pgs. 482-90.
Cane, V. R. y Heim, A. W.
1950. The effects of repeated testing: III. Further expcn
141

ments and general conclusions, Quart. ]. Exp. Psychol., vol.


2, pgs. 182-95.
Cantor, G. N.
1956. A note on a methodological error commonly committed in medica] and psychological research, Amer. J.
'Ment. Defic., vol. 61, pgs. 17-18.
Cochran, \YJ. G. y Cox, G. M.
1957. Experimental designs, Nueva York: \Xliley, 2a. ed.
Collier, R. M.
1944. The effect of propaganda upon attitude following a
critica] examination of the propaganda itself,]. Soc. Psychol.,
vol. 20, pgs. 3-17.
Collier, R. 0., h.
1960. Three types of randomization in a two-factor experiment, Minneapolis: edicin del autor, 1960 (fotocopia).
Cornfield, J. y Tukey, J. \YJ.
1956. Average values of mean squares in factorials, Ann.
Math. Statist., vol. 27, pgs. 907-49.
Cox, D. R.
1951. Sorne systematc experimental designs, Biometrika,
vol. 38, pgs. 312-23.
1957. The use of a concomitant variable in selecting an experimental design, Biometrika, vol. 44, pgs. 150-58.
1958. Plmming of experiments, Nueva York: \YJiley.
Crook, M. N.
1937. The constancy of neuroticism scores and self-judgments of constancy, ]. Psychol., vol. 4, pgs. 27-34.
Chapn, F. S.
1947. Experimental designs in sociological research, Nueva
York: Harper, 1947. ed. rev., 1955.
Chapn, F. S. y Queen, S. A.
1937. Research memorandum on social work in the depressimt, Nueva York: boletn n'? 39, del Social Science Research
Council.

cial experiment, Minneapolis: University of Mnnesota l'n,;,


Duncan, C. P., O'Bren, R. B., Murray, D. C., Davis, l. y
Glliland, A. R.
1957. <<Sorne information about a test of psychologcal 1111',
conceptions,]. Gen. Psychol., vol. 56, pgs. 257-60.
Ebbinghaus, H.
1913. J\{emory, Nueva York: Columbia University, Tcachn~.
College.
Edwards, A. L.
1960. Experimental design in pyschological research,
York, Rinehart, ed. rev.

Nuev:1

Farmcr, E., Brooks, R. C. y Chambers, E. G.


1923. A comparison of different shift systems in the ?,lan
trade. Rep. 24, Medica! Research Council, Industrial Fatigw
Research Board, Londres: His Majesty's Stationery Office.
Feldt, L. S.
1958. A comparison of the precision of three experimental
designs employing a concomitant variable, Psychometrika,
vol. 23, pgs. 335-53.
Ferguson, G. A.
1959. Statistcal analyss in psychology'and education, Nueva
York: McGraw-Hill.
Fisher, R. A.
1925. Statistical methods for research workers, Londres: Olver & Boyd, la. ed. ( T ablc1s estadsticas para investigadores
cientificos, Madrid: AguiJar, 2a. ed., 1954.)
1926. The arrangement of field experiments, ]. Min. Agrculture, voL 33, pgs. 503-13; reimpreso en Contributions to
mathematical statistics, Nueva York: Wiley, 1950.
1935. The design of experiments, Londres: Oliver & Boyd,
la. ed.

Chernoff, H. y Moses, L. E.
1959. Elementary decison theory, Nueva York: Wiley. (Teora y clculo elemental de las decisiom:s, Mxico: CECSA,
1967.)
Deutsch, M. y Collins, M. E.
1951. Interracial housing: A psychological evaluation of a so ..

Glass, G. V.
1965. Evaluating testing, maturation, and treatment effects
in a pretest posttest quasi-experimental desgn, Amer. Educ.
Res. ]., vol. 2, pgs., 83-7.
Glickman, S. R
1961. <<Perseverative neu.ral processes and consolidation of
the memory trace, Psychol. Bull., vol. 58, pgs. 218-33.
Glock, C. Y.
1955. Sorne applications of the panel rnethod to the stmly

142

143

of social change, en P. F. Lazarsfeld y M. Rosenberg, eds.,


Tbe language of social research, Glencoe Ill.: Free Press,
pgs. 242-49.
1958. The effects of re-interviewing in panel research, copia litogrfica de un captulo de P. F. Lazarsfeld, ed., The
study of short run social change, en preparacin.
Good, C. V. y Scates, D. E.
1954. Methods of research, Nueva York: Appleton-Century
Crofts.
Grant, D. A.
1956. Analysis-of-variance tests in the analysis and comparison of curves, Psychol. Bull., vol. 53, pgs. 141-54.
Green, B. F. y Tukey,]. W.
1960. Complex analyses of variance: General problems,
Psychometrika, vol. 25, pgs. 127-52.
Greenwood, E.
1945. Experimental sociology: A study m method, Nueva
York: King's Crown Press.
Guetzkow, H., Kelly, E. L. y McKeachie, W. J.
1954. An experimental comparison of recitation, discussion,
and tutorial methods in college teaching>>, J. Educ. Psychol.,
vol. 45, pgs. 193-207.
Hammond, K. R.
1954. Representative vs. systematic design in clinical psychology, Psychol. Bull., vol. 51, pgs. 150c59.
Hanson, N. R.
1958. Patterns of discovery, Cambridge, Inglaterra: University Press.
Hovland, C. I., Janis, I. L. y Kelley, H. H.
1953. Communicatirm and persuasion, Ncw Haven, Cono.:
Yale University ,Press.
Hovland, C. I., Lumsdaine, A. A. y Sheffield, F. D.
19~9. Experiments on mass communication, Princeton N. ].:
Pnnceton University Press.
Johnson, P. O.
1949. Statistical methods in research, Nueva York: PrenticeHall.
Johnson, P. O. y Jackson, R. W. B.
1959. Modern statistical methods: Descriptive and inductive
Chicago: Rand McNally.
'
144

Jost, A.
1897. Die Assoziationsfestigkeit in ihrer Abhangigkeit von
der Verteilung der Wiederholungen, Z. Psychol. Physiol. Sinnesorgane, vol. 14, pgs. 436-72.
Kaiser, H. F.
1960. Directional statistical decisions, Psychol. Rev., vol.
67, pgs. 160-67.
Katz, D., Maccoby, N. y Morse, N. C.
1951. Productivity, supervision, and morale in an office situation, Ann Arbor: University of Michigan, Survey Research
Center.
Kcmpthorne, O.
1952. The desing and analysis of experiments, Nueva York:
Wiley.
1955. The randomization theory of statistical inference,
]. Amer. Statist. Ass., vol. 50, pgs. 946-67; 1956, vol. 51,
pg. 651.
1961. The design and analysis of experiments, with sorne
reference to educational research, en R. O. Collier y S. M.
Elam, eds., Research design and analysis: The second annual
Phi Delta Kappa symposium on educational research, Bloomington, Ind.: Phi Delta Kappa, pgs. 97-133.
Kendall, M. G. y Buckland, W. R.
1957. A dictionary of statistical terms, Londres: Oliver &
Boyd.
Kennedy,]. L. y Uphoff, H. F.
19 39. Experiments on the nature of extra-sensory perception. III. The recording error criticisms of extrachance seores, J. Parapsychol., vol. 3, pgs. 226-45.
Kerr, W. A.
194 5. Experiments on the effect of mu sic on factory production, Appl. Psychol. Monogr., n<:> 5.
Lana, R. E.
1959a <<Pretest-treatment interaction effects in attitudinal studies, Psychol. Bu!!., vol. 56, pgs. 293-300.
1959b. <<A further investigation of the pretest-treatment interaction effect, J. Appl. Psychol., vol. 43, pgs. 421-22.
Lana, R. E. y King, D. ].
1960. Learning factors as determiners of pretest sensitization,]. Appl. Psychol., vol. 44, pgs. 189-91.
145

Lindquist, E. F.
1940. Statstical analysis in educational research, Boston:
Houghton Mifflin.
1953. Design and analysis of experiments in psycholagy and
education, Boston: Houghton Mfflin.
Barton, A. H. y Linz, J.
Lipset, S. M., Lazarsfeld, P.
1954. The psychology of voting: An analysis of poltica!
behavior, en G. Lindzey, ed., Handbook of social psycholagy,
Cambridge, Mass.: Addison-Wesley, pgs. 1124-75. (Manual
de psicologia social, Buenos Aires: Paids, en preparacin.)
Lord, F. M.
1956. The measurement of growth>~, Educ. Psychol.
Measmt., vol. 16, p1gs. 421-37.
1958. <<Furthcr problems in the measurement of growth,
Educ. Psychol. Measmt., vol. 18, pgs. 437-51.
1960. Large-sample covariance analysis when the control
variable is fallible,]. Amer. Statist. Ass., vol. 55, pgs. 30721.
Lubin, A.
1961. The interpretation of significant interaction, Educ.
Psychol. Measmt., vol. 21, pgs. 807-17.
Maxwcll, A. E.
1958. Experimeital design in psycholagy and the medica[
sciences, Londres: Methuen.
McCall, W. A.
1923. How to experiment in education, Nueva York: Macmillan.
McNemar, Q.
1940. A critica} examination of the University of Iowa studies of envronmental influences upon the L Q., Psychol.
Bull., vol. 37, pgs. 63-92.
1958. n growth measurement, Educ. Psychol. Measmt.,
voL 18, pgs. 47-55.
1962. Psychological statistics, Nueva York: Wiley, 3a. ed.
Meehl, P. E.
1954. Clnica! versus statistical prediction, Minneapolis: University of Minnesota Press.
Monroe, W. S.
1938. <<Genera] methods: Classroom experimentation, en
G. M. Whipple, ed., Yearb. Nat. Soc. Stud. Educ., vol. 37,
part. II, pgs. 319-27.
146

Mood, A. F.
1950. Introduction to the theory of statistics, Nueva York:
McGraw-Hill (Introduccin a la teora de la estadstica, Madrid: Aguilar, 2a. ed., 1969.)
Moore, H. T.
1921. The comparative influence of majority and expert opinon, Amer. ]. Psycbol., vol. 32, pgs. 16-20.
Morse, N. C. y Reimer, E.
1956. The experimental change of a majar organizationai
variable,]. Abnorm. Soc. Psychol., vol. 52, pgs. 120-29.
Myers, J. L.
1959. n the interaction of two scaled variables, Psychol.
Bull., vol. 56, pgs. 384-91.
Newcomb, T. M.
1943. Personality and social change, Nueva York: Dryden.
Neyman, J.
1960. lndeterminism in science and new demands on statisticians, ]. Amer. Statist. Ass., vol. 55, pgs. 625-39.
Nunnally, J.
1960. The place of statistics in psychology, Educ. Psychol.
Measmt., vol. 20, pgs. 641-50.
Page, E. B.
1958. Teacher comments and student performance: A seventy-four classroom experiment in school motivation, ].
Educ. Psycbol., vol. 49, pgs. 173-81.
Pearson, H. C.
1912. Experimental studies in the teaching of spelling,
Teacbers Col!. Rec., vol. 13, pgs. 37-66.
Pelz, D. C. y Andrews, F. M.
1964. Detecting causal priorities in panel study data,
Amer. Sodol. Rev., vol. 29,
836-48.
Peters, C. C. y Van Voorhis, W. R.
1940. Statistical procedures and ther mathematical bases,
Nueva York: McGraw-Hll.
Piers, E. V.
1954. Effects of instruction on teacher attitudes: Extended control-group design, tesis indita de doctorado, George
Peabody Coll.
1955. Abstract, Bull. Maritime Psychol. Ass., pgs. 53-56.
147

Popper, K. R.
1959. The logic of scientific discovery, Nueva York: Basic
Books. (La lgica de la investigacin cientfica, Madrid: Tecnos, 1965.)

1957. <<Reference groups, membership groups, and altitud,.


cbange,]. Abnorm. Soc. Psychol., vol. 55, pgs. 360-64.

Rankin, R. E. y Campbell, D. T.
1955. Galvanic skin response to negro and white experimenters,]. Abnorm. Soc. Psychol., vol. 51, pgs. 30-3.
Reed, J. e
19 56. So me effects of short term training in reading under conditions of controlled motivation, J. Educ. Psychol.,
vol. 47, pgs. 257-64.

Smitb, H. L. y Hyman, H.
1950. The biasing effect of interviewer expectations on sur
vey results, Publ. Opin. Quart., vol. 14, pgs. 491-506.

Simon, H. A.
1957. Models of man, Nueva York: Wiley.

Selltiz, C., Jahoda, M., Deutsch, M. y Cook, S. W.


1959. Research methods in social relations, Nueva York:
Holt-Dryden, ed. rev. (Mtodos de investigacin en las reltu.iones sociales, Madrid: Rialp, 2a. ed., 1965.)
Siegel, A. E. y Siegel, S.

Sobo!, M. G.
1959. Panel mortalitv and panel bias, ]. Amer. Statist.
Ass., vol. 54, pgs. 52:68.
Solomon, R. L.
1949. An extension of control group design, Psychol.
Bull., vol. 46, pgs. 137-50.
Sorokin, P. A.
1930. An experimental study of efficiency of work unde.r
various specified conditions, Amer. J. Social., vol. 35, pgs.
765-82.
Stan ley, J. C.
1955. Statistcal analysis of seo res from counterbalanced
tests, ]. Exp. Educ., voL 23, pgs. 187-207.
1956. Fixed random, and mixed models in the analysis of
variance as special cases of finite model 111, Psychol. Rep.,
voL 2, pg. 369.
19 57a. Controlled experimentation in the dassroom, ].
Exp. Educ., vol. 25, pgs. 195-201.
1957b. Research methods: Experimental design, Rev.
Educ. Res., vol. 27, pgs. 449-59.
1960. <nteractions of organisms with experimental variables as a key to the integration of organismic and variablemanipulating research, en E. M. Iluddleston, ed., Yearb.
Nat. Counc. Measmt. used in Educ., pgs. 7-13.
1961a. Analysis of a double nested design, Educ. Psychol.
Measmt., vol. 21, pgs. 831-37.
196lb. <<Studying status vs. manipulating variables, en ~
O. Coller y S. M. Elam, eds., Research design and analysts:
Tbe second Phi Delta Kappa symposium on educational research. Bloomington, Ind.: Phi Delta Kappa, pgs. 173-208.
1961c. Analysis of unreplicated threeway classifications, with
applications to rater bias and trait independence, Psychometrika, vol. 26, pgs. 205-20.
1962. Analysis-of-variance principies applied to the grading
of essay tests, ]. Exp. Educ., vol. 30, pgs. 279-83.

148

149

Rogers, e R. y Dymond, R. F.
1954. Psychotherapy and p:monality change, Chicago: University of Chicago Press.
Rosenthal, R.
1959. Research on experimenter bias>>, trabajo ledo en la
American Psychological Association, Cincinnat.
Roy, S. N. y Gnanadesik:m, R.
1959. Some contributions to ANO VA in one or more dimensions: 1 and 11, Ann. Math. Statist., vol. 30, pgs. 30417, 318AO.
Rozeboom, W. W.
1960. The fallacy of the nullhypothesis significance test
Psychol. Bull., voL 57, pgs. 416-28.
Rulon, P. J.
1941. Problems of regression, Harvard Educ. Rev., vol.
11, pgs. 213-23.
Sanford, F. H. y Hemphill,]. K.
1952. An evaluation of a brief course in psychology at the
U. S. Naval Academy, Educ. Psychol. Measmt., vol. 12,
pgs. 194-216.
Scheff, H.
1956. Alternative models for the analysis of variance, Ann.
Aiath. Statist., vol. 27, pgs. 251-71.

1965. Quasi-experimentatiom>, Sch. Rev., vol. 73, pgs.


197-205.
1966a. A common class of pseudo-experiments, Amer.
Educ. Res. ]., vol. 3, pgs. 79-87.
1966b. The influence of Fischer's The design of experiments on educational research thirty years later, Amer. Educ.
Res. ]., vol. 3, pgs. 223-29.
1966c. Rice as a pioneer educational researcher, ]. Educ.
Measmt., vol. 3, pgs. 135-39.
Stanley, J. C. y Beeman, E. Y.
1956. lnteraction of major field of study with kind of test,
Psycbol. Rep., vol. 2, pgs. 333-36.
1958. Restricted generalization, bias, and loss of power that
may rcsult from matching groups, Psychol. Newsltr., voL
9, pgs. 88-102.
Stanley, J. C. y Wiley, D. E.
1962. Development and analysis of experimental designs for
ratings, Madison, ;wis.: edicin de los autores.
Stanton, F. y Baker, K. H.
1942. lnterviewer-bias and the recall of incompletely learned materals, Sociometry, voL 5, pgs. 123-34.
Star, S. A. y Hughes, H. M.
1950. Report on an educational campaign: The Cincnnati
plan for the United Natons, Amer. J. Social., vol. 55, pgs.
389-400.
Stockford, L. y Bissell, H. W.
1949. Factor involved in establishing a rnerit-rating scale,
PersoJZnel, vol. 26, pgs. 94-116.
Stouffer, S. A., ed.
1949. The American soldier, Princeton, N.].: Princeton UniPress, vols. I y II.
1950. <<Sorne observations on study design,>, Amer. ]. Social., vol.
pgs. 355-61.
Thistlethwaite, D. L. y Campbell, D. T.
1960. Regression-discontinuity analysis: An alternative to
<he ex post facto experiment, ]. Educ. Psychol., vol. 51,
pgs. 309-17.

Thorndike, E. L. y Woodworth, R. S.
1901. The influence of improvement in one mental function
upon the efficiency of other functions, Psychol. Rev., vol.
8, pgs. 247-61, 384-95, 553-64.
Thorndike, R. L.
1942. Regression fallacies in the matched groups experiment>>, Psychometrika, vol. 7, pgs. 85-102.
Underwood, B. J.
1949. Experimental psychology, Nueva York: Appleton-Century-Crofts.
1954. An analysis of the rnethodology used to investigate
thinking behavior, trabajo ledo en la New York University
Conference on Human Problem Solving, abril de 1954. (Vase tambin C. L Hovland y H. H. Kendler, The New
York University Conference on Human Problem Solving,
Amer. Psychologist, vol. 10, pgs. 64-68.)
1957a. lnterference and forgetting, Psychol. Rev., vol. 64,
pgs. 49-60.
1957 b. Psychological research, Nueva York: Appleton-Century-Crofts.
Underwood, B. J. y Rchardson, ].
1958. <~Studies of distributed practice. XVIII. The influence of meaningfulness and intralist similarity of serial nonsense lists, ]. Exp. Psychol., vol. 56, pgs. 213-19.
1947. U. S. War Departrnent, Informaton and Education
Division, pinions about Negro infantry platoons in white
companies of seven divisions, en T. M. Newcomb y E. L.
Hartley, eds., Readings in social psychology, Nueva York:
Holt, pgs. 542-46. (Manual de psicologa social, Buenos Aires: Eudeba, 2 vols., 1964.)
Watson, R. l.
1959. Psychology of the child, Nueva York: Wiley.
Webb, E. J., Campbell, D. T., Schwartz, R. D. y Sechrest, L.
1966. Unobtrusive measures: Nonreactive research in the
social sciences, Chicago: Rand McNally.

Thorndike, E. L., McCall, \Y/. A. y Chapman, J. C.


1916. Ventilation in relation to mental work, Teach. Coll.
Contr. Educ., n? 78.

Wilk, M. B. y Kempthorne, O.
1955. Fixed, mixed, and random models>>, ]. Amer. Statst.
Ass., vol. 50, pgs. 1144-67.
1956a. Corrigenda, ]. Amer. Statist. Ass., vol. 51, pg.
652.
1956b. Sorne aspects of the analysis of factorial experiments

L50

151

in a completely randomized desing, Ann, Math. Statist., vol.


27, pgs. 950-85.
1957. Non-addtvities in a Latn square desigm;, f. Amer.
Statist. Ass., vol. 52, pgs. 218-36.
Windle, C.
1954. Test-retest effect on personality questionnires,
Educ. Psychol. Measmt., vol. 14, pgs. 617-33.
Winer, B. J.
1962. Statistical principies in experimental design, Nueva
York: McGraw-Hill.
Wold, H.
1956. Causal inference from observational data. A review
of ends and means>;, f. Royal Statist. Soc., sec. A, vol. 119,
pgs. 28-61.
Wyatt, S., Fraser, J. A. y Stock, F. G. L.
1926. Fan ventilation in a humid weaving shed, informe
n'! 37 del Medical Research Council, Industrial Fatigue Research I3oard, Londres: His Majesty's Stationery Office.
Zeisel, H.
1947. Say it wth fif!.ures, Nueva York: Harper.

Indice onomstico

Allport, F. H., 86-87, 90,


140
Anastasi, A., 23, 140
Anderson, N. H., 41, 140
Andrews, F. M., 147

Cornfield, ]., 64, 142


Cox, D. R., 9, 36, 50, 89-90,
99, 142
Cox, G. M., 99, 142
Crook, N. V., 21, 142

Baker, K. H., 34, 105, 150


Barch, A. M., 126, 140
Barton, A. H., 131, 146
Beeman, E. Y., '69, 96, 150
Bssell, H. W., 130, 150
Blalock, H. M., 140
Boring, E. G., 19, 32, 140
Box, G. E. P., 140
Brim, O. G., 126, 140
Brolyer, C. R., 98, 140
Brooks, R. C., 77, 143
Brownlee, K. A., 9, 64, 141
Brunswik, E., 67, 87, 141
Buckland, W. R., 11, 145

Chambers, E. G., 77, 143


Chapn, F. S., 135-36, 142
Chapman, J. C., 11, 150
Chernoff, H., 16, 142

Campbell, D. T., 7, 14, 16,


23-24,41,69-70,72, 111,
114, 118, 129-30, 141,
148, 150-51
Cane, V. R., 23, 141
Cantor, G. N., 50, 142
Clayton, K. N., 9, 129-30,
141
Cochran, W. G., 99, 142
Collier, R. M., 21, 142
Collier, R. 0., h., 90, 142,
145, 149
Collins, M. E., 12728, 142
Cook, S. W., 103, 148

152

153

Davs, L., 143


Deutsch, M., 103, 127-28,
142, 148
Duncan, C. P., 41, 106, 114,
143
Dymond, R., 38, 148
Ebbinghaus, H., 88, 143
Edwards, A. L., 9, 58, 143
Elam, S. M., 145, 149
Euler, L., 11
Farmer, E., 77, 143
Feldt, L. S., 36, 50, 143
Ferguson, G. A., 9, 58, 64,
143
Fisher, R. A., 9-11, 14, 31,
50, 54, 57, 143.
Fske, D. W., 69, 141
Fraser, J. A., 87, 152
Gage, N. L., 7
Gilliland, A. R., 143
Glass, G. V., 143
Glickman, S. E., 75, 143

( ;(ock, C. Y., 41, 129-30,


143
Gnanadesikan, R., 14, 148
Good, C. V., 12, 144
Grant, D. A., 64, 144
Green, B. F., 49, 62, 144
Greenwood, E., 135-36, 144
Guetzkow, H., 67, 69, 144
Hammond, K. R., 67, 144
Hanson, N. R., 73, 144
Harris, C. \YJ., 141
Hartlev, E. L., 151
Heim, A. W., 23, 141
IIemphill, ]. K., 95, 148
Hill, W. F., 134
Hovland, C. I., 41, 65, 114,
144, 151
Huddleston, E. M., 149
Hughes, H. M., 103-04, 106,
150
Hume, D., 39
Hyman, H., 105, 149
Jackson, R. W. B., 9, 58, 96,
144
Jahoda, M., 103, 148
Janis, I. L., 65, 144
Jobnson, P. 0., 9,
96,
144
Jost, A., 9193, 145
Kaiser, H. F., 49, 145
D., 124, 145
Kelley, H. H., 65, 144
Kelly, E. L., 67, 69, 144
Kempthorne, 0., 52-53, 58,
64, 88, 90, 99, 103, 145,
151
Kendall, M. G., 11, 145
H. H., 151
Kennedy, ]. L., 34, 145
Kerr, W. A., 87-88, 145
King, D. ]., 41, 145

154

Lana, R. E., 41, 145


Lazarsfeld, P. F., 131-32,
134, 144, 146
Lndqust, E. F., 9, 36, 48,
50, 58, 97, 100, 146
Lindzey, G., 146
J., 131, 146
Lipset, S. M., 131, 146
Lord, F., 28, 97, 136, 146
Lubin, A., 61, 103, 146
Lurnsdaine, A. A., 41, 65,
114, 144
Maccoby, N.,
145
Maxwell, A. E.,
89, 99,
146
McCall, W. A., 10-11, 14,
32, 36, 99, 146, 1150
McCormack, T. H., 111,
114, 141
McKeachie, W. J., 67, 69,
144
McNemar, Q., 9, 27-28, 146
Meehl, P. H., 120, 146
Mill, J. S., 40
Monroe, W. S., 12, 146
Mood, A. F., 85, 147
Moore, H. T., 91, 147
Morse, N. C., 124, 145, 147
Moses, L. :H., 16, 142
Mller, G. E., 91
Murray, D. C., 143
Myers, J. L., 64, 147
Nangle, J, 126, 140
Newcomb, T. M., 128, 147,
151
Neyman, J., 45, 96, 147
Nunnally, J., 49, 147

Pearson, H. C., 32, 147


Pelz, D. C., 147
Peters, C. C., 36, 96, 147
Picrs, E., 41, 147
Popper, K. R., 73, 148

Stanton, F., 34, 105, 150


Star, S. A., 103-04, 106, 150
Stock, F. G. L., 87, 152
Stockford, L., 130, 150
Stouffer, S. A., 19, 128, 150

Queen, S. A., 135, 142

Thistlethwaite, D. L., 118,


150
Thorndike, E. L., 12, 98,
140, 150-51
Thorndike, R. L., 28, 96,
136, 151
Tiao, G. C., 140
Trumbo, D., 126, 140
Tukey, J. W., 49, 62, 64,
142, 144

Rankin, R. E., 23, !148


Reed, J. C., 38, 148
Reimer, E., 124, 147
Richardson,]., 93, 151
Hogers, C. R., 38, 148
Rosenberg, M., 144
Rosenblatt, P. C., 9
Rosenthal, R., 34, 148
Roy, S. N., 14, 148
Rozeboom, \YJ. \YJ., 49, 148
Rulan, P. J., 28, 96, 148
Sanford, F. H., 95, 148
Scates, D. E., 12, 144
Scheff, H., 64, 148
Schwartz, R. D., 151
Sechrest, L., 151
Selltiz, C., 10.3, 148
Sheffield, F. D., 41, 65, 114,
144
Siegel, A., 48, 148
Siegel, S., 48, 148
Simon, H. A., 126, 149
Smith, H. L., 105, 149
Sohol, M. G., 41, 149
Solomon, R. L., 32-.33, 41,
46, 53-54, 74, 114, 149
Sorokin, P., 86-87, 90, 149
Stanley, ]. C., 7, 9, 14, 44,
62, 64, 69, 96, 103, 14041, 149-50

O'Brien, R. B., 143


Page, E. R, 47, 51, 147
Pavlov, I., 79
155

Underwood, B. ]., 13, 56,


65,67, 75, 77, 88, 93,99,
151
Uphoff, H. F., 34, 145
Van Voorhis, W. R., 36, 96,
147
Watson, R. I., 75, 151
Webb, E. ]., 151
Whipple, G. M., 146
Wiley, D. E., '14, 150
Wilk, M. B., 52-53, 58, 64,
103, 151
Windle, C., 21, 23, 50, 152
Winer, B. ]., 9, 64, 152
Wold, H., 126, 152
Woodworth, R. S., 98, 151
Woodyard, E., 98, 140
Wyatt, S., 87, 152
Zeisel, H., 41, 152

Indice general

7
9

Nota preliminar

64

l. Introduccin

65
65

10

2. El problema y sus antecedentes

10

McCall como modelo


La desilusin provocada por los experimentos llevados
a cabo en el campo de la educacin
Concepcin evolutiva sobre la ciencia y la acumulacin
de conocimientos
Factores que atentan contra la validez tanto interna
como externa

11

14

16
19

3. Tres diseos preexperimentales

19
20
29

1. Estudio de. caso con una sola medicin


2. Diseo pretes't-postest de un S'olo grupo
3. Comparacin con un grupo esttico

31

4. Tres
dichos

32
32
38
49
53
53

54
56

57
59
61
156

diseos experimentales propiamente

4. Diseo de grupo de control pretest-postest


Controles de validez interna
Factores que atentan contra la validez externa
Tests de significacin para el diseo 4
5. Diseo de cuatro grupos de Saloman
Pruebas estadsticas para el diseo 5
6. Diseo de grupo de control con postest nicamente
Aspectos estadsticos del diseo 6
Diseos factoriales
Interaccin
Clasificaciones inclusivas

68

Modelos finitos, aleatorios, fijos y mixtos


Otras dimensiones de extensin
Aplicacin de tests en busca de efectos mediatos
Generalizacin a otras X: Variabilidad en la ejecucin de X
Generalizacin a otras X: Refinamiento secuencial de
X y grupos de control noveles
Generalizacin a otras O

70

5. Diseos cuasiexperimentales

71

118

Algunos comentarios preliminares sobre la teora de


la experimentacin
7. Experimento de series cronolgicas
Tests de significacin para el diseo de serie cronolgica
8. Diseo de muestras cronolgicas equivalentes
Tests de significacin para el diseo 8
9. Diseo de materiales equivalentes
Estadsticas del diseo 9
10. Diseo de grupo de control no equivalente
11. Diseos compensados
12. Diseo de muestra separada pretest-postest
13. Diseo de muestra separada pretest-postest con
grupo de control
14. Diseo de series cronolgicas mltiples
15. Diseo de ciclo institucional recurrente: un diseo de retazan>
16. Anlisis de discontinuidad en la regresi11

123

6. Diseos correlacionales y ex post facto

123
127

Correlacin y causacin
El pretest relrospectivo
Estudios en panel

66
68

76
84

86
89
90
93
93

99
103
107
108
110

128

157

Biblioteca de sociologa

129
131
134

Diseo en panel con dos tandas (inaceptable)


El cuadro de diecisis partes de Lazarsfeld
Anlisis ex post Jacto

138

7. Comentarios finales

140
153

Referencias bibliogrMicas
Indice onomstico

Michde Abbate, Libertad sociedad de masas


Ha:yward R, Alher, El uso
la matemtica en el anlisis poltico
Picrrc 11nsart, El nacimiento del anarquismo
Pi erre Ansart, Las sociologas contemporneas
Dw:id E. Apter, Estudio de la modernizacin
l'eter Bachrach, Crtica de la teora elitista de la democracia
Brian l'J. Barry, I)s socilogos, los economistas y la democracia
Rcinhard Bendix, Max Weber
Reinhard Bendix, Estado nacional y ciudadana
Oliver Benson, El laboratorio de ciencia poltica
Pe ter L Berger, comp., Marxismo y sociologa. Perspectivas desde Europa
oriental

Pcter L. Berger y Thomas Luchmann, La construccin social de la realidad


Norman Birnbaum, La crisis de la sociedad industrial
Hubert M. Blaloch, Introduccin a la investigacin social
Thm Bottomore y Robert Nisbet, comps., Historia del anlisis sociolgico
Seueryn T Bruyn, La perspectiva humana en sociologa
Walter Buchle:y, La sociologa y la teora moderna de los sistemas
Donald T Campbell y Julian C. S tan ley, Diseos experimentales y cuasi
experimentales en la investigacin social
Morris R. Cohen y Emest Nagel, Introduccin a la lgica y al mtodo cientfico, 2 vols.
Lewis A. Coser, Nuevos aportes a la teora del conflicto social
lrfichel Crozier, El fenmeno burocrtico, 2 vols.
1'rfichel Crozer, La sociedad bloqueada
David Easton, Esquema para el anlisis poltico
David Easton, comp., Enfoques sobre teora poltica
S. N. Eisenstadt, Modernizacin. Movimientos de protesta y cambio social
Raymond Firth, Elementos de antropologa social
Robert W. Friedrichs, Sociologa de la sociologa
Joseph Gabel, Sociologa de la alienacin
Anthony Giddens, Las nuevas reglas del mtodo sociolgico
Anthony Giddens, La constitucin de la sociedad
Eruing Goffman, Estigma. La identidad deteriorada
Eruing Goffman, Internados. Ensayos sobre la situacin social de los enfermos mentales
Erving Goffman, La presentacin de la persona en la vida cotidiana
A1uin W. Gouldner, La crisis de la sociologa occidental
Daniel Gurin y Emest ,t[andel, La concentracin econmica en Estados
Unidos

158

También podría gustarte