Está en la página 1de 84

RESUMEN DE MÉTODOS DE INVESTIGACIÓN

CUANTITATIVA

Encuesta.
Experimento.

ARTURO GUZMÁN ARREDONDO

Victoria de Durango, Dgo., 2015

0
TABLA DE CONTENIDO

Presentación 2

Encuesta 3

Babbie, E. (1988). Métodos de investigación por encuesta (J. J. Ultrilla, Trad.).

México: Fondo de Cultura Económica.

Experimento 48

Campbell, D. y Stanley, J. (1973). Diseños experimentales y cuasiexperimentales

en la investigación social (M. Kitaigorodzki, Trad.). Buenos Aires:

Amorrortu editores.

1
PRESENTACIÓN

La investigación educativa, de acuerdo con la naturaleza de los objetos de estudio

que aborda, puede desarrollarse desde alguno de tres enfoques: cuantitativo, cualitativo y

de métodos mixtos.

En el enfoque cuantitativo, los métodos de investigación que se han utilizado en el

estudio de procesos y fenómenos educativos son la encuesta y el experimento. Algunos

autores incluyen la medición como un método adicional, aunque se desarrolla bajo el

mismo proceso que la encuesta.

Este documento presenta un resumen de los métodos de investigación: encuesta y

experimento. De cada uno de estos métodos se ha seleccionado un texto monográfico, a

partir de la identificación de los autores y títulos más reconocidos en los libros de

metodología de la investigación en ciencias sociales en general y en educación en

particular.

La pretensión es que la lectura de estos resúmenes permita a un investigador

educativo en formación (estudiantes de posgrado) identificar los elementos comunes de

los métodos de investigación cuantitativa y las particularidades de cada uno de éstos, así

como ubicar sus objetos de estudio en el método más adecuado. Una vez que se ha

identificado el método, se sugiere abordar la lectura del libro en su totalidad y

complementar la argumentación de la elección del método en los aportes de otros

autores reconocidos.

2
Encuesta Resumen: Dr. Arturo Guzmán Arredondo (2015)

ENCUESTA

Babbie, E. (1988). Métodos de investigación por encuesta (J. J. Ultrilla, Trad.). México:
Fondo de Cultura Económica.

Primera Parte
EL CONTEXTO CIENTÍFICO DE LA INVESTIGACIÓN POR ENCUESTA

INTRODUCCIÓN

Este libro se centra en un método de investigación en particular –la investigación


por medio de encuestas– que emplea técnicas específicas, peculiares a ese método en
particular.

I. LA LÓGICA DE LA CIENCIA

El hombre de ciencia identifica todos los fenómenos pertinentes a su objeto de


estudio. Sobre la base del conocimiento que ya existe, podrá interrelacionar aquellos
fenómenos, formando toda una red de relaciones causales. De este modo, desarrolla una
teoría, un conjunto de proposiciones lógicas interrelacionadas que explican la naturaleza
del fenómeno que está estudiando.
Las teorías son, por su naturaleza misma, abstractas y generales. Las hipótesis,
aunque más específicas, también son típicamente un tanto abstractas. Por ello, las
hipótesis deben ser convertidas en términos definidos.

La ciencia en la práctica
Mientras que la perspectiva tradicional indica que los científicos parten
directamente de un interés en cierto fenómeno hacia la derivación de una teoría, en

3
Encuesta Resumen: Dr. Arturo Guzmán Arredondo (2015)

realidad esto ocurre pocas veces o nunca. Las teorías son el resultado final de una larga
cadena de actividades deductivas y empíricas; el crear teorías implica una interesante
interacción de deducción y observación.

¿Qué es la ciencia?
En su base, toda ciencia tiende a una comprensión del mundo que nos rodea. Hay
tres componentes principales de esta actividad: descripción, descubrimiento de
regularidad, y formulación de teorías y leyes.
La ciencia es, fundamentalmente, una actividad racional, y las explicaciones
científicas deben tener sentido. Hay dos importantes sistemas lógicos distintos para la
búsqueda científica: lógica deductiva y lógica inductiva. En la inducción, partimos de los
datos observados y desarrollamos una generalización que explica las relaciones existentes
entre los objetos observados; en el razonamiento deductivo partimos de alguna ley
general y la aplicamos a un razonamiento particular.
En la práctica, la investigación científica incluye razonamiento inductivo y
deductivo, y el científico va y viene interminablemente entre la teoría y las observaciones
empíricas.
Los científicos no conocen ni pretenden conocer las causas específicas de todos los
hechos; sencillamente, presuponen que tales causas existen y que es posible descubrirlas.
La ciencia acepta la causación múltiple: un hecho dado puede tener varias causas.
La ciencia tiende a un entendimiento general y no a la explicación de hechos en
particular. La generalización es característica importante de los descubrimientos
científicos.
La ciencia es parsimoniosa. De manera general, el científico intenta comprender las
razones de los hechos utilizando la menor cantidad posible de factores explicativos.
La ciencia es empíricamente verificable: las leyes o ecuaciones generales no son
útiles a menos que se les pueda verificar mediante la recabación y manipulación de datos
empíricos.

4
Encuesta Resumen: Dr. Arturo Guzmán Arredondo (2015)

La ciencia es intersubjetiva. Con frecuencia se asegura que la ciencia es “objetiva”,


pero semejante afirmación resulta, típicamente, en una gran confusión sobre qué es
“objetividad”. Todos los científicos son en cierta medida “subjetivos”: influidos por sus
motivaciones personales.
Al decir que la ciencia es “intersubjetiva”, quiero decir que dos científicos con
orientaciones con orientaciones subjetivas distintas llegarían a la misma conclusión si cada
quien efectuara el mismo experimento.
La ciencia está abierta a modificaciones. Incontables teorías “científicas” del
pasado fueron después refutadas y reemplazadas por otras mejores. Las teorías actuales
con el tiempo serán reemplazadas. No se deben juzgar las teorías científicas por su
relativo valor de verdad, sino por la medida en que son útiles para comprender al mundo
que nos rodea.

II. LA CIENCIA Y LA CIENCIA SOCIAL

Uno de los más animados debates académicos de años recientes se han referido a
la condición “científica” de aquellas disciplinas reunidas bajo el rubro de ciencias sociales,
que en general incluye sociología, ciencia política, psicología y, a veces, campos como
geografía, historia, comunicaciones y otros campos mixtos y especialidades. Básicamente,
se discutía si la conducta humana se puede someter a un estudio “científico”.
Como los científicos físicos, los científicos sociales tratan de descubrir la regularidad y el
orden. Los científicos sociales buscan la regularidad en la conducta social, y lo hacen
mediante minuciosa observación y medición, el descubrimiento de relaciones y la
formulación de modelos y teorías.

La ciencia busca regularidades


El primer bloque de construcción de la ciencia es la medición o la observación
sistemática. El comportamiento social agregado puede medirse sistemáticamente. Es
posible medir las actitudes.

5
Encuesta Resumen: Dr. Arturo Guzmán Arredondo (2015)

Debe reconocerse que todas estas mediciones (en realidad todas las mediciones
son arbitrarias en la base. Sin embargo, esto no es exclusivo de la ciencia social. A la
postre, todas las mediciones científicas deben juzgarse sobre la base de su utilidad para la
investigación, y no sobre la base de su verdad absoluta. La apertura de toda ciencia exige
el cambio continuo.
La acusación de que muchos descubrimientos de los sociólogos son triviales o ya
conocidos ha llevado a muchos científicos sociales a buscar unos descubrimientos
esotéricos u oscuros, para probar que la ciencia social no es simple sentido común
presuntuoso. Esto es inapropiado, desde muchos puntos de vista. Existen tantas
contradicciones en el vasto cuerpo del “sentido común”, que es esencial desarraigar
sistemáticamente las concepciones erróneas existentes. Aun cuando una proposición no
sea refutada por los legos, es necesario someterla a prueba empírica.
“Documentar lo obvio” es función valiosa de cada ciencia, física o social. Ésta no es
crítica legítima de ninguna empresa científica.
Las regularidades sociales representan patrones probabilísticos y una relación
general entre dos variables no tiene que ser cierta en 100% de los casos observables.
La acusación de que las regularidades sociales observadas podrían alterarse
mediante la voluntad consciente de los actores no representa un desafío suficiente a las
ciencias sociales. Esto no ocurre con frecuencia suficiente para amenazar de manera seria
la observación de las regularidades sociales.
Cuando, con el tiempo, las normas sociales cambian, el científico social puede
observar y explicar estos cambios. A la postre, las regularidades sociales persisten porque
tienden a tener sentido para los actores que participan en ellas.
Los científicos sociales aún no han creado teorías del comportamiento social que
puedan compararse a las teorías desarrolladas por los científicos físicos.

Las características de la ciencia social


La ciencia social es lógica. Las ciencias sociales aspiran al entendimiento racional
del comportamiento social. Esto no es decir, sin embargo, que todo comportamiento

6
Encuesta Resumen: Dr. Arturo Guzmán Arredondo (2015)

social es racional. Algún comportamiento social es irracional, alguno es no‐racional; pero


el científico social debe ser relativamente racional al comprender todas las formas de
comportamiento. Tanto la lógica deductiva como la inductiva son apropiadas para la
ciencia social.
La ciencia social es determinista. Los científicos sociales, como los científicos
físicos, presuponen que los hechos ocurren por razones, que las cosas no “simplemente
ocurren”. Cada hecho o situación tiene antecedentes determinantes.
La ciencia social es general. La ciencia social tiende a las observaciones y la
comprensión de pautas generales de los hechos y correlaciones. La utilidad de una teoría
social o una correlación social aumenta por su generalización.
Aunque el científico social a menudo empieza con un intento por explicar una
gama bastante más limitada del comportamiento social, o el comportamiento de un
subconjunto limitado de la población, su objetivo es, normalmente, extender el poder
explicativo de sus descubrimientos a otras formas de comportamiento y otros
subconjuntos de la población.
La ciencia social es parsimoniosa. El científico social trata de obtener el mayor
poder explicativo del número más pequeño de variables.
El carácter económico de la ciencia social, así como su actitud determinista, la
expone a la crítica de quienes sostienen una visión más humanista. Mientras que el
humanista tendería a explorar la profundidad de los factores idiosincrásicos resultantes en
una decisión o acción de parte de un actor social determinado, el científico social intenta
conscientemente limitar tal investigación.
El científico social tiene una meta que difiere, considerablemente de la del
humanista. Conscientemente él está intentando obtener el mayor entendimiento posible
del menor número de variables. Ni el científico ni el humanista en un caso semejante
tienen más razón que el otro; tan sólo tienen metas distintas.
La ciencia social es empíricamente verificable. Para ser útiles, las proposiciones y
teorías científicas deben poderse poner a prueba en el mundo real.

7
Encuesta Resumen: Dr. Arturo Guzmán Arredondo (2015)

La ciencia social es intersubjetiva. En la medida en que un determinado examen


científico social se ha descrito con detalle adecuadamente específico, cualquier otro
científico social –de cualquier orientación personal– debería poder duplicar el examen con
resultados similares.
La ciencia social está abierta a modificación. No es probable que ninguna teoría
social sobreviva indefinidamente.

Métodos de investigación científica social


Aunque este libro va dirigido específicamente a un solo método de investigación
social, será útil colocar ese método en el contexto de otros de que disponen los científicos
sociales:
a) El experimento controlado. En muchos aspectos, representa el ejemplo más
claro de investigación científica.
b) El análisis de contenido. Algunos temas pueden prestarse al examen
sistemático de documentos: novelas, poemas, publicaciones del gobierno,
canciones, etc.
c) Análisis de datos existentes. Algunos temas de investigación se pueden
examinar mediante un análisis de datos ya recabados y compilados.
d) El estudio de casos. Representa una descripción y explicación completa de los
muchos componentes de una situación social determinada. Este método difiere
radicalmente de los otros hasta aquí considerados: va dirigido inicialmente al
entendimiento general de un solo caso idiosincrásico.
e) La observación participante. El investigador trata de convertirse en miembro
del hecho o grupo social que va a estudiar.

8
Encuesta Resumen: Dr. Arturo Guzmán Arredondo (2015)

III. LA INVESTIGACIÓN POR ENCUESTA COMO MÉTODO DE LA CIENCIA SOCIAL

Las encuestas se parecen mucho a los censos, y difieren básicamente en que una
encuesta casi siempre examina una muestra de la población, mientras que el censo
generalmente implica una enumeración de toda la población.
En su mayor parte la investigación contemporánea mediante encuestas es
producto de investigadores norteamericanos: a) la continuada labor de la Oficina del
Censo de los Estados Unidos; b) las actividades de empresas comerciales de encuestas; y
c) los esfuerzos de universidades, académicos como Stouffer y Lazarsfeld, y asociaciones
profesionales.

Las características científicas de la investigación por encuestas


La investigación por encuestas ofrece el mejor ejemplo para enseñar e instruir en
la metodología de las ciencias sociales.
La investigación por encuestas es lógica. Se guía por todas las limitaciones lógicas
analizadas en los dos capítulos anteriores.
La investigación por encuestas es determinista. Cada vez que el investigador por
encuestas trata de explicar las razones y las fuentes de hechos observados, sus
características y correlaciones, debe adoptar una actitud determinista (causa y efecto).
La investigación por encuestas es general. Las encuestas de muestreo casi nunca se
efectúan con el propósito de describir la muestra particular que se está estudiando, sino
con el propósito de comprender la población más general de la cual se tomó la muestra.
La investigación por encuestas es económica. Puesto que el formato de encuesta
se presta a recabar muchas variables que se pueden cuantificar y procesar mediante una
máquina, el analista de encuestas puede construir una variedad de modelos explicativos y
luego seleccionar el más apropiado para sus fines.
Las otras características de la ciencia son igualmente pertinentes en el contexto de
la investigación por encuestas.

9
Encuesta Resumen: Dr. Arturo Guzmán Arredondo (2015)

¿Es realmente científica la investigación por encuestas?


Los investigadores futuros recordarán alguna vez nuestra época y concluirán que el
empleo de la investigación por encuestas entre los sociólogos y otros científicos sociales
constituyó un periodo crítico en el desarrollo de la ciencia en general.
El medio educativo es casi ideal para la investigación por encuestas: los sujetos
potenciales saben expresarse y están familiarizados con cuestionarios, es fácil
enumerarlos y muestrearlos, y se pueden aplicar los cuestionarios en condiciones
controladas en el aula.

Segunda Parte
DISEÑO DE INVESTIGACIÓN POR ENCUESTAS

INTRODUCCIÓN

Es un error suponer que el diseño del estudio es menos difícil que el análisis o que
requiere menos brillantez o ingenio.

IV. TIPOS DE DISEÑOS DE ESTUDIO

Aunque el término “investigación por encuestas” se refiere a un tipo particular de


investigación social empírica, existen muchos tipos de encuestas: censos de población,
encuestas de opinión pública, investigación de mercados sobre preferencias del
consumidor, estudios académicos de prejuicios, estudios epidemiológicos, entre otros.

Propósitos de la investigación por encuestas


a) Descripción. A menudo se realizan encuestas con el propósito de hacer
aseveraciones descriptivas acerca de alguna población. Además de describir la
muestra total (e inferir proyectando a la población total), el investigador a
menudo describe submuestras y las compara.

10
Encuesta Resumen: Dr. Arturo Guzmán Arredondo (2015)

b) Explicación. Muchas encuestas, además de describir, tienen el objetivo


adicional de hacer afirmaciones explicativas acerca de la población. Un objetivo
explicativo casi siempre requiere el análisis multivariado.
c) Exploración. Los métodos de encuesta también pueden ofrecer un recurso de
“investigación” cuando el investigador apenas está empezando su estudio de
un tema particular.
La mayor parte de los estudios tiene uno de estos tres objetivos (a veces, tiene los
tres), pero todos ellos nos ofrecen útiles principios de organización en el diseño de las
encuestas.

La unidad de análisis
Las cosas en estudio en una encuesta determinada son las “unidades de análisis”.
Característicamente, la unidad de análisis para una encuesta es una persona, pero no
hay razón por la que esto tenga que ser así; también pueden ser familias, ciudades,
estados, naciones, compañías, industrias, clubes, agencias gubernamentales, etc.
Una encuesta puede incluir más de una unidad de análisis. Las unidades de análisis
para una encuesta dada pueden describirse sobre la base de sus componentes.

Diseños básicos de encuestas


a) Las encuestas de corte transversal. En una encuesta de corte transversal, los
datos se recaban en un punto en el tiempo.
b) Las encuestas longitudinales. Algunos diseños de encuesta permiten el análisis
sea descriptivo o explicativo) de los datos a lo largo del tiempo. Se recaban
datos en diferentes momentos, y el investigador puede informar de los
cambios en las descripciones y las explicaciones:
a. Estudios de tendencias. Se pueden hacer muestreo y estudio en una
población general determinada en diferentes puntos del tiempo.
aunque en cada encuesta se analizan diferentes personas, cada muestra
representa la misma población pero en diferentes momentos. Los

11
Encuesta Resumen: Dr. Arturo Guzmán Arredondo (2015)

estudios de tendencias a menudo abarcan un periodo bastante largo de


recabación de datos. En general, el investigador no colecta
personalmente todos los datos utilizados en un estudio de tendencias,
sino que efectúa un análisis secundario de los datos recabados con el
tiempo por varios otros investigadores. Los estudios de tendencias se
basan en descripciones de una población general (como los votantes de
un país) a lo largo del tiempo, aunque los miembros de tal población
cambien. Las personas vivas y representadas en el primer estudio
pueden haber muerto al efectuarse el segundo, y personas que aún no
nacían cuando se realizó el primer estudio, pueden estar vivas y
representadas en el segundo.
b. Estudios de cohortes. Un estudio de cohorte enfoca la misma población
específica cada vez que se recaban datos, aunque puedan ser distintas
las muestras estudiadas. Como ejemplo, podemos seleccionar una
muestra de estudiantes que se graduaron de la universidad del Estado
en la generación de 1970, para determinar sus actitudes hacia el
trabajo. Cinco años después podemos seleccionar y estudiar otra
muestra, tomada de la misma generación.
c. Estudios de panel. Los estudios de panel incluyen la recabación de
datos, a lo largo del tiempo, entre la misma muestra de interrogados. La
muestra para tal estudio se llama el panel. Mientras que los estudios de
tendencias y de cohorte pueden efectuarse por medio de un análisis
secundario de datos previamente recabados, esto no puede hacerse
con los estudios de panel. Los estudios de panel se efectúan poco
frecuentemente en la investigación de encuestas.
c) Encuestas longitudinales de aproximación. La encuesta contraseccional es el
diseño más frecuentemente empleado. Sin embargo, muchas de las preguntas
que un investigador quisiera contestar incluyen cierta ideas del cambio en el
tiempo. Hay algunos recursos que pueden emplearse en la encuesta

12
Encuesta Resumen: Dr. Arturo Guzmán Arredondo (2015)

contraseccional para aproximarse al estudio del proceso o el cambio. Puede


pedirse a los informantes que proporcionen información pasada. Sin embargo,
cuanto más atrás se vean obligados los informantes a hurgar en sus recuerdos,
menos probable es que la información sea precisa. Los datos de corte
transversal pueden interpretarse, a veces, en términos lógicos para indicar un
proceso a lo largo del tiempo.

Variaciones sobre diseños básicos


a) Muestras paralelas. Un investigador de la educación tal vez desee muestrear
las actitudes de los estudiantes hacia un propuesto código de conducta
estudiantil. Al mismo tiempo, tal vez se interese en saber qué opinan acerca del
código los miembros del profesorado y quizá los administradores de las
universidades.
b) Estudios contextuales. Cuando se reúnen datos acerca de algunas partes del
medio o ambiente de una persona y se les aprovecha para describir al
individuo, esto se llama un estudio contextual: un examen del contexto.
c) Estudios sociométricos. Característicamente, las encuestas estudian una
muestra de una población determinada, recabando datos acerca de los
individuos de la muestra con propósitos de describir y explicar la población que
representan. Sin embargo, el formato básico de la encuesta puede utilizarse
para hacer un examen más generalizado de un grupo dado, observando las
interrelaciones entre los miembros de tal grupo. Un diseño sociométrico sería
buen ejemplo de esto.

V. LA LÓGICA DEL MUESTREO DE ENCUESTA

La mayoría de los lectores podrán dar dos razones para hacer el muestreo: tiempo
y costos. Tal vez esto no sea reconocido generalmente, pero las encuestas de muestras a

13
Encuesta Resumen: Dr. Arturo Guzmán Arredondo (2015)

menudo son más precisas que lo que ocurriría en un censo total. Pese a esto, muchos
lectores tienen ciertas reservas acerca del muestreo.
Las encuestas de muestras pueden ser sumamente precisas. Al mismo tiempo,
debemos reconocer que a menudo no lo son.
Es útil distinguir dos tipos importantes de métodos de muestreo, el muestreo
probabilístico y el muestreo no probabilístico. Actualmente, el método más respetado y
útil es el probabilístico.

La lógica del muestreo probabilístico


a) Las implicaciones de homogeneidad y heterogeneidad. Si todos los miembros
de una población fueran idénticos en todos los aspectos, no habría necesidad
de seguir los minuciosos procedimientos de muestreo. En tal caso, cualquier
muestra bastaría. El muestreo probabilístico nos ofrece un método eficiente
para seleccionar una muestra que refleje adecuadamente la variación existente
en la población.
b) Representatividad y probabilidad de selección. Las muestras de encuestas
deben representar las poblaciones de las que se les ha tomado.
Comprendamos que no necesitan ser representativas en todos los aspectos; la
representatividad, si tiene algún significado con respecto al muestreo, queda
limitada a aquellas características que son pertinentes a los intereses
sustantivos del estudio. Un principio fundamental del muestreo probabilístico:
una muestra será representativa de la población de la que se ha seleccionado si
todos los miembros de la población tienen igual probabilidad de ser
seleccionados en la muestra. La teoría de la probabilidad permite al
investigador estimar la precisión o representatividad de su muestra.

14
Encuesta Resumen: Dr. Arturo Guzmán Arredondo (2015)

Conceptos y terminologías del muestreo


a) Elemento. Es aquella unidad acerca de la cual se recaba información y que
aporta la base del análisis en la investigación de encuestas, los elementos son
casi siempre personas o ciertos grupos de personas.
b) Universo. Es la agregación teórica o hipotética de todos los elementos
definidos para una encuesta en particular. Sin embargo, un universo de
encuesta no está plenamente especificado en cuanto el tiempo y el lugar y es,
esencialmente, un término inútil.
c) Población. Es la agregación teóricamente especificada de los elementos de la
encuesta.
d) La población de la encuesta. Es aquella agregación de elementos de los cuales
se seleccionó realmente la muestra de la encuesta.
e) La unidad de muestreo. Es el elemento o conjunto de elementos considerados
para su selección en alguna etapa del muestreo. En una muestra sencilla, de
una sola fase, las unidades de muestreo son lo mismo que los elementos.
f) Marco muestral. Es la lista de unidades de muestreo de las cuales se selecciona
la muestra, o alguna etapa de la muestra. En un diseño de muestra de una sola
fase el marco muestral es una lista de elementos que comprende la población
de la encuesta. En la práctica, los marcos muestrales existentes definen a
menudo la población de la encuesta, y no a la inversa.
g) La unidad de observación. Denominada también unidad de recabación de
datos, es un elemento o agregación de elementos entre los que se recaba la
información. La unidad de análisis y la unidad de observación a menudo son la
misma −la persona individual− pero esto no tiene que ser así necesariamente.
El investigador puede entrevistar a los jefes de familia (las unidades de
observación) para obtener información acerca de cada miembro de la familia
(las unidades de análisis).
h) Variable. Es un conjunto de características mutuamente excluyentes, como
sexo, edad, empleo, etc. Los elementos de una población determinada pueden

15
Encuesta Resumen: Dr. Arturo Guzmán Arredondo (2015)

describirse por sus características individuales con respecto a una variable


determinada. Por definición, una variable debe poseer variación.
i) Parámetro. Es la descripción sumaria de una variable determinada en una
población.
j) Estadística. Es la descripción sumaria de una variable determinada en una
muestra de encuestas. Se emplean estadísticas de muestra para hacer
estimaciones de los parámetros de una población.
k) Error de muestreo. Grado de error que puede esperarse de un determinado
diseño de muestra.
l) Niveles de confianza e intervalos de confianza. El cálculo del error de muestreo
permite al investigador expresar la precisión de las estadísticas de su muestra
en función del nivel de confianza necesario para que la estadística se encuentre
dentro de un intervalo específico alrededor del parámetro.

La teoría del muestreo probabilístico y la distribución de muestreo

La teoría de muestreo probabilístico


La selección aleatoria es la clave de este proceso. Cada elemento tiene igual
oportunidad de selección. El encuestador utiliza tablas de números al azar o programas de
computadora que ofrecen una selección aleatoria de las unidades de muestreo. El método
de selección aleatoria sirve para vigilar todo sesgo consciente o inconsciente por parte del
investigador.

Distribución de muestreo binomial


Para analizar el concepto de distribución del muestreo, utilizaremos un ejemplo de
encuesta sencilla. Supongamos que deseamos estudiar la población estudiantil de una
universidad para determinar la aprobación o desaprobación de un código de conducta
estudiantil propuesto por la administración. La población de la muestra será la totalidad
de estudiantes contenida en una lista de inscripción: el marco muestral. Los elementos

16
Encuesta Resumen: Dr. Arturo Guzmán Arredondo (2015)

serán los estudiantes individuales en la universidad. La variable serán las actitudes hacia el
código, una variable binomial: aprobación y desaprobación. Seleccionamos una muestra
aleatoria de 100 estudiantes y encontramos 48 estudiantes que aprueban el código y 52
que lo desaprueban.
Ahora, supongamos que en otra muestra de 100 estudiantes, 51 aprueban el
código; y en una tercera muestra 52 estudiantes lo aprueban.
La regla fundamental del muestreo aleatorio es que las muestras tomadas de una
población ofrecen estimaciones del parámetro que pertenece a la población total.
Si se seleccionan muchas muestras aleatorias independientes entre una población,
las estadísticas muestrales que nos ofrecen esas muestras serán distribuidas en torno al
parámetro de la población de una manera conocida. Aunque veamos que existe un vasto
intervalo de estimaciones, hay más de ellas en la vecindad de 50 por ciento. Por
consiguiente, la teoría de las probabilidades nos dice que el verdadero valor está en la
vecindad del 50 por ciento.
La teoría de las probabilidades nos ofrece una fórmula para estimar qué tan
cercanamente se encuentran aglomeradas las estadísticas de muestra en torno al valor de
verdad. Esta fórmula contiene tres factores: el parámetro, el tamaño de la muestra y el
error estándar (medida del error del muestreo).

Fórmula PQ/n
Símbolos: P, Q: Los parámetros de la población para la binomial: si 60% del cuerpo estudiantil
aprueba el código y 40% lo desaprueba, P y Q son 60% y 40%, o 0.6 y 0.4. Obsérvese que Q = 1 − P
y P = 1 − Q.
n: Número de casos en cada muestra.
S: El error estándar.

Supongamos que el parámetro de población en el ejemplo de la encuesta es de


50% que aprueban y 50% que desaprueban. Recuérdese que hemos estado seleccionando
muestras de 100 cada una. Cuando se ponen estos números en la fórmula, vemos que el
error estándar equivale a .05 o 5%.

17
Encuesta Resumen: Dr. Arturo Guzmán Arredondo (2015)

En la teoría de las probabilidades, el error estándar es un dato valioso, pues indica


en qué medida las estimaciones de la muestra serán distribuidas en torno del parámetro
de población. Específicamente, la teoría de las probabilidades indica que ciertas
proporciones de las estimaciones de la muestra caerán dentro de incrementos
especificados de errores estándar a partir del parámetro de población. Aproximadamente
34% de las estimaciones de la muestra caerá dentro de un error estándar por encima del
parámetro de población, y otro 34% caerá dentro de un error estándar por debajo del
parámetro. En nuestro ejemplo, el error estándar de cinco por ciento, por lo que sabemos
que 34% de nuestras muestras darán estimaciones de aprobación estudiantil entre 50%
(parámetro) y 55% (por encima de un error estándar); otro 34% de las muestras dará
estimaciones entre 50% y 45% (un error estándar por debajo del parámetro). En conjunto,
sabemos que aproximadamente dos tercios (68%) de las muestras darán estimaciones
dentro de 5% más o menos del parámetro.
Además, la teoría de las probabilidades dice que cerca de 95% de las muestras
caerán dentro de dos errores estándar, más o menos, del valor verdadero, y 99.9% de las
muestras caerán dentro de tres errores estándar, más o menos. En nuestro ejemplo,
sabemos que sólo una muestra entre mil dará una estimación inferior a 35% de
aprobación o superior a 65%.
La proporción de las muestras que caen dentro de uno, dos o tres errores estándar
del parámetro son constantes para todo procedimiento de muestreo aleatorio, siempre
que se haya seleccionado un gran número de muestras.
Por lo general, el investigador que utiliza encuestas no conoce el parámetro, pero
efectúa una encuesta en una muestra para estimar ese valor. Además,
característicamente no selecciona un gran número de muestras, sino, tan sólo, una
muestra. No obstante, la teoría de las probabilidades nos ofrece las bases para hacer
inferencias acerca de la típica situación de encuesta.
Mientras que la teoría de las probabilidades especifica que el 68% de las muestras
caerán dentro de un error estándar del parámetro, el muestrista de encuestas infiere que
una muestra aleatoria determinada tiene una probabilidad de 68% de caer dentro de ese

18
Encuesta Resumen: Dr. Arturo Guzmán Arredondo (2015)

intervalo. A este respecto hablamos de niveles de confianza; el investigador afirma con un


“68% de confianza” que su estimación muestral se encuentra dentro de un error estándar
a partir del parámetro. O puede decir que afirma con un “68% de confianza” que la
estadística de la muestra se encuentra dentro de los errores estándar del parámetro, y así
en lo sucesivo. Muy razonablemente, su confianza aumenta conforme se extiende el
margen de error. Está virtualmente seguro (99.9% de confianza) de que se encuentra
dentro de tres errores estándar del valor verdadero.
Aunque pueda afirmar con cierto valor de confianza que está dentro de un
determinado intervalo alrededor del parámetro, ya hemos observado que rara vez se sabe
cuál es el parámetro. Para resolver este dilema, el muestrista de la encuesta sustituye el
parámetro de su fórmula por la estimación de la muestra; desconociendo el verdadero
valor, lo sustituye por la mejor conjetura posible.

Las poblaciones y los marcos muestrales


Los descubrimientos de la encuesta sólo podrán considerarse representativos de
los miembros que aparecen en la lista del marco muestral. Para hacer generalizaciones
acerca de la población que forma el marco muestral, es necesario que todos los elementos
estén igualmente representados en el marco.

Tipos de diseño de muestra


a) Muestreo irrestricto aleatorio. Es el método básico de muestreo que se
presupone en los cálculos estadísticos por encuestas. Puede utilizarse una tabla
de números aleatorios en la selección de elementos para la muestra.
b) Muestreo sistemático. Cada enésimo elemento de la lista total se elige
(sistemáticamente) para incluirlo en la muestra. El investigador selecciona el
primer elemento al azar. A esto se le llama técnicamente “muestra sistemática
con un arranque aleatorio”. Dos términos se emplean frecuentemente en este
muestreo: el intervalo de muestreo, que es la distancia estándar entre los

19
Encuesta Resumen: Dr. Arturo Guzmán Arredondo (2015)

elementos seleccionados en la muestra; y la fracción de muestreo, que es la


proporción de elementos de la población que se seleccionan.
c) Muestreo estratificado. Es un método para obtener un mayor grado de
representatividad: reducir el probable error de muestreo. En lugar de
seleccionar la muestra entre la población total, el investigador se asegura de
que números apropiados de elementos sean tomados de subconjuntos
homogéneos de tal población. La elección de las variables de estratificación
depende característicamente de las variables de que se dispone. Al seleccionar
las variables de estratificación entre aquellas de que se dispone, el investigador
debe preocuparse principalmente por las que supuestamente están
relacionadas con variables que él desee representar con precisión.
d) La estratificación implícita en el muestreo sistemático. En ciertas condiciones,
el muestreo sistemático puede ser más preciso que el muestreo irrestricto.
Esto ocurre cada vez que la disposición de la lista es tal que crea una
estratificación implícita. En una lista de universitarios dispuesta por clase, una
muestra sistemática aportará una estratificación por clase.
e) Muestreo polietápico de conglomerados. Requiere típicamente el muestreo
inicial de grupos de elementos conglomerados seguidos por la selección de
elementos dentro de cada uno de los conglomerados seleccionados. Puede
utilizarse cuando es imposible o impráctico compilar una lista completa de los
elementos que comprenden la población objetivo (por ejemplo, los miembros
de las iglesias de los Estados Unidos). El muestreo polietápico de
conglomerados incluye la repetición de dos pasos básicos: hacer listas y
muestreo. El lineamiento general para el diseño de conglomerados consiste en
maximizar el número de conglomerados seleccionados mientras se reduce el
número de elementos dentro de cada conglomerado. Este método implica casi
invariablemente una pérdida de precisión (se ve expuesto al error de muestreo
en cada una de las etapas).

20
Encuesta Resumen: Dr. Arturo Guzmán Arredondo (2015)

f) Estratificación de un muestreo polietápico de conglomerados. Una vez


agrupadas las unidades primarias de muestreo, de acuerdo con las variables de
estratificación pertinentes de que se disponga, podrán emplearse técnicas de
muestreo aleatorias o sistemáticas para seleccionar la muestra.
g) Muestreo de probabilidad proporcional al tamaño. En la primera etapa de
muestreo se da a cada conglomerado una probabilidad de selección
proporcional a su tamaño (en número de elementos). Los grandes
conglomerados tienen mayor oportunidad de ser seleccionados que los
pequeños. En cambio, en la segunda etapa de muestreo, se elige el mismo
número de elementos de cada conglomerado seleccionado.

Muestreo desproporcionado y ponderación


Donde todos los elementos de la muestra han tenido una igual oportunidad de
selección, a cada uno se le ha asignado la misma ponderación: 1 (esto es lo que se llama
una muestra “autoponderada”). El investigador puede muestrear unas subpoblaciones
desproporcionadas para asegurar números suficientes de cada una, para su análisis.

El muestreo no probabilístico
a) El muestreo de juicio o con un propósito. En ocasiones, puede ser apropiado
para el investigador seleccionar su muestra sobre la base de su propio
conocimiento de la población, de sus elementos y de la naturaleza de los
objetivos de su investigación.
b) El muestreo de cuota. Utiliza una matriz que describe las características de la
población que se estudia. Por ejemplo, la proporción de hombres y mujeres en
la población.
c) Dependencia de sujetos disponibles. Puede servir al propósito de preprueba de
un cuestionario.

21
Encuesta Resumen: Dr. Arturo Guzmán Arredondo (2015)

VI. EJEMPLOS DE DISEÑOS DE MUESTRA

En este capítulo se presentan cuatro estudios de casos de diseño de muestra,


representando diferentes situaciones y diseños.

VII. CONCEPTUALIZACIÓN Y DISEÑO DE INSTRUMENTO

La lógica de la conceptualización
Antes de dedicarse a su investigación empírica, los conceptos pueden sólo ser
ideas generales del investigador. Hay que especificar esos conceptos generales; se les
debe reducir a indicadores empíricos específicos. Los científicos nunca recaban datos:
crean datos. En sentido real, el investigador nunca puede hacer mediciones precisas, sino
tan sólo útiles.

Un marco de definición
En la ciencia, a menudo los conceptos toman la forma de variables: unen una
colección de atributos relacionados.
La mayor parte de los conceptos más interesantes de la ciencia representan
variables ordinales integradas por valores dispuestos a lo largo de una dimensión.
Definición es el proceso por el cual el investigador especifica observaciones
empíricas que pueden tomarse como indicadores de los atributos contenidos dentro de
un concepto determinado.
Como comienzo del proceso de definición, el investigador deberá empezar por
enumerar todas las diversas subdimensiones de la variable. Al hacerlo, deberá prestar
atención a investigaciones anteriores del tema, así como a los conceptos que de él se
tienen por sentido común.

22
Encuesta Resumen: Dr. Arturo Guzmán Arredondo (2015)

Tipos de datos
Con datos nos referimos a la información que el interrogado cree que representa la
verdad y que el investigador generalmente acepta como tal.
La investigación mediante encuestas no permite la medición directa de la
conducta, aunque la conducta es, con frecuencia, el referente último de la investigación
social. Sin embargo, la investigación mediante encuestas sí permite la medición indirecta
de la conducta, y a menudo en formas útiles.
Se puede pedir a los interrogados que hablen de su conducta pasada, pese a las
insuficiencias relacionadas con las dificultades de memoria y veracidad. La investigación
mediante encuesta también puede examinar la conducta prospectiva, sea real o
hipotética. Las medidas de comportamiento prospectivo son menos fidedignas que las
medidas de la conducta pasada, en casi todos los casos.

Niveles de medición
a) Mediciones nominales. Simplemente distinguen las categorías que
comprenden una variable determinada. Por ejemplo, el sexo es una variable
nominal comprendida en las categorías hombre y mujer.
b) Mediciones ordinales. Reflejan un orden de rango entre las categorías que
forman una variable. La clase social sería un ejemplo de variable ordinal. Las
mediciones ordinales se emplean mucho en la investigación de las ciencias
sociales. Aunque tales mediciones son representadas con frecuencia por
números en un índice o escala, estos números no tienen otro sentido que la
indicación del orden de rango. Una persona calificada con 5 en un índice de
enajenación estaba más enajenada que una persona calificada con 4 en tal
índice, pero esta medición ordinal no nos daría ninguna indicación de cuánto
más enajenada estaba la primera.
c) Mediciones de intervalo. También utilizan números para describir condiciones,
pero estos números tienen más significado que en el caso de las mediciones
ordinales: las distancias entre los grupos tienen un significado real. El ejemplo

23
Encuesta Resumen: Dr. Arturo Guzmán Arredondo (2015)

más común es la escala de temperatura Fahrenheit. La diferencia entre 89 y 90


grados es la misma diferencia que entre 60 y 70 grados.
d) Medición de razón. Tienen todas las mismas características de las mediciones
de intervalo, pero con la característica adicional de un verdadero cero. La edad,
la estatura, el peso y la permanencia en una ciudad son ejemplos de medición
de razón.

Guías para la construcción de preguntas


a) Preguntas y afirmaciones pueden utilizarse con provecho en la investigación
por encuestas.
b) Preguntas abiertas y cerradas. Las preguntas “cerradas” son muy populares en
la investigación mediante encuestas, ya que ofrecen una mayor uniformidad de
respuestas y porque es más fácil procesarlas. Siempre deben seguirse dos
lineamientos en la construcción de preguntas cerradas: las categorías de
respuesta deben ser exhaustivas, deben incluir todas las respuestas que
puedan esperarse; y deben ser mutuamente excluyentes, el interrogado no
debe sentirse obligado a seleccionar más de una.
c) Haga claras las preguntas e inequívocas las preguntas del cuestionario, evite la
confusión y la ambigüedad.
d) Evite las preguntas “de dos cañones”. Como regla general, cada vez que la
palabra “y” aparece en una pregunta o afirmación de cuestionario, el
investigador deberá revisar si no está haciendo una pregunta “de dos
cañones”.
e) El interrogado debe ser competente para responder.
f) Las preguntas deben ser pertinentes a la mayoría de los interrogados.
g) Las preguntas breves son las mejores.
h) Evite las preguntas negativas porque facilitan la mala interpretación.
i) Evite las preguntas y términos “tendenciosos” tanto negativa como
positivamente.

24
Encuesta Resumen: Dr. Arturo Guzmán Arredondo (2015)

El formato general del cuestionario


a) Formatos para respuestas. Los recuadros, debidamente espaciados, son lo
mejor. También pueden utilizarse los corchetes y los paréntesis.
b) Preguntas dependientes. Ciertas preguntas claramente son pertinentes sólo
para un subconjunto de los interrogados y dependen de la respuesta a otras
preguntas. El mejor formato es aquel en el que las preguntas dependientes
están dentro del cuestionario separadas en recuadros y conectadas con la
pregunta base por flechas.

Orden de las preguntas en el cuestionario


Habitualmente lo mejor es empezar el cuestionario con el conjunto de preguntas
más interesantes.

Instrucciones
Cada cuestionario deberá contener instrucciones y comentarios introductorios
bien claros, cuando sean apropiados.

Precodificación
Cada vez que se utilice la precodificación en un cuestionario autoaplicado, debe
mantenerse lo más discreta posible, pues de otro modo confundiría al interrogado.

Reproducción del cuestionario


Un instrumento reproducido limpiamente ayudará a obtener una tasa más alta de
respuestas, ofreciendo así mejores datos. El cuestionario de aspecto más profesional es el
folleto impreso, cosido al lado, pero también es el más costoso.

25
Encuesta Resumen: Dr. Arturo Guzmán Arredondo (2015)

VIII. RECABACIÓN DE DATOS I: CUESTIONARIOS AUTOAPLICADOS

Distribución por correo y devolución


a) El método básico para recabar datos mediante el correo ha sido la transmisión
de un cuestionario, acompañado por una carta de explicación y un sobre para
su devolución.
b) Un método alternativo. El cuestionario está hecho en tal forma que la dirección
de devolución a la oficina del investigador y la estampilla postal van impresas
en el cuestionario mismo.

Tasas de respuesta aceptables


En una encuesta por correo, yo considero que una tasa de respuesta de por lo
menos el 50% es adecuada para análisis e informes; una tasa de al menos el 60% es
buena; y una tasa de al menos el 70% es muy buena.

IX. RECABACIÓN DE DATOS II: LAS ENTREVISTAS

La importancia del entrevistador


Las encuestas con entrevista comúnmente alcanzan más altas tasas de respuesta
que las encuestas enviadas por correo. Una encuesta con entrevistas debidamente
diseñadas y ejecutadas debe alcanzar una tasa de al menos 80 a 85% de respuestas.
El entrevistados debe tener un papel neutral, su presencia no debe afectar la
percepción de una pregunta, por el interrogado, ni tampoco la respuesta dada.

Reglas generales para el entrevistador


a) Apariencia y modo de proceder. El entrevistador debe vestirse en forma
bastante similar a la de las personas que entrevistará. En sus modales, el
entrevistador deberá mostrarse cordial.

26
Encuesta Resumen: Dr. Arturo Guzmán Arredondo (2015)

b) Familiaridad con el cuestionario. El entrevistador deberá estudiarlo


cuidadosamente, pregunta tras pregunta, y practicar leerlo en voz alta.
c) Siga exactamente la redacción de las preguntas.
d) Registre las respuestas exactamente. El entrevistador puede agregar
comentarios en caso de una respuesta verbal ambigua.
e) En busca de respuestas. Con frecuencia es necesario provocar respuestas que
sean suficientemente informativas con propósitos analíticos. Sin embargo, en
todo caso, es imperativo que tales estímulos sean completamente neutrales.

X. EL PROCESAMIENTO DE DATOS

En este capítulo se presenta el procedimiento para procesar los datos mediante el


uso de tarjetas perforadas.

XI. PREPRUEBAS Y ESTUDIOS PILOTO

Cómo efectuar las prepruebas


Las prepruebas representan pruebas iniciales de uno o más aspectos del diseño de
investigación.
a) Preprobando el diseño de la muestra. Puede indicar, si el diseño es posible, dar
una evaluación de su dificultad y ofrecer una estimación aproximada del
tiempo y del costo necesarios.
b) Preprueba del instrumento de investigación. Preferiblemente, deberá hacerse
la Preprueba del instrumento en la misma forma como se hará en el estudio
final. Puede emplearse un formato abierto en la Preprueba para determinar las
categorías de respuesta apropiadas para lo que al final será una respuesta
cerrada; sin embargo, también es importante que se pongan a preprueba las
preguntas cerradas finales. El único lineamiento que recomiendo para la
selección de los sujetos es que deben ser razonablemente apropiados para las

27
Encuesta Resumen: Dr. Arturo Guzmán Arredondo (2015)

preguntas que están bajo consideración. Suele ser útil interrogar a los mismos
sujetos más de una vez al preprobar el instrumento.
c) Preprueba de la recabación de datos. El investigador deberá poner a prueba,
físicamente, los procedimientos para reunir y enviar los cuestionarios.
d) Preprueba del procesamiento de datos. El investigador deberá preprobar sus
operaciones de codificación y captura.
e) Prepruebas del análisis. El investigador deberá recorrer todos los pasos, desde
los datos en bruto hasta cualquier modo analítico que tenga en mente.

Conducción de estudios piloto


Es un recorrido miniaturizado de todo el estudio, desde el muestreo hasta el
informe.
a) Muestreo de estudio piloto. En contraste con una preprueba, el estudio piloto
deberá ir dirigido a una muestra representativa de la población en cuestión, sin
estudiar a los interrogados en la encuesta final.
b) Instrumento de investigación del estudio piloto. Deberá incluir la aplicación de
un instrumento idéntico al de la encuesta final; no debe ser un medio para
probar nuevas preguntas que no se han preprobado.
c) Recabación y procesamiento de los datos del estudio piloto. Debe representar
un recorrido en miniatura del diseño final de la encuesta.
d) Análisis de estudios piloto. Por extraño que parezca, la investigación organizada
deberá empezar por una redacción del informe escrito (provisional) que deberá
contener los argumentos lógicos del estudio, tablas en blanco o hipotéticas y
toda la redacción que enlace unas cosas con otras.

28
Encuesta Resumen: Dr. Arturo Guzmán Arredondo (2015)

Tercera Parte
ANÁLISIS DE LA INVESTIGACIÓN POR ENCUESTA

XII. LA LÓGICA DE LA MEDICIÓN Y LA ASOCIACIÓN

El meollo del análisis por encuestas se encuentra en dos objetivos gemelos:


descripción y explicación.

La imagen tradicional
La perspectiva tradicional del método científico se basa en un conjunto de pasos
seriales que, según se cree, los científicos siguen en su obra. Estos pasos pueden
resumirse de esta manera:
1. Construcción de teoría.
2. Derivación de hipótesis teóricas.
3. Definición de conceptos.
4. Recabación de datos empíricos.
5. Prueba empírica de las hipótesis.

Dos problemas básicos


La visión tradicional del método científico podrá persuadir a la mayoría de los
lectores de que la investigación científica es actividad relativamente rutinaria. Por
desgracia, la investigación no es tan fácil ni tan clara:
a) Los conceptos teóricos rara vez o nunca permiten definiciones inconfundibles.
b) Las asociaciones empíricas entre variables casi nunca son perfectas.

La intercambiabilidad de índices
Existen varios posibles indicadores para cualquier concepto. Aunque pueda haber
razones para creer que algunos de los posibles indicadores son mejores que otros, en
realidad son esencialmente intercambiables. El investigador usa todos los indicadores.

29
Encuesta Resumen: Dr. Arturo Guzmán Arredondo (2015)

Implicaciones
Medición y asociación están entrelazadas en forma importante. La manera
“apropiada” de medir una variable determinada depende notablemente de las variables
con que está asociada.

XIII. CONSTRUCCIÓN Y COMPRENSIÓN DE LOS CUADROS

El análisis univariado
Se refiere al examen de sólo una variable a la vez. El formato más básico para
presentar datos univariados sería el informe de todas las respuestas individuales.

Descripciones de subgrupo
A menudo, el investigador debe describir subconjuntos de su muestra de encuesta.
Más a menudo, el propósito de las descripciones de subgrupo es comparativo. Esta
comparación no es motivada por curiosidad ociosa; característicamente se basa en una
expectativa de que la variable de estratificación adoptará alguna forma de efecto causal
sobre la variable de descripción.

Análisis bivariado
El análisis bivariado explicativo es básicamente lo mismo que las descripciones de
subgrupo. En la explicación, el lector debe comprender la lógica de las variables
independientes y dependientes. La determinación de cuál de las dos variables es la
dependiente y cuál la independiente a veces es difícil y hasta arbitraria. Cada vez que haya
un claro orden temporal relacionado con las dos variables, aquella cuyos valores quedan
determinados antes en el tiempo siempre será la variable independiente, aquella cuyos
valores quedan determinados después en el tiempo será siembre la variable dependiente.

30
Encuesta Resumen: Dr. Arturo Guzmán Arredondo (2015)

En aquellas situaciones en que no es claro el orden cronológico de las variables, la


designación de variable independiente y de variable dependiente deberá hacerse y
presentarse sobre una base lógica.
a) Formación de cuadros. La muestra se divide en valores o categorías de la
variable independiente. Luego se describe cada uno de estos subgrupos en
función de los valores y categorías de la variable dependiente. Por último, se
interpreta el cuadro comparando los subgrupos de la variable independiente,
en función de un valor determinado de la variable dependiente.
b) Formatos de cuadro bivariado. Los cuadros deben tener encabezados o títulos.
Los valores o categorías de cada variable deberán estar claramente indicados.

XIV. CONSTRUCCIÓN DE ÍNDICES Y ESCALAS

Normalmente es imposible llegar a una medición absolutamente inequívoca y


totalmente aceptable de cualquier variable. No obstante, los investigadores no
abandonan el intento de crear medidas cada vez mejores y más útiles. La construcción de
índices y escalas como medidas acumulativas se utilizan muy frecuentemente en la
investigación social.

Índices contra escalas


Los términos “índice” y “escala” suelen usarse en forma imprecisa e intercambiable
en la bibliografía sobre investigación social. Escalas e índices son medidas típicamente
ordinales de las variables; se construyen de tal manera que cataloguen por orden a los
interrogados en una encuesta (u otras unidades de análisis), en función de variables
específicas. Tanto escalas como índices son medidas compuestas de variables.
Para los fines de este libro, distinguiremos índices y escalas por el modo en que se
asignan calificaciones a los interrogados. Un índice se construye mediante la simple
acumulación de las calificaciones asignadas a respuestas específicas a las preguntas
particulares que forman el índice. Una escala se construye mediante la asignación de

31
Encuesta Resumen: Dr. Arturo Guzmán Arredondo (2015)

calificaciones a pautas de respuesta entre los diferentes puntos que comprenden la


escala. Una escala difiere de un índice al aprovechar cualquier estructura de intensidad
que pueda existir entre las preguntas en particular.

Construcción de índices
a) Selección de puntos. Un índice se crea con el propósito de medir alguna
variable. La primera norma para seleccionar los puntos que se incluirán en el
índice es la validez evidente (o validez lógica). Un índice o una escala debe ser
unidimensional. El investigador debe recordar siempre los sutiles matices que
existen dentro de la dimensión general que él esté tratando de medir. Al
seleccionar puntos para incluirlos en un índice, el investigador también deberá
preocuparse por la cantidad de varianza que ofrezcan estos puntos.
b) Relaciones bivariadas entre los puntos. Si cada uno de los puntos da en realidad
una indicación de la variable −como lo sugiere la validez evidente−, entonces
los diversos puntos deberán estar relacionados empíricamente entre sí. Un
punto dado que no está relacionado con varios de los otros puntos
probablemente deberá ser descartado; al mismo tiempo, una relación muy
fuerte entre dos puntos es otra señal de peligro: si dos puntos están
perfectamente relacionados entre sí, entonces sólo uno de ellos será necesario
para incluirlo en el índice.
c) Relaciones multivariadas entre los puntos. El investigador deberá examinar las
relaciones simultáneas entre las diversas variables antes de combinarlas en un
solo índice. Para que un índice nos ofrezca gradaciones reveladoras será
esencial que cada punto añada algo a la evaluación de cada interrogado.
d) Calificación de índices. El investigador deberá decidir cuál es el intervalo
deseable de las calificaciones del índice. También, el investigador deberá
decidir si debe dar a cada punto una ponderación igual en el índice, o bien
asignarle diferentes ponderaciones (las ponderaciones iguales deben ser la
norma).

32
Encuesta Resumen: Dr. Arturo Guzmán Arredondo (2015)

e) Manejo de los datos faltantes. Si relativamente pocos interrogados dejaron


datos faltantes, el investigador podrá decidir excluirlos de la formación del
análisis del índice. El investigador puede tener motivos para tratar los datos
faltantes como una de las respuestas disponibles. El investigador podrá
decidirse por asignar una calificación intermedia a los datos faltantes. El
investigador podrá asignar calificaciones a sus índices proporcionalmente sobre
la base de las respuestas que un interrogado sí da.
f) La validación de los índices. Suponemos que el índice compuesto mide una
variable. El primer paso en la validación de un índice es una validación interna
llamada análisis de puntos, examinando en qué medida el índice compuesto
está relacionado con los demás puntos del cuestionario incluidos en el mismo
índice. Luego, se analiza si el índice predice otras indicaciones de la variable no
incluidas en el índice (validación externa).
g) La “escala” de Likert. El método de medición creado por Rensis Likert, llamado
la escala de Likert, representa un medio más sistemático y refinado para
construir índices. El término “escala de Likert” es inseparable de una
declaración al interrogado, en los cuestionarios, donde se le pide indicar si
“está absolutamente de acuerdo” hasta “en total desacuerdo”. Este método se
basa en la suposición de que una calificación general basada en respuestas a las
muchas preguntas que parecieran reflejar la variable, ofrece una medida
bastante razonable de la variable. La calificación uniforme de las categorías de
respuesta de los puntos de Likert presupone que cada punto tiene casi la
misma intensidad que el resto. Éste es el aspecto clave en que el método de
Likert difiere de la “escala” como se emplea el término en este libro.

Construcción de escalas
Lo que un índice tal vez no tome en cuenta es que no todas las indicaciones de una
variable tienen igual importancia. Las escalas ofrecen más seguridad de ordinalidad,

33
Encuesta Resumen: Dr. Arturo Guzmán Arredondo (2015)

incluyendo las estructuras entre los indicadores. Los diversos puntos que entran en una
medida compuesta pueden tener distintas intensidades en función de la variable:
a) La escala de la distancia social de Bogardus. Supongamos que el investigador se
interesa por saber en qué medida los interrogados estarían dispuestos a
asociarse con negros, desarrollando varias preguntas que indican distintos
grados de intensidad en esta variable (cinco preguntas: desde estar dispuesto a
permitir que vivan negros en su país hasta permitir que su hijo(a) se casara con
un(a) negro(a)). Las diferencias de intensidad sugieren una estructura entre las
distintas preguntas. Un solo número puede resumir con precisión cinco o seis
respuestas de encuesta sin pérdida de información.
b) Las escalas de Thurstone. Es un intento por crear un formato para generar
grupos de indicadores de una variable que tengan al menos una estructura
empírica entre ellos. Uno de los formatos básicos es el de los “intervalos que
aparecen con regularidad”. A un grupo de “jueces” se les presentan, tal vez,
cien puntos que, según se considera, son indicadores de una variable. Luego se
pide a cada juez que estime cuán poderoso es ese punto, como indicador de la
variable: asignándole calificaciones, digamos, de 1 a 13. Una vez que los jueces
han completado esta tarea, el investigador examina las calificaciones dadas a
cada punto por todos los jueces para determinar qué puntos produjeron mayor
acuerdo entre los jueces. Aquellos en que los jueces están en claro desacuerdo
serán rechazados como ambiguos. Entre los puntos que produjeron un acuerdo
general en la calificación, serán seleccionados uno o más para representar cada
calificación en la escala, del 1 al 13. Los puntos seleccionados así serán
incluidos entonces en un cuestionario de encuesta. Hoy, la escala de Thurstone
casi nunca se emplea, básicamente por el enorme gasto de energía necesario
para el “juicio” de los puntos. Varios jueces (tal vez 10 o 15) tendrían que
dedicar un tiempo considerable a cada uno de estos puntos, para calificar los
muchos puntos iniciales. La tarea podría requerir investigadores profesionales.

34
Encuesta Resumen: Dr. Arturo Guzmán Arredondo (2015)

c) La escala de Guttman. También se basa en el hecho (como las dos anteriores)


de que algunos puntos que se están considerando pueden resultar más “duros”
indicadores de la variable que otros. Una de las principales funciones de la
escala es una eficiente reducción de datos.

XV. EL MODELO DE ELABORACIÓN

El modelo de elaboración se utiliza para comprender la relación entre dos variables


mediante la introducción simultánea de variables adicionales.

El paradigma de elaboración
Para empezar, debemos saber si la variable de prueba es antecedente (anterior en
el tiempo) a las otras dos variables, o si interviene entre ellas, ya que éstas sugieren
diferentes relaciones lógicas en el modelo multivariado. Si está interviniendo la variable
de prueba, entonces se plantean las relaciones de la siguiente figura:

Variable independiente Variable de prueba Variable dependiente

Si la variable de prueba es anterior a las otras dos variables, independiente y


dependiente, se plantea una relación multivariada muy distinta.

Variable independiente

Variable de prueba
Variable dependiente

En esta segunda situación, la variable de prueba afecta a la vez a las variables


independiente y dependiente. Por causa de sus relaciones individuales con la variable de
prueba, las variables independiente y dependiente se encuentran relacionadas
empíricamente entre sí, pero no hay un vínculo causal entre ellas. Su relación empírica
solo es producto de sus relaciones coincidentes con la variable de prueba.

35
Encuesta Resumen: Dr. Arturo Guzmán Arredondo (2015)

a) Repetición. Cada vez que las relaciones parciales son esencialmente las mismas
que la relación original, se aplica el término “repetición” al resultado, sin
importar que la variable de prueba. Los investigadores emplean con frecuencia
el modelo de elaboración en forma un tanto rutinaria, con la esperanza de
repetir sus descubrimientos entre subconjuntos de la muestra.
b) Explicación. Es el término empleado para describir una relación espuria: una
relación original que es rechazada mediante la introducción de una variable de
prueba. Para esto se necesitan dos condiciones: la variable de prueba debe ser
anterior a las variables independiente y dependiente; y las relaciones parciales
deben ser cero o considerablemente menores a lo que se descubrió en el
original.
c) Interpretación. Es similar a la explicación, salvo por la colocación en el tiempo
de la variable de prueba y las implicaciones que se siguen de tal diferencia.
d) Especificación. A veces, el modelo de elaboración produce relaciones parciales
que difieren considerablemente entre sí. Por ejemplo, una relación parcial
puede parecerse mucho a la relación original de dos variables, en tanto que la
segunda relación parcial es cercana a cero. A esta situación se le llama
especificación en el paradigma de la elaboración. El investigador ha
especificado las condiciones en que ocurre la relación original. El término
“especificación” se emplea en el paradigma de elaboración, sin que importe si
la variable de prueba es antecedente o interviniente. En uno u otro caso, el
significado es el mismo. El investigador ha especificado las condiciones en que
se sostiene la relación original.
e) Refinamientos al paradigma. El paradigma básico presupone una relación inicial
entre dos variables; no obstante, puede ser útil, para un modelo más general,
diferenciar entre las relaciones positivas y negativas. Además, Rosenberg
sugiere la aplicación del modelo de elaboración a una relación original de cero;
con la posibilidad de que las relaciones aparezcan en las parciales. El paradigma
básico se enfoca a las relaciones parciales que son las mismas o más débiles

36
Encuesta Resumen: Dr. Arturo Guzmán Arredondo (2015)

que la relación original, pero no ofrece lineamientos para especificar lo que


constituye una diferencia considerable entre la original y las parciales. La
limitación del paradigma básico a las parciales que son las mismas o más
débiles que el original pasa por alto otras dos posibilidades: una relación parcial
puede ser más fuerte que la original; o, por el contrario, una relación parcial
puede ser lo inverso de la original.

Elaboración e hipótesis “ex post facto”


Cuando el investigador observa una relación empírica entre dos variables y luego
simplemente sugiere una razón de tal relación, esto a veces se llama hipotetizar ex post
facto. Ha generado una hipótesis que vincula dos variables después de que ya se conoce
su regulación.

XVI. LOS USOS APROPIADOS DE LAS ESTADÍSTICAS

La estadística descriptiva
a) La reducción de datos. La estadística descriptiva ofrece un método para reducir
grandes matrices de datos a resúmenes manejables, que permitan una fácil
comprensión e interpretación. Variables aisladas pueden resumirse por medio
de la estadística descriptiva, así como las asociaciones entre las variables.
Existen diversos métodos de resumir datos univariados: distribuciones de
frecuencia en números o porcentajes brutos, promedios como la media o el
modo, y medidas de dispersión como el intervalo, la desviación estándar, etc.
La primera meta de la estadística descriptiva univariada es la eficiencia: se
debe mantener la cantidad máxima de información en la forma sumaria más
sencilla.
b) Medidas de asociación. La asociación entre cualesquiera dos variables también
puede ser representada por una matriz de datos, producida por las
distribuciones conjuntas de frecuencia de las dos variables:

37
Encuesta Resumen: Dr. Arturo Guzmán Arredondo (2015)

a. Variables nominales. Si las dos variables consisten en datos nominales,


lambda (λ) sería una medida apropiada. Lambda sólo es una de las
varias medidas de asociación apropiadas para el análisis de dos
variables nominales.
b. Variables ordinales. Si las variables que se están relacionando son de
naturaleza ordinal, gamma (γ) sería una medida apropiada de la
asociación. Aun cuando los valores de lambda varían de cero a uno, los
valores de gamma varía de −1 a +1, representando la dirección además
de la magnitud de la asociación. Gamma sólo es una de varias medidas
de asociación apropiadas para las variables ordinales.
c. Variables de intervalo o proporción. Si las variables que se han asociado
son de naturaleza de intervalo o proporción, una medida de apropiada
de asociación sería la correlación de producto‐momento de Pearson (r).
d. Tipos mixtos de variables. A menudo, el investigador encontrará que su
interés se centra en la asociación entre dos variables que difieren en
tipo: una ordinal y una nominal. Una variedad estadística es apropiada a
estas distintas posibilidades.
e. Existen incontables ejemplos de mediciones estadísticas aplicadas a
datos que no satisfacen los requerimientos lógicos de las medidas. El
cómputo de la r de Pearson para datos ordinales tal vez sea el ejemplo
más típico. Es mi orientación personal aceptar y hasta fomentar el uso
de cualesquiera técnicas estadísticas que ayuden al investigador (y al
lector) a comprender el cuerpo de datos que se esté utilizando; sin
embargo, objeto enérgicamente la práctica de hacer inferencias
estadísticas sobre la base de tales cómputos.

38
Encuesta Resumen: Dr. Arturo Guzmán Arredondo (2015)

Las estadísticas inferenciales


Las encuestas de muestreo rara vez o nunca son conducidas con el único propósito
de describir la muestra particular de interrogados que se está estudiando. Las más de las
veces, el propósito último es hacer afirmaciones acerca de alguna población más general:
a) Inferencias univariadas. Si 50% de la muestra de una encuesta dice que pescó
un resfriado durante el año anterior, la mejor estimación que puede hacer el
investigador es que el 50% de la población tuviese un resfriado durante el año.
Si el investigador siguió un riguroso diseño de muestreo se encontraría en
posición de estimar el intervalo de error esperado cuando el descubrimiento de
la muestra se aplicara a la población.
b) Pruebas de significancia estadística. Las estadísticas “paramétricas” son
aquellas que hacen ciertas suposiciones acerca de los parámetros que
describen la población de la que se seleccionó la muestra. La base lógica de las
pruebas de significancia es la misma que la del muestreo. Dado un grado
especificado de asociación entre dos variables, las pruebas de significancia
representan la posibilidad de que semejante asociación pudiera deberse tan
sólo a un error de muestreo normal en el caso en que no hay asociación entre
las variables en la población. En cierto sentido, el investigador presupone que
no hay asociación en la población (llamada la hipótesis nula) y luego pregunta
si su asociación medida en la muestra podría deberse tan solo a un error de
muestreo. Si la asociación medida no puede atribuirse razonablemente a error
de muestreo, entonces se supondrá que existe una asociación entre las
variables de la población. La chi cuadrada es una prueba de significancia
frecuentemente utilizada. Yo tengo un prejuicio personal contra las pruebas de
significancia; mis principales reservas son:
a. Las pruebas de significancia hacen suposiciones de muestreo que
virtualmente nunca cumplen los diseños de encuesta reales.
b. Presuponen la ausencia de errores aparte del muestreo.

39
Encuesta Resumen: Dr. Arturo Guzmán Arredondo (2015)

c. En la práctica, con demasiada frecuencia se aplican a medidas de


asociación que se han computado violando las suposiciones hechas por
esas medidas (por ejemplo, correlaciones entre momento‐producto
computadas a partir de datos ordinales).

XVII. MODOS COMPLEJOS DE ANÁLISIS

Análisis de regresión
El análisis de regresión ofrece un método para determinar la función específica que
relaciona Y con X. El modelo de regresión puede verse con la mayor claridad en el caso de
una perfecta asociación lineal entre dos variables. La forma general de la ecuación de
regresión es Y = a + bX.
a) La regresión múltiple. Es posible extender el modelo de regresión lineal a más
de dos variables.
b) La regresión parcial. Es útil para establecer la relación entre dos variables
cuando se mantiene constante una tercera variable.
c) La relación curvilínea. En algunos casos el modelo de regresión curvilínea
puede ofrecernos un mejor entendimiento de las relaciones empíricas que
ningún modelo lineal.

El análisis de trayectoria
Se basa en el análisis de regresión pero puede ofrecernos un cuadro gráfico más
útil de las relaciones entre diversas variables de lo que proporcionan otros medios. Es un
modelo causal para comprender las relaciones entre variables.

El análisis de factores
Representa un enfoque distinto al análisis multivariado. Se emplea para describir
pautas entre las variaciones en los valores de diversas variables. Esto se logra

40
Encuesta Resumen: Dr. Arturo Guzmán Arredondo (2015)

esencialmente generando dimensiones artificiales (factores) que tienen una gran


correlación con varias de las variables reales y que son independientes entre sí.
El producto de un programa de análisis de factores se compone de columnas que
representan los diversos factores (dimensiones artificiales) generadas a partir de las
relaciones observadas entre cada variable y cada factor, llamados cargas de factor. Una
desventaja es que la generación de factores no asegura, de ninguna manera, que tengan
significado.

Análisis de espacio mínimo


Es distinto de los métodos antes presentados de análisis multivariado, y aunque es
relativamente nuevo, parece ofrecer considerable potencial para el entendimiento de los
datos de encuesta. Se basa en las correlaciones existentes entre las variables.

XVIII. EL INFORME DE UNA INVESTIGACIÓN POR ENCUESTA

Algunas consideraciones básicas


a) El público. Antes de redactar el informe, el investigador debe preguntarse
quiénes espera que lo lean.
b) Forma y longitud del informe. El investigador tal vez desee preparar una breve
nota de investigación para publicarla en una revista académica o técnica (de
una a cinco cuartillas a doble espacio), que deberá ser concisa y directa. A
menudo, los investigadores deben preparar informes para los patrocinadores
de su investigación; éstos pueden variar mucho en extensión. Los documentos
de trabajo o las monografías son otra forma de informar sobre las
investigaciones; también pueden variar mucho en longitud. Probablemente el
informe de investigación más gustado sea el artículo publicado en una revista
académica; la longitud varía, sin embargo como guía general diré que 25
páginas es una excelente medida. Un libro representa la forma más prestigiada
de informe de investigación.

41
Encuesta Resumen: Dr. Arturo Guzmán Arredondo (2015)

c) Objetivo del informe. Algunos informes pueden enfocar básicamente la


exploración de un tema de interés. La mayor parte de los estudios tiene un
propósito descriptivo, donde el investigador deberá distinguir
cuidadosamente, para el lector, las descripciones que sólo se aplican a la
muestra y las que pueden inferirse para la población. Muchos informes tienen
una meta explicativa: el investigador desea señalar las relaciones causales
existentes entre las variables. Por último, algunos informes de investigación
pueden tener por meta proponer una acción.

La organización del informe


a) Propósito y ojeada general.
b) Revisión de la bibliografía.
c) Diseño y ejecución del estudio.
d) Análisis e interpretación.
e) Resumen y conclusiones.

Cuarta Parte
LA INVESTIGACIÓN POR ENCUESTA EN LA PERSPECTIVA SOCIAL Y CIENTÍFICA

XIX. LA ÉTICA DE LA INVESTIGACIÓN POR ENCUESTA

La ciencia, en sí misma, es amoral. Sin embargo, los hombres de ciencia no son


amorales, ni tampoco lo son aquellos que puedan aprovechar los resultados de la
investigación científica. Por ello, la investigación científica puede ser efectuada y/o
aprovechada con propósitos morales o inmorales. Y desde luego, la moral de un hombre
es la inmoralidad de otro.
Es posible señalar un conjunto de normas éticas, más o menos convenidas, que se
relacionan con la ejecución de investigaciones.

42
Encuesta Resumen: Dr. Arturo Guzmán Arredondo (2015)

La participación voluntaria
La investigación por encuesta casi siempre representa una intrusión en las vidas de
otras personas. Nadie puede ser obligado a participar en una encuesta.

Ningún daño a los interrogados


La investigación por encuestas nunca debe causar daño a los interrogados que se
ofrecieron voluntariamente a cooperar con el investigador.

Anonimato y confidencialidad
El caso más claro respecto a la protección de los intereses y el bienestar de los
interrogados concierne a la protección de su identidad:
a) El anonimato. A un interrogado se le puede considerar anónimo cuando ni
siquiera el investigador puede identificar una respuesta dada por un
interrogado.
b) Confidencialidad. En una encuesta confidencial, el investigador puede
identificar las respuestas de una persona, pero ha prometido no hacerlo. Cada
vez que una encuesta sea confidencial, más que anónima, será responsabilidad
del investigador poner este hecho en claro ante los interrogados. El empleo del
término “anónimo” en el sentido de “confidencial” nunca se deberá tolerar.
c) La identidad inferida. Hasta en una encuesta verdaderamente anónima, a veces
es posible identificar a cierto interrogado. El investigador nunca deberá hacer
tales identificaciones, y deberá asegurarse de que sus colaboradores no lo
intenten. Además, nunca deberá poner informes agregados de tal manera que
permitan a los lectores hacer tales identificaciones.
d) Identificación oculta. Si una encuesta es confidencial, no anónima, habrá que
informar de ello a los interrogados. Todas las encuestas deberán ser, por lo
menos, confidenciales.

43
Encuesta Resumen: Dr. Arturo Guzmán Arredondo (2015)

Identificación del propósito y patrocinador


A menudo el investigador se enfrenta al dilema de que el conocimiento del
propósito y/o patrocinador de su encuesta pueda afectar las respuestas que reciba. El
investigador tiene la obligación de ser sincero con sus interrogados respecto al
patrocinador y a los auspicios del estudio. La franqueza con respecto al propósito es más
difícil; el investigador no podrá ser totalmente franco ante sus interrogados ya que no
puede prever por completo los usos que pueden darse a su encuesta. Y desde luego, una
declaración precisa de los propósitos básicos del estudio probablemente afectaría la
respuesta, más que la revelación del patrocinador. Parecen apropiados los lineamientos
siguientes:
a) El investigador no debe decir nada acerca del propósito del estudio que pueda
afectar la confiabilidad de las respuestas.
b) El investigador deberá decir a los interrogados todo lo que pueda acerca de los
propósitos, cuando tal información no afecte las respuestas.
c) La explicación del propósito deberá ser general, y no específica.
d) Nunca deberá ofrecer razones ficticias del estudio.

Análisis e informe
En cualquier encuesta rigurosa, el investigador debe estar más familiarizado con las
insuficiencias técnicas del estudio que nadie más, y puede dar a conocer estas
insuficiencias a sus lectores.
Se deberá informar de los descubrimientos negativos si tienen alguna relación con
el análisis que se está informando.
Si aparece una asociación inesperada entre variables, se deberá presentar como
inesperada.

44
Encuesta Resumen: Dr. Arturo Guzmán Arredondo (2015)

XX. LOS USOS DE LA INVESTIGACIÓN POR ENCUESTA

Tipos comunes de usos de encuestas


La investigación por encuestas la emplean los científicos sociales académicos, en la
búsqueda de conocimiento y comprensión. Otras encuestas tienen una orientación más
directamente práctica; por ejemplo, recabar y analizar datos de pertinencia política.
Muchas investigaciones por encuestas se realizan en relación con el mercado de los
productos.

Encuestas de propósitos múltiples


Una encuesta determinada puede servir a más de un propósito; por ejemplo,
obtener datos de política y examinar cuestiones teóricas más generales.

El empleo ético de los datos de encuesta


Un científico rara vez puede asegurar que los productos de la investigación sólo se
utilizarán con propósitos buenos y morales. A pesar de esto, deben ponerse los datos a
disposición de quien vaya a hacer un análisis secundario.

Guía para leer informes de encuestas


1. ¿Qué tema general desea examinar el investigador?
2. ¿Cuál fue el motivo para diseñar y ejecutar el estudio?
3. ¿Es el propósito principal del investigador la exploración, la descripción, la
explicación, o una combinación de todos ellos?
4. ¿Qué población general pretenden representar los descubrimientos?
5. ¿Cuál fue el marco de muestreo utilizado con propósito de seleccionar una
muestra para representar esa población?
6. ¿Cómo se seleccionó, en realidad, la muestra?
7. ¿Cuántos interrogados fueron seleccionados inicialmente en la muestra, y
cuántos participaron en realidad?

45
Encuesta Resumen: Dr. Arturo Guzmán Arredondo (2015)

8. ¿Hasta qué punto es probable que el error de muestreo afecte los resultados
de la encuesta?
9. ¿Cómo se recabaron los datos? ¿Fue el método de recabación de datos
apropiado para la población y el tema del estudio?
10. ¿Cuándo se hizo la recabación de datos, y cuánto tiempo duró?
11. ¿Cómo se midieron las variables específicas en el análisis? ¿Cómo se
redactaron las preguntas del cuestionario y/o cómo se combinaron las
respuestas en medidas compuestas de variables?
12. ¿Han sido validadas las medidas compuestas en tal forma que aseguren su
adecuada representación de las variables que se están considerando?
13. ¿Son apropiados los métodos de análisis empleados en el reporte, a la vez, al
tema y a la forma de los datos recabados?
14. ¿Cuán fuertes son las asociaciones descubiertas entre las variables? ¿Qué
significan asociaciones de tal fuerza para comprender el mundo real?
15. ¿Ha presentado adecuadamente el investigador la lógica de las asociaciones
descubiertas empíricamente? ¿Ha presentado razones creíbles para tales
asociaciones?
16. ¿Ha buscado adecuadamente el investigador otras explicaciones? ¿Sometió a
prueba el posible carácter espurio de las asociaciones?
17. ¿Sugieren las relaciones empíricas otros análisis que el investigador ha olvidado
hacer?
18. ¿Podría un lector independiente duplicar la encuesta sobre la base de la
información presentada en el informe?

46
Encuesta Resumen: Dr. Arturo Guzmán Arredondo (2015)

XXI. LA INVESTIGACIÓN POR ENCUESTA EN LA PERSPECTIVA SOCIAL Y CIENTÍFICA

La investigación por encuesta tiene gran potencial social, científico y educativo. La


difusión y el extenso uso del método, sin embargo, no significan que se haya realizado ese
potencial.
La investigación por encuestas alcanzará la excelencia científica en la medida en
que excelentes científicos la comprendan y utilicen. Servirá a útiles propósitos sociales en
la medida en que personas capacitadas para resolver problemas sociales comprendan
cómo emplearla eficazmente. Servirá como instrumento moral en la medida en que
personas morales sepan emplearla con prudencia.

47
Experimento Resumen: Dr. Arturo Guzmán Arredondo (2015)

EXPERIMENTO

Campbell, D. y Stanley, J. (1973). Diseños experimentales y cuasiexperimentales en la


investigación social (M. Kitaigorodzki, Trad.). Buenos Aires: Amorrortu editores.

1. INTRODUCCIÓN

Examinaremos en esta obra la validez de dieciséis diseños experimentales respecto


de doce amenazas corrientes a la inferencia válida. Por “experimento” entendemos
aquella parte de la investigación en la cual se manipulan ciertas variables y se observan
sus efectos sobre otras. Conviene aclarar que el propósito particular de este libro no es
estudiar el diseño experimental dentro de la tradición de Fisher (1925, 1935), donde el
experimentador, con pleno dominio de la situación, programa tratamientos y mediciones
a fin de lograr la mejor eficiencia estadística, único objetivo al que obedece la mayor o
menor complejidad del diseño. Los diseños aquí analizados son tanto más complejos
cuanto mayor es la inflexibilidad del ambiente; es decir, en la medida en que el
experimentador carece de control absoluto sobre la situación.

2. EL PROBLEMA Y SUS ANTECEDENTES

La desilusión provocada por los experimentos llevados a cabo en el campo de la


educación
En esta obra nos declaramos partidarios del método experimental como único
medio de zanjar las disputas relativas a la práctica educacional, única forma de verificar
adelantos en el campo pedagógico y como único método para acumular un saber al cual
puedan introducírsele mejoras sin correr el peligro de que se descarten caprichosamente
los conocimientos ya adquiridos a cambio de novedades de menor calidad.

48
Experimento Resumen: Dr. Arturo Guzmán Arredondo (2015)

En tiempos de Thorndike una ola de entusiasmo experimental recorría el ámbito


de la educación, alcanzando quizá su punto culminante en la década del veinte. Aquel
entusiasmo se convirtió después en apatía y rechazo, así como en la adopción de nuevas
doctrinas psicológicas no susceptibles de verificación experimental.
Para evitar que se repita este desencanto, debemos conocer los orígenes de la
reacción anterior, procurando sortear las falsas expectativas que condujeron a ella.
Merecen destacarse varios aspectos. Ante todo, se pretendió asignar a los resultados de la
experimentación un cierto ritmo y grado exagerado de progreso, a la par que se
menospreciaba injustificadamente el conocimiento no experimental. Cuando se demostró
que los experimentos eran a menudo tediosos, equívocos, de reiterabilidad insegura y
ratificadores, por lo común, de conocimientos precientíficos, los fundamentos
excesivamente optimistas con que se había querido justificar la experimentación
quedaron minados por la base, y al primitivo entusiasmo sucedió el desilusionado
abandono.
Para el investigador normal, muy motivado, el hecho de que una de las hipótesis
que sustenta no sea confirmada resulta por demás doloroso. Hay que inmunizar, pues, de
algún modo a los jóvenes investigadores contra ese resultado y, en general, justificar ante
ellos la experimentación sobre fundamentos más realistas: no como una panacea, pero sí
como el único camino hacia el progreso acumulativo.
Debemos ensanchar nuestra perspectiva temporal, y reconocer que la
experimentación continua y múltiple es más propia de la actividad científica que los
experimentos únicos y definitivos. Además, aun cuando reconocemos que la
experimentación es el lenguaje fundamental de la demostración y el único tribunal
decisivo para resolver los desacuerdos entre posibles teorías rivales, no es previsible que
los “experimentos cruciales” que contrapongan a las teorías opuestas vayan a producir
resultados claramente definitorios.
No cabe duda de que una capacitación más a fondo de los investigadores
educacionales en técnicas modernas de estadística experimental permitiría elevar la
calidad de la experimentación pedagógica.

49
Experimento Resumen: Dr. Arturo Guzmán Arredondo (2015)

Concepción evolutiva sobre la ciencia y la acumulación de conocimientos


No se contempla la experimentación en sí misma como fuente de ideas
necesariamente contradictorias con relación al saber tradicional, sino más bien como
mecanismo de refinación superpuesto a las acumulaciones probablemente valiosas de la
práctica sensata. Propugnar una ciencia experimental de la educación no implica repudiar
el saber tradicional.

Factores que atentan contra la validez tanto interna como externa


En los próximos capítulos de esta obra se describen doce factores que amenazan la
validez de varios diseños experimentales. Es fundamental a este respecto distinguir bien
entre validez interna y validez externa. Llamamos validez interna a la mínima
imprescindible, sin la cual es imposible interpretar el modelo: ¿Introducían, en realidad,
una diferencia los tratamientos empíricos en este caso experimental concreto? Por su
parte la validez externa plantea el interrogante de la posibilidad de generalización: ¿A qué
poblaciones, situaciones, variables de tratamiento y variables de medición puede
generalizarse este efecto?
Con relación a la validez interna, presentaremos ocho clases distintas de variables
externas que, de no controlárselas en el diseño experimental, podrían generar efectos que
se confundirían con el del estímulo experimental. Constituyen los efectos de:
1. Historia, los acontecimientos específicos ocurridos entre la primera y la
segunda medición, además de la variable experimental.
2. Maduración, procesos internos de los participantes, que operan como
resultado del mero paso del tiempo (no son peculiares de los acontecimientos
en cuestión), y que incluyen el aumento de la edad, el hambre, el cansancio y
similares.
3. Administración de tests, el influjo que la administración de un test ejerce sobre
los resultados de otro posterior.

50
Experimento Resumen: Dr. Arturo Guzmán Arredondo (2015)

4. Instrumentación, los cambios en los instrumentos de medición en los


observadores o calificadores participantes que pueden producir variaciones en
las mediciones que se obtengan.
5. Regresión estadística, opera allí donde se han seleccionado los grupos sobre la
base de sus puntajes extremos.
6. Sesgos resultantes en una selección diferencial de participantes para los grupos
de comparación.
7. Mortalidad experimental, o diferencia en la pérdida de participantes de los
grupos de comparación.
8. Interacción entre la selección y la maduración, etc., en algunos de los diseños
cuasiexperimentales de grupo múltiple se confunde con el efecto de la variable
experimental (es decir, que podría tomarse por él).
Los factores que amenazan la validez externa o representatividad, y que vamos a
analizar aquí, son:
9. El efecto reactivo o de interacción de las pruebas, cuando un pretest podría
aumentar o disminuir la sensibilidad o la calidad de la reacción del participante
a la variable experimental, haciendo que los resultados obtenidos para una
población con pretest no fueran representativos de los efectos de la variable
experimental para el conjunto sin pretest del cual se seleccionaron los
participantes experimentales.
10. Los efectos de interacción de los sesgos de selección y la variable experimental.
11. Efectos reactivos de los dispositivos experimentales, que impedirían hacer
extensivo el efecto de la variable experimental a las personas expuestas a ella
en una situación no experimental.
12. Interferencias de los tratamientos múltiples, que pueden producirse cuando se
apliquen tratamientos múltiples a los mismos participantes, pues suelen
persistir los efectos de tratamientos anteriores. Este es un problema particular
de los diseños de un solo grupo de tipo 8 ó 9.

51
Experimento Resumen: Dr. Arturo Guzmán Arredondo (2015)

En la presentación de los diseños experimentales se adoptarán un código y unos


símbolos gráficos uniformes. Una X representará la exposición del grupo a una variable o
acontecimiento experimental, cuyos efectos se han de medir; O hará referencia a algún
proceso particular de observación o medición; las X y O en una fila dada se aplican a las
mismas personas específicas. La dimensión representada de izquierda a derecha indica el
orden temporal, en tanto que las X y O dispuestas en forma vertical señalan la presencia
de simultaneidad. Para hacer ciertas distinciones importantes, como entre los diseños 2 y
6 o entre el 4 y el 10, hay que utilizar un símbolo R, que indica asignación aleatoria a
diferentes grupos de tratamiento. Esa aleatorización se concibe como un proceso que se
produce en un momento dado, y sirve para lograr, dentro de límites estadísticos
conocidos, la igualdad de los grupos antes del tratamiento. Agregaremos a ella otra
convención gráfica: las filas paralelas no separadas por línea de puntos significan grupos
de comparación no igualados por dicho procedimiento.

3. TRES DISEÑOS PREEXPERIMENTALES

1. Estudio de caso con una sola medición


Gran parte de las investigaciones actuales sobre educación se ajustan a un diseño
en el cual se estudia un solo grupo cada vez, después de someterlo a la acción de algún
agente o tratamiento que se presuma capaz de provocar un cambio. Estos estudios
podrían diagramarse de la siguiente forma:
X O
Tales estudios adolecen de tan absoluta falta de control que su valor científico es
casi nulo. Presentamos este diseño como punto mínimo de referencia. No obstante, a
causa de la continua inversión en esta clase de estudios y de la extracción de inferencias
causales de ellos, será imprescindible formular alguno que otro comentario. El proceso de
comparación, de registro de diferencias o de contrastes es fundamental para la
comprobación científica. La obtención de datos científicos implica, por lo menos, una

52
Experimento Resumen: Dr. Arturo Guzmán Arredondo (2015)

comparación, cuya utilidad depende de que las partes integrantes se estructuren con el
mismo cuidado e idéntica precisión.
Parece hasta casi falto de ética el aceptar hoy, como tesis de doctorado en el
ámbito educacional, estudios de casos de esa índole (es decir, que implican un solo grupo
observado una sola vez).

2. Diseño pretest‐postest de un solo grupo


Si bien este diseño continúa siendo de gran aplicación en la investigación
educacional, y se lo considera tan superior al diseño 1 que se lo utiliza allí donde no cabe
hacer nada mejor, lo presentamos aquí como un “mal ejemplo” para ilustrar algunas de
las variables externas entremezcladas que pueden atentar contra la validez interna. Esas
variables ofrecen hipótesis aceptables que explican una diferencia O1 ‐ O2, opuesta a la
hipótesis de que X causó la diferencia:
O1 X O2
La primera de estas hipótesis rivales no controladas es la historia. Entre O1 y O2
pueden haber ocurrido muchos otros acontecimientos capaces de determinar cambios,
además de la X sugerida por el experimentador. Si el pretest (O1) y el postest (O2) se
administraron en días distintos, los acontecimientos intermedios pueden haber causado la
diferencia. Para convertirse en una hipótesis rival aceptable, tal acontecimiento debería
haber afectado a la mayor parte de los estudiantes que integran el grupo examinado (p.
ej., en algún otro período lectivo o por medio de una noticia periodística muy difundida).
La historia se convierte en una explicación rival más aceptable del cambio cuanto
más extenso es el lapso entre O1 y O2, y podría considerarse un detalle trivial en un
experimento realizado dentro del breve lapso de una o dos horas si bien aun en tal caso
deben investigarse fuentes externa como las risas, las distracciones, etc. La variable
historia se relaciona con la característica de aislamiento experimental, que en muchos
laboratorios de física suele conseguirse con tanta aproximación que el diseño 2 resulta
aceptable a propósito de la mayor parte de sus investigaciones. Pero en el estudio de

53
Experimento Resumen: Dr. Arturo Guzmán Arredondo (2015)

métodos de enseñanza casi nunca se puede suponer un aislamiento experimental tan


completo.
Una segunda variable o categoría de variables rivales recibe el nombre de
maduración. Tal como lo entendemos aquí este término abarca todos aquellos procesos
biológicos o psicológicos que varían de manera sistemática con el correr del tiempo e
independientemente de determinados acontecimientos externos. Así, es probable que
entre O1 y O2 los estudiantes hayan aumentado de edad, apetito, fatiga, aburrimiento,
etc., y acaso la diferencia obtenida refleje ese cambio y no el de X.
Una tercera explicación rival entremezclada es el efecto de la realización de
pruebas, el efecto del pretest mismo. En pruebas de rendimiento e inteligencia, los
estudiantes a quienes se somete a ellas por segunda vez, o a una de sus variantes, etc.,
suelen desempeñarse mejor que los que las encaran por vez primera. En las pruebas de
personalidad se advierte un resultado similar. En cuanto a las actitudes hacia grupos
minoritarios, una segunda prueba suele indicar un mayor prejuicio.
Desde hace mucho tiempo ha sido una verdad manifiesta en las ciencias sociales
que el proceso mismo de medición puede hacer cambiar aquello que se mide.
La instrumentación o “deterioro de los instrumentos” es el término con que se
designa una cuarta hipótesis rival no controlada. Esa expresión se refiere a las variaciones
autónomas en el instrumento de medición que podrían ser la causa de una diferencia O1 −
O2.
Una quinta variable entremezclada en algunos casos del diseño 2 es la regresión
estadística. Por ejemplo, si en una prueba correctiva se seleccionan alumnos para un
experimento especial porque han tenido puntajes particularmente bajos en el test de
rendimiento escolar (que para ellos se convierte en convierte en O1), en una prueba
posterior en que se adopte la misma forma de antes u otra similar a ella, casi con
seguridad O2 tendrá para ese grupo un promedio más elevado que O1. Este resultado
confiable no se deberá a ningún efecto genuino de X, a ningún efecto de la práctica de test
y retest, etc. Es más bien un aspecto tautológico de la correlación imperfecta entre O1 y
O2.

54
Experimento Resumen: Dr. Arturo Guzmán Arredondo (2015)

Los efectos de la regresión son acompañamientos inevitables de la correlación


imperfecta de test‐retest para grupos seleccionados por su ubicación extrema.

3. Comparación con un grupo estático


El tercer diseño preexperimental necesario para nuestra exposición de los factores
de invalidación es la comparación con un grupo estático. Es un diseño en el cual un grupo
que ha experimentado X se compara con otro que no lo ha hecho, a fin de establecer el
efecto de X.
X O1
O2
Ejemplos de esta clase de investigación son: la comparación de sistemas escolares
que requieren que los maestros tengan título universitario (la X) con otros que no exigen
esa condición; la comparación de alumnos de cursos que reciben instrucción en lectura
veloz con otros que no la reciben; la comparación entre quienes presenciaron
determinado programa de televisión y los que no lo hicieron, etc. En marcado contraste
con el experimento del diseño 6 “propiamente dicho”, que veremos más adelante, no hay
en estos casos del diseño 3 ningún medio explícito que permita asegurar que los grupos
habrían sido equivalentes de no ser por la X. La ausencia de un medio tal, indicada en el
diagrama por las líneas punteadas que separan ambos grupos, señala el próximo factor
que requiere control: la selección. Si hay diferencias entre O1 y O2, ello bien puede
deberse al reclutamiento diferencial de las personas que componen los grupos: estos
podrían haber diferido aun sin la presencia de X.
Una última variable entremezclada que, por ende, debe incluirse en esta lista es la
llamada mortalidad experimental, o producción de diferencias O1 − O2 en grupos, al
retirarse en mayor o menor número personas pertenecientes a ellos.

55
Experimento Resumen: Dr. Arturo Guzmán Arredondo (2015)

Cuadro 1. Fuentes de invalidación para los diseños 1 a 6.


Fuentes de invalidación
Interna Externa

Interacción de selección y maduración, etc.

Interacción de administración de tests y X

Interferencia de X múltiples
Interacción de selección y X
No. Diseños

Administración de tests

Dispositivos reactivos
Instrumentación
Maduración

Mortalidad
Regresión

Selección
Historia

Diseños preexperimentales
Estudio de caso con una sola
1. medición − − − − −
X O
Diseño pretest‐postest de un
2. solo grupo − − − − ? + + − − − ?
O X O
Comparación con un grupo
estático
3. + ? + + + − − − −
X O
O
Diseños experimentales propiamente dichos
Diseño de grupo de control
pretest‐postest
4. + + + + + + + + − ? ?
R O X O
R O O
Diseño de cuatro grupos de
Solomon
R O X O
5. + + + + + + + + + ? ?
R O O
R X O
R O
Diseño de grupo de control con
postest únicamente
6. + + + + + + + + + ? ?
R X O
R O
Nota: En los cuadros, el signo negativo indica que hay imperfección definida; el positivo, que el factor está controlado; el
interrogativo, la presencia de una posible causa de preocupación, y por último, el espacio en blanco significa que el
factor no es pertinente.

56
Experimento Resumen: Dr. Arturo Guzmán Arredondo (2015)

4. TRES DISEÑOS EXPERIMENTALES PROPIAMENTE DICHOS

Los tres diseños fundamentales que vamos a exponer en este capítulo son los
recomendados en la actualidad por la literatura metodológica. Son también, como se verá,
los más recomendados por nosotros, aun cuando tal respaldo esté sujeto a muchas
restricciones concretas en cuanto a la práctica habitual, y dé lugar a que aparezcan
algunos signos negativos en el cuadro 1 bajo el título Validez externa. El diseño 4 es el más
empleado de los tres; por eso, nos permitiremos la libertad de explayarnos mucho más en
su análisis, haciendo de él el centro de convergencia de otras consideraciones, cuya
aplicación es más general. Obsérvese que los tres diseños se presentan en forma de
comparaciones diversas de una sola X con ninguna X.
Comparar X con no X es un exceso de simplificación. En realidad la comparación se
establece con las actividades específicas desplegadas por el grupo de control durante el
período en que el grupo experimental recibe la X.

4. Diseño de grupo de control pretest‐postest

Controles de validez interna


Los diseños con grupos de control se clasifican en esta sección bajo dos
encabezamientos: el presente diseño 4, en el que se emplean grupos equivalentes
logrados por aleatorización, y el diseño 10 cuasiexperimental, en el que se utilizan grupos
intactos de comparación ya existentes, de equivalencia no asegurada. El diseño 4 adopta
la forma
R O1 X O2
R O3 O4
Como el diseño controla en forma tan nítida las siete hipótesis descritas, las
presentaciones que de él se han hecho no han establecido en forma explícita las
necesidades de control que satisfacía. Creemos conveniente analizar brevemente aquí la
forma en que se controlan esos factores, así como las condiciones en que se lo hace.

57
Experimento Resumen: Dr. Arturo Guzmán Arredondo (2015)

La historia se controla en la medida en que los acontecimientos históricos


generales que podrían haber producido una diferencia del tipo O1 − O2 causarían también
una diferencia del tipo O3 − O4.
El diseño 4 requiere que las sesiones experimentales y de control sean
simultáneas. Si realizamos sesiones verdaderamente simultáneas, tienen que emplearse
distintos experimentadores, y las diferencias entre ellos acaso se conviertan en una forma
de historia intrasesional que se confunda con X. La solución óptima es una aleatorización
de las sesiones experimentales, aplicando las restricciones requeridas para lograr una
representación equilibrada de fuentes de sesgo tan probables como son los
experimentadores, la hora, el día de la semana, la parte del semestre, la proximidad de los
exámenes, etc.
La maduración y la administración de tests están controladas en el sentido de que
su manifestación en los grupos experimentales y de control debería ser igual.
La regresión se controla, en lo que a las diferencias de medias concierne y por muy
extremo que sea el grupo en los puntajes pretest, si tanto el grupo experimental como el
de control se asignan al azar, tomándolos de este mismo conjunto extremo.
Se elimina la selección como explicación de la diferencia en la medida en que la
aleatorización haya asegurado la igualdad grupal en el momento R, medida que queda
determinada por nuestra estadística de muestreo. Así, la garantía de igualdad es mayor
para grandes que para pequeñas cantidades de asignaciones aleatorias. Este supuesto
fallará en ocasiones en el grado sugerido por el término de error para la hipótesis de no
diferencia. En el diseño 4, ello significa que a veces habrá una aparente diferencia
“significativa” entre los puntajes pretest. Por lo tanto, aunque la aleatorización simple o
estratificada asegura la asignación no sesgada a los grupos de sujetos experimentales,
constituye un medio muy imperfecto para garantizar la equivalencia inicial de dichos
grupos. No obstante, es la única forma práctica de hacerlo. Lo decimos así, tan
categóricamente, a causa de una muy difundida y errónea predilección, evidenciada en la
investigación educacional durante los últimos treinta años, por la igualación mediante la
equiparación.

58
Experimento Resumen: Dr. Arturo Guzmán Arredondo (2015)

Los datos de que disponemos gracias al diseño 4 permiten establecer qué


mortalidad explica aceptablemente la ganancia O1 − O2. Mortalidad, casos perdidos y
casos para los cuales solo se dispone de datos parciales, son difíciles de manejar y por lo
común se los trata de disimular. La experimentación típica con métodos educativos se
prolonga durante días, semanas o meses. El modo preferido de tratamiento, aunque no de
utilización habitual, parece ser el empleo de todos los estudiantes seleccionados,
experimentales y de control, que completaron tanto el pretest como el postest.

Factores que atentan contra la validez externa


Las amenazas a la validez externa pueden considerarse efectos de interacción
entre X y alguna otra variable.
Examinaremos unas cuantas de esas amenazas a la posibilidad de generalización,
así como los procedimientos para sortearlas.
Interacción de las pruebas y X. En estudios del diseño experimental en sí, el peligro
que constituye el pretest para la validez externa fue denunciado por primera vez por
Solomon (1949). Al restringir la validez externa, el efecto del pretest sobre X depende,
naturalmente, del grado en que tales mediciones repetidas son características del
conjunto respecto del cual se quiere generalizar. En la investigación pedagógica nos
interesa generalizar respecto de una situación en que la administración de tests es una
práctica regular. Sobre todo si el experimento puede utilizar como O exámenes corrientes
tomados en las aulas, pero quizá también si las O experimentales son similares a las de
utilización habitual, no se produciría ninguna interacción indeseable entre la
administración de los tests y X.
Interacción entre la selección y X. Aun cuando el diseño 4 controla los efectos de
selección a fin de explicar las diferencias entre el grupo experimental y el de control,
continúa en pie la posibilidad de que los efectos válidamente demostrados solo se
verifiquen en aquella población aislada de la cual se extrajeron a la vez ambos grupos. Esta
posibilidad es tanto mayor cuanto más graves son nuestras dificultades de conseguir
sujetos para el experimento.

59
Experimento Resumen: Dr. Arturo Guzmán Arredondo (2015)

Es obvio que nunca vamos a realizar experimentos sobre muestras que


representen a todas las aulas de Estados Unidos o del mundo. Solo poco a poco
aprenderemos basta dónde se puede generalizar un descubrimiento internamente válido,
por medio de comprobaciones empíricas en ese sentido. Pero tales intentos de
generalización tendrán éxito más a menudo si en el experimento original se demuestra el
fenómeno en una amplia variedad de condiciones. En la investigación pedagógica nuestro
universo de interés está constituido por un público cautivo para el cual se pueden obtener
diseños 4 de elevada representatividad.
Dispositivos reactivos. En el experimento psicológico común, si no en la
investigación educativa, la obvia artificialidad de la situación experimental y la conciencia
del estudiante de que está participando en un experimento son causas más que
suficientes de carencia de representatividad. Cuando es imposible evitar tales dispositivos
reactivos, habría que continuar de cualquier manera con los experimentos de esa índole
que tengan validez interna, pero resulta obvia la conveniencia de evitarlos cuando ello sea
posible. En la mayor parte de la investigación de métodos educativos no hay necesidad de
que los estudiantes sepan que se está realizando un experimento (sería muy conveniente
que también los maestros lo ignorasen, pero por lo común esto suele ser imposible). La
experimentación dentro de las escuelas debe realizarse, siempre que sea posible, con el
personal regular de ella, en especial cuando los descubrimientos hayan de generalizarse a
otras situaciones escolares.
En estos momentos, parecen estar en boga dos tipos principales de
“experimentación” dentro de las escuelas: 1) estudios “impuestos” a la escuela por
alguien de fuera, que persigue sus propios intereses y cuyo objetivo no es que la escuela
emprenda una acción inmediata (o cambio), y 2) el llamado investigador “de acción”, que
procura que sean los maestros mismos quienes “experimenten”, tomado este término en
sentido muy amplio. En el primer caso los resultados pueden ser rigurosos pero no
aplicables. En el segundo, en cambio, quizá sean muy aplicables pero probablemente no
son “ciertos”, a causa de una gran falta de rigor en la investigación.

60
Experimento Resumen: Dr. Arturo Guzmán Arredondo (2015)

Otro modelo posible es que las ideas para la investigación escolar partan de los
maestros y directores, se elaboren los diseños para someterlas a prueba en cooperación
con especialistas en metodología de investigación y luego se encarguen de la mayor parte
de la experimentación los promotores de la idea. Los análisis estadísticos respectivos
podría realizarlos el investigador metodologista, y los resultados los volvería a introducir al
grupo un intermediario idóneo (supervisor, director de investigaciones del consejo
escolar, etc.) que hubiera servido en tal carácter durante todo el proceso. De esa manera
se lograrían resultados pertinentes y “correctos”.

Test de significación para el diseño 4


Una estadística errónea de uso común. Aunque el diseño 4 es el común y
frecuente, los tests de significación que con él se utilizan son a menudo erróneos,
incompletos o inapropiados. Al aplicar la “razón crítica” común o prueba t a ese diseño
experimental estándar, muchos investigadores han computado dos t: una para la
diferencia pretest‐postest en el grupo experimental y otra para la ganancia pretest‐
postest en el grupo de control. Si la primera resulta “estadísticamente significativa” y la
otra “no”, se llega a la conclusión de que X tuvo un efecto, sin ninguna comparación
estadística directa entre el grupo experimental y el de control.
Utilización de puntajes de ganancia y covariancia. La prueba aceptable de uso más
común consiste en computar para cada grupo puntajes de ganancia pretest‐postest y
calcular una t entre los grupos experimentales y de control sobre la base de esos puntajes.
Puesto que la mayor parte de los experimentos en educación no acusan diferencias
significativas, y por lo tanto no suelen informarse, el uso de este análisis más preciso
parece ser muy conveniente.
Aspectos estadísticos de la asignación aleatoria a tratamientos de cursos intactos.
La estadística habitual solo resulta apropiada en casos de asignación aleatoria de alumnos
individuales a los tratamientos. Si, en cambio, se asignaran cursos intactos, las fórmulas
precedentes darían un término de error demasiado pequeño, pues, como es natural, el
procedimiento de aleatorización habrá sido más “global” y se habrán utilizado menos

61
Experimento Resumen: Dr. Arturo Guzmán Arredondo (2015)

acontecimientos aleatorios. En esencia, se emplean las medias de la clase como


observaciones básicas, y se prueban los efectos del tratamiento contra variaciones en esas
medias. Un análisis de covariancia utilizaría como covariable medias pretest.
Aspectos estadísticos de la validez interna. Los principios estadísticos antes
analizados implican en su totalidad el muestreo en un universo infinitamente grande, más
apropiado para una encuesta de opinión pública que para el experimento habitual de
laboratorio. La aleatorización se aplica a una población finita muy reducida, que es en
realidad la suma de los grupos experimentales y de control.
Resulta, en general, obvio que el fin principal que se persigue con la aleatorización
en experimentos de laboratorio es la validez interna, no la externa.

5. Diseño de cuatro grupos de Solomon

Aunque el diseño 4 se usa más, el 5, denominado diseño de cuatro grupos de


Solomon (1949) tiene con razón un mayor prestigio y constituye la primera consideración
explícita de factores de validez externa. El diseño es el siguiente:
R O1 X O2
R O3 O4
R X O5
R O6
Trazando en forma paralela los elementos del diseño 4 (O1 a O4) con los grupos
experimental y de control sin pretest, cabe determinar tanto los efectos principales de la
realización de la prueba como la interacción entre ella y X. De ese modo, no solo se
aumenta la posibilidad de generalizar, sino que además se repite el efecto de X en cuatro
formas diferentes: O2 > O1, O2 > O4, O5 > O6 y O5 > O3. Las inestabilidades concretas de la
experimentación son tales que, si esas comparaciones concuerdan, el vigor de la
inferencia queda muy incrementado.

62
Experimento Resumen: Dr. Arturo Guzmán Arredondo (2015)

Pruebas estadísticas para el diseño 5


No hay ningún procedimiento estadístico particular que utilice a un mismo tiempo
los seis conjuntos de observaciones. Las asimetrías del diseño descartan el análisis de la
variancia de puntajes. Dejando de lado los pretests, salvo como un nuevo “tratamiento·
coordinado con X, se pueden estudiar los puntajes postest mediante un simple análisis 2 X
2 del diseño de variancia:
Sin X Con X
Con administración de pretest O4 O2
Sin administración de pretest O6 O5
Sobre la base de las medias de las columnas se estima el efecto principal de X; de
las medias de las filas, el efecto principal del pretest y de las medias de los casilleros, la
interacción entre la aplicación del test y X. Si los efectos principales e interactivos de la
aplicación de las pruebas son muy pequeños, acaso sea conveniente realizar un análisis de
covariancia de O4 contra O2, con los puntajes del pretest por covariable.

6. Diseño de grupo de control con postest únicamente


El pretest es un concepto muy arraigado en el pensamiento de los investigadores
en los campos de la educación y la psicología, pero en realidad no es imprescindible para
los diseños experimentales propiamente dichos. Dentro de los márgenes de confianza
establecidos por las pruebas de significación, la aleatorización puede ser suficiente, sin
necesidad de recurrir al pretest. En investigación pedagógica, sobre todo en los grados
primarios, tenemos que experimentar a menudo con métodos que permitan la
introducción inicial de elementos absolutamente nuevos, para los cuales son imposibles
los pretests en el sentido ordinario del término.
El diseño 6 responde a esa necesidad, y además es apropiado para todas las
situaciones en que podrían utilizarse los diseños 4 o 5, es decir, aquellas en que es posible
una verdadera aleatorización. Su forma es la siguiente:
R X O1
R O2

63
Experimento Resumen: Dr. Arturo Guzmán Arredondo (2015)

Si bien este diseño se utilizaba ya en la década de 1920, la mayoría de los textos


metodológicos no lo han recomendado. Ello se debió en parte a que se lo confundía con el
diseño 3, y también a la falta de confianza en la aleatorización como procedimiento de
igualación.
El diseño 5 es preferible al 6, pero las mayores ventajas del 5 quizá no justifiquen el
esfuerzo que demanda (más del doble). Asimismo, el diseño 6 es por lo común preferible
al 4, a menos que haya alguna duda a propósito de la autenticidad del proceso aleatorio
de asignación. El diseño 6 se usa muy poco en investigación educacional y psicológica.
Pero en el caso de repetición de pruebas, que se presenta con frecuencia en la
investigación educacional, si se dispone de antecedentes apropiados en materia de
variables, se los debería emplear para bloqueo o nivelación, o como covariables.

Aspectos estadísticos del diseño 6


El modo más sencillo sería la prueba t. El diseño 6 es quizá la única situación para la
cual esa prueba es óptima. Sin embargo, se pueden emplear el análisis de covariancia y el
bloqueo de “variables sujeto”, así como niveles anteriores de educación, puntajes en
tests, ocupación de los padres, etc., consiguiéndose así mayor poder del test de
significación, muy similar al que brinda un pretest. No es necesario que el pretest y el
postest sean idénticos. A menudo serán formas diferentes “del mismo” test y por lo tanto
menos idénticos que una repetición del pretest. La inclusión del diseño 6 bajo el título de
“Dispositivos reactivos” debería ser algo más positiva que respecto de los diseños 4 y 5. La
justificación de esta diferencia es, por cierto, mucho más válida para las ciencias sociales
en general que para la investigación sobre instrucción pedagógica.

Diseños factoriales
Sobre la base conceptual de los tres diseños anteriores, pero en particular el 4 y el
6, pueden ampliarse las complejas elaboraciones típicas de los diseños factoriales de
Fisher, agregando otros grupos con otras X. En un criterio típico de clasificación única o

64
Experimento Resumen: Dr. Arturo Guzmán Arredondo (2015)

análisis de la variancia “en un solo sentido”, tendríamos varios “niveles” del tratamiento,
por ejemplo, X1, X2, X3, etc., y quizá también un grupo X0 (ausencia de X).

5. DISEÑOS CUASIEXPERIMENTALES

Son muchas las situaciones sociales en que el investigador puede introducir algo
similar al diseño experimental en su programación de procedimientos para la recopilación
de datos (p. ej., el cuándo y el a quién de la medición), aunque carezca de control total
acerca de la programación de estímulos experimentales (el cuándo y el a quién de la
exposición y la capacidad de aleatorizarla), que permite realizar un auténtico
experimento. En general, tales situaciones pueden considerarse como diseños
cuasiexperimentales. Uno de los prop6sitos de esta obra es inducir a que se utilicen estos
cuasiexperimentos y se aumente el conocimiento de los tipos de situaciones en que se
dan oportunidades para su empleo. Pero precisamente porque se carece de control
experimental total, es imprescindible que el investigador tenga un conocimiento a fondo
de cuáles son las variables específicas que su diseño particular no controla. Por esa
necesidad de evaluar cuasiexperimentos, más que para satisfacer la de comprender los
experimentos propiamente dichos, se prepararon las listas de verificación de fuentes de
invalidación en los cuadros 1, 2 y 3.
Creemos que los diseños de investigación que estudiamos más adelante son lo
bastante indagatorios para merecer que se los utilice allí donde no se disponga de otros
medios de estudio más eficaces.

7. Experimento de senes cronológicas


El diseño de series cronológicas consiste, en lo esencial, en un proceso periódico de
medición sobre algún grupo o individuo y la introducción de una variación experimental.
En esa serie cronológica de mediciones, cuyos resultados se indican por medio de una
discontinuidad en las mediciones registradas en la serie. Se lo puede diagramar de la
manera siguiente:

65
Experimento Resumen: Dr. Arturo Guzmán Arredondo (2015)

O1 O2 O 3 O 4 X O 5 O 6 O 7 O 8
Este diseño experimental tipificó gran parte de la experimentación clásica del siglo
XIX en las ciencias físicas y biológicas. La figura 3 indica algunas posibles situaciones
resultantes en series cronológicas en las cuales se había introducido una alteración
experimental, según se indica por medio de la línea vertical X. Ofrecemos en el cuadro 2
un intento de lista de comprobación de los controles suministrados por este experimento
en las mencionadas condiciones óptimas de resultado. Las ventajas del diseño de series
cronológicas resultan muy evidentes en contraste con el diseño 2, con el que guarda una
similitud superficial, ya que carece de grupo de control y utiliza mediciones previas y
posteriores.
Observando en el cuadro 2 la lista de problemas de validez interna, vemos que la
imposibilidad de controlar la historia es el más grave inconveniente del diseño 7. Es decir
que existe la hipótesis rival de que no sea X sino otro acontecimiento más o menos
simultáneo el que provocó el desplazamiento. Si el experimento se complementara con un
cuidadoso registro de estímulos no experimentales de alguna relevancia, sería quizás
aceptable una interpretación por la cual se justificara llevarlo a cabo.
Continuemos con los factores que hay que controlar: la maduración parece quedar
eliminada sobre la base de que, si el resultado es como los de los ejemplos A y B de la
figura 3, ella no ofrece de ordinario hipótesis rivales aceptables para explicar algún
desplazamiento producido entre O4 y O5 que no se había dado en los anteriores períodos
observados. Asimismo, la aplicación de tests parece, en general, hipótesis rival no creíble
para un salto entre O4 y O5. Si solo tuviéramos las observaciones en O4 y O5, como en el
diseño 2, careceríamos de ese medio de convertir en inaceptables los efectos de
maduración y los tests‐retests. Esta es la gran ventaja del diseño 7 sobre el diseño 2.
De igual modo, muchas hipótesis que invocarían variaciones en la instrumentación
carecerían de base racional específica para suponer que en aquella ocasión particular, a
diferencia de otras anteriores, se había producido el error de los aparatos de medición. No
obstante, el signo de interrogación en el cuadro 2 llama la atención recordando las
posibles situaciones en que un cambio en la calibración del instrumento de medición

66
Experimento Resumen: Dr. Arturo Guzmán Arredondo (2015)

podría dar lugar a que se lo interpretase como efecto de X. A menudo puede emplearse el
diseño 7 para medir los efectos de un importante cambio introducido en la política
administrativa. Teniendo esto en cuenta, convendría evitar el cambio de instrumentos de
medición a la vez que se modifica la política. En la mayor parte de los casos sería
preferible, a fin de preservar la interpretabilidad de una serie cronológica, continuar
empleando dispositivos un tanto anticuados, en vez de sustituirlos por otros más
modernos pero distintos. Los efectos de la regresión suelen consistir en una función
negativamente acelerada del tiempo trascurrido, razón por la cual no son aceptables
como explicaciones de un efecto en O5 mayor que los efectos en O2, O3 y O4. La selección
como fuente de efectos principales se elimina tanto en este diseño como en el 2, si en
todas las O están implicadas las mismas personas.
Para que estas series cronológicas se interpreten como experimentos, es
imprescindible que el experimentador especifique de antemano la relación cronológica
esperada entre la introducción de la variable experimental y la manifestación de un
efecto. También parece imprescindible que se especifique la X antes de examinar el
resultado de la serie cronológica.

Tests de significación para el diseño de serie cronológica


Si las ciencias más avanzadas no emplean tantos tests de significación como la
psicología y la pedagogía es, sin duda, porque la magnitud y claridad de los efectos con
que trabajan son tales que los hacen innecesarios. El test de significación utilizado
dependerá en parte de la índole hipotética del efecto de X.

67
Experimento Resumen: Dr. Arturo Guzmán Arredondo (2015)

Figura 3. Posibles configuraciones de los resultados de introducir una variable


experimental en el punto X, en una serte cronológica de mediciones, O1 ‐ O8. Salvo en el
caso D, la diferencia O4 ‐ O5 es la misma para todas las series cronológicas, en tanto que la
legitimidad de inferir un efecto varía mucho, siendo máxima en A y B y totalmente
injustificada en F, G y H.

68
Experimento Resumen: Dr. Arturo Guzmán Arredondo (2015)

Cuadro 2. Fuentes de invalidación para los diseños 7 a 12.


Fuentes de invalidación
Interna Externa

Interacción de selección y maduración, etc.

Interacción de administración de tests y X

Interferencia de X múltiples
Interacción de selección y X
No. Diseños

Administración de tests

Dispositivos reactivos
Instrumentación
Maduración

Mortalidad
Regresión

Selección
Historia

Diseños cuasiexperimentales
Series cronológicas
7. − + + ? + + + + − ? ?
O O O OXO O O O
Diseño de muestras
8. cronológicas equivalentes + + + + + + + + − ? − −
X1O X0O X1O X0O, etc.
Diseño de muestras materiales
equivalentes
9. + + + + + + + + − ? ? −
MaX1O MbX0O McX1O MdX0O,
etc.
Diseño de grupo de control no
equivalente
10. + + + + ? + + − − ? ?
O X O
O O
Diseños compensados
X 1 O X 2 O X 3 O X4 O
11. X 2 O X 4 O X 1 O X3 O + + + + + + + ? ? ? ? −
X 3 O X 1 O X 4 O X2 O
X 4 O X 3 O X 2 O X1 O
Diseño de muestra separada
pretest‐postest
12. − − + ? + + − − + + +
R O (X)
R X O
R O (X)
R X O
12a − − + ? + + − + + + +
R O (X)
R X O
R O1 (X)
12b R O2 (X) − + + ? + + − ? + + +
R X O3
R O1 X O2
12c − − + ? + + + − + + +
R X O3

69
Experimento Resumen: Dr. Arturo Guzmán Arredondo (2015)

8. Diseño de muestras cronológicas equivalentes

La forma más común de diseño experimental utiliza una muestra equivalente de


personas a fin de suministrar la base con la cual comparar los efectos de la variable
experimental. Como contraste, una forma recurrente de experimentación con un solo
grupo utiliza dos muestras equivalentes de sesiones con la variable experimental en una
de ellas y no en la otra. Ese diseño puede esquematizarse de la siguiente manera (aunque
la intención es obtener una alternación aleatoria, no regular):
X1O X0O X1O X0O
Este diseño puede considerarse una forma del experimento de serie cronológica
con la introducción reiterada de la variable experimental. El experimento es, sin duda, de
mayor utilidad cuando se anticipa que el efecto de la variable experimental sería de
carácter transitorio o reversible. El modo de análisis estadístico tiene mayor similitud, en
general, con el del experimento de dos grupos en los cuales se emplea la significación de
la diferencia entre las medias de dos conjuntos de mediciones.
Casi todos los experimentos con este diseño han empleado en proporción pocas
repeticiones de cada condición experimental. La historia, que es el principal inconveniente
del experimento con series cronológicas, se controla presentando X en numerosas
sesiones separadas, haciendo así improbable en extremo cualquier otra explicación
fundada en la coincidencia de acontecimientos externos. Las otras fuentes de invalidación
se controlan con la misma lógica detallada a propósito del diseño 7. En cuanto a la validez
externa, es evidente que solo cabe extender la generalización a poblaciones probadas con
frecuencia. El efecto reactivo de los dispositivos y la conciencia de que se es objeto de la
experimentación constituyen una deficiencia de esta prueba. En cuanto a la interacción de
selección y X, se da, como es habitual, la limitación de la generalización de los efectos
demostrados de X al tipo particular de la población de que se trata. Este diseño
experimental lleva implícito un riesgo para la validez externa que se encontrará en todos
los experimentos descritos en este trabajo en los cuales se presentan muchos niveles de X
para el mismo conjunto de personas. Ese efecto se ha denominado “interferencia de X

70
Experimento Resumen: Dr. Arturo Guzmán Arredondo (2015)

múltiples”. Nótese que muchos aspectos de la enseñanza sobre los cuales se desearía
experimentar pueden muy bien tener efectos restringidos, para los fines prácticos, al
período de presencia concreta de X. Para esos objetivos, este diseño podría ser muy
valioso.

Tests de significaci6n para el diseño 8


Una vez más necesitamos pruebas de significación apropiadas para este tipo
particular de diseño. Adviértase que hay implícitas en él dos dimensiones de
generalización: con respecto a las sesiones y con respecto a las personas. Si consideramos
un caso en que se utilice una sola persona, es obvio que la generalización de la prueba de
significación se limitará a esa persona en particular, comprendiendo una generalización
entre casos, para cuyo fin convendrá utilizar una t con un número de grados de libertad
igual al de sesiones menos dos.
Parece imprescindible que para cada tratamiento se “incluyan” por lo menos dos
sesiones y estén representados los grados de libertad entre ellas. La mejor forma de
cumplir con este requisito es, quizá, probar ante todo la diferencia entre las medias de
tratamiento y un término de error entre las diversas sesiones y con respecto a cada
tratamiento.

9. Diseño de materiales equivalentes


El diseño 9 está íntimamente relacionado con el de muestras cronológicas
equivalentes, y su argumento se funda en la equivalencia de las muestras de materiales a
que se aplican las variables experimentales que se comparan. Siempre, o casi siempre, hay
también implicadas muestras cronológicas equivalentes, pero pueden estar intercaladas
en forma tan sutil o intrincada, que prácticamente vienen a constituir una equivalencia
temporal. En un diseño con un grupo y X repetida, se requieren materiales equivalentes
allí donde la índole de las variables experimentales sea tal que los efectos son
permanentes, y los distintos tratamientos y repeticiones de ellos deben aplicarse a un
contenido no idéntico. El diseño puede expresarse así:

71
Experimento Resumen: Dr. Arturo Guzmán Arredondo (2015)

MaX1O MbX0O McX1O MdX0O etc.

Las M indican materiales específicos, siendo la muestra Ma, Mc, etc., en términos
de muestreo, igual a la muestra Mb, Md, etc. La importancia de la equivalencia de
muestreo de ambos conjuntos de materiales quedaría acaso mejor indicada si se
diagramara el diseño de esta manera:

Muestra de materiales A(O) X0 O


Una persona o grupo {
Muestra de materiales B(O) X1 O

Las O entre paréntesis indican que en algunos diseños se utilizará un pretest y en


otros no. A semejanza del diseño 8, el 9 tiene validez interna en todos los puntos, y en
general por los mismos motivos. Obsérvese, a propósito de la validez externa, que en el
diseño 9, como en todos los experimentos con mediciones repetidas, los efectos pueden
ser bastante específicos de las personas medidas en varias sesiones. Parecería que en el
diseño 9 hay menos posibilidades de dispositivos reactivos que en el 8 a causa de la
heterogeneidad de los materiales y la mayor probabilidad de que los sujetos no adviertan
que reciben tratamientos diferentes en momentos diferentes y para ítems diferentes. Es
probable, pues, que la interferencia entre los niveles de la variable experimental o entre
los materiales sea una innegable imperfección de este experimento, al igual que en el
diseño 8.

10. Diseño de grupo de control no equivalente


Uno de los diseños experimentales más difundidos en la investigación educacional
comprende un grupo experimental y otro de control, de los cuales ambos han recibido un
pretest y un postest, pero no poseen equivalencia preexperimental de muestreo. Por lo
contrario, los grupos constituyen entidades formadas naturalmente (como una clase, por
ejemplo) tan similares como la disponibilidad lo permita, aunque no tanto, sin embargo,

72
Experimento Resumen: Dr. Arturo Guzmán Arredondo (2015)

que se pueda prescindir del pretest. La asignación de X a uno u otro grupo se supone
aleatoria y controlada por el experimentador.
O X O
O O
Dos cosas han de tenerse claras sobre este diseño. Ante todo, que no se lo debe
confundir con el 4, el diseño con grupo de control pretest‐postest, donde los sujetos
experimentales que se toman de una población común se asignan en forma aleatoria al
grupo experimental y de control. En segundo lugar, que, a pesar de ello, hay que admitir
que el diseño 10 es utilizable en muchas oportunidades en que son imposibles los diseños
4, 5 o 6. Cuanto más similares sean en su reclutamiento el grupo experimental y el de
control y más se confirme esa similitud por los puntajes del pretest, más eficaz resulta ese
control. Suponiendo que estos ideales se aproximen a los objetivos de la validez interna,
podemos considerar que el diseño controla los principales efectos de la historia, la
maduración la administración de tests y la instrumentación, donde la diferencia para el
grupo experimental entre el pretest y el postes t (si fuera mayor que para el grupo de
control) no puede explicarse por efectos principales de esas variables, como los que
afectarían tanto al grupo experimental como al de control. (Sin embargo, deben
extremarse las precauciones sobre la historia intrasesional mencionadas en el diseño 4.)
Es importante distinguir dos versiones del diseño 10, y darles diferente jerarquía
como aproximaciones a la experimentación propiamente dicha. Por una parte, se da la
situación en que el experimentador dispone de dos grupos naturales, por ejemplo dos
clases, y puede elegir con libertad cuál ha de recibir X, o por lo menos no tiene ningún
motivo para sospechar que se haga un reclutamiento diferencial con relación a X. Aunque
los grupos pueden diferir en sus medias iniciales de O, el estudio se aproximará a la
experimentación propiamente dicha. Por otra parte, hay casos del diseño 10 en que los
participantes son a todas luces autoseleccionados: el grupo experimental busca
deliberadamente la exposición a X, y no se cuenta con un grupo de control tomado de esa
misma población. En este último caso, es menos probable que se cumpla el supuesto de
regresión uniforme entre los grupos experimental y de control, aumentando en cambio la

73
Experimento Resumen: Dr. Arturo Guzmán Arredondo (2015)

posibilidad de interacción selección‐maduración (y las demás interacciones de selección).


El diseño 10 “autoseleccionado” es, pues, mucho más endeble.

11. Diseños compensados


Bajo este título se reúnen todos aquellos diseños en los cuales se logra el control
experimental o se aumenta la precisión aplicando a todos los participantes (o situaciones)
la totalidad de los tratamientos. Esos diseños recibieron las denominaciones de
“experimentos rotativos”, “diseños compensados”, “diseños cruzados” y “diseños de
conmutación”. El dispositivo de cuadrado latino es el que más se utiliza en la
compensación. Ese cuadrado latino es el utilizado en el diseño 11, esquematizado aquí
como cuasiexperimental, en el que se aplican cuatro tratamientos experimentales en
forma restrictivamente aleatorizada y por turno a cuatro grupos formados de manera
natural o incluso a cuatro individuos.
Primera Segunda Tercera Cuarta
vez vez vez vez
Grupo A X1O X 2O X3O X4O
Grupo B X2O X 4O X1O X3O
Grupo C X3O X 1O X4O X2O
Grupo D X4O X 3O X2O X1O

El diseño ha sido diagramado sólo con postests, dado que presta particular utilidad
allí donde los pretests resultan inapropiados y no se dispone de diseños como el 10. El
diseño contiene tres clasificaciones (grupos, sesiones y X o tratamientos experimentales).
Cada clasificación es “ortogonal” respecto de las otras dos, en el sentido de que cada
variable de cada clasificación se produce con la misma frecuencia con cada variable de
cada una de las otras clasificaciones. Obsérvese que cada tratamiento (o X) sólo se da una
vez en cada columna y cada fila. El mismo cuadrado latino puede modificarse de tal
manera que las X se conviertan en títulos de filas o de columnas:

74
Experimento Resumen: Dr. Arturo Guzmán Arredondo (2015)

X1 X2 X3 X4
Grupo A t1O t2O t3O t4O
Grupo B t2O t1O t4O t2O
Grupo C t3O t4O t1O t3O
Grupo D t4o t3O t2O t1O

12. Diseño de muestra separada pretest‐postest


Para grandes poblaciones ‐p. ej., ciudades, fábricas, escuelas y unidades militares‐,
suele ocurrir que, aunque no se pueden segregar subgrupos en forma aleatoria para
tratamientos experimentales diferenciales, cabe ejercer algo así como un control
experimental completo sobre el momento de aplicación y los destinatarios de la O,
utilizando procedimientos de asignación aleatoria. Ese control posibilita el diseño 12:
R O (X)
R X O
En este esquema, las filas constituyen subgrupos de equivalencia aleatoria,
representando la X entre paréntesis una presentación de X sin importancia. Se mide una
muestra antes de X, otra equivalente después de X. El diseño no es intrínsecamente eficaz,
como lo indica su fila en el cuadro 2. No obstante, suele resultar viable, y a menudo
merece que se lo aplique. Se lo ha utilizado en experimentos de ciencias sociales que son
aún los mejores estudios existentes en sus temas específicos. Aunque se lo ha
denominado “diseño simulado antes‐y‐después”, vale la pena destacar su superioridad
respecto del diseño común antes‐y‐después, el diseño 2, por su control tanto del efecto
principal de la aplicación de tests como de la interacción de la administración de tests con
X. El defecto fundamental del diseño es que no puede controlar la historia.
Repitiendo el diseño 12 en diferentes situaciones y momentos, como en el diseño
12a (véase cuadro 2), se controla la historia, pues si el mismo efecto se da en varias
ocasiones, la posibilidad de que sea resultado de acontecimientos históricos coincidentes
se torna menos probable. No obstante, las tendencias históricas persistentes o los ciclos
estacionales siguen constituyendo explicaciones rivales no controladas.

75
Experimento Resumen: Dr. Arturo Guzmán Arredondo (2015)

La maduración, y la acaso más peligrosa posibilidad de tendencias persistentes y


estacionales, también es controlable por un diseño como el 12b, que agrega un grupo
pretest anterior, aproximando el diseño al de series cronológicas, aunque sin la aplicación
reiterada de tests.
Lo característico de este diseño es que lleva el laboratorio a la situación de campo
a la cual el investigador desea extender sus generalizaciones, probando los efectos de X en
su ambiente natural. En general, según se indica en los cuadros 1 y 2, los diseños 12, 12a,
12b y 12c pueden resultar superiores en validez externa o posibilidad de generalización
respecto de los experimentos propiamente dichos de los diseños 4, 5 y 6.

13. Diseño de muestra separada pretest‐postest con grupo de control


Se supone que el diseño 12 ha de utilizarse en aquellas situaciones en que la X, si
existe, debe presentarse al grupo como un todo. Si se cuenta con grupos comparables (ya
que no equivalentes) a los cuales sea posible rehusar la X, se podrá agregar un grupo de
control al diseño 12 creando así el diseño 13:
R O (X)
R X O
R O
R O
Este diseño es bastante parecido al 10, solo que no se vuelve a someter a test a las
mismas personas y, por lo tanto se evita la posible interacción entre la administración de
tests y X. Como en el diseño 10, la desventaja del 13 en cuanto a la validez interna
proviene de la posibilidad de interpretar como efecto de X otra tendencia local propia del
grupo experimental que, en realidad, no ha influido. Aumentando el número de las
unidades sociales implicadas y asignándolas en cierto número y con aleatorización a los
tratamientos experimentales y de control, se conseguirá eliminar la única fuente de
invalidación lográndose así un experimento propiamente dicho, análogo al diseño 4, con la
única diferencia de que se evitan nuevas pruebas sobre los mismos individuos.

76
Experimento Resumen: Dr. Arturo Guzmán Arredondo (2015)

La R’ designa la igualación del grupo experimental y el de control por la


as1gnac1ón aleatoria de esas muchas unidades sociales a uno u otro tratamiento. Como
puede verse en la fila correspondiente a 13a del cuadro 3, este diseño obtiene un puntaje
perfecto para validez tanto interna como externa, esta última en virtud de los
fundamentos ya expuestos a propósito del diseño 12, y con mayor hincapié en el
problema de la interacción selección‐X, a causa de que están representadas muchas
unidades sociales y no una sola. Que nosotros sepamos, este diseño, excelente pero
costoso, no ha sido utilizado nunca.

14. Diseño de senes cronológicas múltiples

En los estudios de grandes cambios administrativos por medio de datos en series


cronológicas, al investigador le conviene buscar una institución similar no sujeta a X, de la
cual tomar una serie cronológica de “control” análoga (idealmente, con X asignada al
azar):
O O O OXO O O O
O O O O O O O O
Este diseño contiene el número 10, de grupo de control no equivalente, pero gana
certidumbre de interpretación por las múltiples mediciones representadas, ya que en
cierto sentido el efecto experimental se demuestra dos veces, respecto del control y
respecto de los valores pre‐X en su propia serie, como en el diseño 7. Además, la
interacción entre selección y maduración se controla en el sentido de que, si el grupo
experimental demostró por lo común una mayor tasa de ganancia, aparecería así en las O
pre‐X. En los cuadros 2 y 3 es escasa la representación de esta nueva ganancia, pero
aparece en la columna final de validez interna, titulada “Interacción de selección y
maduración”. Como con el diseño 7 de serie cronológica, se ha puesto un signo negativo
en la columna de validez externa para la interacción entre la aplicación de pruebas y X,
aunque como en el caso del mismo diseño 7, el que comentamos se empleará a menudo
cuando la administración de los tests no sea reactiva. Este es, en términos generales, un

77
Experimento Resumen: Dr. Arturo Guzmán Arredondo (2015)

excelente diseño cuasiexperimental, acaso el mejor de los más viables. Presenta claras
ventajas respecto de los diseños 7 y 10, como ya lo hemos indicado al presentar el diseño
10. La posibilidad de efectuar reiteradas mediciones torna particularmente apropiadas las
series cronológicas múltiples para las investigaciones que se llevan a cabo en
establecimientos educativos.

15. Diseño de ciclo institucional recurrente: un diseño “de retazos”


El diseño 15 ilustra una estrategia para la investigación de campo en la cual se
comienza por un diseño insuficiente y se van sumando luego características particulares, a
fin de investigar una u otra de las fuentes recurrentes de invalidación. El diseño “de
retazos” específico que exponemos se limita a un riguroso conjunto de cuestiones y
situaciones, y explota según las circunstancias las características que estas exhiben.
El diseño es apropiado para aquellas situaciones en que se presenta en forma
cíclica, a cada nuevo grupo de participantes, cierto aspecto de un proceso institucional
(escuelas, métodos de adoctrinamiento, aprendizaje de oficios, etc.). Si en esas
situaciones nos interesa la evaluación de los efectos de una X tan global y compleja como
un programa de adoctrinamiento, es probable que el diseño de ciclo institucional
recurrente ofrezca la respuesta más aproximada posible resultante de los diseños que
hasta aquí hemos expuesto. Un tanto estilizado, el diseño es como sigue:
Clase A X O1
Clase B O2 X O 3
Este diseño combina los enfoques “longitudinal” y de “corte trasversal” que suelen
emplearse en la investigación del desarrollo. La siguiente es una representación más
precisa del caso típico en la situación escolar:
Clase A X O1
Clase B1 R O2 X O 3
Clase B2 R X O4
Clase C O5 X

78
Experimento Resumen: Dr. Arturo Guzmán Arredondo (2015)

16. Análisis de discontinuidad en la regresión


Este diseño es practicable en una situación en que se han utilizado ya diseños ex
post facto. Aunque de muy limitada aplicación, parece justificado presentarlo aquí por el
hecho de que esas situaciones poco numerosas son, en su mayor parte, educacionales.
La situación que tomaremos (Thistlethwaite y Campbell 1960) consiste en el
otorgamiento de premios a los aspirantes más calificados, sobre la base de un puntaje de
corte dentro de un conjunto cuantificado de calificaciones. El premio puede ser una beca,
el ingreso en una universidad tan prestigiosa, un año de estudios en Europa, etc. Después
de ese acontecimiento, tanto los solicitantes que reciben el premio como los que no lo
obtienen son objetos de mediciones respecto de varias O que representan logros,
actitudes, etc., posteriores. Se plantea entonces el interrogante de si el premio provoca
alguna diferencia. El problema de inferencia es difícil porque casi todas las cualidades que
acreditan a un alumno para el premio son las mismas que habrían llevado a un mejor
desempeño en esas O. Tenemos casi la certeza anticipada de que los premiados habrían
obtenido puntajes superiores en las O que quienes no lo fueron, aunque no se hubiesen
otorgado los premios.
La figura 4 presenta el tema del diseño. Ilustra la relación prevista entre capacidad
pre‐premio y rendimientos posteriores, más los resultados adicionales de las
oportunidades educacionales o motivacionales consiguientes.

Figura 4. Análisis de discontinuidad en la regresión.

79
Experimento Resumen: Dr. Arturo Guzmán Arredondo (2015)

Cuadro 3. Fuentes de invalidación para los diseños 13 a 16.


Fuentes de invalidación
Interna Externa

Interacción de selección y maduración, etc.

Interacción de administración de tests y X

Interferencia de X múltiples
Interacción de selección y X
No. Diseños

Administración de tests

Dispositivos reactivos
Instrumentación
Maduración

Mortalidad
Regresión

Selección
Historia

Diseños cuasiexperimentales (continuación)


Diseño de muestra separada
pretest‐postest con grupo de
control
13. R O (X) + + + + + + + − + + +
R X O
R O
R O
Diseño de muestras
cronológicas equivalentes
R O (X)
R X O
R’ R O (X)
R X O
R O (X)
13a R X O + + + + + + + + + + +

R O
R O
R’ R O
R O
R O
R O
Serie cronológicas múltiples
14. O O OXO O O + + + + + + + + − − ?
O O O O O O
Diseño de ciclo institucional
Cl. A X O1
15. Cl. B1 RO2 X O3
Cl. B2 R X O4
Cl. C O5 X
16. Discontinuidad en la regresión + + + ? + + ? + + − + +
Nota: En el diseño 15 no se presentan las valoraciones (tiene cuatro variaciones en el libro).

80
Experimento Resumen: Dr. Arturo Guzmán Arredondo (2015)

6. DISEÑOS CORRELACIONALES Y “EX POST FACTO”

Una de las dimensiones de “cuasidad” (quasiness) que ha ido en aumento a lo


largo de los últimos nueve diseños es la medida en que X podría ser manipulada por el
experimentador, es decir, en que podría introducírsela en el curso normal de los
acontecimientos. Por supuesto, cuanto más ocurre así, más cerca se está de la
experimentación propiamente dicha. Los diseños serían más sospechosos cuando la X no
estuviese controlada, y algunos que acaso estuviesen dispuestos a denominar
cuasiexperimentos a las versiones controladas por el experimentador, tal vez no quisieran
aplicar este término a la X no controlada.

Correlación y causación
El diseño 3 es un diseño correlacional muy endeble, puesto que implica la
comparación de solo dos unidades naturales que difieren en la presencia y ausencia de X,
así como en muchísimos otros atributos. Cada uno de ellos podría crear diferencias en las
O, y por lo tanto cada uno ofrece una hipótesis aceptable, opuesta a la de que X ha
producido un efecto. En la medida en que las situaciones naturales de X varíen entre sí en
sus demás atributos, esos otros atributos se tornarán menos aceptables como hipótesis
rivales.
La correlación no indica necesariamente causación, pero una ley causal del tipo
que produce diferencias medias en los experimentos implica correlación. El enfoque
correlacional, relativamente poco costoso, quizás ofrezca una revisión preliminar de
hipótesis, y las que sobrevivan a ese proceso podrán verificarse entonces por medio de la
más onerosa manipulación experimental.
Si pasamos revista a las investigaciones sobre educación, pronto nos
convenceremos de que son más los casos en que la interpretación causal de la
información correlacional se exagera que aquellos en que se la desconoce, así como que
suelen pasarse por alto hipótesis rivales aceptadas, y que para establecer la antecedencia

81
Experimento Resumen: Dr. Arturo Guzmán Arredondo (2015)

consecuencia temporal de una relación causal es imprescindible realizar observaciones a


lo largo del tiempo, cuando no apelar a la introducción experimental de X.
Aun más universal que la engañosa correlación inversa es la de una tercera
variable, también conducente a error, de que los determinantes lícitos de quien está
expuesto a X son de tal naturaleza, que producirían asimismo elevados puntajes de O, aun
sin la presencia de X.
La interpretación causal de una correlación simple o parcial depende tanto de la
presencia de una aceptable hipótesis causal compatible como de la ausencia de hipótesis
rivales lógicas para explicar la correlación sobre otros fundamentos.

Estudios en panel
Las encuestas más simples recogen observaciones realizadas en un solo punto del
tiempo, que a menudo ofrecen al participante la oportunidad de autoclasificarse como
expuesto o no a X. A las correlaciones de exposición y postest que así resultan contribuye
no solo el sesgo causal común (en que los determinantes de quién recibe X también
causarían, aun sin X, elevados puntajes de O) sino también una distorsión de la memoria
con respecto a X, dando mayor realce a la aparición espuria de causa.
En la metodología de la encuesta, se gana mucho con la introducción del método
de panel, consistente en la repetición de entrevistas con las mismas personas. Bien
practicados, los estudios en panel parecen ofrecer datos útiles para la versión más
endeble del diseño 10, con X natural.

Análisis “ex post facto”


En la actualidad, la frase “experimento ex post facto” designa los esfuerzos para
simular la experimentación por medio de un proceso en el que se intenta una situación de
diseño 3 con miras a lograr una ecuación pre‐X, empleando un proceso de equiparación
en atributos pre‐X. Los ejemplos proceden con frecuencia del ámbito educacional. La
lógica utilizada y los errores en que se incurre, son también frecuentes en la investigación
pedagógica.

82
Experimento Resumen: Dr. Arturo Guzmán Arredondo (2015)

7. COMENTARIOS FINALES

Esta obra es ya en sí una exposición condensada. Un resumen de ella puede inducir


a engaño. En este sentido, parece imprescindible una advertencia final a propósito de la
tendencia a utilizar con ese fin los cuadros 1, 2 y 3, de aparente pero falsa conveniencia.
Esos cuadros, en calidad de bosquejo recurrente, han contribuido en parte a ordenar la
obra haciéndola menos reiterativa. Pero la colocación de signos positivos, negativos e
interrogativos ha sido siempre equívoca y, por lo común, constituye un mal resumen del
correspondiente análisis.
Es probable que en cualquier ejecución particular de un diseño, la fila de
comprobación resulte distinta de la que aparece en el correspondiente cuadro. La mejor
forma de utilizar los cuadros es hacerlo a manera de otros tantos bosquejos de un
cuidadoso estudio de los detalles particulares de un experimento durante la etapa de su
planificación. Del mismo modo, esta obra no pretende sustituir con el dogma de los 13
diseños aceptables otro dogma anterior del diseño o par de diseños aceptables. Más bien
habría que estimular una actitud abierta hacia la indagación de los nuevos mecanismos de
obtención de datos, y un nuevo análisis acerca de algunas de las imperfecciones que
acompañan a la aplicación rutinaria de los tradicionales.
Por último, hemos visto en este trabajo distintas alternativas sobre los dispositivos
o diseños experimentales, con particular referencia a los problemas de control de
variables externas y amenazas a la validez. Hay que distinguir entre validez interna y
externa, o posibilidad de generalizar. Se han empleado ocho clases de amenazas a la
validez interna y cuatro a la externa, para evaluar dieciséis diseños experimentales y unas
cuantas variaciones sobre ellos. Tres de esos diseños se han clasificado como
preexperimentales y se los ha empleado sobre todo para ilustrar los factores de validez
que requieren control. Tres de ellos se consideraron diseños experimentales propiamente
dichos. Y de diez se ha dicho que son cuasiexperimentos pues carecen de un control
perfecto, si bien merecen que se los adopte cuando no haya nada mejor.

83

También podría gustarte