Ilovepdf Merged

Machine Translated by Google
INVESTIGACIÓN
MÉTODOS
EN APLICADO
AJUSTES
JEFFREY A. GLINER
Universidad Estatal de Colorado Fort Collins
GEORGE A. MORGAN
Universidad Estatal de Colorado Fort Collins
NANCY L. LEECH
Universidad de Colorado Denver
Nueva York Londres

Routledge Routledge
Grupo Taylor y Francisco Grupo Taylor y Francisco
270 Avenida Madison 27 Camino de la Iglesia
Nueva York, Nueva York 10016 Hove, Sussex del este BN3 2FA
© 2009 por Taylor y Francis Group, LLC

Routledge es una marca de Taylor & Francis Group, una empresa de Informa.
Esta edición publicada en la biblioteca electrónica Taylor & Francis, 2010.
Para comprar su propia copia de este o cualquiera de Taylor & Francis o Routledge
colección de miles de libros electrónicos, visite www.eBookstore.tandf.co.uk.
Número de libro estándar internacional: 9780805864342 (tapa dura)
Para obtener permiso para fotocopiar o utilizar material electrónicamente de este trabajo, acceda a www.copyright.com (http://
www.copyright.com/) o comuníquese con Copyright Clearance Center, Inc. (CCC), 222 Rosewood Drive, Danvers, MA 01923, 9787508400. CCC es
una organización sin fines de lucro que proporciona licencias y registros para una variedad de usuarios. Para las organizaciones a las que la CCC les
ha concedido una licencia de fotocopia, se ha dispuesto un sistema de pago independiente.
Aviso de marca comercial: Los nombres de productos o corporativos pueden ser marcas comerciales o marcas comerciales registradas y se utilizan
únicamente para identificación y explicación sin intención de infringir.
Datos de catalogación en publicación de la Biblioteca del Congreso
Gliner, Jeffrey A.
Métodos de investigación en entornos aplicados: un enfoque integrado para el diseño y el análisis / Jeffrey A.
Gliner, George A. Morgan, Nancy L. Leech. 2ª edición.
pag. cm.
Incluye referencias bibliográficas e índices.
ISBN 9780805864342 (tapa dura)
1. Ciencias socialesInvestigación. I. Morgan, George A. (George Arthur), 1936 II. Sanguijuela, Nancy L. III.
Título.
H62.G523 2009
300.72dc22 2008046239
Visite el sitio web de Taylor & Francis en

http://www.taylorandfrancis.com
y el sitio web de Psychology Press en

http://www.psypress.com
ISBN 020384310X Libro electrónico maestro ISBN

Contenido
Prefacio................................................. ................................................. ......................................... xiii

Agradecimientos....... ................................................. ................................................. ........... xvii
Sección I Capítulos Introductorios

1. Definiciones, propósitos y dimensiones de la investigación................................. ................3
Definiciones de investigación................................ ................................................. ..........................3
Propósitos de la investigación.................... ................................................. ........................................4
Dicotomías de la investigación...... ................................................. ................................................. ....6
Tipos o enfoques de investigación.................................. ................................................. ....9
Estudios de muestra................................................ ................................................. .........................
11 Resumen .................. ................................................. ................................................. ......... 13
Conceptos Clave................................. ................................................. ................................... 14
Distinciones clave.... ................................................. ................................................. ...... 14
Términos diferentes para conceptos similares ................................. ........................................ 15
Problemas de aplicación... ................................................. ................................................. ...... 15
Notas................................................ ................................................. ........................................ 17
2. Planificación de un proyecto de investigación cuantitativa .................................... ............................

19 Descripción general de los pasos del plan de investigación.... ................................................. ........
19 Problemas de investigación................................. ................................................. .........................
21 Revisión de la literatura.................. ................................................. .................................25
Resumen................ ................................................. ................................................. ................27
Conceptos clave................................ ................................................. ........................................28
Distinciones clave..... ................................................. ................................................. ............28
Problemas de aplicación................................. ................................................. ........................28
Sección II Enfoques, preguntas y diseños de investigación

cuantitativa
3. Variables, preguntas de investigación e hipótesis................................. ...................33
Variables................................. ................................................. ................................................. ..33
Hipótesis y preguntas de investigación................................. .................................38 Cinco
estudios de investigación de muestra.... ................................................. ........................................40
Resumen.......... ................................................. ................................................. .................. 41
Conceptos clave................................. ................................................. ................................................42
Distinciones clave ................................................. ................................................. .................42
Problemas de aplicación................................. ................................................. ................................42
Notas................. ................................................. ................................................. ...................43
v
vi Contenido
4. Enfoques de investigación................................................ ................................................. ............45

Descripción general de los enfoques de investigación................................. ................................................45
Enfoques de investigación Con una variable independiente activa................................47 Enfoques de
investigación Con variables independientes de atributos................................49
Resumen... ................................................. ................................................. ......................... 51 Conceptos
clave.................. ................................................. ................................................. ...53 Distinciones
clave................................................ ................................................. ........................53 Problemas de
aplicación.................... ................................................. ................................54
5. Diseños experimentales y cuasiexperimentales aleatorizados ................................55 Terminología de

diseño... ................................................. ................................................. ........55 Diseños cuasi
experimentales con limitaciones importantes................................. ....................56 Mejores diseños cuasi
experimentales........................ ................................................. ...........58 Diseños experimentales
aleatorios.................................. ................................................64
Resumen................................................. ................................................. ................................68 Conceptos
clave................ ................................................. ................................................. .......68 Distinciones
clave................................................. ................................................. ................................68 Problemas de
aplicación................ ................................................. ........................................ 70
Notas....... ................................................. ................................................. ................................71
6. Diseños de un solo tema................................... ................................................. ..........73 Diseños de

inversión................................. ................................................. ................................. 74 Diseños de líneas
de base múltiples....... ................................................. ................................. 76 Diseños de tratamiento
alternativos........ ................................................. ................................78 Medición y análisis de
datos....... ................................................. ........................80 Generalización y metaanálisis de diseños de
un solo tema............. ................................83
Resumen.................... ................................................. ................................................. ..........84 Conceptos
clave.................................... ................................................. .................................84 Distinciones
clave........ ................................................. ................................................. ..85 Problemas de
aplicación................................. ................................................. ...................85
7. Enfoques y diseños no experimentales................................................ ........................89 Enfoques de

investigación cuantitativa no experimental....... .................................89 Una visión ampliada de los cinco
enfoques cuantitativos... .................................95 Enfoques de investigación cualitativa no
experimental... ................................................. 96
Resumen................................................. ................................................. ................................98 Conceptos
clave................. ................................................. ................................................. ........99 Distinciones
clave.................................. ................................................. .................................99 Problemas de
aplicación................. ................................................. ......................................... 100
Notas.......... ................................................. ................................................. ........................ 100
8. Validez Interna................................................ ................................................. .................. 101 Identificación

de relaciones causales................... ................................................. ......... 101 Evaluación de la validez
interna.................................. ................................................. ......... 103 Amenazas tradicionales a la
validez interna................................. ........................................ 105
Resumen....... ................................................. ................................................. .................... 109 Conceptos
clave................................. ................................................. ................................................. 110 Distinciones
clave.. ................................................. ................................................. ................ 110 Problemas de
aplicación................................. ................................................. ........................ 110
Contenido viii
Sección III Muestreo, medición y recopilación de datos

9. Muestreo e Introducción a la Validez Externa.................................... ................ 115 ¿Qué es el
muestreo?................................ ................................................. ................................. 115 Diseños de
muestreo................ ................................................. ................................................ 118 Validez
externa................................................ ................................................. ................. 128 Muestreo y validez
interna y externa de un estudio...................... ................... 130
Resumen................................ ................................................. ................................................ 130
Conceptos clave................................................ ................................................. ......................... 131
Distinciones clave....................... ................................................. ........................................ 132 Términos
diferentes para conceptos similares.. ................................................. ............................ 132 Problemas
de aplicación.................... ................................................. ........................................ 133
10. Medición y Estadística Descriptiva................................................. ................................ 135 Descripción

general de la curva normal................ ................................................. ........................ 135
Medición........................ ................................................. ................................................ 135 Estadísticas
Descriptivas y Gráficos................................................. ........................................ 141 Más sobre la curva
normal..... ................................................. .......................................... 146 Niveles de Medición y Estadística
Descriptiva. ................................................. ....... 148
Resumen................................................ ................................................. ........................................ 149
Conceptos clave........ ................................................. ................................................. ........... 150
distinciones clave.................................. ................................................. ................................. 150
Problemas de aplicación................. ................................................. ........................................ 150
Notas....... ................................................. ................................................. .......................... 151
11. Fiabilidad de la medición................................................ ................................................. ... 153 Fiabilidad

de la medición................................................ ................................................. ........ 153 Métodos para
evaluar la confiabilidad de la medición.................... ................................ 156
Resumen................. ................................................. ................................................. ........... 161 Conceptos
clave................................. ................................................. ................................... 162 Distinciones
clave.... ................................................. ................................................. .... 162 Problemas de
aplicación................................. ................................................. ................ 162
Notas................................. ................................................. ................................................. .163
12. Validez de la medición................................................ ................................................. ........ 165 Introducción

a la Validez de las Normas de 1999................................. ........................ 166 Evaluación de la validez de
la medición.................. ................................................. ........... 171
Resumen.................................... ................................................. ........................................ 172 Conceptos
clave...... ................................................. ................................................. ................. 172 Distinciones
clave................................. ................................................. ................................. 172 Problemas de
aplicación.... ................................................. ........................................ 173
13. Tipos de técnicas de recopilación de datos.................................... ................................... 175 Descripción

general....... ................................................. ................................................. ................. 175 Medidas
observadas por el investigador ................. ................................................. ......... 177 Pruebas y
Documentos.................................. ................................................. .................... 178 Medidas de
autoinforme ........................ ................................................. ................................ 181
Resumen................ ................................................. ................................................. ............ 186 Conceptos
clave................................. ................................................. ................................. 187
viii Contenido
Distinciones clave................................................ ................................................. ................. 187 Problemas

de aplicación................................. ................................................. ................................ 188
14. Cuestiones éticas al realizar el estudio................................... ................................ 191 Principios éticos en

la investigación humana.... ................................................. ................ 191 Cuestiones éticas en la
selección de la muestra.................... ................................................. .. 196 Sección de Cuestiones Éticas
y Métodos................................. ................................... 197 Aprobación de la Junta de Revisión
Institucional.... ................................................. ..... 201 Cuestiones éticas con respecto a la recopilación
de datos................................. ........................204
Resumen.................... ................................................. ................................................. ..205 Conceptos
clave................................................. ................................................. ........................205 Distinciones
clave.................. ................................................. ........................................205 Problemas de
aplicación.. ................................................. ................................................. .....206
15. Cuestiones prácticas en la recopilación y codificación de datos................................. ...................209 Pasos

iniciales en el proceso de investigación................... ................................................. ........209 Codificación,
entrada y verificación de datos................................. ................................................. 211 Reducción de
datos: aplicación de la confiabilidad y validez de las mediciones................... 218
Resumen........ ................................................. ................................................. ....................223 Conceptos
clave................................. ................................................. ........................................ 224 Distinciones
clave... ................................................. ................................................. ................. 224 Problemas de
aplicación.................................. ................................................. ........................ 224
Sección IV Análisis e interpretación de datos

16. Hacer inferencias a partir de datos de muestra I: La importancia de la hipótesis nula
Enfoque de prueba ................................................ ................................................. .................229 Un
ejemplo................................ ................................................. ........................................229 La hipótesis
nula (H0) y la alternativa Hipótesis (H1).................................................230 El proceso
inferencial. ................................................. ................................................. .... 232 Comprensión y
evaluación del poder estadístico................................. ........................ 237 Problemas con las pruebas de
significancia de hipótesis nulas.................. ................................. 240 Mejoras a
NHST................. ................................................. ........................................242
Resumen.......... ................................................. ................................................. ................. 243 Conceptos
clave................................. ................................................. ........................................244 Distinciones
clave..... ................................................. ................................................. ........244 Problemas de
aplicación................................. ................................................. ................244
Notas................................................. ................................................. ................................. 245
17. Hacer inferencias a partir de datos de muestra II: el enfoque basado en la evidencia ... 247 Problemas al
considerar un solo estudio..... ................................................. 247 Intervalos de
confianza.. ................................................. ................................................. ....... 247 Tamaños de
efectos................................. ................................................. ...................................250
Metaanálisis.......... ................................................. ................................................. ........254
Resumen.................................... ................................................. ......................................... 257 Conceptos
clave....... ................................................. ................................................. .................258 Distinciones
clave.................................. ................................................. ................................258 Problemas de
aplicación................. ................................................. ........................................258
Contenido ix
18. Clasificaciones generales de diseño para la selección de diferencias.

Métodos de estadística ................................................ ................................................. ............ 261
Clasificaciones generales de diseño.................................. ................................................. ....... 261 Más
consideraciones de diseño.................................. ................................................. ...... 262 Diseños de
diagramación.................................. ................................................. ................265 Descripción de los
distintos tipos de diseño................................. ................................................. 267 Clasificaciones de
diseño de Diseños de investigación específicos................................................ ........ 269
Resumen................................................ ................................................. ........................................ 270
Conceptos clave....... ................................................. ................................................. ............272
Distinciones clave................................. ................................................. ................................272 Problemas
de aplicación................ ................................................. ........................................272
Notas....... ................................................. ................................................. ................................ 274
19. Selección de métodos estadísticos apropiados: integración del diseño y

Análisis................................................. ................................................. ................................. 275 Revisión
de los conceptos necesarios para seleccionar estadísticas inferenciales... .................... 275 Selección de
estadísticas inferenciales apropiadas................. .......................................... 279 El modelo lineal
general... ................................................. ................................................284
Resumen.. ................................................. ................................................. ........................285 Conceptos
clave.................. ................................................. ................................................. 285 Distinciones
clave................................................ ................................................. ...................285 Término diferente
para concepto similar.................... ................................................. ........286 Problemas de
aplicación................................. ................................................. .................286
Notas................................ ................................................. ................................................. ..... 287
20. Análisis e interpretación de datos: preguntas básicas sobre diferencias................. 289 Análisis de un solo
factor (entre grupos) Diseños con estadísticos paramétricos....... 289 Análisis de diseños de un solo
factor (entre grupos) con estadísticos no
paramétricos....... ................................................. ......................... 294 Análisis de diseños de medidas
repetidas de un solo factor con estadísticas paramétricas....... 295 Análisis de diseños de medidas
repetidas Diseños factoriales intrasujetos con estadísticas no paramétricas... 298 Ventajas y desventajas
de los diseños intrasujetos.................... .................299
Resumen................................. ................................................. ................................................300
Conceptos clave... ................................................. ................................................. ..................300
distinciones clave................................. ................................................. ........................................ 301
Problemas de aplicación........ ................................................. ................................................ 301
21. Análisis e interpretación de preguntas básicas de investigación asociativa....305 Análisis de variables

continuas con estadísticas paramétricas.... ........................305 Uso de estadísticas asociativas no
paramétricas.................... .........................................308 Coeficientes de correlación
engañosos... ................................................. .................................309 Estadísticos asociativos para
variables nominales.... ................................................309
Resumen................................................. ................................................. ................................. 314
Conceptos clave.................. ................................................. ................................................. ... 315
Distinciones clave................................................ ................................................. ........................ 315
Problemas de aplicación.................... ................................................. ................................ 316
Notas................ ................................................. ................................................. ................... 317
X Contenido
22. Análisis e interpretación de preguntas de investigación complejas................................ 319 Análisis e

interpretación de preguntas complejas Preguntas de diferencia................................. 319 Análisis e
interpretación de preguntas asociativas complejas.... ......................... 329
Resumen.................. ................................................. ................................................. .......334 Conceptos
clave.................................... ................................................. ................................335 Distinciones
clave................ ................................................. ................................................. 335 Problemas de
aplicación.................................... ................................................. ..........335
Nota................................................. ................................................. ........................................338
Sección V Evaluación y redacción de informes de investigación
23. Evaluación de la validez de la investigación: Parte I................................. ........................................ 341 Un

marco para evaluar la validez de la investigación..... ................................................. ....... 341 Análisis del
Diseño y Métodos................................. ........................................343 Evaluación de los Cuatro
Dimensiones clave de la validez de la investigación................................348
Resumen.... ................................................. ................................................. ........................353 Conceptos
clave.................. ................................................. ................................................354 Clave
Distinciones................................................ ................................................. .................354 Problemas de
aplicación................................ ................................................. ........................354
24. Evaluación de la validez de la investigación: Parte II................................... .................................355 Validez

general de la medición de los constructos.... ................................................. ...355 Validez
externa................................................ ................................................. .................... 357 Otras
cuestiones................................ ................................................. ................................................. 361 El
Relativo Importancia de las diferentes dimensiones de validez................................ 362
Resumen ................................................. ................................................. ................................363
Conceptos clave................. ................................................. ................................................. ..364
Distinciones clave................................................. ................................................. ....................364
Problemas de aplicación................... ................................................. ................................364
25. Evaluaciones narrativas de los cinco artículos de muestra................................. ................. 367 Estudio 1:
Un experimento aleatorio.................... ................................................. ..368 Estudio 2: Un cuasi
experimento................................. ................................................. ... 370 Estudio 3: Un estudio no
experimental que utiliza el enfoque comparativo.................. 373 Estudio 4: Un estudio no experimental
que utiliza el enfoque asociativo. ................... 375 Estudio 5: Un estudio puramente
descriptivo.................. ................................................. ........377
Resumen................................................ ................................................. ........................................ 379
Conceptos clave....... ................................................. ................................................. ............380
Distinciones clave................................. ................................................. ................................ 381 Problemas
de aplicación................ ................................................. ........................................ 381
Nota....... ................................................. ................................................. ................................ 381
26. Evaluación de la investigación para la práctica basada en la evidencia................................. .................383

Niveles de evidencia................................. ................................................. .................................383
Problemas con el uso de niveles de jerarquías de evidencia... .................................386 El proceso de la
práctica basada en la evidencia...... ................................................. ....................388
Resumen................................ ................................................. ................................................. 389
Conceptos clave................................................ ................................................. ........................389
Contenido xi
Distinciones clave................................................ ................................................. .................389 Problemas

de aplicación.................. ................................................. ................................390
27. Redacción del informe de investigación................................................ ................................................ 391

La anatomía de un artículo de investigación................................................ ........................................ 391
Cómo escribir sobre sus resultados.... ................................................. ........................................ 398
Cuestiones éticas relacionadas con la publicación y la revisión. ................................................. ..402
Resumen................................................ ................................................. ................................407 Conceptos
clave................. ................................................. ................................................. ......407 Distinciones
clave.................................. ................................................. ........................407 Problemas de
aplicación.................... ................................................. ................................408
Notas................................................. ................................................. ................................409
Referencias................................................. ................................................. ................................ 411
Apéndices
Apéndice A: Lecturas sugeridas................................................. ................................................ 421
Apéndice B: Términos confusos................................................ ................................................. .423
Apéndice C: Glosario................................................ ................................................. ................427
Apéndice D: Problemas y preguntas de investigación de redacción................................ ........439
Apéndice E: Preguntas para evaluar la validez de la investigación.................................... ......443
Apéndice F: Elaboración de tablas y figuras de la Asociación Estadounidense de Psicología...447
Índice de materias ................................................ ................................................. ................................453

Índice de autores ................................................ ................................................. ................................ 467
Prefacio
En esta segunda edición de Métodos de investigación en entornos aplicados: un enfoque integrado para el
diseño y el análisis, continuamos promoviendo nuestra filosofía de un enfoque integrado para los métodos de
investigación cuantitativos y para la selección e interpretación de los análisis de datos. Nuestro libro proporciona
orientación para estudiantes de posgrado en ciencias conductuales aplicadas sobre la planificación y realización
de un proyecto de investigación, incluida la recopilación y el análisis de datos y la redacción de un informe de
investigación. Las disciplinas objetivo incluyen educación, salud afines, psicología y otras áreas de ciencias
del comportamiento aplicadas.
Descripción general del contenido
El índice muestra los 27 capítulos divididos en cinco secciones: (I) Capítulos Introductorios; (II) Enfoques,
preguntas y diseños de investigación cuantitativa; (III) Muestreo, Medición y Recolección de Datos; (IV) Análisis
e Interpretación de Datos; y V)
Evaluación y redacción de informes de investigación. Aunque hemos organizado los capítulos en un orden
lógico, también queríamos que las secciones y los capítulos fueran “independientes” en la medida de lo
posible. Esto requirió cierta repetición, o al menos una breve redefinición de términos en varios puntos del texto.
Por lo tanto, el lector debería tener cierta flexibilidad para saltarse capítulos o leerlos en un orden diferente. Por
ejemplo, la primera sección del capítulo 27, “Anatomía de un artículo”, podría ser parte de una conferencia
inicial para presentar a los estudiantes lo que se podría esperar al leer un artículo de revista.
Seguimos creyendo que todas las fases del proceso de investigación son interdependientes. Muchos autores
tratan las diferentes partes de sus libros sobre métodos de investigación como esencialmente no relacionadas.
En ningún momento esto es más obvio que cuando se observa el plan de estudios de un programa de
posgrado típico, donde un curso de métodos de investigación está separado de un curso de medición y la
estadística se enseña como si no tuviera relación con el diseño de la investigación. Seguimos defendiendo
firmemente que en cualquier estudio de investigación cuantitativa, el diseño de la investigación guía el análisis
de los datos y que los dos no deben verse como áreas de contenido totalmente diferentes, que deben enseñarse
en dos cursos diferentes. Hemos tenido muchas experiencias en las que los estudiantes tienen un buen
conocimiento de la estadística pero no tienen idea de por qué se utiliza un análisis particular para un diseño
particular. Sin embargo, este no es un libro de estadística, por lo que contiene pocas fórmulas o cálculos.
Hemos tratado de hacer que este libro sea amigable para los estudiantes y además sofisticado, en parte siendo
consistente y claro en la terminología y en parte organizando el material de manera que los distintos capítulos
sean consistentes y encajen entre sí de manera lógica.
Hemos descubierto en nuestro enfoque de la enseñanza de métodos de investigación que los estudiantes se
confunden debido a una terminología inconsistente. Quizás el ejemplo más común sea la confusión creada por
los términos selección y asignación. Tradicionalmente, los textos de investigación han intercambiado los dos
términos para que los estudiantes no puedan distinguir entre la selección para el estudio, una cuestión de
validez externa, y la asignación a grupos, una cuestión de validez interna. Otro ejemplo es el término validez.
¿Es este un término que debe utilizarse únicamente al evaluar una herramienta de medición, o se aplica a la
evaluación del diseño de un estudio o al estudio completo? Esto nos recuerda las palabras frecuentemente
repetidas e intencionalmente de Bruce Thompson.
xiii
xiv Prefacio
comentario jocoso en sus numerosos talleres nacionales: “Usamos estos términos diferentes para confundir a los
estudiantes de posgrado”. Por estas razones hemos intentado presentar una semántica
Panorama general consistente y coherente de lo que llamamos enfoques de investigación (por ejemplo, experimentales,
cuasiexperimentales) y cómo conducen a tres tipos básicos de preguntas de investigación.
(diferencial, asociacional y descriptivo), que, a su vez, conducen a tres tipos o grupos
de estadísticas con los mismos nombres. Nos damos cuenta de que estos y otros intentos de desarrollar
y utilizar un marco consistente son a la vez no tradicionales y algo así como una simplificación excesiva. Sin embargo,
creemos que el marco y la coherencia dan sus frutos en términos de
comprensión y capacidad para diseñar investigaciones y utilizar estadísticas para ayudar a responder
preguntas de investigación.
Características distintivas
Una característica importante del libro es el énfasis en que los estudiantes se conviertan en buenos consumidores de
investigación , ayudándolos a analizar y evaluar artículos de investigación. Los capítulos 23 y 24 traen
Reúne muchos puntos de capítulos anteriores en un marco integrado para el análisis.
y evaluación de artículos de investigación utilizando ocho escalas de calificación para evaluar la validez de la investigación.
y la validez de un estudio completo.
Una segunda característica es que el texto tiene una gran cantidad de diagramas y tablas que resumen
varios temas y mostrar de forma diferente temas que a menudo resultan confusos o difíciles de entender.
aprenda lo suficientemente bien como para postularse. Los estudiantes visuales pueden apreciar especialmente las figuras y tablas.
Una tercera característica del libro es la división de todas las preguntas de investigación cuantitativa (y
(piense también en la investigación cualitativa) en cinco categorías que llamamos enfoques de investigación: experimental
aleatorio, cuasiexperimental, comparativo, asociativo y descriptivo. Complejo
los estudios pueden utilizar más de uno de estos enfoques; por ejemplo, los estudios de “encuesta” a menudo
Tienen preguntas de investigación descriptivas, comparativas y asociativas.
Esta categorización de la investigación o, más exactamente, de las preguntas de investigación en una de cinco
Los enfoques han sido útiles por varias razones. Uno es con respecto a las discusiones sobre causa y efecto. Creemos
que las preguntas causales sólo pueden responderse adecuadamente con experimentos aleatorios bien controlados y, en
menor medida, con experimentos cuasiexperimentales.
acercarse. Ni el enfoque comparativo ni el asociativo son adecuados para abordar
con causa y efecto.
Otra razón por la que nuestra clasificación de enfoques de investigación es útil es que se puede
seguir el proceso de investigación desde el propósito hasta la pregunta/hipótesis y el análisis de datos. Para
Por ejemplo, en general, los experimentos aleatorios, cuasiexperimentales y comparativos.
Los enfoques utilizan lo que llamamos estadísticas inferenciales de diferencias, como la prueba t o el análisis de
varianza, mientras que el enfoque asociativo utiliza estadísticas inferenciales asociativas, como
correlación y regresión múltiple. Nos damos cuenta de que todas las estadísticas inferenciales paramétricas son
relacional (casos especiales de correlación canónica), pero creemos que es útil para la educación hacer la distinción antes
mencionada, que es consistente con nuestro marco para
enfoques de investigación, así como la mayoría de los libros de estadística básica.
Una cuarta característica del libro es lo que llamamos la clasificación del diseño basada en los tres
Principales tipos de diseño: entre grupos, dentro de materias y diseños mixtos . Estos generales
Las clasificaciones se aplican tanto al enfoque comparativo como a los enfoques experimental y cuasiexperimental, que
han sido más tradicionales. Mostramos que aunque estos
Tres tipos de enfoques utilizan el mismo tipo general de estadística (por ejemplo, análisis de varianza,
Prefacio xvi
ANOVA), las estadísticas específicas para los diseños entre grupos son diferentes de las de los sujetos
y de las de los diseños mixtos. También señalamos que el enfoque asociativo utiliza un conjunto
diferente de estadísticas, pero los datos se parecen a los datos de un diseño intrasujetos. Por lo tanto,
una característica distintiva del libro es nuestro énfasis en la integración del diseño y la selección de
técnicas de análisis de datos.
Aunque nuestra experiencia es en educación y psicología, hemos trabajado e impartido cursos de
investigación en departamentos aplicados que incluyen terapia ocupacional, educación, desarrollo
humano y estudios familiares, y ciencias del consumidor y comercialización, así como psicología.
Además, hemos tenido en nuestras clases estudiantes de negocios, musicoterapia, trabajo social y
trastornos de la comunicación, por mencionar algunas de las áreas más comunes. Por lo tanto, creemos
que comprendemos bien los tipos de problemas de investigación que enfrentan los estudiantes de
maestría y doctorado en estas diversas áreas y hemos diseñado un libro que consideramos fácil de usar
y sofisticado.
Cambios principales con respecto a la primera
edición • El cambio más grande es la inclusión de una tercera autora, Nancy Leech. Actualmente,
el profesor Leech enseña métodos de investigación cuantitativos y cualitativos en un programa
de posgrado en educación. Su experiencia en el área de la medición, incluidas la confiabilidad
y la validez, es especialmente valiosa para mantenerse al día con los cambios propuestos por
la Asociación Estadounidense de Psicología (APA) y la Asociación Estadounidense de
Investigación Educativa (AERA).
• Las pruebas de significación de hipótesis nulas (NHST) siguen siendo un área de controversia
para investigadores y estadísticos. Consideramos que la importancia de este tema debería
abordarse agregando un segundo capítulo (“Hacer inferencias a partir de datos de muestra II:
el enfoque basado en evidencia”) sobre inferencia estadística. En este nuevo capítulo
enfatizamos la presentación de informes de intervalos de confianza y tamaños del efecto.
También discutimos el importante papel que el metanálisis ha llegado a desempeñar en todas
las disciplinas científicas. • De acuerdo con nuestra filosofía de que los estudiantes deben saber
cómo evaluar todos los aspectos de un estudio de investigación, dividimos nuestro marco para
evaluar la investigación en dos capítulos separados (“Evaluación de la validez de la
investigación: Parte I” y “Evaluación de la validez de la investigación: Parte II”) . Además,
agregamos un capítulo siguiente que demuestra nuestro marco de evaluación con cinco
artículos de muestra que se introdujeron en el Capítulo 1 y se utilizaron en varios otros
capítulos para ilustrar los conceptos discutidos en esos capítulos.
• Se ha cambiado algo el orden de los capítulos; por ejemplo, los capítulos sobre confiabilidad y
validez de las mediciones (ahora capítulos separados) y una descripción general de las
técnicas de recopilación de datos se han trasladado a los Capítulos 11 a 13. El capítulo sobre
la validez de la medición se ha reescrito ampliamente para que sea coherente con los
estándares actuales de APA/AERA/Consejo Nacional de Medición en Educación (NCME).
• Hay menos capítulos que tratan de estadísticas inferenciales y su interpretación. Los capítulos
20 a 22 proporcionan una introducción actualizada a la estadística inferencial, cómo se
relaciona su selección con el diseño del estudio y cómo interpretar los resultados, utilizando no
sólo NHST sino también tamaños de efecto e intervalos de confianza.
xvi Prefacio
• Debido a que se espera cada vez más que los médicos y otras personas que trabajan en entornos
aplicados basen sus tratamientos/intervenciones en evidencia científica, hemos agregado un
capítulo sobre la evaluación de la evidencia para la práctica basada en evidencia.
• El Capítulo 7 (“Enfoques y diseños no experimentales”) es ahora un capítulo separado e incluye una
breve introducción a los enfoques de investigación cualitativa. • El Capítulo 2
(“Planificación de un proyecto de investigación cuantitativa”), el Capítulo 15 (“Cuestiones prácticas en
la recopilación y codificación de datos”) y el Capítulo 27 (“Redacción del informe de investigación”)
brindan consejos prácticos sobre cómo realizar investigaciones y son en gran medida nuevos en
este tema. edición.
Los comentarios que hemos recibido de estudiantes y colegas, especialmente aquellos que han utilizado
nuestro texto para impartir sus clases de investigación, nos llevan a seguir creyendo que tenemos un buen
texto sobre métodos de investigación que ayudará a los estudiantes de posgrado a comprender, evaluar y
mejorar. realizar investigaciones, temas que a menudo son innecesariamente aterradores para los estudiantes
en campos aplicados.
Herramientas de aprendizaje y ayudas didácticas Este
libro tiene una serie de características para ayudar a los estudiantes a comprender, evaluar y realizar
proyectos de investigación. Cada capítulo termina con un resumen, listas de términos clave y distinciones
clave, y varios problemas de aplicación basados en el material analizado en el capítulo. Los conceptos clave
se definen en el Glosario (Apéndice C) y se identifican en el capítulo, ya sea en un título de sección o en
negrita. Las listas de distinciones clave deberían ayudar a los estudiantes a centrarse en los términos que es
importante distinguir o contrastar. El Apéndice B, “Términos confusos”, también está diseñado para ayudar a
los estudiantes a identificar términos parcialmente similares (p. ej., asignación aleatoria y muestreo aleatorio )
que deben distinguirse. El Apéndice B también identifica diferentes términos para conceptos similares (p. ej.,
variable dependiente y variable de resultado) que se usan indistintamente en la literatura de investigación y
en este libro. Estas características deberían ayudar a aliviar la confusión semántica mencionada anteriormente.
El Apéndice A proporciona una breve lista de libros y artículos que hemos encontrado especialmente útiles
para los estudiantes a medida que aprenden e implementan proyectos de investigación. El Apéndice D
proporciona plantillas y ejemplos de cómo escribir problemas de investigación y cinco tipos de preguntas de
investigación; Los cinco artículos de muestra, que se describen y evalúan a lo largo del texto, se utilizan para
ilustrar cómo escribir preguntas de investigación. El Apéndice E enumera las 19 preguntas que utilizamos en
nuestra evaluación integral de artículos de investigación. Finalmente, el Apéndice F proporciona información
y ejemplos de tablas y figuras en formato APA. Los apéndices están destinados a proporcionar consejos
prácticos a nuevos investigadores.
El material de recursos para instructores se encuentra en un sitio web protegido con contraseña en http://
www.psypress.com/appliedsettings. Su objetivo es ayudar a los profesores que utilizan el texto en sus clases.
Un recurso adicional que los instructores y estudiantes pueden encontrar útil es el sitio web de 4Researchers
(http://www.4Researchers.org), financiado por el Instituto Nacional de Salud Mental. Este sitio ofrece más de
250 entrevistas con expertos respetados, incluidos consejos prácticos sobre diseño de investigaciones,
estadísticas y avance profesional.
Expresiones de gratitud
Los capítulos 20 a 24 del libro actual amplían y reimprimen varias tablas, figuras y parte del texto
de Understanding and Evaluating Research in Applied and Clinical Settings (ISBN 0805853316)
de Morgan, Gliner y Harmon (2006) publicado. por Lawrence Erlbaum Associates, ahora bajo el
grupo Routledge/Taylor & Francis. También reconocemos que algunas tablas, figuras y texto de
los capítulos 14 y 27 y del Apéndice F son reimpresos de Leech, Barrett y Morgan's (2008), SPSS
for Intermediate Statistics (ISBN 13978080586267 ). 6) o del SPSS for Introductory Statistics de
Morgan, Leech, Gloeckner y Barrett (2007) (ISBN 9780805860276). Agradecemos a nuestros
colegas Karen Barrett y Gene Gloeckner por el uso de esos materiales. Puede encontrar información
sobre estos libros en http://www.researchmethodsarena.com.
Nos gustaría agradecer a varios revisores, Marty Drell, Mina Dulcan, Brian Isaacson, Kenneth
Solberg, CherngJyh Yen, Kimberly S. Maier, Jie Hu y Nancy L. Leech, por sus revisiones de esta y
de versiones anteriores de este material. . Varios colegas, Karen Atler, Robert Fetsch, Gail Gliner,
Orlando Griego, Helena Kraemer, David MacPhee, Maura MacPhee, Jerry Vaske y Ray Yang,
también brindaron comentarios útiles sobre versiones anteriores. Muchos estudiantes actuales y
anteriores brindaron sugerencias para mejorar el manuscrito en varios puntos de su desarrollo;
queremos reconocer especialmente a Joan Anderson, Shelly Haddock, Lori Teng, MeiHuei Tsay y
Sue Tungate. Debemos un agradecimiento especial a Gene Gloeckner, Andrea Fritz y Kathryn Kidd,
quienes leyeron atentamente el manuscrito actual e hicieron sugerencias útiles; Kathryn también
escribió los nuevos problemas de aplicación y el Apéndice C (Glosario) para esta edición. Don
Quick escribió el Apéndice F (“Creación de tablas y figuras APA”); su ayuda técnica y la de Ian
Gordon fueron fundamentales. Nuestras procesadoras de textos, Alana Stewart y Sophie Nelson,
fueron de especial ayuda en la producción de las tablas, las figuras y el manuscrito.
Finalmente, queremos agradecer a nuestros cónyuges, Gail, Hildy y Grant, por su apoyo durante
la escritura de este libro y a lo largo de los años.
JAG, GAM, NLL
xvii
Sección I
Capítulos introductorios
1
Definiciones, propósitos y dimensiones de la investigación
En este capítulo, analizamos definiciones y varios propósitos de la investigación. Luego, describimos importantes
dicotomías o dimensiones según las cuales varían los estudios de investigación. A continuación, proporcionamos
una visión general de nuestro marco general para describir los tipos de investigación cuantitativa que llamamos
enfoques. Finalmente, describimos brevemente cinco estudios que sirven como ejemplos para cada uno de los
cinco enfoques de investigación. Los estudios de muestra se utilizarán en este y varios capítulos posteriores
para ilustrar conceptos de investigación y cómo evaluar la investigación.
Definiciones de investigación
¿Qué es la investigación? Se han dado muchas definiciones. Dos ejemplos son (1) un método sistemático para
obtener nueva información y (2) un esfuerzo persistente por pensar con claridad. La definición utilizada por las
agencias gubernamentales con fines de regulación federal y protección de los participantes humanos es la
recopilación sistemática de datos que desarrolla o contribuye al conocimiento generalizable. Dichos datos están
destinados a ser publicados, son parte de una tesis o disertación, se presentan al público o se desarrollan para
que otros puedan aprovecharlos. (Las cuestiones éticas y prácticas de la revisión de la investigación en
humanos se analizan en los Capítulos 14 y 15.)
Smith (1981), en una definición antigua pero aún útil, sugiere que el término investigación se equipare a la
indagación disciplinada, que
… debe realizarse e informarse de manera que su argumento lógico pueda examinarse

cuidadosamente; no depende de la plausibilidad superficial ni de la elocuencia, estatus o autoridad
de su autor; se evita el error; se valoran prueba probatoria y verificación; se valora la búsqueda
desapasionada de la verdad por encima de la ideología. Cada pieza de investigación o evaluación,
ya sea naturalista, experimental, de estudio o histórica, debe cumplir con estos estándares para
ser considerada disciplinada. (pág. 585)
Vale la pena considerar con cierto detalle la definición de Smith de investigación disciplinada. El término
indagación implica una investigación sistemática, que ciertamente forma parte de cualquier definición de investigación.
Independientemente del paradigma de investigación particular al que se adhiera el investigador, deben existir
pautas subyacentes sobre cómo se llevará a cabo la investigación. El foco de este libro son los métodos
cuantitativos, por lo que la mayor parte de nuestra discusión girará en torno a esa estrategia de investigación.
Tenga en cuenta que la definición de investigación disciplinada establece que la investigación debe realizarse
e informarse para que pueda examinarse cuidadosamente. La parte realizada de la definición implica que la
investigación debe realizarse. Diseñar una investigación no sirve para nada si no se realiza realmente. Además,
la investigación debe informarse, es decir, publicarse en una revista o al menos pronunciarse como charla en
una reunión profesional. Esta función de difusión es importante si la investigación va a ser examinada por otros
con cierto detalle. A menos que la investigación se realice y se informe, no se puede evaluar ni replicar para
determinar si, dadas circunstancias similares, otros llegarían a la misma conclusión que los investigadores.
3
4 Métodos de investigación en entornos aplicados: un enfoque integrado para el diseño y el análisis
Finalmente, esta definición hace referencia a que la investigación debe sustentarse por méritos propios.
No debería importar quién realizó la investigación, con qué elocuencia podría describirse o incluso la naturaleza
del problema. Si la investigación se ha llevado a cabo sistemáticamente, siguiendo pautas dentro de un
paradigma de investigación particular y difundida dentro de una disciplina particular, entonces esa investigación
podría ser probada o verificada por otros. Si bien ha habido numerosos intentos de definir la investigación,
creemos que esta definición incluye los elementos clave del concepto.
Propósitos de la investigación
¿Por qué investigamos? ¿Qué es lo que queremos descubrir? Algunas preguntas desde la educación que se
han abordado con estudios de investigación son las siguientes:
• ¿El tamaño de la clase afecta los resultados de los estudiantes?
• ¿Es el aprendizaje cooperativo más exitoso que el aprendizaje individualizado? • ¿Los

estudiantes con necesidades especiales obtienen mejores resultados si se los integra en el sistema escolar?
Algunas preguntas que deben abordarse en campos aliados de la salud son las siguientes:
• ¿Funciona algún tratamiento en particular? •

¿Algunas características de los terapeutas son más efectivas que otras? • ¿El empleo
con apoyo tiene más éxito para la integración comunitaria que el alojamiento?
¿Trabajado?
Hay muchos propósitos para realizar una investigación. La justificación para aprender sobre investigación se
dividirá en dos propósitos generales: (1) aumentar la base de conocimientos de la disciplina; y (2) aumentar su
autoconocimiento como consumidor profesional de investigaciones para comprender los nuevos desarrollos
dentro de la disciplina.
Incrementar la base de conocimientos de la disciplina Este
propósito de la investigación, el descubrimiento de nuevos conocimientos, puede tomar muchas direcciones; tres
de ellos se analizan aquí.
La investigación sobre
desarrollo teórico puede respaldar la base teórica de la disciplina. Una teoría presenta conceptos, definiciones y
proposiciones interrelacionadas que proporcionan una visión sistemática de los fenómenos e identifican
relaciones entre variables. Por ejemplo, la actividad con propósito es un constructo dentro de la teoría de la
ocupación en el campo de la terapia ocupacional. La teoría establece que si la actividad tiene un propósito, el
individuo que la realiza invertirá más en ella y se desempeñará mejor. Los estudios para probar esta teoría
podrían utilizar el siguiente diseño de investigación. Se forman dos grupos mediante asignación aleatoria, lo que
significa que se utiliza una tabla de números aleatorios, o quizás un lanzamiento de moneda, para asignar a
cada participante al grupo experimental o de comparación . Un grupo (grupo de comparación) recibe una
Definiciones, propósitos y dimensiones de la investigación 5
condición del ejercicio (p. ej., saltar en el lugar). El otro grupo (grupo experimental) también salta en el
lugar, pero esto lo hace con una cuerda para saltar y el objetivo o propósito de hacerlo bien.
Al final de un período de tiempo determinado, se mide el desempeño, la satisfacción o la motivación de
los dos grupos. Si, como predijo la teoría, la condición de ejercicio con propósito era mejor que la condición
de ejercicio sin propósito, el resultado proporcionaría cierto apoyo a la teoría.
Aplicación práctica
Un segundo enfoque para aumentar el conocimiento dentro de la disciplina implica proporcionar evidencia
de la eficacia de un plan de estudios, una técnica terapéutica o un cambio administrativo cuando puede
que no exista una teoría que prediga los resultados. Por ejemplo, se podría comparar la eficacia de dos
enfoques para enseñar a los estudiantes. Después de asignar aleatoriamente a los estudiantes a uno de
dos planes de estudio, ambos grupos son evaluados según varias medidas de resultados, como pruebas
de rendimiento. Este tipo de estudio se suele utilizar para probar la eficacia de diferentes intervenciones
terapéuticas o curriculares. Observe que el diseño de este estudio y el anterior son similares, pero los
propósitos son algo diferentes.
Desarrollo de herramientas de
investigación Un tercer enfoque para aumentar el conocimiento dentro de la disciplina implica la creación
de métodos para evaluar conductas. Por ejemplo, los investigadores podrían desarrollar un nuevo
procedimiento de prueba estandarizado y un conjunto de tareas para evaluar la motivación de dominio en
niños pequeños. El procedimiento podría diseñarse para que sea útil para niños con un desarrollo típico y
también para niños que corren riesgo de sufrir problemas de desarrollo. Para comparar niños con diferentes
niveles de capacidad, se podría desarrollar un enfoque individualizado para medir la motivación de dominio.
Este enfoque podría variar la dificultad de la tarea de acuerdo con el nivel de habilidad del niño, de modo
que a cada niño se le asignen tareas que sean moderadamente difíciles. La motivación de cada niño se
evalúa con tareas, a partir de varios conjuntos graduados de tareas similares que resultan desafiantes
pero no demasiado difíciles ni demasiado fáciles. La evidencia de la validez o utilidad de estas medidas de
tareas de dominio podría confirmarse de varias maneras. Por ejemplo, los grupos de niños (p. ej., aquellos
que están en riesgo) que se había predicho que obtendrían puntuaciones más bajas en las medidas de
motivación de dominio podrían compararse con un grupo de niños con un desarrollo típico.
Aumentar su autoconocimiento como profesional Para la
mayoría de los estudiantes y profesionales, la capacidad de comprender y evaluar la investigación en su

disciplina puede ser más importante que hacer personalmente una contribución de investigación a la
profesión. La difusión de nuevos conocimientos se produce para el profesional a través de un número
excepcionalmente grande de revistas, talleres y cursos de educación continua, así como de literatura
popular como los diarios. El profesional de hoy no puede confiar simplemente en las declaraciones de un
instructor de taller o del periódico para determinar qué debe o no incluirse en futuras intervenciones en el
aula, la clínica o la comunidad.
Incluso los artículos de revistas deben ser examinados en busca de diseños débiles, análisis de datos
inapropiados o interpretaciones incorrectas de estos análisis. El profesional actual debe tener capacidad
de investigación y razonamiento para poder tomar decisiones acertadas y sustentarlas. Además, las
habilidades de investigación pueden hacer que el profesional en educación o ciencias terapéuticas sea un
mejor proveedor porque sabe cómo examinar su propia escuela, aula o clientes y observar si se han
producido mejoras en diversas áreas.
Debido a que es importante realizar investigaciones (hacer una contribución a la profesión) y comprender las
investigaciones de otros, este libro proporciona un marco y consejos para
haciendo ambas cosas. A lo largo del libro se encuentran sugerencias para diseñar un estudio, recopilar datos, analizarlos
y escribir los resultados. Un marco para la comprensión
y evaluar la investigación se presenta más adelante en este capítulo y se amplía en los Capítulos
23–25.
Dicotomías de investigación
Ahora, analizamos brevemente seis contrastes o dicotomías que pueden usarse para describir la investigación:
(1) teórico versus aplicado; (2) laboratorio versus campo; (3) informe del participante versus
observación del investigador; (4) marco filosófico o teórico cuantitativo/postpostivista versus cualitativo/constructivista ; (5)
cuantitativo/objetivo versus cualitativo/
datos subjetivos y métodos de recopilación de datos; y (6) análisis de datos cuantitativos/estadísticos versus cualitativos/
descriptivos .
Aunque algunos estudios encajan bien en un extremo de cada dicotomía, otros son mixtos.
Por ejemplo, algunos estudios tienen medidas tanto informadas por los participantes como observadas por el investigador .
Algunos estudios utilizan métodos y datos tanto cualitativos como cuantitativos .
Teórico versus aplicado
La mayoría de las disciplinas de las ciencias sociales realizan investigaciones con alguna aplicación en mente. La meta
de la investigación está dirigida hacia algún uso práctico específico, como tratamiento, mejora del aprendizaje o
evaluación. Se realizan algunas investigaciones teóricas en las que
puede o no ser alguna vez una aplicación del conocimiento adquirido. La mayor parte de la investigación
Los proyectos que examinamos en este libro se encuentran en el extremo aplicado de esta dimensión. Sin embargo,
todos los estudios tienen o deben tener algún marco teórico o conceptual y basarse
en literatura de investigación previa, incluso si se aplica el propósito principal. las cinco muestras
Los estudios que se describen más adelante en este capítulo cumplen con estos criterios para la investigación aplicada porque
Tienen un marco conceptual y describen cómo el estudio actual encaja con el pasado.
literatura de investigación.
Laboratorio versus campo
Una segunda dicotomía para describir un estudio de investigación es el entorno. El término campo podría significar
una clínica, escuela, lugar de trabajo o en casa. El laboratorio implica un entorno controlado y estructurado.
ahí no es donde los sujetos o participantes suelen vivir, trabajar o recibir terapia. En el
En ciencias sociales y afines de la salud, un laboratorio suele referirse a una sala con una cámara de vídeo y micrófonos
(es decir, un entorno un tanto antinatural). Las disciplinas de las ciencias sociales generalmente
realizar investigaciones que se inclinen hacia el extremo de campo de la dimensión para que sean más ecológicamente
válidas, pero los entornos de laboratorio proporcionan un mejor control sobre variables extrañas. A veces
Las pruebas de los participantes, para obtener las medidas de la variable dependiente, se realizan de forma controlada.
entornos de tipo laboratorio, al igual que algunos estudios sobre el comportamiento de juego de los niños pequeños.
Los estudios realizados en aulas o en los hogares de los participantes se denominarían entornos de campo, al igual
que los estudios en los que profesores o trabajadores estaban en sus oficinas. Ocasionalmente,
un estudio utilizará tanto un entorno de campo (p. ej., el hogar) como una observación de laboratorio.
Informe del participante versus observación del investigador
En algunos estudios, los participantes informan al investigador (por escrito u oralmente) sobre sus actitudes,
intenciones o comportamiento. En otros estudios, el investigador observa y registra directamente el
comportamiento de los participantes, por ejemplo, el comportamiento de juego de los niños o el examen
físico de un paciente. A veces, los investigadores utilizan instrumentos, como pruebas estandarizadas o
monitores de frecuencia cardíaca, para "observar" el funcionamiento del participante. Por ejemplo, se
podrían utilizar pruebas de rendimiento en un estudio en lugar de pedir a los participantes que califiquen
cuánto creen que han aprendido.
Una gran cantidad de investigaciones en las ciencias sociales aplicadas y la educación se basan en
informes de los participantes mediante entrevistas o cuestionarios. Por ejemplo, los participantes podrían
informar sobre la calidad de vida. Estos informes de los participantes siempre están influenciados por el
hecho de que los participantes saben que están en un estudio; es posible que quieran complacer al
investigador; o puede que quieran ocultar cosas, las hayan olvidado o no sepan realmente cosas. Por
estas razones, muchos investigadores prefieren los datos conductuales observados por el investigador,
aunque estos datos también tienen limitaciones potenciales. Por otro lado, entrevistadores sensibles y bien
capacitados pueden establecer una relación suficiente con los participantes para aliviar algunos de los
sesgos inherentes a los autoinformes.
Paradigmas filosóficos cuantitativos versus cualitativos Esta es la
dicotomía más confusa y controvertida, porque trata de diferencias filosóficas o de paradigmas en el

enfoque de la investigación. Esta dicotomía filosófica (a veces llamada positivista versus constructivista)1
ha tenido un impacto importante en la forma en que se imparten los cursos de métodos de investigación
en los Estados Unidos, especialmente en la disciplina de la educación. A veces, esta dicotomía ha creado
una mentalidad de uno u otro con cursos de métodos de investigación cualitativos y cuantitativos que se
imparten por separado. En el marco pospositivista/cuantitativo, se desarrolla un plan específico antes del
estudio. En el enfoque constructivista/cualitativo, se da menos estructura al uso de directrices específicas
en el diseño de la investigación.
Sin embargo, existen pautas generales a seguir en la investigación cualitativa.
¿Qué es un paradigma? El término, acuñado por Kuhn (1970), ha sido definido y utilizado de varias
maneras en la investigación educativa (Morgan, 2007). Una interpretación del paradigma son las creencias
que comparten los miembros de una comunidad científica. Otros se refieren a un paradigma como un
sistema de ideas o un conjunto sistemático de creencias, junto con los métodos que lo acompañan. En
nuestra opinión, un paradigma es una forma de pensar y realizar una investigación. No es estrictamente
una metodología, sino más bien una filosofía que orienta cómo se puede realizar la investigación. Más
importante aún, un paradigma determina los tipos de preguntas que son legítimas y en qué contexto serán
interpretadas.
El enfoque de este libro se enmarca en el paradigma pospositivista; por tanto, se centra principalmente
en métodos cuantitativos. Creemos que un libro de texto que enfatice el enfoque cuantitativo de la
investigación tiene varias ventajas. En primer lugar, hasta la fecha, la mayoría de las investigaciones
realizadas en las ciencias sociales, la educación y disciplinas afines de la salud han utilizado una
metodología cuantitativa. Por lo tanto, es fundamental que los estudiantes de estas disciplinas puedan
comprender y aprovechar estos estudios para futuras investigaciones. En segundo lugar, y quizás lo más
importante, creemos que los experimentos aleatorios cuantitativos son la metodología más apropiada para
responder preguntas sobre si una intervención o un nuevo tratamiento produce un mejor resultado.
Creemos que una gran ventaja del enfoque cuantitativo es que los resultados de muchos estudios se
pueden combinar para producir un gran conjunto de evidencia para responder preguntas que tal vez no
puedan responderse en un solo estudio. sin embargo, el
El paradigma constructivista nos proporciona herramientas útiles, incluidos tipos de recopilación de datos,
análisis de datos y métodos de interpretación.
Datos cuantitativos/objetivos versus cualitativos/subjetivos y recopilación de datos
Los estudiantes a veces confunden la distinción paradigmática que acabamos de presentar (filosofías cuantitativas
versus cualitativas) con el tipo de datos y las técnicas de recolección de datos. Se dice que los datos cuantitativos
ser “objetivo”, lo que implica que las conductas se clasifican o cuantifican fácilmente, ya sea por
los propios participantes o por el investigador. Algunos ejemplos son variables demográficas como
como edad y sexo, puntuaciones en una prueba de rendimiento y tiempo de recuperación. Los datos suelen ser
recopilados con algún tipo de instrumento (test, dispositivo fisiológico o cuestionario) que pueda
obtuvo puntajes confiables con relativamente poco entrenamiento. Las puntuaciones de los exámenes y cuestionarios de opción múltiple.
son ejemplos de datos cuantitativos y una técnica de recopilación de datos cuantitativos.
Los datos cualitativos son más “subjetivos”, lo que indica que podrían interpretarse
de manera diferente por diferentes personas. Algunos ejemplos son percepciones de dolor, sentimientos sobre el trabajo,
y actitudes hacia la escuela. Por lo general, estos datos se obtienen de entrevistas, observaciones o documentos
narrativos como biografías. Este tipo de datos también se recogen en
estudios que son principalmente cuantitativos, pero en ese caso los investigadores normalmente traducirían
tales percepciones, sentimientos y actitudes en números. Por ejemplo, los sentimientos subjetivos de salud mental o
calidad de vida de los participantes pueden convertirse en calificaciones numéricas o
puntuaciones. Por otro lado, en los estudios que son filosóficamente cualitativos, los investigadores normalmente no
intentarían cuantificar tales percepciones subjetivas: los datos se mantienen en forma de texto.
y analizado por temas. Creemos que el enfoque de este libro es útil para abordar
con datos tanto cualitativos/subjetivos como cuantitativos/objetivos .
Tenga en cuenta que un investigador podría ser filosóficamente pospositivista, pero los datos podrían ser subjetivos
y cualitativos. De hecho, esta combinación es bastante común, especialmente cuando se observa el comportamiento de
los participantes. Por otro lado, un investigador puede abrazar el constructivista
paradigma, y algunos de los datos de respaldo pueden ser cuantitativos u objetivos. Así, el tipo
La recopilación de datos e incluso el análisis de datos no son necesariamente los mismos que el paradigma de investigación.
Es importante señalar que los estudios realizados tanto dentro del enfoque cuantitativo/postpositivista
paradigma y el paradigma cualitativo/constructivista utilizan entrevista y observación
métodos y ambos están interesados en datos tanto objetivos como subjetivos. Sin embargo, los estudios
Las actividades realizadas desde el punto de vista constructivista suelen incluir entrevistas abiertas , observaciones y
documentos narrativos, como diarios. Estudios realizados principalmente desde el punto de vista pospositivista.
punto de vista más comúnmente incluyen entrevistas estructuradas (o cuestionarios), observaciones,
y documentos como registros escolares o clínicos. Describimos los métodos de recopilación de datos en
más detalles en el Capítulo 13.
Análisis de datos cuantitativos/estadísticos versus cualitativos/descriptivos
Finalmente, discutimos una sexta dicotomía sobre cómo se analizan los datos. La interpretación y
La comprensión del análisis de datos cuantitativos es un tema importante de este libro. se trata
en detalle en los Capítulos 16 a 22, que analizan muchas de las estadísticas inferenciales más comunes y muestran
cómo se relacionan con los enfoques y diseños discutidos en los Capítulos.
4–7. El análisis de datos cualitativos implica varios métodos para codificar temas y asignar
significado a los datos, que generalmente son palabras o imágenes. Este libro no trata mucho
mucho con codificación cualitativa o técnicas de análisis de datos como el análisis de contenido. Estudios
que utilizan un marco constructivista rara vez incluyen estadísticas inferenciales, aunque a veces se utilizan las
estadísticas descriptivas analizadas en el Capítulo 10.2
Relaciones entre las seis dicotomías Algunas de las
seis dicotomías tienden, en la práctica común, a ir juntas. Por ejemplo, la investigación aplicada tiende a realizarse
en entornos naturales o de campo, a menudo utilizando informes de los participantes. La investigación constructivista
casi siempre se lleva a cabo en el campo. Por otro lado, la investigación de orientación teórica tiende a realizarse
en el laboratorio, utilizando observaciones del investigador.
Sin embargo, no existe una asociación necesaria entre ninguna de estas seis dimensiones. Por ejemplo, la
investigación aplicada se puede realizar en el laboratorio o en el campo, utilizando observaciones o informes de
los participantes y puede ser pospositivista/cuantitativa o constructivista/cualitativa. Como ya se mencionó, tanto
los investigadores pospositivistas como los constructivistas utilizan entrevistas y observaciones, por lo que estos
métodos no se limitan a un paradigma, tipo de datos o tipo de análisis de datos.
Los métodos mixtos o enfoque pragmático
Filosóficamente, los paradigmas pospositivista y constructivista son bastante diferentes, pero ambos pueden
encontrarse juntos en un solo estudio de investigación. Cuando los dos paradigmas se combinan de modo que uno
de ellos prepara el terreno o conduce al otro paradigma, el enfoque se denomina métodos mixtos. (Cuando los dos
enfoques se incluyen en el mismo estudio pero se analizan por separado, no se considera un enfoque de métodos
mixtos, sino que se utilizan dos métodos). El Manual de métodos mixtos en investigación social y conductual
(Tashakkori y Teddlie, 2002) describe varias estrategias para tales enfoques de investigación con métodos mixtos .
Morgan (2007) y Onwuegbuzie y Leech (2005) abogan por un enfoque pragmático como nuevo paradigma rector
de los métodos de investigación en ciencias sociales y terapéuticas, tanto para investigaciones que combinan
métodos cualitativos y cuantitativos como para centrar la atención en aspectos metodológicos más que
metodológicos. preocupaciones filosóficas. La investigación realizada desde el enfoque pragmático utiliza métodos
exploratorios y confirmatorios (en lugar de métodos cualitativos o cuantitativos), lo que aumenta las opciones de
los investigadores con respecto a los métodos de recopilación de datos, las herramientas de análisis de datos y
las interpretaciones.
Tipos o enfoques de investigación Ahora
describimos nuestro marco general para la investigación cuantitativa, al que llamamos enfoques, y luego
describimos brevemente cinco estudios que se utilizan en este capítulo y en posteriores como ejemplos,
especialmente para demostrar cómo evaluar un estudio de investigación. Estos estudios fueron seleccionados para
ilustrar ciertos conceptos y cuestiones clave, no porque fueran especialmente fuertes o débiles. Todos los estudios,
incluido el nuestro, tienen debilidades y fortalezas.
Casi siempre se hacen concesiones al realizar una investigación, de modo que pocos estudios, si es que hay
alguno, son sólidos en todos los aspectos de su diseño.
En este libro, toda la investigación cuantitativa se divide en tres tipos principales que llamamos experimental, no
experimental y descriptiva. Los dos primeros tipos de investigación tienen cada uno dos enfoques, como se muestra
en los párrafos siguientes. Desafortunadamente, algunos investigadores utilizan terminología algo diferente, por lo
que tenemos una sección al final del capítulo titulada "Términos diferentes para conceptos similares". Esta sección
y los términos de nuestros “conceptos clave” y “distinciones clave” deberían ayudar a centrarse en los términos
importantes y mantenerlos claros.
Investigación experimental
1. El enfoque experimental aleatorio tiene una asignación aleatoria de los participantes a los grupos
de intervención y comparación y una variable independiente activa o manipulada . 3 Se comparan
las puntuaciones de los grupos en las variables dependientes .
2. El enfoque cuasiexperimental tiene una variable independiente activa pero sin asignación aleatoria
de participantes a grupos. Nuevamente, se compara un grupo experimental o de intervención con
un grupo de participantes de control o de comparación.
Investigación no experimental (a veces llamada investigación observacional)
1. El enfoque comparativo también hace una comparación de unos pocos grupos según las variables
dependientes. Sin embargo, los grupos se basan en una variable independiente de atributo, como
el género. En ese caso, se comparan los machos con las hembras.
2. El enfoque asociativo, a veces llamado correlacional, tiene dos o más variables generalmente
continuas para el mismo grupo de participantes, que están relacionadas o asociadas. Por ejemplo,
una prueba de rendimiento se correlaciona con el ingreso familiar.
Nuevamente, la variable independiente es un atributo más que activa.
Investigación descriptiva
Utilizamos el término enfoque descriptivo para referirnos a preguntas de investigación que utilizan
únicamente estadísticas descriptivas, no inferenciales. Las estadísticas descriptivas, como promedios y
porcentajes, resumen los datos de la muestra actual de participantes sin hacer inferencias sobre la población
de interés más amplia. En el enfoque descriptivo no se hacen comparaciones ni asociaciones formales. La
investigación cualitativa podría clasificarse como un tipo de investigación descriptiva utilizando esta definición
y marco. Esta distinción entre lo que llamamos enfoque descriptivo y los otros cuatro enfoques es inusual,
pero creemos que es útil desde el punto de vista educativo, en parte, porque el término descriptivo se utiliza
de manera consistente.
Es importante señalar que la mayoría de los estudios, especialmente los complejos, utilizan más de uno
de estos enfoques porque los “enfoques” en realidad se refieren a tipos de preguntas de investigación, no
necesariamente a estudios completos. Un solo estudio suele tener más de una pregunta de investigación;
por ejemplo, los “estudios de encuestas” a menudo tienen preguntas de investigación tanto descriptivas
como comparativas y asociativas. Los estudios experimentales a menudo también incluyen una variable
independiente de atributo importante como el género y, por lo tanto, incluyen una pregunta comparativa. De
los cientos de estudios que hemos evaluado, todos encajan en una o más de estas cinco categorías según
sus preguntas de investigación y análisis de datos. El Capítulo 4 describe estos enfoques con más detalle.
Hay varias razones para categorizar las preguntas de investigación en uno de los cinco enfoques.
En primer lugar, creemos que las cuestiones de causa y efecto pueden responderse mejor con experimentos
aleatorios bien controlados y, en menor medida, con el enfoque cuasiexperimental.
Ni el enfoque comparativo ni el asociacional son adecuados para demostrar causa y efecto, pero nos damos
cuenta de que algunas estadísticas, como la regresión lineal o el modelado de ecuaciones estructurales,
pueden proporcionar alguna evidencia de causalidad a partir de estudios no experimentales.
Si un estudio no es experimental o descriptivo, rara vez proporciona información sólida sobre causa y efecto,
pero puede brindar sugerencias sobre variables relacionadas, práctica clínica efectiva y posibles causas.
En segundo lugar, nuestra clasificación de enfoques de investigación y la Figura 1.1 deberían ayudar al
lector a seguir el proceso de investigación desde el propósito general de la investigación hasta el tipo de
pregunta o hipótesis de investigación. Por ejemplo, los enfoques experimental, cuasiexperimental y comparativo.
Propósito general Explorar las relaciones entre variables Descripción (sólo)
Enfoque general Experimental No experimental

(Variable independiente activa) (Variable independiente del atributo)
Enfoque específico Aleatorizado Cuasiexperimental Comparativo asociacional Descriptivo

Experimental
encontrar asociaciones, Resumir

Propósito específico Determinar causas Examinar la causalidad Comparar grupos
Hacer predicciones Datos
Tipo de pregunta/ Diferencia asociacional Descriptivo

Hipótesis (Para comparar grupos) (Para relacionar variables)
Figura 1.1
Diagrama esquemático de cómo el tipo general de pregunta de investigación corresponde al propósito y enfoque de
el estudio.
Normalmente se comparan dos o unos pocos grupos. Por otro lado, el enfoque asociativo típicamente
asocia o relaciona variables de los participantes de un solo grupo. El enfoque descriptivo resume los datos
utilizando estadísticas descriptivas como promedios, porcentajes y varios gráficos.
Estudios de muestra
En esta sección, describimos brevemente cinco estudios, uno para cada uno de los cinco enfoques mencionados anteriormente.
introducido. Aquí nos centramos en por qué clasificamos el estudio como indicado y señalamos los
variables clave independientes y dependientes. En varios capítulos posteriores, estos estudios y otros se
utilizan para ilustrar conceptos importantes para discutir la evaluación de la validez de la investigación.
marco que recomendamos.
Estudio 1: un experimento aleatorio
El propósito de este estudio (Schellenberg, 2004) fue probar la hipótesis de que las lecciones de música
mejoran las habilidades intelectuales y el rendimiento educativo de niños de 6 años.
La variable independiente activa en este estudio fue el tipo de lección. Había cuatro tipos o
niveles de esta variable independiente: lecciones estándar de música de teclado, música de voz Kodály
lecciones, lecciones de teatro o ninguna lección. Los dos grupos de lecciones de música se consideraron
condiciones experimentales o de intervención, y los grupos de teatro y sin lecciones se consideraron
los grupos de comparación o control. (El Capítulo 3 analiza las variables y sus niveles con más detalle).
detalle.) Los 144 niños fueron asignados aleatoriamente a uno de los cuatro grupos. Porque allí
fue una variable independiente activa y los participantes fueron asignados aleatoriamente a cada
grupo, el enfoque fue experimental aleatorio.
Las variables dependientes o de resultado fueron el coeficiente intelectual (medido mediante la escala
de inteligencia para niños de Wechsler, WISCIII, escalas de coeficiente intelectual; Wechsler, 1991), el
rendimiento educativo (medido mediante la prueba de rendimiento educativo de Kaufman, KTEA; Kaufman
y Kaufman, 1985 ) y calificaciones de los padres sobre el comportamiento de sus hijos (medidas por el
Behavioral System for Children, BASC; Reynolds & Kamphaus, 1992). Estas son medidas estandarizadas
de uso frecuente con evidencia considerable que respalda la confiabilidad y validez de la medición.
Las lecciones (intervención) se impartieron en pequeños grupos de seis niños cada uno durante un
período de 36 semanas por profesionales capacitados en el Real Conservatorio de Toronto. Todos los niños
fueron evaluados antes y después de la intervención. Por lo tanto, este fue un diseño experimental aleatorio
pretestpostest.
Analizaremos más aspectos del método y los resultados en capítulos posteriores, pero aquí bastará
decir que los dos grupos musicales (combinados) ganaron más en CI que los dos grupos de comparación
combinados, pero no ganaron más de manera confiable. sobre el logro educativo. El grupo de teatro
mejoró en el comportamiento social adaptativo, pero los otros tres grupos no cambiaron en esta variable.
Estudio 2: Un cuasiexperimento
Este estudio titulado “El valor de los límites de tiempo en los cuestionarios de Internet” (Brothen y Wambach,
2004) evaluó el efecto de poner un límite de tiempo en los cuestionarios “para llevar a casa”. Se utilizaron
como participantes dos secciones de una clase de psicología. El estudio se considera cuasiexperimental
porque, aunque había una variable independiente activa, los estudiantes no fueron asignados aleatoriamente
a los dos grupos (cuestionarios cronometrados versus no cronometrados). La variable independiente activa
fue si había un límite de tiempo para que los estudiantes tomaran una prueba. Una sección del curso tenía
un límite de tiempo de 15 minutos y la otra sección no tenía límite. Los autores teorizaron que si los
estudiantes sabían que tendrían un límite de tiempo, era más probable que estudiaran el material antes de
comenzar el cuestionario en lugar de comenzar el cuestionario para llevar a casa y luego buscar las
respuestas. Las variables dependientes fueron las puntuaciones de los estudiantes en los exámenes
regulares y también el tiempo que dedicaron a las pruebas. Los estudiantes que tenían un límite de tiempo
en las pruebas obtuvieron mejores resultados en los exámenes y tardaron menos tiempo en las pruebas.
Estudio 3: Un estudio no experimental que utiliza el enfoque comparativo DiLorenzo,
Halper y Picone (2004) compararon personas mayores (60 a 85 años) y más jóvenes (29 a 59 años) con
esclerosis múltiple (EM) en cuanto a funcionamiento físico y salud mental. y calidad de vida. La variable
independiente edad es un atributo que para este estudio tenía dos niveles: mayor o menor. Hubo muchas
variables dependientes o de resultado que se clasificaron en las tres amplias categorías de funcionamiento
físico, salud mental y calidad de vida. El enfoque se consideró comparativo porque la principal variable
independiente, la edad, era un atributo y tenía solo unos pocos niveles o grupos (jóvenes y mayores) que
se comparaban en cada una de las variables dependientes. Aunque los pacientes mayores tenían un peor
funcionamiento físico, no eran diferentes de los pacientes más jóvenes con EM en cuanto a salud mental y
calidad de vida percibida cuando se controlaba la duración de la enfermedad.
Estudio 4: Un estudio no experimental que utiliza el enfoque asociativo Zamboanga,
PadillaWalker, Hardy, Thompson y Wang (2007) realizaron un estudio sobre los antecedentes académicos
y la participación en cursos como predictores del desempeño en exámenes en una clase de psicología
universitaria. El estudio se considera asociacional porque no hubo
no hay ninguna variable independiente activa ni tratamiento, y las puntuaciones de las variables independientes y
dependientes varían ampliamente de bajas a altas, por lo que son esencialmente continuas. dos de los
Las variables independientes o predichas de los atributos clave fueron las puntuaciones de ingreso a la universidad en el
ACT y la frecuencia de asistencia a las conferencias del curso. La variable dependiente o de resultado fue total
Rendimiento del examen, el promedio de las puntuaciones de los estudiantes en los cuatro exámenes. Tanto ACT como
La asistencia estaba relacionada con la puntuación total del examen y, por lo tanto, podría usarse para predecirla.
Estudio 5: un estudio puramente descriptivo
Este estudio de Wolfe et al. (2006) describieron los resultados de 112 entrevistas sobre el uso de terapia antirretroviral en
pacientes con SIDA. No se informó ninguna variable independiente en este estudio.
porque a todos los participantes se les había ofrecido la terapia y porque sus efectos eran
no evaluado en este informe. Asimismo, no se realizaron comparaciones ni asociaciones entre variables.
informó. Lo que se preguntó e informó fueron varios aspectos (variables) de la muestra, tales
como edad, género y educación. Las variables clave de resultado fueron a quién, si a alguien, le revelaron su enfermedad
y los efectos sociales percibidos de su enfermedad (cómo había afectado su vida).
relaciones sociales, capacidad para trabajar y miedo a perder el empleo). La mayoría de los participantes
habían mantenido su enfermedad en secreto para la comunidad, y muchos sintieron que afectaba su vida social.
Relaciones y capacidad de trabajo. Alrededor del 25% temía la pérdida de empleo. Aunque sólo el
En este artículo se informaron los hallazgos cuantitativos tabulados, las preguntas de la entrevista estructurada se
complementaron con preguntas cualitativas o abiertas para los 110 participantes.
Resumen
Equiparamos la investigación con la “investigación disciplinada”, que debe realizarse e informarse de manera que
que pueda ser examinado cuidadosamente. La indagación es una investigación sistemática de un asunto de interés público.
interés. Toda investigación debe realizarse e informarse para que pueda probarse y verificarse.
por otros.
Hay dos propósitos principales de la investigación: (1) aumentar el conocimiento dentro de la propia disciplina; y (2)
aumentar el conocimiento dentro de uno mismo, como consumidor profesional de
investigación. Para aumentar el conocimiento dentro de una disciplina, la investigación puede ampliar los conocimientos teóricos.
base de la disciplina, probar la efectividad de aplicaciones prácticas o desarrollar investigaciones
herramientas. Las habilidades de investigación son necesarias para poder examinar y evaluar la situación existente.
investigación en la propia disciplina.
Se discuten seis dicotomías de investigación: (1) teórica versus aplicada; (2) laboratorio versus campo; (3) informe del
participante versus observación del investigador; (4) cuantitativo/
marco filosófico o teórico pospostivista versus cualitativo/constructivista;
(5) datos cuantitativos/objetivos versus cualitativos/subjetivos y métodos de recopilación de datos;
y (6) análisis de datos cuantitativos/estadísticos versus cualitativos/descriptivos. Aunque los datos cualitativos a menudo
se recopilan dentro del paradigma constructivista, eso no es exclusivamente
el caso. Además, los datos cualitativos y el análisis de datos se pueden utilizar dentro del paradigma pospositivista. Las
seis dimensiones o dicotomías están algo relacionadas en la práctica,
pero conceptualmente son independientes. Esto significa que es posible que un estudio se ajuste a cualquier
combinación de estas seis dicotomías.
Filosóficamente, los paradigmas pospositivista y constructivista son bastante diferentes,

sin embargo, los dos pueden encontrarse juntos en un estudio de investigación. Cuando los dos paradigmas pueden
combinarse de modo que un paradigma prepare el escenario o conduzca al otro paradigma, el enfoque se
denomina métodos mixtos. El enfoque pragmático es un nuevo enfoque prometedor para la investigación en
ciencias sociales y terapéuticas que combina métodos cualitativos y cuantitativos centrados en preocupaciones
metodológicas más que filosóficas.
Clasificamos las preguntas de investigación en cinco tipos o enfoques: experimental aleatorio,
cuasiexperimental, comparativo, asociativo y descriptivo. Se describieron brevemente el enfoque y la variable
independiente y las variables dependientes para cada uno de los cinco estudios de muestra.
Conceptos clave
Los conceptos y distinciones que se enumeran a continuación se analizan en este capítulo y se definen en el
glosario. Le ayudará a aprender el material si comprende el significado de cada concepto y puede comparar y
contrastar los conceptos enumerados en las distinciones clave.
Enfoque asociativo
Enfoque comparativo
Enfoque descriptivo
Investigación disciplinada
Métodos mixtos
Enfoque pragmático
Enfoque cuasiexperimental
Asignación aleatoria
Enfoque experimental aleatorio
Teoría y desarrollo teórico.
Distinciones clave
Variable independiente activa versus variable independiente de atributo
Variable independiente o predictiva versus variable dependiente o de resultado
Investigación de laboratorio versus investigación de campo
Paradigma/marco teórico pospositivista versus constructivista

Producir conocimiento versus entender la investigación como consumidor
Análisis de datos cuantitativos versus cualitativos.
Datos y recopilación de datos cuantitativos versus cualitativos
Informe del participante versus observación del investigador
Investigación teórica versus aplicada
Términos diferentes para conceptos similares
Variable independiente activa ≈ manipulada ≈ intervención ≈ tratamiento

Enfoque asociativo ≈ correlacional ≈ encuesta
Atributo variable independiente ≈ variable medida ≈ variable de diferencia individual
Enfoque comparativo ≈ comparativo causal ≈ ex post facto
Grupo de comparación ≈ grupo de control
Variable continua ≈ distribución normal ≈ escala de intervalo
Variable dependiente ≈ VD ≈ resultado ≈ criterio
Enfoque descriptivo ≈ investigación exploratoria
Preguntas de diferencia ≈ comparaciones de grupos
Variable independiente ≈ IV ≈ antecedente ≈ predictor ≈ causa presunta ≈ factor
Niveles (de una variable) ≈ categorías ≈ valores ≈ grupos
Confiabilidad de la medición ≈ confiabilidad ≈ confiabilidad de la prueba, instrumento o puntaje
Validez de la medición ≈ validez de la prueba, instrumento o puntuación ≈ validez
Investigación no experimental (enfoques comparativos, asociativos y descriptivos;
algunos escritores llaman a los tres descriptivos) ≈ investigación observacional
Experimento aleatorio ≈ experimento verdadero ≈ ensayo clínico aleatorio ≈ ensayos de control aleatorios ≈
ECA
Validez de la investigación ≈ validez de todo el estudio
Problemas de aplicación Los
problemas de aplicación al final de cada capítulo requieren que usted aplique la información del capítulo y, a veces,
de los capítulos anteriores. Si aprende a aplicar el material, se convertirá en un buen consumidor de investigación
y en un mejor investigador.
1. El capítulo introdujo varias dicotomías de investigación (es decir, teórica versus aplicada, laboratorio
versus campo, informe de los participantes versus observación del investigador, y paradigmas
cuantitativos versus cualitativos). Identifique el extremo apropiado de cada una de las seis dicotomías
para cada uno de los siguientes ejemplos. (Recuerde que algunos proyectos de investigación pueden
utilizar ambos fines. Por ejemplo, muchos proyectos incorporan métodos de recopilación de datos tanto
cuantitativos como cualitativos; otros pueden utilizar tanto el informe de los participantes como medidas
de observación.) a. Para mejorar la terapia, un investigador estaba
interesado en saber si había diferencias en la excitación fisiológica de hombres y mujeres durante las
discusiones. Reclutó a 30 parejas y les pidió que vinieran al Centro de Consejería para la Familia
Feliz. Las parejas estaban cómodamente sentadas en una sala decorada de forma atractiva.
El investigador colocó monitores de frecuencia cardíaca y presión arterial a cada miembro de la

pareja. Luego se les pidió que identificaran y discutieran un problema.
dieciséis
Métodos de investigación en entornos aplicados: un enfoque integrado para el diseño y el análisis
área en su relación durante 20 minutos. La investigadora registró la frecuencia cardíaca y la

presión arterial de cada individuo para determinar si había diferencias entre hombres y
mujeres en su muestra.
b. Un investigador estaba interesado en saber qué características de los matrimonios se basaban
en la igualdad para ayudar a las parejas a adaptarse. También quería saber cuáles eran los
beneficios y los costos de la igualdad para mujeres y hombres. Entrevistó a parejas en su
casa durante 3 horas, haciéndoles preguntas abiertas sobre relaciones anteriores, sobre su
matrimonio, sobre la evolución de sus actitudes, sentimientos y comportamientos, y sobre
descripciones de cómo manejaban los conflictos, la intimidad y los hijos. , empleos y
cuestiones de estilo de vida. Para analizar los datos, codificó la conversación según temas
comunes que surgieron del
entrevistas.
C. Se desarrolló un modelo para explicar la respuesta de una familia a un evento estresante.

Más específicamente, el modelo fue desarrollado para explicar la adaptación de una familia
a lo largo del tiempo dadas varias variables como la naturaleza y el grado de un factor
estresante y los recursos de la familia. Un investigador está interesado en determinar si este
modelo se aplica a un evento catastrófico particular: la pérdida de la propia casa debido a
una catástrofe ambiental. El investigador recluta familias de un pueblo que recientemente
experimentó un terremoto. A los miembros de estas familias se les pide que completen
cuestionarios con medidas de variables particulares (p. ej., recursos familiares, percepciones
del evento estresante); Estas medidas se han utilizado en investigaciones anteriores sobre el
modelo.
2. Un investigador estaba interesado en saber cómo el ambiente de trabajo influye en la experiencia
de los empleados en cuanto a conflictos entre el trabajo y la familia, o el grado en que sus
responsabilidades laborales inciden en sus responsabilidades domésticas y viceversa. El
investigador obtuvo permiso de varios presidentes de empresas para recopilar datos de los
empleados de la empresa. a.
Describe cómo procedería el investigador si se tratara de una investigación de campo. Y si
¿Se hizo en un laboratorio?
b. ¿Cómo podría el investigador utilizar métodos de recopilación de datos cualitativos para obtener
información? ¿Cómo podría utilizar métodos de recopilación de datos cuantitativos?
C. Describa cómo podría utilizar las medidas del informe de los participantes para recopilar cierta
información. ¿Qué pasa con los métodos de observación?
d. ¿Esta investigación sería aplicada o teórica?

3. Un investigador está interesado en conocer las cualidades y estrategias utilizadas por las parejas
con dos ingresos que logran equilibrar las responsabilidades laborales y familiares.
Pide a cada miembro de la pareja que complete varias medidas de variables que creen que serán
particularmente relevantes, como la creatividad, el optimismo y la autoestima. También planea
entrevistar a cada pareja para conocer sus estrategias para equilibrar el trabajo y la familia. Estas
entrevistas comenzarán con la pregunta: "¿Qué es lo que usted o su vida cree que le conduce
más al éxito en el equilibrio entre el trabajo y la familia?" a. ¿Cuál de los métodos antes
mencionados para
recopilar datos es cuantitativo?
¿Cuál es cualitativo? b.
Si el investigador utiliza métodos cualitativos de análisis de datos para la entrevista, ¿cómo podría
realizar este análisis?
4. El presidente de una universidad recientemente contratado se compromete a aumentar el número

de estudiantes minoritarios que se gradúan con sus títulos de licenciatura. El presidente llama
para concertar una reunión con usted. En esta reunión, la presidenta explica que quiere que
“investigues un poco sobre este tema”. Explica que conoce otras universidades que se han fijado
y logrado este objetivo en años anteriores. También es consciente de que esta universidad ha
desarrollado varios programas en años anteriores en el esfuerzo por alcanzar este objetivo.
Quiere que usted le brinde información que la ayude a diseñar iniciativas específicas que tengan
más probabilidades de producir los resultados que desea. ¿El presidente le pide que sea
consumidor o productor de conocimiento?
¿Qué tipo de habilidades debe creer que tienes?
Notas
1. Aunque creemos que el término positivista no es una etiqueta precisa para la mayoría de los científicos sociales cuantitativos, el término
es comúnmente utilizado por escritores cualitativos/constructivistas cuando describen a los investigadores que utilizan métodos
cuantitativos. En lugar de referirse a los positivistas, Phillips y Burbules (2000) llaman a este paradigma pospositivista, y nosotros
también. Del mismo modo, el término constructivista puede no ser el mejor identificador de lo que a menudo se llama paradigma
naturalista o cualitativo , pero, nuevamente, ayuda a hacer distinciones importantes.
2. Tenga en cuenta que algunos textos sobre métodos de investigación utilizan la frase análisis de datos cualitativos para referirse al
análisis de datos categóricos o nominales, incluidas estadísticas inferenciales como chi cuadrado.
3. Una variable es una característica de una persona o situación que tiene dos o más valores (varía) en un estudio. Una variable
independiente activa es aquella como un tratamiento, taller u otra intervención que se brinda a un grupo de participantes y se retiene
o se administra de otra forma a otro grupo. Una variable independiente de atributo es aquella que no se da ni se retiene en el estudio.
Es una medida de una característica o atributo de la persona o de su situación. Las variables dependientes de un estudio son el
resultado; se supone que miden el efecto de la variable independiente (y, por tanto, dependen de ella). Las variables se analizan con
más detalle en el capítulo 3.
4. Los términos se enumeran en orden alfabético. El término que utilizamos con más frecuencia aparece a la izquierda. Términos similares
(indicado por ≈) utilizado por otros investigadores o por nosotros se enumeran a la derecha.
2
Planificación de un proyecto de investigación cuantitativa
La investigación cuantitativa comienza con un plan paso a paso de cómo se llevará a cabo la investigación.
Este plan se convierte en el mapa de cómo se llevará a cabo el estudio. Por lo tanto, es extremadamente
importante considerar todos los aspectos del estudio de investigación, de principio a fin, al organizar el plan
de investigación. Este capítulo describe el plan de investigación cuantitativa, utilizando la Figura 2.1 como guía.
En la figura se delinean capítulos específicos que presentan información sobre cada uno de los pasos del
plan. El presente capítulo se centra en los pasos 1 y 2 de la figura: el problema de investigación y la revisión
de la literatura. Los otros pasos de la figura se analizan en profundidad en capítulos posteriores.
Descripción general de los pasos del plan de investigación
Una de las características distintivas de la investigación cuantitativa es la planificación a priori, lo que

significa que se elabora un plan antes del estudio. Los pasos del plan para un estudio de investigación
cuantitativa son básicamente lineales; así, se completa el primer paso antes de pasar al siguiente.
Tradicionalmente, el proceso cuantitativo se basa en el método científico, que incluye 10 pasos relevantes
para las disciplinas de educación, salud y servicios humanos. Estos pasos, que se muestran en la Figura
2.1, se analizan brevemente:
1. El primer paso consiste en identificar el problema de investigación. Esta etapa inicial implica elegir
una pregunta que tenga el potencial de convertirse en un proyecto de investigación. ¿De dónde
viene el problema? Para muchos, especialmente aquellos en disciplinas aplicadas, el problema a
menudo proviene de una situación clínica. ¿Un tipo particular de terapia conducirá a una mejora?
¿La tecnología adaptativa aumentará las habilidades de comunicación?
¿Una evaluación particular producirá la información que necesito? Otro lugar del que pueden
surgir problemas de investigación es la literatura previa. Un estudio publicado puede ayudar a
formular preguntas que conduzcan a un nuevo estudio.
2. El segundo paso es realizar una revisión o síntesis de la literatura relevante para el problema de
investigación. La última parte de este capítulo analiza la revisión de la literatura.
3. A continuación, el investigador desarrolla hipótesis o preguntas de investigación. En esencia, esto
implica reducir el problema de investigación a hipótesis o preguntas de investigación específicas
que sean comprobables. Este paso se analiza en el Capítulo 3.
4. El siguiente paso es desarrollar un enfoque de investigación (por ejemplo, experimental aleatorio)
y un diseño que permita al investigador probar las hipótesis. El objetivo principal del diseño de la
investigación es permitir al investigador controlar o eliminar variables que no son de interés
directo para el estudio pero que podrían afectar los resultados. El diseño permite al investigador
probar o responder directamente la pregunta de investigación.
Los enfoques y diseños, discutidos brevemente en el Capítulo 1, se analizan en detalle en los
Capítulos 4 a 7.
19
Paso 1: identificar una investigación

Problema (Capítulo 2)
Paso 2: Realizar una revisión de la literatura (Capítulo 2)
Paso 3: escribir objetivos, preguntas o hipótesis de investigación

(Capítulo 3 y Apéndice D)
Paso 4: seleccione el enfoque de investigación

Diseño (Capítulos 4, 5, 6, 7)
Paso 5: crear un plan de investigación
Selecciona el Seleccionar instrumentos; Controlar Desarrollar procedimientos para datos

Muestra Fiabilidad y Validez Recopilación y análisis
(Capítulo 9) (Capítulos 11, 12, 13) (Capítulos, 10, 15, 18, 19)
Paso 6: obtener la aprobación de los sujetos humanos

(Capítulo 14)
Paso 7: recopilar datos (Capítulo 15)
Paso 8: Analizar datos para responder a la investigación

Preguntas (capítulos 16 a 22)
Paso 9: interpretar los datos y evaluar la investigación

Validez (Capítulos 8, 9, 2026)
Paso 10: Comunicar los hallazgos

Enlace al próximo estudio – Escribir manuscrito
(Capítulo 27)
Figura 2.1
Pasos del proceso de investigación para un estudio cuantitativo y los capítulos que presentan información sobre el tema.
5. A continuación, cree un plan para realizar la investigación, que incluya la selección de la muestra,
la selección o el desarrollo de los instrumentos y el desarrollo de procedimientos para la
recopilación y el análisis de datos.
6. La aprobación de la Junta de Revisión Institucional (IRB) de los sujetos humanos debe ser
obtenidos antes de la recolección de datos. Esto se analiza en el Capítulo 14.
7. El siguiente paso consiste en la recopilación de datos. Los investigadores intentan recopilar datos
de forma imparcial y objetiva. En el método tradicional, el científico no examina los datos en
detalle hasta que se ha completado el estudio (ver Capítulo 15).
Planificación de un proyecto de investigación cuantitativa 21
8. Los datos, que generalmente son números, luego se analizan utilizando estadística inferencial
como se analiza en los capítulos 16 a 22.
9. El siguiente paso implica hacer inferencias o interpretaciones a partir de los datos.
Estas interpretaciones se basan en los análisis estadísticos relacionados con las hipótesis o
preguntas de investigación como se analiza en los capítulos 20 a 22. La validez de los métodos
y análisis se evalúa utilizando la información de los Capítulos 8, 9 y 23 a 26.
10. Finalmente, los hallazgos deben comunicarse a la profesión a través de un manuscrito publicado
o una presentación profesional como se analiza en el Capítulo 27.
Este ejemplo del proceso de investigación tiene la forma de un circuito de retroalimentación. Después
del último paso, se plantea una nueva pregunta de investigación. Si se confirma la hipótesis, entonces
se podría hacer una nueva pregunta para obtener información adicional. Si la hipótesis no fue
confirmada, la nueva pregunta puede ser una modificación de la pregunta original, o la metodología
podría alterarse para volver a abordar la pregunta original.
Sin embargo, cabe señalar que la investigación cuantitativa a menudo se aleja un poco de este
formato idealizado. Es decir, en la práctica, el enfoque científico no es tan deductivo (literatura/teoría →
deducir hipótesis → probar hipótesis) ni tan rígido como implican los 10 pasos. Por ejemplo, durante el
proyecto o en la etapa de análisis de datos a menudo surgen hallazgos interesantes que no se basaron
en las hipótesis originales.
Los primeros dos pasos: (1) identificar un problema de investigación; y (2) realizar una revisión de la
literatura, se analizan en este capítulo. Los pasos restantes se analizan con más detalle en el próximo
capítulo y a lo largo de este libro. Para cada paso, los capítulos específicos que abordan el tema se
especifican en la Figura 2.1. Creswell (2009) proporciona una discusión útil sobre el proceso de
investigación tanto para la investigación cuantitativa como para la cualitativa.
Problemas de investigación
El proceso de investigación comienza con un problema. ¿ Qué es un problema de investigación? Suele

ser una oración o afirmación sobre la relación entre dos o más variables. Algunos estudios como el de
Wolfe et al. (2006) sobre el SIDA (ver Capítulo 1) son puramente descriptivos y no examinan formalmente
la relación entre las diversas variables del estudio. Es importante señalar que casi todos los estudios de
investigación reales tienen más de dos variables. Kerlinger (1986) sugiere que antes de plantear el
problema “… el científico normalmente experimentará un obstáculo para la comprensión, una vaga
inquietud sobre los fenómenos observados y no observados, una curiosidad sobre por qué algo es como
es” (p. 11).
Tres problemas de investigación de
muestra A continuación, cada uno de los tres autores de este texto describe el proceso que
experimentaron al formular un problema de investigación. Al decidir el tema de su tesis, N. LL se
interesó en lo que hace que un consejero sea “bueno” según la percepción de los clientes:
En ese momento, yo trabajaba como supervisor de estudiantes de maestría que aspiraban a

convertirse en consejeros. Había información anecdótica disponible de los clientes sobre los
consejeros en el campo: algunos fueron considerados excelentes y recibieron muchas referencias,
otros consejeros fueron considerados marginales y luego algunos no fueron considerados buenos. Cómo
Se identificaron estas diferencias entre los consejeros no fue evidente. Después de buscar en la literatura,
encontré muy poca investigación existente sobre el tema; de hecho, hubo tan poca investigación que el problema
tendría que comenzar con cuál es la definición de “buenos” cuando se trata de consejeros.
Después de leer mucho, me di cuenta de que lo que más me interesaba era cómo los clientes potenciales
elegían a un consejero. Una vez más, hubo muy poca investigación en esta área. Encontré literatura sobre la
disposición a buscar asesoramiento. La investigación en esta área se realizó principalmente con estudiantes de
pregrado. Pensé que sería interesante conocer el nivel de disposición de los consejeros en formación para
buscar asesoramiento. Existía un modelo en la literatura que explicaba la mayor parte de la variación en la
disposición de los estudiantes universitarios a buscar asesoramiento; Me preguntaba si este modelo sería
adecuado para los consejeros en formación. Por lo tanto, mis exámenes de la investigación me llevan al
problema de investigación de ¿Es el modelo de voluntad de Cramer (1999) de buscar asesoramiento adecuado
para los consejeros en formación?
Otro ejemplo proviene de JAG que trabajaba en el área de fisiología ambiental:
Iba a dar una charla en la Federación de Sociedades Estadounidenses de Biología Experimental.

Había muchos científicos conocidos en mi charla y estaba nervioso, por decir lo menos, especialmente porque
sentía que otros en la audiencia sabían más que yo sobre mi tema, la distribución regional del flujo sanguíneo
durante la intoxicación por alcohol. Durante la charla Inmediatamente antes que el mío, un colega sentado a mi
lado me preguntó cómo me sentía. Respondí que me sentía bien, pero me tomé el pulso y descubrí que mi
corazón latía a un ritmo de aproximadamente 110 latidos por minuto, considerablemente por encima de mi ritmo
cardíaco normal en reposo de 60 latidos por minuto, pero similar a mi ritmo después de un ejercicio moderado.
Me preguntaba si esta podría ser una respuesta saludable.
Primero formulé mi problema: ¿podría ser normal una frecuencia cardíaca alta en ausencia de ejercicio?
A continuación, encontré numerosos estudios que examinaban la frecuencia cardíaca en condiciones que
producían ansiedad. El ritmo cardíaco podía llegar a ser extremadamente alto, mucho más alto que el mío.
Ninguno de los estudios anteriores examinó los requisitos metabólicos (p. ej., consumo de oxígeno y gasto
cardíaco) en estas situaciones de ansiedad. Por otro lado, varios estudios han examinado las necesidades
metabólicas de la frecuencia cardíaca durante el ejercicio. Estos estudios consideraron normal la frecuencia
cardíaca elevada después del ejercicio, ya que el corazón debe entregar una mayor cantidad de oxígeno a los
tejidos bajo demandas metabólicas más altas. El problema ahora se convirtió en una pregunta general: si
midiéramos las demandas metabólicas de una situación de ansiedad, ¿sería similar a una situación de ejercicio?
Ahora se hizo evidente un obstáculo. ¿Cómo podríamos crear dos situaciones, una de ansiedad y otra de
ejercicio, que produjeran frecuencias cardíacas similares? Para eliminar esta barrera, decidimos utilizar un
diseño intrasujetos, donde cada participante participó en todas las condiciones del estudio. En primer lugar,
podríamos determinar la frecuencia cardíaca y las necesidades metabólicas en una situación que provoque
ansiedad (por ejemplo, antes de dar una charla). A continuación, podríamos hacer que el participante hiciera
ejercicio en una cinta rodante con una carga de trabajo lo suficientemente alta como para proporcionarnos una
frecuencia cardíaca idéntica a la experimentada bajo ansiedad, y también podríamos medir los requisitos metabólicos.
Ahora podríamos plantear nuestro problema como ¿ cómo se relacionan la frecuencia cardíaca y las
necesidades metabólicas en condiciones de ansiedad? Nuestro siguiente paso sería cambiar el enunciado del
problema por un enunciado de predicción o una hipótesis que pueda probarse directamente.
El tercer ejemplo es un problema de investigación que enfrentaron GAM y sus colegas que estaban
Estudiar la motivación de los bebés para resolver problemas:
Habíamos observado que los bebés que nacían prematuramente y también los que habían sido abusados o
abandonados parecían tener una menor motivación para dominar nuevas habilidades y parecían disfrutar menos
al intentarlo. Esta observación clínica planteó varias cuestiones. Primero,
¿Podría medirse la motivación de los bebés preverbales? Motivación de logro en adultos.

y los niños mayores habían sido evaluados a partir de historias que contaban en respuesta a preguntas ambiguas.
fotos. Sería necesario desarrollar algún otro método para los bebés. En segundo lugar, ¿fue
Realmente es cierto que los bebés prematuros y maltratados o abandonados estaban menos motivados para
tareas maestras? La segunda parte del problema de investigación podría formularse de la siguiente manera: ¿ existe
una relación entre la prematuridad, el abuso o la negligencia y la motivación para el dominio?
Fuentes de problemas de investigación
Los ejemplos que acabamos de analizar ilustran cuatro fuentes comunes de problemas de investigación: la literatura de
investigación existente, la teoría, la experiencia personal y la observación clínica. Los dos últimos suponen
conocimiento de la literatura y la teoría en el campo y la capacidad de relacionarla con las experiencias u observaciones.
A menudo, las experiencias en el trabajo o la escuela pueden ser la fuente de una investigación.
problema, si sabes qué preguntas están sin respuesta en este momento y cómo traducir tu
el malestar por fenómenos incongruentes en un problema de investigación comprobable.
Una distinción importante que a veces confunde a los estudiantes es que la palabra problema puede transmitir la falsa
impresión de que un problema de investigación es lo mismo que un problema personal.
o problema social. Este tipo de problemas, sin embargo, pueden dar lugar a problemas de investigación.
y preguntas o hipótesis que pueden responderse mediante la recopilación y el análisis de datos. Para
Que JAG se preocupe de ponerse nervioso durante su presentación no es un problema de investigación. Del mismo
modo, para que GAM esté preocupado por la aparente baja motivación de dominio de
Los niños maltratados o abandonados son un problema social, pero no de investigación.
Uno de los primeros pasos en el proceso de investigación es leer la literatura de investigación sobre y
sobre el tema de interés para que pueda identificar lagunas en el conocimiento. Más adelante en este capítulo ofrecemos
algunos consejos sobre cómo realizar la revisión de la literatura.
Otra fuente de problemas de investigación es la teoría. Kerlinger (1986) sugirió que una teoría
explica los fenómenos naturales, que es un objetivo de la ciencia, y lo definió como: “Una teoría es
un conjunto de constructos (conceptos), definiciones y proposiciones interrelacionadas que presentan una visión
sistemática de los fenómenos especificando relaciones entre variables, con el propósito de
explicar y predecir los fenómenos” (p. 9). La mayoría de los investigadores sugieren que se debe presentar una
orientación teórica al comienzo de un artículo como base para comprender el resto del artículo, pero no creemos que
una teoría deba ser parte del artículo.
artículo; en cambio, la explicación, la justificación o el punto de vista podrían sustituirse y satisfacerse, para
hasta cierto punto, el mismo propósito que la teoría. Sin embargo, ninguno de estos conceptos es tan fuerte
como teoría. Varios libros tratan ampliamente el papel de la teoría en la investigación, pero
Hemos optado por enfatizar el diseño de la investigación y cómo influye en el análisis de datos y la
interpretación de resultados.
La cuestión en la investigación contemporánea en ciencias sociales y de la salud no es tanto si
La teoría es importante y cómo debería encajar en un artículo, pero ¿qué importancia debería tener la teoría?
estar en el diseño de la investigación. Estamos de acuerdo en que la teoría es importante y que el valor de la
Los resultados de un estudio dependen, en parte, de si respaldan alguna teoría.
Identificación de problemas de investigación en la literatura
Todos los estudios publicados comienzan con un problema de investigación. Desafortunadamente, en muchos publicados
En los estudios de investigación, el problema de investigación es difícil de identificar en una oración o párrafo.
Es común que los autores aludan al problema en lugar de exponerlo abiertamente. Además, debido a la presión para
integrar la literatura existente en las introducciones
de los estudios de investigación, muchas veces es imposible discernir cómo se planteó un problema de investigación.
identificado; A menudo, el problema de investigación parece haber surgido de la literatura existente en función de cómo se
presenta la información.
Algunos autores delinean claramente el problema de investigación y afirman cómo llegó a su atención el problema. Por
ejemplo, en el estudio cuasiexperimental presentado en el capítulo 1, Brothen y Wambach (2004) comienzan su artículo
analizando los cuestionarios de Internet y las diferentes formas en que los estudiantes se preparan para realizarlos. Los
autores incluyen su experiencia personal utilizando cuestionarios de Internet en sus clases. Esto lleva al lector a pensar que
el problema de investigación surgió de una experiencia personal. Los autores plantean claramente su problema de
investigación como: "Si los instructores entregan cuestionarios computarizados a través de Internet en lugar de en un aula
computarizada, ¿cómo pueden alentar a sus estudiantes a utilizar los cuestionarios como una oportunidad para recibir
retroalimentación?" (pág. 62).
Otro ejemplo de un problema de investigación que aparentemente surge de una experiencia personal es el de Landrum y
Mulcock (2007). Estos autores plantean su problema de investigación de la siguiente manera: “A medida que la carrera de
psicología continúa creciendo en popularidad, el desafío de proporcionar información de asesoramiento precisa a un gran
número de estudiantes también continúa creciendo” (p. 163).
Características de un buen problema de investigación
Además de estar basado en la literatura empírica (basada en datos) y teórica y de examinar las relaciones entre dos o más
variables, existen varias otras características de un buen problema. Como ya se indicó, debería prometer llenar un vacío en
la literatura o proporcionar una prueba de una teoría.
Un buen problema de investigación también debe plantearse de forma clara e inequívoca, indicando las variables que se
relacionarán. A menudo los problemas de investigación comienzan de manera demasiado amplia o vaga.
El Apéndice D proporciona varios ejemplos y plantillas para escribir buenos problemas de investigación.
Los problemas también deberían implicar varias preguntas de investigación. El Apéndice D también proporciona ejemplos
de preguntas de investigación en formatos que son consistentes con el marco de este libro (ver especialmente el Capítulo 3,
que también proporciona algunos ejemplos de preguntas de investigación).
Como se acaba de implicar, un buen problema de investigación debe poder comprobarse mediante métodos empíricos; no
debería ser sólo una declaración de su posición moral, ética o política. Debería poder recopilar datos que respondan las
preguntas de la investigación.
Por supuesto, los métodos utilizados deben ser éticos y consistentes con las pautas detalladas en el Capítulo 14. El
problema también debe ser factible, dados sus recursos y habilidades.
Finalmente, es deseable, especialmente para los estudiantes de posgrado, elegir un problema que sea de vital interés para
ellos , de modo que puedan mantener la motivación para terminar, algo que a menudo es difícil de hacer.
Otra forma de decidir cuál es un problema de investigación bueno y apropiado para una tesis o disertación es examinar
dónde se ubicaría en varias dimensiones. Proporcionamos tres dimensiones diferentes sobre las cuales examinar los
problemas de investigación.
Amplio versus estrecho
Anteriormente dijimos que los problemas de investigación a menudo comienzan siendo demasiado amplios. Por ejemplo,
"¿Qué factores causan una baja motivación para el dominio?" es demasiado amplio y probablemente no sea un problema factible.
Recuerde que su tiempo y recursos son limitados, por lo que la practicidad requiere que limite el alcance de su problema.
También es importante darse cuenta de que la ciencia avanza a pequeños pasos. Incluso los proyectos de investigación
grandes y bien financiados suelen plantear más preguntas de las que responden y normalmente abordan sólo una parte
limitada de un problema de investigación amplio. Por otro lado, no querrás que el problema sea demasiado limitado. Por
ejemplo, normalmente debería tratar con
más de una única pregunta de investigación limitada y dos variables. (Consulte el Apéndice D para ver ejemplos
de enunciados de problemas de investigación).
Interés generalizado versus interés limitado
Podría parecer que le gustaría que la mayor cantidad posible de personas (académicos y público en general)
se interesaran en su investigación. Sin duda , usted debería estar interesado y es una buena estrategia elegir
un problema que sea de interés para su asesor. Obtendrá más y mejores comentarios de su asesor y comité si
tienen interés y conocimiento sobre el área. También es deseable elegir un tema que sea de interés
generalizado, pero algunos temas se vuelven casi de moda y tienen tantos estudios sobre ellos que es difícil
hacer una contribución. Si elige un tema que actualmente es muy popular, también es importante encontrar
literatura reciente inédita asistiendo a conferencias, buscando en la Web y en documentos de ERIC, y
escribiendo a investigadores que hayan publicado recientemente en el área para ver si tienen algo nuevo. Es
difícil encontrar lagunas en la literatura sobre un tema actualmente popular porque es posible que aún haya
mucho trabajo en progreso. Este punto se superpone con el siguiente.
Territorio bien investigado versus territorio
desconocido Es emocionante pensar que podrías ser el primero en explorar un área. Sin embargo, si ese es el
caso, uno podría preguntarse por qué está inexplorado. ¿Es el tema de interés muy limitado, como ya se ha
comentado? ¿Existen razones prácticas, éticas o financieras? ¿El tema es demasiado especializado o limitado?
Por supuesto, hay temas interesantes e importantes que están relativamente inexplorados y no enfrentan
estas objeciones, pero no son fáciles de identificar.
Los investigadores cuantitativos tienden a poner un énfasis considerable en encontrar lagunas en la literatura,
por lo que tienden a estudiar áreas relativamente bien investigadas. Los investigadores cualitativos, por otro
lado, ponen menos énfasis en encontrar literatura con anticipación y tienden a explorar temas menos
investigados, viendo adónde los llevan sus observaciones.
Revisión de la literatura
De todos los pasos en el proceso de investigación, la revisión de la literatura es uno de los más importantes
debido a que es el paso fundamental que puede garantizar un diseño y resultados de investigación rigurosos y
significativos (Boote & Beile, 2005). Las revisiones de la investigación son necesarias en el proceso de
investigación por varias razones, entre ellas (1) identificar lagunas en la literatura; (2) ayudar a seleccionar
métodos apropiados para su tema específico; y (3) describir las inferencias que han surgido de investigaciones
anteriores. Esta lista no es exhaustiva, ya que las revisiones de la literatura pueden ayudar a los investigadores
en múltiples dominios a realizar investigaciones rigurosas, importantes y significativas.
Es importante recordar que las revisiones de la literatura de investigación no están exentas de sesgos. Al
realizar revisiones, los investigadores eligen qué revistas leer, cuántos estudios leer y en qué estudios de
investigación centrarse. Además, los investigadores evalúan cada estudio en cuanto a su importancia y rigor.
Según Dellinger (2005), “una revisión de la literatura cuenta la propia historia del investigador sobre lo que se
consideró válido, valioso, significativo y valioso en un conjunto de estudios y cómo esos estudios encajan entre
sí” (p. 44).
Por lo tanto, es necesario tener en cuenta que su parcialidad como investigador influirá en su revisión de la
literatura.
Definición de revisión de la literatura
Hay muchas definiciones de revisión de la literatura. La mayoría de las definiciones no son exhaustivas;
por lo tanto, estamos de acuerdo con la definición de revisión de la literatura de Onwuegbuzie, Collins,
Leech, Dellinger y Jiao (2005, p. 7):
Definimos la literatura... como una interpretación de una selección de documentos

publicados y/o no publicados disponibles de diversas fuentes sobre un tema específico
que de manera óptima implica el resumen, análisis, evaluación y síntesis de los documentos.
La interpretación de la revisión de la literatura resulta del estudio sistemático de estas
fuentes que culmina en una medición cualitativa y/o cuantitativa de la calidad,
características y validez del conjunto de fuentes revisadas.
Esta definición de revisión de la literatura es beneficiosa debido a su énfasis en el resumen, el análisis,

la evaluación y la síntesis. Cada uno de estos debe utilizarse al realizar una revisión de la literatura. No
basta con resumir la literatura; Los investigadores necesitan leer la literatura existente con ojo crítico y
analizarla y evaluarla.
Además, las revisiones de la literatura no son bibliografías comentadas. Muchos estudiantes confunden
las bibliografías comentadas con las reseñas literarias. Una revisión de la literatura es más que una simple
lista y resumen de la literatura existente; requiere una síntesis de la literatura. Este último aspecto del
proceso puede resultar desalentador para algunos estudiantes. La lectura de reseñas de literatura
publicada puede ayudar a los investigadores novatos a aprender cómo hacer la síntesis.
Fuentes para utilizar en revisiones de literatura
Al realizar una revisión de la literatura, es importante utilizar toda la literatura existente en el área temática.
Desafortunadamente, para lograr esto, los investigadores generalmente necesitan emplear múltiples
bases de datos. Además, se debe considerar la inclusión de toda la literatura, incluidos los trabajos
publicados y no publicados. Muchas disertaciones y presentaciones de conferencias no se publican, pero
pueden ayudar a los investigadores a aumentar su comprensión de los temas que se están estudiando
actualmente y los métodos que se han utilizado recientemente.
Aunque se deben explorar todos los tipos de literatura, se debe tener precaución al seleccionar la
literatura para su inclusión en su revisión final. La información más confiable generalmente se puede
encontrar en artículos de revistas que han sido arbitrados (revisados para determinar su idoneidad para
su publicación en una revista en particular) por pares en el campo. Algunas fuentes pueden tener
información sospechosa. Por ejemplo, Internet incluye muchos sitios web útiles y confiables, pero también
incluye información que puede ser incorrecta. Es útil comprobar quién es el autor de la fuente (por
ejemplo, un sitio web creado por un profesor afiliado a una universidad de investigación probablemente
sería más confiable que uno creado por un estudiante principiante). Además, verifique si las fuentes han
sido revisadas por alguien que no sea el autor.
Hay otras consideraciones importantes al decidir qué literatura incluir en su revisión final. Siempre que
sea posible, utilice la fuente primaria en lugar de una fuente secundaria. Un ejemplo de fuente secundaria
sería un libro de texto que cita un estudio de investigación.
Si desea citar el estudio de investigación, debe leer el artículo de investigación real y citarlo, no el libro de
texto. Leer la fuente principal es importante porque los autores de fuentes secundarias podrían haber
malinterpretado el artículo que citan. En ocasiones, la fuente principal no estará disponible porque está
agotada o en un idioma extranjero. En ese caso, tenga en cuenta que el estudio se informa "como se cita
en ___".
Es importante al realizar una revisión de la literatura para un estudio de investigación que las fuentes
utilizadas sean investigaciones empíricas basadas en evidencia. Hay muchos artículos publicados, libros,
revistas, etc. que publican información sobre las opiniones, pensamientos e ideas del autor, y es posible que estas opiniones no
se hayan basado en una investigación empírica bien diseñada. Por ejemplo, el director de una secundaria puede haber tenido
que cambiar los horarios de los estudiantes de uno tradicional (por ejemplo, siete clases por día) a un horario en bloque (por
ejemplo, cinco clases por día, con diferentes clases ofrecidas en diferentes días). Al año siguiente, el director se da cuenta de
que los resultados de los exámenes de su escuela han mejorado. Luego escribe sobre este “hallazgo” y lo publica en una revista
para administradores escolares. El problema es que no hay pruebas sólidas de que el cambio de un formato tradicional a un
formato de programación en bloques sea la razón o la causa del cambio en las puntuaciones de las pruebas. El uso de este tipo
de literatura puede resultar engañoso. Si el artículo no tiene secciones razonablemente completas que describan los métodos y
resultados, no es un artículo de investigación con base empírica. Si hay una descripción de los métodos y resultados, todavía es
necesario evaluar la calidad (es decir, la validez) del diseño y el análisis. Analizaremos estas cuestiones ampliamente en capítulos
posteriores.
Siempre es importante incluir una revisión de la literatura al escribir una propuesta o un trabajo de investigación. Las
disertaciones y tesis suelen tener un capítulo completo dedicado a la revisión de la literatura, y estas revisiones suelen ser
integrales, incluyen toda la literatura clave relacionada con el tema y, a menudo, brindan una revisión histórica.
En los artículos de revistas, las reseñas bibliográficas suelen ser breves, debido a las restricciones de páginas o palabras de
la revista. Es común que los investigadores hayan realizado revisiones extensas de la literatura antes de un estudio (por ejemplo,
para identificar lagunas en la literatura). Sin embargo, en la presentación de la investigación en un artículo de revista, sólo se
incluye la literatura más pertinente y reciente.
Por ejemplo, en nuestro estudio asociativo de muestra (#4) realizado por Zamboanga, PadillaWalker, Hardy, Thompson y Wang
(2007), toda la investigación citada se publicó en los últimos 8 años y se resumió en aproximadamente 700 palabras (dos a tres).
páginas mecanografiadas). Otro ejemplo más es Schellenberg (2004), nuestro experimento aleatorio de muestra. Excepto por la
mención de algunos artículos clásicos, la literatura sobre música e inteligencia se condensó en unas 1.000 palabras y en artículos
publicados en los 10 años anteriores al estudio.
Hart (2001), Locke, Spirduso y Silverman (2007) y Fink (1998) brindan información adicional sobre cómo leer y comprender
investigaciones y realizar revisiones de literatura.
Resumen Este
capítulo presenta una descripción general de 10 pasos y un diagrama de flujo (Figura 2.1) para planificar y realizar un estudio de
investigación cuantitativo. Los pasos en la Figura 2.1 incluyen lo siguiente:
1. Identificar un problema de investigación.

2. Realizar una revisión de la literatura de investigación.
3. Escribir preguntas o hipótesis de investigación.
4. Seleccionar los enfoques de investigación y el diseño específico.
5. Crear un plan para realizar la investigación. Esto incluye planes para: seleccionar la muestra, seleccionar o desarrollar
los instrumentos y desarrollar procedimientos para la recopilación y el análisis de datos.
6. Obtener la aprobación del IRB de sujetos humanos.

7. Recopile los datos.
8. Analizar los datos.

9. Interpretar los datos.
10. Comunicar los hallazgos.
El enfoque de este capítulo estuvo en los pasos 1 y 2. Los capítulos posteriores analizan cada uno de los otros ocho pasos en
detalle. A continuación describimos el proceso por el que pasó cada autor al desarrollar un problema de investigación que hemos
estudiado. A esto siguió una discusión más amplia de varias fuentes de problemas de investigación: literatura, experiencia
personal, observación clínica y teoría. A continuación describimos las características de un buen problema de investigación:
comprobable, ético, factible y de vital interés para usted y para la disciplina. Finalmente, discutimos las revisiones de la literatura
de investigación, qué son, qué tipos de fuentes utilizar y algunas cuestiones y ejemplos.
Conceptos clave
Características de un buen problema de investigación.

Revisión de literatura
Problema de investigación
Fuentes de problemas de investigación.

Fuentes de revisiones de literatura
Pasos en la planificación de la investigación.
Teoría
Distinciones clave
Problemas de investigación amplios versus problemas restringidos
Literatura existente versus experiencia personal versus observación clínica
Revisión de la literatura versus bibliografía comentada
Fuente primaria versus fuente secundaria
Territorio bien investigado versus territorio desconocido
Interés generalizado versus interés limitado
Problemas de aplicación
1. ¿Cuál es el propósito de la revisión de la literatura en un estudio de investigación?
2. ¿Por qué es importante utilizar fuentes primarias en lugar de fuentes secundarias en la revisión de la literatura?
3. Enumere tres fuentes para la revisión de la literatura: ¿cuáles son las ventajas y desventajas de cada una?
4. ¿Por qué el investigador debería tener cuidado al utilizar fuentes web en la literatura?
revisión de la naturaleza?
5. ¿Por qué es importante vincular la teoría con el problema de investigación?
6. En este capítulo, cada autor describe el proceso por el que pasó para identificar un problema de investigación. Para
uno de estos tres problemas de investigación, responda cada una de las siguientes preguntas: a. ¿Es éste un
problema de
investigación amplio o limitado? Explicar. b. ¿Es este problema de investigación
de interés generalizado o limitado? Explicar. C. ¿Qué temas de la literatura podría querer explorar el
investigador? Explicar. d. Calificar el problema de investigación planteado sobre las diferentes características de
un bien
problema de investigación: respalde su respuesta.
7. Para uno de los cinco estudios de muestra descritos en el Capítulo 1, responda cada una de las
siguiendo un.
¿Es éste un problema de investigación amplio o limitado? Explicar. b. ¿Es este
problema de investigación de interés generalizado o limitado? Explicar. C. ¿Qué temas de la literatura
podría querer explorar el investigador? Explicar. d. Calificar el problema de investigación planteado sobre las
diferentes características de un bien

problema de investigación: respalde su respuesta.
Sección II
Enfoques de investigación cuantitativa,

Preguntas y diseños
3
Variables, preguntas de investigación e hipótesis
El proceso de investigación comienza con una cuestión o problema de interés para el investigador. Generalmente
El problema de investigación es un enunciado que pregunta sobre las relaciones entre dos o más variables. Sin
embargo, algunos problemas de investigación son puramente descriptivos y describen una variable.
a la vez. Sin embargo, casi todos los estudios de investigación tienen más de dos variables. En este capítulo, nosotros
discutir variables (incluida la diferencia entre independientes, dependientes y extrañas), preguntas de investigación e
hipótesis.
variables
Los elementos clave en un problema de investigación son las variables. Una variable se define como una característica
de los participantes o situación de un estudio determinado que tiene diferentes valores. Una variable debe variar o
tener valores diferentes en el estudio. Por ejemplo, el género es una variable porque
puede tener dos valores, femenino o masculino. La edad es una variable que puede tener un gran número de
valores. El tipo de tratamiento/intervención (o tipo de plan de estudios) es una variable si hay más de
un tratamiento o un tratamiento y un grupo de control. El número de días para aprender algo o
El número de días para recuperarse de una dolencia son medidas comunes del efecto de un tratamiento y, por tanto,
también son variables. De manera similar, la cantidad de conocimientos matemáticos es una variable.
porque puede variar de nada a mucho.
Sin embargo, si un concepto tiene sólo un valor en un estudio particular, no es una variable; es un
constante. Por tanto, el grupo étnico no es una variable si todos los participantes son americanos de origen europeo.
El género no es una variable si todos los participantes en un estudio son mujeres.
En la investigación cuantitativa, las variables se definen operativamente y comúnmente se dividen
en variables independientes (activas o de atributo), variables dependientes y extrañas (o
variables de control . Cada uno de estos temas se trata brevemente en las siguientes secciones.
Definiciones operativas de variables
Una definición operativa describe o define una variable en términos de las operaciones o técnicas utilizadas para
hacerla realidad o medirla. Cuando los investigadores cuantitativos describen las variables
En su estudio, especifican lo que quieren decir al demostrar cómo midieron la
variable. Las variables demográficas como la edad, el género o el grupo étnico a menudo se miden simplemente
pidiendo al participante que elija la categoría apropiada de una lista.
Los tipos de tratamiento (o currículo) generalmente se definen operativamente de manera mucho más amplia,
describiendo lo que se hizo durante el tratamiento o el nuevo currículo. Asimismo,
conceptos abstractos como el conocimiento matemático, el autoconcepto o la ansiedad matemática necesitan
definirse operativamente detallando con cierto detalle cómo se midieron en un
estudio concreto. Para hacer esto, el investigador puede proporcionar preguntas de muestra, adjuntar el
instrumento real o proporcione una referencia donde se pueda encontrar más información.
33
Variables independientes
Hay dos tipos de variables independientes: activas y de atributo. Es importante distinguir entre estos tipos cuando
discutimos los resultados de un estudio. Como se presenta en más
Como se detalla en el capítulo 4, una variable independiente activa es una condición necesaria pero no suficiente
para sacar conclusiones de causa y efecto.
Variables independientes activas o manipuladas
Una variable independiente activa es una variable, como un taller, un nuevo plan de estudios u otro
Intervención, de la cual al menos un nivel se administra a un grupo de participantes, dentro de un período de tiempo
específico durante el estudio. Por ejemplo, un investigador podría investigar un nuevo tipo de terapia.
comparado con el tratamiento tradicional. Un segundo ejemplo podría ser estudiar el efecto de
un nuevo método de enseñanza, como es el aprendizaje cooperativo, sobre el rendimiento de los estudiantes. en estos dos
Por ejemplo, la variable de interés es algo que se les da a los participantes. Aunque activo
Se dan variables independientes a los participantes en el estudio, no necesariamente se dan
o manipulado por el experimentador. Pueden ser administrados por una clínica, escuela u otra persona.
que el investigador, pero desde el punto de vista de los participantes, la situación está manipulada.
Nuestra definición de variable independiente activa requiere que el tratamiento se dé después
el estudio está planificado de manera que pueda haber, y normalmente hay, una prueba previa. Si algún tipo de evento
que se asemeje a una intervención o tratamiento ocurrido en el pasado, antes de que se realizara el estudio.
planeado, no consideramos la variable activa. Este tipo de estudio se considera ex post facto o post facto. (Consulte el
Capítulo 7 para obtener más información sobre los estudios ex post facto.)
Los estudios experimentales y cuasiexperimentales aleatorios , como se describen en los capítulos 1 y 5, han
una variable independiente activa. Los estudios ex post facto se consideran no experimentales.
Atributo o variables independientes medidas
El término variable independiente no se limita a aquellas variables que son manipuladas o

activo. Definimos una variable independiente de manera amplia para incluir cualquier predictor, antecedente,
o presuntas causas o influencias objeto de investigación en el estudio. Los atributos de los participantes así como las
variables independientes activas encajan dentro de esta definición.
Los valores de una variable independiente de atributo son atributos preexistentes de las personas o de su entorno
actual que no cambian durante el estudio. Por ejemplo, el nivel de responsabilidad de los padres.
La educación, el nivel socioeconómico, el género, la edad, el grupo étnico, el coeficiente intelectual y las características
de personalidad son atributos de los participantes que podrían usarse como variables independientes de atributos.
Los estudios con variables independientes de atributos únicamente se denominan estudios no experimentales .
Para las ciencias sociales y la educación, las variables independientes de atributos son especialmente
importante. Por ejemplo, el tipo de discapacidad puede ser el foco principal de un estudio. El tipo de discapacidad
ciertamente se considera una variable porque puede adoptar diferentes valores, aunque
no se dan durante el estudio. Por ejemplo, la parálisis cerebral es diferente de la enfermedad de Down.
síndrome, que es diferente de la espina bífida, pero todos son tipos de discapacidades. Gente
ya tienen características o atributos definitorios que los ubican en uno de dos o más
categorías. Discapacidades y otras características de los participantes que existían antes de la
estudio se consideran atributos.
Tipo de variable independiente e inferencias sobre causa y efecto
Cuando analizamos datos de un estudio de investigación, el análisis estadístico no diferencia si la variable

independiente es una variable independiente activa o una
Variables, preguntas de investigación e hipótesis 35
variable independiente del atributo. Sin embargo, aunque la mayoría de los libros de estadística usan la etiqueta
variable independiente tanto para las variables activas como para las de atributos, existe una diferencia crucial
en interpretación.
Un objetivo importante de la investigación científica es poder identificar una relación causal entre
dos variables. Demostrar que una determinada intervención o tratamiento provoca un cambio en
El comportamiento o el desempeño es extremadamente importante para los investigadores en disciplinas aplicadas.
Sólo los enfoques que tienen una variable independiente activa (experimentales aleatorizados y, en menor medida,
cuasiexperimentales) pueden proporcionar datos que permitan inferir que la variable independiente causó el cambio
o diferencia en la variable dependiente.
Por el contrario, una diferencia significativa entre personas que difieren en una variable independiente de atributo
(por ejemplo, género o etnia) no debería llevar a concluir que el atributo
La variable independiente provocó que las puntuaciones de la variable dependiente difieran. Por lo tanto, esta
distinción entre variables independientes activas y de atributos es importante porque términos como
como efecto principal y el tamaño del efecto utilizado en este y en la mayoría de los libros de estadística podrían llevar a creer
que si encuentra una diferencia significativa, la variable independiente causó la diferencia.
Términos causales como influencia, determinación o efecto pueden ser engañosos cuando la relación independiente
La variable es un atributo.
Aunque los estudios no experimentales (aquellos con variables independientes de atributos) son limitados en lo
que se puede decir sobre la causalidad, pueden conducir a conclusiones sólidas sobre las diferencias entre grupos
y sobre las asociaciones entre variables. Además, si el foco de la investigación se centra en variables independientes
de atributos, el único enfoque disponible es un estudio no experimental. Por ejemplo, si un investigador está
interesado en saber en qué se diferencian los niños y las niñas en
Al aprender conceptos matemáticos, la variable de interés sería la variable independiente del atributo género. Por
lo tanto, la conclusión de que cualquier diferencia es causada por el género es
incorrecto.
Niveles o Valores de la Variable Independiente
Es crucial comprender la diferencia entre una variable, como el género, y los niveles (valores de la variable), como
hombre o mujer. A veces se utilizan indistintamente otros términos, valores, categorías, grupos o muestras con el
término niveles, especialmente en
libros de estadística. Supongamos que un investigador está realizando un estudio para investigar el efecto
de un tratamiento. Se asigna un grupo de participantes al grupo de tratamiento. Un segundo
grupo no recibe el tratamiento. El estudio podría conceptualizarse como si tuviera uno
Variable independiente (tipo de tratamiento), con dos niveles o valores (tratamiento y no tratamiento).
La variable independiente en este ejemplo se clasificaría como variable independiente activa.
variable. Ahora supongamos que el investigador estuviera interesado en comparar dos tratamientos diferentes y un
tercer grupo sin tratamiento o grupo de control. El estudio todavía
conceptualizarse como si tuviera una variable independiente activa (tipo de tratamiento), pero con
tres valores o niveles (las dos condiciones de tratamiento y la condición de control). Esta variable podría diagramarse
de la siguiente manera:
Etiqueta de variable Etiqueta de valor
Tratamiento 1
Tipo de tratamiento Tratamiento 2
Sin tratamiento (control)
En este ejemplo, el Tratamiento 1, el Tratamiento 2 y el grupo de control son diferentes entre sí.
entre sí, pero no hay ningún orden presunto en su diferencia. Sin embargo, los niveles podrían ser
ordenado, como un tratamiento de alta, media y baja intensidad. Una variable independiente
con unos pocos niveles ordenados se podría diagramar de la siguiente manera:
Alto
Medio
Intensidad del tratamiento
Bajo
Sin tratamiento (control)
Como ejemplo adicional, considere el género, que es una variable independiente de atributo.
con dos valores, masculino y femenino. Se podría diagramar de la siguiente manera:
Masculino
Género
Femenino
Tenga en cuenta que cada variable tiene una etiqueta de variable y los niveles o valores, que a menudo son
categorías discretas, tienen etiquetas de valores (por ejemplo, masculino y femenino). Es especialmente importante
conocer las etiquetas de los valores cuando la variable es nominal, es decir , cuando los valores de la variable son sólo
nombres y, por tanto, no están ordenados.
Más de una variable independiente
Es común que un estudio con una variable independiente activa, como un tratamiento, incluya
el género u otro atributo como segunda variable independiente. Cuando en un estudio se incluye más de una variable
independiente, el investigador suele estar interesado no sólo en
el efecto de cada variable independiente por sí misma sino también en la interacción entre las
dos variables independientes. Analizamos variables, niveles e interacciones con más detalle en
capítulos posteriores porque la mayoría de los estudios y tesis publicados tienen más de una
variable. Los estudios con dos variables independientes se denominan diseños bifactoriales o factoriales .
Variables dependientes
Se supone que la variable dependiente mide o evalúa el efecto de la variable independiente. Se considera como el
resultado o criterio presunto. Las variables dependientes son a menudo
puntuaciones de pruebas, calificaciones en cuestionarios, lecturas de instrumentos (p. ej., electrocardiograma,
respuesta galvánica de la piel), o medidas de rendimiento físico. Nuestro análisis de la medición en el capítulo 10 se
centra en la variable dependiente. Las variables dependientes, al igual que las variables independientes, deben tener
al menos dos valores; la mayoría de las variables dependientes discutidas en
Este libro tiene muchos niveles, que varían de bajo a alto.
Variables extrañas
Estas son variables (también llamadas variables de control o, en algunos diseños, covariables) que son
no son de interés en un estudio en particular, pero podrían influir en la variable dependiente, por lo que deben
ser descartado o controlado. Factores ambientales (p. ej., temperatura o distracciones), tiempo
del día y las características del experimentador, maestro o terapeuta son algunas posibles
variables extrañas que podrían necesitar ser controladas. A veces estas variables se “controlan” mediante asignación
aleatoria, como se analiza en los Capítulos 4 y 5. Otras veces, las estadísticas,
como se analiza en el Capítulo 22, se utilizan para controlar variables extrañas.
Niveles de variables ordenados versus desordenados/nominales
Una cosa importante que hay que saber sobre una variable es si los niveles son categorías desordenadas o si
están ordenados de menor a mayor. Recuerda que dentro de cualquier estudio una variable debe variar; es
decir, debe tener dos o más valores diferentes.
La mayoría de nuestros ejemplos anteriores (p. ej., género, tipo de tratamiento) de variables independientes
tenían niveles o categorías que no estaban ordenadas. Las categorías de tales variables eran esencialmente
etiquetas o nombres, y se dice que las variables son variables nominales . Por ejemplo, la variable independiente
género tiene dos niveles desordenados: femenino y masculino. En un estudio, todos los participantes de un
nivel determinado de una variable nominal son tratados como si fueran iguales y a todos se les asigna la misma
etiqueta y el mismo valor. Por ejemplo, cuando el género es una variable, todas las mujeres se consideran
iguales, se etiquetan como "mujeres" y en nuestro diagrama se les asignó un valor de 2. Para este propósito,
todos los hombres son iguales y se les asignó el valor de 1. Sin embargo, Estas categorías son nominales, no
ordenadas, por lo que no debes considerar que las mujeres son más (o menos) que los hombres, sólo diferentes.
Por otro lado, las variables ordenadas tienen un conjunto de valores que varían de bajo a alto dentro de un
cierto rango (por ejemplo, una calificación de satisfacción de 1 a 7), de modo que un valor mayor de la variable
indica más satisfacción que un valor mayor. valor menor de la variable. A menudo se supone que hay o podría
haber un conjunto infinito de valores dentro del rango; en caso afirmativo, la variable se considera continua. El
peso y el tiempo para terminar una tarea son variables continuas, pero muchas variables ordenadas tienen
sólo unos pocos niveles o categorías, como alto, medio y bajo. Ampliamos esta introducción a la medición en
el Capítulo 10.
Otras consideraciones sobre las variables
En su mayor parte, los estudios que analizamos tienen variables independientes que tienen unos pocos
niveles y variables dependientes que tienen muchos niveles ordenados. Sin embargo, en el enfoque asociativo,
analizado en los capítulos 4 y 7, tanto las variables independientes como las dependientes suelen tener muchos
niveles ordenados. Hay algunos estudios en los que las variables independientes tienen muchos niveles y la
variable dependiente tiene dos o pocos niveles, e incluso hay estudios donde ambas variables tienen solo unos
pocos niveles. Analizaremos estas diferentes combinaciones de variables independientes y dependientes y
cómo se analizan más adelante en el libro.
Algunas variables (p. ej., conocimiento de matemáticas o autoconcepto) podrían ser la variable independiente
o la variable dependiente (o incluso una variable extraña), según el estudio. Estas variables suelen ser una
característica cambiante del participante (como una actitud o característica de personalidad).
Los participantes individuales generalmente no varían en una característica o variable; es el grupo el que
debe tener más de un valor (por ejemplo, algunos hombres y algunas mujeres). Sin embargo, en algunos
estudios, los participantes pueden cambiar con el tiempo o debido a una intervención. En estos estudios hay
medidas repetidas de la misma variable (por ejemplo, una prueba previa y posterior sobre conocimientos matemáticos).
Grupos o conjuntos de variables
Al analizar artículos de investigación, es de suma importancia distinguir entre variables y niveles de variables.
A veces esta distinción puede resultar difícil porque en estudios complejos los investigadores tienen muchas
variables que a menudo se agrupan en lo que podrían denominarse conjuntos de variables similares. Por
ejemplo, las variables edad, género, educación y estado civil podrían agruparse y denominarse colectivamente
en un artículo como demográficas. De manera similar, las puntuaciones verbales, cuantitativas y escritas del
Graduate Record Examination (GRE)
podrían denominarse puntuaciones de los exámenes de registro de posgrado. Surge confusión si se supone
erróneamente que los conjuntos o grupos de variables (demográficas o puntuaciones GRE) son las variables y las
variables reales (p. ej., edad, sexo, GRE verbal) son los niveles.
¿Cómo se puede evitar esta confusión? La lectura reflexiva es la clave, pero algunos consejos pueden ayudar.
Recuerde que una variable tiene que tener al menos dos niveles, pero un nivel o categoría es un solo valor.1 Por
lo tanto, si algo puede variar de bajo a alto (p. ej., edad o GRE verbal) o tiene dos o más valores nominales (p. ej., ,
género), tiene que ser una variable, no un nivel.
Hipótesis y preguntas de investigación Las hipótesis de
investigación son declaraciones predictivas sobre la relación entre variables.

Las preguntas de investigación son similares a las hipótesis, excepto que no hacen predicciones específicas y
están formuladas en formato de pregunta. Por ejemplo, uno podría tener la siguiente pregunta de investigación:
"¿Existe una diferencia en las puntuaciones de los estudiantes en una prueba estandarizada si tomaron dos
pruebas en 1 día versus si tomaron solo una prueba en cada uno de los 2 días?" Una hipótesis sobre el mismo
tema podría ser: "Los estudiantes que toman sólo un examen por día obtendrán mejores calificaciones en los
exámenes estandarizados que los estudiantes que toman dos exámenes en un día". En un estudio determinado,
un investigador presenta un problema de investigación general y luego hipótesis de investigación específicas, o
preguntas de investigación, que se han generado a partir del problema de investigación y pueden probarse estadísticamente.
Dividimos las hipótesis y preguntas de investigación en tres tipos amplios: diferenciales, asociativas y
descriptivas, como se muestra en el centro de la figura 3.1. Esta figura clave también muestra los propósitos
generales y específicos y los tipos generales de estadísticas para cada uno de estos tres tipos de preguntas de
investigación. Esta figura clave, o parte de ella, aparece en varios capítulos debido a su aplicabilidad a lo largo del
libro.
encontrar fuerza de
Propósito específico Comparar grupos Asociaciones, Relacionarse Resumir datos
variables
Tipo de pregunta/ Diferencia asociacional Descriptivo

Hipótesis
Tipo general de Diferencia inferencial Estadísticas Estadísticas descriptivas

Estadística Estadísticas inferenciales asociativas (p. ej., media,
(p. ej., prueba t, ANOVA) (p. ej., correlación, porcentaje, rango)
regresión múltiple)
Figura 3.1
Diagrama esquemático que muestra cómo el propósito y el tipo de pregunta de investigación corresponden al tipo general de estadística utilizada
en un estudio.
Preguntas de investigación de diferencias
Para estas preguntas, comparamos puntuaciones (en la variable dependiente) de dos o más grupos diferentes,
cada uno de los cuales está compuesto por individuos con uno de los valores o niveles en
la variable independiente. Este tipo de preguntas intenta demostrar que los grupos son
no es lo mismo en la variable dependiente.
Preguntas de investigación asociativa
Aquí asociamos o relacionamos dos o más variables. Este enfoque suele implicar una
intentar ver cómo dos o más variables covarían (es decir, valores más altos en una variable corresponden a
valores más altos o más bajos en otra variable para las mismas personas) o cómo uno
o más variables permiten predecir otra variable.
Preguntas de investigación descriptivas
Estas no se responden con estadísticas inferenciales (que hacen inferencias sobre un

grupo, la población, del grupo que estudiamos, llamada muestra). Preguntas descriptivas
Solicite una descripción resumida de los datos actuales, sin intentar generalizarlos a un nivel más amplio.
población de individuos.
La Figura 3.1 muestra que tanto las preguntas o hipótesis de diferencia como de asociación exploran
las relaciones entre variables; sin embargo, se conceptualizan de manera diferente, al igual que
se describen en breve.2 Tenga en cuenta que las preguntas de diferencias y de asociación difieren en el propósito
específico y en los tipos de estadísticas que utilizan para responder la pregunta.
Diferencia versus estadística inferencial asociativa
Creemos que es útil desde el punto de vista educativo dividir la estadística inferencial en dos tipos que corresponden
a hipótesis o preguntas de diferencia y de asociación.3 Diferencia inferencial
Las estadísticas (p. ej., prueba t o análisis de varianza [ANOVA]) se utilizan para enfoques que prueban diferencias
entre grupos. La estadística inferencial asociativa prueba asociaciones o relaciones entre variables y utiliza, por
ejemplo, análisis de correlación o regresión múltiple. Usamos
este contraste entre diferencias y estadísticas inferenciales asociativas en el Capítulo 4 y
Más adelante en este libro (capítulos 20 a 22), cuando analizamos cómo interpretar las estadísticas.
La tabla 3.1 proporciona el formato general y un ejemplo de una pregunta de diferencia básica.
una pregunta asociativa básica y una pregunta descriptiva básica. Recuerde que la investigación
Las preguntas son similares a las hipótesis, pero se expresan en formato de pregunta. Nosotros recomendamos
el formato de pregunta para el enfoque descriptivo o cuando no se tiene una predicción direccional clara. (Se dan
más ejemplos en el Apéndice D.) Como lo implica la Figura 3.1, es
Es aceptable formular cualquier pregunta de investigación que involucre dos variables como si
una relación entre las variables (por ejemplo, ¿existe una relación entre el género y el rendimiento en matemáticas
o hay una relación entre la ansiedad y el GPA?). Sin embargo, formular el
Es preferible plantear la pregunta como diferencia o asociación porque ayuda a elegir una estadística apropiada e
interpretar el resultado.
Preguntas de investigación complejas
Algunas preguntas de investigación involucran más de dos variables a la vez. A estas preguntas y a las estadísticas
apropiadas las llamamos complejas. Algunas de estas estadísticas se llaman multivariadas.
Tabla 3.1
Ejemplos de tres tipos de preguntas/hipótesis de investigación básica

1. Preguntas sobre diferencias básicas (comparación de grupos) •
Generalmente se utilizan para enfoques experimentales aleatorios, cuasiexperimentales y comparativos. • Para este tipo de preguntas, los
grupos de individuos que comparten un nivel de una variable independiente activa (p. ej., grupo de intervención) o una variable independiente de atributo
(p. ej., género masculino) se comparan con individuos que comparten los otros niveles de esa misma variable independiente. variable (p. ej.,
grupo de control o género femenino) para ver si los grupos difieren con respecto a las puntuaciones promedio de la variable dependiente (p. ej.,
puntuaciones de agresión).
• Ejemplo: ¿Las personas que experimentaron una intervención de regulación emocional difieren de aquellas que no experimentaron esa intervención con
respecto a sus puntuaciones promedio de agresión? En otras palabras, ¿la puntuación promedio de agresión del grupo de intervención será
significativamente diferente de la puntuación promedio de agresión del grupo de control después de la intervención?
2. Preguntas asociativas (relacionales) básicas
• Se utiliza para el enfoque asociativo, en el que la variable independiente suele ser continua (es decir, tiene
muchos niveles ordenados).
• Para este tipo de pregunta, las puntuaciones de la variable independiente (p. ej., ansiedad) están asociadas con o
relacionados con las puntuaciones de la variable dependiente (p. ej., GPA).
• Ejemplo: ¿El grado de ansiedad de los estudiantes estará asociado con su GPA general? En otras palabras, ¿conocer el nivel de ansiedad de los
estudiantes nos dirá algo sobre su tendencia a obtener calificaciones más altas o más bajas? Si existe una asociación negativa (correlación) entre
las puntuaciones de ansiedad y el promedio de calificaciones, aquellas personas que tienen niveles altos de ansiedad tenderán a tener GPA bajos,
aquellas con baja ansiedad tenderán a tener GPA altos y aquellos en el medio en ansiedad. tenderá a estar en el medio en GPA.
3. Preguntas descriptivas básicas • Se
utilizan para el enfoque descriptivo. • Para este tipo
de preguntas, las puntuaciones de una sola variable se describen en términos de su tendencia central, variabilidad o porcentajes en cada categoría/
nivel. • Ejemplo: ¿Qué porcentaje de estudiantes obtienen una B o
más? ¿Cuál es el nivel promedio de ansiedad encontrado en
¿Estudiantes de noveno grado? El GPA promedio fue de 2,73, o el 30% tenía mucha ansiedad.
en otros textos, pero no existe una definición consistente de multivariado en la literatura. Proporcionamos
ejemplos de cómo escribir ciertas preguntas de investigación complejas en el Apéndice D, y en el Capítulo
22 presentamos dos estadísticas complejas: regresión múltiple y ANOVA factorial.
Cinco estudios de investigación de
muestra En el capítulo 1, describimos cinco estudios de muestra, incluido el problema de investigación y

las variables independientes y dependientes clave. Esa sección del Capítulo 1 debería releerse ahora.
Dada nuestra discusión actual sobre las variables, se pueden señalar varios puntos adicionales. Tenga
en cuenta que varios de los estudios, incluido el experimento de intervención musical (Schellenberg,
2004) y el estudio comparativo de pacientes mayores y más jóvenes con esclerosis múltiple (EM)
(DiLorenzo, Halper y Picone, 2004) tenían varias variables dependientes. Esto es bastante común en los
artículos publicados. Tenga en cuenta que el estudio asociativo (Zamboanga, PadillaWalker, Hardy,
Thompson y Wang, 2007) también tuvo varias variables independientes o predictivas (p. ej., varias
variables de antecedentes académicos y participación en el curso).
Resumen
Un problema de investigación es una afirmación que pregunta si existe una relación entre dos,
o probablemente más de dos variables. Una variable es una característica de los participantes o situación de
un determinado estudio que tiene diferentes valores o niveles. Hay tres tipos principales de
variables:
1. Variables independientes, que son las presuntas causas, influencias o antecedentes

en el estudio. Diferenciamos dos tipos de variables independientes:
a. Variables independientes activas, que son variables que se entregan a los participantes,
generalmente durante un período de tiempo específico durante el estudio.
b. Atribuir variables independientes, que son características observadas o medidas de los participantes
o del entorno que no fueron o no pueden ser manipuladas por el investigador.
2. Variables dependientes, que son los resultados y se supone que dependen de la

nivel de la variable independiente.
3. Las variables extrañas no son de interés en este estudio, pero podrían influir en la
variable dependiente y, por lo tanto, es necesario controlarla.
Si todos en un estudio son iguales en una característica determinada, esa característica es constante, no una
variable, en el estudio. Por ejemplo, en un estudio sobre el aprendizaje de matemáticas de niños de 9 años en
uno de dos planes de estudio, la edad y el sexo de los participantes (niños de 9 años) no son
variables.
La distinción entre la variable y los niveles, valores o categorías de una variable es
importante. La variable en sí recibe un nombre que abarca todos los niveles o categorías.
(p. ej., tipo de tratamiento, género o etnia). Los niveles son los nombres de categorías, grupos o valores
específicos (por ejemplo, experimental versus control, masculino versus femenino, asiático).
versus africano versus europeo). En este contexto, nivel no implica necesariamente orden;
un nivel no es necesariamente más alto o más bajo que otro. Las variables pueden tener valores nominales
niveles o categorías (desordenados) o tienen niveles ordenados que varían de menor a mayor.
Algunas variables (por ejemplo, conocimiento de matemáticas o autoconcepto) podrían ser la variable
independiente o la variable dependiente (o incluso una variable extraña), dependiendo de
el estudio. Estas variables suelen ser una característica modificable del participante (p. ej.,
una actitud, característica de personalidad); Si uno de estos se utiliza como variable independiente,
es una variable independiente de atributos.
Los participantes individuales no tienen que variar en una característica o variable: es el grupo
que debe tener más de un valor (por ejemplo, algunos hombres y algunas mujeres). En algunos estudios
hay medidas repetidas de la misma variable (por ejemplo, una prueba previa y posterior sobre conocimientos
matemáticos) y los individuos pueden cambiar con el tiempo en un estudio longitudinal.
El problema de investigación generalmente se plantea de manera más amplia que las hipótesis o
preguntas. La mayoría de los estudios tienen varias hipótesis o preguntas que indican resultados previstos o
Posibles relaciones entre variables. En el Capítulo 4 describimos seis tipos específicos de
preguntas de investigación y cinco tipos de enfoques de investigación que forman la base para comprender el
diseño de investigación y el análisis de datos.
Conceptos clave
Definición operacional
Prueba previa
Hipótesis de investigación
Problema de investigación
Preguntas de investigación
Variable
Distinciones clave
Variable independiente activa versus atributo
Preguntas de investigación (y estadísticas) básicas versus complejas
Variable independiente versus dependiente versus extraña
Niveles de una variable frente a un conjunto o grupo de variables

Variables ordenadas versus desordenadas o nominales
La variable (en sí misma) versus niveles o valores de la variable
Para cada hipótesis de investigación (1–9), proporcione la información solicitada en a–g:
a. Nombra la variable independiente/antecedente/predictora. b. Nombra la
variable dependiente/de resultado. C. Dé una definición
operativa de cada variable. Si está activa, ¿cómo podría manipularse la variable independiente? Si es un atributo,
¿cómo se medirá el atributo?
¿Cómo se medirá la variable dependiente? d. ¿La variable
independiente es activa o un atributo? mi. ¿Cuántos niveles de la variable
independiente hay?
F. ¿Los niveles son ordenados o nominales?
gramo. ¿Se nombra la población de interés? ¿Qué es?
1. El conflicto familiar se asocia con tasas de ausentismo en los trabajadores administrativos.
2. Un taller sobre imágenes visuales mejora la memoria en estudiantes universitarios.
3. El número de miembros del cuerpo docente en una reunión del comité está relacionado con la duración de
la reunión.
4. La cantidad de abuso infantil está relacionada con la edad de los padres cuando se casaron.
5. El partido político de los votantes está relacionado con su actitud hacia el control de armas.
6. El hecho de que la dieta de una mujer embarazada fuera alta, media o baja en ácido fólico afecta
el peso al nacer de su hijo.
7. Los estudiantes que reciben un programa de ejercicios tienen niveles reducidos de estrés.
8. El género del instructor está relacionado con la evaluación que los estudiantes hacen del instructor.
9. La participación en un taller de reducción de ansiedad está relacionada con el desempeño en la prueba.
10. Compare los términos variable independiente activa y variable independiente de atributo.
¿Cuáles son las similitudes y diferencias?
11. ¿Qué tipo de variable independiente (activa o atributo) es necesaria para inferir la causa?
12. ¿Cuál es la diferencia entre la variable independiente y la dependiente?

¿variable?
13. Comparar y contrastar tipos de preguntas de investigación asociativas, de diferencias y descriptivas.
14. Escriba una pregunta de investigación y una hipótesis de investigación correspondiente sobre variables que le
interesen pero que no se utilicen en el capítulo. ¿Es una pregunta asociativa, de diferencia o descriptiva?
15. Utilizar una o más de las siguientes variables, religión, prueba de logros y ansiedad: a. Escribe una pregunta
asociativa. b. Escribe una pregunta de diferencia.
C. Escribe una pregunta descriptiva.
Notas
1. En algunos casos, un nivel puede ser un rango de valores (p. ej., entre 21 y 30 años), pero en estos casos los
valores en un rango determinado se tratan como si fueran todos iguales (p. ej., adulto joven o dado un solo
código de grupo como 3).
2. Esta similitud está de acuerdo con la afirmación de los estadísticos de que todas las estadísticas inferenciales
paramétricas comunes son relacionales. Usamos el término asociacional para el segundo tipo de pregunta de
investigación en lugar de relacional o correlacional para distinguirlo del propósito general de las preguntas/
hipótesis tanto de diferencia como de asociación, que es estudiar las relaciones. También queremos distinguir
entre correlación, como técnica estadística específica, y el tipo más amplio de pregunta asociativa y ese grupo
de estadísticas.
3. Nos damos cuenta de que todas las estadísticas inferenciales paramétricas son relacionales, por lo que esta
dicotomía de usar un tipo de procedimiento de análisis de datos para probar diferencias (cuando hay unos pocos
valores o niveles de las variables independientes) y otro tipo de procedimiento de análisis de datos para probar
asociaciones (cuando hay variables independientes continuas) es algo artificial. Se pueden utilizar variables
independientes continuas y categóricas en un enfoque de modelo lineal general para el análisis de datos. Sin
embargo, creemos que la distinción es útil porque la mayoría de los investigadores utilizan la dicotomía al
seleccionar estadísticas para el análisis de datos.
4
Enfoques de investigación
Este capítulo tiene dos propósitos relacionados. Primero, ampliamos la discusión del Capítulo 1
sobre los enfoques de investigación, comparando y contrastando los cinco enfoques: experimental
aleatorio, cuasiexperimental, comparativo, asociativo y descriptivo.
Nuestra discusión de los enfoques enfatiza hasta qué punto pueden proporcionar evidencia de
que la variable independiente causó cualquier cambio o diferencia observado en la variable
dependiente. En el Capítulo 8 nos centramos en el concepto de validez interna, que depende del
enfoque y la solidez del diseño de investigación. La validez interna indexa el grado en que la
relación entre la variable independiente y dependiente es causal. Por lo tanto, la discusión sobre
la validez interna se deriva directamente de la discusión sobre hasta qué punto un enfoque de
investigación puede proporcionar evidencia sobre causa y efecto.
Descripción general de los enfoques de

investigación El propósito general de todos los estudios de investigación, excepto los descriptivos,
es buscar relaciones entre variables (consulte la Figura 4.1, que está ampliada en la Figura 3.1).
Como se mencionó en el Capítulo 1, dividimos los enfoques de investigación en tres tipos
generales o amplios: experimental, no experimental y descriptivo. El enfoque experimental tiene
una variable independiente activa, como una intervención, un nuevo plan de estudios o un
tratamiento. El enfoque no experimental tiene un atributo variable independiente e incluye
encuestas e investigación observacional. El enfoque descriptivo no tiene una variable independiente.
Usamos el enfoque descriptivo de etiquetas para indicar estudios que solo describen la muestra
actual en lugar de usar estadísticas inferenciales para probar hipótesis sobre una población de interés más gran
A continuación, como se muestra en la Figura 4.1, dividimos el enfoque experimental en dos
enfoques específicos (es decir, experimental aleatorio versus cuasiexperimental), y también
dividimos el enfoque no experimental en tres enfoques específicos (es decir, comparativo versus
asociativo versus descriptivo). Todos los enfoques específicos excepto el descriptivo buscan
encontrar relaciones entre variables; difieren en términos de propósitos y en qué tipos de hipótesis/
preguntas de investigación ayudan a responder.
La Figura 4.1 también indica el propósito específico de cada uno de los cinco enfoques. Observe
que el enfoque experimental aleatorio es el más adecuado para determinar las causas. El enfoque
cuasiexperimental, en el mejor de los casos, proporciona buenas pistas sobre las causas. La
afirmación de que la variable independiente provocó un cambio en la variable dependiente no es
apropiada si el enfoque fue comparativo o asociativo.
En las secciones que siguen ampliamos la discusión sobre la utilidad de estos cinco enfoques
para producir conclusiones sobre causa y efecto. También examinamos las similitudes y diferencias.
45
Propósito general Explorar las relaciones entre variables Descripción

(Solo)

Aleatorizado Cuasi
Enfoque específico Comparativo asociacional Descriptivo
Experimental Experimental
Encontrar
Determinar Examinar Comparar Resumir
Propósito específico asociaciones,
Causas Causalidad Grupos Datos
Hacer predicciones
Tipo de Diferencia asociacional

Descriptivo
Pregunta/Hipótesis (Para comparar grupos) (Para relacionar variables)
Tipo general de Diferencia inferencial asociacional Estadísticas descriptivas

Estadística Estadísticas Estadística inferencial (p. ej., medias, histogramas,
(p. ej., prueba t, ANOVA) (por ejemplo, correlación, Porcentajes)
Regresión múltiple)
Figura 4.1
Diagrama esquemático que muestra cómo el tipo general de estadística e hipótesis/pregunta utilizados en un estudio se corresponde con los
propósitos y el enfoque.
entre cada uno de los cinco enfoques. La Figura 4.2 presenta información sobre las cinco investigaciones.
se enfoca de una manera diferente a la Figura 4.1 y proporciona criterios distintivos.
Tenga en cuenta que los enfoques comparativo y asociativo son los mismos en muchos aspectos.
Ninguno tiene una variable independiente activa ni asignación aleatoria a grupos. Estos enfoques no
experimentales generalmente difieren en el número de niveles de la variable independiente.
y el tipo de estadística utilizada.
En el enfoque asociativo, se supone que la variable independiente es continua.
Es decir, tiene muchos niveles/categorías ordenadas. Consideramos que un enfoque es asociativo si la
variable independiente tiene cinco o más categorías ordenadas . Sin embargo, hay
son estadísticas asociativas que se pueden utilizar cuando hay algunos niveles de la variable
independiente.
En el enfoque comparativo (y también en los dos enfoques experimentales), la variable independiente
suele tener de dos a cuatro niveles, de modo que se forman de dos a cuatro grupos de participantes.
comparado. Sin embargo, a veces, el enfoque comparativo se utiliza cuando hay más
más de cuatro niveles de la variable independiente, especialmente si es nominal/no ordenada, como
como cuando se comparan cinco o más grupos étnicos.
Enfoques de investigación 47
experimental Cuasi
Criterios aleatorizado experimental Comparativo Asociacional Descriptivo
asignación aleatoria de Sí No No No solo uno Sin grupos

participantes a grupos grupo)
por el investigador
Variable independiente Sí Sí No No No
está activo (atributo) (atributo) independiente
variable
La variable independiente es Generalmente A veces No No No

controlado por el
investigadora
Número de niveles de Generalmente Generalmente Generalmente Generalmente 5 o No

El independiente 2–4 2–4 2–4 mas ordenado independiente
variableb niveles variable
Relaciones entre Sí Sí Sí Sí No
variables o (comparación) (comparación) (comparación) (relación)
comparación de grupos
a Aunque el control de la entrega de la variable independiente por parte del investigador es una cualidad deseada de
diseños experimentales aleatorios y cuasiexperimentales, no es suficiente para distinguir entre
a ellos.
b Esta distinción se hace con fines educativos y sólo es cierta “normalmente”.
Figura 4.2
Una comparación de los cinco enfoques básicos de investigación cuantitativa.
Enfoques de investigación con una variable independiente activa

El enfoque experimental aleatorio
Para que un enfoque de investigación se llame experimental aleatorio (o verdadero), se deben cumplir dos criterios.
deben cumplirse. El criterio clave es que el investigador debe asignar aleatoriamente a los participantes a los grupos.
o condiciones. (Usamos la palabra condición además de grupo porque bajo ciertas circunstancias un grupo puede
someterse tanto a las condiciones de control como a las de intervención).
La asignación de participantes a grupos es lo que diferencia los experimentos aleatorios de los experimentos aleatorios.
cuasiexperimentos (Figura 4.2) y a menudo es difícil de lograr. Mucha investigación aplicada
involucra grupos intactos, como aulas o entornos de rehabilitación, y generalmente no es
posible cambiar esas configuraciones. Por lo tanto, la investigación con clases o grupos existentes se considera
cuasiexperimental, no experimental aleatoria.
El segundo criterio para el enfoque experimental aleatorio, que también satisfacen los cuasiexperimentos, es que la
variable independiente debe estar activa como se definió en el último capítulo.
Además, como se muestra en la figura 4.2, el investigador normalmente puede controlar la variable independiente en
experimentos aleatorios. En otras palabras, el investigador puede decidir exactamente cuál será el tratamiento, cuándo
y a quién se le administrará. Sin embargo, este tercer criterio
no es absoluto. En todos los experimentos aleatorios hay una variable independiente activa y la
Los participantes son asignados aleatoriamente a grupos, pero en algunos casos el experimentador no
controlar la entrega del tratamiento.
Asignación aleatoria
¿Qué es la asignación aleatoria y por qué es tan importante? El concepto de aleatoriedad implica que no
existe sesgo. Cuando el investigador asigna aleatoriamente a los participantes a grupos, significa que cada
participante tiene las mismas posibilidades de estar en el grupo de intervención o en el grupo de control.
Aleatorio no significa azaroso ni anticuado, como a veces ocurre en el lenguaje popular. Se podría utilizar
una tabla de números aleatorios generada por computadora o un método como el que se describe en el
siguiente párrafo para asignar aleatoriamente a los participantes a los grupos.
Por ejemplo, supongamos que hay 60 participantes en un estudio, con 30 personas en cada uno de dos
grupos. El investigador toma 60 hojas de papel y coloca un 0 en la mitad de las hojas y un 1 en la otra mitad.
Luego, el investigador coloca los 60 trozos de papel en un recipiente y lo agita para mezclar los trozos de
papel. Ahora, cuando cada participante llega al estudio, el investigador mete la mano en el recipiente y saca
una hoja de papel. Si el papel tiene un 0, el participante es asignado al grupo de control. Si el papel tiene un
1, el participante es asignado al grupo de intervención. (Es importante en esta situación que el investigador
no vuelva a colocar la hoja de papel en el recipiente después de asignar a cada participante). Este
procedimiento continúa hasta que los 60 participantes hayan sido asignados al grupo de intervención o al de
control.
Después de la asignación aleatoria, pero antes de la intervención, se supone que los participantes de los
dos grupos son equivalentes en todos los demás aspectos, incluidas las características demográficas.
De hecho, si la variable dependiente o de resultado se midiera antes de la intervención, los dos grupos no
deberían diferir significativamente. En la situación práctica, dos grupos relativamente pequeños, como en el
ejemplo anterior, probablemente no serían exactamente iguales. El concepto de aleatoriedad sólo iguala las
cosas a largo plazo, con un número relativamente grande de participantes en cada grupo. Sin embargo,
después de la asignación aleatoria, incluso si los dos grupos no son exactamente iguales, las diferencias
entre ellos se consideran insesgadas.
Selección aleatoria o muestreo Es
muy importante comprender la diferencia entre muestreo aleatorio y asignación aleatoria. El concepto de
aleatorio o imparcial es, por supuesto, común a ambos y a varias otras frases, como orden aleatorio, que
analizaremos en capítulos posteriores. El muestreo aleatorio , también llamado selección aleatoria de
participantes de la población, si se realiza en un estudio, precede a la asignación aleatoria a los grupos en el
procedimiento. Como vemos en el capítulo 9, la selección aleatoria tiene que ver con cómo se seleccionan
algunas personas de toda la población de interés para que participen en el estudio, no con cómo ingresan a
los grupos experimentales o de control.
Un experimento aleatorio puede utilizar o no selección o muestreo aleatorio. Aunque un estudio con un
procedimiento de muestreo débil aún puede ser un experimento aleatorio, su calidad general se reducirá
como se analiza en los Capítulos 23 y 24. También es cierto que la estadística inferencial supone que la
muestra estudiada es una muestra aleatoria de la población de interés. .
Si no es así, los resultados estadísticos pueden ser engañosos. Sin embargo, un experimento aleatorio no
implica necesariamente un muestreo aleatorio.
Un ejemplo
Considere un estudio para aumentar el funcionamiento de personas que tuvieron lesiones de la médula
espinal. Utilizando participantes en el centro de rehabilitación donde trabajaba, la investigadora asignó
aleatoriamente a los participantes a uno de dos grupos (tenga en cuenta que este no fue un muestreo aleatorio). Un grupo
(intervención) recibió la terapia. Un segundo grupo (control) no recibió la terapia. El

Las variables dependientes se midieron después de 12 semanas mediante una prueba y medidas de fuerza.
¿Es este estudio un experimento aleatorio? Se cumplió el primer criterio, la asignación aleatoria de los
participantes a los grupos. El estudio cumplió con el segundo criterio porque la variable independiente era activa
(intervención). El investigador también decidió cuál sería el tratamiento.
sería y qué grupo debería recibir el tratamiento, por lo que tenía control sobre la variable independiente. Por tanto,
el estudio fue un experimento aleatorio.
Este estudio de muestra utilizó uno de varios diseños experimentales específicos, el pretestpostest.
diseño de grupo de control, que se describe en el Capítulo 5. ¿Qué es este experimento específico?
diseño tiene en común con los demás y lo que lo distingue de los otros cuatro
Los enfoques de investigación descritos en este capítulo se muestran en la Figura 4.2.
El enfoque de investigación cuasiexperimental
El enfoque de investigación cuasiexperimental es similar al experimental aleatorio.

enfoque pero no cumple la condición de asignación aleatoria de participantes a grupos.
En estos diseños, por ejemplo, los participantes ya se encuentran en grupos intactos, como dos aulas diferentes,
antes del estudio.
Observe en la Figura 4.2 que los diseños cuasiexperimentales tienen una variable independiente activa
con unos pocos (normalmente de 2 a 4) niveles y también implican una comparación entre, por ejemplo, un
intervención y una condición de control. Sin embargo, hay una advertencia sobre el uso activo
variable independiente. En el enfoque experimental aleatorio, el investigador suele
tiene control sobre la variable independiente en el sentido de que determina el contenido y
el momento de la intervención, y la intervención se puede asignar aleatoriamente al grupo experimental y la no
intervención se puede asignar aleatoriamente al grupo de control. El
La fuerza del diseño cuasiexperimental se basa, en parte, en cuánto control tiene realmente el investigador al
manipular la variable independiente y decidir qué grupo
recibirá qué tratamiento. En el Capítulo 5 ilustramos cómo el control de las empresas independientes
La variable afecta la solidez del diseño cuasiexperimental. La fuerza del diseño.
influye en la confianza que podemos tener acerca de si la variable independiente fue la causa
de cualquier cambio que haya tenido lugar en la variable dependiente.
Dividimos el enfoque cuasiexperimental en cuatro categorías: (1) cuasiexperimentos
con grandes limitaciones; (2) diseños pretestpostest; (3) diseños de series de tiempo; y (4) diseños de un solo
tema. Analizaremos estos diseños con más detalle en los Capítulos 5 y 6.
Enfoques de investigación con variables independientes de atributos

Los enfoques asociativo y comparativo son similares en que estudian variables independientes de atributos y no
utilizan asignación aleatoria, y el investigador no tiene
control sobre las variables independientes. Porque no tienen un independiente activo
variable (intervención), llamamos a los enfoques comparativo y asociativo no experimentales. Ninguno de los
enfoques proporciona evidencia de que la variable independiente sea la causa de
diferencias en la variable dependiente. La mayoría de las investigaciones no experimentales incluyen preguntas
de investigación tanto comparativas como asociativas , que también se utilizan en investigaciones de “encuesta” y
“observacionales”. Usamos el término no experimental porque encuesta y observación se refieren
a técnicas de recopilación de datos (discutidas en el Capítulo 13) en lugar de diseños o enfoques.
Las encuestas (cuestionarios) y las observaciones se utilizan a menudo, y principalmente, en investigaciones no

experimentales, pero pueden utilizarse, y en ocasiones se utilizan, para recopilar datos para experimentos.
El enfoque de investigación comparativa El
enfoque comparativo difiere de los enfoques experimentales aleatorios y cuasiexperimentales porque el

investigador no puede asignar aleatoriamente a los participantes a grupos y porque no hay una variable
independiente activa. La Figura 4.2 muestra que, al igual que los experimentos aleatorios y los cuasiexperimentos,
los diseños comparativos suelen tener algunas categorías de la variable independiente y hacer comparaciones
entre grupos. Los estudios que utilizan el enfoque comparativo examinan el presunto efecto de una variable
independiente de atributo. Estos atributos podrían ser variables demográficas como la edad, el género o el origen
étnico.
O podrían comparar algunos grupos basándose en características de personalidad (p. ej., ansiedad rasgo alta
versus baja), tipo de discapacidad o experiencias previas como el tipo de escuela (p. ej., privada, pública,
autónoma) a la que asistieron los estudiantes.
Resumen de los tres enfoques que comparan grupos En cada uno de los
tres enfoques anteriores (es decir, experimental aleatorio, cuasiexperimental y comparativo), se comparó una
comparación de dos o más niveles/grupos que componen la variable independiente en términos de la variable
dependiente. Independientemente de si la variable independiente era activa o de atributo, tenía algunos niveles,
generalmente menos de cinco. Por ejemplo, en el estudio experimental de muestra, los participantes recibieron
terapia o no; por lo tanto, estos son los dos niveles de la variable independiente (tratamiento). Asimismo, en un
estudio comparativo se podría dividir a los participantes en dos grupos, mayores o menores, siendo la edad la
variable independiente. Los estudios que comparan grupos pueden tener más de dos categorías (p. ej., dos
tratamientos y un control o cuatro grupos de edad). Además, las categorías pueden estar ordenadas (por ejemplo,
alta, media, baja) o no ordenadas (por ejemplo, tres categorías nominales como protestantes, católicos y judíos).
El enfoque de investigación asociativa
Ahora consideraremos un enfoque de investigación en el que la variable independiente suele ser continua o tiene
varias categorías ordenadas, normalmente cinco o más. Supongamos que el investigador está interesado en la
relación entre la edad y el autoconcepto en los niños.
Supongamos que la variable dependiente es el autoconcepto y la variable independiente es la edad.
Si los participantes se dividieran en algunos grupos de edad, como “jóvenes”, “de mediana edad” y “mayores”,
seguiríamos considerando que el enfoque de la investigación es comparativo. Por otro lado, en el enfoque
asociativo típico, la variable independiente edad, como la edad real en años, se trata como continua. Es decir,
todos los participantes están en un único grupo medido según dos variables continuas: edad y autoconcepto.
Incluso si existe una fuerte relación entre estas dos variables, no se puede concluir que la edad cause un alto
concepto de sí mismo.
El enfoque de investigación descriptiva básica El
enfoque descriptivo, que se analiza con más detalle en el capítulo 7, se diferencia de los otros cuatro enfoques en
que sólo se considera una variable a la vez, de modo que no se hacen comparaciones ni relaciones. Esta falta de
comparaciones o relaciones es lo que distingue el enfoque descriptivo de los otros cuatro (Figura 4.2). Por
supuesto, el enfoque descriptivo no cumple ninguno de los otros criterios, como la asignación aleatoria de
participantes a grupos.
La mayoría de los estudios de investigación incluyen algunas preguntas descriptivas (al menos para describir la muestra).
Sin embargo, hoy en día es raro que la investigación cuantitativa publicada sea puramente descriptiva; Casi siempre
examinamos varias variables y sus relaciones. Por otro lado, las encuestas políticas y de consumidores a veces sólo están
interesadas en describir cómo reaccionan los votantes en su conjunto ante un tema o qué productos comprarán los
consumidores en general. Los estudios exploratorios de un tema nuevo pueden simplemente describir lo que la gente dice
o siente sobre ese tema. Además, la investigación cualitativa/constructivista puede ser principalmente descriptiva en este
sentido.
Diagramas resumidos de los cinco enfoques La Figura 4.3
incluye diagramas esquemáticos que ilustran cada uno de los cinco enfoques. Estos diagramas presentan la información
de la figura 4.2 de una manera algo diferente. También sirven como una vista previa de la Tabla 5.2, en el próximo capítulo,
que diagrama los diseños para los diferentes diseños experimentales y cuasiexperimentales aleatorios específicos .
Con fines explicativos, en la Figura 4.3 se muestra que cada uno de los cinco enfoques tiene una muestra muy pequeña
de seis participantes. En el enfoque experimental aleatorio, esta muestra se divide aleatoriamente (R) en grupos
experimentales (E) o de comparación (C), mientras que en los enfoques cuasiexperimental y comparativo la muestra se
divide de forma no aleatoria (NR) en grupos. En el enfoque asociativo, la muestra no está dividida; cada participante tiene
una puntuación (S) en la variable independiente del atributo, como la edad en años, y también una puntuación (O) en la
variable dependiente. En el enfoque descriptivo básico, la muestra no está dividida y no hay ninguna variable independiente.
La columna de la derecha de los cinco enfoques muestra la variable dependiente (O), que es una observación o
puntuación. En los tres enfoques que comparan grupos y en el enfoque descriptivo, las O son una medida resumida como
el promedio del grupo. Para el enfoque asociativo, la variable dependiente de cada participante es una medida separada,
como una puntuación de autoconcepto.
Combinaciones de enfoques de investigación Es
importante señalar que la mayoría de los estudios son más complejos de lo que implican los ejemplos anteriores, en parte
porque el enfoque se basa realmente en la pregunta de investigación. Casi todos los estudios tienen más de una pregunta
de investigación y, por lo tanto, pueden utilizar más de uno de los enfoques dados. Por ejemplo, es común encontrar un
estudio con una variable independiente activa (p. ej., tipo de tratamiento) y una o más variables independientes de atributos
(p. ej., género). Este tipo de estudio combina el enfoque experimental aleatorio (si los participantes fueron asignados
aleatoriamente a grupos) y el enfoque comparativo. En capítulos posteriores se analizan estudios con dos (o más) variables
o factores independientes. Muchos estudios incluyen preguntas de investigación asociativas, comparativas y descriptivas.
Como ya se mencionó, la mayoría de los estudios también tienen algunas preguntas descriptivas, por lo que es común que
los estudios publicados utilicen tres o incluso más de los enfoques.
Resumen Las
Figuras 4.1 y 4.2 resumen la mayoría de los puntos clave planteados en este capítulo. Tenga en cuenta que la fila superior
de la Figura 4.1 enumera dos propósitos generales de la investigación cuantitativa: descubrimiento
Variable independiente Variable dependiente
Experimental aleatorizado
Muestra Tarea 1, 2 3, 4 Grupo Activo IV Promedio Puntuación para el grupo
R mi (1, 3, 4) Nivel 1: X oh
5, 6 R C (2, 5, 6) Nivel 2: ~X oh
Cuasiexperimental
Muestra Asignación Grupo Activo IV Promedio Puntuación para el grupo
Clase 1
1, 2, 3 NR mi (1, 2, 3) Nivel 1: X oh
Clase 2
4, 5, 6 NR C (4, 5, 6) Nivel 2: ~X oh
Comparativo
Muestra Asignación Grupo Atributo IV Promedio Puntuación para el grupo
Machos
1, 2, 3 NR Machos (1, 2, 3) Nivel 1: M oh
Hembras
4, 5, 6 NR Hembras (4, 5, 6) Nivel 2: F oh
asociacional
Muestra Dos puntuaciones para cada persona
Variable dependiente del atributo IV

1 S oh
2 S oh
3 S oh
4 S oh
5 S oh
6 S oh
Descriptivo Promedio Puntuación para el grupo
Muestra
1, 2, 3, 4, 5, 6 Sin vía intravenosa oh
Clave: R = Aleatorio; NR = No aleatorio

E = grupo experimental/intervención; C = grupo control o de comparación X =
intervención ; ~X = Condición de control o comparación
O = Observación/puntuación de la variable dependiente
S = Puntuación en la variable independiente del
atributo Nota. Los números entre paréntesis indican los participantes de ese grupo.
Figura 4.3
Diagramas esquemáticos de los cinco enfoques de investigación.
de relaciones y descripción. Recuerde que el Capítulo 3 comenzó con una definición de

Problema de investigación como una pregunta sobre la relación entre dos o más variables. Este
es el sentido amplio en el que todos los enfoques, excepto el descriptivo, buscan establecer
relaciones entre variables.
En términos de propósitos más específicos, se puede ver en la Figura 4.2 que el enfoque experimental
aleatorio es el único cuyo propósito es determinar o identificar
causas; sin embargo, los cuasiexperimentos nos ayudan a examinar las posibles causas. Tanto el
enfoque comparativo como el cuasiexperimental y el experimental aleatorio
nos permite comparar grupos. Por lo tanto, los tres enfoques en el lado izquierdo de la Figura 4.1
utilizar preguntas o hipótesis de diferencia (como se analiza en el Capítulo 3) y estadísticas inferenciales
Variable independiente Enfoque de investigación Variable dependiente
Nominal o unos pocos Experimental aleatorizado
Niveles ordenados Cuasiexperimental Generalmente muchos pedidos

Comparativo Niveles (aproximadamente
asociacional continuo)
Muchos niveles ordenados
N/A Descriptivo
Figura 4.4
Tipos de variables más comunes para las variables independientes y dependientes dentro de cada una de las cinco investigaciones.
enfoques.
que prueban diferencias entre grupos (p. ej., pruebas t , análisis de varianza). Tenga en cuenta que hay
No hay distinción entre las estadísticas utilizadas en los experimentos para determinar las causas y aquellas
Se utiliza en estudios comparativos que sólo nos dicen que hay una diferencia entre grupos, no sobre efectos
causales.
El propósito específico del enfoque asociativo incluye encontrar asociaciones, relacionar variables y también
hacer predicciones a partir de variables independientes o predictoras para
puntuaciones en las variables dependientes o de criterio. Aunque es una simplificación excesiva, el enfoque
asociativo suele utilizar un tipo diferente de hipótesis (asociacional).
y estadísticas inferenciales diferentes (correlación y regresión múltiple) que los enfoques experimentales
comparativos, cuasiexperimentales y aleatorios.
La Figura 4.4 proporciona parte de la información de la Figura 4.2 de una manera diferente. Eso trae
Combine la discusión sobre variables ordenadas versus nominales del Capítulo 3 con la discusión de los cinco
enfoques en este capítulo. Una variable independiente continua es una característica únicamente del enfoque
asociativo. Sin embargo, como se muestra en la Figura 4.4, normalmente
Todos los enfoques cuantitativos tienen variables dependientes que son continuas o tienen muchas
niveles ordenados, como puntuaciones que varían de muy bajo a muy alto.
En los siguientes tres capítulos, analizamos con más detalle los diversos experimentos cuasiexperimentales.
y diseños experimentales aleatorios (Capítulo 5), cuasiexperimentales de un solo sujeto
diseños (Capítulo 6), y luego enfoques no experimentales (comparativos, asociativos y descriptivos) (Capítulo 7).
Conceptos clave
Causar o inferir causalidad
Variable continua
variables normales
Validez de la investigación
Distinciones clave
Preguntas y estadísticas de investigación de diferencias versus asociaciones versus descriptivas
Enfoques de investigación experimental versus no experimental

Asignación aleatoria versus no aleatoria
Asignación aleatoria de participantes a grupos versus selección aleatoria de participantes.
pantalones para ser incluidos en un estudio
Experimental aleatorio versus cuasiexperimental versus comparativo versus

Enfoque asociativo versus descriptivo de la investigación.
Relaciones entre variables versus descripción de una variable
1. A continuación se enumeran algunas diferencias entre los cinco enfoques de investigación. Fósforo
la descripción (A–E) que mejor se ajuste al tipo de enfoque (a–e). Explicar.
a. Experimental b. A. Compara grupos

Cuasiexperimental B. Hace preguntas que describen los datos.
C. Comparativo d. C. Examina la causalidad
Asociacional D. Asocia los muchos niveles de una variable con la
muchos niveles de otro
mi. Descriptivo E. Asignación aleatoria, intenta determinar la causalidad
.
. ¿Qué enfoque de investigación describe mejor los siguientes cinco escenarios (2 a 6)? ¿Por qué?
2. Un investigador quiere saber si beber cafeína ayuda a los estudiantes a obtener mejores calificaciones.
en un examen de matemáticas. Asigna aleatoriamente a los estudiantes a dos grupos: uno al que les da
cafeína para beber y otra que no. Le da a cada materia un examen de matemáticas.
3. Se realiza un estudio para investigar el tipo de asientos en el aula y evaluar el desempeño. El
Las materias son de dos clases de inglés en una escuela secundaria local. Se asigna una clase
reunirse en una habitación con almohadas en el suelo a modo de asientos. La otra clase se reunirá en
un aula tradicional.
4. Un maestro de escuela primaria está interesado en saber si más hombres o mujeres usan su
mano izquierda como mano dominante. Le pide a su clase de 28 estudiantes que escriban
ya sean diestros o zurdos.
5. Se realiza un estudio para analizar si un alto nivel de estrés (medido en una escala de 0 a 100
escala) está relacionado con un alto nivel de soledad (medido en una escala de 0 a 100).
6. Está interesado en comparar los efectos de dos tipos diferentes de terapia, musicoterapia y terapia
ocupacional, sobre la percepción del dolor en personas con artritis crónica.
7. Tienes dos entornos de rehabilitación diferentes a tu disposición. Describa en qué se diferenciaría un
diseño experimental aleatorio de un diseño cuasiexperimental.
5
Experimental aleatorio y
Diseños cuasiexperimentales
En el Capítulo 3 introdujimos dos tipos de variables independientes: activas y de atributo. También

describimos cómo una variable independiente tiene diferentes valores, a los que llamamos niveles.
Además, describimos la variable dependiente como la medida de resultado o criterio del estudio. La
forma en que se asigna a los participantes los niveles de la variable independiente determina, en parte,
el tipo de enfoque de investigación cuantitativa, que fue el tema del Capítulo 4.
Vale la pena volver al Capítulo 4 y revisar la Figura 4.1 para examinar la relación entre el tipo de
variable independiente y el tipo de enfoque de investigación cuantitativa. Los enfoques experimental
aleatorio y cuasiexperimental tienen una variable independiente activa, mientras que los enfoques
comparativo y asociativo tienen una variable independiente de atributo.
En este capítulo presentamos el concepto de diseño de investigación. Discutimos diseños de

investigación específicos, que son los diseños descritos en este capítulo y resumidos en la Figura 5.1
al final del capítulo. Estos diseños describen tipos específicos de enfoques de investigación
experimentales y cuasiexperimentales aleatorios. Un diseño de investigación específico nos ayuda a
visualizar las variables independientes del estudio, los niveles dentro de estas variables independientes
y cuándo se llevará a cabo la medición de la variable dependiente.
Tanto los enfoques experimentales aleatorios como los cuasiexperimentales tienen una variable
independiente activa, siendo al menos un nivel algún tipo de intervención o manipulación dada a los
participantes en el grupo experimental o de intervención. Generalmente hay una condición/tratamiento
de comparación o control, que se da como otro nivel de la variable independiente. Puede haber más
de dos niveles o grupos. Desafortunadamente, en algunos diseños cuasiexperimentales deficientes
sólo hay un nivel, por lo que no se pueden hacer comparaciones. Antes de discutir diseños específicos,
presentamos cierta terminología para ayudar a conceptualizar cada diseño.
Terminología de diseño
R = asignación aleatoria al grupo

NR = asignación no aleatoria al grupo
O = observación de la variable dependiente
X = intervención (un nivel de la variable independiente)
~X = ninguna intervención o la intervención habitual (otro nivel de la variable independiente)
E: = grupo experimental o de intervención1
C: = grupo de control o de comparación2
M = coincidencia
55
Diseños cuasiexperimentales con grandes limitaciones

Los tres diseños cuasiexperimentales discutidos en esta sección tienen serios defectos, por lo que
se les conoce como diseños preexperimentales . Desafortunadamente, estos diseños son relativamente
común, especialmente en la investigación aplicada. En ocasiones se utilizan este tipo de diseños debido
a una planificación previa inadecuada del diseño que conduce a problemas imprevistos. Otras veces
No es factible tener un grupo de comparación o una prueba previa.
Diseño de posprueba de un solo grupo
Un ejemplo de este diseño, a menudo denominado diseño de una sola vez, sería una evaluación
de un nuevo currículo en un sistema escolar. El investigador presenta el currículum (X)
y luego decide que podría ser útil determinar si está funcionando. Al final de
semestre, el investigador utiliza alguna forma de medición (O) para determinar el rendimiento de los estudiantes.
respuesta al nuevo currículum. El diseño se muestra a continuación:
NR MI: X oh
Este diagrama y los siguientes indican una secuencia de tiempo. Primero, todos los participantes son
asignado al grupo de intervención; esto, por supuesto, no es aleatorio. Luego el tratamiento y,
finalmente se realiza un postest. El problema con el diseño es que no satisface ni siquiera las
condición mínima para un problema de investigación, que es la investigación de una relación o
comparación. Tenga en cuenta que la intervención no es una variable porque solo hay un nivel.
¿Tiene algún valor el diseño de posprueba de un solo grupo? Al menos, proporciona un piloto
(un término común para indicar datos exploratorios) para un estudio futuro. El investigador podría
comparar los resultados con datos de un grupo anterior o del mismo grupo en un momento anterior
tiempo. Sin embargo, si se hiciera esto, el diseño ya no sería una prueba posterior de un solo grupo.
diseño.
Diseño de prueba previa y posterior de un grupo
El diseño de prueba previa y posterior de un grupo se puede mostrar de la siguiente manera:
Intervención previa a la prueba Postprueba
NR MI: O1 X O2
Las operaciones para este diseño son que, después de que todos los participantes sean asignados al grupo
experimental, se realiza una observación en forma de prueba previa. Entonces la intervención es
se da y, finalmente, se registra una segunda observación en forma de postest. Este diseño
es típico cuando se explora una nueva intervención para programas comunitarios. Por ejemplo, una comunidad
podría estar interesada en aumentar las actividades basadas en la seguridad, como el uso de
cascos de bicicleta. La intervención (variable independiente) podría ser una campaña publicitaria diseñada para
demostrar los efectos positivos de seguridad de los cascos para ciclistas.
La variable dependiente podría ser el cambio de actitud sobre la seguridad. ya que no hay control
grupo, la única comparación sería entre el pretest y el postest.
El problema con el diseño pretestpostest de un solo grupo es que no hay comparación con un segundo grupo.
En cambio, la única comparación en el diseño pretestpostest de un grupo
Diseños experimentales y cuasiexperimentales aleatorios 57
está entre el pretest y el postest dentro de un mismo grupo. Debido a que no existe un grupo de comparación, no es
posible concluir que cualquier cambio de la prueba previa a la prueba posterior se deba
a la intervención y no debido a otras variables extrañas. Consulte el Capítulo 8 para una discusión.
de este problema, que se denomina amenaza a la validez interna.
Los eventos ambientales extraños son una posible amenaza a la validez interna de este diseño.
porque la falta de un grupo de control impide que el investigador sepa, por ejemplo,
si otras actividades al mismo tiempo que la intervención podrían estar produciendo la
facilitación. La maduración es una posible amenaza a la validez interna porque los estudiantes son
envejeciendo y pueden estar mejor coordinados y más fuertes al mismo tiempo que la intervención. Los efectos de
arrastre son un posible problema en este diseño porque tomar la prueba previa
podría influir en el postest. En esta muestra, la equivalencia de los grupos habría sido
hubiera sido un problema si hubiera habido algunos niños del grupo de control que no hubieran abandonado la escuela. Incluso
si el grupo de intervención había sido inicialmente (en la prueba previa) similar al grupo de control,
la alta tasa de deserción (llamada deserción o mortalidad experimental por Shadish, Cook y
Campbell, 2002) probablemente habría significado que los grupos que tomaron la prueba posterior tenían
características diferentes.
Mejorando este diseño
En algunos casos resulta poco práctico o incluso poco ético tener un grupo de comparación que no
no recibir el tratamiento. Cuando eso suceda, se podrían hacer varias cosas para mejorar.
el diseño. A veces es posible realizar varias evaluaciones previas y posteriores a la prueba, según sea necesario.
se analiza más adelante en este capítulo bajo diseños de series temporales de un solo grupo. Además, puede haber la
Posibilidad de utilizar uno de los diseños monotema descritos en el Capítulo 6.
Otra posibilidad, cuando no es práctico o ético tener un grupo que no obtenga
el tratamiento planificado, es utilizar el diseño de grupo de comparación en lista de espera. en este diseño
Todos los participantes eventualmente reciben el tratamiento, pero algunos, preferiblemente la mitad al azar, son
asignado a una lista de espera. Se les evalúa cuando ingresan por primera vez al estudio y dos veces más.
más tarde: una vez después de esperar el mismo tiempo que tardó en completarse la intervención
y nuevamente después de recibir la intervención. Un diagrama del grupo de comparación de la lista de espera.
El diseño se puede mostrar de la siguiente manera:
Grupo de Intervención Inmediata O1 X O2
Grupo de lista de espera O1 ~X O2 X O3
Este diseño sólo es práctico cuando la intervención es relativamente breve, unos pocos meses como máximo,
y cuándo es ético y práctico esperar que los participantes potenciales esperen la oportunidad de recibir el tratamiento.
Si no se puede encontrar un grupo de comparación aceptable para la prueba prepostest de un grupo

diseño, aumentar el número de variables dependientes es otra opción que puede ayudar en
interpretando los resultados. Se podría utilizar una herramienta de medición que tenga varios dominios, por ejemplo
por ejemplo, competencia escolar, competencia atlética y conducta conductual. No todos
Se esperaría que estas medidas mejoraran debido a la intervención. uno podría predecir
qué medidas deberían cambiar debido a la intervención y cuáles no se esperarían
cambiar. Si sólo cambiaran las medidas previstas, entonces se podría depositar más confianza
en la intervención como responsable de los cambios en dichas medidas. La suma de
varias variables de resultado al diseño pretestpostest de un grupo a veces se le llama
diseño de variables dependientes no equivalentes (Shadish et al., 2002).
Diseño de grupos no equivalentes solo después de la prueba
Este diseño es el tercer tipo común de diseño cuasiexperimental con importantes limitaciones. Se puede diagramar
de la siguiente manera:
NR MI: X oh
NR C: ~X oh
Debido a que no hay asignación aleatoria a grupos ni pruebas previas, es imposible determinar
qué tan similares eran los grupos antes del tratamiento. Como ejemplo de este tipo de diseño,
Un investigador está interesado en un programa para reducir las caídas en las personas mayores. Un grupo de
participantes (el grupo de intervención) recibe un programa de Tai Chi conocido por aumentar el equilibrio en
los ancianos. Otros participantes (el grupo de comparación) no reciben el programa de Tai Chi.
Al final del estudio, ambos grupos actúan con un instrumento para medir el equilibrio. Es
probable que aquellos en el grupo de Tai Chi eligieran participar en el programa y que aquellos
en el segundo grupo estaban los participantes que no se inscribieron en la formación. llamamos a esto
Sesgo de asignación de problemas porque es el resultado de una asignación no aleatoria a grupos, no
selección o muestreo. El problema se produce porque los participantes que eligieron o se ofrecieron como voluntarios
participar en el grupo de intervención puede ser diferente en términos de motivación, salud,
y muchas otras características de aquellos en el grupo de comparación.
Mejorando este diseño
Si es posible, debería realizarse una prueba previa de la variable dependiente a ambos grupos.
Luego, el diseño se cambiaría a un diseño de grupo de comparación no equivalente pretestpostest, mejor, pero aún
débil, como se analiza en la siguiente sección. El problema es que incluso si el
inicialmente (en la prueba previa) iguales en términos de equilibrio, bien podrían diferir en
otras variables como la motivación, la salud actual y la demografía.
Un intento común de mejorar este diseño, cuando no es posible o no se realizó una prueba previa,
es ver si los grupos difieren en cuanto a información demográfica u otra información disponible. A menudo esto
La verificación se realiza a posteriori. No encontrar diferencias grupales estadísticamente significativas en,
por ejemplo, el género, la etnia o la clase social proporciona algún apoyo al que los grupos están
similar, como fue el caso en nuestro estudio de muestra 2 (Brothen & Wambach, 2004). Sin embargo, “no
significativamente diferente” no es lo mismo que equivalente y, lo que es más importante, nunca se puede
medir todas las posibles características cruciales de los participantes.
Mejores diseños cuasiexperimentales

Diseños de grupos de comparación no equivalentes antes y después de la prueba
Los diseños pretestpostest dentro del enfoque cuasiexperimental suelen denominarse

como diseños de grupos de comparación no equivalentes. El procedimiento se diagrama de la siguiente manera:
NR MI: O1 X O2
NR C: O1 ~X O2
Observe que no hay una asignación aleatoria de los participantes a los dos (o más) grupos en este
diseño. Las operaciones secuenciales del diseño de grupo de comparación no equivalente son las
siguientes. Primero, se toman medidas en dos grupos diferentes antes de una intervención. Luego,
un grupo recibe la intervención y el otro grupo no recibe la intervención. Al final del período de
intervención, ambos grupos se miden nuevamente para determinar si existen diferencias entre los
dos grupos.
El diseño se considera no equivalente. Incluso si los dos grupos tienen la misma puntuación media
en la prueba preliminar, los grupos podrían ser diferentes en algunas características importantes que
no han sido medidas. Estas variables pueden interactuar con el tratamiento para provocar diferencias
entre los dos grupos que no se deben estrictamente a la intervención.
Por ejemplo, en nuestro estudio de equilibrio de la última sección, los grupos bien podrían diferir en
cuanto a motivación. Además, es posible que un grupo no haya tenido la misma proporción de
hombres o minorías étnicas que el otro grupo, o que los grupos hayan sido diferentes en su nivel de
educación o en alguna otra característica importante de personalidad. Los investigadores no pueden
conocer ni equiparar todas las posibles variables que podrían afectar el resultado o la variable
dependiente.
Hemos clasificado el diseño de grupo de comparación no equivalente pretestpostest en tres
fortalezas del diseño cuasiexperimental. Se parecen, como se mostró anteriormente, cuando se
diagraman, pero varían en cómo los participantes llegaron a los grupos o condiciones y en cuánto
control tiene el investigador sobre la variable independiente. A continuación describimos ejemplos de
diseños cuasiexperimentales pretestpostest fuertes, de fortaleza media y débiles. Proporcionamos el
siguiente ejemplo, que ayudará a distinguir los enfoques cuasiexperimentales fuertes, moderados y
débiles entre sí y de los dos enfoques experimentales aleatorios más utilizados. Por lo tanto,
utilizamos este ejemplo con frecuencia durante el resto del capítulo.
La Fundación Nacional de Ciencias (NSF) y otras agencias federales estaban interesadas en

aumentar el número de profesores en las áreas de matemáticas y ciencias. Se propuso que si las
clases a nivel universitario se impartieran de manera basada en la investigación (centradas en el
estudiante y con un enfoque en la comprensión), las actitudes y el interés de los estudiantes sobre la
materia aumentarían y, en última instancia, más estudiantes considerarían una carrera en la
enseñanza. . En nuestro ejemplo, consideramos álgebra universitaria como materia de estudio. La
variable independiente para nuestro ejemplo es el tipo de enseñanza, con dos niveles: basada en la investigación y
La variable dependiente es la actitud hacia las matemáticas o una prueba de rendimiento en
matemáticas. La variable dependiente se daría al inicio y al final del semestre. En nuestro ejemplo
hay dos clases de álgebra de nivel universitario en la misma universidad.
Diseños cuasiexperimentales sólidos antes y después de
la prueba En el enfoque cuasiexperimental fuerte, los estudiantes no fueron asignados al azar a las
clases. Quizás algunos eligieron la clase según la hora del día, mientras que otros no dieron
preferencia. Sin embargo, en el enfoque cuasiexperimental fuerte, el investigador tiene control sobre
la variable independiente y puede asignar aleatoriamente el tratamiento (basado en la investigación)
a un aula (intacta) y el enfoque tradicional a la otra. La fortaleza de este diseño cuasiexperimental es
que es bastante similar a un diseño experimental aleatorio excepto que los participantes no han sido
asignados aleatoriamente a grupos o condiciones. En algunas situaciones intactas, como las aulas
dentro de una sola escuela, la asignación de estudiantes a diferentes aulas puede ser casi aleatoria
(es decir, no se introdujo ningún sesgo intencional en la asignación); en esos casos, el diseño
cuasiexperimental fuerte es casi equivalente a un diseño experimental aleatorio.
Tabla 5.1
Cuestiones que determinan la solidez de los diseños cuasiexperimentales

Asignación aleatoria de Las características de los participantes
Fuerza del diseño tratamientos a grupos intactos. probablemente sean similares
Diseños con grandes limitaciones.

Muy débil No No, porque no hay grupo de comparación o no
prueba previa
Diseños no equivalentes pretestposttest

Débil No No es probable, porque los participantes deciden
a qué grupo unirse (autoasignación a grupos)
Moderado No Quizás, si los participantes no se autoasignaran
grupos y sin sesgo de asignación conocido
Fuerte Sí Quizás, si los participantes no se autoasignaran
grupos y sin sesgo de asignación conocido
¿Es este estudio un experimento aleatorio? Había una variable independiente activa. El
el investigador tenía control sobre quién recibía la variable independiente; asignó aleatoriamente el tratamiento
a una clase y la otra clase no recibió la intervención. sin embargo, el
El investigador no pudo asignar aleatoriamente a los participantes a los grupos, por lo que no se consideró un
experimento aleatorio. No cumplir esta condición puede o no ser un
problema importante, dependiendo de cómo llegaron los estudiantes a cada clase. Si la asignación a clases
fue imparcial y similar al azar, el estudio podría considerarse casi tan sólido como
un experimento aleatorio. Por otro lado, si hubiera alguna razón sistemática para
que los estudiantes estén en una clase en lugar de otra (p. ej., preferencia por el maestro o el horario de
día), entonces hay un sesgo en la metodología, y todas las conclusiones deben tener en cuenta este sesgo.
consideración.
La tabla 5.1 resume las dos cuestiones que determinan la solidez de un estudio cuasiexperimental.
diseño: control sobre la variable independiente (indicada por la asignación aleatoria de tratamientos a grupos
intactos) y equivalencia de las características de los participantes. recuerda que hay
No hay asignación aleatoria a los grupos en ningún diseño cuasiexperimental, por lo que los grupos son
nunca totalmente equivalente.
Incluso si los grupos intactos varían de manera importante, si hay un número suficientemente grande de
grupos disponibles (p. ej., secciones de clases), la asignación aleatoria de los tratamientos a la mitad de los grupos
es equivalente a la asignación aleatoria de los participantes.3 Sin embargo, excepto en algunos estudios
nacionales, generalmente no es posible incluir más que unas pocas clases (o clínicas), por lo que es importante
que sean similares si el diseño debe considerarse un cuasiexperimento sólido.
Diseños cuasiexperimentales de resistencia moderada
Este diseño implica menos control por parte del investigador sobre la variable independiente y,
Como en todos los cuasiexperimentos, los participantes no fueron asignados aleatoriamente a grupos. El
El diseño cuasiexperimental de resistencia moderada encaja entre los diseños cuasiexperimentales débiles.
diseño y el fuerte diseño cuasiexperimental basado en qué tan similares eran los grupos
Previo a la intervención. En este diseño, los participantes no deciden (se autoasignan) qué grupo
estarán en función del conocimiento de la intervención. Es decir, no se ofrecen voluntariamente para ser
en el estudio porque quieren recibir ese tratamiento específico, taller, etc.
El grupo en el que se encuentran está intacto antes del estudio debido a otros factores, que presumiblemente
no están relacionados con la intervención. Ejemplos de estos factores incluyen estudiantes que programan
clases debido a la disponibilidad o personas que eligen hospitales debido a la conveniencia geográfica.
La diferencia crítica entre esta versión del diseño y los cuasiexperimentos fuertes es que el investigador
no puede asignar aleatoriamente el tratamiento a ciertos grupos porque aprovecha una situación en la
que se sabe de antemano que un grupo (por ejemplo, escuela u hospital) está programado para recibir
la intervención (o un nuevo plan de estudios) y otro grupo no recibirá la intervención.
Volviendo a nuestro ejemplo anterior de un estudio sobre los efectos del aprendizaje basado en la
investigación, supongamos que se utilizaran las mismas dos clases, una clase recibiendo el enfoque
basado en la investigación y la otra clase recibiendo el enfoque tradicional. Por tanto, la variable
independiente y la variable dependiente son iguales. Sin embargo, en el presente ejemplo (enfoque de
intensidad moderada), el investigador no puede asignar tratamientos al azar a las aulas.
¿El estudio cumplió con los criterios para un experimento aleatorio? Aunque había una variable
independiente activa (enfoque de enseñanza), el investigador no asignó aleatoriamente a los participantes
a las clases. Las clases estaban intactas antes de la intervención. ¿Tuvo el investigador control sobre
qué clase recibió la intervención? No, en este ejemplo, el investigador no pudo asignar aleatoriamente el
tratamiento a una clase y ningún tratamiento a una segunda clase.
En cambio, las clases se seleccionaron porque el investigador sabía que una clase iba a recibir el
enfoque basado en la investigación y la otra clase iba a recibir el enfoque tradicional. Este diseño no es
tan sólido como el diseño anterior porque, en este caso, el investigador no pudo asignar la intervención
al azar. Los instructores ya habían decidido qué enfoque utilizarían.
La fortaleza relativa de este diseño depende de si los estudiantes de la clase que recibió la intervención
eran diferentes de los estudiantes de la clase que no recibió la intervención. Si no hay motivos para
sospechar un sesgo en relación con la variable dependiente, entonces el diseño es casi tan sólido como
el cuasiexperimento fuerte pretestpostest. Por otro lado, el diseño es más débil si hay alguna razón para
creer que existe un sesgo en el grupo que recibió el tratamiento o diferencias, como diferencias previas
en el desempeño o experiencia en matemáticas.
Diseños cuasiexperimentales débiles
Este diseño ocurre cuando uno intenta evaluar una intervención donde la participación es voluntaria.
Tiene algunos de los problemas mencionados anteriormente para los cuasiexperimentos sin prueba
previa. Como en todos los cuasiexperimentos, el investigador no puede asignar participantes a grupos al
azar. De hecho, en este ejemplo, los participantes eligen si desean recibir la intervención; es decir, se
asignan a sí mismos a los grupos. Un problema relacionado es que el investigador no tiene control sobre
la variable independiente y no puede asignar aleatoriamente el tratamiento a uno de los grupos. Es de
suponer que los participantes eligieron estar en un grupo particular para recibir una intervención o
tratamiento particular.
Nuevamente volvemos a nuestro ejemplo de instrucción basada en la investigación. En el enfoque
cuasiexperimental débil, los estudiantes se inscriben en la clase basada en la investigación o en la clase
tradicional porque saben de antemano cómo se impartirá el curso. Por lo tanto, la selección de la clase
está sesgada. Debido a que al menos un grupo se ha ofrecido voluntario, el investigador no puede
asignar aleatoriamente el enfoque basado en la investigación a una clase y el enfoque tradicional a la
otra clase. Por lo tanto, cualquier diferencia eventual entre la clase que recibió la intervención y la clase
que no recibió la intervención debe ser atenuada por este posible sesgo.
Diseños de series temporales
Una segunda categoría general de mejores diseños cuasiexperimentales se llama series de tiempo.
diseños. Como todos los diseños cuasiexperimentales, no existe una asignación aleatoria de participantes.
a grupos. Los dos tipos más comunes de diseños de series temporales son los diseños de series temporales de un solo grupo
y los diseños de series temporales de grupos múltiples (ver Shadish et al., 2002). Dentro de cada tipo de
En el diseño de series de tiempo existen diseños de tratamiento temporal y de tratamiento continuo .
Diseños de series temporales de un solo grupo
La lógica detrás de estos diseños, y de todos los diseños de series temporales, implica convencer a otros
que una línea de base (es decir, varias pruebas previas) es estable antes de una intervención, de modo que se puede concluir
que el cambio en la variable dependiente se debe a la intervención y no a otras
eventos ambientales. Por ejemplo, consideremos el diseño de prueba previa y posterior de un grupo, que
Lo discutimos como un diseño cuasiexperimental con importantes limitaciones.
El diseño de prueba previa y posterior de un grupo se puede ver de la siguiente manera:
Intervención previa a la prueba Postprueba
NR MI: O1 X O2
El problema con este diseño es que si hay un cambio del pretest al postest
puntuación, no se sabe si el cambio se debió a la intervención o a algún otro evento
Eso podría haber sucedido al mismo tiempo. Ahora supongamos que agregamos varias observaciones anteriores (pruebas
previas 1, 2 y 3, cada 2 meses antes del estudio). Supongamos también que hubiera
Se observaron pocos cambios entre la prueba previa 1, la prueba previa 2 y la prueba previa 3 antes de la intervención.
Pero luego de la intervención se observó un cambio en el postest. Este diseño sería
sería más convincente si se hubieran realizado aún más observaciones antes de la introducción de la variable independiente
y todavía no se hubiera producido ningún cambio. Es común en los diseños de series temporales
tener múltiples medidas antes y después de la intervención, pero debe haber múltiples (al menos
tres) pruebas previas para establecer una línea de base.
El diseño de series temporales de un solo grupo con tratamiento temporal se diagrama a continuación:
NR MI: O1 O2 O3 O4 XO5 O6 O7 O8
Un ejemplo de este diseño de series temporales de un solo grupo podría involucrar a una empresa que
interesado en los efectos de un taller sobre la capacidad de trabajar en equipo. Las observaciones tomarían
antes del taller sobre alguna medida relevante, como las interacciones cooperativas.
El taller se imparte después de cuatro medidas de referencia, cada una con una semana de diferencia, sobre cooperación
interacciones. El taller es una intervención temporal, y se registran las observaciones.
inmediatamente después de la intervención y en tres momentos posteriores. Uno esperaría que si el
Si el taller fuera exitoso, habría un aumento inmediato después de la intervención.
en relación con los períodos de referencia anteriores, y los efectos podrían o no ser prolongados
perdurable.
El diseño de series temporales de un solo grupo con tratamiento continuo es una variante del
Diseño con tratamiento temporal. Este diseño se diagrama de la siguiente manera:
NR MI: O1 O2 O3 O4 XO5 XO6 XO7 XO8

Un ejemplo de este tipo de diseño podría ser una escuela que implemente un nuevo plan de estudios.
Las observaciones del antiguo plan de estudios podrían realizarse con puntuaciones de lectura estandarizadas.
de semestres anteriores. Estas mismas mediciones serían examinadas durante la nueva
intervención curricular. El nuevo plan de estudios no es una intervención temporal como un taller, sino que se
lleva a cabo de forma continua hasta que se reemplaza. Este diseño es especialmente popular cuando
Hay registros de estudiantes con muchas medidas repetidas que se pueden usar para observaciones.
y cuando no sea posible o práctico tener un grupo de control.
Diseños de series temporales de grupos múltiples
Estos diseños de series temporales son similares a los diseños de series temporales de un solo grupo, pero son más fuertes.
agregando un grupo de comparación que reciba el mismo número de mediciones realizadas pero
no recibe la intervención.
El diseño de series temporales de grupos múltiples con tratamiento temporal se diagrama como
sigue:
NR MI: O1 O2 O3 O4 XO5 O6 O7 O8
NR C: O1 O2 O3 O4 ~XO5 O6 O7 O8
Proporcionamos un ejemplo de este tipo de diseño ampliando nuestro ejemplo de taller de

el diseño de series temporales de un solo grupo. Supongamos que la empresa que intenta promocionar
La cooperación a través del taller de jugadores en equipo establece un grupo de comparación al examinar las
interacciones cooperativas entre los trabajadores que no asistieron al taller. O, un
Lo más común sería examinar a los trabajadores de una empresa similar (o tal vez
otra sucursal) que no recibió el taller.
El diseño de series temporales de grupos múltiples con tratamiento continuo es la última opción.
Diseño de serie que comentamos. Este diseño se puede diagramar de la siguiente manera:
NR MI: O1 O2 O3 O4 XO5 XO6 XO7 XO8

NR C: O1 O2 O3 O4 ~XO5 ~XO6~X O7 ~XO8
Si volvemos a nuestro ejemplo del currículo escolar, el diseño de series temporales de un solo grupo con
Los tratamientos continuos podrían extenderse al diseño de series temporales de grupos múltiples con
múltiples tratamientos agregando un grupo de comparación, tal vez de otro distrito escolar.
Este grupo de comparación recibiría solo el plan de estudios tradicional.
Conclusión
Los diseños de series temporales (especialmente los diseños de series temporales de un solo grupo) se han
convertido en diseños importantes en entornos educativos, donde a menudo no es práctico introducir un grupo
de control. La ventaja clave de este tipo de diseño de series temporales, en contraste con el diseño de un solo grupo
Diseño cuasiexperimental pretestpostest, es el uso de observaciones o registros repetidos
que proporcionan un grado de seguridad de que los cambios no se deben a otros eventos ambientales
o maduración. Otro tipo de diseño de series temporales cuasiexperimentales es el de un solo sujeto.
diseño. Sin embargo, debido a varias características únicas, se analiza el diseño de un solo tema.
con cierto detalle en el próximo capítulo.
Diseños experimentales aleatorios

En la primera parte de este capítulo, discutimos diseños cuasiexperimentales y algunos de
sus debilidades. Recuerde que tanto los diseños experimentales cuasi como los aleatorios
tienen una variable independiente activa, pero en diseños aleatorios los participantes son
asignados aleatoriamente a los grupos experimental y control. asignación aleatoria de
Los participantes de los grupos deben eliminar el sesgo en todas las características antes de introducir la
variable independiente. Esta eliminación del sesgo es una condición necesaria para
resultados para proporcionar evidencia convincente de que la variable independiente causó diferencias
entre los grupos sobre la variable dependiente. Por causa demostrable, otros
Los sesgos en las variables ambientales y de experiencia que ocurren durante el estudio también deben
ser eliminado.
Por razones éticas, a menudo no es posible que el grupo de control no reciba tratamiento en
todos, pero puede resultar difícil decidir qué tipo de grupo de comparación es mejor. Para experimentos
aleatorios, etiquetamos todas esas opciones como tratamiento de control. Un placebo o ningún tratamiento
en todo grupo es especialmente problemático en situaciones donde los participantes son pacientes con
algún tipo de problema o enfermedad. No es ético que no reciban ningún tratamiento o que reciban un
placebo, por lo que normalmente reciben el tratamiento estándar o típico.
Control de los efectos sin tratamiento
Cuando sea ético y posible, la adición de un tercer (o más) nivel a los estudios experimentales,
donde se comparan dos intervenciones diferentes, hará que los resultados sean más fáciles de interpretar.
Por ejemplo, un estudio podría comparar dos tipos de programas de enriquecimiento. Aunque los participantes
fueron asignados aleatoriamente a grupos para producir una buena validez interna, los resultados
Sería difícil de interpretar si el estudio no incluyera un grupo de control que no recibió
cualquier enriquecimiento. En ese caso, el estudio sólo pudo comparar cuál de los programas funcionó
mejor, pero no habría manera de evaluar si alguno de los programas era mejor que ninguno.
programa en absoluto. Si hubieran añadido un tercer nivel o grupo, que no hubiera recibido ningún programa,
se hubiera mejorado la interpretación. De manera similar, si comenzaste con un nuevo
programa y un grupo de control/sin programa, obtendrá información adicional si
Se agregó un grupo con un programa alternativo/o tradicional.
A continuación, analizamos cinco tipos específicos de diseños experimentales aleatorios. Para cada nosotros
describir y diagramar el diseño y presentar algunas de las ventajas y desventajas.
Los diagramas y la discusión se limitan a dos grupos, pero recuerda que más de
Se pueden utilizar dos grupos con cualquiera de estos diseños. Podría haber más de un tipo de
intervención o más de un tipo de grupo de comparación. El grupo experimental recibe
la intervención, y los grupos de “control” reciben el tratamiento estándar (tradicional), un
placebo u otro tratamiento (comparativo).
Diseño de grupo de control solo posterior a la prueba
El diseño del grupo de control de posprueba únicamente se diagrama de la siguiente manera:
R MI: X oh
R C: X oh
Diseños experimentales y cuasiexperimentales aleatorios sesenta y cinco
Las operaciones secuenciales de este diseño son asignar aleatoriamente a los participantes a una
grupo de intervención o de control (recuerde que se pueden utilizar más de dos grupos con cualquier
de los diseños aleatorios o cuasiexperimentales); luego el grupo de intervención recibe
la intervención prevista y el grupo de control recibe una intervención diferente, o ninguna
intervención, o el tratamiento/curriculum habitual. Si se utilizan dos intervenciones diferentes,
este diseño se llamaría diseño de grupo de comparación de posprueba únicamente. Al final del período de intervención,
ambos grupos se miden utilizando alguna forma de instrumentación (variable dependiente) relevante para el estudio.
Para demostrar el diseño del grupo de control solo posttest volvemos a nuestra investigación.
del enfoque de enseñanza basado en la investigación y el álgebra universitaria. Todos los estudiantes que se inscribieron
para álgebra universitaria fueron asignados al azar a una de las dos clases. Entonces, una clase fue
asignado aleatoriamente a la condición basada en la investigación y la otra clase a la condición tradicional
enfoque de enseñanza. Al final de la sesión de 15 semanas, ambas clases fueron evaluadas en un inventario de actitud
hacia las matemáticas.
El punto clave para el diseño del grupo de control posttest es la asignación aleatoria de
participantes a grupos. Se puede suponer que si los participantes son asignados aleatoriamente a cualquiera de los dos
una u otra clase, las dos clases eran esencialmente equivalentes antes de la intervención
en todas las variables relevantes, incluidas la demográfica y la variable dependiente. Por lo tanto,
Si hay diferencias en la medida dependiente después de la intervención, se puede
Se supone que las diferencias se deben a la intervención y no a diferencias en
características de los participantes.
¿La asignación aleatoria de participantes a grupos siempre hace que los grupos sean equivalentes? Con al menos
30 participantes en cada grupo o una muestra homogénea de participantes,
el investigador puede estar bastante seguro de que la asignación aleatoria producirá resultados equivalentes.
grupos. Sin embargo, con números más pequeños en la muestra, o participantes muy heterogéneos, se puede depositar
menos confianza en la asignación aleatoria que proporcione grupos equivalentes.
En estos últimos casos, se utilizó un diseño experimental diferente, el grupo de control pretestpostest
diseño, se sugiere.
Diseño del grupo de control pretestposttest
El diseño del grupo de control pretestpostest se esquematiza de la siguiente manera:
R MI: O1 X O2
R C: O1 ~X O2
Las operaciones secuenciales del diseño del grupo de control pretestpostest son las siguientes. Primero,
los participantes son asignados aleatoriamente a grupos. Luego, cada grupo se somete a una prueba previa sobre la
variable dependiente. Luego, el grupo de intervención recibe la intervención; el grupo de control
recibe el tratamiento tradicional. Por las razones éticas antes mencionadas,
los participantes del grupo de control pueden abandonar el estudio o no esforzarse por obtener buenos resultados en el
post prueba. Por lo tanto, es poco común y generalmente no deseable que el grupo de control reciba
nada en absoluto, especialmente si tienen algún problema o si el tiempo entre el pretest y
la prueba posterior es larga. Después del período de intervención, ambos grupos se miden nuevamente en el
variable dependiente (postest).
El diseño de grupo de control pretestpostest es el diseño experimental aleatorio más común, como en nuestro estudio
de muestra 1 (Schellenberg, 2004). Cada vez que se compara un tratamiento
con un grupo de control en dos períodos de tiempo, generalmente antes de la prueba y después de la prueba, este es el
diseño que se utiliza. Es un experimento aleatorio porque los participantes son elegidos al azar.
asignados a grupos antes del período de medición inicial (preprueba). La razón para usar
Este diseño, comparado con el diseño del grupo de control de solo posprueba, tiene como objetivo verificar la
equivalencia de los grupos antes de la intervención. Por otro lado, el problema de utilizar un
La prueba previa es que podría sesgar a los participantes en cuanto a qué esperar del estudio e influir
ellos de alguna manera; es decir, podría haber efectos de arrastre. Esto es especialmente probable cuando el
La intervención es breve. El investigador debe sopesar las ventajas de realizar una prueba previa: que
es decir, obtener información sobre la equivalencia de grupos con la desventaja de posiblemente sesgar el postest. En
nuestro ejemplo anterior, la variable dependiente era una actitud.
escala, que podría alertar a los estudiantes sobre lo que se podría esperar de la intervención. El
El diseño de grupo de control pretestpostest sería una mejor opción si la variable dependiente
fue el cambio de desempeño.
A menudo, la decisión sobre qué tipo de diseño experimental aleatorio utilizar se toma
por el tamaño de la muestra. Si cada grupo tiene al menos 30 participantes después de la asignación aleatoria, el
El investigador puede optar por utilizar el diseño de grupo de control de posprueba únicamente, porque con eso
número de participantes, se espera que el concepto de aleatoriedad funcione bien y
Se esperaría que los grupos fueran equivalentes. Por otro lado, si cada grupo tiene sólo
10 participantes y los participantes son heterogéneos, entonces el control pretestpostest
El diseño de grupo probablemente sea mejor porque es posible que la asignación aleatoria no haya hecho
los grupos equivalentes y un ajuste estadístico adicional (por ejemplo, análisis de covarianza) puede
ser necesario.
Diseño de cuatro grupos de Solomon
Un método para abordar el posible efecto del pretest en el enfoque experimental aleatorio es incluir un grupo de
intervención y un grupo de control que reciba el pretest.
y un grupo de intervención y un grupo de control que no reciben el pretest. Este aleatorizado
El diseño experimental, llamado diseño de cuatro grupos de Solomon, es el siguiente:
R E1 : O1 X O2
R E2 : X O2
R C1 : O1 ~X O2
R C2 : ~X O2
Las operaciones secuenciales del diseño de cuatro grupos de Solomon son las siguientes. Primero, los participantes
son asignados aleatoriamente a uno de los cuatro grupos diferentes. Entonces, dos de los grupos
(E1 y C1) se miden en la variable dependiente (pretest). Los otros dos grupos (E2
y C2) no reciben una prueba previa. Luego dos grupos (E1 y E2) reciben la intervención. Uno
grupo que recibe la intervención fue probado previamente (E1), y un grupo que recibe la
La intervención no fue probada previamente (E2). Además, dos grupos no reciben la intervención: uno que fue probado
previamente (C1) y otro que no fue probado previamente (C2). Por lo tanto, el Salomón
El diseño de cuatro grupos permite al investigador probar los efectos de una prueba previa además de probar los
efectos de la intervención. Sin embargo, para determinar los efectos del pretest sobre la
Después de la prueba, el investigador debe duplicar el número de participantes, lo que no vale la pena.
costo y esfuerzo en la mayoría de las situaciones, por lo que este diseño rara vez se utiliza.
Diseño experimental aleatorio con emparejamiento
El siguiente diseño experimental específico, que se utiliza comúnmente, es aquel en el que los participantes
coinciden en alguna característica antes de la introducción de cualquiera de las condiciones del
estudiar. La característica que se utiliza para la coincidencia debe estar relacionada con la variable dependiente;
de lo contrario, hacer coincidir es una pérdida de tiempo y resulta en una pérdida de potencia. el secuencial
Las operaciones del diseño experimental con emparejamiento son las siguientes. Primero, el investigador
mide a todos los participantes en alguna característica (variable) que parece estar relacionada
a la variable dependiente. Por ejemplo, la inteligencia o el promedio de calificaciones (GPA)
probablemente esté relacionado con una variable dependiente del rendimiento escolar. A continuación, si la
variable independiente tiene dos niveles, el investigador divide a todos los participantes en pares de
participantes en función de sus puntuaciones en la prueba de inteligencia. (Si hubiera tres niveles o
grupos, los participantes se dividirían en tríadas.) La idea es tener parejas que sean lo más
acercarse lo más posible a la variable de inteligencia. Por ejemplo, si hubiera seis participantes
con puntuaciones de CI de 122, 110, 99, 102, 113 y 120, entonces los tres pares serían 122 con 120,
113 con 110 y 102 con 99. Una vez formados todos los pares, el investigador asigna aleatoriamente
un miembro de cada pareja al grupo de intervención y el otro miembro de la pareja al grupo de intervención.
grupo de control. La clave del diseño experimental aleatorio con emparejamiento es hacer
como si los dos participantes fueran idénticos (al menos en lo que respecta a las características de interés).
Por lo tanto, es como si un participante estuviera recibiendo ambas condiciones del estudio, incluso
aunque en realidad hay dos participantes diferentes en cada pareja. Este diseño está ilustrado.
como sigue:
SEÑOR MI: X oh
SEÑOR C: ~X oh
Diseño experimental aleatorio (o cruzado) dentro de los sujetos
En el caso más sencillo, este diseño tiene dos niveles y se puede mostrar de la siguiente manera:
Condición 1 Prueba Condición 2 Prueba
R Orden 1 X O1 ~X O2
R Orden 2 ~X O1 X O2
Los participantes son asignados aleatoriamente al orden 1 (que recibe primero la condición experimental y luego
la condición de control) o al orden 2 (que recibe la condición de control).
y luego el experimental). El enfoque se considera experimental aleatorio si los participantes son asignados
aleatoriamente al orden 1 o al orden 2. Si el orden de cada participante no es
determinado al azar, el enfoque es casi experimental. Este tipo de diseño es frecuentemente
Se utiliza en estudios en los que se pide a los participantes que evalúen dietas, ejercicio y eventos similares.
Se supone, según investigaciones anteriores, que no tiene efectos de arrastre. La fuerza de este diseño es
que los participantes actúen como su propio control, lo que reduce la varianza del error. Sin embargo, este diseño
tiene problemas si hay efectos de arrastre de la condición experimental. Además,
Hay que ser extremadamente cauteloso con este diseño al comparar un nuevo tratamiento con un
tratamiento tradicional. El problema, a menudo denominado efectos de transferencia asimétricos, ocurre
cuando el impacto de una orden (quizás el tratamiento tradicional antes del nuevo tratamiento) es
mayor que el impacto del otro orden (nuevo tratamiento antes del tratamiento tradicional).
Resumen La
figura 5.1 es un diagrama esquemático resumido de los principales tipos de diseños experimentales discutidos en este capítulo.
Muchas variantes posibles de estos diseños se analizan en Shadish et al. (2002). Dividimos la Figura 5.1 en tres secciones:
diseños cuasiexperimentales con limitaciones importantes, mejores diseños cuasiexperimentales y diseños experimentales
aleatorios, que a veces se denominan diseños experimentales verdaderos.
La asignación aleatoria de participantes a grupos es lo que diferencia los experimentos aleatorios de los cuasiexperimentos.
Hemos discutido las fortalezas y debilidades de cada diseño. Los diseños experimentales aleatorios proporcionan la mejor
información sobre si la variable independiente provocó cambios en la variable dependiente. A los diseños cuasiexperimentales
con limitaciones importantes les falta un grupo de comparación, una prueba previa o ambos, por lo que por sí solos brindan poco
apoyo a la efectividad de la intervención. Los diseños cuasiexperimentales, si los grupos experimental y de comparación son muy
similares, brindan cierto apoyo al efecto causal de la intervención.
Conceptos clave
Diseño de posprueba de un solo grupo
Diseño de prueba previa y posterior a un grupo
Diseño de grupo de control experimental aleatorio pretestpostest
Diseños de grupos de comparación no equivalentes pretestpostest
Diseño de grupo de control experimental aleatorio solo después de la prueba
Diseño de grupos no equivalentes únicamente después de la prueba
Diseño experimental aleatorio con emparejamiento.
Diseños de series temporales de un solo grupo.
Diseños de investigación específicos.
Diseño de grupo de comparación de lista de espera
Diseño experimental aleatorio (cruzado) dentro de los sujetos
Distinciones clave
Diseños experimentales cuasiexperimentales versus experimentales aleatorios
Asignación de participantes a grupos: asignación aleatoria versus no aleatoria

asignación
Asignación aleatoria de tratamientos versus asignación aleatoria de participantes
Fuerza débil versus moderada versus fuerte pretestpostest (mejor) cuasi

diseños experimentales
Asignar. Grupo Pre. IV Correo.
Diseños cuasiexperimentales con grandes limitaciones
Diseño de posprueba de un solo grupo NR MI: X oh
Diseño pretestpostest de un solo grupo NR MI: oh X oh
Diseño de grupos no equivalentes únicamente después de la prueba NR MI: X oh

NR C: ~X oh
Mejores diseños cuasiexperimentales
Pretestpostest no equivalente NR MI: oh X oh
diseños de grupos de comparación NR C: oh ~X oh

Con tratamiento temporal NR E:OOOO X OOO
Con tratamiento continuo NR E: OOO XOXO XOXO

Con tratamiento temporal NR MI: OOO X OOO
NR C: OOO ~X OOO
Con tratamiento continuo NR MI: OOO besos y abrazos besos y abrazos
NR C: OOO O...O O...O
Diseños experimentales aleatorios.
Diseño de grupo de control solo posterior a la prueba R MI: X oh

R C: ~X oh
Diseño de grupo de control pretestpostest R MI: oh X oh

R C: oh ~X oh
Diseño de 4 grupos de Solomon R E1: oh X oh

R E2: X oh
R C1: oh ~X oh
R C2: ~X oh
Diseño experimental aleatorio con emparejamiento. SEÑOR MI: X oh

SEÑOR C: ~X oh
Orden Publicación 1 Publicación 2
Diseño intrasujetos o cruzado R E1 X oh ~X oh

R E2 ~X oh X oh
Notas: Asignar. = asignación de participantes a grupos (NR = no aleatorio, R = aleatorio, MR = emparejados y luego asignados aleatoriamente). Grupo
= grupo o condición (E: = experimental, C: = control o comparación). Pre. = prueba previa
(O = una observación o medición; un espacio en blanco significa que no hubo prueba previa para ese grupo). IV = activo
variable independiente (X = intervención, ~X = control, comparación u otro tratamiento). Correo. = posprueba (O =
una observación o medida posterior a la prueba).
Figura 5.1
Resumen de diseños específicos para experimentos y cuasiexperimentos.
Para cada uno de los tres escenarios (1 a 3), identifique:
a. Las variables independientes. Para cada uno, indique si es activo o atributo. b. Las variables
dependientes. C. El nombre del
diseño específico (p. ej., diseño de grupo de control únicamente después de la prueba). Si el enfoque
es cuasiexperimental, evalúe su fuerza.
1. Usted es un investigador en educación científica que está interesado en el papel de los diagramas en
la enseñanza. Desea investigar si el uso de diagramas en lugar de texto facilitará la comprensión de
los principios y conceptos enseñados. Para hacerlo, ha desarrollado una unidad de física para el
grado 12 que incorpora el uso liberal de diagramas.
Planea comparar el conocimiento de física del estudiante antes y después de la unidad de instrucción.
Enseñarás una de tus clases usando la unidad de diagrama y la otra usando la unidad de solo texto.
2. El propósito de este estudio fue determinar si el tipo de clase podría alterar las actitudes hacia las
personas con discapacidad. Se estudiaron dos clases en una gran universidad. Una clase, “Estudio
de enfermedades humanas”, puso énfasis en enfermedades específicas y condiciones discapacitantes.
Se hizo hincapié en cómo estas condiciones diferían entre sí. La otra clase, “Individuo discapacitado
en la sociedad”, puso énfasis en las habilidades y no abordó cómo las condiciones de discapacidad
eran diferentes para este estudio. Un total de 20 voluntarios diferentes de cada clase sirvieron como
sujetos para este estudio. Al final del primer semestre, todos los sujetos fueron evaluados en la Escala
de Actitud hacia las Personas con Discapacidad (ATDP).
3. Un investigador quiere estudiar los efectos del apoyo de los trabajadores sociales en el logro laboral
de las personas sin hogar. Hay dos sitios de misión similares. Un trabajador social pasa un mes en
uno de los sitios, pero no en el otro. Las personas en los sitios no diferían en edad promedio, género
y educación. Al final de un año, recopila los siguientes datos sobre los dos grupos de los registros del
departamento de trabajo de los dos años anteriores: totales mensuales del número de días de empleo.
4. Explique el fundamento de un diseño experimental aleatorio con emparejamiento.

5. Los educadores sanitarios que administran un gran programa de bienestar están interesados en saber
si las clases estructuradas o los grupos de apoyo parecen tener una mayor influencia en las actitudes
"saludables" hacia la comida. Las personas se inscriben voluntariamente en las clases o en los grupos
de apoyo. Su plan es seleccionar al azar a 30 participantes de las clases y 30 de los grupos de apoyo
y (con su permiso) administrar un instrumento de actitudes alimentarias como prueba previa y
posterior para evaluar el cambio en las actitudes a lo largo del tiempo. Uno de los educadores
sanitarios expresó su preocupación de que realizar la prueba de actitudes alimentarias antes del
curso tendría un efecto en las puntuaciones posteriores a la prueba porque los participantes ya
estarán familiarizados con los elementos del instrumento y podrían intentar dar la respuesta
"socialmente deseable". Los efectos de la práctica serían un problema. ¿Qué podrían hacer para
abordar esto?
6. Describa cómo un investigador podría explorar el impacto de un nuevo plan de estudios en

asistencia:
a. Utilizando un diseño de series temporales de un solo

grupo. b. Diagrame el diseño y dé el nombre del diseño específico. C. ¿Por
qué un diseño de series temporales es más fuerte que un diseño similar que no es una serie temporal?
diseño de serie?
7. Los sujetos se emparejan en pares según las variables de atributos clave de los puntajes de las pruebas
y la edad, y luego los niños de cada par emparejado se asignan aleatoriamente a uno de dos grupos,
uno que recibe la intervención y el otro que no recibe intervención. ¿Qué tipo específico de diseño
experimental es este? Explicar.
Notas
1. Para simplificar los ejemplos de este capítulo, hemos descrito diseños con un solo grupo de intervención y un
grupo de control. Sin embargo, es común tener más de dos grupos.
2. En los cuasiexperimentos, es mejor utilizar el término grupo de comparación en lugar de grupo de control porque,
especialmente en los cuasiexperimentos pobres y débiles, hay poco que esté “controlado”.
Por razones similares, los cuasiexperimentos se denominan “diseños de grupo no equivalentes”.
3. Estos diseños, comunes en la investigación epidemiológica, se denominan diseños de asignación aleatoria por
conglomerados. Las unidades intactas, como hospitales o escuelas, son tratadas como participantes.
6
Diseños de un solo tema
En este capítulo, describimos diseños de un solo sujeto, una subcategoría de cuasiexperimentales.

diseños de series de tiempo que se pueden utilizar con uno o varios participantes. Estos de un solo tema
Los diseños tienen muchas de las características que gobiernan los diseños tradicionales de series de tiempo.
con grupos de participantes. Disponen de numerosas medidas repetidas sobre cada participante y el inicio y retirada
del tratamiento. Tradicionalmente, los datos de diseños de un solo sujeto rara vez se habían analizado utilizando
métodos estadísticos, y cuando
Cuando se aplicaron esos métodos, a menudo eran exclusivos de estos diseños. Recientemente, hay
Se han incrementado los esfuerzos para aplicar análisis estadísticos a diseños de un solo sujeto, y
algunos de estos análisis han utilizado estadísticas más tradicionales. Además, se han realizado esfuerzos
Se ha hecho para combinar resultados de diferentes estudios de un solo sujeto sobre un tema similar.
en un metanálisis para aumentar la generalización. El tema de los diseños de un solo tema es
bastante complejo y contiene demasiado material para ser cubierto completamente en una sola
capítulo. Para aquellos interesados en un tratamiento completo del tema, sugerimos el texto de
Kazdin (1982). Para una perspectiva clínica sobre diseños de un solo sujeto, Ottenbacher (1986)
y Skinner (2005). Para revisiones excelentes de la evaluación de diseños de un solo sujeto, recomendamos el
tratamiento del análisis visual de Franklin, Gorman, Beasley y Allison (1997) y el tratamiento del análisis estadístico de
Gorman y Allison (1997).
análisis.
Los diseños de un solo tema se volvieron prominentes en el campo de la psicología en la década de 1960, dando
como resultado dos revistas: Journal of the Experimental Analysis of Behavior y Journal of Applied Behavior Analysis. La
justificación de los diseños de un solo tema se explica a continuación. En un estudio tradicional que utiliza grupos, se
podrían asignar 10 participantes para recibir el tratamiento,
y 10 participantes no reciben el tratamiento. Al final de un período de tiempo particular, un
Se realiza una comparación entre los dos grupos para determinar si el tratamiento fue exitoso.
Si el grupo que recibe el tratamiento se desempeña significativamente mejor que el grupo que
no recibe el tratamiento, entonces se juzga que el tratamiento fue exitoso.
Tenga en cuenta que sólo se administró un tratamiento una vez a 10 participantes y no se administró ningún tratamiento.
entregado a los otros 10 participantes. Los participantes fueron medidos antes de la intervención.
y después de la intervención. Consideremos ahora una situación en la que un participante (o a veces
(hasta tres o cuatro participantes) recibe el mismo tratamiento 10 veces y, además, el tratamiento se retira en 10
ocasiones diferentes al mismo participante. Cada
El participante sería medido 20 veces. Si cada vez que se administró el tratamiento, un aumento
en el comportamiento deseado se produjo y, cada vez que se retiró el tratamiento, se produjo el comportamiento deseado.
Si la conducta no ocurriera, se podría concluir que el tratamiento logró aumentar la conducta deseada. Dado que lo que
se desea en todas las disciplinas es la confiabilidad de los resultados de la investigación, estos primeros esfuerzos de
diseños de un solo sujeto son admirables.
Describimos los diseños de un solo sujeto como diseños de series de tiempo donde una intervención (activa
variable independiente) se da a muy pocos participantes, cuatro o menos. En la mayoría de las situaciones,
la variable independiente se inicia y retiene numerosas veces a lo largo del estudio.
En algunas situaciones, los diseños de un solo tema con líneas de base múltiples , por ejemplo, la eliminación del
La variable independiente no es necesaria para que un estudio se incluya como diseño de un solo sujeto.
73
Los diseños de un solo sujeto son diseños cuasiexperimentales porque incluyen una variable independiente activa
pero no hay una asignación aleatoria de los participantes a diferentes tratamientos.
Los diseños de un solo tema no deben confundirse con los diseños de estudios de caso , que se incluyen en
métodos de investigación cualitativa, donde las descripciones de los participantes en entornos naturales son la
regla. Los estudios de caso a menudo se utilizan para describir un caso inusual o para proporcionar evidencia más
descriptiva para respaldar un estudio cuantitativo como la evaluación de un programa.
En este capítulo presentamos y proporcionamos ejemplos de tres tipos de temas de un solo tema.
diseños: (1) diseños ABAB o reversos; (2) diseños de líneas de base múltiples; y (3) diseños de tratamiento alternos.
Describimos cada diseño. A continuación, discutimos los métodos de observación y la
duración de los períodos de medición en diseños de un solo sujeto. Luego, discutimos los análisis de
este tipo de diseños. Por último, analizamos el metanálisis y la generalización de los diseños de un solo sujeto.
Diseños de inversión
Los diseños invertidos, a menudo denominados diseños ABAB , son los diseños originales de un solo sujeto.
y siguen siendo el tipo más común de diseño de un solo tema. En estos diseños, la primera A
representa el período de referencia, donde se observa al participante durante varios períodos de tiempo. La clave aquí
es que se observa al participante hasta que la línea de base sea relativamente plana o
estable. Esta es una gran desviación de los diseños de grupo tradicionales, donde la cantidad de tiempo
La cantidad asignada a los tratamientos experimentales y de control se decide antes del estudio. En diseños de un
solo sujeto, el investigador traza los datos para cada período de medición en una gráfica.
papel para determinar si el comportamiento durante la línea de base (o el tratamiento) está aumentando, disminuyendo,
o nivelarse. El primer período B se refiere al primer período de intervención. Después de la línea de base
se ha estabilizado o estabilizado, el investigador inicia el tratamiento o activa la actividad independiente
variable. Nuevamente, el investigador traza los datos de cada sesión para determinar el efecto.
del tratamiento.
No hay que detenerse aquí porque sólo ha habido una línea base y un tratamiento.
fase ( diseño AB). Con un diseño AB , es difícil saber si es el tratamiento
o alguna otra variable que esté marcando la diferencia. Por tanto, una vez finalizados los datos del tratamiento
parecen estabilizarse (línea relativamente plana), el investigador retira el tratamiento e inicia una segunda fase A. El
investigador observa esta fase durante varios períodos (tres al mismo tiempo).
mínimo) hasta que el comportamiento se estabilice. Luego, el investigador inicia la segunda fase B o de tratamiento.
Esto completa el diseño de reversión mínima, con dos fases A o de línea base.
y dos fases B o de tratamiento. Cabe señalar que al tener dos fases A y dos B
no elimina todas las variables extrañas y que cuantas más fases A y B se inserten, más
más convincente es el diseño del estudio, similar a cualquier diseño de series temporales.
¿ Qué debería suceder en un típico estudio ABAB de un solo sujeto? La figura 6.1 muestra una
Diseño ABAB de un solo tema . Se esperaría que durante el período de referencia inicial (A)
puede haber alguna fluctuación en las respuestas, pero después de los primeros períodos, las respuestas del
participante (variable dependiente) deberían estabilizarse o estabilizarse. Durante el período de tratamiento inicial (B),
la conducta debe aumentar (o disminuir si el tratamiento está diseñado para reducir el riesgo).
un comportamiento indeseable, por ejemplo, agresión). Se esperaría que este comportamiento continuara
aumentar hasta cierto punto y luego estabilizarse. A continuación, durante la retirada del tratamiento.
(segundo período A ), la expectativa es que el desempeño disminuirá (aunque tal vez no
tan bajo como el primer período A ) y luego comenzará a estabilizarse. Cuando la estabilización ha
Diseños de un solo tema 75
im
otne/o etprdm
ña sineoU
oapedm d
c
A1 B1 A2 B2
Base Tratamiento Base Tratamiento
Pruebas de tiempo
Figura 6.1
Datos hipotéticos para un diseño cuasiexperimental ABAB de un solo sujeto.
ocurrido, se reintroduce el tratamiento (segundo período B ) y el rendimiento debería aumentar por

encima del de todas las fases anteriores.
Si bien el párrafo anterior detalla los resultados ideales de un diseño ABAB de un solo tema, las
cosas rara vez suceden exactamente como se planeó. Quizás el problema más común tenga que ver
con la estabilización del desempeño en cada fase del estudio. En primer lugar, a menudo lleva tiempo
lograr una base estable. ¿Cuánto tiempo debe esperar el investigador hasta que se estabilice la línea
de base? Por lo general, la línea de base debería estabilizarse dentro de cinco o seis períodos. Si el
desempeño sigue siendo bastante irregular (es decir, alto un día y bajo al siguiente), entonces el
investigador debe buscar influencias externas para explicar por qué el participante se desempeña de manera tan irregu
A veces, basta un poco de tiempo para acostumbrarse al entorno. Otros problemas que pueden interferir
con la estabilización pueden implicar reactividad a la medida del desempeño. Si la medida del
desempeño requiere que un observador esté presente, esto puede causar reactividad por parte del
participante.
Aunque la estabilización de la línea de base inicial es un problema común en los diseños ABAB , un
segundo problema está relacionado con la retirada del tratamiento. Muchos diseños de un solo tema
instituyen un tratamiento que tiene un efecto permanente. Si este es el caso, entonces en la segunda
fase de referencia (A) , uno esperaría que hubiera poca o ninguna caída en el rendimiento. Si no hay
una caída en el desempeño, entonces la expectativa es un aumento en el desempeño en la segunda
fase de intervención (B) a un nivel sustancialmente mayor que el de la primera fase de intervención (B) .
El diseño de reversión de un solo sujeto de ABAB no significa necesariamente que deba haber solo
dos fases de referencia y dos fases de intervención. La mayoría de los diseños de ABAB utilizan al
menos tres fases A y tres B , mientras que muchos utilizan bastantes más. En realidad, utilizar sólo dos
fases A y dos B es lo mínimo que podría pasar para un estudio de un solo tema. Las fases A y B
adicionales hacen que el estudio sea más convincente, descartando la influencia de variables extrañas.
Además, el investigador no se limita sólo a las fases de A y B.
Considere una situación en la que después de la fase A inicial , el investigador inicia un tratamiento en
la fase B. Sin embargo, el tratamiento no logra aumentar el rendimiento por encima del observado
durante el período inicial. Si éste fuera un tipo de diseño tradicional entre grupos, el investigador se
quedaría atrapado en un estudio que no logró demostrar una intervención exitosa. En cambio, en un
diseño de un solo sujeto, el investigador podría modificar el tratamiento e introducirlo (C) después de la
fase B. Por tanto, el diseño podría ser algo así como ABCAC. Es importante recordar que una de las
ventajas de los diseños de un solo tema es su flexibilidad. Justo
90
80
70
60
50
esjaotlnaevcreroetnP
di
40
30
20
10
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
Base Intervención 2da línea de base 2do Intervención
Comportamiento en la tarea Comportamiento problemático
Figura 6.2
Resultados que muestran los efectos de la intervención sobre la conducta problemática y centrada en la tarea.
Como el número de sesiones que componen una fase particular no está predeterminado, no es
predeterminado que haya sólo fases A y B.
En la Figura 6.2 se puede ver un ejemplo de un diseño de reversión con dos períodos de referencia y dos períodos de
intervención (datos modificados de Dunlap, FosterJohnson, Clarke, Kern,
& Childs, 1995), que muestra datos de un participante que tenía discapacidades graves. El
El estudio examinó dos variables dependientes al mismo tiempo: comportamiento en la tarea y comportamiento problemático.
comportamiento. Los períodos de referencia consistieron en resultados estándar, mientras que la intervención
Los períodos consistieron en resultados funcionales. Observe que durante el período de referencia, la conducta de
concentración en la tarea es algo mayor que la conducta problemática y que ambas están niveladas para
la mayor parte. Durante la primera fase de intervención, el comportamiento de concentración aumenta y
luego se estabiliza, mientras que la conducta problemática es uniformemente baja. En la segunda línea de fondo
período, el comportamiento en la tarea ha disminuido a lo observado cerca del final de la línea de base inicial
período, y la conducta problemática ha aumentado aproximadamente a la observada en la línea de base inicial.
período. Durante la segunda intervención, que contó con una sola sesión, la conducta de concentración
aumentó y la conducta problemática disminuyó por debajo del promedio del período anterior.
Volvemos a la Figura 6.2 cuando analizamos la evaluación de diseños de un solo sujeto.
Diseños de líneas de base múltiples
Los diseños de un solo tema con líneas de base múltiples se introdujeron más recientemente que la inversión.
diseños. Hubo dos razones principales para la introducción de diseños de líneas de base múltiples.
En primer lugar, en situaciones clínicas la retirada del tratamiento a menudo se consideraba poco ética, especialmente si el
tratamiento parecía exitoso. En segundo lugar, muchos de estos estudios se realizaban cuando el paciente, de una forma u
otra, era responsable del pago del
tratamiento. En los diseños de líneas de base múltiples, en las etapas iniciales del estudio, se utilizan hasta tres
Las líneas de base pueden registrarse simultáneamente. Estas líneas de base pueden representar respuestas de
tres participantes diferentes , respuestas de tres comportamientos diferentes del mismo participante,
o las respuestas del mismo participante en tres entornos diferentes. La clave para los estudios de múltiples líneas de base
y de un solo sujeto es que el investigador interviene en un escenario seleccionado al azar.
tiempo y observa el efecto en sólo una de las líneas de base, mientras que las otras dos líneas de base
no debe modificarse. Este tipo de diseño elimina la posibilidad de que algún otro evento externo fuera
responsable de alterar el comportamiento porque afectaría a todos los participantes.
entornos o comportamientos, no sólo uno.
Diseños de líneas de base múltiples entre sujetos
El diseño de líneas de base múltiples más común es el de líneas de base múltiples entre sujetos. Su popularidad
se debe en parte a la facilidad para realizar este tipo de estudios, especialmente en un ámbito clínico.
configuración. El procedimiento para realizar este tipo de diseño es el siguiente. Inicialmente, el investigador
selecciona tres (o quizás cuatro) participantes diferentes para el estudio. Se observa a los tres participantes
simultáneamente en una fase de referencia y sus respuestas para cada línea de base
período se representan en un gráfico (Figura 6.3). A continuación, el investigador da la intervención a
uno de los participantes mientras continúa obteniendo una línea de base sobre los otros dos participantes
al mismo tiempo. Después de un número determinado de períodos, la intervención se inicia con el segundo
participante y se continúa con el primer participante mientras se continúa con una línea de base para
el tercer participante. Nuevamente, después de varios períodos de referencia, se inicia la intervención.
con el tercer participante y continuó con los dos primeros participantes.
Un ejemplo de un diseño de líneas de base múltiples entre sujetos se puede ver en un estudio realizado por
Bambara y Ager (1992), quienes examinaron la frecuencia de actividades de ocio autodirigidas en tres adultos
con discapacidades moderadas del desarrollo. La intervención fue autoprogramada. El estudio fue similar al
que se muestra en la Figura 6.3. El primer participante, P1,
tuvo una línea base de 3 semanas y luego recibió la intervención. Mientras tanto, los participantes P2
y P3 continuó en la condición inicial. Después de 3 semanas más, P2 comenzó la intervención mientras P3
continuó con la condición inicial. Finalmente, P3 recibió la intervención. A
El problema potencial para este diseño es la contaminación si el segundo o tercer participante aprende
sobre la intervención del primer participante mientras él o ella todavía se encuentra en su línea de base
fase. Tal contaminación podría afectar el comportamiento de los participantes.
12
10
6
otneimatropmoC
0
1 2 34 5678 9 10
Tiempo (semanas)
Participante 1 Participante 2 Participante 3
Figura 6.3
Datos hipotéticos para un diseño de líneas de base múltiples entre sujetos.
Diseño de líneas de base múltiples a través de
comportamientos Este segundo tipo de diseño de líneas de base múltiples es menos popular que el diseño de
líneas de base múltiples entre sujetos, especialmente en entornos clínicos. El procedimiento para este tipo de
diseño es que el investigador busca cambiar tres comportamientos diferentes del mismo participante. En lugar de
registrar datos de referencia para tres participantes diferentes como en los diseños de líneas de base múltiples
entre sujetos, las líneas de base para tres comportamientos diferentes se registran simultáneamente. Luego, se
inicia una intervención con una de las conductas mientras se continúan registrando líneas de base sobre las otras
dos conductas. A continuación, se aborda la segunda conducta con una intervención mientras que la primera
conducta continúa con la intervención. Por último, el tercer comportamiento es objeto de una intervención mientras
que los otros dos comportamientos continúan recibiendo la intervención.
Para que este tipo de diseño tenga éxito, se debe suponer que los tratamientos afectan cada comportamiento
objetivo de forma independiente. En otras palabras, cuando se trata un comportamiento, es importante que los
demás comportamientos no se vean afectados. Por otro lado, si el tratamiento de una conducta afecta a la segunda
conducta, entonces el diseño no tendrá éxito porque todas las conductas cambiarán al mismo tiempo. Por ejemplo,
en el campo de la terapia ocupacional, donde se supone que la mayoría de los tratamientos son holísticos, es
difícil encontrar conductas que aumentarían o eliminarían mediante tratamientos independientes entre sí. Por otro
lado, el uso prominente de técnicas de condicionamiento operante en el campo de la educación especial hace que
este tipo de diseño sea ideal porque se pueden abordar conductas específicas sin afectar otras conductas.
Diseño de líneas de base múltiples a través de
entornos Este tipo de diseño de líneas de base múltiples es similar al diseño de líneas de base múltiples a través
de comportamientos de un solo sujeto. Por lo general, se utiliza un solo participante en el estudio. Sin embargo, en
estudios de referencia múltiples en distintos entornos , normalmente se apunta a una única conducta, pero en al
menos tres entornos diferentes. El procedimiento para este tipo de diseño es que se recopilan respuestas de
referencia de un participante en tres entornos diferentes. Por ejemplo, un entorno podría ser el consultorio o la
clínica del terapeuta. Un segundo entorno podría ser la casa del participante. El tercer entorno podría ser la escuela
del participante. Después de varios períodos de referencia, la intervención podría comenzar en la clínica. Durante
este tiempo, todavía se registrarían las respuestas de referencia en la escuela y en el hogar. Luego, después de
algunos períodos, la intervención podría comenzar en casa. Mientras tanto, no se intentaría ninguna intervención
en la escuela. Por último, se intentaría la intervención en la escuela.
El diseño de líneas de base múltiples en distintos entornos y de un solo sujeto adolece de algunos de los mismos
problemas que el diseño de líneas de base múltiples en todos los comportamientos. Para que el diseño tenga éxito,
se esperaría que los cambios en las respuestas en cada entorno fueran independientes entre sí.
Sin embargo, de manera realista, un terapeuta esperaría que el tratamiento se generalizara en todos los entornos,
del mismo modo que se podría esperar que se generalizara en todas las conductas. Si esta es la expectativa,
entonces múltiples líneas de base entre comportamientos y entornos probablemente no sean buenos diseños para usar.
Diseños de tratamiento alterno Un tercer diseño
de un solo sujeto comúnmente utilizado es el diseño de tratamiento alterno. El término diseño multielemento
también se utiliza para describir este diseño. El propósito de este diseño es comparar el impacto de dos tratamientos
diferentes dentro del diseño de un solo sujeto.
estructura. El procedimiento para este diseño es establecer una línea de base en cada participante y
luego introducir el primer tratamiento. Una vez que las respuestas a este tratamiento se estabilizan, se
suspende el primer tratamiento y se introduce un segundo tratamiento. Después de la estabilización de la
respuesta, se interrumpe el segundo tratamiento y se restablece el primero.
Los dos tratamientos continúan alternándose hasta que se puedan discernir patrones de respuesta
definitivos a cada tratamiento. Cuantas más fases haya para cada tratamiento, menos puntos de datos
se requerirán para cada fase (Ottenbacher, 1986). Algunos estudios no implementan una línea de base
previa a la introducción del tratamiento. Sin embargo, Ottenbacher señaló que una fase de referencia
ayuda a demostrar los impactos de los tratamientos.
Un método para fortalecer el diseño de tratamiento alternativo es contrarrestar el orden de los
tratamientos entre los diferentes participantes. Específicamente, después del inicio, el primer participante
recibiría el tratamiento uno y luego el tratamiento dos, mientras que el segundo participante recibiría el
tratamiento dos y luego el tratamiento uno. La principal desventaja de este diseño, similar a todos los
diseños de medidas intrasujetos/repetidas, son los efectos de arrastre, lo cual es una buena razón para
contrarrestar el orden. Una vez que se interrumpe un tratamiento, pueden producirse cambios transitorios
o permanentes en el participante que podrían influir en las respuestas al segundo tratamiento. Por lo
tanto, el diseño es más aplicable para demostrar los impactos de tratamientos que no tienen efectos
permanentes o duraderos.
Flexibilidad y asignación aleatoria en los tres diseños De los tres
tipos o categorías de diseños de un solo tema ya analizados, el diseño invertido es el más flexible. Si un
tratamiento no funciona, ¿por qué no modificarlo?
Más importante aún, un diseño inverso de un solo sujeto cuidadosamente realizado presta mucha
atención a líneas de base estables. El investigador tiene la flexibilidad de esperar dentro de una fase
particular del diseño hasta que la respuesta sea estable. Los diseños de tratamientos alternativos también
tienen una flexibilidad considerable para esperar una línea de base estable, pero sufren efectos de
arrastre. Por otra parte, los diseños de líneas de base múltiples tienen mucha menos flexibilidad cuando
se planifican adecuadamente. La clave para un diseño de líneas de base múltiples sólido y bien planificado
es decidir con anticipación, mediante asignación aleatoria, cuál de los tres participantes, comportamientos
o entornos recibirá la intervención primero y cuándo comenzará el tratamiento para cada participante,
comportamiento, o configuración. La asignación aleatoria del programa de tratamiento a un participante,
comportamiento o entorno en particular significa que la intervención debe continuar, incluso si la línea de
base aún no es estable, mientras que las líneas de base de otros participantes, comportamientos o
entornos pueden ser bastante estables. La asignación aleatoria a un cronograma particular da credibilidad
al diseño, pero reduce considerablemente la flexibilidad. Otro problema con la asignación aleatoria podría
ser que se considere aconsejable un orden particular de intervenciones con comportamientos o entornos.
Por ejemplo, si uno está planificando un diseño de comportamiento múltiple en varios entornos utilizando
la clínica, el hogar y la escuela, es dudoso que el hogar o la escuela se planifiquen como un entorno objetivo antes de la
Sin embargo, la asignación aleatoria impide que esto suceda.
Estas fortalezas y debilidades de los diferentes tipos de diseños de un solo sujeto se basan en cuánta
confianza se puede tener en que la intervención (variable independiente) provocó un cambio en la variable
dependiente. De los tres tipos de diseños de un solo sujeto descritos anteriormente, la categoría de líneas
de base múltiples parece ser la más convincente.
Esto se debe a que la asignación aleatoria de programas de tratamiento, si se respeta, descarta muchas
de las influencias de variables extrañas. Las otras dos categorías de diseños de un solo sujeto (diseños
de reversión y diseños de tratamiento alternativo) también podrían descartar variables extrañas, pero esto
depende del número de reversiones que ocurren, especialmente porque el número de reversiones no se
especifica antes. tiempo.
Medición y análisis de datos

Periodos e instrumentos de medición
El número de periodos de medición puede variar entre una fase y otra en un diseño inverso. Se debe
esperar hasta que cada fase esté estable antes de iniciar o retirar el tratamiento. Esto se suma a la
flexibilidad del diseño. Por otro lado, cada período de medición (sesión) debe tener la misma duración.
Las respuestas no se pueden registrar en un participante durante 1/2 hora un día y 1 hora el día siguiente.
Esto invalida el diseño, porque el número de respuestas por período o sesión no tendría significado para
la comparación.
Una segunda cuestión de medición a considerar al realizar diseños de un solo sujeto es que el tipo de
instrumento seleccionado podría comprometer seriamente el estudio. Cada sesión debe arrojar una
puntuación o un número de respuestas. Si hay un número limitado de respuestas por sesión, entonces
el instrumento puede no ser lo suficientemente sensible para el estudio. Hay dos tipos populares de
medidas (variables dependientes) que se utilizan en diseños de un solo sujeto: pruebas de papel y lápiz y
observación del comportamiento.
Pruebas de lápiz y
papel Estos tipos de instrumentos suelen estar estandarizados. Sin embargo, si se toma la decisión de
utilizar un instrumento estandarizado, como una prueba de papel y lápiz, entonces se debe determinar la
duración del instrumento y la frecuencia con la que podría usarse para que el participante no se aburra o
se vuelva poco confiable en respondiendo. Normalmente, las pruebas de papel y lápiz se utilizan sólo una
vez por semana y normalmente junto con alguna otra medida como la observación.
Observación del comportamiento
La observación del comportamiento del participante es probablemente la forma más común de medida en
diseños de un solo sujeto. Se deben seguir ciertas reglas cuando se utiliza la observación.
1. Es mejor que el observador sea alguien diferente al maestro, padre o

terapeuta.
2. Es mejor que el observador sea lo más discreto posible (por ejemplo, un observador pasivo que
sea otro estudiante en el aula o un observador que observe a través de un espejo unidireccional).
3. Las respuestas críticas a juzgar deben estar bien definidas antes del estudio.
4. Se debe utilizar más de un juez para registrar las respuestas.
5. La confiabilidad entre evaluadores debe realizarse entre los jueces antes del estudio.
Evaluación de los resultados de diseños de un solo sujeto Los
primeros estudios que utilizaron diseños de un solo sujeto, especialmente aquellos realizados con ratas o
palomas, generalmente tenían líneas de base y períodos de intervención muy estables. Además, el
número de períodos de referencia y de intervención superó con creces los que se utilizan en estudios con
humanos, especialmente en estudios clínicos. Por las razones antes mencionadas, los primeros estudios
de un solo sujeto no utilizaron análisis estadísticos para convencer a la audiencia adecuada de que las
intervenciones fueron exitosas. En cambio, los investigadores creyeron que los gráficos eran convincentes.
Análisis visual de diseños de un solo tema
Al explorar visualmente un gráfico de un solo tema, la clave es buscar patrones en los datos, especialmente
cuando las fases cambian desde el inicio a la intervención y nuevamente al inicio.
Se utilizan tres criterios generales para la inspección visual de diseños de un solo tema. Estos criterios se
relacionan con (1) la variabilidad de los puntos de datos dentro de una fase; (2) la ganancia o pérdida (nivel)
de una fase a otra; y (3) la tasa de cambio (pendiente) en ganancia o pérdida dentro de una fase y entre fases.
El criterio de variabilidad para el análisis visual de diseños de un solo tema se refiere a la dispersión de los
puntos de datos dentro de cualquier fase particular. Si uno mira dentro de cualquier fase en particular, se
podría pasar una línea a través de los puntos de la fase. La distancia a la que caen los puntos desde esa línea
es una buena medida de la variabilidad dentro de la fase. Por ejemplo, podemos ver en la Figura 6.4 que la
segunda fase de referencia muestra una gran cantidad de variabilidad para la conducta problemática pero
muy poca variabilidad para la conducta en la tarea porque los puntos están mucho más cerca de la línea
discontinua para la conducta problemática.
La ganancia o pérdida de una fase a otra se denomina nivel o cambio de nivel. Como en cualquiera de los
criterios visuales para evaluar diseños de un solo tema, se debe tener cuidado en cómo se define el nivel.
Las primeras definiciones (Kazdin, 1982) se refieren al nivel como el cambio desde la última medición en una
fase hasta la primera medición en la siguiente fase. Esta definición de nivel puede ser engañosa porque el
primer punto de datos (o cualquier punto de datos individual) en una fase puede no ser representativo de toda
la fase. Parece que lo que la mayoría de los investigadores llaman nivel es el nivel medio o promedio dentro
de una fase. (Sin embargo, también se ha utilizado el nivel medio y sería mejor si hubiera una puntuación
extrema). El nivel proporciona al investigador una indicación de cuánta ganancia o pérdida se produjo debido a
la intervención, y el cambio en el nivel entre fases puede ser Se puede evaluar fácilmente restando el promedio
de los puntos de datos entre dos fases. La Figura 6.4 muestra el nivel medio de cada una de las tres primeras
fases con la mejor línea plana o estable que pasa por los puntos dentro de cada fase.
Desafortunadamente, es poco común que los puntos de datos caigan a lo largo de una línea plana o estable
dentro de cada fase. Por lo tanto, la evaluación del nivel a menudo es complicada porque la línea que mejor se
ajusta a los puntos de datos puede tener un ángulo o pendiente creciente o decreciente, como se muestra en
la Figura 6.5.
La pendiente o cambio de pendiente es el tercer criterio común utilizado en la evaluación visual de diseños
de un solo tema. La pendiente se refiere al ángulo de los puntos de datos dentro de un determinado
90
80
70
60
50
roetnP
esjaotlnaevcre di
40
30
20
10
0
1234567 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
Comportamiento concentrado en la tarea Comportamiento problemático
Figura 6.4
Nivel medio dentro de cada fase para conductas concentradas en la tarea y problemáticas.
90
80
70
60
50
esjaotlnaevcreroetnP
di
40
30
20
10
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
Comportamiento en la tarea Comportamiento problemático
Figura 6.5
Líneas que mejor se adaptan a las conductas concentradas y problemáticas en cada fase.
fase. En otras palabras, si uno tuviera que trazar una línea a través de los puntos de datos en cualquier
fase, esto describiría la pendiente de esa fase. Las líneas de puntos que mejor se ajustan en la Figura 6.5
Indique las pendientes de cada fase. La pendiente es un criterio importante a considerar al examinar visualmente diseños
de un solo tema porque es común tener una situación en la que el
La fase inicial está aumentando o disminuyendo y la fase de intervención también está aumentando.
o decreciente, pero en un ángulo más pronunciado, lo que indica que la intervención es efectivamente efectiva.
Cómo se determina la pendiente es uno de los problemas en el análisis visual de un solo sujeto.
diseños. Aunque suele ocurrir que la pendiente se evalúa ajustando visualmente la línea, es más
Los métodos aceptables podrían ser un ajuste de línea mediante regresión de mínimos cuadrados (consulte el Capítulo 22).
o un procedimiento de división por la mitad utilizando medianas. Para que cualquiera de estos métodos tenga éxito, es necesario
Debe estar presente un número considerable de puntos de datos.
Análisis estadístico de diseños de un solo sujeto
Los estudios de un solo sujeto con humanos, especialmente los diseños de reversión, generalmente tienen menos períodos
de referencia y de intervención que los estudios con animales. Además, los períodos de referencia a menudo
son más cortos y menos estables. Quizás un problema aún mayor para el análisis visual de diseños de un solo sujeto sea
la dependencia serial (Parsonson y Baer, 1992). Desde diseños de un solo tema
son medidas repetidas o diseños intrasujetos, es decir, se mide al participante
numerosas veces, surge el problema de que cada punto de datos generalmente no es independiente de
el punto de datos anterior o siguiente. En otras palabras, si uno conoce el valor de un determinado
punto de datos, se podría predecir el valor del siguiente punto de datos. Parece que la dependencia serial puede causar
inconsistencia en el acuerdo sobre el efecto de la intervención en diseños de un solo sujeto. Teniendo en cuenta todos
estos problemas, se ha hecho un énfasis cada vez mayor
dado a utilizar alguna forma de análisis estadístico además del análisis visual. Por lo tanto,
Los investigadores que utilizan estos diseños han recurrido a pruebas estadísticas para determinar si las intervenciones
han marcado una diferencia.
Kazdin (1982) analizó el uso de pruebas estadísticas tradicionales, como la prueba t para comparar
la diferencia entre un período de referencia y de intervención, o un análisis de un solo factor de
varianza para comparar todas las fases de un diseño ABAB . Sin embargo, también advirtió que estos
Las pruebas no deberían utilizarse si existiera dependencia en serie. Kazdin sugirió el uso de diseños de series temporales
cuando existían problemas de dependencia serial. Sin embargo, el requisito de
al menos 20 puntos de datos por fase brindan este tipo de análisis para un solo sujeto humano
diseños en duda porque rara vez es posible tener tantos puntos de datos. (Ver
McCleary & Welsh, 1992, para una descripción más detallada de los análisis de series temporales en diseños de
un solo sujeto). Pruebas no paramétricas como la prueba U de MannWhitney , la prueba exacta de Fisher
También se han sugerido la prueba y la prueba de signos cuando los datos no están distribuidos normalmente
(consulte el Capítulo 10 para una discusión sobre la curva normal).
También se ha sugerido el uso de pruebas de aleatorización en el análisis de resultados de un solo sujeto.
diseños. Estas pruebas, debido a su inherente simplicidad y a que no requieren la
Los supuestos de las pruebas paramétricas, como la prueba t o la prueba F , deberían resultar atractivos para los
diseños de un solo sujeto. Levin, Marascuilo y Hubert (1978) demostraron la simplicidad de este
tipo de procedimiento para un diseño ABAB . Como dijimos anteriormente, en la inversión tradicional
diseño con sólo dos fases de referencia y dos fases de intervención, los resultados que
esperar son los siguientes. El nivel más bajo de respuesta se esperaría en la primera
fase inicial. El siguiente nivel más bajo de respuesta se esperaría en la segunda línea de base.
fase. La primera fase de intervención debe tener un nivel de respuesta más alto que cualquiera de las dos.
las dos fases de referencia. El nivel más alto de respuesta debería ser la segunda fase de intervención. Esto
podría representarse como A1 < A2 < B1 < B2. Si uno tuviese que plantear esta hipótesis
resultado y los resultados, de hecho, ocurrieron en este orden, entonces la probabilidad de que esto ocurra es 1
en 24, o alrededor de 0,05. La idea es que hay cuatro resultados factoriales posibles de
dos fases A y dos fases B , es decir, 4 × 3 × 2 × 1 posibilidades, que equivalen a 24. Además del resultado
previsto, hay otros 23, como A1 > A2 > A3 > A4. Si bien esto tiene
Ha sido una demostración de un procedimiento de clasificación, por lo general se utilizan diseños de aleatorización.
con los datos reales. (Ver Edgington, 1992, para un análisis más profundo). Curiosamente, las estadísticas de
aleatorización aplicadas a diseños de un solo tema aparentemente no han tenido el atractivo
eso se esperaba.
Generalización y metaanálisis de diseños de un solo sujeto.

Los problemas de generalización para diseños de un solo tema son obvios. La selección aleatoria de un
participante, o incluso de un pequeño número de participantes, es inusual porque los participantes generalmente
se seleccionan debido a algún problema físico o de conducta en particular.
Lo que finalmente funciona para un cliente/participante puede no funcionar para otro.
Resolver algunos de los problemas de validez externa creados por los diseños de un solo sujeto.
y para aumentar el alcance del conocimiento de las diferentes áreas de intervención, se han intentado
Se ha hecho para combinar los resultados de estudios de un solo sujeto realizados en un entorno similar.
tema. Para combinar estudios, se calcula el tamaño del efecto de cada estudio y luego se promedia entre todos
los estudios. El tamaño del efecto suele ser un valor numérico que representa
la fuerza de la relación entre la intervención (variable independiente) y
medida (variable dependiente). Este promedio de los tamaños del efecto entre los estudios da como resultado una
metanálisis, que se describe con más detalle en el Capítulo 17. Sin embargo, por ahora, es
Es importante señalar algunos de los principales problemas al combinar estudios de un solo tema.
para metanálisis.
El primer problema, y quizás el mayor, es que no parece haber un acuerdo
sobre el tamaño del efecto entre estudios de un solo sujeto (Gliner et. al., 2004). Por ejemplo, tres
principales metanálisis que se han realizado con estudios de un solo sujeto, Scruggs y
Mastropieri (1994), Stage y Quiroz (1997) y Swanson y SachseLee (2000), todos utilizaron
diferentes índices de tamaño del efecto. Estudios recientes que describen las fortalezas y debilidades de
los diferentes tamaños del efecto no han sido concluyentes (Campbell, 2004; Parker & Brossart, 2003; Parker et. al., 2005).
Es interesante señalar que parece que puede ser necesario más de un tamaño del efecto, como el cambio de nivel y el
cambio de pendiente, para describir eficazmente los efectos de una intervención en un estudio de un solo sujeto.
Una segunda cuestión a la hora de combinar estudios de un solo tema tiene que ver con los tipos de diseños de un solo
tema que se pueden combinar; es decir, ¿se pueden combinar los resultados de los diseños de reversión con los resultados
de los diseños de líneas de base múltiples? Otro problema implica combinar estudios de un solo sujeto con estudios de
grupo. Los tamaños del efecto en los estudios de un solo sujeto parecen ser mayores y no representativos de los encontrados
en los diseños de grupo. Si bien la combinación de los resultados de los diseños de un solo sujeto parece tener problemas,
la gran cantidad de estudios previos y el uso de técnicas estadísticas sofisticadas hacen de esta un área interesante para el
futuro de los diseños de un solo sujeto.
Resumen
Describimos los diseños de un solo sujeto como una subcategoría de diseños de series temporales cuasiexperimentales que
pueden usarse con muy pocos participantes. Utilizar muy pocos participantes aumenta la flexibilidad del diseño y conduce a
métodos de análisis de datos completamente diferentes.
Estos diseños de un solo sujeto utilizan numerosas medidas repetidas en cada participante y el inicio y retiro del tratamiento.
Introdujimos tres tipos principales de diseños de un solo sujeto (ABAB o diseños de reversión, diseños de líneas de base
múltiples y diseños de tratamientos alternos) y proporcionamos ejemplos.
El diseño ABAB es el más flexible, pero suele llevar más tiempo ejecutarlo y depende de líneas de base estables. Los
diseños de líneas de base múltiples son más fáciles de llevar a cabo, pero para garantizar la solidez del diseño se debe
instituir una asignación aleatoria a un período de tiempo de intervención particular. Esto reduce la flexibilidad en diseños de
líneas de base múltiples.
Los métodos de medición para diseños de un solo tema suelen ser la observación y las pruebas de lápiz y papel.
Discutimos sus fortalezas y debilidades. Dos tipos de evaluación de diseños de un solo sujeto son el análisis visual y el
análisis estadístico. Hay que tener cuidado al interpretar los resultados de un estudio de diseño de un solo sujeto,
especialmente con respecto a la generalización.
Conceptos clave
Observaciones de comportamiento
Nivel
Diseños de líneas de base múltiples
Pruebas de lápiz y papel
Diseños de inversión
Pendiente
Variabilidad
Distinciones clave
Nivel versus pendiente versus variabilidad
Diseños de líneas de base múltiples: entre sujetos versus entre comportamientos versus entre
ajustes
Diseños de inversión versus diseños de líneas de base múltiples
Diseños de un solo sujeto versus diseños de grupo tradicionales
1. Un médico ha estado leyendo sobre técnicas conductuales útiles con niños pequeños. Le han remitido varios
niños (de 4 a 5 años) con conductas de morder y desea realizar un diseño de un solo sujeto para probar la
eficacia de este nuevo tratamiento conductual. ¿Cómo podría hacer esto si: a. ¿ Diseño de inversión (ABAB)?
b. ¿Diseño de líneas de base múltiples entre sujetos? C. ¿Diseño
de tratamiento alternativo?
2. Un alumno de la clase del profesor X ha sido muy disruptivo en clase. Los padres del niño informan que este
comportamiento también se ha observado en casa y en la guardería extraescolar. El consejero escolar diseña
una intervención e instituye un diseño de línea de base múltiple en todos los entornos para probar la
intervención. El maestro X, los padres y el instructor de la guardería implementan el tratamiento y sirven como
observadores del comportamiento. Analice los diversos problemas con este diseño. ¿Cómo podría el asesor
mejorar el diseño para abordar los problemas?
3. Comparar y contrastar los diseños de líneas de base múltiples (entre sujetos, entre comportamientos y entre
entornos). ¿Cómo se descartan las variables extrañas en cada uno de los tres diseños?
4. Un dietista de una clínica de bienestar regresa de un taller con una nueva intervención para motivar una
alimentación saludable. Quiere probar la eficacia de esta intervención con su intervención actual. También
desea probar ambas intervenciones para personas con sobrepeso (que intentan perder peso) y para quienes
trabajan para mantener su peso actual. (Quiere ver qué intervención es más efectiva con qué grupo.) a.
¿Cómo podría diseñar esto como un diseño de un solo tema? b. ¿Cuáles son algunas de las cuestiones
relativas a las influencias de variables extrañas? C. ¿Cuánto tiempo debe
hacer sus períodos de medición?
5. Se considera que un diseño de reversión ABAB es más flexible que el de línea de base múltiple.
diseños. ¿Por qué?
6. ¿Cuáles son las ventajas de seleccionar un diseño de líneas de base múltiples para todos los sujetos en
comparación con un diseño inverso?
7. Un investigador realiza un diseño de línea de base múltiple entre sujetos. Tiene tres participantes en el
estudio, denominados A, B y C. Los tres participantes recibirán el
mismo trato. Después de observar a los participantes durante 5 días, el investigador decide
iniciar el tratamiento con la participante B ya que su línea base era la más estable.
Después de 3 días más, se inicia el tratamiento con el participante C ya que su valor inicial es
más estable que el participante A. Después de 6 días más, se inicia el tratamiento con el participante A.
¿Cuáles son las ventajas y desventajas de este método para decidir?
el orden del tratamiento?
8. Está realizando un estudio para determinar los efectos de un tratamiento específico utilizando
un diseño de un solo tema. Decide utilizar un diseño inverso (ABAB). Después de cinco
sesiones, se estableció una línea de base estable (fase A). Introduces tu tratamiento durante la fase B, y
después de ocho sesiones no ha habido ningún aumento en tu
medida. Decide modificar su tratamiento e introducir el nuevo tratamiento.
como fase C. Después de cinco sesiones notarás un aumento fácilmente visualizable en tu
grafico. ¿Cuáles deberían ser sus próximos pasos (fases) para descartar las influencias de variables
extrañas?
9. El siguiente estudio de un solo sujeto es un diseño ABA . Cathy estaba teniendo una dificultad
tiempo teniendo éxito en su trabajo de clasificación de correo. Su asesor laboral decidió probar una nueva indicación.
sistema con Cathy, que implicaba redireccionamientos verbales cuando la atención de Cathy
dejar su trabajo. Para el período de referencia, el preparador laboral contó cuántas letras
Cathy podría ordenar en 15 minutos. Después de ocho períodos de medición, Cathy tuvo un
línea base estable. Luego, su asesor laboral instituyó las redirecciones verbales y midió
Cathy durante ocho períodos de medición más. Después de esto, el preparador laboral detuvo el
redirige y midió a Cathy durante los últimos ocho períodos de medición. Las medidas para cada tramo se
enumeran a continuación:
A B A
50 sesenta y cinco 60
60 70 sesenta y cinco
45 75 70
50 80 70
50 85 60
a. Grafica las medidas.

b. Describe cómo la variabilidad, el nivel y la pendiente se relacionan con la gráfica.
C. Forme una conclusión sobre el estudio.
10. El siguiente estudio de un solo sujeto es un diseño ABAB . Brad es un joven con
retraso mental. Se ha asignado un terapeuta ocupacional (OT) para ayudar
Brad en aprender su trabajo. Corre el riesgo de perder su trabajo porque se le olvida
realizar determinadas tareas de forma regular. El OT decide intentar un autocontrol
lista de verificación con Brad para ver si eso le ayudará a realizar un seguimiento de sus deberes. Para 2
Semanas laborales, el OT monitorea el trabajo de Brad y cuenta cuántas tareas asignadas
Brad completa sin dar indicaciones. Al final de 2 semanas, decide empezar con Brad.
con una lista de verificación y contar la finalización de sus tareas. Después de 8 días laborales, Brad parece
ser bastante estable en su rutina de trabajo. Luego, el OT elimina la lista de verificación y
monitorea a Brad durante 10 días laborales más y cuenta la finalización de su tarea. Después de este
período, el OT restablece la lista de verificación. Se enumeran las medidas para cada sección.
como sigue:
A B A B
11 17 14 19
12 18 13 20
13 dieciséis 14 22
11 18 15 21
12 17 13 23
9 18 13 22
10 18 14 21
11 17 13 22
12 12 23
9 13 23
a. Grafica las medidas.

b. Describe cómo la variabilidad, el nivel y la pendiente se relacionan con la gráfica.
C. Forme una conclusión sobre el estudio.
7
Enfoques y diseños no experimentales
Estos enfoques se pueden diferenciar de los enfoques experimentales porque en el

enfoques no experimentales, no existe una variable independiente activa (intervención), y
el investigador no manipula ni controla la variable independiente. Por tanto, los enfoques no experimentales se
centran en variables independientes de atributos. Recuerde del Capítulo 3 que las variables independientes de
atributos son características que los participantes traen consigo al
estudio y no están controlados por los investigadores.
Tres enfoques no experimentales utilizan métodos cuantitativos. Además, hay
enfoques cualitativos no experimentales. Los enfoques cuantitativos no experimentales o
Los diseños son asociativos, comparativos y descriptivos. Los enfoques o diseños cualitativos no experimentales
consisten en fenomenológicos, de teoría fundamentada, etnográficos,
estudio de caso y enfoques de investigación narrativa. Cada uno de estos enfoques se describe
en este capítulo.
Enfoques de investigación cuantitativa no experimental

En esta sección se analiza cada uno de los tres enfoques de investigación cuantitativa. Nosotros también
incluir comparaciones de estos enfoques con los experimentales y cuasiexperimentales.
enfoques discutidos en los Capítulos 4 a 6.
Contrastando los enfoques
La Figura 7.1 contrasta elementos clave de la investigación descriptiva, asociativa y comparativa.

enfoques con los enfoques de investigación experimental aleatoria y cuasiexperimental
discutido en el Capítulo 5.1. Esta figura muestra que en varios aspectos los enfoques asociativo y comparativo
son similares; por ejemplo, estudian variables independientes de atributos
y no utilizar asignación aleatoria, y el investigador no tiene control sobre la
variables independientes. Como no existe tratamiento ni intervención, los llamamos enfoques no experimentales.
La mayoría de las investigaciones de tipo encuesta incluyen preguntas de investigación comparativas y
asociativas, así como descriptivas, por lo que es común que un estudio utilice todas las preguntas.
tres de estos enfoques. Ninguno de estos enfoques proporciona buena evidencia de que la variable
independiente sea la causa de las diferencias en la variable dependiente.
La Figura 4.1 proporcionó una comparación algo diferente de los enfoques que muestra cómo
difieren en términos de propósito específico, tipo de pregunta de investigación, hipótesis y características típicas.
tipo de estadística utilizada. Las diferencias entre los tres enfoques no experimentales en estos
Estos aspectos se analizan en las siguientes secciones.
89
Cuasi experimental
Criterios Descriptivo asociacional Comparativo experimental aleatorizado
Asignación aleatoria Sin grupos No solo No No Sí

de participantes un grupo)
a grupos por
investigador
Variable independiente No No No Sí Sí
está activo Independiente (atributo) (atributo)
variable
Variable independiente No No No A veces Generalmente
está controlada
por el investigador
Número de niveles No Generalmente 5 Generalmente Generalmente Generalmente
del Independiente Independiente o más 2 a 4 niveles 2 a 4 niveles 2 a 4 niveles

variable variable niveles ordenados
Relaciones No Sí Sí Sí Sí
entre variables (relación) (comparación) (comparación) (comparación)
o comparación
de grupos
Figura 7.1
El enfoque de investigación descriptiva básica
En las preguntas de investigación descriptiva básica, sólo se considera una variable a la vez, de modo que no
Se realizan comparaciones o relaciones estadísticas. Por supuesto, los estudios descriptivos casi
incluir siempre varias variables. Restringimos el término investigación descriptiva a la investigación
preguntas y estudios que utilizan sólo estadísticas descriptivas, como promedios, porcentajes,
histogramas y distribuciones de frecuencia, cuya significación estadística no se prueba
con estadística inferencial.
Además, es común que la sección de métodos de los estudios incluya algunos análisis descriptivos complejos, como
tablas de tabulación cruzada, para ilustrar, por ejemplo, cuántos participantes de cada género pertenecen a cada uno de
varios grupos de edad. Estas tablas descriptivas no son
analizados con estadística inferencial. La figura 7.1 muestra que esta falta de comparaciones o relaciones estadísticas es
lo que distingue este enfoque de los otros cuatro. Por supuesto,
el enfoque descriptivo no cumple ninguno de los otros criterios, como la asignación aleatoria de participantes a grupos.
La mayoría de los estudios de investigación incluyen algunas preguntas descriptivas (al menos para describir la muestra),
pero pocos estudios cuantitativos se detienen ahí. De hecho, hoy en día es raro que la investigación cuantitativa publicada
sea puramente descriptiva. Casi siempre examinamos varias variables y probamos
sus relaciones con estadísticas inferenciales que nos permiten hacer inferencias sobre la
población más grande de nuestra muestra de participantes (ver el Capítulo 16 para una introducción a
Estadística inferencial). Sin embargo, las encuestas políticas y de consumidores a veces están interesadas en describir
sólo cómo reaccionan los votantes en su conjunto ante un tema o qué productos consumen los consumidores.
En general compraré. Los estudios exploratorios de un tema nuevo pueden simplemente describir lo que dice la gente.
o sentir sobre ese tema. Además, la investigación cualitativa/constructivista puede ser principalmente
Descriptivo, que proporciona una descripción detallada de un tema o fenómeno. Cinco cualitativos
Estos enfoques se describen brevemente más adelante en este capítulo.
Enfoques y diseños no experimentales 91
Un ejemplo de estudio descriptivo es el estudio sobre el SIDA de Wolfe et al. (2006), que se
presentó brevemente en el Capítulo 1. Al identificar este estudio como un estudio descriptivo, se
consideraron varias cosas. Aunque los participantes fueron reclutados en varias clínicas, en este
estudio se los consideró miembros de un solo grupo: los pacientes de SIDA. No se utiliza ninguna
variable independiente, como el sitio de la clínica o el género, para dividir el grupo para un análisis
más detallado. Las variables dependientes utilizadas para describir a todo el grupo incluyeron edad,
sexo, nivel de educación, divulgación y efectos sociales de tener SIDA. Finalmente, los análisis
incluyeron sólo estadísticas descriptivas como porcentajes de todo el grupo en cada una de estas
variables. No se utilizaron comparaciones ni relaciones mediante estadística inferencial. Por tanto,
este estudio se encuadra dentro del alcance del enfoque descriptivo.
El enfoque de investigación asociativa Ahora
nos gustaría considerar un enfoque de investigación en el que la variable independiente suele ser
continua o tiene muchas categorías ordenadas, normalmente cinco o más. Supongamos que el
investigador está interesado en la relación entre la superdotación y el autoconcepto en los niños.
Supongamos que la variable dependiente es el autoconcepto y la variable independiente es la
superdotación. Si se hubiera dividido a los niños en superdotados y no superdotados, o en grupos de
superdotación alta, media y baja, que son unas pocas categorías ordenadas, el enfoque de la
investigación sería el enfoque comparativo. Por otro lado, en el enfoque asociativo típico la variable
independiente, la superdotación, sería continua o tendría al menos cinco niveles ordenados.
En otras palabras, todos los participantes estarían en un solo grupo medido en dos variables continuas:
superdotación y autoconcepto. Se podría realizar un coeficiente de correlación para determinar la
fuerza de la relación entre las dos variables (véanse los Capítulos 10 y 21).
Incluso una relación muy fuerte entre estas variables no justifica la conclusión de que una alta
superdotación provoca un alto concepto de sí mismo. Aunque la correlación es la estadística típica,
no es la única estadística utilizada, por lo que es mejor tener una etiqueta de aplicación más general
(es decir, asociativa). Más adelante en el texto se analiza con cierto detalle el enfoque asociativo
complejo (más de una variable independiente) y algunas estadísticas utilizadas con él. Sin embargo,
queremos mencionar aquí que la regresión múltiple es una estadística asociativa compleja común que
se utiliza cuando la pregunta es si alguna combinación de varias variables independientes predice
las variables dependientes mejor que cualquier predictor por sí solo. Por ejemplo, las escuelas y
empresas utilizan la regresión múltiple para determinar la mejor combinación de factores de ingreso o
solicitud, como puntajes de exámenes, calificaciones y recomendaciones, para predecir el éxito en la
universidad o en el trabajo.
Es arbitrario si un estudio se considera comparativo o asociativo. Por ejemplo, una variable continua
como la edad siempre se puede dividir en un pequeño número de niveles, como joven y viejo. Sin
embargo, hacemos esta distinción por dos razones. En primer lugar, no es prudente dividir una
variable que potencialmente tiene muchos niveles ordenados en unos pocos porque se pierde
información. Por ejemplo, si el punto de corte para la “vejez” fuera 65 años, las personas de 66 y 96
años se agruparían juntas, al igual que las personas de 21 y 64 años, y las personas de 64 y 65 años
estarían en diferentes grupos de edad. Sin embargo, es probable que las personas de 64 y 65 años
sean similares, y las de 21 y 64 años, diferentes. En segundo lugar, normalmente, aunque no siempre,
se utilizan diferentes tipos de estadísticas con los dos enfoques.
Un ejemplo de un estudio desde el enfoque asociativo se puede encontrar en Zamboanga, Padilla
Walker, Hardy, Thompson y Wang (2007). En este estudio, los investigadores intentaban predecir el
desempeño de los estudiantes basándose en una serie de variables independientes de atributos. Los
predictores (es decir, variables independientes) son atributos, porque todos son variables que el
investigador no controló, incluido el año escolar, la asistencia, el ACT.
puntajes y promedio de calificaciones anterior (GPA). El aspecto más llamativo de Zamboanga et

Alabama. El estudio que identifica que utiliza el enfoque asociativo es el número de niveles del
variables independientes. Casi todas estas variables tienen cinco o más niveles ordenados. El
Las variables dependientes fueron el rendimiento total en el examen, el examen con preguntas basadas en conferencias.
puntuación y puntuación del examen de preguntas basadas en texto. Los participantes, estudiantes de un curso
de pregrado, fueron analizados como un solo grupo.
Zamboanga et al. (2007) es un estudio asociativo complejo porque no hubo
múltiples variables independientes y dependientes. Sin embargo, se puede ver en cada par de
Variables independientes y dependientes (p. ej., puntuaciones del ACT y rendimiento total en los exámenes)
que el enfoque es asociativo porque la variable independiente, ACT, y la variable dependiente, rendimiento total
en el examen, tienen muchos niveles ordenados.
El enfoque de investigación comparada
El enfoque comparativo difiere de los enfoques experimentales aleatorios y cuasiexperimentales porque el

investigador no puede asignar participantes al azar a
grupos y porque no hay una variable independiente activa. La figura 7.1 muestra que, al igual que los experimentos
aleatorios y los cuasiexperimentos, los diseños comparativos suelen tener algunas categorías de la variable
independiente y hacer comparaciones entre grupos. Estudios que utilizan
El enfoque comparativo examina el presunto efecto de una variable independiente de atributo.
Un ejemplo del enfoque comparativo es un estudio que comparó dos grupos de niños en una serie de pruebas
de desempeño. Se comparó un grupo de niños con parálisis cerebral con un segundo grupo de niños que no
tenían tales problemas motores. Darse cuenta de
La variable independiente en este estudio fue una variable independiente de atributo con dos
Niveles: con problemas motores y sin problemas motores. No es posible que el investigador asigne aleatoriamente
a los participantes a grupos o les dé a los participantes la posibilidad de participar de forma independiente.
variable. Por tanto, la variable independiente no estaba activa. Sin embargo, la variable independiente tenía sólo
unos pocos niveles o categorías, y una comparación estadística entre las dos
Se podrían formar grupos.
Tenga en cuenta que los estudios comparativos no cumplen con los criterios para atribuir causalidad porque
es imposible controlar todas las demás variables que son ajenas al estudio. Para
Por ejemplo, podríamos comparar el rendimiento de niños de 10 años que previamente habían
Asistió a Head Start con otros que no lo habían hecho. Estos dos grupos de niños pueden diferir en muchos
aspectos (por ejemplo, educación, grupo étnico, situación económica) además de sus logros. Un buen estudio
comparativo intentaría controlar algunos de estos mediante el emparejamiento o
alguna otra técnica, pero nunca pudimos estar seguros de que los grupos fueran equivalentes en todos
aspectos como lo seríamos si la asignación aleatoria a los grupos fuera posible. Así, deberíamos
No indicamos en nuestras conclusiones que esta experiencia causó diferencias en el desempeño que
fueron encontrados. Si los resultados son estadísticamente significativos, podríamos decir que hay
Hubo diferencias significativas entre los niños que habían experimentado Head Start y
aquellos que no lo hicieron, pero no debemos concluir que Head Start causó la diferencia. Nota
que el diseño en este ejemplo a veces se denomina ex post facto porque el efecto del
La variable independiente, experiencia en Head Start o no, se estudió más tarde, “después del hecho”.
El estudio de DiLorenzo, Halper y Picone (2004) también utilizó el enfoque comparativo.
Los participantes se dividieron en dos grupos de edad: los que tenían 60 años o más.
y los que tuvieran menos de 60 años. Por supuesto, el investigador no pudo al azar
Asigne a los participantes para que sean mayores o menores. La variable independiente, grupo de edad (ya sea
>60 o <60 años) es un atributo preexistente y no está controlado por el investigador. El
La variable independiente tenía sólo unos pocos niveles (en este caso dos) que se compararon. El
Las variables dependientes son la salud física, la satisfacción sexual, el apoyo social, los trastornos del estado
de ánimo, la depresión y las actividades de la vida diaria, todas evaluadas desde un teléfono clínico.
entrevista. Por lo tanto, este estudio se utilizó para ayudar a responder una pregunta de investigación sobre las
diferencias entre personas jóvenes y mayores con esclerosis múltiple (EM).
Podría preguntarse: “¿Por qué realizar un estudio comparativo si no podemos sacar conclusiones sobre
¿Qué causó qué? En parte la respuesta es que si estás interesado en atributos independientes
variables, no tiene otra opción que una no experimental (comparativa o asociativa)
acercarse. Los atributos, en general, no se pueden dar ni manipular en un estudio. Algunos atributos, como la
confianza en uno mismo o la ansiedad, varían de un momento a otro, o de una situación a otra, por lo que
podrían ser variables activas o manipuladas. Sin embargo, en los últimos años suele ser
considera poco ético hacerlo. Así, salvo algunas excepciones, debemos utilizar el método comparativo.
enfoque si queremos estudiar un atributo de los participantes.
Estudios con más de dos niveles de la variable independiente
En el enfoque comparativo (así como en los enfoques experimentales aleatorios y cuasiexperimentales), a

menudo es deseable tener más de dos grupos (es decir, más
de dos niveles de la variable independiente). Un ejemplo desde el enfoque comparativo
sería un estudio que comparara tres grupos: estudiantes de 1º, 3º y 5º grado, en algunos
aspecto del desarrollo cognitivo. Nuevamente, este estudio no cumple con los requisitos para un
estudio experimental aleatorio o cuasiexperimental porque la variable independiente
es un atributo de los estudiantes y no fue manipulado. Tenga en cuenta que la variable independiente (grado en
la escuela) en este caso tiene tres niveles ordenados.2
También es posible comparar un número relativamente grande de grupos/niveles (por ejemplo, 5 o incluso 10)
si uno tiene suficientes participantes para que el tamaño del grupo sea adecuado (por ejemplo, 20 o más en cada uno).
Sin embargo, tener más de cuatro grupos es atípico excepto cuando la variable independiente
es nominal (desordenado). Si hay cinco o más niveles ordenados de la variable independiente
Recomendamos el enfoque asociativo que se analizó en la sección anterior.
Determinar la relación completa
Una razón para tener más de dos niveles para una sola variable independiente de atributo es
determinar con mayor precisión una relación entre las variables independientes y dependientes. Un ejemplo
implica la relación entre la dificultad de la tarea y la motivación para el dominio. La motivación de dominio, la
medida dependiente, se definió como la persistencia en una tarea.
La dificultad de la tarea fue la variable independiente. Si el estudio hubiera utilizado sólo muy fácil y
tareas muy difíciles, los investigadores podrían no haber encontrado diferencias en la persistencia como
se muestra en el siguiente gráfico:
Persistencia
X X
Bajo Alto
Dificultad de la tarea
Parecería que la dificultad de la tarea no afectó la persistencia, o que no hubo relación entre la dificultad de la
tarea y la persistencia. Ahora considere la relación cuando otro
A la variable independiente se le añadió el nivel (dificultad media). Una relación más completa se describe en el
siguiente gráfico:
Persistencia
X X
Bajo Medio Alto

Dificultad de la tarea
Observe que agregar el tercer nivel indica que hay una relación de U invertida
entre la dificultad y la perseverancia. La persistencia aumenta a medida que aumenta la dificultad, hasta un
punto, pero luego es menor a medida que la dificultad aumenta. Si la condición de dificultad media no
Si se hubiera incluido, la relación real entre la dificultad de la tarea y la persistencia habría
se ha perdido.
Aunque a menudo se considera deseable agregar un tercer o más nivel a una única variable
independiente que no cambie la clasificación general del diseño. Un estudio que ha
dos niveles es un diseño de un solo factor (una variable independiente) con dos niveles. si sumamos
un tercer (o más) nivel, seguiría siendo un diseño de un solo factor; simplemente hay más niveles o
grupos para comparar.
Diagrama conceptual de los tres enfoques cuantitativos no experimentales
La figura 7.2 es un diagrama esquemático del procedimiento utilizado para cada uno de los tres enfoques
no experimentales. Esta figura muestra cómo en el enfoque comparativo una pequeña muestra
de seis participantes podrían dividirse en grupos de forma no aleatoria. En el ámbito asociativo y
Variable independiente Variable dependiente
Comparativo
Muestra Asignación Grupo Atributo IV Promedio Puntuación para el grupo
Machos
1, 2, 3 NR Machos (1, 2, 3) Nivel 1: M oh
Hembras
4, 5, 6 NR Hembras (4, 5, 6) Nivel 2: F oh
asociacional
Muestra Puntuaciones del atributo IV para cada persona
1 S oh
2 S oh
3 S oh
4 S oh
5 S oh
6 S oh
Descriptivo Promedio Puntuación para el grupo
Muestra
1, 2, 3, 4, 5, 6 Sin vía intravenosa oh
Clave: NR = Asignación no aleatoria

O = Observación/puntuación de la variable dependiente
S = Puntuación en la variable independiente del atributo
Nota. Los números entre paréntesis indican los participantes de ese grupo.
Figura 7.2
Diagramas esquemáticos de los tres enfoques de investigación no experimental.

En los enfoques descriptivos, todos los participantes están en un solo grupo. Tenga en cuenta que el enfoque
descriptivo no tiene una variable independiente.
Una visión ampliada de los cinco enfoques cuantitativos La mayoría de los
estudios publicados son más complejos de lo que se ilustra en las Figuras 4.3 y 7.2. Anteriormente discutimos
las razones para tener más de dos niveles o grupos en un estudio comparativo (o experimental). Los estudios
publicados también suelen tener más de una variable independiente y frecuentemente utilizan más de uno de
los cinco enfoques.
Preguntas de investigación básicas y complejas
Recuerde que los enfoques se basan en las preguntas de investigación que se plantean en un estudio
determinado. Las preguntas de investigación de diferencias se utilizan en los enfoques experimentales
aleatorios, cuasiexperimentales y comparativos. Las preguntas de investigación asociativa se encuentran en
estudios que utilizan el enfoque asociativo. Además, delineamos las preguntas de investigación asociativa y
de diferencias en preguntas básicas y complejas. Las preguntas de investigación básica se utilizan en
estudios con una variable independiente, mientras que las preguntas de investigación complejas se
responden en estudios que utilizan dos o más variables independientes.
La tabla 7.1 presenta los seis tipos de preguntas de investigación y el número de variables consideradas
con cada una. Esta tabla amplía la descripción general de las preguntas de investigación presentadas en el
Capítulo 3 para incluir preguntas básicas y complejas de cada uno de los tres tipos: descriptivas, de diferencias,
Tabla 7.1
Resumen de tipos de preguntas de investigación

Tipo de pregunta de investigación
1. Preguntas descriptivas básicas: una variable.
2. Preguntas descriptivas complejas: dos o más variables,

pero no se utilizan estadísticas inferenciales.
3. Preguntas básicas/de diferencia de un solo factor: una

variable independiente y una dependiente. La variable independiente
suele tener algunos niveles (ordenados o no).
4. Preguntas de diferencias complejas/multifactoriales: tres o más

variables. Generalmente dos o unas pocas variables
independientes y una o más variables dependientes se
consideran una a la vez.
5. Cuestiones asociativas básicas: una independiente

variable y una variable dependiente. Generalmente al menos cinco
niveles ordenados para ambas variables. A menudo son
continuos.
6. Preguntas asociativas complejas/multivariadas: dos o más variables

independientes y una variable dependiente. Generalmente
cinco o más niveles ordenados para todas las variables, pero
algunas o todas pueden ser variables dicotómicas.
y asociativo. Tenga en cuenta que el Apéndice D presenta ejemplos de cada uno de estos seis tipos de
preguntas de investigación y las estadísticas que normalmente se utilizan con cada tipo de pregunta.
Combinaciones de enfoques de investigación
La mayoría de los estudios tienen más de una hipótesis o pregunta de investigación y pueden utilizar más
de uno de los enfoques de investigación. Es común encontrar un estudio con una variable independiente
activa (p. ej., tratamiento) y una o más variables independientes de atributos (p. ej., género).
Este tipo de estudio combina el enfoque comparativo con el enfoque experimental aleatorio (si los
participantes fueron asignados aleatoriamente a grupos) o con el enfoque cuasiexperimental (si no hubo
asignación aleatoria). La mayoría de los estudios de investigación de “encuestas” incluyen tanto el enfoque
asociativo como el experimental. y preguntas de investigación comparativa, y la mayoría, que utilizan
cualquiera de los otros cuatro enfoques, también tienen algunas preguntas descriptivas, al menos para
describir la muestra. Por lo tanto, es común que los estudios publicados utilicen una combinación de tres
o incluso más enfoques.
Enfoques de investigación cualitativa no experimental Existen numerosos
enfoques cualitativos para la investigación: el número depende del autor que se considere. Por ejemplo,
Tesch (1990) describió 28, Miller y Crabtree (1992) delinearon 18, y Denzin y Lincoln (1994) especificaron
nueve enfoques. Afortunadamente, Creswell (2007) simplifica esto al describir cinco enfoques cualitativos
principales basados en tipos comunes de investigación realizadas en los ámbitos de las ciencias del
comportamiento, sociales y de la salud: (1) fenomenológica; (2) teoría fundamentada; (3) etnográfico; (4)
estudio de caso; y (5) narrativa. Se analiza cada uno de estos cinco enfoques cualitativos y se presenta
un ejemplo de un estudio que ilustra cada tipo de enfoque.
Todos estos enfoques cualitativos se consideran no experimentales porque sería poco común que
tuvieran una variable independiente activa (es decir, intervención) y raro que se utilizara asignación
aleatoria. El uso de estadística inferencial con un enfoque cualitativo también sería poco común, pero
podrían presentarse algunos tipos de estadística descriptiva, como tablas y porcentajes.
Aunque los enfoques cualitativos están fuera del alcance de este libro, se describen aquí para que el
lector pueda ponerlos en perspectiva. Además, un enfoque pragmático de la investigación llevaría al
investigador a utilizar cualquier técnica que le pareciera más útil para abordar el problema de investigación
de interés. Desafortunadamente para los investigadores que desean utilizar métodos de enfoques tanto
cualitativos como cuantitativos, los investigadores cualitativos/construccionistas han desarrollado una
terminología diferente, por lo que es difícil aplicar el vocabulario descrito en la mayor parte de este libro a
estos enfoques.
Los enfoques cualitativos discutidos en esta sección son muy similares al enfoque descriptivo ya
descrito, pero las descripciones en estos enfoques probablemente serían en forma verbal en lugar de
numérica y se presumiría que proporcionarían una descripción más rica y matizada del fenómeno. Se
podrían hacer algunas comparaciones entre grupos o asociaciones entre variables, pero es poco probable
que se hagan utilizando estadística inferencial. Sin embargo, en estos enfoques cualitativos y cuantitativos
se podrían utilizar técnicas similares de recopilación de datos, como entrevistas y observaciones. El
capítulo 13 analiza esta superposición.
El enfoque de investigación fenomenológica El enfoque
fenomenológico ayuda a los investigadores a comprender el significado que los participantes dan, por ejemplo,
a eventos, fenómenos y actividades. Este enfoque responde preguntas que comienzan con "cómo" y "por qué".
Principalmente, a través de entrevistas (aunque a veces se utilizan documentos y observaciones) se obtiene
información de los participantes.
El objetivo de los estudios realizados a través del enfoque fenomenológico es poder explicar la esencia de las
experiencias vividas por los participantes.
Un ejemplo de estudio que podría realizarse desde el enfoque de investigación fenomenológica es cómo se
sienten los docentes de una escuela media urbana respecto de la nueva administración.
El investigador planea entrevistar a los profesores de la escuela, con la esperanza de comprender y describir
mejor sus percepciones.
El enfoque de investigación de la teoría fundamentada
El enfoque de la teoría fundamentada fue desarrollado por Glaser, Strauss y Corbin (Corbin & Strauss, 2008;
Glaser, 1978; Glaser & Strauss, 1967; Strauss, 1987). El objetivo del enfoque de la teoría fundamentada es
generar teoría a partir de los datos recopilados de los participantes. Una pregunta de enfoque común utilizada en
los estudios de teoría fundamentada es: "¿Cuál es la teoría que se puede inducir a partir de los datos?" Los
estudios realizados con el enfoque de la teoría fundamentada se centran en el proceso, las acciones o las
interacciones experimentadas por entre 20 y 60 participantes. Las entrevistas son el medio principal para recopilar
datos.
Usando la teoría fundamentada, un investigador primero identificaría el problema de investigación, por
ejemplo, ¿por qué los clientes eligen un proveedor específico? A continuación, debido a que el objetivo de la
teoría fundamentada es generar una teoría, es importante que el investigador evalúe mediante una revisión de la
literatura si una teoría ya existe. Luego, el investigador entrevistaría a los clientes para determinar su proceso de
pensamiento con respecto a la elección de un proveedor. A partir del análisis de los datos, el investigador
esperaría identificar una teoría para responder al problema de investigación.
El enfoque de investigación etnográfica La
etnografía es un enfoque de investigación que evolucionó a partir de la antropología y la sociología.

Los estudios realizados mediante el enfoque etnográfico describen a un grupo de individuos que comparten una
misma cultura. Una pregunta central común en los estudios realizados con el enfoque etnográfico es: "¿Cuál es
la cultura de este grupo de personas?" Para recopilar datos, los investigadores se sumergen en la cultura,
utilizando observaciones, entrevistas y documentos para comprender la cultura.
Lo más común es que las etnografías se realicen con culturas diferentes a las de los investigadores. Los
investigadores cualitativos no se ponen de acuerdo sobre una definición de cultura. En nuestra opinión, siempre
que el investigador pueda definir la cultura en estudio, el estudio puede considerarse una etnografía. Por
ejemplo, un investigador puede estar interesado en la cultura de las pandillas en una gran ciudad.
El investigador identifica una pandilla, observa y entrevista a sus miembros y luego analiza los datos. Es común
que las etnografías tomen una cantidad de tiempo considerable, ya que una cultura determinada puede tener
muchas facetas. La esperanza es que el investigador pueda comprender mejor la cultura de los participantes.
El enfoque de investigación de estudios de
casos Yin (2008) es el padre del enfoque de investigación de estudios de casos cualitativos. Algunos (por ejemplo,
Stake, 2005) creen que los estudios de casos no son una metodología sino una descripción de lo que se estudiará.
Otros, como Creswell (2007) y Yin, creen que los estudios de casos son una metodología. El objetivo del
enfoque de estudio de casos es desarrollar una comprensión profunda de uno o varios casos. Los casos
los define el investigador, pero deben estar limitados por el tiempo, el lugar o el contexto. Se necesitan
múltiples tipos de datos cuando se utiliza el enfoque de estudio de casos: documentos, registros de
archivo, entrevistas, observaciones directas, observaciones participantes y artefactos físicos. Los estudios
de caso pueden ser explicativos, exploratorios o descriptivos.
Por ejemplo, un investigador puede estar interesado en la política de oficina en una oficina específica.
Primero, el investigador necesitaría identificar el "caso". En este ejemplo, el investigador podría elegir,
como límites del caso, al supervisor y a todos sus supervisados. Así, los participantes serían todos los
empleados bajo un supervisor específico. A continuación, el investigador necesitaría recopilar la mayor
cantidad de datos posible para comprender el caso. Esto significa que todo dentro del caso puede
considerarse como oportunidades para obtener datos, incluidas entrevistas y grupos focales, papeleo (es
decir, documentos), observaciones de los participantes y observaciones hechas por los participantes, y
artefactos físicos (por ejemplo, espacios desgastados en la pantalla). la alfombra que identifica los
patrones de caminata por toda la oficina).
El enfoque de investigación narrativa
Según Creswell (2007) el enfoque de investigación narrativa explora la vida de un individuo. Sin embargo,
algunos estudios realizados con el enfoque de investigación narrativa exploran a varias personas con
experiencias compartidas. Lo más común es que, con el enfoque de investigación narrativa, las entrevistas
y los documentos sean los medios para recopilar datos. El objetivo de este enfoque es identificar y reportar
historias de los participantes.
Un ejemplo de investigación narrativa sería el de un investigador interesado en aprender más sobre
alguien que se postula para presidente de los Estados Unidos. En esta situación, el investigador solicitaría
la participación del candidato y luego lo entrevistaría, además de analizar los documentos pertinentes. El
objetivo de esta investigación sería contar una historia que refleje las percepciones, pensamientos y
experiencias del candidato.
Resumen Las
Figuras 7.1 y 7.2 resumen los puntos clave planteados en la sección cuantitativa de este capítulo. Tenga
en cuenta que hay dos propósitos generales de la investigación cuantitativa: descubrimiento de relaciones
y descripción. Recuerde que el Capítulo 2 comenzó con una definición de problema de investigación
como una pregunta sobre la relación entre dos o más variables. Este es el sentido amplio en el que todos
los enfoques, excepto el descriptivo, buscan establecer relaciones entre variables.
Tanto el enfoque comparativo como el cuasiexperimental y el experimental aleatorio nos permiten

comparar grupos. En términos de propósitos más específicos, el enfoque experimental aleatorio es el
único cuyo propósito es determinar o identificar causas; sin embargo, los cuasiexperimentos nos ayudan
a examinar las posibles causas. Por lo tanto, estos tres enfoques utilizan hipótesis de diferencia (como se
analiza en el Capítulo 3) y estadísticas inferenciales que prueban las diferencias entre grupos (p. ej.,
pruebas t y análisis de varianza).
Tenga en cuenta que no hay distinción entre las estadísticas utilizadas en los experimentos para determinar
las causas y las utilizadas en estudios comparativos que sólo nos dicen que hay una diferencia entre los
grupos.
El propósito específico del enfoque asociativo incluye encontrar asociaciones, relacionar variables y
también hacer predicciones a partir de las variables independientes/predictoras para obtener puntuaciones
en las variables dependientes/criterio. Aunque es una simplificación excesiva, el enfoque asociativo utiliza
un tipo diferente de hipótesis (asociacional) que los enfoques experimentales comparativo, cuasiexperimental
y aleatorio.
Los cinco enfoques cualitativos tienen diferencias sustanciales. El enfoque de investigación
fenomenológica no se centra en la vida de un individuo sino en la comprensión de un concepto o fenómeno.
El enfoque de la teoría fundamentada conduce al desarrollo de la teoría sustantiva. El enfoque de
investigación etnográfica conduce a un retrato de un grupo o pueblo cultural, es decir, al registro del
comportamiento humano en términos culturales. El enfoque de estudio de caso implica el estudio en
profundidad de un caso con límites claros (es decir, un caso con un contexto o un tiempo determinado). Y
finalmente, el enfoque narrativo se centra en la vida de los individuos. Existen algunas similitudes entre los
cinco enfoques de investigación cualitativa. Los cinco enfoques se centran en comprender a los participantes
y sus percepciones. Además, los cinco enfoques cualitativos suelen utilizar entrevistas como medio de
recopilación de datos. El capítulo 13 analiza las entrevistas y otras técnicas de recopilación de datos,
señalando que pueden ser utilizadas tanto por investigadores cualitativos como cuantitativos.
Conceptos clave
Enfoques cuantitativos básicos o de un solo factor

Enfoque cualitativo del estudio de caso
Enfoque cualitativo etnográfico
Enfoque cualitativo de la teoría fundamentada
Enfoque narrativo cualitativo
Enfoque cualitativo fenomenológico
Distinciones clave

Preguntas de investigación de diferencias versus asociaciones versus descriptivas
Enfoques de investigación experimental versus no experimental
Enfoque de investigación comparativo versus asociativo versus descriptivo
Relaciones entre variables versus descripción de una variable
100 métodos de investigación en entornos aplicados: un enfoque integrado para el diseño y el análisis
1. Describa cada uno de los siguientes y proporcione un ejemplo original de cada uno:
a. Enfoque de investigación descriptivo.
b. Enfoque de investigación comparada.
C. Enfoque de investigación asociativa.
2. Comparar y contrastar enfoques experimentales versus no experimentales.
3. ¿Qué queremos decir con enfoques de investigación cualitativos no experimentales?
4. ¿Puede un investigador combinar enfoques? Explica tu respuesta. dar un original
ejemplo para ilustrar.
Elija qué enfoque de investigación cuantitativa describe mejor los siguientes tres escenarios.
Describe por qué. También identifique la variable independiente y dependiente.
5. Un maestro de escuela primaria está interesado en saber si más hombres o mujeres usan su
mano izquierda como mano dominante. Le pide a su clase de 28 estudiantes que escriban si
son diestros o zurdos.
6. Se realiza un estudio para analizar si un alto nivel de estrés (medido en una escala de 0 a 100)
está relacionado con un alto nivel de soledad (medido en una escala de 0 a 100).
7. Le interesa la relación entre las regiones de los Estados Unidos (Noreste, Sudeste, Medio
Oeste, Oeste de las Montañas Rocosas y Costa Oeste) y el índice de masa corporal.
Notas
1. La Figura 7.1 es igual a la Figura 4.2, excepto que los enfoques no experimentales están
ubicados a la izquierda de la figura en el orden en que se analizan en este capítulo. Se repite
aquí porque es importante para comprender los tres enfoques no experimentales. Los enfoques
no experimentales se ubican a la izquierda de la figura en el orden en que se analizan en este capítulo.
2. Este tipo de estudio se denomina transversal o longitudinal, porque se evalúa a diferentes niños
en cada edad. Si se hubiera seguido a los niños desde 1.º hasta 5.º grado, el estudio sería
longitudinal.
8
Validez interna
Uno de los principales objetivos de este libro es ayudar a los estudiantes a evaluar la calidad o el mérito de
un estudio. Validez es el término general más utilizado por los investigadores para juzgar la calidad o el mérito.
El término validez se utiliza de varias maneras un tanto diferentes, por lo que hemos utilizado modificadores
para indicar qué aspecto de la validez se está discutiendo y para ayudar a mantener claros los distintos
aspectos. En la Figura 8.1 se muestran cuatro usos del término validez. Tenga en cuenta que la validez de la
investigación es el término más amplio y se basa en los otros tres. Este capítulo analiza la causalidad y la
validez interna, que dependen en gran medida del tipo de enfoque y diseño, como se analiza en el Capítulo
4 al Capítulo 7. Recuerde que los experimentos aleatorios son los que tienen más probabilidades de
proporcionar evidencia de que la variable independiente causó cambios en la variable dependiente.
Antes de examinar la validez interna en profundidad, analizamos los criterios para inferir que una variable
provocó el cambio de otra. Luego, observamos que la evaluación de la validez interna tiene dos dimensiones
principales: (1) equivalencia de los grupos en las características de los participantes; y (2) control de
experiencias extrañas y variables ambientales. A continuación, describimos cómo evaluar la validez interna
de un estudio sobre estas dos dimensiones. Finalmente, analizamos las “amenazas” tradicionales a la validez
interna y cómo cada una de ellas encaja en las dos dimensiones principales.
Identificación de relaciones causales Un objetivo
importante de la investigación científica es poder identificar una relación causal entre variables. Sin embargo,
existe un considerable desacuerdo entre los estudiosos sobre qué es necesario para demostrar que existe
una relación causal. La mayoría de los científicos suscriben una afirmación probabilística sobre la relación
causal entre dos variables. Los investigadores señalan que incluso si no pueden identificar todas las causas
o el factor causal más importante de un resultado, pueden identificar una variable particular como una causa
(o parcial), cuando el enfoque fue un experimento aleatorio bien controlado.
Se necesitan tres criterios de causalidad para postular que una variable independiente provocó un cambio
en una variable dependiente. Primero, la variable independiente debe preceder a la variable dependiente. En
segundo lugar, la variable independiente debe estar relacionada con la variable dependiente. Y tercero, no
debe haber otras variables que puedan explicar por qué la variable independiente está relacionada con la
variable dependiente.
Reexaminemos los estudios de muestra descritos inicialmente en el Capítulo 1 para ver si cumplían con
estos tres criterios. En el experimento aleatorio (Schellenberg, 2004), la secuencia del estudio fue, primero,
la asignación aleatoria de los participantes a uno de cuatro grupos; Hubo dos tratamientos de música
(lecciones de teclado o voz), un grupo de lecciones de teatro y un grupo de control (sin lecciones). A
continuación se dio el tratamiento, tipo de lección y, finalmente, el dependiente.
101
Validez interna Validez externa Validez de la medición

la medida en que La medida en que el e calidad de precisión de
podemos inferir que el los hallazgos se generalizarán medidas o puntuaciones
variable independiente a otras poblaciones, individuales. El grado en que una
puntuación mide lo que fue
causó el dependiente entornos, medidas y
variable. tratos. pretende medir.
(Capítulo 8) (Capítulo 9) (Capítulo 12)
Calidad o mérito de todo el estudio.
(Capítulos 23 y 24)
Figura 8.1
Cuatro usos del término validez y dónde se discuten.
Se midieron las siguientes variables: coeficiente intelectual y rendimiento. Así, la variable independiente (tipo de
lección) sí precedió a la variable dependiente, satisfaciendo este primer criterio. ¿Hubo una relación entre la variable
independiente y la variable dependiente? Los resultados mostraron
una mejora estadísticamente significativa en el coeficiente intelectual entre los grupos al final del estudio.
Por lo tanto, el investigador cumplió el segundo criterio para afirmar que el estudio independiente
variable fue una causa del cambio en una variable dependiente. ¿Fueron variables extrañas?
¿descartado? El investigador asignó aleatoriamente a los participantes a los cuatro grupos para que los grupos
se suponía que eran iguales antes de la introducción de la intervención, y los grupos
fueron tratados de manera idéntica durante el estudio excepto si recibieron lecciones de música. Si hubo un cambio
en la variable dependiente de los grupos que recibieron la música
lecciones y ningún cambio para los grupos que no recibieron las lecciones de música, sería
Es difícil postular que alguna otra variable fuera responsable de cualquier cambio en la variable dependiente. Por lo
tanto, se cumplieron los tres criterios para identificar una relación causal.
En los estudios puramente descriptivos no hay ninguna variable independiente ni ningún intento de encontrar
relaciones (causales o no) entre variables, por lo que la cuestión de las relaciones causales
no es relevante. Los enfoques cuasiexperimental, comparativo y asociativo son todos
Intenta identificar relaciones entre variables. En estudios publicados, estos tres
Los enfoques suelen satisfacer el segundo criterio; la variable independiente está relacionada con la
variables dependientes. El primer criterio, la variable independiente precede a la dependiente.
variable, también se cumple a menudo, especialmente en cuasiexperimentos. Sin embargo, cuando el enfoque
Si es comparativo o asociativo, el orden secuencial puede no ser claro. En el Capítulo 7 utilizamos
el ejemplo del estudio de la relación entre superdotación y autoconcepto; sería
Es difícil, si no imposible, saber si el alto concepto de sí mismos de los niños precedió o siguió a su superdotación.
Asimismo, en un estudio de la relación entre la extensión de una
práctica de los padres, como los azotes, y la cantidad de agresión infantil, generalmente asumimos
que el comportamiento de los padres precedió y causó el comportamiento del niño, pero es posible lo contrario
y puede haber efectos recíprocos. El tercer criterio de causalidad, que descarta otras posibles explicaciones, nunca
es posible en los enfoques comparativo y asociativo.
es problemático en todos los cuasiexperimentos excepto en los más fuertes. Sin embargo, algunas cosas pueden ser
hecho para controlar variables extrañas.
En este capítulo mostramos que el grado en que un estudio cumple las tres condiciones para
inferir la causalidad se basa en la solidez del diseño y la validez interna. En el proximo
En esta sección definimos la validez interna, analizamos cómo se relaciona con la cuestión de la causalidad y
describir cómo evaluarlo.
Validez interna 103
Evaluación de la validez interna ¿Qué es
la validez interna?
Cook y Campbell (1979) definieron la validez interna como “la validez aproximada con la que podemos inferir
que una relación es causal” (p. 37). La validez interna depende de la solidez o solidez del diseño e influye en si
se puede concluir que la variable independiente o la intervención provocaron que la variable dependiente
cambiara. Aunque la validez interna se discute a menudo con respecto a experimentos aleatorios y
cuasiexperimentos, creemos que el concepto también se aplica a investigaciones con variables independientes
de atributos (es decir, a estudios no experimentales).
Agrupamos las cuestiones relevantes para la evaluación de la validez interna en dos tipos principales: (1)
equivalencia de los grupos según las características de los participantes (p. ej., equivalencia de los grupos de
intervención y de comparación antes de la intervención); y (2) control de experiencias extrañas y variables
ambientales. En esta sección, analizamos estos dos aspectos de la validez interna y cómo evaluarlos.
Equivalencia de grupos según las características de los participantes
En una investigación que compara diferencias entre grupos, una pregunta clave es si los grupos que se
comparan son equivalentes en todos los aspectos antes de la introducción de la variable o variables
independientes. Utilizando el enfoque experimental aleatorio, la equivalencia se aproxima mediante la asignación
aleatoria de participantes a grupos, si hay al menos 30 en cada grupo. La asignación aleatoria, que es
característica de los experimentos aleatorios pero no de los cuasiexperimentos, es la mejor manera de garantizar
grupos equivalentes, o al menos imparciales. Sin embargo, en las investigaciones cuasiexperimentales,
comparativas, asociativas y descriptivas, la asignación aleatoria de participantes a grupos no se ha realizado
o no se puede realizar.
Equivalencia de grupos en cuasiexperimentos
Métodos como la asignación aleatoria de tratamientos a grupos intactos similares, el emparejamiento o la

verificación de la similitud de los grupos antes de la prueba después del estudio son intentos de hacer que los
grupos sean similares. Incluso si se utiliza uno o más de estos métodos para lograr la equivalencia grupal,
nunca se podrá lograr la equivalencia total a menos que haya una asignación aleatoria de los participantes a
los grupos. Es por eso que los diseños cuasiexperimentales específicos descritos en el Capítulo 5 se denominan
diseños de grupos no equivalentes. (Incluso en experimentos aleatorios puede haber algunas diferencias
previas a la prueba, pero se deben al azar, no al sesgo).
Equivalencia de grupos en estudios comparativos Los
grupos basados en atributos (por ejemplo, edad, género, categoría diagnóstica y superdotación) rara vez se
acercan a la equivalencia en otras características de los participantes. Por ejemplo, las personas mayores
tienen más probabilidades de tener dolencias físicas, tiempos de reacción más lentos y experiencias más
variadas que las personas más jóvenes. Estas otras características no controladas conducen a problemas de
validez interna. Se pueden utilizar varias técnicas para hacer que los grupos sean más similares, al menos en
algunas variables clave, pero nunca producen equivalencia en todas las variables importantes.
DiLorenzo, Halper y Picone (2004), en nuestro estudio comparativo de muestras, utilizaron el análisis de
covarianza (ANCOVA), una técnica estadística utilizada para ajustar las puntuaciones de las variables
dependientes de modo que los grupos fueran más equivalentes. En DiLorenzo et al. En el estudio, utilizaron la
duración de la enfermedad como covariable para controlar parcialmente las diferencias grupales en esa
importante variable. Debido a que el grupo de mayor edad había estado enfermo por más tiempo que el grupo
más joven, ANCOVA ayudó a ajustar estadísticamente las diferencias en la duración de la enfermedad entre los grupos.
El emparejamiento de los participantes en características distintas a la variable independiente es otro método
para abordar la equivalencia de participantes o grupos. Esta técnica es especialmente popular en el enfoque
comparativo, donde se compara un "grupo de diagnóstico" con un grupo "típico". Por ejemplo, un estudio
podría comparar personas con esclerosis múltiple con un número igual de personas sin el diagnóstico para
evaluar el funcionamiento motor e intelectual. Antes del estudio, podían emparejar a los participantes en
cuanto a edad, género y educación. Si los participantes no son diferentes con excepción del diagnóstico,
entonces los autores podrían concluir que las diferencias entre los dos grupos podrían atribuirse a la enfermedad.
A menudo, en los estudios comparativos, los investigadores verifican una vez finalizado el estudio para ver
qué tan coincidentes estaban los grupos con respecto a las medidas demográficas recopiladas durante el
estudio. Si los grupos son similares, se muestra cierto grado de validez interna.
Equivalencia en Estudios Asociacionales Si
el enfoque de investigación es asociacional, existe un solo grupo. Por tanto, podría parecer que la equivalencia
de los grupos no sería aplicable. Sin embargo, creemos que es importante enfatizar que el enfoque asociativo
no proporciona evidencia de causalidad, sin importar cuán fuerte sea la asociación estadística.
Proponemos que en el enfoque asociativo, la equivalencia de las características de los participantes se

reduce a la cuestión de si aquellos que obtienen puntuaciones altas en la variable independiente de interés son
similares a aquellos participantes que obtienen puntuaciones bajas en términos de otros atributos que pueden
estar relacionados con la variable dependiente. . Por ejemplo, si la variable independiente fuera la educación y
la variable dependiente fuera el ingreso posterior, no deberíamos interpretar que una correlación alta indica que
una mayor educación genera un ingreso más alto. Es probable que los participantes con un alto nivel educativo
difieran de los menos educados en términos de otros posibles factores causales, como el coeficiente intelectual,
la educación de los padres y el estatus social familiar. Si los participantes con puntuaciones altas no son
equivalentes a los que obtienen puntuaciones bajas en términos de dichas variables, el investigador podría
controlar estadísticamente algunas, pero nunca todas, las variables en las que los participantes con puntuaciones
altas y bajas no son iguales. Este es un método para lograr cierto grado de validez interna dentro del enfoque
de investigación asociativa.
Aunque los enfoques comparativo y asociativo son limitados en lo que se puede concluir sobre la causalidad,
pueden conducir a conclusiones sólidas sobre las diferencias entre grupos y sobre las asociaciones entre
variables. Además, si el foco de la investigación está en una variable independiente de atributo, los enfoques
no experimentales son los únicos disponibles. El enfoque descriptivo, tal como lo definimos, no intenta identificar
relaciones causales ni, de hecho, ninguna relación. Se centra en describir y resumir variables.
Control de experiencias extrañas y variables ambientales (contaminación)
Esta dimensión de validez interna incluye los efectos de experiencias o condiciones ambientales extrañas
(variables distintas de las variables independientes o dependientes) durante
Validez interna 105
el estudio. Por lo tanto, hemos llamado a esta dimensión de validez interna control de experiencias
extrañas y variables ambientales. Cook y Campbell (1979) abordaron este problema, en parte, al
analizar las amenazas a la validez interna que la asignación aleatoria no elimina.
Muchos de estos problemas ocurren porque algunos participantes obtienen información sobre el
propósito del estudio mientras éste se lleva a cabo.
Un aspecto de esta dimensión tiene que ver con si variables o eventos extraños afectan a un grupo
más que al otro. Por ejemplo, si los estudiantes se enteran de que están en un grupo de control, es
posible que se rindan y no se esfuercen tanto, exagerando las diferencias entre los grupos de
intervención y de control. O podría ocurrir lo contrario: los estudiantes del grupo de control podrían
sobrecompensar, eliminando las diferencias entre los dos grupos.
En el enfoque asociativo, la cuestión es si las experiencias de los participantes que tienen una
puntuación alta en la variable independiente son diferentes de las de aquellos que tienen una puntuación
baja en la variable independiente. El control de las experiencias extrañas y del entorno depende del
estudio específico, pero generalmente es mejor para experimentos aleatorios y para estudios realizados
en entornos controlados, como laboratorios o instalaciones para pacientes hospitalizados.
Calificación de las dos dimensiones de la validez interna
Un buen estudio debe tener una validez interna de moderada a alta en ambas dimensiones de la
validez interna (equivalencia de los grupos en las características de los participantes y control de
variables extrañas de experiencia/entorno). De lo contrario, el autor debería, como mínimo, ser cauteloso
al decir que las variables independientes influyeron, impactaron o provocaron que las variables
dependientes cambiaran.
Para evaluar la validez interna, utilizamos las dos escalas de calificación de la Figura 8.2. La clave
para obtener una calificación alta en la primera escala es la asignación aleatoria de los participantes a
los grupos (por ejemplo, grupos experimentales y de comparación). Si no se realizó o no se pudo
realizar una asignación aleatoria, ¿hubo intentos de hacer que los grupos fueran similares o al menos
de verificar su similitud después del estudio? Una buena retención (una baja tasa de deserción o
abandono durante el estudio) también es parte de esta primera calificación, al igual que si la deserción
fue similar para los grupos.
Los diseños experimentales aleatorios realizados en un laboratorio generalmente controlan bien las
variables ambientales y experienciales y recibirían calificaciones altas en la segunda escala de
calificación. Sin embargo, en los diseños cuasiexperimentales, y especialmente en los enfoques
comparativo y asociativo, tales experiencias pueden no estar controladas adecuadamente.
Amenazas tradicionales a la validez interna Shadish,
Cook y Campbell (2002) propusieron una larga lista de “amenazas” a la validez de la investigación.
Las etiquetas de estas amenazas son confusas y más complejas de lo necesario para comprender la
validez interna. Otro problema con las amenazas a la validez interna es que sólo enfatizan los problemas
de diseño que podrían resultar. En otras palabras, las amenazas te dicen lo que está mal. No
necesariamente brindan consejos sobre cómo corregir el problema.
En el lado izquierdo de la Tabla 8.1 hay una lista de amenazas a la validez interna descrita por
Shadish et al. (2002). Hemos agregado una columna para nuestros nombres sugeridos y mostramos
cómo estas amenazas encajan en los dos tipos principales de amenazas ya descritas y calificadas en
la Figura 8.2.
VALIDEZ INTERNA
Equivalencia de grupos según las características de los participantes

Calificación basada en:
a) ¿Los participantes fueron asignados aleatoriamente a los grupos?
b) Si no, ¿hubo intentos adecuados para hacer que los grupos fueran similares (p. ej., ANCOVA) o verificar la similitud en una escala?
prueba preliminar?
c) Si no hubo aleatorización, ¿hubo intentos adecuados para hacer que los grupos fueran similares o verificar la similitud en otros aspectos clave?
variables?
d) ¿La retención durante el estudio fue alta y similar en todos los grupos?
BAJO MEDIO ALTO
Grupos muy diferentes, marcados Algunos intentos de equiparar grupos asignación aleatoria a
desgaste diferencial o grupos encontrados similares grupos y baja deserción
Control de Experiencias y Variables Ambientales (Contaminación)

Calificación base en:
a) ¿Se realizó el estudio en un ambiente controlado (por ejemplo, un laboratorio)?

b) ¿Se controlaron las variables extrañas que podrían afectar a un grupo más que a los demás?
¿Tenían los grupos el mismo tipo de ambiente?
c) ¿Hubo un grupo sin tratamiento (placebo) o un grupo con tratamiento habitual?
d) ¿Se controlaron las variables extrañas que podrían afectar a todos los grupos y oscurecer el verdadero efecto?
e) ¿Fueron adecuados los intentos de reducir otras influencias extrañas?
BAJO MEDIO ALTO
Variables extrañas no Intentos de controlar Todas las variables extrañas

controlado, sin grupo de comparación experiencias y controlado, eliminado,
(configuración de campo)
ambiente o equilibrado (laboratorio controlado)
Figura 8.2
Escalas de calificación para evaluar la validez interna de un estudio.
Tabla 8.1
Amenazas a la validez interna

Shadish et al. (2002) Nuestros términos
Equivalencia de grupos
Regresión estadística Uso de grupos extremos.
Desgaste o mortalidad Abandonos o desgaste de participantes durante el estudio
Selección Sesgo en la asignación a grupos.
Control de variables extrañas

Maduración Cambios debidos al tiempo o al crecimiento y desarrollo.
Historia Eventos ambientales extraños
Pruebas Pruebas repetidas, efectos de arrastre

Instrumentación Inconsistencia del instrumento o del observador
Amenazas aditivas e interactivas Combinaciones de dos o más amenazas.
Precedencia temporal ambigua ¿La variable independiente realmente ocurrió antes que la variable dependiente?
Validez interna 107
Shadish et al. (2002) Amenazas relacionadas con la equivalencia de grupos
Regresión estadística A
veces, el propósito de un estudio cuasiexperimental es beneficiar a un grupo particular que, antes de una
intervención, estaba muy por encima o por debajo del promedio (es decir, el diseño utiliza grupos extremos).
Por ejemplo, los niños que obtienen una puntuación en el 10% más bajo en alguna medida podrían compararse
con un grupo no clínico. Lo que puede suceder es que las puntuaciones del grupo bajo mejoren en relación
con las puntuaciones del pretest incluso sin la intervención. Debido a que estas puntuaciones eran bajas al
principio, los niños pueden moverse o “regresar” hacia la media de todas las puntuaciones debido a errores de
medición o falta de confiabilidad en la variable dependiente. Tenga en cuenta que la confiabilidad siempre es
menos que perfecta. Debido a que la prueba previa se utiliza en la evaluación, sólo los niños que obtienen una
puntuación baja en la prueba previa son seleccionados para estar en el grupo “clínico” o extremo. Sin embargo,
debido a que existe un error de medición, algunos de los estudiantes seleccionados para estar en este grupo
extremo probablemente estaban teniendo un “mal día” y no deberían ser, en realidad ni por lo general, tan bajos.
Por lo tanto, cuando se les evalúa por segunda vez (postest), es más probable que se refleje su “puntuación
real”, y parecería ser un aumento con respecto a la prueba previa. Sin embargo, el investigador no sabría si la
puntuación posterior a la prueba se debió a la intervención o al problema estadístico de la regresión a la media.
En un artículo clásico, Campbell y Kenny (1999) discutieron los artefactos de regresión debidos a la selección
de grupos extremos y varios otros problemas relacionados.
Desgaste (anteriormente llamado mortalidad)
Esta amenaza se refiere al abandono de los participantes del estudio. Se crean problemas si el porcentaje de
participantes que abandonan es grande, si hay pérdidas diferenciales entre grupos, o ambas cosas. Un alto
desgaste (abandonos) podría dar lugar a una puntuación posterior a la prueba sesgada, especialmente si la
intervención o la condición de control incita a los participantes a abandonar. Por ejemplo, si los participantes
consideran que la intervención es onerosa o no eficaz, pueden abandonar el estudio.
Por otro lado, si los participantes saben que están en la condición de control y se sienten engañados, pueden
retirarse. El desgaste también es un problema potencial en los estudios comparativos y asociativos en los que
se realiza un seguimiento longitudinal de los participantes a lo largo del tiempo. Prestar atención a las
necesidades de los participantes y mantener un contacto frecuente con ellos puede ser útil para reducir el desgaste.
Sesgo de selección
A esta amenaza la llamamos sesgo de asignación de participantes porque el problema surge de cómo se
asignaron los participantes a un grupo particular (comparación o intervención), no de cómo fueron seleccionados
(muestreados) de la población. Se crean problemas cuando los participantes no son asignados aleatoriamente
a grupos, incluso si una prueba previa sugiere que los grupos son similares. Sin embargo, el alcance de este
problema depende de si hubo selección/asignación sesgada de los participantes a los grupos. Generalmente
hay algún sesgo en los cuasiexperimentos; Los enfoques comparativo y asociativo, por definición, tienen
grupos sesgados.
Shadish et al. (2002) Amenazas al control de las experiencias y el medio ambiente

Maduración
La amenaza a la validez interna llamada maduración ocurre cuando los participantes en el estudio cambian en
función del tiempo, como del pretest al postest en el caso de investigaciones experimentales y
cuasiexperimentales aleatorias. Algunos de estos cambios podrían deberse
al crecimiento, pero otros cambios no se deben a la maduración física. Por ejemplo, los pacientes
psiquiátricos pueden mejorar con el tiempo sin ningún tratamiento. La amenaza de maduración puede
dificultar la determinación de si fue la intervención o algo más relacionado con el tiempo lo que condujo
a la diferencia en la variable dependiente.
Historia
Esta amenaza, que llamamos eventos ambientales extraños, ocurre cuando algo distinto de la variable
independiente sucede entre la prueba previa y la prueba posterior, especialmente si le sucede a un solo
grupo. Considere una situación en la que usted está interesado en el efecto de un tipo particular de plan
de estudios, pero durante el período en que se lleva a cabo su intervención, los estudiantes están
expuestos a información sobre los méritos de su método. Debido a la amenaza de eventos ambientales
extraños, no se puede concluir que fue su método y sólo su método el que marcó la diferencia en el
estudio.
Pruebas
Esta amenaza ocurre con mayor frecuencia cuando el investigador utiliza pruebas repetidas o una
prueba previa y una prueba posterior en el estudio y las dos son idénticas o similares, lo que resulta en
un posible remanente de la prueba previa que podría alertar a los participantes sobre el estudio y cómo
deben comportarse. . O, si el estudio implica aprendizaje, la prueba previa puede incluir información
que se encuentra en la prueba posterior. Sería difícil separar lo aprendido en el pretest de lo aprendido
en la intervención.
Instrumentación
Cuando se utiliza la misma prueba previa y posterior en un diseño de investigación, es posible que haya
inconsistencia y la puntuación de la prueba pueda cambiar, especialmente si el intervalo entre la prueba
previa y la posterior es relativamente largo. Por ejemplo, podría haber una desviación de calibración
en un instrumento que se utiliza para registrar el tiempo de reacción o medidas fisiológicas, como la
frecuencia cardíaca. Incluso los cambios más leves impedirán que el investigador concluya si el cambio
se debió a la intervención o al cambio en la calibración. Un problema común relacionado con la amenaza
de la instrumentación es cuando las mediciones previas y posteriores a la prueba involucran a
evaluadores. No es raro que las personas cambien sus criterios con el tiempo. Peor aún, uno o más
evaluadores pueden abandonar el estudio y tener que ser reemplazados por evaluadores diferentes.
Establecer repetidamente una alta confiabilidad entre evaluadores es un método para evitar este
problema.
Amenazas aditivas e interactivas
El impacto de cualquiera de las amenazas anteriores se puede agregar a una o más de las otras
amenazas. O el impacto puede depender (es decir, interactuar con) el nivel de otra amenaza. Por tanto,
las combinaciones de amenazas pueden ser un problema.
Precedencia temporal ambigua
Recuerde que el primer criterio para determinar la causa es que la variable independiente (intervención)
debe preceder a la variable dependiente (resultado o posprueba). De vez en cuando esto
Validez interna 109
no está claro en cuasiexperimentos; A menudo es un problema en los estudios asociativos y, a veces, es un problema
en los estudios comparativos. Por ejemplo, si un estudio asociativo encontrara una
relación entre la depresión materna y el comportamiento de dominio infantil, no sería
claro qué variable apareció primero. Los autores podrían suponer que la depresión materna influyó en el comportamiento
infantil, pero es posible que los bebés que no parecen desarrollarse bien
podría causar un aumento en la depresión de las madres. En realidad, el efecto puede ser bidireccional o
cíclico. Cuando el orden temporal de las variables no está claro, no se puede establecer la causalidad y la validez
interna debe calificarse como baja.
Otras amenazas que la asignación aleatoria no elimina
La mayoría de estas amenazas ocurren debido a la contaminación. Los participantes de diferentes grupos se
comunican u obtienen información destinada a otro grupo mientras se lleva a cabo el estudio.
Como se mencionó anteriormente, si los participantes se enteran de que están en un grupo de control, pueden volverse
resentidos o desmoralizados y no esforzarse tanto, exagerando las diferencias entre la intervención
y grupos de control. O puede ocurrir lo contrario, y las personas del grupo de control pueden sobrecompensar o imitar
al grupo experimental, eliminando las diferencias entre los grupos.
Del mismo modo, el efecto de expectativa, a veces llamado efecto Hawthorne, podría hacer que el tratamiento
parezca más poderoso que si los pacientes en la condición de intervención no lo hicieran.
esperar buenos resultados de un nuevo tratamiento. Un método para prevenir los efectos de las expectativas
es diseñar el estudio de modo que los participantes no sepan (es decir, estén enmascarados) si
están recibiendo un tratamiento. El uso de un grupo de control con placebo (sin tratamiento) puede ayudar al
estimación y control del investigador para los efectos sin tratamiento. Participantes en un grupo de placebo.
pueden mejorar un poco porque saben que están en un estudio que podría ser útil
a ellos. En algunos estudios es posible utilizar un grupo de control con placebo, pero plantea cuestiones éticas.
preguntas. Por lo tanto, el “tratamiento habitual” para el grupo de control puede ser una buena alternativa, ya que
siempre y cuando los participantes del grupo de control no crean que se lo están perdiendo.
El sesgo del observador o del experimentador es otro problema; Esto se puede solucionar mediante un “doble
enmascaramiento”, es decir, haciendo que tanto el participante como el examinador o evaluador no sepan quién es.
recibiendo la intervención. Enmascarar los tratamientos al evaluador suele ser difícil
con intervenciones conductuales, pero, al menos, el evaluador no debe ser alguien que
tiene interés en el éxito del tratamiento.
Resumen
El foco de este capítulo está en la validez interna, que es la medida en que podemos inferir
que una relación es causal. Hay tres criterios para inferir una relación causal.
Primero, la variable independiente debe preceder a la variable dependiente. En segundo lugar, la variable independiente
debe estar relacionada con la variable dependiente. En tercer lugar, no debe haber otras variables que puedan explicar
por qué la variable independiente está relacionada con la variable dependiente.
Describimos dos dimensiones principales utilizadas para evaluar la validez interna: (1) la equivalencia de
los grupos sobre las características de los participantes (p. ej., equivalencia de la intervención y el control)
grupos antes de la intervención); y (2) control de experiencias extrañas y variables ambientales. El capítulo concluye
con una discusión de las amenazas tradicionales a la seguridad interna.
validez y cómo encajan en nuestras dos principales dimensiones evaluativas.
Conceptos clave
Causar o inferir causalidad

Control de variables extrañas de experiencia/entorno.
Equivalencia de grupos según las características de los participantes.
Validez interna
Amenazas tradicionales a la validez interna
Validez
Distinciones clave
Validez interna versus validez de la investigación
1. Relacione cada ejemplo de investigación con la amenaza tradicional a la validez interna que contiene.
¿Cómo podría modificarse el diseño para reducir la amenaza en cada ejemplo? a. Maduración
b. Historia o eventos ambientales c. Pruebas

repetidas d. Instrumentación
mi. Selección (tarea) f. Mortalidad

o desgaste g. Regresión
estadística
___ Un grupo de control realiza una prueba preliminar sobre conocimientos de estudios sociales.
Algunos de ellos están intrigados y deciden leer sobre el tema antes de la prueba posterior.
___ Los asistentes de investigación se aburren y no hacen sus observaciones con tanta atención
cerca del final del estudio.
___ Se lleva a cabo un experimento para evaluar un nuevo método de enseñanza de la historia.
Los distritos escolares que se ofrecen como voluntarios sirven como grupo experimental y
los que no lo hacen como grupo de control.
___ Un investigador está interesado en los efectos a largo plazo de una elección sobre las
actitudes políticas de los votantes. Antes de las elecciones, se evalúan las opiniones de
100 votantes. Posteriormente, el investigador puede reevaluar las actitudes de 74 votantes.
___ Entre el pretest y el postest ocurre un evento distinto a la manipulación de la variable

independiente.
Validez interna 111
___ Al inicio del año escolar se evalúa el rendimiento en matemáticas de un grupo de niños. Han
mejorado sus puntuaciones a final de año tras
estar expuesto a un nuevo programa de matemáticas.
___ Un psiquiatra selecciona un grupo de pacientes con síntomas muy graves.
Después de 1 mes de terapia, los pacientes han mejorado notablemente.
Utilizando este capítulo y el Capítulo 4, responda lo siguiente para los estudios 2 a 5:
a. ¿Qué enfoque de investigación se utilizó?
b. Evaluar la validez interna (a) calificando la equivalencia de los grupos según las características de los
participantes; y (b) evaluar el control de experiencias extrañas
y variables ambientales.
2. Los investigadores estaban interesados en los efectos de diferentes tipos de programación televisiva sobre el
comportamiento agresivo de los niños en edad preescolar. Se asignó aleatoriamente a niños de un preescolar
a pasar 30 minutos viendo uno de dos programas diferentes.
tipos de programación televisiva. Un grupo vio dibujos animados violentos.
como los Power Rangers, y en una habitación contigua el otro grupo miraba programas que modelaban un
comportamiento prosocial como el de Barney. Durante la hora siguiente
el espectador, actos agresivos iniciados por niños individuales tanto del espectador como del espectador.
Los grupos fueron contados por observadores. Compararon los dos grupos en cuanto al número de
conductas agresivas.
3. En este estudio, los investigadores estaban interesados en comparar la forma en que tres tipos
del refuerzo afectó el condicionamiento de los niños a usar la palabra ellos cuando
inventar frases. Los sujetos fueron llevados al laboratorio y luego asignados al azar.
a tres grupos: (1) Los niños en la condición de refuerzo "material" recibieron una
dulces M&M inmediatamente después de usar la palabra ellos al comienzo de una oración;
(2) Los niños asignados a la condición de elogio fueron reforzados cuando el experimentador dijo " bueno";
y (3) Los niños en la condición de refuerzo simbólico fueron
simplemente se le da una marca más.
4. Un profesor quiere saber si la ansiedad de los estudiantes (en un inventario de ansiedad con
puntuaciones del 1 al 10) influye en las puntuaciones de desempeño en el examen de mitad de período.
5. Los organizadores de un curso de postgrado de una semana de duración estaban interesados en saber qué
uno de los dos enfoques de enseñanza/formación fue el más eficaz. Dos secciones del
Se impartió un curso (sobre evaluación e intervención en trauma). Un maestro usó un
enfoque didáctico estructurado tradicional. El otro profesor utilizó un nuevo enfoque.
currículo, incorporando una alta proporción de componentes experienciales. Una sección se reunió por la
tarde y la otra por la mañana. Los estudiantes podrían
Regístrese para cualquiera de las sesiones. Sin embargo, los instructores eran desconocidos para los estudiantes,
y los estudiantes no tenían conocimiento previo de los diferentes enfoques/currículos.
Las secciones eran del mismo tamaño y los estudiantes eran demográficamente similares.
Los estudiantes fueron evaluados previamente para evaluar sus conocimientos previos, y al final de la
Los estudiantes del curso fueron evaluados sobre el contenido del curso.
Sección III
Muestreo, medición y
recopilación de datos
9
Muestreo e introducción a la validez externa
¿Qué es el muestreo?
El muestreo es el proceso de seleccionar parte de un grupo más grande de participantes con la intención
de generalizar desde la muestra (el grupo más pequeño) a la población (el grupo más grande). Para hacer
inferencias válidas sobre la población, debemos seleccionar la muestra de manera que sea representativa
de la población total.
Los encuestadores políticos y los investigadores de mercado han desarrollado y perfeccionado el
proceso de muestreo de modo que generalmente pueden estimar con bastante precisión las intenciones
de voto o de compra de la población de Estados Unidos a partir de muestras tan pequeñas como varios
cientos de participantes. Todos estamos familiarizados con las encuestas de opinión pública y votación,
generalmente realizadas por entrevistadores telefónicos que pueden utilizar técnicas de marcación
aleatoria de dígitos para seleccionar a las personas a las que deciden llamar. Si las preguntas son claras
y los participantes las responden con sinceridad y precisión, una muestra aleatoria de aproximadamente
1.000 participantes es suficiente para predecir, con un margen de ±3%, lo que toda la población de
Estados Unidos diría o sentiría sobre un tema determinado.
Quizás esté familiarizado con las clasificaciones de televisión de Nielsen, que se basan en información
recopilada sobre el consumo de televisión de unos pocos miles de hogares representativos. Luego, estas
calificaciones se extrapolan para indicar el porcentaje de la población total de espectadores de televisión
de los Estados Unidos que habría visto un determinado programa, y esto determina las tarifas de
publicidad. Se desarrolló un sistema similar de Nielsen para evaluar los comportamientos de compra
específicos de una muestra de consumidores estadounidenses que escanearon los códigos de barras de
los artículos que compraron para que Nielsen pudiera proporcionar información a los fabricantes no sólo
sobre la cantidad y los tipos de artículos comprados sino, quizás Más importante aún, también sobre los
perfiles de las personas que realizaban la compra.
Con algunas excepciones notables, estas modernas técnicas de encuesta han demostrado ser útiles y
precisas para predecir o proporcionar información sobre las actitudes y comportamientos del público
estadounidense. Sin embargo, históricamente ha habido varios ejemplos de errores de cálculo importantes
que pueden atribuirse en parte a técnicas de muestreo inadecuadas. Uno de los ejemplos que se citan a
menudo es el de la predicción tremendamente errónea, realizada por una encuesta de Literary Digest y
basada en una muestra muy grande de varios millones de encuestados, de que Franklin Roosevelt
perdería las elecciones presidenciales de 1936, cuando, en realidad, ganó por un amplio margen.
deslizamiento de tierra. Uno de los problemas de esta encuesta fue que la muestra se seleccionó a partir
de registros de automóviles, directorios telefónicos y otras fuentes relacionadas. Esto llevó a un muestreo
excesivo de personas adineradas y con mayor educación que no eran representativas del público votante,
especialmente durante la mitad de la Gran Depresión. Además, sólo alrededor del 20% de la muestra
seleccionada devolvió sus cuestionarios. Este ejemplo ilustra el hecho de que la representatividad de la
muestra es más importante que su tamaño, no sólo para fines de marketing o electorales sino también
para la investigación académica. Fowler (2009) y Fink (2009) son buenas fuentes de información sobre
métodos de investigación por muestreo y encuestas.
115
Ventajas del muestreo
Seleccionar menos que la población total es una ventaja para los investigadores por varias razones.
En primer lugar, es menos costoso entrevistar, observar o enviar encuestas a un grupo más pequeño de
personas que a un número grande. En segundo lugar, claramente se necesita menos tiempo para estudiar
una muestra de participantes que para estudiar una población completa, especialmente si las personas son
observadas o entrevistadas individualmente. En tercer lugar, se puede obtener un mejor control de calidad si
se dispone de una cantidad de tiempo razonable para dedicar a la evaluación de cada participante en lugar
de tratar de abarcar demasiado a un grupo más grande.
Conceptos clave del muestreo
Para comprender el muestreo tal como ocurre realmente en las investigaciones reportadas en la literatura de
ciencias sociales y educación, se deben definir conceptos clave. La figura 9.1 ayuda a visualizar varios de
estos conceptos clave y las relaciones entre ellos.
• Participantes, casos o elementos: Son las personas u objetos o eventos que resultan de interés en un
estudio particular. En las ciencias sociales los participantes suelen ser personas individuales, pero
también pueden ser grupos de personas como parejas casadas, hermanos, familias, equipos y
escuelas. Aunque menos comunes, los casos podrían ser animales, como ratas blancas, o
acontecimientos, como programas de televisión o accidentes automovilísticos. En la Figura 9.1, los
profesores de secundaria son los participantes.
Población objetivo o teórica (p. ej., Muestreo

todos los profesores de secundaria de EE. UU.) Diseño
o
1er paso Selección
Muestra seleccionada N =
100 (p. ej.,
norte = 500
profesores a los que se
Población accesible o marco muestral (p. 2do paso pidió participar en el estudio)
ej.,
todos los profesores de secundaria de 3er paso
un distrito escolar)
Muestra real
N = 75
(p. ej., profesores
que participaron)
Figura 9.1
Diagrama esquemático del proceso de muestreo.
Muestreo e introducción a la validez externa 117
• Población teórica o objetivo: Incluye todos los participantes de interés teórico para el investigador y a los que
le gustaría generalizar. Ejemplos de poblaciones teóricas son los siguientes: todos los profesores de
secundaria
en los Estados Unidos (Figura 9.1), todos los niños de tercer grado en los Estados Unidos, todos
Hombres hispanos en el suroeste, o todas las mujeres mayores de 80 años en el mundo. rara vez es
posible estudiar o incluso muestrear poblaciones objetivo o teóricas tan grandes para
razones tanto económicas como prácticas. Generalmente no tenemos acceso a tan amplio
grupos, especialmente si intentamos observarlos o medirlos en una situación cara a cara. Desafortunadamente,
la población teórica generalmente no se especifica en
artículos de investigación publicados. Hay que inferirlo del contexto y de cualquier generalización hecha en
los resultados y la discusión.
• Población accesible (a veces llamada población de encuesta y frecuentemente

llamado marco muestral): Como su nombre lo indica, la población accesible es la
grupo de participantes al que el investigador tiene acceso, tal vez a través de un directorio telefónico o una
lista de miembros. La población accesible también podría ser un
organización o grupo, como una clase a la que el investigador tiene acceso. Ejemplos
de las poblaciones accesibles podrían ser los alumnos de tercer grado de una escuela o escuela en particular
distrito, hombres hispanos que pertenecen a ciertas organizaciones fraternales en áreas seleccionadas
ciudades del suroeste, o parejas que están en una lista de correo desarrollada por una empresa de marketing
internacional. En la Figura 9.1, la población accesible es toda la escuela secundaria.
docentes del distrito al que tuvo acceso el investigador.
• Muestra seleccionada: este es el grupo más pequeño de participantes seleccionados del grupo más grande.
población accesible por el investigador y solicitada para participar en el estudio. El
La selección se puede realizar de varias maneras diferentes, como se describe en los subtipos.
de muestreo. El punto aquí es que la muestra seleccionada está compuesta por los participantes que el
investigador ha seleccionado, pero no todos en esta muestra necesariamente participan en el estudio. En la
Figura 9.1, la muestra seleccionada son los 100 docentes.
pidió participar en el estudio. En algunos casos, la población accesible puede ser
tan pequeño o definido de manera tan estricta que no es necesario muestrear a los participantes.
Más bien, a cada participante de la población accesible se le pide que participe en la
estudiar. Sin embargo, aunque no se realizó ningún muestreo real, este tipo de muestras seleccionadas
La muestra se llama muestra de conveniencia, a menos que la población accesible sea representativa de la
población teórica.
• Muestra real: Son los participantes que completan el estudio y cuyos datos
en realidad se utilizan en el análisis de los datos y en el informe de los resultados del estudio. El radio
La relación del tamaño de la muestra real con la muestra seleccionada se conoce como tasa de respuesta.
En la Figura 9.1, la muestra real es de 75 docentes y la tasa de respuesta es del 75% (75/100). A
Una tasa de respuesta baja (quizás menos del 50%) generalmente reducirá la calidad de la muestra,
especialmente si las personas que respondieron son diferentes en aspectos importantes de las personas que respondieron.
los que no respondieron. Por lo tanto, al evaluar la investigación es importante conocer
tasa de respuesta y saber si los que respondieron fueron similares a los que no respondieron.
Hay muchas razones por las que los participantes de la muestra seleccionada no terminan en el
datos reales para el estudio. Algunos se niegan a participar, tal vez, al no devolver el
cuestionario del investigador o diciéndole al entrevistador telefónico que no desea
participar. Otros se han mudado o no es posible localizarlos por teléfono. Aún otros
devolver un cuestionario parcialmente completado, proporcionar respuestas que se consideren sospechosas,
o, tal vez, abandonarlo a mitad del estudio.
Pasos para seleccionar una
muestra Hay muchas maneras de seleccionar una muestra de una población. El objetivo es tener una
muestra real que sea representativa de la población objetivo o teórica. Una muestra representativa es una
muestra que representa a la población, es decir, es una pequeña réplica de la población.
Tiene, en todas las variables clave, las mismas proporciones que en toda la población (por ejemplo, 52%
mujeres, 48% hombres). Lo más probable es que se obtenga una muestra representativa utilizando las
técnicas descritas como tipos de muestreo probabilístico.
Obtener una muestra representativa no es fácil porque las cosas pueden salir mal en varios pasos del
proceso de investigación. La Figura 9.1 muestra los conceptos que describimos anteriormente y también los
tres pasos (mostrados con flechas) desde la población teórica hasta la muestra real.
1. El primer paso es de la población teórica a la población accesible. Puede ser que la población
accesible o el marco muestral no sea representativo de la población teórica. Este es un problema
común porque los investigadores a menudo no tienen acceso al rango geográfico, socioeconómico
o de otro tipo de participantes sobre los cuales les gustaría hacer inferencias o generalizaciones. A
menudo, especialmente, si es necesario medir a los participantes a través de un contacto cara a
cara, estamos limitados a una ubicación específica y a grupos que están disponibles para nosotros,
como personas en una determinada escuela, hospital u organización.
2. El segundo paso en el proceso de muestreo se llama diseño de muestreo o selección de

participantes. Este paso, entre la población accesible y la muestra seleccionada, es el que suele
describirse en la sección de métodos de los artículos y es el paso sobre el que el investigador tiene
mayor control. Ampliamos este paso en la siguiente sección, tipos de muestreo.
3. El tercer paso tiene lugar entre la muestra seleccionada y la muestra real. El problema aquí es que
los participantes pueden no responder a la invitación a participar o abandonar el estudio, de modo
que la muestra real puede ser considerablemente más pequeña que la muestra seleccionada; es
decir, hay una tasa de respuesta baja. La muestra real puede no ser representativa de la muestra
seleccionada. Esto suele ser un problema con las encuestas enviadas por correo, especialmente
si la encuesta se envía a personas ocupadas, como los propietarios de pequeñas empresas. En
estos casos se podrá devolver menos del 25% de los cuestionarios.
Por lo tanto, incluso si la muestra seleccionada fuera bastante representativa de la población
teórica, la muestra real puede no ser representativa.
Diseños muestrales El
diseño muestral es el procedimiento o proceso utilizado para seleccionar la muestra. Hay dos tipos generales
de diseño de muestreo: técnicas de muestreo probabilístico y no probabilístico.
El muestreo probabilístico implica la selección de participantes de una manera no sesgada.
En una muestra probabilística, cada participante o elemento de la población tiene una probabilidad conocida
distinta de cero de ser elegido para ser miembro de la muestra.
En el muestreo no probabilístico no hay forma de estimar la probabilidad que tiene cada participante de
ser incluido en la muestra. Por lo tanto, normalmente se introduce un sesgo de muestreo . Las muestras no
probabilísticas se utilizan cuando las muestras probabilísticas, que se basan en una selección aleatoria o
sistemática de participantes, no son factibles. Las ventajas de la no probabilidad
Las muestras son economía y conveniencia. De hecho, la mayoría de los estudios publicados en ciencias sociales y
educación utilizan un muestreo no probabilístico o de toda la población accesible, si es así.
es pequeño. Estas muestras pueden ser útiles para examinar la relación entre variables o
las diferencias entre grupos, pero claramente no son la mejor manera de describir o hacer
generalizaciones sobre toda la población.
Tipos de muestreo probabilístico
Como ya se dijo, en el muestreo probabilístico, cada participante o elemento de la población

tiene una probabilidad conocida, distinta de cero, de ser seleccionado. Cuando se utiliza el muestreo probabilístico, las
estadísticas inferenciales permiten a los investigadores hacer una estimación del grado en que los resultados basados en
en la muestra probablemente difieran de lo que habríamos encontrado al estudiar toda la muestra.

población. A continuación se describen brevemente cuatro tipos de muestreo probabilístico.
Muestreo aleatorio simple
La más conocida y básica de las técnicas de muestreo probabilístico es la muestra aleatoria simple, que puede definirse
como una muestra en la que todos los participantes o elementos tienen
una probabilidad igual e independiente de ser incluido en la muestra. Si ponemos 100 piezas de
papel (numerado del 1 al 100) en un sombrero, agítelo y saque 10, sin reemplazarlos
ellos, esto se aproximaría a una muestra aleatoria simple. En tal muestra cada participante
tiene una posibilidad igual e independiente de ser seleccionado o elegido como una de las 10 personas
que se le solicite participar en el estudio. Este tipo de muestra probabilística producirá una muestra representativa si el
número de participantes seleccionados es relativamente grande. Sin embargo, si el
El número seleccionado es pequeño, como los 10 números extraídos del sombrero, es posible que la muestra no sea
una pequeña réplica de la población total.
En un estudio de investigación real, extraeríamos o seleccionaríamos nuestra muestra aleatoria utilizando un método aleatorio.
tabla numérica o generador informático de números aleatorios en lugar de seleccionar números
de un sombrero. La forma en que esto funcionaría es que todos los posibles participantes en el sistema accesible
La población o marco muestral se enumeraría y numeraría del 1 al 900, suponiendo que
Hay 900 participantes en la población accesible. Luego, si decidiéramos seleccionar una muestra de 90, comenzaríamos
escogiendo de manera no sistemática un punto de partida en la tabla de números aleatorios y procederíamos de manera
sistemática y planificada a lo largo de las filas (o a través de las filas).
columnas) para seleccionar los primeros 90 números no repetidos enumerados en la tabla de números aleatorios.
La tabla 9.1 es un ejemplo de una pequeña parte de una tabla de números aleatorios. (Las tablas completas pueden
se encuentra en la mayoría de los libros de estadística). Para este ejemplo, queremos seleccionar números de 001
Tabla 9.1
Una pequeña sección de una tabla de números aleatorios
55515 81899 04153 79401

46375 81953 etc. etc.
15792 35101
37824 etc.
11508
37449
46515
30986
63798
a 900. Necesitaríamos tres dígitos para poder usar, por ejemplo, las tres columnas de la derecha en el
conjunto de números aleatorios. Digamos que comenzamos eligiendo de manera no sistemática el
número 11508, que está aproximadamente a la mitad del conjunto de números de cinco dígitos de la izquierda.
Los tres dígitos de la derecha son 508, por lo que el primer participante seleccionado sería el número
508, el segundo participante sería el número 449 y el tercero el 515. Sin embargo, omitiríamos el número
986 porque ese número está fuera del rango de 1. a 900 en su marco muestral. Continuaríamos bajando
en la lista omitiendo los números mayores a 900 y cualquiera que ya hubiera sido seleccionado hasta
haber seleccionado 90 de los 900 participantes potenciales originales para esta muestra aleatoria simple.
Aunque la muestra aleatoria simple es el prototipo de un método de muestreo probabilístico, se utiliza

con poca frecuencia, en parte porque puede llevar mucho tiempo numerar la lista completa, si es larga.
Además, muchas veces no existe un listado de la población de interés. Un equivalente más frecuente
del muestreo aleatorio simple es el muestreo sistemático con un inicio aleatorio, que se analiza a
continuación. Para utilizar muestreo aleatorio o muestreo aleatorio sistemático, la población tiene que
ser finita y tiene que haber una lista o directorio de personas en la población.
Muestreo aleatorio sistemático
Para obtener este tipo de muestra, comenzaríamos utilizando la tabla de números aleatorios para
seleccionar un número entre 1 y 10 si, como en el ejemplo anterior, hemos decidido seleccionar una
décima parte de la muestra de la población. Si seleccionamos aleatoriamente a la cuarta persona de la
lista como primer participante, entonces seleccionaríamos sistemáticamente a cada décimo participante,
comenzando por el cuarto. Por lo tanto, la muestra incluiría a la persona 4ª, 14ª, 24ª, 34ª, etc. de la lista
e incluiría 90 participantes. Muchos libros de investigación advierten contra las muestras sistemáticas si
una lista está ordenada de alguna manera, especialmente en un patrón recurrente, que tendrá un efecto
diferencial en la muestra resultante dependiendo de dónde se empezó. Por ejemplo, si tuviéramos una
lista de 90 equipos de fútbol juvenil, cada uno de los cuales tuviera 10 jugadores, y su portero fuera
siempre la cuarta persona en la lista para cada equipo, el ejemplo anterior, comenzando aleatoriamente
con el número cuatro, seleccionaría solo los porteros para este Muestra de 90 personas (o ningún
portero si la salida aleatoria hubiera comenzado con un número diferente). Por lo tanto, debemos
examinar la lista teniendo en cuenta el intervalo (por ejemplo, 10) que se utilizará. Sin embargo, esto
rara vez es un problema y en casi todos los casos una muestra sistemática con un inicio aleatorio
producirá el equivalente de una muestra aleatoria simple.
Muestreo aleatorio estratificado
Los estratos son variables (p. ej., raza, región geográfica, edad, género) que podrían usarse para dividir
la población en segmentos. Si el investigador conoce estas dimensiones y supone que son importantes
para obtener una muestra representativa, los estratos pueden usarse para obtener una muestra aleatoria
estratificada. (Además, se utilizan para especificar las cuotas en una muestra de cuotas).
Por lo tanto, si algunas características importantes de la población accesible o del marco muestral se
conocen de antemano (es decir, se anotan en el marco muestral), entonces podemos reducir la variación
muestral y aumentar la probabilidad de que la muestra sea representativa de la población al estratificar
la muestra sobre la base de estas variables clave. En nuestro ejemplo anterior, supongamos que
queremos estar seguros de que se elija un número representativo de porteros como parte de la muestra.
Utilizaríamos una técnica de muestreo aleatorio estratificado. La lista o marco muestral se reordenaría
de modo que todos los porteros aparecieran juntos, y luego una décima parte de ellos se seleccionaría
al azar usando un
técnica de muestreo aleatorio simple o una técnica de muestreo sistemático con inicio aleatorio. Se podrían utilizar
las mismas técnicas para seleccionar una muestra de cada una de las otras posiciones. La estratificación garantiza
que la muestra contenga exactamente la proporción de porteros (una décima parte) que hay en la población general.
Cuando los participantes están distribuidos geográficamente por todo el país (o un estado), es común estratificar
según la geografía para que proporciones apropiadas de la muestra seleccionada provengan de las diferentes
regiones del país o estado. También es común estratificar según las características rurales, suburbanas y urbanas
de la muestra si éstas son identificables en el marco de muestreo.
Ahora describimos dos tipos más complejos de muestreo. El primero es una variante del procedimiento de
muestreo estratificado que acabamos de describir, y el segundo es un procedimiento de muestreo de múltiples
etapas diseñado para hacer más práctico el muestreo de participantes geográficamente diversos.
Muestreo estratificado con probabilidades diferenciales de selección A

veces el muestreo estratificado dará lugar a uno o más grupos considerables de participantes y uno o más grupos
muy pequeños de participantes. Por ejemplo, si quisiéramos comparar varios grupos étnicos, el número de hispanos,
afroamericanos y especialmente asiáticos americanos y nativos americanos sería bastante pequeño en una muestra
de tamaño moderado que fuera representativa de la población total del país. Si quisiéramos comparar diferentes
grupos étnicos, sería deseable que los grupos fueran iguales o al menos de un tamaño sustancial (tal vez 30 o más).
Por lo tanto, es posible que deseemos sobremuestrear a los miembros del grupo minoritario para tener suficiente en
cada grupo para hacer comparaciones razonables con la muestra caucásica o blanca.
En nuestro ejemplo de los equipos de fútbol, los porteros serían similares a los miembros de grupos étnicos
minoritarios en el sentido de que, si hiciéramos una muestra de una décima parte de los 90 porteros, terminaríamos
con una muestra de sólo nueve porteros, lo cual es demasiado pequeño. para comparaciones razonables con el
grupo de no arqueros. Por ejemplo, podríamos querer tomar una muestra de la mitad de los 90 porteros para obtener
una muestra lo suficientemente grande para comparar.
Sin embargo, debemos ser cautelosos. Si luego sacamos conclusiones sobre una población total de la muestra,
necesitamos hacer ajustes estadísticos por el hecho de que algunos grupos han sido sobremuestreados. Es decir,
si estuviéramos interesados en la coordinación manoojo de los jugadores de fútbol, no podríamos simplemente
tomar el promedio de la coordinación manoojo de los porteros y de los no porteros sobremuestreados. Tendríamos
que ponderar menos a los porteros para que la puntuación promedio general de coordinación no se viera distorsionada
por el hecho de que había cinco veces más porteros en nuestra muestra de los que serían representativos de la
población.
Muestreo por conglomerados
(aleatorio) El muestreo por conglomerados es un procedimiento de muestreo de dos etapas que resulta especialmente
útil cuando la población está dispersa geográficamente o no existe una lista general única de individuos en la
población accesible. Los conglomerados, a veces llamados unidades de muestreo, son colecciones o grupos de
participantes potenciales que no se superponen. Los participantes individuales dentro de un grupo determinado
generalmente están agrupados geográficamente. Los grupos incluyen ciudades, escuelas u hospitales que son
importantes. Para el muestreo de probabilidad de conglomerados, los investigadores necesitan una lista de dichos
conglomerados. La estrategia básica es seleccionar primero conglomerados específicos (grupos de participantes)
utilizando un método de muestreo probabilístico como el muestreo aleatorio simple. Luego, como segunda etapa,
seleccionar a todos o seleccionar aleatoriamente una proporción específica de participantes de los grupos.
Tomemos, por ejemplo, la situación en la que estamos interesados en muestrear una décima parte de los
estudiantes de un número bastante grande de escuelas. La tarea de ir a cada una de, por ejemplo, 150 escuelas y
seleccionar a 1 de cada 10 estudiantes sería difícil en términos de tiempo y
gastos. Una alternativa menos costosa sería seleccionar aleatoriamente 1 de 10 escuelas (es decir, 15) y
luego seleccionar a todos los estudiantes de esas 15 escuelas como la décima muestra. Por supuesto,
existen varias combinaciones de proporciones que se pueden seleccionar en el primer paso y en el segundo
paso. Sin embargo, una estrategia común, como se acaba de describir, es seleccionar al azar suficientes
grupos geográficamente compactos (por ejemplo, escuelas o comunidades) para tener el número necesario
de participantes si se selecciona a todos los estudiantes en los grupos seleccionados y no se los selecciona.
seleccione cualquier estudiante de las otras escuelas. Se sacrifica cierta precisión en el muestreo porque
la muestra de escuelas, incluso si se selecciona aleatoriamente, podría no ser representativa de la población
más grande de escuelas, pero a menudo las consideraciones de costos compensan esta pérdida de
precisión, con suerte menor.
Comentarios finales sobre el muestreo probabilístico La
figura 9.2 proporciona diagramas de los cinco métodos de muestreo probabilístico que acabamos de
describir. Observe que todos ellos implican aleatorización en algún momento del proceso de selección de
participantes. Sin embargo, difieren en si la población accesible está estratificada de alguna manera
(indicada por líneas horizontales) y en qué proporción de un estrato o grupo se selecciona. Los números en
los cuadros representan un único participante potencial y su número de sujeto. Por supuesto, estas
muestras suelen ser mucho más grandes que las que se muestran aquí. Estos diagramas no incluyen todas
las combinaciones posibles de las cuatro estrategias de muestreo principales, pero dan una buena idea de
los métodos utilizados por los investigadores que intentan obtener una muestra representativa y una alta
validez externa poblacional. Con una muestra probabilística, las estadísticas descriptivas de la muestra
también pueden describir la población. Sin embargo, con un muestreo estratificado con diferentes
proporciones, sería necesario ponderar los resultados adecuadamente para describir la población.
Tipos de muestreo no probabilístico Las
muestras no probabilísticas son aquellas en las que se desconoce la probabilidad de ser seleccionado, a
menudo porque no existe un marco muestral o una lista de los miembros de la población accesible. Las
limitaciones de tiempo y costo también llevan a los investigadores y encuestadores a utilizar muestras no
probabilísticas. Aunque las muestras no probabilísticas pueden parecer similares a las muestras
probabilísticas en la demografía de los participantes seleccionados, los resultados pueden distorsionarse
y sin duda se violan los supuestos de la teoría de la probabilidad y el error de muestreo. El primer tipo de
muestreo no probabilístico, el muestreo por cuotas, lo utilizan a menudo los encuestadores de opinión
pública, los encuestadores políticos y los investigadores de mercado porque las muestras resultantes
parecen representativas de la población y el costo de obtener los datos es considerablemente menor de lo
que se requeriría para obtener una muestra. muestra de probabilidad.
Muestreo por
cuotas En el muestreo por cuotas, el investigador establece ciertos parámetros o cuotas que deben seguir
los entrevistadores contratados, pero se permite cierto grado de libertad o discreción en la selección de los
participantes reales. Por ejemplo, se puede dirigir al entrevistador a ciertos códigos postales (o centrales
telefónicas) que pueden haber sido elegidos al azar. Luego se le pide al entrevistador que busque y
entreviste a un cierto número de participantes dentro de cada código postal (o central telefónica). Es posible
que haya más restricciones, como obtener ciertas proporciones de hombres y mujeres o tener participantes
más jóvenes y mayores, pero los participantes reales son seleccionados por el entrevistador porque están
en casa y dispuestos a participar cuando se les pide.
Tipo de grupo estrato, Ejemplo de seleccionado

Muestreo o Clúster Población accesible Muestreo Muestra
12345 678 9 10
1. Sencillo 11 12 13 14 15 16 17 18 19 20 3, 22, 23, 29,
Aleatorio 1 21 22 23 24 25 26 27 28 29 30 10 37, 39, 40, 41,
31 32 33 34 35 36 37 38 39 40 Al azar 45, 50
41 42 43 44 45 46 47 48 49 50
12345 678 9 10
2. sistemático 11 12 13 14 15 16 17 18 19 20 Cada 5 3, 8, 13, 18, 23,
(Inicio aleatorio) 1 21 22 23 24 25 26 27 28 29 30 después 28, 33, 38, 43,
31 32 33 34 35 36 37 38 39 40 Aleatorio 48
41 42 43 44 45 46 47 48 49 50 comenzar
1 12345 678 9 10 4 al azar 1, 7

3. Estratificado 11 12 13 14 15 16 17 18 19 20 12, 13
Aleatorio (igual 21 22 23 24 25 26 27 28 29 30 21, 22
dimensiones) 2 31 32 33 34 35 36 37 38 39 40 6 al azar 23, 30,
(20 en 1ª región, 41 42 43 44 45 46 47 48 49 50 32, 35
30 en 2do)
Seleccione aleatoriamente de cada estrato; por ejemplo, región del estado.
12345 678 9 10
1 11 12 13 14 15 16 17 18 19 20 3, 22, 23,
3a. estratificado 5 al azar 29, 37
Aleatorio (con 21 22 23 24 25 26 27 28 29 30
diferente 31 32 33 34 35 36 37 38 39 40 41, 43, 44,
2 41 42 43 44 45 46 47 48 49 50 5 al azar 47, 50
dimensiones)
Seleccione 5 de cada uno del grupo grande (p. ej., caucásicos) y 5 del grupo
el grupo pequeño (por ejemplo, los nativos americanos).
1 12345 678 9 10
4. Clúster 2 11 12 13 14 15 16 17 18 19 20 11, 12, 13, 14,
(Selección aleatoria 3 21 22 23 24 25 26 27 28 29 30 Todo
15, 16, 17, 18,
de Clústeres) 4 31 32 33 34 35 36 37 38 39 40 19, 20
5 41 42 43 44 45 46 47 48 49 50
Seleccione aleatoriamente el grupo (p. ej., 2) y luego muestree todos los

participantes en ese grupo (por ejemplo, escuela, ciudad).
Figura 9.2
Diagramas esquemáticos de cinco métodos de muestreo probabilístico para una muestra de 10 de una población accesible de 50.
La técnica ahorra dinero en parte porque los participantes que no están disponibles no están
devolvió la llamada. Un problema es que las personas que no están mucho en casa o no contestan el teléfono
están subrepresentados. Además, en las encuestas casa por casa, el entrevistador puede estar
tentado a saltarse ciertos hogares, por ejemplo, los que están ubicados en los pisos superiores,
que se encuentren en estado ruinoso, o que tengan un perro ladrando.
Muestra deliberada
Este tipo de muestreo parece resultar especialmente confuso para estudiantes y nuevos investigadores.
porque el término es similar al muestreo intencionado, que es un término utilizado en el ámbito cualitativo.
investigación. Sin embargo, en la investigación por encuestas cuantitativas , el término muestreo

intencional significa que los participantes son seleccionados cuidadosamente de la población accesible
para que presumiblemente sean representativos o típicos de la población. Esta técnica es a veces
utilizada por encuestadores políticos que tienen información sobre elecciones anteriores que indica qué
distritos electorales parecen ser típicos al pronosticar cómo votará la gente en entidades más grandes,
como el estado. Luego, el entrevistador encuesta a la gente de ese distrito para hacer extrapolaciones y
generalizaciones sobre la unidad más grande.
Una muestra intencional se parece mucho a una muestra por cuotas en el sentido de que uno debe
poder identificar varias características clave de la población. Tomemos como ejemplo la muestra del
fútbol: si quisiéramos saber cómo los jugadores evalúan la imparcialidad o la calidad de los árbitros,
podríamos seleccionar intencionalmente jugadores que estuvieran en equipos que estuvieran en el
promedio en términos de victorias, derrotas y goles. O podríamos seleccionar algunos jugadores a los
que les fue bien en términos de competencia, a algunos les fue promedio y a otros les fue mal. Como
otro ejemplo, tal vez se podría pedir a los profesores que seleccionaran a los niños que consideraran representativos de
Sin embargo, a menos que se dieran instrucciones más detalladas, podría resultar que los maestros
tiendan a seleccionar niños que, tal vez inconscientemente, sintieron que harían que ellos o la escuela
quedaran bien en lugar de seleccionar niños representativos.
No lo consideraríamos un muestreo intencional si se pidiera a los maestros que identificaran a los
niños con, por ejemplo, dislexia, o si a una agencia de servicios sociales se le pidiera que identificara a
los cuidadores familiares de pacientes con Alzheimer en sus expedientes. Seleccionar estos grupos
específicos es similar a lo que se llama selección o uso de criterios de inclusión o exclusión. A veces los
investigadores excluyen los hogares que no tienen participantes de los tipos deseados. El muestreo sería
intencional sólo si, dado que los niños disléxicos (o los cuidadores familiares de pacientes con Alzheimer)
eran la población de interés, se intentara seleccionar casos típicos o representativos de esa población.
Además, si la selección de los participantes con los que se contactará se realiza utilizando técnicas de
probabilidad como la marcación aleatoria de dígitos, y descartamos a los participantes que no cumplen
con los criterios de selección, aún así terminaríamos con una muestra probabilística. Sin embargo, si
seleccionamos casos de la población accesible de manera intencionada, no aleatoria o sistemática, la
muestra resultante será una muestra no probabilística. Al igual que el muestreo por cuotas, el muestreo
intencional es un intento de hacer que la muestra sea representativa de la población, pero probablemente
no logrará el objetivo de una representatividad completa.
Una muestra intencional se diferencia de una muestra por conveniencia en que al menos se ha
intentado seleccionar a los participantes de modo que sean representativos de esa población accesible,
no sólo de aquellos que son convenientes y están disponibles.
Muestreo intencionado
Este es el término utilizado en la investigación cualitativa para los tipos de muestreo que se realizan con
frecuencia. La idea es seleccionar intencional o deliberadamente individuos (o documentos, eventos o
entornos) para que ayuden mejor al investigador a comprender el problema de investigación. ¿Cómo
decide o sabe el investigador si la muestra es la mejor para ayudar a comprender el problema o pregunta
de investigación? Los investigadores cualitativos afirman que seleccionan cuidadosamente a los
participantes que son "ricos en información". En la literatura cualitativa se han utilizado una serie de
estrategias para seleccionar intencionalmente a los participantes y los sitios de investigación. Estas
estrategias varían ampliamente desde el muestreo de variación máxima, destinado a obtener múltiples
perspectivas sobre el tema, hasta el muestreo de casos extremos o desviados, destinado a estudiar
ejemplos particularmente problemáticos o esclarecedores. Este tipo de muestreo intencionado, al igual
que el muestreo intencional y por cuotas, intenta identificar participantes que se ajusten a ciertos criterios.
Muestreo de conveniencia
Desafortunadamente, este es probablemente el método de muestreo más común utilizado en proyectos de

estudiantes, incluidas tesis y disertaciones. Además, suele ser utilizado por investigadores en estudios experimentales
de laboratorio y por investigadores con recursos limitados disponibles para el muestreo.
Como su nombre lo indica, los participantes son seleccionados por conveniencia más que por
hacer un intento serio de antemano por seleccionar participantes que sean representativos de la
población teórica. Ejemplos de muestreo por conveniencia o accidental son los siguientes:
uso de estudiantes en la propia clase, el uso de transeúntes en un punto determinado (por ejemplo, el centro de
estudiantes, un centro comercial), miembros de ciertos clubes o grupos religiosos, profesores voluntarios o estudiantes en
una escuela, o empleados de una empresa que estén dispuestos a cooperar. Investigadores
Más tarde puede examinar las características demográficas de su muestra de conveniencia y concluir que los
participantes son similares a los de la población más grande. Esto no significa
que la muestra es, de hecho, representativa, pero sí indica un intento por parte del investigador,
al menos a posteriori, para comprobar la representatividad.
Hay dos formas de utilizar el término muestra de conveniencia. Primero, siempre que el
la población accesible no es representativa de la población teórica (paso 1 en la Figura 9.1),
el resultado se llama muestra de conveniencia, incluso si todos los miembros de la clase, club o clínica
fue evaluado. En segundo lugar, la muestra también es de conveniencia si los participantes son voluntarios o
seleccionados (paso 2) de la población de manera no probabilística, como se describe en
el párrafo anterior.
Muestreo de bola de nieve
El muestreo de bola de nieve es una modificación del muestreo por conveniencia o accidental que se utiliza
cuando los participantes de interés provienen de una población que es rara o al menos cuyos miembros son
desconocidos para usted. Estas podrían ser personas con atributos, creencias o creencias inusuales.
patrones de comportamiento y que no pertenecen a grupos conocidos con listas identificables de miembros, por
ejemplo, drogadictos autocurados. Lo que se hace es encontrar unos cuantos participantes que
cumplir con las características y luego pedirles referencias o nombres de otras personas que
Quizás sepas quiénes encajan en la misma categoría. Luego, a estas otras personas se les pide referencias
adicionales y así sucesivamente; de ahí el nombre de muestreo de bola de nieve. Se trata claramente de una
muestra por conveniencia o accidental. Los constructivistas/constructivistas a veces utilizan un muestreo similar a éste.
investigadores cualitativos.
¿Por qué se utilizan con tanta frecuencia muestras no probabilísticas?
Además de las ventajas de costo y eficiencia de tiempo ya mencionadas, aparecen

otras razones para utilizar muestras no probabilísticas. En primer lugar, puede que no sea posible hacer una
muestra probabilística de los participantes. Esto es cierto para los estudiantes investigadores y otras personas en
presupuestos limitados que no pueden afrontar los costos de comprar una lista de correo o franqueo o de
viajar para entrevistar a participantes geográficamente diversos.
Quizás lo más importante es que algunos investigadores, especialmente aquellos que utilizan diseños
experimentales y de laboratorio controlados, no están interesados principalmente en hacer inferencias sobre
la población a partir de datos descriptivos, como es el caso en la investigación por encuestas. Estos investigadores
están más interesados en si el tratamiento experimental tiene un efecto sobre la variable dependiente, y suponen
que si el tratamiento es potente, el efecto se mostrará.
en muchos tipos de participantes. De hecho, el uso de animales no humanos en medicina y
La investigación conductual supone que podemos generalizar algunos tipos de resultados a los humanos a partir de
otras especies.
En otros tipos de investigación, el investigador está interesado principalmente en la relación entre

variables y puede suponer que la relación se mantendrá en una amplia variedad de participantes humanos.
Así, algunos dicen, quizás de manera inapropiada, que no es necesario tener una muestra representativa
de la población para hacer afirmaciones generalizables sobre la relación entre dos o más variables.
Implícitamente, muchos investigadores parecen creer que la validez poblacional externa (que se analiza
más adelante en este capítulo), que está directamente relacionada con la representatividad de la muestra,
es menos importante que la validez interna, como se analiza en el Capítulo 8.
Aspectos de un estudio que conducen a una muestra no representativa A
modo de resumen, nos gustaría describir algunas de las cosas que conducen a una muestra que no es
representativa de la población objetivo.
1. Primero, se selecciona una población accesible o un marco muestral (paso 1 en la Figura 9.1)
que no es representativo de la población objetivo o teórica, pero se elige por su conveniencia.
Con este tipo de población accesible, por ejemplo, escuelas en una determinada ciudad en una
parte no representativa del país, la muestra no sería representativa de la población teórica
incluso si se eligiera aleatoriamente de esta población accesible.
2. Por supuesto, la forma obvia de obtener una muestra no representativa es utilizar un diseño o
método de muestreo no probabilístico (paso 2). Si a los participantes de una población accesible,
como una escuela o una clínica, se les pide o se les permite ser voluntarios (autoseleccionados)
para participar en el estudio, se obtendrá una muestra no representativa (de conveniencia).
Lamentablemente, este tipo de muestra no representativa es común.
3. Si hay una tasa de respuesta baja (paso 3), es probable que la representatividad de la muestra
se vea comprometida. La tasa de respuesta es el número de personas entrevistadas o que
respondieron dividido por el número total de personas de la muestra. Este denominador incluye
a todas las personas que fueron seleccionadas pero que no respondieron por diversas razones:
negativas, problemas de idioma, enfermedad o falta de disponibilidad. Sin embargo, normalmente
la tasa de respuesta no incluye a aquellos que fueron excluidos porque (a) no cumplían con los
criterios de exclusión; (b) no tenía un teléfono que funcionara; (c) o cuyo cuestionario fue
devuelto porque no era entregable. El efecto de la falta de respuesta en los resultados de la
encuesta depende tanto del porcentaje de personas que no responden como del grado en que
aquellos que no respondieron están sesgados de alguna manera, es decir, diferentes del resto
de la muestra. quien sí respondió.
4. El desgaste (después del paso 3), a veces llamado mortalidad experimental, ocurre cuando los
participantes seleccionados inicialmente aceptan participar pero luego abandonan durante el
estudio. Un alto desgaste de toda la muestra producirá un problema para la representatividad de
la muestra. Además, si la deserción es alta para ciertos grupos pero no para otros, puede
producir una muestra no representativa. Por ejemplo, si una intervención resulta desagradable o
irritante para los hombres pero no para las mujeres, podría haber un porcentaje mucho mayor
de hombres que abandonarían durante el estudio y, por lo tanto, conduciría a una muestra
sesgada de hombres, incluso si todo hasta ese momento se había basado en un muestreo
probabilístico. El desgaste también produce un problema de muestreo si los participantes en un
grupo de control con placebo abandonan porque perciben que no se están beneficiando del
estudio o, por el contrario, si los participantes en el grupo experimental experimentan efectos
secundarios negativos de la intervención y Abandonar.
¿Cuántos participantes?
Una de las preguntas más frecuentes es: "¿Cuántos participantes necesito para este estudio?"
La respuesta puede ser bastante compleja, pero aquí damos algunas pautas generales. una parte de
la respuesta depende de a quién le preguntes y de qué disciplina vengan. Nacional
Las encuestas de opinión casi siempre tienen alrededor de mil participantes, mientras que las sociológicas
y los estudios epidemiológicos suelen tener al menos varios cientos de participantes. Sobre el
Por otro lado, son comunes los experimentos psicológicos y ensayos clínicos en medicina con 10 a 20 participantes por
grupo , y en algunas áreas clínicas y educativas, de un solo sujeto.
A menudo se utilizan diseños. Hasta cierto punto, estas dramáticas diferencias en el tamaño de las muestras dependen
en diferencias en tipos de diseños, medidas y análisis estadísticos, pero también parecen
basarse en buena parte en la costumbre.
Algunos autores sugieren que la muestra sea tan grande como sea factible para los investigadores y
su presupuesto. En igualdad de condiciones, es cierto que una muestra más grande tendrá más probabilidades de
detectar una diferencia o relación significativa y conducir al rechazo de la hipótesis nula. Sin embargo, cabe señalar dos
puntos.
Primero, la representatividad es una consideración más importante que el tamaño de la muestra. Si la muestra es
Aunque no es representativo de la población, puede ser enorme y aun así dar resultados engañosos. Para
Por ejemplo, recuerde que hubo 2,5 millones de encuestados en la encuesta del Literary Digest de 1936.
que predijo la derrota de Roosevelt en lugar de su aplastante victoria.
En segundo lugar, muestras muy grandes detectarán diferencias o relaciones que pueden tener poca
importancia práctica o social (ver Capítulo 17). Si intentamos describir una población
Con una estadística como la media o el porcentaje, queremos ser lo más precisos posible. En
En ese caso, una muestra grande (generalmente >500), si se extrae adecuadamente, reducirá el tiempo de muestreo.
error. Sin embargo, en la mayoría de las investigaciones en ciencias sociales y educación no estamos interesados en
describiendo la población. Más bien, queremos identificar los factores clave que pueden influir
la variable dependiente o ayudarnos a predecirla. Tenemos relativamente menos interés en encontrar factores que
representen porcentajes muy pequeños de la varianza. Así, en cierto modo, una gran
La muestra puede ser perjudicial para identificar resultados importantes. Por ejemplo, con 500 participantes, una gran
proporción de correlaciones probablemente serán estadísticamente significativamente diferentes de cero, pero algunas de
ellas pueden representar menos del 1% de la varianza y, por lo tanto, no ser válidas.
de mucha importancia práctica.
Por lo tanto, el tamaño de la muestra debe ser lo suficientemente grande como para que no se dejen de detectar
hallazgos importantes porque la muestra sea demasiado pequeña, pero una muestra grande no necesariamente lo hará.
ayudan a distinguir entre los hallazgos meramente estadísticamente significativos y los prácticamente o clínicamente
importantes . Este punto clave plantea la cuestión del poder estadístico que discutimos
con mayor profundidad en capítulos posteriores.
Por ahora sólo mencionamos una pauta que históricamente se había utilizado: Un estudio debe
incluir un mínimo de 30 participantes. Así, para diseños asociativos (un grupo), uno
Podría tener tan solo 30 participantes, pero para diseños comparativos, cuasiexperimentales y experimentales uno debería
tener un total de 30 participantes. El fundamento fue que una distribución de la variable dependiente con al menos 30
participantes era una buena aproximación de la
curva normal. Sin embargo, un total de 30 participantes en un estudio con al menos dos grupos no es
generalmente lo suficientemente grande como para producir la potencia deseada (rechace la hipótesis nula cuando debería
ser rechazado).
En el Capítulo 16, abordamos el tema del poder y cómo calcularlo, que es la forma técnicamente correcta de planificar
con anticipación cuántos participantes se necesitan para detectar un
resultado de un cierto tamaño del efecto. Hay varios libros clásicos sobre cómo determinar la
potencia necesaria según el tamaño de la muestra y el tamaño del efecto. Kraemer y Thiemann (1987),
en Cuántos sujetos, proporciona una manera relativamente fácil de encontrar el tamaño de muestra necesario.
Cohen (1988), en Statistical Power Analysis for the Behavioral Sciences, es un libro de referencia estándar incluso
hoy en día.
Validez externa En este
capítulo y en varios siguientes discutiremos nuevamente aspectos de la validez de la investigación, la validez o

calidad de un estudio completo. En el Capítulo 8, introdujimos la validez interna, la validez relacionada con el
diseño del estudio. La validez de la investigación también depende del muestreo. Ahora analizamos la validez
externa, un aspecto de la validez de la investigación que depende en parte de la calidad de la muestra.
La validez externa tiene que ver con la generalización, es decir, el grado en que las muestras, los entornos, las
variables de tratamiento y las variables de medición pueden generalizarse más allá del estudio. La validez externa
no depende de la validez interna. Por ejemplo, se podría sugerir que debido a que el estudio tuvo una validez
interna deficiente (un diseño débil), la validez externa también debe ser deficiente. Sin embargo, la validez externa
debe juzgarse por separado, antes del hecho, y no basarse en la validez interna.
Evaluación de la validez externa Las
preguntas relacionadas con la validez externa de un estudio se basan en el principio de que un buen estudio debe
tener una calificación alta en cuanto a validez externa o, si no, el autor debe al menos ser cauteloso a la hora de
generalizar los hallazgos a otras medidas, poblaciones. y configuración.
La Figura 9.3 proporciona escalas para calificar cada uno de los dos aspectos principales de la validez externa: la
validez externa poblacional y la validez externa ecológica.
Validez externa de la población Este
primer aspecto de la validez externa es un problema de selección que involucra cómo se seleccionaron los
participantes para participar en el estudio. ¿Los participantes fueron seleccionados al azar de una población
particular o fueron una muestra de conveniencia? Como se analizó anteriormente en este capítulo, la mayoría de
los estudios cuantitativos en las ciencias sociales no han utilizado la selección aleatoria de participantes y, por lo
tanto, no tienen una alta validez externa poblacional. Sin embargo, la cuestión de la validez externa de la población
es incluso más compleja que una evaluación del diseño muestral (es decir, va más allá del paso 2, cómo se
seleccionó la muestra de la población accesible).
La pregunta importante es si la muestra real de participantes es representativa de la población teórica o objetivo.
Para evaluar esta pregunta, es útil identificar (1) la población teórica aparente; (2) población accesible; (3) diseño
de muestreo y muestra seleccionada; y (4) muestra real de participantes que completaron su participación en el
estudio. Es posible que el investigador pueda utilizar un diseño de muestreo aleatorio o probabilístico pero tenga
una muestra real que no sea representativa de la población teórica, debido a una baja tasa de respuesta o a que
la población accesible no sea representativa de la población teórica. Este último problema parece casi universal,
en parte debido a las limitaciones de financiación y viajes. Excepto en las investigaciones mediante encuestas
nacionales, casi siempre comenzamos con una población accesible de, por ejemplo, el distrito escolar, la
comunidad, la clínica o la colonia de animales local.
VALIDEZ EXTERNA
Población
Calificación basada en:
1)Representatividad de la población accesible frente a la población teórica

2) Adecuación del método de muestreo de la población accesible
3) Respuesta de adecuación/tasa de retorno
BAJO MEDIO ALTO
Muestra real no representativa de la Algunos intentan obtener una Muestra real representativa de la
población teórica. buena muestra. población teórica.
Ecológico
Calificación base en:
1) Naturalidad del entorno/condiciones

2) Adecuación de la relación con los evaluadores/observadores
3) Naturalidad de los procedimientos/tareas

4) Adecuación del momento y duración del tratamiento.
5) Grado en el que los resultados se restringen a un momento específico de la historia
BAJO MEDIO ALTO
Entorno, probador, Algo artificial Entorno natural, probador,

procedimientos y tiempo antinaturales. (por ejemplo, cuestionario) procedimientos y tiempo.
Figura 9.3
Evaluar la validez externa de los hallazgos de un estudio.
Validez externa ecológica Un
segundo aspecto de la validez externa se llama validez ecológica. Tiene que ver con si las condiciones,
entornos, tiempos, probadores o procedimientos son representativos de las condiciones naturales,
etc. y, por lo tanto, si los resultados pueden generalizarse a resultados de la vida real.
Obviamente, es más probable que la investigación de campo tenga una mayor validez ecológica
externa que los procedimientos de laboratorio, especialmente si son altamente artificiales. Calificaríamos
que la mayoría de las medidas de autoinforme, especialmente los cuestionarios, son algo artificiales
porque no son medidas directas del comportamiento real de los participantes en un entorno típico.
Por ejemplo, habría un problema con la validez ecológica si se hicieran pruebas de miedo a los
extraños a bebés de 6 a 12 meses en un entorno antinatural, como la sala de juegos de un laboratorio,
con un extraño que se acercaba y recogía al bebé en una serie corta. de pasos predeterminados. En
nombre del control experimental, no se puede intentar que la conducta del extraño dependa de la del
bebé. Este procedimiento, e incluso la existencia de miedo a los extraños, podrían ser cuestionados
por investigadores que podrían demostrar que un acercamiento más lento y “natural” por parte de una
mujer desconocida casi no produciría llanto ni intentos de alejarse del extraño. Por supuesto, los
determinantes del miedo infantil son complejos, pero el punto clave aquí es que los estudios en un
entorno de laboratorio controlado suelen tener poca validez ecológica. Los investigadores de laboratorio
suelen intercambiar validez ecológica
para un mejor control de las variables ambientales e independientes. Es decir, intentan potenciar la validez
interna.
Como otro ejemplo de un problema de validez ecológica, si un educador está interesado en el efecto de
un estilo de enseñanza particular en la participación de los estudiantes, el aula debe ser similar a la de un
aula normal. De manera similar, si el investigador pidió a los estudiantes que vinieran por la noche para el
estudio, pero estos estudiantes normalmente asistían a clase durante el día, entonces hay un problema con
la validez ecológica externa. El investigador debe preguntar si se utilizó algún método representativo para
la selección del entorno y el momento. ¿O se utilizó un método de conveniencia?
Para una alta validez ecológica, una intervención debe ser realizada por un interventor culturalmente
apropiado (maestro, terapeuta o evaluador). Y debería durar un tiempo adecuado, teniendo en cuenta el
uso previsto de la intervención.
Finalmente, está la cuestión de si el estudio es específico/está vinculado a un período de tiempo
determinado o si los resultados serán aplicables a lo largo de varios años. Las actitudes sobre ciertos temas
(por ejemplo, los vales escolares) pueden cambiar en un número relativamente corto de años, de modo que
los resultados pueden no ser generalizables incluso unos pocos años después del estudio.
Muestreo y validez interna y externa de un estudio Discutimos la validez interna y
externa de un estudio y observamos que la validez externa está influenciada por la representatividad de la
muestra. Gran parte de este capítulo ha tratado sobre cómo obtener una muestra representativa y qué
problemas pueden surgir en el proceso de muestreo. La Figura 9.4 es similar a la Figura 9.1, pero la amplía
en el lado derecho para mostrar cómo se podría dividir la muestra real en tres grupos. La forma en que se
hace esto (al azar o no) afecta la validez interna de un estudio, pero no afecta directamente la validez
externa, el diseño muestral o el tipo de muestreo. Por lo tanto, un estudio, como ocurre con muchos
experimentos aleatorios, puede tener una pequeña muestra de conveniencia y aun así tener una alta validez
interna porque la asignación aleatoria de participantes a grupos elimina muchas amenazas a la validez
interna.
La figura 9.4 es un diagrama esquemático que amplía la figura 9.1 para mostrar cómo la asignación y la
selección tienen efectos diferentes sobre la validez interna y externa, aunque ambas se realizan con un
procedimiento aleatorio. La selección aleatoria, o muestreo de a quién se le pide participar en el estudio,
es importante para una alta validez externa. Por otro lado, la asignación aleatoria o la colocación de los
participantes en grupos es importante para lograr una alta validez interna.
Esta distinción, que a menudo se confunde o se malinterpreta, es importante en términos de evaluar la
calidad de un estudio de investigación y su validez interna y externa.
El muestreo
resumido es el proceso de seleccionar parte de un grupo más grande (la población accesible) con la
intención de generalizar desde el grupo más pequeño (la muestra) a la población.
Identificamos dos tipos de población (teórica o objetivo versus accesible) y discutimos las dificultades para
obtener una población accesible que sea representativa de la población teórica de interés. El muestreo (el
diseño de muestreo) es el método utilizado para seleccionar participantes potenciales (la muestra
seleccionada) de la población accesible. Varios
Diseño de muestreo
o
Selección
Población objetivo o teórica
SELECCIONADO
Muestra
Asignación
a grupos
norte = 100
norte = 500 Grupo 1

norte = 25
Población accesible o marco Actual

GRUPO 2
muestral Muestra norte = 25
norte = 75
GRUPO 3
norte = 25
Validez de la población externa Un aspecto de la validez interna (la

depende del diseño de muestreo igualdad inicial de los grupos en
características de los participantes) depende en
parte sobre cómo los sujetos se agrupan
• Alto = Muestreo probabilístico, por ejemplo, • Alto = Asignación aleatoria

aleatorio simple •
• Inferior = Grupos ya intactos o
Alto = Selecciona el conjunto grupos basados en atributos
población (pero ¿es realmente
la población de interés?) • Mínimo = basado en autoasignaciones
sobre el conocimiento de la
• Inferior = Sin probabilidad
variable independiente
muestreo, por ejemplo, conveniencia
o intencional
Figura 9.4
Muestreo aleatorio versus asignación aleatoria a grupos y sus relaciones con factores externos e internos.
validez.
se discutieron buenos diseños de muestreo (muestreo probabilístico); estos incluyen muestreo aleatorio simple,
sistemático con inicio aleatorio, estratificado y por conglomerados. Varios comunes pero
También se describieron métodos de muestreo menos deseables (por cuotas, intencionales y de conveniencia).
Finalmente, discutimos la validez externa y cómo evaluar dos de sus componentes principales,
validez externa poblacional y validez externa ecológica. La selección aleatoria de participantes es útil para
producir una alta validez externa poblacional, mientras que la asignación aleatoria
de los participantes a los grupos es importante para una alta validez interna.
Conceptos clave
Desgaste
Clústeres
Validez externa
Participantes, casos o elementos
Población
Muestra representativa
Tasa de respuesta
Muestreo
Diseño de muestreo
Estratos
Distinciones clave
Validez externa versus validez interna

Población versus muestra
Validez externa poblacional versus validez externa ecológica
Muestreo probabilístico versus muestreo no probabilístico
Muestreo intencional versus muestreo intencionado
Muestreo por cuotas versus muestreo por conveniencia
Muestreo aleatorio versus asignación aleatoria
Muestra seleccionada versus muestra real
Muestreo aleatorio simple versus aleatorio sistemático versus aleatorio estratificado versus muestreo por
conglomerados (aleatorio)
Muestreo estratificado con proporciones iguales versus diferenciales
Población objetivo o teórica versus población accesible
Términos diferentes para conceptos similares
Población accesible ≈ población

Muestra real ≈ muestra
Participantes ≈ casos ≈ elementos
Muestreo probabilístico ≈ muestreo representativo
Diseño muestral ≈ muestreo ≈ selección de muestra
Población teórica ≈ población objetivo
1. Un investigador distribuyó cuestionarios (encuestas) a todos los empleados de una agencia municipal para
obtener retroalimentación sobre sus trabajos en esta agencia en particular. De 720 cuestionarios distribuidos,
se devolvieron 605 encuestas completas y utilizables. En este proyecto ¿cuál fue (a) la población objetivo?;
(b) ¿la población accesible?; (c) ¿la muestra seleccionada?; y (d) la tasa de respuesta? ¿Se realizó algún
muestreo? Evaluar la validez de la población externa en general.
2. La agencia municipal de Fort Choice estaba interesada en los comentarios de los empleados. Se tomó la
decisión de encuestar a una muestra representativa de empleados. Las unidades que componían la
agencia variaban desde unidades muy pequeñas, de 14 a 18 empleados, hasta unidades bastante grandes
de más de 100 empleados. Los investigadores querían estar seguros de que todas las unidades estuvieran
representadas en proporción a su tamaño en la encuesta. ¿Qué tipo de enfoque de muestreo podrían utilizar?
3. La oficina de envejecimiento del condado está interesada en las necesidades percibidas de los adultos
mayores en su área de servicio. Está prevista una encuesta telefónica. A partir de las listas de registro de
votantes se genera una muestra aleatoria sistemática de 25% de adultos mayores con fechas de nacimiento
anteriores a 1938. Describa cómo se haría esto y luego discuta las fortalezas y debilidades de la validez
externa de este enfoque.
4. Un investigador está interesado en estudiar las reacciones de hombres y mujeres ante una situación violenta.
Programa policial en la televisión nacional.
a. Describa una técnica de muestreo probabilístico apropiada que podría utilizar. b. ¿Cuáles son
algunos de los problemas que podrían afectar la validez externa?
5. Un investigador tiene un presupuesto de investigación limitado, por lo que decide observar sólo las escuelas
secundarias dentro de una comunidad del Medio Oeste de 50.000 personas. Hay tres escuelas secundarias.
Hace una lista de todos los estudiantes de cada grado (8º a 12º).
Muestra aleatoriamente a 10 estudiantes de cada uno de los niveles de grado en cada escuela (150
estudiantes en total). Nombra y critica el muestreo utilizado en este estudio.
6. Un investigador decide realizar un estudio experimental de laboratorio sobre la privación de sueño y el

rendimiento en matemáticas. Asigna aleatoriamente a los estudiantes de su muestra de conveniencia a dos
grupos. A un grupo lo mantienen despierto toda la noche y le hacen un examen de matemáticas por la
mañana. Al otro grupo se le permite dormir todo el tiempo que quiera antes de tomar el examen de
matemáticas por la mañana. Critique este estudio sobre la base de su validez ecológica.
7. El Dr. G. está evaluando una importante subvención gubernamental. El propósito de la subvención es revisar
cómo se imparten los cursos de educación en matemáticas y ciencias a nivel de colegios comunitarios y
universidades. Hay 20 colegios comunitarios y 10 universidades involucradas en la subvención, cada una
con un curso de educación científica. Describa cómo llevaría a cabo el procedimiento para una muestra del
50%: a. muestra aleatoria simple. b. muestra aleatoria estratificada. C.
muestra de conglomerados.
10
Medición y Estadística Descriptiva
Este capítulo se centra en la medición, que proporciona reglas sobre la asignación de números y
símbolos a los niveles de variables, y en la estadística descriptiva, que resume y describe datos de
una muestra sin hacer inferencias sobre la población más grande de la que se extrajeron los datos de
la muestra. Comenzamos brindando una breve descripción general sobre la curva normal o en forma
de campana. Como verá a lo largo del capítulo y en capítulos posteriores, a la hora de seleccionar las
estadísticas apropiadas es importante que las respuestas o puntuaciones de una variable se
distribuyan normalmente. Por lo tanto, comprender lo que se entiende por datos normalmente
distribuidos (o normales) es importante para la medición y para el uso de estadísticas y gráficos
descriptivos apropiados.
Descripción general de la curva normal
La figura 10.1 es un ejemplo de una curva normal. La curva normal, que a menudo se denomina curva
en forma de campana, se derivó teóricamente mediante el uso de cálculo. La curva es una distribución
de frecuencia idealizada, con el eje horizontal ( eje x) debajo de la curva que representa puntuaciones
o respuestas en una variable ordenada que varía desde muy bajo (–3), pasando por el promedio (0),
hasta muy alto (+3). . El eje vertical ( eje y) o altura de la curva representa el número de participantes
que tuvieron una puntuación o respuesta particular. La curva normal proporciona un modelo para el
ajuste de las distribuciones de muchas de las variables dependientes utilizadas en las ciencias del
comportamiento. Ejemplos de tales variables son la altura, el peso, el coeficiente intelectual y muchas
otras variables psicológicas. Observe que para cada uno de estos ejemplos, la mayoría de las
personas de la población caerían hacia la mitad de la curva, con menos personas en cada extremo.
Si la altura media o promedio de los hombres en los Estados Unidos fuera 5'10”, el número de
hombres que midieran 5'10” se mostraría mediante la joroba que se muestra en el medio de la curva.
El número de hombres que miden más de 5'10” se mostraría mediante las alturas de la curva a la
derecha del centro, y estos números disminuirían a medida que aumenta la altura. Por eso, muy
pocos hombres medirían 7 pies de altura o más. Por el contrario, los números en cada altura inferior
a 5'10” se mostrarían a la izquierda del medio y disminuirían con pocos hombres de menos de 5 pies de altura.
Discutimos propiedades adicionales de la curva normal y su importancia para comprender
estadísticas permanentes más adelante en este capítulo.
Medición
La medición es la asignación de números o símbolos a los diferentes niveles o valores de variables

según reglas. Para entender las variables es importante conocer su nivel.
135
68%
95%
99%
z –3 –2 –1 0 1 2 3
Figura 10.1
Distribución de frecuencia y distribución de probabilidad de la curva normal.
de medición. Dependiendo del nivel de medición de una variable, los datos pueden significar
cosas diferentes. Por ejemplo, el número 2 podría indicar una puntuación de dos; podría indicar
que el participante era un hombre; o podría indicar que el participante ocupó el segundo lugar
en la clase. Para ayudar a comprender estas diferencias, se describen los tipos o niveles de medición de
Se han identificado variables. Es común y tradicional discutir cuatro niveles o escalas.
de medición (nominal, ordinal, intervalo y relación), que varían desde el nivel desordenado más bajo (nominal) hasta
el nivel más alto (relación).1
Los niveles o escalas de medida tradicionales
Escalas/Variables Nominales
Este es el nivel más bajo o más básico de medición en el que los números asignados a
cada categoría mutuamente excluyente representa el nombre de la categoría pero no tiene ningún orden o valor
implícito .
Escalas/variables ordinales (es decir, escalas de intervalos desiguales)
En las escalas ordinales no sólo hay categorías mutuamente excluyentes, como en las escalas nominales, sino que
Además, las categorías están ordenadas de menor a mayor de la misma manera que uno lo haría
clasificar el orden en el que los caballos terminaron una carrera (es decir, primero, segundo, tercero,... último). En la
definición tradicional de escala ordinal, se conoce el orden de menor a mayor (o más
preferido) en una dimensión, pero los intervalos entre los distintos rangos no son iguales. Para
Por ejemplo, el caballo en segundo lugar puede terminar muy por detrás del ganador, pero sólo una fracción de
un segundo por delante del tercer clasificado. Por tanto, en este caso hay intervalos desiguales.
entre el primer, segundo y tercer lugar, con un intervalo muy pequeño entre el segundo y el tercero
y uno mucho mayor entre el primero y el segundo.
Escalas o variables de intervalo y razón
Las escalas de intervalo no sólo tienen categorías mutuamente excluyentes que están ordenadas
de menor a mayor, pero además las categorías están igualmente espaciadas, es decir, tienen intervalos iguales
entre ellos. La mayoría de las medidas físicas (por ejemplo, longitud, peso y dólares) tienen iguales
intervalos entre las categorías y se denominan escalas de razón porque tienen, además,
Medición y Estadística Descriptiva 137
un cero absoluto o verdadero, lo que significa en los ejemplos anteriores, sin longitud, sin peso o sin
dinero. Pocas escalas psicológicas tienen esta propiedad de un verdadero cero y, por lo tanto, incluso si
son escalas de intervalos iguales muy bien construidas, no es posible decir que uno no tiene inteligencia
o extroversión o no tiene una actitud determinada. tipo. Las diferencias entre escalas de intervalo y de
razón no son importantes para nosotros porque todos los tipos de estadísticas se pueden hacer con
datos de intervalo. La posición tradicional es que si la escala tiene intervalos iguales, no es necesario
tener un cero verdadero.
Dificultad para distinguir entre las escalas tradicionales
Generalmente es bastante fácil saber si las categorías o niveles de una variable están ordenados, es
decir, si varían de menor a mayor. Por tanto, se puede distinguir fácilmente entre datos nominales y
ordinales. Esta distinción marca una gran diferencia en cuanto a qué estadísticas son apropiadas, como
veremos.
Sin embargo, es considerablemente menos claro cómo distinguir entre datos ordinales y de intervalo.
Si bien casi todas las mediciones físicas proporcionan datos de proporciones o de intervalos, la situación
es menos clara con respecto a las mediciones psicológicas. Cuando medimos características como las
actitudes, a menudo no estamos seguros de si los intervalos entre las categorías ordenadas son iguales,
como se requiere para la identificación tradicional de variables a nivel de intervalo. Supongamos que
tenemos una escala de cinco puntos en la que debemos calificar una actitud acerca de una determinada
afirmación, desde muy de acuerdo con 5 hasta muy en desacuerdo con 1. La cuestión es si los intervalos
entre una calificación de 1 y 2, o de 2 y 3, o 3 y 4, o 4 y 5 son todos iguales o no. Algunos investigadores
podrían argumentar que debido a que los números están igualmente espaciados en la página y debido
a que están igualmente espaciados en términos de sus valores numéricos, los participantes los verán
como intervalos iguales y, por lo tanto, tendrán intervalos psicológicamente iguales. Sin embargo,
especialmente si los puntos intermedios están etiquetados (por ejemplo, “muy de acuerdo”, “de acuerdo”,
“neutral”, “en desacuerdo” y “muy en desacuerdo”), se podría argumentar que la diferencia, por ejemplo,
entre no es lo mismo estar de acuerdo y estar de acuerdo que entre estar de acuerdo y neutral. Esta
afirmación sería difícil de refutar, por lo que muchos otros investigadores argumentarían que dicha escala
de cinco puntos es un nivel ordinal y no de intervalo .
Además, algunos ítems de cuestionarios o encuestas tienen respuestas que son intervalos claramente
desiguales. Por ejemplo, tomemos el caso en el que se pide a los participantes que identifiquen su edad
en una de cinco categorías: “menos de 21 años”, “21–30”, “31–40”, “41–50” y “51 o 51 años”. más viejo."
Debe quedar claro que la primera y la última categoría son mucho mayores en términos de número de
años cubiertos que las tres categorías intermedias. Por tanto, los intervalos de edad no serían iguales.
Otro ejemplo de una escala ordenada que claramente no es un intervalo sería aquella que preguntara
con qué frecuencia los participantes hacen algo. Las respuestas son más o menos así: "todos los días",
"una vez a la semana", "una vez al mes", "una vez al año" y "una vez cada 5 años". Las categorías se
vuelven cada vez más amplias y, por lo tanto, no son intervalos iguales. Claramente hay mucha más
diferencia entre 1 año y 5 años que entre 1 día y 1 semana.
Estos cuatro niveles se han analizado en la mayoría de los libros de texto de estadística y métodos de
investigación, y se han utilizado para indicar el nivel de medición necesario para calcular ciertas
estadísticas. En general, en dichos libros de texto se dice que la media, la desviación estándar y las
estadísticas inferenciales paramétricas, como la prueba t , requieren al menos una medición de nivel de
intervalo para las variables. Sin embargo, hemos encontrado que la distinción entre los niveles ordinales
y de intervalo tradicionales es algo confusa de aplicar, y los estadísticos han argumentado que esta
distinción tradicional no es necesaria para usar estadísticas paramétricas, si los datos están distribuidos
aproximadamente normalmente (Gaito, 1980, 1986). ; Velleman y Wilkinson, 1993). Así, nosotros
Tabla 10.1
Nuestros términos de medición recomendados en comparación con los tradicionales

Nuestro término Nuestra definición Término tradicional Definición tradicional
Nominal Tres o más categorías desordenadas Nominal Dos o más categorías desordenadas
dicotómico Dos categorías, ya sea ordenadas o N/A N/A
desordenadas.
Ordinal Tres o más niveles ordenados , pero la Ordinal Niveles ordenados , en los que la
distribución de frecuencia de las diferencia de magnitud entre
puntuaciones no se distribuye normalmente niveles no es igual
Aproximadamente Muchos (al menos cinco) niveles o Intervalo y proporción Intervalo: niveles ordenados , en los que
normal puntuaciones ordenados , con una la diferencia entre niveles es igual, pero
distribución de frecuencia de las no existe un cero verdadero

puntuaciones aproximadamente Ratio: niveles ordenados ; el
normal. La diferencia entre niveles es igual y
hay un verdadero cero.
describiremos, en la siguiente sección de este capítulo, una clasificación algo diferente de niveles de medición
que creemos que es más útil y más fácil de entender.2
Nuestra categorización de niveles de medición Creemos
que los conceptos nominal, dicotómico, ordinal y aproximadamente normalmente distribuido (que llamamos
datos normales ) son más útiles que los términos de medición tradicionales para la selección e interpretación
de estadísticas. En parte, esto se debe a que, como se mencionó anteriormente, los estadísticos no están de
acuerdo sobre la utilidad de los niveles tradicionales de medición para determinar la selección adecuada de
estadísticas. Además, nuestra experiencia es que los términos tradicionales frecuentemente se malinterpretan
y se aplican de manera inapropiada. La Tabla 10.1 compara los términos tradicionales con nuestros términos
y proporciona definiciones resumidas.
Variables nominales
Este nivel es el mismo que la escala nominal tradicional de medición, excepto que incluimos sólo variables que
tienen tres o más categorías desordenadas. Por ejemplo, a las personas solteras se les puede asignar el
número 1, a las personas casadas se les puede codificar como 2 y a las personas divorciadas se les puede
codificar como 3. Esto no implica que una persona divorciada sea superior a una casada o que dos personas
solteras equivalgan a uno. casado, o cualquiera de los otros usos matemáticos típicos de los números. El
mismo razonamiento se aplica a otras variables nominales como el grupo étnico, el tipo de discapacidad o el
número de sección en un horario de clases. En cada uno de estos casos, las categorías son distintas y no se
superponen, pero tampoco están ordenadas; por lo tanto, cada categoría en el grupo étnico variable es
diferente entre sí, pero no existe un orden necesario para las categorías. Las categorías podrían numerarse 1
para asiáticoamericano, 2 para latinoamericano, 3 para afroamericano y 4 para europeoamericano o al revés,
o cualquier combinación de asignación de un número a cada categoría. Lo que esto implica es que los números
utilizados para identificar las categorías en una variable nominal no deben tratarse como si fueran números
que pudieran usarse en una fórmula, sumarse, restarse unos de otros o usarse para calcular un promedio.
El grupo étnico promedio no tiene sentido. Sin embargo, si se le pide a una computadora que calcule el grupo
étnico promedio, lo hará y proporcionará información sin sentido. Lo importante de las escalas nominales es
tener categorías claramente definidas, no superpuestas o mutuamente excluyentes que puedan ser codificadas
de manera confiable por los observadores o por el autoinforme de los participantes.
Los investigadores cualitativos o constructivistas dependen en gran medida, si no exclusivamente, de

variables nominales y del proceso de desarrollo de códigos o categorías apropiadas para comportamientos,
palabras, etc. La codificación cualitativa puede parecer diferente porque es mucho más detallada y porque
es inusual asignar números a las distintas categorías. Aunque el uso de datos cualitativos (nominales)
reduce drásticamente los tipos de estadísticas que se pueden utilizar con los datos, no elimina el posible
uso de estadísticas para resumir datos y hacer inferencias. Por lo tanto, cuando los datos son nominales,
la investigación puede beneficiarse del uso de estadísticas apropiadas. Más adelante en este capítulo
analizamos los tipos de estadísticas descriptivas que son apropiadas para datos nominales.
Variables dicotómicas
A veces se supone que una variable dicotómica, aquella que tiene sólo dos niveles o categorías (por
ejemplo, Sí o No, Aprobado o Reprobado), es nominal. Si bien algunas de estas variables dicotómicas
están claramente desordenadas (por ejemplo, el género) y otras están claramente ordenadas (por ejemplo,
las calificaciones en matemáticas, altas o bajas), todas las variables dicotómicas forman un caso especial.
Estadísticas como la media o la varianza no tendrían sentido para una variable nominal de tres o más
categorías (por ejemplo, grupo étnico o estado civil, como ya se describió). Sin embargo, dichas
estadísticas sí tienen significado cuando los datos son dicotómicos, es decir, tienen sólo dos categorías.
Por ejemplo, si el género promedio era 1,55 (con hombres = 1 y mujeres = 2), entonces el 55% de los participantes eran m
Además (como mostramos en el capítulo 22), para la regresión múltiple, las variables dicotómicas,
llamadas variables “ficticias”, se pueden utilizar como variables independientes junto con otras variables
que se distribuyen normalmente. Resulta que las variables dicotómicas pueden tratarse, en la mayoría de
los casos, como similares a las variables distribuidas normalmente.
Variables ordinales
Estas variables tienen tres o más categorías o niveles ordenados y las respuestas no se distribuyen
normalmente. Este nivel de medición es similar a la escala ordinal de medición tradicional analizada
anteriormente. Sin embargo, enfatizamos que cuando se grafican las frecuencias de las puntuaciones de
una muestra de participantes, no se parecen a la distribución normal o en forma de campana de las
puntuaciones que se muestra en la Figura 10.1.
Variables normalmente distribuidas
Estas variables no sólo tienen categorías mutuamente excluyentes que están ordenadas de menor a
mayor, sino que también las respuestas o puntuaciones están al menos aproximadamente distribuidas
normalmente en la población de la cual se seleccionó la muestra. Un supuesto de muchas estadísticas
inferenciales paramétricas, como la prueba t , es que la variable dependiente tiene una distribución
normal. La normalidad también es importante para el uso apropiado de varias estadísticas descriptivas
comunes que se analizan más adelante en este capítulo (p. ej., media y desviación estándar).
Confusión sobre los términos
Desafortunadamente, la literatura está llena de términos confusos para describir los aspectos de medición
de las variables. Categórico y discreto son términos que a veces se usan indistintamente con nominal,
pero nominal es más apropiado porque es posible tener categorías ordenadas y discretas.
Tabla 10.2
Correspondencia de términos de medición

Nuestro término de medición Otros términos algo similares
dicotómico Binaria, variable ficticia, dos categorías

Nominal Desordenados, cualitativos, nombres, categóricos, discretos.
Ordinal Intervalos desiguales, rangos, categorías ordenadas discretas
Normal (aproximadamente Continua, intervalos iguales, escala de intervalo, escala de razón, escala cuantitativa (en SPSS),
distribuida normalmente) dimensional
a Sin embargo, las variables ordinales e incluso las variables distribuidas normalmente, a veces tienen categorías discretas.
Tabla 10.3
Características y ejemplos de variables en cada nivel de medición

Nominal Ordinal dicotómico Normal
Características 3+ niveles 2 niveles 3+ niveles 5+ niveles

No ordenado Ordenado o no Niveles ordenados Niveles ordenados
Categorías verdaderas Intervalos desiguales Distribución
Nombres, etiquetas entre niveles aproximadamente normal
No distribuido normalmente Intervalos iguales
entre niveles.
Ejemplos Etnicidad Género Datos más clasificados Resultados de las pruebas
Religión Calificaciones de Final de carrera (1º, 2º, 3º) Puntuaciones GRE
Tipo de plan de estudios Altura

Color de pelo matemáticas (altas versus bajas) coeficiente intelectual
Continuo, dimensional y cuantitativo son términos que aparecen en la literatura para variables
ordenadas que varían de menor a mayor. Se supone que muchas de estas variables tienen una
distribución normal.
Estos términos y sus relaciones con los términos nominal, dicotómico, ordinal y normalmente
distribuido se utilizan a veces de manera inconsistente. El cuadro 10.2 aclara estos términos un tanto
superpuestos y confusos. Las variables nominales tienen categorías discretas y desordenadas. Las
variables ordinales e incluso distribuidas normalmente también pueden utilizar categorías o
puntuaciones discretas como 1, 2, 3, 4, 5; sin embargo, con la medición de nivel ordinal y normal, las
categorías están ordenadas. Los investigadores difieren en la terminología que prefieren y en la
importancia que dan a los niveles o escalas de medición, por lo que todos estos términos y otros
mencionados en libros de texto y artículos se ven comúnmente.
El cuadro 10.3 proporciona una revisión del concepto de niveles de medición de una variable.
Señalamos aquí que siempre es importante conocer los niveles de medición de la variable
dependiente en un estudio. Además, cuando la variable independiente es un atributo, se debe emitir
un juicio sobre el nivel de medición. Por lo general, con una variable independiente activa las
categorías de la variable independiente son nominales, pero en ciertos casos (dosis de tratamiento,
por ejemplo, sin fármaco, 10 mg, 20 mg y 30 mg) una variable independiente activa podría ser ordinal
o incluso tener una distribución normal. .
Un ejemplo que ilustra tres niveles de medición y que puede resultar útil está basado en una tarde
en las carreras de caballos. Los números que lleva el caballo representan una escala nominal.
Si bien los números corresponden a la puerta en la que el caballo inicia la carrera, su función para el
espectador es identificar el nombre del caballo en el formulario de carrera. Las apuestas se basan en
una escala ordinal: si el caballo seleccionado queda en primer, segundo o tercer lugar (es decir,
ganar, lugar o espectáculo). No importa si el caballo gana por un morro o por 10 cuerpos, una victoria es
una victoria. Por tanto, estos rangos forman una escala ordinal. Sin embargo, el dinero que la gente podría recibir
de todas las apuestas de ese día podrían distribuirse normalmente. Probablemente algunas personas ganen mucho,
muchos alcanzan el punto de equilibrio o pierden un poco, y algunos pierden mucho. Más adelante en este capítulo
se presentan más detalles y ejemplos de datos distribuidos aproximadamente normalmente.
Estadísticas descriptivas y gráficos

Gráficos descriptivos
Las distribuciones de frecuencia indican cuántos participantes hay en cada categoría; ellos son
útil ya sea que las categorías estén ordenadas o desordenadas. Si uno quiere hacer un gráfico
o diagrama de una distribución de frecuencia, hay varias opciones, incluida la frecuencia
polígonos, histogramas y gráficos de barras. Polígonos de frecuencia e histogramas (que se muestran en
Figura 10.2) conectan los puntos entre las categorías, por lo que se utilizan mejor con datos normalmente distribuidos
(normales). Los polígonos de frecuencia no deben usarse con valores nominales.
datos porque en ese caso no es necesario ordenar los puntos.
Por lo tanto, para las variables (por ejemplo, grupo étnico, plan de estudios escolar u otras variables nominales) es
Es mejor hacer un gráfico de barras (o tabla) de las frecuencias (Figura 10.3). Los puntos que resultan ser adyacentes
en una distribución de frecuencia no son necesariamente adyacentes.
Polígono histograma
5 5
4 4
3 3
aicneucerF
aicneucerF
2 2
1 1
0 0
1 2 3 4 5 1 2 3 4 5
Figura 10.2
Polígono de frecuencia de muestra e histograma para datos de nivel normal del mismo orden.
3
aicneucerF
0
Morena Rubio Pelirrojo
Figura 10.3
Ejemplo de gráfico de barras de distribución de frecuencias para la escala nominal de color de cabello.
Medidas de tendencia central
Las tres medidas principales del centro de una distribución son la media, la mediana y la moda.
Como puede verse en la tabla 10.7 cerca del final del capítulo, cualquiera de estas medidas de tendencia
central se puede utilizar con datos normales. La media, la mediana y la moda son todas iguales y están en el
centro de la distribución cuando los datos se distribuyen normalmente.
La media o promedio aritmético tiene en cuenta toda la información disponible cuando se utiliza para calcular
la tendencia central de una distribución de frecuencia. Por lo tanto, la media suele ser la estadística de elección
si se tienen datos normales.
La puntuación mediana o media es una medida apropiada de tendencia central para datos de nivel ordinal.
La mediana puede ser una mejor medida de tendencia central que la media en determinadas circunstancias, es
decir, cuando la distribución de frecuencias está marcadamente sesgada hacia un lado. Por ejemplo, el ingreso
medio de 100 trabajadores de nivel medio y un millonario es sustancialmente menor y refleja la tendencia
central del grupo mejor que el ingreso medio, que estaría inflado en este ejemplo y para el país en su conjunto
por unas pocas personas. que ganan grandes cantidades de dinero.
Finalmente, la moda, o categoría más común, se puede utilizar con cualquier tipo de datos, pero
generalmente proporciona la información menos precisa sobre la tendencia central. Se utilizaría la moda como
medida de tendencia central si solo hay una moda, si está claramente identificada y si se desea una medida
rápida y no calculada.
Cálculo de la media
Aquí demostramos el cálculo de la media debido a su uso común tanto en estadística descriptiva como
inferencial. La fórmula para la media poblacional, µ, es la misma que la fórmula para la media muestral, M. Para
calcular la media o el promedio de un conjunto de números, sumamos o sumamos (∑) los números (X) y luego
dividir por el número de entradas (N). X se refiere a puntuaciones individuales (a menudo denominadas
puntuaciones brutas).
La fórmula para M (la media de la muestra) es
=
∑X
METRO
norte
donde X son las puntuaciones individuales o brutas de la muestra y N es el número de puntuaciones de la

muestra.
Supongamos que 10 personas realizaron una prueba y las puntuaciones se ordenaron de mayor a menor.
Queremos saber la media de las 10 puntuaciones. Los puntajes se muestran en la Tabla 10.4 en la columna
denominada "Puntuación de la prueba".
Calculamos la media usando la fórmula anterior.
=
∑X
METRO
norte
700
METRO
=
10
METRO
= 70
Tabla 10.4
Puntuaciones de 10 participantes en el formulario B
Resultado de la prueba
Número de identificación del participante
1 93
2 85
3 82
4 77
5 75
6 66
7 63
8 62
9 54
10 43
∑ = 700
Por lo tanto, la puntuación media o promedio de la prueba es 70. Debido a que las puntuaciones están ordenadas desde la más alta,
como participante número 1, al más bajo, es bastante fácil determinar la puntuación media. Si
Si hubiera habido un número impar de personas, la mediana sería la puntuación media. Porque
hay 10 (un número par) participantes, la mediana está a medio camino entre el quinto (75)
y las puntuaciones de las personas del sexto (66) (es decir, 70,5). Tenga en cuenta que la mediana es similar pero no igual que
la media en este caso. No hay un modo claro en este ejemplo porque cada participante tiene
una puntuación distinta. La moda es más útil cuando los datos son nominales o dicotómicos, hay
Hay relativamente pocas categorías y hay un mayor número de participantes.
Medidas de variabilidad
La variabilidad describe la extensión o dispersión de las puntuaciones. En el extremo, si todos los

Las puntuaciones en una distribución son las mismas, no hay variabilidad. Si son todos diferentes y
muy espaciados, la variabilidad será alta. La desviación estándar, la medida de variabilidad más común, es
apropiada sólo cuando se tienen datos distribuidos normalmente.
Para datos ordinales, el rango intercuartil, la distancia entre los percentiles 25 y 75, es la mejor medida de
variabilidad. Con datos nominales habría que preguntarse cómo
Hay muchas categorías diferentes y cuáles son los porcentajes en cada una.
Cálculo de la desviación estándar
La fórmula para la desviación estándar de la muestra es
=
∑2 X
Dakota del Sur
norte
− 1
Como es común tanto en la estadística descriptiva como en la inferencial, mostramos cómo calcular la
desviación estándar. Observe en la fórmula que los números que elevamos al cuadrado y
add no son puntuaciones brutas (X) sino puntuaciones de desviación (x). Para calcular las puntuaciones de desviación, tenemos
restar la media de cada puntuación bruta porque la desviación estándar es una medida de
cómo varían las puntuaciones respecto de la media. Ahora calculamos la desviación estándar usando el mismo
muestra de 10 puntuaciones que utilizamos para calcular la media en la sección anterior.
Tabla 10.5
Cálculo de la desviación estándar
IDENTIFICACIÓN# XMx x2
1 93 70 23 529
2 85 70 15 225
3 82 70 12 144
4 77 70 7 49
5 75 70 5 25
6 66 70 –4 dieciséis
7 63 70 –7 49
8 62 70 –8 64
9 54 70 dieciséis 256
10 43 70 –27 729
Total 2086
Comenzamos creando la Tabla 10.5 usando las puntuaciones (X) de la prueba. Primero, resta la media,
70, de cada una de las puntuaciones brutas. Estas puntuaciones de desviación se pueden ver en la columna x.
Si sumamos estos puntajes, el total sería cero. (La suma de las desviaciones alrededor del
La media siempre es igual a cero). Luego elevamos al cuadrado cada una de las puntuaciones de desviación (x) , lo que nos da
las puntuaciones en la columna x2. Luego sumamos las puntuaciones en la columna x2, que es 2086. Tenga en cuenta cuando
Si elevas al cuadrado un número negativo (p. ej., –8), el cuadrado es un número positivo (64). A continuación dividimos
esta suma por el número de participantes menos uno y toma la raíz cuadrada para llegar al
Desviación Estándar.
El cálculo de la desviación estándar es el siguiente:
∑2 X
Dakota del Sur
=
norte
− 1
2086
Dakota del Sur
=
9
Dakota del Sur

= 231 78
.
Dakota del Sur

= 15 .22
Por tanto, la desviación estándar es 15,22. El hecho de que pocas puntuaciones se acerquen a la media.
de 70 indica que hay bastante variabilidad en esta muestra. Hablamos más sobre
La interpretación de la desviación estándar más adelante en este capítulo en la sección sobre áreas.
bajo la curva normal.
Medidas de asociación entre dos variables
Gráfico de dispersión
Un diagrama de dispersión (Figura 10.4 y Figura 10.5) proporciona una imagen visual de la correlación.
Cada punto o círculo en el gráfico representa la puntuación de un individuo particular en las dos variables, con una
variable representada en el eje x y la otra en el eje y . A
Un diagrama de dispersión es un diagrama o gráfico de dos variables que muestra cómo se calcula la puntuación de un individuo.
25.00
20.00
15.00
Lineal
10.00 línea de regresión.
erem
an
soatcniteáiambieedtun P
dr
e
5.00
0.00
R Cuadrado Lineal = 0,254

–5.00
2 3 4 5 6 7 8
calificaciones en hs
Figura 10.4
Diagrama de dispersión del rendimiento en matemáticas con las calificaciones de la escuela secundaria.
4.00
3.50
3.00
nóicalvaitcosem
E
d
2.50
2.00
1,50
R Cuadrado Lineal = 0,007

1.00
2 3 4 5 6 7 8
calificaciones en hs
Figura 10.5
Un diagrama de dispersión que muestra una correlación lineal muy débil.
en una variable se asocia con su puntuación en la otra variable. Cuando los puntos trazados
están cerca de una línea recta (la línea de regresión lineal) desde la esquina inferior izquierda del gráfico
en la parte superior derecha, como en la Figura 10.4, hay una correlación positiva relativamente alta (p. ej., +.5)
entre las variables. Cuando la línea de regresión lineal se inclina hacia abajo desde la parte superior
De izquierda a derecha, la correlación es muy negativa (p. ej., –0,5). Para correlaciones cercanas a cero (como
En la Figura 10.5), la línea de regresión será casi plana con muchos puntos lejos de la línea,
y los puntos formarán un patrón más parecido a un círculo o una mancha que a una línea u óvalo.
Tanto en la Figura 10.4 como en la Figura 10.5, los diagramas de dispersión muestran el mejor ajuste para una
línea de regresión recta (lineal) (es decir, minimiza las diferencias al cuadrado entre los puntos y los
línea). Tenga en cuenta que para la Figura 10.4 (calificaciones en la escuela secundaria con rendimiento en matemáticas), los puntos
encaja bastante bien en la línea; r² = 0,25 y, por tanto, r es 0,50. La Figura 10.5 muestra que las calificaciones en alto
la escuela y la motivación sólo tienen una correlación débil; los puntos no encajan muy bien en la recta
(r² = 0,007, r = 0,08).
Tabla 10.6
Ejemplo de tabla de tabulación cruzada
Género
Variable norte Masculinos femeninos
Geometría
Tomado 36 24 12
No tomado 39 10 29
Totales 75 34 41
Correlaciones de Pearson y Spearman
La correlación momentoproducto de Pearson es una estadística paramétrica bivariada que se utiliza cuando
ambas variables están ordenadas y distribuidas aproximadamente normalmente. Cuando los datos son
ordinal o cuando se violan marcadamente otros supuestos, se debe utilizar un equivalente no paramétrico del
coeficiente de correlación de Pearson. Uno de esos no paramétricos, ordinales
La estadística es el Spearman rho.
Tanto la correlación de Pearson como la de Spearman pueden variar desde –1,0 (una relación o asociación
negativa perfecta), pasando por 0,0 (sin correlación) hasta +1,0 (una correlación positiva perfecta).
Tenga en cuenta que +1 y –1 son igualmente altos o fuertes, pero conducen a interpretaciones diferentes.
Una correlación positiva alta entre ansiedad y calificaciones significaría que los estudiantes con
mayor ansiedad tendía a tener calificaciones altas, aquellos con menor ansiedad tenían calificaciones bajas y
aquellos en el medio tenían calificaciones que no eran ni especialmente altas ni especialmente bajas. Sobre el
Por otro lado, si hubiera una correlación negativa alta, significaría que los estudiantes con alta
la ansiedad tendió a tener calificaciones bajas; Además, las calificaciones altas se asociarían con una ansiedad
baja. Con una correlación cero no hay asociaciones consistentes; un estudiante con mucha ansiedad
Puede tener calificaciones bajas, medias o altas.
Tablas de tabulación cruzada
Este tipo de tabla está diseñada para mostrar la asociación entre dos valores nominales o dicotómicos.
variables. Recuerde, las variables nominales son variables que tienen distintos niveles desordenados o
categorías; cada participante está en un solo nivel (una persona es hombre o mujer). Las tablas de tabulación
cruzada también se pueden utilizar con variables ordenadas, pero son menos apropiadas si
La variable tiene tres o más niveles ordenados . El cuadro 10.6 muestra la tabulación cruzada de género con
si los estudiantes tomaron geometría en la escuela secundaria para un grupo de 75 exalumnos. Es evidente
que una proporción mayor (24 de 36) de hombres tomó geometría; sólo 10 de 39 mujeres lo hicieron. De este modo,
Parece haber una asociación entre el género y la realización de geometría. En el capítulo 21 analizamos el
estadístico chicuadrado para comprobar si esta asociación es estadísticamente significativa: es decir,
es decir, si uno puede estar seguro de que la aparente asociación no se debe al azar. Capítulo
21 también analiza cómo interpretar la significancia estadística de los coeficientes de correlación.
Más sobre la curva normal

La curva normal como distribución de probabilidad
Si bien la curva normal a menudo se conceptualiza como una distribución de frecuencia, para nuestros propósitos
es más importante como una distribución de probabilidad . Visualice que el área debajo del
La curva normal es igual a 1,0. Por lo tanto, partes de esta curva podrían expresarse como fracciones de 1,0.
Por ejemplo, si suponemos que 5'10” es la altura promedio de los hombres en los Estados Unidos, entonces la
probabilidad de que un hombre mida 5'10” o más es 0,5. La probabilidad de que un hombre mida más de 6'5” o
menos de 5'5” es considerablemente menor. Es importante poder conceptualizar la curva normal como una
distribución de probabilidad porque la convención estadística establece niveles de probabilidad aceptables para
rechazar la hipótesis nula en 0,05 o 0,01. Como veremos, cuando los eventos o resultados ocurren con muy
poca frecuencia, es decir, sólo 5 veces en 100 o 1 vez en 100 (muy en la cola izquierda o derecha de la curva),
nos preguntamos si pertenecen a esa distribución o tal vez a una distribución diferente. Volveremos a este punto
varias veces más adelante en el libro.
Propiedades de la curva normal
La curva normal tiene cinco propiedades que siempre están presentes:
1. La curva normal es unimodal. Tiene una “joroba” y esta joroba está en el medio de la distribución. El
valor más frecuente está en el medio.
2. La media, la mediana y la moda son iguales.
3. La curva es simétrica. Si doblaras la curva normal por la mitad, el lado derecho encajaría perfectamente
con el lado izquierdo; es decir, no está sesgado.
4. El rango es infinito. Esto significa que los extremos se acercan pero nunca tocan el
eje x .
5. La curva no es ni demasiado puntiaguda ni demasiado plana, y sus colas no son ni demasiado cortas
ni demasiado largas; no tiene curtosis. Sus proporciones son como las de la Figura 10.1.
Áreas bajo la curva normal
Todas las curvas normales, independientemente de si son estrechas o extendidas, se pueden dividir en áreas o
unidades en términos de desviación estándar. Aproximadamente el 34% del área bajo la curva normal está entre
la media y una desviación estándar por encima o por debajo de la media. Si incluimos tanto el área a la derecha
como a la izquierda de la media, el 68% del área bajo la curva normal está dentro de una desviación estándar
de la media, como se muestra en la Figura 10.1. Otro 13,5% aproximadamente del área bajo la curva normal se
explica añadiendo una segunda desviación estándar a la primera desviación estándar. En otras palabras, dos
desviaciones estándar a la derecha de la media representan un área de aproximadamente el 47,5% de la curva.
Y dos desviaciones estándar a la izquierda y dos a la derecha de la media constituyen un área de
aproximadamente el 95% de la curva normal. Si restáramos el 95% del 100%, el 5% restante se relaciona con
la probabilidad o el valor p de 0,05 establecido convencionalmente para la significancia estadística, como
veremos en el Capítulo 16. Los valores que no caen dentro de dos desviaciones estándar de la media son
eventos relativamente raros. .
Utilizando nuestro ejemplo anterior de la puntuación de la prueba ID que se muestra en la Tabla 10.5, observe que
7 de 10 (70%) puntuaciones estuvieron entre 55 y 85, que son aproximadamente una desviación estándar por debajo
y por encima de la media de 70. Todas las puntuaciones estuvieron dentro de dos SD. Estos porcentajes son
aproximadamente lo que uno esperaría si las puntuaciones se distribuyeran normalmente.
La curva normal estándar
Todas las curvas normales se pueden convertir en curvas normales estándar estableciendo la media igual a
cero y la desviación estándar igual a uno. Como todas las curvas normales tienen la
misma proporción de la curva dentro de una desviación estándar, dos desviaciones estándar, etc. de la
media, esta conversión permite comparaciones entre curvas normales con diferentes medias y desviaciones
estándar. La curva de distribución normal que se muestra en la Figura 10.1 tiene las unidades de distribución
normal estándar debajo. Estas unidades se conocen como puntuaciones z , que indican el número de
unidades de desviación estándar en las que la puntuación de una persona se desvía de la media del
grupo. En nuestro ejemplo, el estudiante que obtuvo 93 en la prueba tendría una puntuación z de +1,51 (93
– 70 ÷ 15,22), mientras que el estudiante que obtuvo una puntuación de 43 tuvo una z = –1,77. Una
característica valiosa de las puntuaciones z es que permiten comparar puntuaciones en diferentes pruebas.
Por ejemplo, un estudiante con una puntuación de 80 en un examen (en una clase cuya media era 70 y una
DE de 5) tiene una puntuación z de +2,0 y obtuvo un resultado relativamente mejor que el estudiante de la
Tabla 10.5 que obtuvo una puntuación de 93 y z = 1.51.
Otro uso importante de la desviación estándar y la curva normal estándar tiene que ver con la fuerza o el
tamaño de la relación entre variables. Los estadísticos se refieren a esto como tamaño del efecto. En el
capítulo 17 analizamos varias medidas del tamaño del efecto y cómo interpretarlas. Por ahora, queremos
señalar que las medidas de tamaño del efecto más comunes son similares a las puntuaciones z en que se
expresan en unidades de desviación estándar. Por ejemplo, d = 0,5 significa que, en promedio, el grupo de
intervención obtuvo media desviación estándar mejor que el grupo de comparación. Esta métrica común es
útil para comparar el tamaño o la fuerza del efecto entre varios estudios diferentes.
Niveles de Medición y Estadística Descriptiva

El cuadro 10.7 resume si y cómo se deben utilizar una serie de gráficos y estadísticas descriptivas comunes
si los datos (es decir, la variable dependiente) fueran nominales, dicotómicos, ordinales o normalmente
distribuidos. Por ejemplo, las distribuciones de frecuencia son apropiadas para los cuatro niveles de
medición, pero son más útiles con datos nominales, dicotómicos y ordinales.
Con datos nominales, el orden en que se enumeran las categorías es arbitrario. Con datos ordinales y
normalmente distribuidos, el orden de las categorías sería invariante. Para datos distribuidos normalmente,
la distribución de frecuencias sería similar a la curva normal de la Figura 10.1.
Como se analizó anteriormente y se resume en el cuadro 10.7, ciertos tipos de gráficos y estadísticas
descriptivas no deben usarse con ciertos niveles de datos. Por ejemplo, no se deben utilizar polígonos e
histogramas de frecuencia si los datos son nominales, como se indica con “No” en la Tabla 10.7. En algunos
casos, los gráficos o las estadísticas están bien (indicados en la tabla con “OK”) pero no son el mejor uso.
Por ejemplo, los histogramas se pueden usar con datos ordinales, pero son más apropiados si los datos se
distribuyen normalmente.
En igualdad de condiciones, se obtendrían resultados más sólidos utilizando datos normalmente
distribuidos que los ordinales, y los ordinales serían mejores que las mediciones nominales. Sin embargo,
sacrificar la confiabilidad o la validez (Capítulos 11 y 12) para tener un mayor nivel de medición significaría
que tendría mayor precisión o poder para obtener respuestas incorrectas. Como veremos en capítulos
posteriores, si los datos confiables y válidos se distribuyen normalmente, se dispone de estadísticas
inferenciales más poderosas para probar nuestra hipótesis.
Tabla 10.7
Selección de gráficos y estadísticas descriptivos apropiados

Dicotómico nominal Ordinal Normal
Graficos
Distribución de frecuencias Sí un Sí Sí OKb
Gráfico de barras Sí Sí Sí DE ACUERDO
histograma Noc No DE ACUERDO Sí
Polígono de frecuencia No No DE ACUERDO Sí
Tendencia central
Significar No DE ACUERDO
De rangos, ok Sí
Mediana No Aceptar = Modo Sí DE ACUERDO
Modo Sí Sí DE ACUERDO DE ACUERDO
Variabilidad
Rango No Siempre 1 Sí Sí
Desviación Estándar No No De rangos, ok Sí
Rango intercuartil No No DE ACUERDO DE ACUERDO
cuantas categorias Sí Siempre 2 DE ACUERDO

No si de verdad
continuo
Forma
Oblicuidad No No Sí Sí
Asociación
Correlación de Pearson No DE ACUERDO DE ACUERDO Sí
Correlación de Spearman No DE ACUERDO Sí DE ACUERDO
Tabulación cruzada Sí Sí DE ACUERDO DE ACUERDO
No No DE ACUERDO Sí
a Sí significa una buena elección con este nivel de medición. b OK

significa que se puede usar, pero no es la mejor opción en este nivel de medición. c No
significa que no es apropiado en este nivel de medición.
Resumen
Este capítulo proporciona una visión general de los niveles de medición y cómo influyen en el
uso adecuado de las estadísticas. Dividimos las variables en cuatro tipos o niveles: dicotómicas,
nominal, ordinal y normalmente distribuida. Las variables dicotómicas tienen sólo dos niveles; nominal tiene
tres o más niveles desordenados. Las variables ordinales tienen tres o más.
niveles ordenados, pero la distribución de frecuencia de las respuestas no es normal. Finalmente, normalmente
Las variables distribuidas tienen al menos aproximadamente una distribución de frecuencia normal (en forma
de campana). Se discutieron las propiedades de la curva normal porque muchas estadísticas suponen que
Las respuestas se distribuyen normalmente y muchas variables de comportamiento se distribuyen al menos.
aproximadamente normal. Se describieron e ilustraron tres de las muchas formas de trazar distribuciones de
frecuencia (histogramas, polígonos de frecuencia y gráficos de barras). De manera similar, se describieron
medidas de tendencia central (media, mediana y moda), así como medidas de
variabilidad (rango, desviación estándar, rango intercuartil y número de categorías) y
medidas de asociación entre dos variables (diagramas de dispersión, correlación y tabulación cruzada).
Finalmente, se presentaron recomendaciones sobre el uso adecuado de diversas estadísticas descriptivas y
gráficos o diagramas.
Conceptos clave
Correlación
Tabulación cruzada
Rango intercuartil
Distribución normal y curva normal.
Oblicuidad
Desviación Estándar
Curva normal estándar
puntuaciones z
Distinciones clave
Histograma versus polígono de frecuencia versus gráfico de barras

Media versus mediana versus moda
Niveles de medición nominal versus dicotómico versus ordinal versus normal
Categorías o niveles ordenados versus desordenados de una variable

Las escalas de medición tradicionales nominal versus ordinal versus de intervalo
1. Describir nuestros cuatro niveles de medición (nominal, dicotómico, ordinal, normal); Proporcione un
ejemplo original para cada uno.
2. ¿En qué se parecen y se diferencian nuestros niveles de medición de los tradicionales?
3. ¿Por qué es importante conocer/determinar el nivel de medición de sus datos?

4. ¿Qué medidas de tendencia central son apropiadas para usar con datos en cada uno de
¿Nuestros niveles de medición?
5. Para los ejemplos que siguen, indique el nivel de medición y su razonamiento.

o justificación: a.
Urbano, suburbano, rural b.
Jóvenes, de mediana edad, viejos

c. 15, 16, 17, 18, 19, 20, 21… años d.
Totalmente de acuerdo, de acuerdo, neutral, en desacuerdo, totalmente en

desacuerdo 6. Tanto las variables dicotómicas como las nominales son categóricas. ¿Por qué es
informativo calcular la media con una variable dicotómica pero no con una variable nominal?
7. ¿En qué se diferencia la curva normal de la curva normal estándar?
8. Las siguientes puntuaciones se registraron de estudiantes en una clase de estadística. Determinar

la media, mediana, moda y desviación estándar.
89, 93, 81, 93, 73, 93, 85, 89, 75, 85, 90, 70
9. Un estudiante de una clase numerosa de pregrado (aproximadamente 500 estudiantes) obtiene una
desviación estándar por encima de la media en su primer examen parcial. ¿Su puntuación es mayor
que qué porcentaje de la clase?
10. Otro estudiante de esta misma clase obtiene dos desviaciones estándar por debajo de la media.
¿Qué porcentaje de estudiantes tiene una puntuación más alta? ¿Cuál es la puntuación z de este estudiante ?
Notas
1. Desafortunadamente, los términos nivel y escala se utilizan de varias maneras en la investigación. Los niveles se
refieren a las categorías o valores de una variable (por ejemplo, masculino o femenino); El nivel también puede
referirse a los cuatro tipos diferentes de medición (por ejemplo, nominal, ordinal). Estos diversos tipos de medidas
también se han denominado escalas de medida. La escala también se utiliza para describir los ítems del
cuestionario que se clasifican desde muy en desacuerdo hasta muy de acuerdo (escala Likert) y para la suma de
dichos ítems (escala sumada).
2. Esta categorización alternativa nos fue propuesta por Helena Chmura Kraemer, profesora de
bioestadística en Stanford, (comunicación personal 16 de marzo de 1999).
11
Fiabilidad de la medición
En este capítulo y en el siguiente analizamos la confiabilidad y validez de mediciones o puntuaciones individuales

de un instrumento. La calidad de un estudio depende, en parte, de la calidad
del diseño (validez interna) y de la muestra (validez externa poblacional) como se analiza en los Capítulos 8 y 9.
La calidad del estudio también depende de la consistencia (validez de medición).
confiabilidad) y precisión (validez de la medición) de los instrumentos específicos, como se discutió
en este capítulo y en el Capítulo 12. En los Capítulos 23 y 24, mostramos cómo estos cuatro
Los indicadores (y otros) se pueden utilizar para evaluar la calidad general de un estudio.
¿ Qué es la confiabilidad? Cuando se dice que una persona es confiable, tenemos ciertas concepciones sobre
esa persona. Por ejemplo, la persona siempre llega puntual a las reuniones; por lo tanto, el es
una persona confiable. O bien, la persona siempre hace el trabajo; por lo tanto, es una persona confiable.
Cuando utilizamos pruebas u otros instrumentos para medir resultados, también debemos asegurarnos de que
que estos instrumentos proporcionen datos fiables. Cronbach (1990) dijo que la confiabilidad se refiere
a la consistencia de una serie de mediciones. Según Thompson (2003), la confiabilidad es
una propiedad de las puntuaciones y no es inmutable en todos los usos imaginables de una medida determinada.
No se puede subestimar la importancia de la confiabilidad para los métodos de investigación. Si nuestro resultado
medida no proporciona datos confiables, entonces no podemos evaluar con precisión los resultados de nuestra
estudiar. Por lo tanto, nuestro estudio será inútil.
Un ejemplo
Para comprender la importancia de la confiabilidad de las mediciones y sus fundamentos, es mejor

para empezar con un ejemplo. Un investigador está interesado en determinar si la calidad de vida de
Las personas con discapacidad cognitiva pueden aumentar a través de un programa de apoyo recreativo. Para
determinar si la intervención (programa de apoyo recreativo) funciona, diseña
un experimento aleatorio que utiliza un diseño de grupo de control pretestpostest, donde un grupo
recibe la intervención (X) durante 6 meses y el otro grupo no recibe la intervención (~X). Ambos grupos reciben
el pretest con un instrumento que mide la calidad de
vida y luego, después del período de 6 meses, reciben el mismo instrumento en la prueba posterior. Como en
En capítulos anteriores, el diseño se puede mostrar de la siguiente manera:
R O1 X O2
R O1 ~X O2
153
El investigador medirá la calidad de vida (variable dependiente) con una herramienta de medición particular, que
llamamos inventario de Calidad de Vida (QOL). Medirá la calidad de vida de los grupos de intervención y de control
antes de la intervención y luego nuevamente después del período de la intervención. Por tanto, cada participante en el
estudio obtendrá una puntuación en la calidad de vida antes de la intervención y después del período de intervención.
Si el inventario de calidad de vida tiene un rango entre 0 y 100, entonces cada participante recibirá una puntuación
previa a la prueba y una puntuación posterior a la prueba dentro de este rango. Espera, y por lo tanto plantea la
hipótesis, que las puntuaciones posteriores a la prueba en el grupo de intervención sean más altas que las del grupo
de control. Debido a la asignación aleatoria, los grupos deberían ser equivalentes inicialmente. Como hemos visto en
los Capítulos 5 y 8, este diseño es sólido en términos de validez interna. Sin embargo, es posible que el estudio sea
débil en otros aspectos. Por ejemplo, la validez externa de la población podría ser baja si los participantes no fueran
representativos de la población teórica. La cuestión a considerar aquí es si el inventario de calidad de vida medirá la
calidad de vida de manera consistente (confiable) en este estudio con este grupo de participantes.
Resultados de las pruebas
Llamamos puntuación observada a cualquier puntuación que obtenemos de cualquier individuo en un instrumento en
particular. Uno de los participantes llamado Jones está en el grupo de intervención. Si Jones obtiene una puntuación
de 49 en la prueba preliminar de la calidad de vida, entonces la puntuación observada de Jones es 49. Si le diéramos
a Jones la calidad de vida por segunda vez, su puntuación observada probablemente será diferente de 49. Podría ser
53 o 43. Si le diésemos Si le entrega la calidad de vida a Jones por tercera vez, la puntuación probablemente será
diferente de cualquiera de las puntuaciones recibidas en administraciones anteriores de la prueba. Dado que la
puntuación de Jones no será la misma cada vez que le demos la calidad de vida, y dado que debemos darle a Jones
una segunda calidad de vida después de la intervención, ¿cómo sabremos si el cambio en la puntuación de Jones de
la prueba previa a la prueba posterior se debe a la intervención o quizás ¿por algo más? Dicho de otra manera, ¿cómo
sabemos si el cambio en la puntuación de Jones se debe a una variación sistemática (variación debida a la intervención)
o a una variación no sistemática (variación debida a otros factores)? Para comprender nuestro problema, debemos
considerar la teoría clásica de las pruebas, las puntuaciones verdaderas y el error.
Según la teoría clásica de las pruebas:
Puntuación observada = Puntuación real ± Error
Por tanto, una puntuación observada se compone de una puntuación verdadera y un error. Debido a que la teoría
clásica de las pruebas es una teoría hipotética, nunca podremos conocer la verdadera puntuación de una persona.
Sólo sabremos su puntuación observada. Además, como toda medición suele incluir algún error, no podemos suponer
que la puntuación observada sea la misma que la puntuación real. Si pudiéramos restar la puntuación real de la
puntuación observada, podríamos determinar qué parte de la puntuación se debe al error. En realidad, nunca sabemos
la cantidad de la puntuación observada que se debe a la puntuación verdadera y la cantidad de la puntuación observada
que se debe al error. Si midiéramos a la persona miles de veces y tomáramos el promedio de todas esas mediciones,
entonces la puntuación promedio estaría muy cerca de la puntuación real del individuo. Desafortunadamente, rara vez
medimos a una persona más de un par de veces con un instrumento determinado.
Dado que rara vez medimos a una persona varias veces con cualquier instrumento, el investigador puede tener
problemas en su estudio. Nuevamente, el problema es que si intenta evaluar el cambio debido a su intervención,
necesitará medir a cada participante más de una vez. Supongamos que la puntuación de calidad de vida de Jones
aumenta de 49 (pretest) a 53 (postest). ¿Cómo sabemos si este aumento se debe a un aumento en la puntuación
verdadera de Jones (variación sistemática)?
Fiabilidad de la medición 155
¿O simplemente a un aumento debido a un error (variación no sistemática)? La solución al problema es elegir una
prueba que produzca puntuaciones que tengan alta confiabilidad. No hemos considerado métodos específicos para
determinar la confiabilidad en este momento, pero hemos afirmado que la confiabilidad es una medida de consistencia.
¿Cómo se relaciona la confiabilidad con las puntuaciones observadas y las puntuaciones reales?
La confiabilidad de la medición se expresa como un coeficiente. El coeficiente de confiabilidad es la relación entre la
varianza de las puntuaciones verdaderas y la varianza de las puntuaciones observadas (Ghiselli, Campbell y Zedeck,
1981). En otras palabras, cuanto mayor sea la confiabilidad de los datos, más cercanas estarán las puntuaciones
reales a las observadas. Ahora bien, dado lo que sabemos sobre las puntuaciones observadas, las puntuaciones
verdaderas y el error, deberíamos considerar los coeficientes de correlación.
Error estándar de medición
Al seleccionar una prueba, una de las preguntas más importantes que debemos plantearnos, además de la información
sobre confiabilidad y validez, es qué tipo de variabilidad del desempeño podríamos esperar. En el capítulo anterior
analizamos la desviación estándar como índice de variabilidad y también introdujimos la curva normal. Tanto estos
como la información sobre la confiabilidad son necesarios cuando consideramos el error estándar de medición. El
error estándar de medición nos permite establecer un rango de puntuaciones (es decir, un intervalo de confianza)
dentro del cual debería encontrarse la verdadera puntuación de un intérprete. Los intervalos de confianza son difíciles
de entender y a menudo se malinterpretan, pero son muy importantes para comprender los resultados de la
investigación. En el capítulo 17 examinamos los intervalos de confianza con cierta profundidad.
Primero veamos la fórmula del error estándar de medición; entonces le proporcionaremos un

ejemplo para ayudar a explicar el concepto. La fórmula para el error estándar de medición es
metro
= −1 rss
dónde
s = desviación estándar de la prueba r =
coeficiente de confiabilidad de la prueba
Comenzamos con una prueba de inteligencia como la Escala de Inteligencia para Adultos de Wechsler (WAIS), que
tiene una desviación estándar conocida de 15. Digamos que el coeficiente de confiabilidad es, en promedio, 0,92.
¿Cuál será el error estándar de medición? Introduciendo estos números en la ecuación, el error estándar de medición
(sm) es 4,24. Un individuo determinado realiza la prueba y obtiene una puntuación de 110 (que es la puntuación
observada de la persona). Según nuestra introducción anterior a la teoría clásica de las pruebas, esta puntuación
observada es igual a una puntuación verdadera más el error. No sabemos (ni sabremos nunca) la verdadera puntuación
del individuo. Por lo tanto, podemos estimar el rango en el que puede caer la puntuación verdadera de una persona
en una sola prueba. Para ello, utilizamos el error estándar de medición y establecemos un intervalo de confianza
alrededor de la puntuación observada. El tamaño de este intervalo de confianza dependerá de qué tan seguros
queremos estar de que la puntuación real se ajusta a este intervalo. En la mayoría de los casos queremos estar al
menos 95% seguros (dos desviaciones estándar).
Por lo tanto, establecimos un intervalo de confianza del 95% alrededor de la puntuación observada. Para hacer esto,
multiplicamos nuestro error estándar de medición por la puntuación z que representa dos desviaciones estándar de la
media en una curva normal. Este valor z es 1,96 (Figura 10.1). Por lo tanto, 4,24 por 1,96 nos da un valor de 8,32.
Podemos concluir que nuestra puntuación real se encuentra dentro del intervalo de confianza del 95% de 110 ± 8,32
o entre 101,68 y 118,32. Una breve explicación del intervalo de confianza del 95% es que si la prueba se aplicara a la
misma persona una gran cantidad de veces, el 95% de los intervalos de confianza contendrían la puntuación verdadera.
El error estándar de medición ilustra la importancia del coeficiente de confiabilidad. Supongamos que en el ejemplo
ilustrado nuestro coeficiente de confiabilidad fue .65. Nuestro
El error estándar de medición ahora sería 8,87. Multiplicamos este valor por 1,96 para
establecer nuestro intervalo de confianza. Nuestro intervalo de confianza es 110 ± 17,39, o entre 92,61
y 127,61. La precisión de nuestra estimación de la puntuación real ha disminuido sustancialmente debido a
un bajo coeficiente de confiabilidad.
Coeficiente de correlación
Podemos discutir conceptualmente la confiabilidad como alguna forma de consistencia. Sin embargo, al evaluar las
puntuaciones de un instrumento, es importante poder expresar la confiabilidad en algunos casos.
forma numérica. Esto nos permite comparar diferentes puntuaciones de instrumentos sobre propiedades de confiabilidad.
La medida más frecuentemente seleccionada para evaluar la confiabilidad se conoce como
un coeficiente de correlación. Como se analizó en el Capítulo 10, un coeficiente de correlación suele ser
expresado como la letra r e indica la fuerza de una relación. Los valores de r varían
entre −1 y +1. Un valor de 0 se considera que no hay relación entre dos variables o puntuaciones,
mientras que los valores cercanos a −1 o +1 se consideran relaciones muy fuertes entre dos
variables. Una relación negativa fuerte, a menudo denominada relación inversa, indica que cuanto mayor es la puntuación
en una variable o prueba, menor es la puntuación en una segunda.
variable o prueba. Por otro lado, una fuerte relación positiva indica que las personas
Quienes obtienen una puntuación alta en una prueba también obtendrán una puntuación alta en una segunda prueba. Para
decir que las puntuaciones de una medida son confiables, normalmente se esperaría un coeficiente entre +,7 y +1,0. Otros tienen
sugirió criterios aún más estrictos. Los coeficientes de confiabilidad de 0,70 a 0,80 son algo más bajos.
de lo deseable, por lo que los psicometristas sugieren que los coeficientes de confiabilidad de aproximadamente .8 son
aceptables para la investigación, pero aquellos .9 o más son necesarios para las medidas que se
Se utiliza para tomar decisiones sobre individuos, utilizando instrumentos como pruebas de coeficiente intelectual, el GRE,
el SAT, y los de decisiones de personal. Sin embargo, es común ver artículos publicados en revistas en los que uno o
algunos coeficientes de confiabilidad están por debajo de .7 pero generalmente .6 o .
arriba. Tenga en cuenta que, aunque las correlaciones de −0,7 a −1,0 indican una correlación fuerte (negativa), son
totalmente inaceptables en lo que respecta a la confiabilidad. Una correlación negativa tan alta indicaría que las personas
que inicialmente obtienen una puntuación alta en la medida luego obtienen una puntuación baja.
y viceversa. Un coeficiente de confiabilidad negativo probablemente indica un error de cálculo
o una terrible inconsistencia.
Métodos para evaluar la confiabilidad de las mediciones

Hay muchos métodos utilizados para evaluar la confiabilidad de las mediciones. Aquí analizamos ocho
tipos de confiabilidad de la medición: (1) pruebareprueba; (2) formas paralelas; (3) consistencia interna
medido mediante métodos de división por mitades; (4) consistencia interna medida mediante KuderRichardson 20; (5)
consistencia interna medida a través del alfa de Cronbach; (6) evaluador
(interobservador) medido mediante métodos de acuerdo porcentual; (7) interevaluador (interobservador) medido a través
de coeficientes de correlación intraclase (ICC); y (8) interevaluador
(interobservador) medido a través del estadístico Kappa. También analizamos brevemente la teoría de la capacidad de
generalización y la teoría de respuesta al ítem (TRI). Para obtener más detalles sobre cada método para determinar la
confiabilidad de las mediciones, incluidas las fórmulas, recomendamos Anastasi (1988) y
Nunnally y Bernstein (1994).
Para muchas medidas publicadas, se ha obtenido más de un coeficiente de confiabilidad.

Sin embargo, al elegir una medida, el investigador debe asegurarse de los siguientes criterios:
• La confiabilidad pasada de los datos producidos por el instrumento es alta (p. ej., superior a .80) o al menos
menos marginalmente aceptable (por ejemplo, por encima de 0,60).
• El período de tiempo que se utilizó para establecer la confiabilidad testretest es similar al período de
tiempo que se utilizará en el estudio. Cabe señalar que a medida que aumenta el tiempo entre
administraciones, la confiabilidad suele disminuir. • La muestra que se había utilizado para
determinar la confiabilidad del instrumento es similar
similar a la muestra que se utilizará en el estudio actual.
Además, es importante señalar que es necesario informar dos coeficientes de confiabilidad: (1) coeficientes de
confiabilidad citados en la literatura antes de la recopilación de datos para el estudio; y (2) los coeficientes de
confiabilidad estimados con los datos del estudio. Algunos de los métodos para evaluar la confiabilidad son comunes
para las medidas publicadas; estos (es decir, confiabilidad testretest, formas paralelas) se citan como coeficientes
de confiabilidad informados previamente. Se pueden citar otros métodos (es decir, consistencia interna, confiabilidad
entre evaluadores) como coeficientes de confiabilidad informados previamente y también como coeficientes de
confiabilidad estimados con los datos del estudio.
Confiabilidad de prueba y
repetición La confiabilidad de prueba y repetición es una de las formas más comunes de confiabilidad (Daniel y
Witta, 1997). Cronbach (1990) se refiere a este coeficiente como coeficiente de estabilidad. La confiabilidad de
probar y volver a probar es fácil de entender. Si una prueba produce puntuaciones fiables, si se aplica más de una
vez a la misma persona, las puntuaciones de esa persona deberían ser muy cercanas, si no iguales. Si el investigador
quiere obtener confiabilidad testretest en su instrumento de calidad de vida, encontrará una muestra de personas
que no participaron en el experimento descrito anteriormente pero que encajarían en su población objetivo.
Administraría la calidad de vida a esta muestra y, en una fecha posterior (en una fecha que se aproximaría al
intervalo de la intervención) administraría la calidad de vida a la misma muestra. Luego determinaría el coeficiente
de confiabilidad basándose en las puntuaciones de las dos administraciones utilizando una correlación entre los
dos conjuntos de puntuaciones. Si el coeficiente de confiabilidad es relativamente alto (por ejemplo, superior a 0,80),
entonces estaría satisfecho de que la calidad de vida tenga una buena confiabilidad testretest. Por otro lado, si el
coeficiente de confiabilidad es inferior a 0,70, es posible que deba reconsiderar la calidad de vida como una medida
que produce puntuaciones confiables de calidad de vida.
Se deben tener en cuenta ciertas consideraciones para determinar la confiabilidad testretest.

El primer punto es que la confiabilidad testretest no se establece durante un estudio. El coeficiente de confiabilidad
testretest debe establecerse con anticipación, antes del estudio, utilizando un período de tiempo en el que poco
relacionado con la sustancia del instrumento debería estar sucediendo entre las dos administraciones del
instrumento.1 Incluso si la confiabilidad testretest Ya se ha establecido para el instrumento de elección, el
investigador necesita determinar algún tipo de confiabilidad para el presente estudio.
Fiabilidad de formas paralelas
Uno de los problemas de utilizar el mismo instrumento para la prueba previa y posterior de un estudio es que los
participantes pueden utilizar el conocimiento adquirido en la prueba previa para alterar la prueba posterior.
puntaje. Este problema, a menudo denominado prueba o efectos de arrastre, crea problemas importantes
para el investigador porque resulta imposible determinar si el cambio en las puntuaciones se debe a la
intervención o al conocimiento obtenido en la prueba preliminar. Una forma de evitar el problema de la
prueba previa es crear un diseño sin prueba previa (por ejemplo, el diseño del grupo de control sólo con
prueba posterior). Sin embargo, ese diseño sólo se puede utilizar si el investigador puede asignar
aleatoriamente a los participantes a los grupos. Un enfoque cuasiexperimental es más probable en entornos
aplicados, donde el investigador necesitará utilizar una prueba previa.
Para contrarrestar el problema de las pruebas, algunas pruebas tienen una segunda forma o forma
paralela que podría usarse como prueba posterior en lugar del instrumento utilizado para la prueba previa.
Se puede crear un formulario paralelo simplemente reordenando los elementos o escribiendo elementos
nuevos que sean similares a los elementos existentes. Es importante que los dos formularios tengan contenido similar.
La confiabilidad de las formas paralelas (es decir, el coeficiente de equivalencia) implica establecer la
relación entre las dos formas de una misma prueba. Este tipo de confiabilidad es fácil de establecer, ya que
implica que una muestra de participantes tome las dos formas del mismo instrumento con muy poco tiempo
transcurrido entre las dos administraciones. Luego, de manera similar a la confiabilidad testretest, se
determina un coeficiente de correlación para los dos conjuntos de puntuaciones. Nuevamente, se esperaría
un coeficiente de confiabilidad de al menos 0,80 para la confiabilidad de las formas paralelas.
Fiabilidad de coherencia interna
A menudo, además de obtener confiabilidad testretest, o confiabilidad de formas paralelas, el investigador

quiere saber si el instrumento es consistente entre los ítems; es decir, el instrumento mide un solo concepto
o constructo. En lugar de correlacionar diferentes administraciones del mismo instrumento, el investigador
puede utilizar los resultados de una única administración del instrumento para determinar la coherencia
interna. Los métodos más comunes para determinar la consistencia interna son el método de división por
mitades, el método de KuderRichardson (KR 20) y el alfa de Cronbach. Los dos últimos métodos a menudo
se denominan confiabilidad entre ítems y sólo se pueden utilizar cuando se tienen datos de varios ítems que
se combinan para formar una puntuación compuesta.
Métodos de división
por mitades Estos métodos para obtener confiabilidad de consistencia interna implican correlacionar dos
mitades de la misma prueba. El término mitad dividida es un término general para describir una serie de
métodos diferentes para correlacionar la mitad de la prueba con la segunda mitad de la prueba. Por ejemplo,
se podría correlacionar la primera mitad de la prueba con la segunda mitad de la prueba, o comparar los
ítems impares con los pares. Un tercer método, muy recomendado, es tomar una muestra aleatoria de la
mitad de los ítems de la prueba y correlacionarlos con los ítems restantes. Independientemente de cómo se
divida la prueba, es importante que las dos mitades sean similares en contenido y dificultad.
Uno de los problemas de obtener confiabilidad dividida por mitades es que al dividir la prueba en dos
mitades, el número de ítems se reduce en un 50% en comparación con la confiabilidad testretest o formas
alternativas de confiabilidad. Esta reducción de tamaño significa que el coeficiente de correlación resultante
probablemente subestimará la confiabilidad. Por lo tanto, una vez que se establece el coeficiente de
confiabilidad calculando el coeficiente de correlación, r, es necesario ajustar el tamaño de r usando la
fórmula de SpearmanBrown.2 Por ejemplo, si calcula el coeficiente de correlación entre la primera y la
segunda mitad de su prueba, y es igual a .7, la fórmula de SpearmanBrown estimaría que la confiabilidad
de las puntuaciones cuando se usa la prueba completa es aproximadamente .82.
KuderRichardson 20 (KR 20)
Si el instrumento que se utiliza tiene como objetivo medir un solo tema o rasgo, es deseable determinar cómo
se relacionan todos los elementos entre sí. Si cada ítem se califica de forma dicotómica, como aprobado/
reprobado, verdadero/falso, correcto/incorrecto, entonces KR 20 es un método apropiado para determinar la
confiabilidad entre ítems.
Alfa de Cronbach
Si cada ítem de la prueba tiene múltiples opciones, como una escala Likert, entonces el alfa de Cronbach es el
método de elección para determinar la confiabilidad entre ítems. El alfa también es apropiado para ítems
dicotómicos, por lo que puede usarse en lugar del KR 20. El alfa de Cronbach es el índice de confiabilidad más
comúnmente utilizado en el área de la investigación educativa y psicológica (Daniel y Witta, 1997).
Cabe señalar que las medidas de confiabilidad entre ítems, especialmente el alfa de Cronbach, se observan
a menudo al leer un artículo de investigación. La razón de esto, como se indicó anteriormente, es que solo se
necesita una administración del instrumento. Sin embargo, lo más importante es que alfa está relacionado con
la validez del constructo que se mide. Uno de los problemas del alfa de Cronbach es que, si bien es una medida
de consistencia interna, no necesariamente mide la homogeneidad o unidimensionalidad. En otras palabras,
la gente suele determinar el alfa de Cronbach y suponer que, dado que está en un nivel alto (p. ej., 0,85), la
prueba mide sólo un concepto o constructo. Desafortunadamente, como señaló Schmitt (1996), aunque las
correlaciones generales de los ítems pueden ser relativamente altas, podrían estar midiendo más de un factor
o dimensión. Esto puede generar problemas, porque uno de los supuestos al utilizar el alfa de Cronbach como
índice de confiabilidad es que está midiendo solo un constructo.
Advertimos que al informar la confiabilidad, si solo se proporciona el α de Cronbach, sin información que
indique que hay solo una dimensión subyacente u otro índice de confiabilidad, entonces la confiabilidad no se
ha evaluado adecuadamente.
El alfa de Cronbach fue informado en el estudio de Zamboanga, PadillaWalker, Hardy, Thompson y Wang
(2007). Para el rendimiento del examen, se calculó el alfa de Cronbach para “los ítems del examen basados en
la conferencia (α = 0,77; n = 40, 20% de todos los ítems de la prueba) y... todas las preguntas exclusivamente
basadas en texto (α = 0,73; n = 44, 22% de todos los ítems de la prueba)” (p. 159). Estos valores alfa de
Cronbach son inferiores a nuestro 0,80 sugerido, pero son lo suficientemente altos como para que estos ítems
se consideren internamente consistentes.
Confiabilidad entre evaluadores (entre
observadores) Los métodos anteriores para establecer la confiabilidad se lograron examinando las puntuaciones
de algún instrumento. Sin embargo, en ocasiones la herramienta de medición es la observación realizada por
los jueces. Cuando la observación es el método para recopilar datos, entonces se debe establecer la
confiabilidad entre las puntuaciones de los jueces para mantener la coherencia. Este tipo de confiabilidad se
conoce como confiabilidad entre evaluadores. Aunque existen numerosas formas de determinar esta forma de
confiabilidad, el tema común es que dos o más jueces (observadores) califican ciertos episodios de conducta y
se realiza algún tipo de correlación para determinar el nivel de acuerdo entre los jueces.
Métodos de acuerdo porcentual
Estos métodos implican que dos o más evaluadores, antes del estudio, observen una muestra de
comportamientos que serán similares a los que se observarían en el estudio. Es importante para el
dos evaluadores para discutir lo que calificarán (es decir, el constructo de interés) para ponerse de acuerdo sobre lo
que cada evaluador cree que es un ejemplo del constructo. Supongamos que el evaluador A observa 8 ocurrencias
de una conducta particular y el evaluador B observa 10 ocurrencias de la misma conducta. Luego se calcula un
porcentaje dividiendo el número menor de observaciones por el número mayor de observaciones del comportamiento
específico. En este caso el porcentaje es 80.
Uno de los problemas de este método es que, aunque ambos observadores pueden estar de acuerdo en que una
conducta fue provocada un número particular de veces, esto no significa que cada vez que ocurrió la conducta ambos
jueces estuvieron de acuerdo. Por ejemplo, supongamos que el comportamiento de la cooperación fuera la variable
dependiente de un estudio. Antes del estudio, dos jueces debían observar un salón de clases de estudiantes para
detectar casos particulares de cooperación. Un observador (juez) dijo que había ocho ejemplos de cooperación. Un
segundo observador dijo que había diez ejemplos de cooperación. El acuerdo porcentual sería 8 dividido por 10, o
80%. Sin embargo, es posible que los ocho casos observados por un juez no fueran los mismos casos observados por
el segundo juez. El porcentaje estaría inflado en este caso particular.
Utilizando una base punto por punto para establecer la confiabilidad entre evaluadores, cada comportamiento se
calificaría como un acuerdo o desacuerdo entre los jueces. El método punto por punto sería más fácil de realizar si el
comportamiento estuviera en una cinta que pudiera reproducirse para los jueces. Para calcular el porcentaje de
acuerdo en el método punto por punto, el número de acuerdos entre los dos jueces se dividiría por el número total de
respuestas (acuerdos más desacuerdos). Un problema con este método es que ignora los acuerdos aleatorios cuando
se utilizan pocas categorías. Un problema adicional con estos métodos de acuerdo porcentual es que son más
adecuados para situaciones con sólo dos evaluadores.
La confiabilidad entre evaluadores se utilizó en Penningroth, Despain y Gray (2007). Primero, una persona calificó
todas las pruebas. Luego, un segundo autor calificó de forma independiente 30 (9%) de los exámenes, 15 pruebas
previas y 15 pruebas posteriores. La confiabilidad fue alta tanto para el pretest r = 0,93 como para el postest, r = 0,94.
Este es un buen ejemplo del uso de la confiabilidad entre evaluadores, ya que no es necesario que ambos evaluadores
califiquen todas las observaciones después de lograr un coeficiente de confiabilidad alto.
Coeficientes de correlación intraclase (ICC)
A menudo, cuando se realiza un estudio utilizando observaciones de comportamiento como variable dependiente,
Se necesitan más de dos observadores. Los coeficientes de correlación intraclase permiten al investigador
calcular un coeficiente de confiabilidad con dos o más jueces. Para una excelente revisión de los métodos de tipo ICC,
incluido Kappa, consulte Bartko y Carpenter (1976). Un criterio que debe cumplirse para utilizar el coeficiente de
correlación intraclase es que la conducta a calificar debe escalarse a nivel de intervalo. Por ejemplo, cada evaluador
podría calificar casos de cooperación en una escala del 1 al 5. Estos ICC se calculan utilizando métodos de análisis
de varianza con medidas repetidas para analizar la confiabilidad entre evaluadores.3 (Discutimos el análisis de
varianza de medidas repetidas en el Capítulo 21 de este libro). Una segunda ventaja del método ICC para calcular la
confiabilidad entre evaluadores es que si los jueces se seleccionan al azar, entonces el investigador puede generalizar
la confiabilidad entre evaluadores más allá de la muestra de jueces que participaron en el estudio de confiabilidad.
Kappa
Un método para calcular los coeficientes de correlación intraclase cuando los datos son nominales es el estadístico
Kappa . Al igual que ICC, Kappa se puede calcular con dos o más evaluadores. Kappa puede validar que el acuerdo
supera el azar. Si bien los datos para utilizar Kappa suelen ser dicotómicos (p. ej., presentes o ausentes), no es raro
tener más de dos categorías nominales.
Teoría de la generalización, teoría de la respuesta al ítem y confiabilidad
Los métodos que hemos discutido para evaluar la confiabilidad se basan en la teoría de pruebas clásica.
Un problema importante con la teoría de pruebas clásica es que el error de medición se considera un
entidad única, que no proporciona al investigador la información necesaria para mejorar la
instrumento. La teoría de la generalización, una extensión de la teoría clásica de las pruebas, permite al investigador
estimar con mayor precisión los diferentes componentes del error de medición. En su
En su forma más simple, esta teoría divide la varianza que constituye una puntuación obtenida en
Componentes de la variación, como la variación que es atribuible a los participantes, a los jueces.
(observadores), y a los ítems. La teoría de la respuesta al ítem permite al investigador separar las características de
la prueba de las características de los participantes. Esto difiere tanto de la teoría clásica de las pruebas como de la
Teoría de la generalización al proporcionar información sobre la confiabilidad como una función de la capacidad en
lugar de promediar los niveles generales de capacidad. Nunnally y Bernstein (1994) y Strube
(2000) proporcionan discusiones más completas sobre estos temas.
Resumen
Hemos discutido diferentes métodos para evaluar la confiabilidad. Si bien cada método da
cierta medida de coherencia, no todos proporcionan la misma medida de coherencia. Le corresponde
Para que el consumidor sea consciente de cómo se estableció la confiabilidad antes de usar un producto en particular.
instrumento. Decir que un instrumento produce puntuaciones fiables tiene relativamente poco significado. Cada
declaración de confiabilidad debe especificar el tipo de confiabilidad y la solidez de la
coeficiente de confiabilidad.
Normalmente, si uno no crea el instrumento pero utiliza un instrumento ya publicado, entonces se deberían haber
establecido índices de confiabilidad. Los lugares más comunes
Para encontrar estudios de la confiabilidad del instrumento se encuentran en el manual del instrumento, el cual es
a menudo mencionado en la publicación de la revista que presentó el instrumento. La sección de instrumentación de
cualquier artículo de investigación que utilice el instrumento en particular también debe proporcionar información
sobre la confiabilidad de ese instrumento. Siempre es importante informar
confiabilidad de los datos del presente estudio. Dado que la confiabilidad es una función de los datos, la
Lo más probable es que los coeficientes de confiabilidad sean diferentes de una administración a otra.
La confiabilidad de las mediciones es una cuestión excepcionalmente importante para la investigación en entornos
aplicados. Muchas de las cuestiones están fuera del alcance del presente texto. Para aquellos interesados en
Para profundizar en la confiabilidad de la medición, especialmente para la construcción de un instrumento,
recomendamos los textos de Cronbach (1990) y Crocker y Algina (2006). La tabla 11.1 proporciona una
resumen de los conceptos tratados en los apartados anteriores.
Tabla 11.1
Hay confiabilidad de:
a. Respuestas de los participantes
1. Fiabilidad de prueba y repetición: estabilidad en el tiempo
2. Fiabilidad de formas paralelas : coherencia entre versiones presumiblemente equivalentes del instrumento.
3. Coherencia interna: los elementos que se van a combinar están relacionados entre sí.
b. Respuestas de los observadores
4. Confiabilidad entre evaluadores: diferentes observadores o evaluadores otorgan puntuaciones similares
Nota: Confiabilidad significa estabilidad o consistencia de puntuaciones, observaciones o calificaciones.

Conceptos clave
Alfa de Cronbach
Coeficiente de correlación
Error
Coeficientes de correlación intraclase
Kappa
KuderRichardson 20
Puntuación observada
Métodos de acuerdo porcentual

Métodos de dividir por mitades
Error estándar de medición

puntuación verdadera
Distinciones clave
Fiabilidad de la medición versus validez de la medición
Pruebareprueba versus formas paralelas versus consistencia de intervalo versus evidencia entre
evaluadores para la confiabilidad de la medición
1. Un investigador está interesado en determinar si los terapeutas interrumpen más a las clientas que a
los masculinos. Ha obtenido cintas de vídeo de 30 sesiones de terapia y planea contar el número de
veces que el terapeuta interrumpe a clientes masculinos y femeninos. El investigador contrata a un
estudiante de posgrado para que cuente la aparición de interrupciones en todas las cintas. Luego, el
investigador contrata a otro estudiante de posgrado para que cuente la aparición de interrupciones
en 12 de las cintas. ¿Por qué el investigador contrató al segundo estudiante de posgrado? ¿Qué tipo
de evidencia de confiabilidad le preocupa al investigador? ¿Qué procedimiento estadístico podría
utilizar mejor el investigador para determinar este tipo de confiabilidad?
2. Un investigador ha desarrollado una medida de ansiedad. Ella planea utilizar la medida por primera
vez para determinar si aprender técnicas de reducción del estrés influirá en los niveles de ansiedad.
Ella da su medida de ansiedad a su clase de psicología de pregrado y les enseña técnicas de
reducción del estrés. Al día siguiente, vuelve a medir su ansiedad. Le complace informar que su
confiabilidad en la prueba y la repetición de la prueba es muy alta (0,98). Te das cuenta de que ella
no comprende completamente la confiabilidad de la prueba y la repetición de la prueba. ¿Qué
recomendaciones le haría sobre cómo establecer apropiadamente la confiabilidad testretest?
3. ¿Cuál es el método apropiado (si lo hay) para determinar la confiabilidad de la consistencia interna
para las siguientes medidas? a. Una
medida de locus de control de 10 ítems puntuada como verdadero o falso.
b. Una medida de intimidad de 80 ítems puntuada con una escala Likert de cinco puntos.
C. Una medida de un solo elemento (“¿A quién se le da más prioridad en la carrera entre usted y
su cónyuge?”) de prioridad profesional relativa entre cónyuges.
4. Se presenta a los investigadores una nueva forma de prueba de inteligencia para usar con niños
de primaria en los Estados Unidos. La prueba se ha realizado con gran entusiasmo en varios
estados occidentales. A los investigadores de Colorado les gustaría tener más información antes
de poner a prueba el instrumento. Se les ha informado que la desviación estándar es 15 y el
coeficiente de confiabilidad es, en promedio, .74.
¿Cuál es el error estándar de medición? ¿Por qué es útil saber esto? ¿Cómo se mediría esto?
5. Se utilizó un instrumento de apoyo para medir el apoyo percibido por parte de compañeros de
trabajo en una institución de salud mental. Los participantes respondieron a cuatro ítems en una
escala tipo Likert de siete puntos. El alfa de Cronbach para la escala (de apoyo) fue de 0,79. ¿Qué
quiere decir esto?
6. Gliner ha desarrollado una prueba de opción múltiple llamada “Tengo muchas ganas de ingresar a
la escuela de posgrado” para facilitar el proceso de selección. (Además, si hay suficientes otras
escuelas interesadas, podría ganar algo de dinero). Quiere determinar evidencia de confiabilidad.
a. Describe al menos tres
métodos que podría utilizar para evaluar la confiabilidad. b. Después de realizar estudios
sobre confiabilidad, Gliner concluye que la prueba es confiable. ¿Qué hay de malo en esta
afirmación, si es que hay algo?
Notas
1. Esto es especialmente importante en experimentos y en áreas como el desarrollo infantil, donde el rápido crecimiento
durante el intervalo entre las dos administraciones del instrumento podría alterar la confiabilidad de la prueba
reprueba.
2. La fórmula de SpearmanBrown se usa más comúnmente para determinar la confiabilidad de una prueba si hay más
los elementos debían sumarse o restarse.
3. Si bien parece que los coeficientes de correlación intraclase se utilizan más comúnmente para la confiabilidad entre
evaluadores, especialmente en la literatura sobre rehabilitación, estos mismos métodos pueden usarse para la
confiabilidad testretest y la confiabilidad de la consistencia interna (Shavelson, 1988).
12
Validez de la medición
En este capítulo analizamos la validez de la medición. La validez de la medición se ocupa de establecer

evidencia para el uso de una medida o instrumento particular en un entorno particular con una población
particular para un propósito específico. Usamos el término validez de medición; otros podrían utilizar términos
como validez de la prueba, validez de la puntuación o simplemente validez. Usamos la medida del modificador
para distinguirla de la validez interna, externa y general de la investigación (que se analiza en los Capítulos
8, 9, 23 y 24) y para señalar que las puntuaciones proporcionan evidencia de validez; No es apropiado decir
que una prueba es “válida” o “inválida”. Por lo tanto, cuando abordamos la cuestión de la validez de la
medición con respecto a una prueba en particular, estamos abordando la cuestión de la evidencia de la
validez de las puntuaciones de esa prueba para un propósito particular y no la validez de la prueba o
instrumento.
Las puntuaciones de una prueba determinada pueden usarse para varios propósitos. Por ejemplo, los
puntajes del área de especialidad en el Graduate Record Examination (GRE) podrían usarse para predecir el
éxito en el primer año en la escuela de posgrado. Sin embargo, las puntuaciones también podrían utilizarse
como método para evaluar el estado actual o los logros en una especialización universitaria en particular.
Aunque se utiliza la misma prueba en ambos casos, el propósito de la prueba es diferente y, por lo tanto, la
evidencia que respalda cada propósito podría ser bastante diferente.
La confiabilidad o consistencia es necesaria para la validez de la medición. Sin embargo, un instrumento
puede producir datos consistentes (proporcionar evidencia de confiabilidad), pero los datos pueden no ser
válidos. Por ejemplo, se podría construir un dispositivo para medir la distancia de salto de los estudiantes y
luego utilizar las puntuaciones como medidas del conocimiento de la investigación. Supongamos que los
participantes saltan consistentemente longitudes similares, lo que proporciona evidencia de confiabilidad. Sin
embargo, los datos no se considerarían válidos, ya que no brindan información sobre el conocimiento de la investigación.
Este es un ejemplo extremo, pero muestra la importancia de utilizar medidas apropiadamente para obtener
datos válidos.
En los artículos de investigación, generalmente hay más evidencia de la confiabilidad del instrumento que
de su validez porque la evidencia de la validez es más difícil de obtener. Para establecer la validez, idealmente
se necesita un “estándar de oro” o “criterio” relacionado con el propósito particular de la medida. Obtener tal
criterio a menudo no es una cuestión fácil, por lo que se necesitan otros tipos de evidencia para respaldar la
validez de una medida.
Desde 1966 hasta 1999, los Estándares para Pruebas Educativas y Psicológicas (también denominados
Estándares) incluían la llamada visión trinitaria de la validez, que categorizaba la validez en tres tipos: validez
de contenido, validez relacionada con el criterio (incluidos los métodos concurrentes y predictivos). y validez
de constructo. Sin embargo, los Estándares de 1985 advirtieron que el uso de etiquetas (contenido, criterio y
constructo) no debería llevar a la implicación de que había tres tipos distintos de validez. Cada vez más, la
validez se ha conceptualizado como un concepto unitario; Se deben recopilar muchos tipos de evidencia
para ayudar a evaluar la validez de un conjunto de datos determinado. Durante las décadas de 1980 y 1990,
se comenzó a enfatizar el proceso de acumulación de evidencia en apoyo de la validez.
165
Tabla 12.1
Comparación de las normas de 1985 con las de 1999

Normas de 1999 Normas de 1985
Evidencia basada en el contenido. Evidencia relacionada con el contenido
Evidencia basada en procesos de respuesta Evidencia relacionada con el constructo
Evidencia basada en estructura interna. Evidencia relacionada con el constructo
Evidencia basada en relaciones con otras variables Evidencia relacionada con criterios y evidencia relacionada con constructos
Evidencia basada en consecuencias. Ninguno
Los estándares actuales (Asociación Estadounidense de Investigación Educativa, Asociación Estadounidense de Investigación Educativa,
Asociación de Psicología y Consejo Nacional de Medición en Educación, 1999)

describió la validez como “el grado en que la evidencia y la teoría apoyan las interpretaciones
de las puntuaciones de las pruebas” (p. 9). Los estándares continúan diciendo que “el proceso de validación implica
acumular evidencia para proporcionar una base científica sólida para las interpretaciones de partituras propuestas.
Son las interpretaciones... las que se evalúan, no la prueba en sí” (p. 9).
Tenga en cuenta que los estándares actuales (Asociación Estadounidense de Investigación Educativa et al.,
1999) son diferentes de las versiones anteriores de los Estándares y de la mayoría de las discusiones previas sobre
este concepto. Goodwin y Leech (2003) publicaron un resumen útil de los cambios con
Recomendaciones para la enseñanza de cursos de medición. En este capítulo examinamos la validez
desde la perspectiva de las nuevas normas. Creemos que es importante comprender los métodos anteriores para
determinar la validez de la medición, a menudo denominados la concepción trinitaria de la validez de la medición
(es decir, validez de contenido, de criterio y de constructo). Sin embargo, todos
de estos métodos anteriores están incluidos en los nuevos estándares. La tabla 12.1 demuestra
las diferencias entre las normas antiguas y las nuevas. Presentamos los cinco tipos generales de evidencia para
respaldar la validez de una prueba o medida que surgieron de los Estándares de 1999.
Estos cinco tipos de evidencia de validez son (1) contenido; (2) procesos de respuesta; (3) interno
estructura; (4) relaciones con otras variables; y (5) las consecuencias de las pruebas. Tenga en cuenta que el
cinco tipos de evidencia no son tipos separados de validez y que cualquier tipo de evidencia por sí solo
es insuficiente. La validación debe integrar toda la evidencia pertinente de la mayor cantidad posible de
cinco tipos de evidencia como sea posible. Preferiblemente, la validación debe incluir alguna evidencia en
Además de la evidencia de contenido, que es probablemente la más común y fácil de obtener.
Introducción a la validez de las normas de 1999

Como se mencionó anteriormente, en 1999, los Estándares para comprender la validez de las mediciones
cambió. La tabla 12.1 debería ayudarle a comprender la relación entre la trinidad
visión de la validez y la evaluación actual de la validez basada en la evidencia.
Evidencia basada en el contenido de la medida
La evidencia de contenido se refiere a si el contenido que compone el instrumento es representativo del concepto
que se intenta medir. ¿El instrumento es preciso?
¿Representa los aspectos principales del concepto y no incluye material que sea irrelevante para él?
Por ejemplo, Fisher (1995) construyó un instrumento llamado Evaluación de las funciones motoras y
Habilidades de proceso (AMP). Uno de los aportes más importantes del instrumento es que
Validez de la medición 167
tiene solidez ecológica. Fisher hace que los participantes elijan realizar tareas “cotidianas” de una lista de
posibles tareas que requieren habilidades motoras y de proceso. Si Fisher pidiera a los participantes que
apilaran bloques o realizaran otros tipos artificiales de tareas motoras, entonces su prueba no tendría una
gran validez de contenido, aunque las tareas artificiales implicaran actividad motora. Su prueba tiene
evidencia sólida basada en el contenido de la medida no solo porque las tareas involucran actividad motora
y de proceso sino también porque son representativas de los tipos de tareas que una persona haría en la
vida cotidiana. Este tipo de evidencia es importante para casi todas las medidas y se basa en un análisis
lógico del contenido de la medida.
No existe ninguna estadística que demuestre evidencia basada en el contenido de la medida.
En cambio, el proceso de establecer este tipo de evidencia generalmente comienza con una definición del
concepto que el investigador intenta medir. Un segundo paso es una búsqueda bibliográfica para ver cómo
se representa este concepto en la literatura. A continuación se generan ítems que puedan medir este
concepto. Gradualmente, esta lista de elementos se reduce para formar la prueba o medida.
Uno de los principales métodos para reducir elementos es formar un panel de expertos para revisar la
representatividad del concepto. Debido a que este tipo de evidencia depende del acuerdo lógico, pero
subjetivo, de unos pocos expertos, la consideramos evidencia necesaria pero no suficiente. Los expertos
revisan la medida para determinar su claridad y ajuste con el constructo que se va a medir. Goodwin y
Leech (2003) indicaron que a menudo también se pide a los expertos que revisen la medida para detectar
posibles sesgos (p. ej., género, cultura, edad). Es importante examinar si se puede otorgar una ventaja
injusta a ciertos subgrupos porque la prueba mide más de lo previsto (componentes irrelevantes para el
constructo) o menos (subrrepresentación del constructo) de lo previsto. Un ejemplo de un componente
irrelevante para el constructo sería una medida que incluye términos que los examinados no entienden, lo
que, a su vez, hace que las puntuaciones sean más bajas de lo que deberían ser. La subrepresentación
de un constructo ocurre cuando aspectos de un constructo no están incluidos en el constructo mismo.
Evidencia basada en procesos de respuesta
Goodwin y Leech (2003) señalaron que en la edición de 1985 de los Estándares, la evidencia basada en
procesos de respuesta se incluía bajo la validez relacionada con el constructo. La evidencia basada en
procesos de respuesta se define como el grado en que los tipos de respuestas de los participantes
coinciden con el constructo previsto. Por ejemplo, con las medidas de constructos de autoinforme
necesitamos evidencia de que los encuestados no sólo están dando respuestas socialmente deseables.
Otro ejemplo serían los estudiantes que toman un examen de matemáticas de opción múltiple. El maestro
espera que los estudiantes estén usando habilidades matemáticas analíticas al responder las preguntas,
no habilidades para tomar exámenes de opción múltiple (es decir, si no sabe, responda “B”). Este tipo de
evidencia se puede reunir observando a los examinados mientras realizan tareas y preguntando a los
participantes para identificar sus razones para dar ciertas respuestas.
Además de examinar las respuestas de los participantes, este tipo de evidencia de validez podría incluir
un examen de las respuestas de los observadores, calificadores o jueces para determinar si están
utilizando los criterios apropiados. Este tipo de evidencia del proceso de respuesta es el grado en que los
evaluadores están influenciados por factores irrelevantes al emitir sus juicios.
Evidencia basada en estructura interna
Este tipo de evidencia, al igual que la basada en procesos de respuesta, se colocó originalmente en la
concepción de la trinidad bajo validez de constructo. En este caso puede resultar útil la evidencia
procedente de varios tipos de análisis, incluido el análisis factorial y el funcionamiento diferencial de ítems
(DIF). Los Estándares (Asociación Estadounidense de Investigación Educativa et al., 1999) dijeron:
Los análisis de la estructura interna de una prueba pueden indicar el grado en que las
relaciones entre los ítems y los componentes de la prueba se ajustan al constructo en el que
se basan las interpretaciones propuestas de las puntuaciones de la prueba. El marco conceptual
de una prueba puede implicar una sola dimensión de comportamiento, o puede postular varios
componentes que se espera que sean homogéneos, pero que también son distintos entre sí.
Por ejemplo, una medida de malestar en una encuesta de salud podría evaluar tanto la salud
física como la emocional. La medida en que las interrelaciones de los elementos confirman los
supuestos del marco sería relevante para la validez. (pág.13)
La mayoría de las encuestas tienen un constructo general que medir; en este ejemplo, el constructo
fue malestar. Muchas veces, la construcción general tendrá subconstrucciones; múltiples áreas que se
combinan para medir la construcción general. En este ejemplo, los subconstructos fueron salud física
y salud emocional. El análisis factorial puede proporcionar evidencia basada en la estructura interna
cuando un constructo es complejo y se miden varios aspectos (o factores) del mismo.
Si la agrupación de ítems respalda la agrupación de ítems basada en la teoría, se proporciona evidencia
factorial. Por lo tanto, a partir de este ejemplo, un análisis factorial nos ayudaría a identificar si los datos
respaldan los dos subconstructos al indicar si los encuestados respondieron de manera similar a las
preguntas sobre salud física. Un análisis factorial también mostraría si los encuestados respondieron
de manera similar a las preguntas sobre salud emocional. Para obtener más explicaciones sobre el
análisis factorial, consulte el Capítulo 15.
Tenga en cuenta que se supone incorrectamente que un alfa de Cronbach alto (ver Capítulo 11)
proporciona evidencia de que una medida contiene sólo una dimensión o constructo; es posible tener
un alfa de Cronbach alto y estar midiendo múltiples dimensiones; por lo tanto, no se debe confiar en el
alfa de Cronbach para evaluar la evidencia basada en la estructura interna.
Evidencia basada en relaciones con otras variables
Esta categoría de evidencia es la más extensa e incluye las categorías de validez relacionada con el
criterio y gran parte de lo que se incluyó bajo la validez de constructo. Los constructos son conceptos
hipotéticos que no se pueden observar directamente. La inteligencia, la depresión, la motivación para
el dominio y la ansiedad son constructos. Aunque no podemos observar un constructo directamente, la
mayoría de nosotros estamos de acuerdo en que estos constructos pueden inferirse de conductas
observables. Por ejemplo, no podemos observar directamente la ansiedad, pero en determinadas
circunstancias podemos observar comportamientos ansiosos, como sudar o caminar de un lado a otro,
que son específicos de un contexto particular, como inmediatamente antes de un examen importante.
Además, a menudo inferimos un constructo a partir de autoinformes en un inventario o en una
entrevista. Estos autoinformes pueden ser útiles, pero es prudente ser cautelosos a la hora de
aceptarlos como prueba de validez. Es común crear instrumentos para medir constructos particulares
(por ejemplo, un inventario que mide el estado de ansiedad o una prueba que mide la inteligencia).
Cuando se aplica a un instrumento evidencia basada en relaciones con otras variables, existe el
requisito de que el constructo que el instrumento está midiendo esté guiado por una teoría subyacente.
A menudo, especialmente en las disciplinas aplicadas, hay poca teoría subyacente que respalde el
constructo. Como señaló Cronbach (1960), “a veces la prueba se utiliza durante mucho tiempo antes
de que se desarrolle cualquier teoría en torno a ella” (p. 121). Sin embargo, la validación de constructo
es un proceso (proceso relativamente lento) en el que el investigador realiza estudios para intentar
demostrar que el instrumento está midiendo un constructo.
Relaciones pruebacriterio Esto

se refiere a correlacionar el instrumento con alguna forma de criterio externo o externo mensurable. Un
ejemplo común son los instrumentos destinados a seleccionar participantes.
para la admisión a una escuela u ocupación. Dos tipos de evidencia para la validez de criterio se denominan
predictiva y concurrente.
Evidencia de criterio predictivo
Cuando intentamos determinar cómo le irá a alguien en el futuro en función de su desempeño en un instrumento
en particular, generalmente nos referimos a evidencia predictiva.
Exámenes como el SAT y el Graduate Record Examination (GRE) son ejemplos de instrumentos que se utilizan
para predecir el desempeño futuro. Si el SAT proporcionara buena evidencia predictiva, entonces los estudiantes
que obtengan una puntuación alta en esta prueba tendrían un mejor desempeño en la universidad que aquellos
que no obtengan una puntuación alta. El criterio en este caso sería alguna medida de qué tan bien se
desempeñan los estudiantes en la universidad, generalmente calificaciones durante el primer año.
Para establecer evidencia predictiva en el ejemplo anterior, los estudiantes de secundaria tomarían el SAT.
Luego, cuando terminen su primer año de universidad, se establecerán correlaciones entre sus puntuaciones
del SAT de la escuela secundaria y las calificaciones universitarias. Si la correlación es alta, entonces la evidencia
predictiva es buena. Si la correlación es baja, entonces la prueba tiene problemas para predecir el desempeño
futuro. Un problema con la evidencia predictiva es que a menudo no todos los participantes que fueron evaluados
con el instrumento original pueden ser evaluados con la variable criterio. Este es especialmente el caso en los
estudios de selección. Por ejemplo, es posible que tengamos puntajes del SAT para una amplia gama de
estudiantes de secundaria. Sin embargo, no todos estos estudiantes serán admitidos en la universidad. Por lo
tanto, nuestra variable de criterio de promedio de calificaciones universitarias (GPA) del primer semestre no solo
tendrá menos participantes que nuestra variable predictiva sino que también representará un grupo más
homogéneo (solo aquellos admitidos a la universidad). Por lo tanto, el rango de puntuaciones de quienes podrían
participar en el estudio tanto en las variables predictoras como en las de criterio está restringido, disminuyendo
así la confianza en nuestra evidencia predictiva.
Un segundo inconveniente de la evidencia predictiva es que el investigador debe esperar hasta que aquellos
que fueron evaluados inicialmente puedan ser medidos según el criterio. A veces esta espera puede llevar años.
A veces este tipo de evidencia se encuentra retrospectivamente. Por ejemplo, a los estudiantes que están en la
universidad se les pregunta cuáles fueron sus puntajes en el SAT y cuál es su GPA actual, y estas dos variables
están correlacionadas.
Evidencia de criterios concurrentes
De manera similar a la evidencia predictiva, la evidencia concurrente también examina la relación entre un
instrumento y un criterio externo. Sin embargo, a veces resulta demasiado caro esperar entre el momento en
que se realiza la prueba y la medición del criterio. Por ejemplo, supongamos que queremos ver si una prueba
estandarizada a nivel estatal es un buen indicador del aprendizaje de un estudiante. Para determinar evidencia
concurrente, podríamos tomar los puntajes de los exámenes de los estudiantes y correlacionarlos con los
puntajes o calificaciones de los exámenes de fin de año. Si hay una correlación alta, podemos tener cierta
confianza en que la prueba de evaluación estatal está midiendo el conocimiento de los estudiantes. Además, la
evidencia concurrente es apropiada cuando se propone una prueba como sustituto de una medida de criterio
(quizás una que sea más costosa o requiera más tiempo de administración). El desarrollador de la prueba espera
que la medida menos costosa o que requiera más tiempo proporcione información muy similar y, por lo tanto,
una alta correlación con el criterio (Cronbach, 1990).
También se puede obtener evidencia concurrente sustituyendo el criterio por otro instrumento, especialmente
si es difícil medir el criterio. Por ejemplo, las AMP (Fisher, 1995) se compararon con las Escalas de
Comportamiento Independiente en adultos con problemas de desarrollo.
discapacidades (Bryze, 1991). Sin embargo, el instrumento que sustituye al criterio nunca puede ser
más válido que el criterio. Se debe tener cautela al sustituir un criterio por un instrumento, ya que en
muchos casos el instrumento sustituido no ha sido validado frente al criterio de interés. Este suele ser
el caso de los resultados terapéuticos o educativos.
Quizás lo más importante es que si se sustituye el criterio por otro instrumento, ¿qué tamaño de
correlación se esperaría? Si el coeficiente de correlación es bastante grande (por ejemplo, 0,8 o 0,9),
entonces su instrumento no proporciona información diferente a la del instrumento de criterio. Si la
correlación es demasiado pequeña, entonces su instrumento está midiendo un constructo diferente al
instrumento de criterio.
El principal inconveniente de la validez de criterio es el problema de identificar y luego poder medir
un criterio adecuado. Por ejemplo, la admisión a los programas de las escuelas de medicina en los
Estados Unidos es difícil debido al gran número de solicitantes para el número limitado de puestos.
Para seleccionar a los solicitantes seleccionados, a menudo se utilizan criterios como calificaciones y
pruebas de rendimiento. Los estudiantes (especialmente aquellos que no son admitidos) pueden
quejarse de que las altas calificaciones no convierten a una persona en un buen médico. ¿Se podría
crear una prueba de admisión que prediga llegar a ser un buen médico? Consideremos los problemas
de definir y medir el criterio de lo que constituye a un buen médico. La dificultad de identificar criterios
buenos y mensurables para muchos conceptos complejos fue una de las razones clave para
desarrollar otros métodos que proporcionaran evidencia de validez.
Evidencia convergente y discriminante La

evidencia convergente se determina obteniendo correlaciones relativamente altas entre una escala y
otras medidas que, según la teoría, estarían relacionadas positivamente. Para demostrar la validez
del constructo, se desarrollan hipótesis sobre lo que el instrumento debería predecir (evidencia
convergente o validez) si en realidad estuviera midiendo el constructo. Por otro lado, la evidencia
discriminante se proporciona al obtener relaciones relativamente bajas entre una escala y medidas
que la teoría sugiere que no deberían estar relacionadas. También se puede obtener evidencia
discriminante comparando grupos que deberían diferir en una escala y descubriendo que, de hecho,
difieren.
Los Estándares (American Educational Research Association et al., 1999) proporcionan un buen
ejemplo de evidencia convergente y discriminante basada en relaciones entre variables:
Se podría esperar que las puntuaciones de una prueba de comprensión lectora de opción múltiple se relacionen
estrechamente (evidencia convergente) con otras medidas de comprensión lectora basadas en otros métodos,
como las respuestas de ensayo; por el contrario, se podría esperar que las puntuaciones de las pruebas se
relacionaran menos estrechamente (evidencia discriminante) con medidas de otras habilidades, como el
razonamiento lógico. (pág.14)
Generalización de la
validez El otro tipo principal de evidencia discutido bajo la categoría de evidencia basada en
relaciones con otras variables es la generalización de la validez. Los Estándares describen que este
tipo de evidencia plantea la importante cuestión en entornos educativos y laborales del grado en que
la evidencia de validez relacionada con un criterio puede generalizarse a una nueva situación.
Desafortunadamente, en el pasado, las relaciones de una prueba con criterios similares a menudo
variaban sustancialmente de una situación a otra. Así, como en el metanálisis, “los resúmenes
estadísticos de estudios de validación anteriores en situaciones similares pueden ser útiles para
estimar las relaciones pruebacriterio en una situación nueva. Esta práctica se conoce como estudio
de generalización de la validez” (American Educational Research Association et al., 1999, p. 15).
La generalización de la validez puede verse como tomar información sobre la validez de una prueba (por
ejemplo, el GRE) y extrapolar los hallazgos a otro grupo. Por ejemplo, los administradores de exámenes
podrían descubrir que los estudiantes que toman el GRE obtienen buenos resultados en determinadas
circunstancias. Con base en esta información, los administradores del examen podrían decidir que el GRE se
puede utilizar en las mismas condiciones con estudiantes que tienen dificultades de aprendizaje.
Evidencia basada en las consecuencias de las pruebas
Goodwin y Leech (2003) afirmaron que este tipo de evidencia de validez, que era nueva en los Estándares de
1999, incluye consecuencias de medición anticipadas e imprevistas tanto positivas como negativas. Los
Estándares (Asociación Estadounidense de Investigación Educativa et al., 1999) declararon:
Las pruebas comúnmente se administran con la expectativa de que se obtendrá algún beneficio
del uso previsto de las puntuaciones. Algunos de los muchos beneficios posibles son la
selección de tratamientos terapéuticos eficaces, la colocación de trabajadores en trabajos
adecuados, la prevención de que personas no calificadas ingresen a una profesión o la mejora
de las prácticas de instrucción en el aula. Un propósito fundamental de la validación es indicar
si es probable que se obtengan estos beneficios específicos. (pág.16)
Este tipo de evidencia se agregó a los estándares en 1999 para ayudar a los investigadores a considerar cómo
el uso de medidas afecta negativa y positivamente a los encuestados.
Validez de la medición: un ejemplo Morgan et
al. proporcionaron varios tipos de evidencia. (1993) para el Cuestionario de Dimensiones de Maestría (DMQ),
que fue diseñado para medir cinco aspectos de la motivación de dominio. El análisis factorial respaldó la
agrupación de elementos en estos cinco grupos apropiados, proporcionando cierta evidencia basada en la
estructura interna. Las puntuaciones generales del DMQ se relacionaron con la persistencia infantil en tareas
conductuales, lo que proporcionó evidencia convergente, y las calificaciones maternas de los bebés con
desarrollo normal fueron más altas que las calificaciones maternas de los bebés en riesgo y retrasados, lo que
proporcionó cierta evidencia discriminatoria. Si se identificara correctamente a los bebés como en riesgo de
sufrir problemas de dominio posteriores y se obtuviera una intervención temprana adecuada, las consecuencias
de utilizar este cuestionario para tal propósito serían positivas. Observe que se utilizaron tres tipos diferentes
de evidencia de validez para respaldar el DMQ. No es realista que cualquier instrumento o prueba espere
evidencia de validez de todos los métodos posibles, pero, como se mencionó anteriormente, es muy deseable
tener más de un tipo de evidencia.
Evaluación de la validez de la medición Nuestras
sugerencias sobre cómo evaluar la solidez del respaldo a la validez de la medición dependen del tipo de
evidencia. La evaluación de la evidencia basada en el contenido, el proceso de respuesta, la estructura interna
y las consecuencias de las pruebas es subjetiva y depende de juicios lógicos del investigador u otros expertos.
La evaluación de la evidencia basada en relaciones (a menudo correlaciones) con otras variables también
requiere un juicio porque no existen reglas bien establecidas ni siquiera pautas.
Nuestra sugerencia es utilizar las pautas de Cohen (1988) para interpretar los tamaños del efecto, que son
Medidas de la fuerza de una relación. En el Capítulo 17, describimos varias medidas del tamaño del efecto
y cómo interpretarlas. Para evaluar la validez de la evidencia estadística, el coeficiente de correlación (r) es
la estadística más común (la correlación se describe brevemente en el Capítulo 10 y con más detalle en el
Capítulo 21). Cohen sugirió que, en general, en las ciencias conductuales aplicadas, r = 0,5 podría
considerarse un efecto grande y, en este contexto, consideraríamos que r = 0,5 o más representa un fuerte
apoyo a la validez de la medición. En general, r > 0,3 proporcionaría un nivel aceptable de apoyo , y algún
apoyo débil podría resultar de r > 0,1, suponiendo que dicho r fuera estadísticamente significativo (véase
también el análisis del Capítulo 23 sobre la validez de la medición). Sin embargo, para evidencia de criterio
concurrente, si el criterio y la prueba que se validan son dos medidas similares del mismo concepto (por
ejemplo, CI), se esperaría que la correlación fuera muy alta, tal vez 0,8 o 0,9. Por otro lado, para evidencia
convergente, las medidas no deberían estar tan altamente correlacionadas porque deberían ser medidas de
conceptos diferentes. Si las medidas estuvieran muy relacionadas, uno podría preguntarse si realmente
estaban midiendo el mismo concepto.
Resumen La
tabla 12.2 resume gran parte del material anterior, incluidos los principales tipos de evidencia y un resumen
de qué evidencia respaldaría la validez de la medida. Un instrumento no es válido o inválido; sin embargo,
puede haber diversos grados de apoyo para su uso con poblaciones particulares para propósitos particulares.
La solidez de la evidencia para la validez de las medidas es extremadamente importante para la investigación
en entornos aplicados porque sin medidas que produzcan datos que tengan evidencia sólida de validez, los
resultados del estudio pueden ser muy engañosos. La validación es un proceso continuo, que nunca se
logra por completo, basado en la integración de toda la evidencia de tantas fuentes como sea posible.
Conceptos clave
Evidencia de validez basada en el contenido.
Evidencia de validez basada en procesos de respuesta.
Evidencia de validez basada en la estructura interna.
Evidencia de validez basada en relaciones con otras variables.
Evidencia de validez basada en consecuencias.
Distinciones clave
Evidencia relacionada con criterios: predictiva versus concurrente
Validez de la medición versus validez de la investigación
Tabla 12.2
Evidencia de validez de la medición

Tipo de evidencia El soporte para la validez depende de...
Evidencia basada en el contenido: Todos los aspectos del constructo Buen acuerdo por parte de los expertos sobre el contenido y que
están representados en proporciones apropiadas. representa el concepto a evaluar.
Evidencia basada en procesos de respuesta: las respuestas de Evidencia de que los participantes y evaluadores no están
los participantes coinciden con el constructo previsto. influenciados por factores irrelevantes como la deseabilidad social
Evidencia basada en estructura interna: Relaciones entre Estructura factorial significativa consistente con la
ítems de la prueba consistentes con el marco conceptual. organización conceptual de los constructos.
Evidencia basada en relaciones con otras variables.

Criterio concurrente: la prueba y el criterio son El tamaño del efecto de la relación.
medido al mismo tiempo.
Predictivo de criterio: la prueba predice algún criterio en el futuro. El tamaño del efecto de la relación.
Convergente: según la teoría, las variables que se predice que están El tamaño del efecto de la relación.
relacionadas están relacionadas.
Discriminante: las variables que se predice que no estarán relacionadas El tamaño del efecto de la relacióna,b
no están relacionadas.
Generalización de la validez: los resultados que utilizan la Estudios metanalíticos de apoyo.

medida se generalizan a otros entornos.
Evidencia basada en consecuencias: La realización de la prueba Evidencia de que las consecuencias positivas superan a las
produce beneficios para los participantes. negativas inesperadas en términos de los resultados de, por ejemplo,
la terapia o la colocación laboral.
a La fuerza o nivel de apoyo a la validez (débil, medio, fuerte) podría basarse en el efecto de Cohen (1988)
pautas de tamaño, con las calificaciones indicadas en el texto.
b
Dependiendo de los datos, la estadística de fuerza de asociación adecuada variará.
1. Un investigador está interesado en la influencia de la igualdad conyugal en la satisfacción
conyugal. Al leer la literatura, descubre que se han utilizado muchas variables (o factores) para
definir operativamente la igualdad, como el poder compartido de toma de decisiones entre los
cónyuges, la división justa del trabajo y la igualdad de acceso a las finanzas. Decide incluir
varios de estos factores en su medida de igualdad. ¿Le preocupa al investigador la confiabilidad
o la validez cuando toma decisiones sobre la mejor manera de medir la igualdad? ¿Qué tipo
de confiabilidad o validez le preocupa principalmente? Al analizar sus datos, ¿cómo podría
determinar si las variables que midió estaban relacionadas con su variable independiente?
2. Gliner desarrolló una prueba de opción múltiple llamada “Tengo muchas ganas de ingresar a la
escuela de posgrado” para facilitar el proceso de selección. (Además, si hay suficientes otras
escuelas interesadas, podría ganar algo de dinero.) Después de determinar la evidencia de
confiabilidad, quiere evaluar la evidencia de validez. Gliner realiza un estudio de validez predictiva.
Da su prueba a todos los estudiantes admitidos en el programa de posgrado en 1988. Cinco
años después, envía a cada estudiante un cuestionario de un solo ítem. La pregunta es:
"¿Cuánto dinero gana al año?" La correlación entre las puntuaciones de la prueba de Gliner y
el nivel salarial es de 0,70. Por lo tanto, Gliner sugiere que la prueba se utilice en el futuro para
los solicitantes.
a. ¿Cuáles son algunos de los problemas encontrados con la forma en que Gliner estableció
la evidencia de
validez? b. ¿Cómo pudo Gliner haber obtenido información de validez utilizando validez
concurrente? C. En comparación con la validez predictiva, ¿cuáles son las ventajas y
desventajas de la validez concurrente?
13
Tipos de técnicas de recopilación de datos
Descripción general
Existen muchos tipos de técnicas e instrumentos utilizados para recopilar datos. Algunos libros de métodos
de investigación tienen varios capítulos, cada uno de los cuales se centra en una técnica o herramienta
diferente, como entrevistas, cuestionarios, técnicas proyectivas, pruebas u observaciones.
Debido a que este libro se centra en el diseño de la investigación y el análisis de datos resultante, hemos
optado por restar importancia a nuestro tratamiento de las técnicas de recopilación de datos. Además, este
libro está diseñado para una amplia audiencia de estudiantes de muchas disciplinas relacionadas con la
educación, las ciencias de la salud aplicadas y las ciencias sociales aplicadas. Debido a que cada uno de
estos campos tiene sus técnicas preferidas de recopilación de datos, nos hemos centrado en lo que hay
en común entre estas disciplinas. En este capítulo proporcionamos un contexto amplio para pensar en las
técnicas de recopilación de datos y algunas fuentes a las que puede acudir para aprender más sobre los
detalles del desarrollo o evaluación de un cuestionario, entrevista u otra técnica de recopilación de datos.
Como se señaló en el Capítulo 1, conceptualizamos los enfoques de investigación como

aproximadamente ortogonales o no relacionados con las técnicas de recolección de datos. Por tanto, al
menos en teoría, cualquier tipo de técnica de recopilación de datos podría utilizarse con cualquier enfoque
de investigación. Es cierto que algunos tipos de recopilación de datos se utilizan más comúnmente con
enfoques experimentales aleatorios o cuasiexperimentales. Otros son más comunes con los enfoques
comparativos o asociativos, y otros son más comunes en la investigación cualitativa.
El cuadro 13.1 ofrece una aproximación de cuán común es cada una de las diversas técnicas de
recopilación de datos dentro de cada uno de estos tres grupos principales de enfoques de investigación.
Tenga en cuenta que hemos ordenado las técnicas de recopilación de datos según una dimensión, desde
los informes observados por los investigadores en la parte superior hasta las medidas de autoinforme. El
final del informe del observador incluye observaciones y registros fisiológicos que se supone que están
menos influenciados por el deseo de los participantes de verse bien o responder de una manera
socialmente deseable. Por supuesto, incluso estas medidas no están libres de los efectos de tales factores
si, como suele ser el caso, los participantes se dan cuenta de que están siendo observados o registrados.
En el otro extremo de la escala se encuentran medidas basadas en autoinformes de los participantes,
como entrevistas, cuestionarios, grupos focales y escalas de actitud y personalidad. En estos casos, las
respuestas se filtran claramente a través de los ojos de los participantes y probablemente estén
fuertemente influenciadas por factores como la deseabilidad social y responder de manera aceptable. En
el medio hemos puesto varios tipos de medidas que sin duda están influenciadas por la necesidad
consciente o inconsciente de los participantes de verse bien, pero que quizás sean menos susceptibles a
tales factores. En las pruebas estandarizadas de logros y aptitudes, por ejemplo, las personas obtienen lo
mejor que pueden para encontrar la respuesta correcta. Con los documentos de archivo y el análisis de
contenido, los datos se recopilan de registros creados para otro propósito, por lo que puede haber menos sesgos incorpor
175
Tabla 13.1
Técnicas de recopilación de datos utilizadas por enfoques de investigación específicos
Investigación cuantitativa
Experimentos y Enfoques comparativos, asociativos Investigación

Técnicas de recopilación de datos cuasiexperimentos. y descriptivos. cualitativa
Medidas observadas por el investigador

++ + –
Grabaciones fisiológicas
+ – +
Medidas de rastreo físico
Observaciones codificadas ++ ++ ++
Observaciones narrativas – + ++
– + ++
Observaciones de los participantes
Pruebas y Documentos
Pruebas estandarizadas + ++ –
Medidas/documentos de archivo – + ++
– + ++
Análisis de contenido
Medidas de autoinforme
Escalas de actitud sumadas + ++ –
+ ++ –
Escalas de personalidad estandarizadas
Cuestionarios/encuestas + ++ +
Entrevistas + ++ ++
– + ++
Grupos de enfoque
Nota: Los símbolos en la tabla indican la probabilidad de uso.

++ Muy probable.
+ Posiblemente.
No es probable.
La preocupación por el filtrado de las respuestas de los participantes a través de recuerdos quizás
defectuosos o en términos de respuestas socialmente deseables ha llevado a los investigadores
cuantitativos, especialmente aquellos que tienden a utilizar enfoques experimentales aleatorios y
cuasiexperimentales, a sospechar de la validez del self. instrumentos de informe. Por lo tanto, cuando
utilice medidas de autoinforme siempre debe estar preparado para proporcionar evidencia que respalde
su validez, como se analiza en el Capítulo 12. Por supuesto, cierta información de autoinforme, como el
género y otras cuestiones simples de hecho que no son sensibles o Las opiniones controvertidas suelen
aceptarse al pie de la letra. Por otro lado, los informes de los observadores no son necesariamente
medidas válidas de lo que pretenden evaluar. Una cuestión que los investigadores cualitativos suelen
señalar es que los sesgos culturales pueden llevar a los observadores a interpretar sus observaciones de manera inaprop
En las referencias citadas en el capítulo se proporcionan recomendaciones para lecturas adicionales
sobre técnicas de recopilación de datos. En general, es recomendable seleccionar instrumentos que se
hayan utilizado en otros estudios si se ha demostrado que producen datos confiables y válidos con los
tipos de participantes y para el propósito que se tiene en mente. Tests in Print proporciona referencias a
miles de instrumentos educativos, psicológicos y comerciales publicados que están disponibles para su
compra o uso. Los Mental Measurements Yearbooks (1938presente) proporcionan resúmenes y revisiones
de una gran cantidad de instrumentos publicados, incluidas pruebas de aptitud, inteligencia y logros, y
también inventarios o escalas de personalidad y vocacionales. De manera similar, Test Critiques publica
anualmente normas, datos de confiabilidad y validez, así como aplicaciones prácticas en un estilo fácil de
usar. Cubre los instrumentos psicológicos, educativos y comerciales más utilizados. Tenga en cuenta que
el uso del término pruebas en esos recursos es más amplio que el utilizado en este libro. Las pruebas,
como en las Críticas de pruebas, se refieren a una amplia gama de técnicas de recopilación de datos; no
sólo aquellos con respuestas correctas,
Tipos de técnicas de recopilación de datos 177
y son similares a nuestro término estandarizado. Los libros de texto sobre pruebas y mediciones (por ejemplo,
Anastasi y Urbina, 1997; Thorndike, 2004) también brindan información sobre una amplia variedad de tipos de
instrumentos estandarizados. La literatura de investigación relevante es una buena fuente de instrumentos que se
podrían utilizar.
Por supuesto, es posible que no pueda encontrar un instrumento que se adapte a los objetivos de su investigación.
Esto es especialmente probable si está interesado en actitudes o conocimientos sobre un tema, cuestión o programa
específico . En este caso, puede decidir elaborar un cuestionario o una entrevista para evaluar qué saben los
participantes o cómo perciben el tema. Dillman (2007), Fowler (2009), Salant y Dillman (1994) y Czaja y Blair (2005)
brindan consejos útiles sobre el desarrollo y uso de entrevistas y cuestionarios.
Instrumentos estandarizados versus instrumentos desarrollados por
investigadores Los instrumentos estandarizados son el resultado de una preparación cuidadosa y cubren temas de
amplio interés para varios investigadores. Por lo general, están publicados y, a menudo, tienen derechos de autor.
Libros de referencia como Mental Measurement Yearbook y Test Critiques proporcionan descripciones evaluativas y
reseñas de muchos instrumentos publicados diseñados para evaluar habilidades, logros, personalidad y actitudes.
Estos instrumentos suelen tener un manual que incluye normas utilizadas para hacer comparaciones con alguna
muestra más amplia que la que se suele utilizar en un solo estudio, y comúnmente incluyen información sobre
confiabilidad y validez.
Las medidas desarrolladas por un investigador son aquellas desarrolladas por un investigador para su uso en uno
o varios estudios. Dichos instrumentos también deben desarrollarse cuidadosamente y deben proporcionar al menos
evidencia básica de confiabilidad y validez de los datos que se han recopilado en el artículo o informe del estudio en
el que se utilizaron. Sin embargo, normalmente no hay manuales ni materiales separados disponibles para que otros
los compren o utilicen.
Aunque algunos instrumentos, como las medidas de personalidad y de actitud, son desarrollados por investigadores
o profesores para un uso único en un estudio específico, hay muchas medidas estandarizadas disponibles y, en
general, es aconsejable utilizarlas si los datos que se han recopilado con la medida tienen buena confiabilidad y
validez y cubren el concepto que se pretende medir. Los cuestionarios y las entrevistas generalmente los desarrolla
un investigador para usarlos una sola vez en un estudio particular sobre un tema específico.
Sin embargo, algunos cuestionarios y entrevistas se utilizan en varios estudios, a menudo para evaluar el mismo
tema en diferentes momentos; por ejemplo, hay una encuesta anual entre estudiantes de primer año que ingresan a
la universidad que ha planteado muchas de las mismas preguntas durante varios años.
Medidas observadas por el investigador
Observación directa
Como ya se señaló, muchos investigadores prefieren la observación directa y sistemática de la conducta como el
método más preciso y deseable para registrar la conducta, especialmente la conducta de los niños. La siguiente
discusión sobre las observaciones trata de lo que a menudo se llama “observación directa”, en la que el investigador
entrena a los observadores para que observen y registren las conductas de los participantes en el estudio. Las
observaciones indirectas se utilizan cuando el investigador entrevista o interroga a observadores no capacitados,
como padres o maestros, sobre participantes (por ejemplo, niños) que conocen bien. La observación indirecta también
podría incluir cuestionarios o entrevistas porque a menudo se pide a los participantes que informen sobre su propio
comportamiento.
Ahora analizamos otras dimensiones en las que varían las técnicas de observación.
Naturalidad del entorno
El entorno de las observaciones puede variar desde entornos naturales (p. ej., una escuela, parque infantil, parque u
hogar) pasando por entornos más controlados (p. ej., una sala de juegos de laboratorio diseñada para parecerse a
una sala de estar) hasta entornos de laboratorio altamente artificiales (p. ej. , utilizado en un hospital o laboratorio
fisiológico). En el capítulo 9 discutimos la cuestión de la validez ecológica, uno de cuyos aspectos era la naturalidad
del entorno. Aunque los entornos naturales tienen validez ecológica, normalmente sacrifican cierto grado de control y
la oportunidad de presentar estímulos de forma sistemática. Además, equipos como cámaras de vídeo y ayudas de
observación basadas en ordenador son mucho más difíciles de utilizar en un entorno natural. Tenga en cuenta que
en la investigación cualitativa, las observaciones suelen realizarse en entornos naturales. En la investigación
cuantitativa se utiliza toda la gama de entornos, pero algunos investigadores que utilizan el marco cuantitativo
prefieren entornos de laboratorio.
Grado de participación del observador Esta
dimensión varía desde situaciones en las que el observador es un participante (preferido por los investigadores que
utilizan el marco cualitativo) hasta situaciones como lugares públicos en las que el observador no interfiere en
absoluto. Sin embargo, la mayoría de las observaciones se realizan en situaciones en las que los participantes saben
que ese observador los está observando y lo han aceptado. Es común que estos observadores intenten ser lo más
discretos posible sentándose a un lado u observando detrás de un espejo unidireccional en un laboratorio.
Cantidad de detalles
Las observaciones también varían en esta dimensión, que va desde información resumida global (por ejemplo,
calificaciones generales basadas en todo el período de observación) hasta registros momento a momento de las
conductas observadas. Obviamente, este último proporciona más detalles y requiere una considerable preparación
y entrenamiento de los observadores. Las observaciones momento a momento pueden utilizar códigos para diversos
comportamientos que pueden registrarse con papel y lápiz o con alguna ayuda como una computadora o un dictáfono.
Los registros detallados también pueden ser registros narrativos en los que el observador dicta o intenta escribir todo
lo que sucede en orden secuencial.
Amplitud de cobertura
Esta dimensión varía desde esquemas de observación que intentan registrar tanto como sea posible sobre un evento
o el entorno de una persona hasta, por otro lado, observaciones muy específicas de uno o unos pocos tipos de
conducta, como la agresión. incidentes o comportamientos dirigidos a tareas. Las observaciones cualitativas suelen
intentar proporcionar una narrativa holística o general de la situación.
Pruebas y Documentos
Pruebas contrastadas con otras medidas
Aunque el término prueba se utiliza a menudo de manera bastante amplia para referirse a una amplia gama de
medidas de aptitud, personalidad y actitud, definimos el término de manera más restringida. Por prueba nos referimos a una
Conjunto de problemas con respuestas correctas o incorrectas. La puntuación se basa en la cantidad de

respuestas correctas que tuvo la persona.
Pruebas estandarizadas
En las pruebas estandarizadas existe un procedimiento específico a seguir para administrar la prueba. En
muchas pruebas estandarizadas, las puntuaciones se traducen en algún tipo de puntuación normalizada que
puede utilizarse para comparar a los participantes con otros que han realizado la prueba. Estas pruebas se
refieren a pruebas con referencia a normas. Las puntuaciones pueden proporcionarse en términos de rangos
percentiles o pueden basarse en alguna métrica bien establecida en la que se conozcan la media y la desviación
estándar. Por ejemplo, las puntuaciones del Graduate Record Examination (GRE) se normalizaron originalmente
de modo que 500 sería la media y 100 sería la desviación estándar. Las pruebas de coeficiente intelectual se
normalizaron de modo que 100 fuera la media y 15 la desviación estándar. Una alternativa a las pruebas con
referencia a normas se denominan pruebas con referencia a criterios. Estas pruebas examinan qué tan bien el
estudiante o participante ha aprendido una habilidad específica (el criterio). Estas pruebas miden el rendimiento
de un estudiante sin compararlo con las puntuaciones de otros examinados. Este tipo de prueba se utiliza a
menudo en las escuelas, pero se utiliza con menos frecuencia en la investigación.
Se dice que la mayoría de las pruebas estandarizadas son objetivas porque hay poco desacuerdo sobre las
puntuaciones obtenidas en ellas debido a la coherencia en la administración de la medida. Puede haber
desacuerdo sobre cómo interpretar los resultados, pero si una máquina o un asistente no capacitado puede
calificar la prueba u otra medida, se diría que la medida es objetiva. Se dice que las pruebas de opción múltiple
y las escalas de calificación son objetivas; Las pruebas de redacción y las técnicas proyectivas son menos
objetivas porque las puntuaciones están influenciadas por el juicio de los evaluadores.
Pruebas de logros
La mayoría de las investigaciones sobre la eficacia de los métodos de instrucción utilizan el logro como variable
dependiente o de resultado. Por lo tanto, las pruebas de rendimiento se utilizan ampliamente en la investigación
educativa y también en las escuelas. Este tipo de pruebas miden el dominio o logro de los estudiantes en algún
área relacionada con lo que deberían haber aprendido en la escuela. Las pruebas de rendimiento están
disponibles para materias escolares individuales, como biología o historia, y también están disponibles en
baterías integrales que miden amplias áreas de rendimiento, como la verbal o la cuantitativa. Por ejemplo, el
California Achievement Test (CAT) contiene pruebas en el área de lectura, lenguaje y aritmética. Al seleccionar
una prueba de logros, debe tener cuidado de que proporcione datos confiables y sea apropiada para medir el
aspecto de los logros que le interesa. La prueba también debe mostrar evidencia de confiabilidad y validez de
los datos actuales que se incluirán en el estudio.
Por lo tanto, si utiliza un grupo étnico en particular o estudiantes con retrasos en el desarrollo, debe asegurarse
de que la prueba sea apropiada para esa muestra. Si se cumplen estos criterios, el uso de un instrumento
estandarizado presenta ventajas. Además de ahorrar tiempo y esfuerzo, los resultados de su estudio se pueden
comparar con los de otros que utilizan el mismo instrumento.
Cuando las pruebas disponibles no sean apropiadas para los objetivos de su estudio, es posible que deba
crear su propia prueba. Es mejor hacerlo que utilizar una prueba inapropiada sólo porque esté disponible. Si
desarrolla su propia prueba, debe tener cuidado al prepararla para determinar la confiabilidad y validez de los
datos recopilados con ella antes de usarla. Consulte los libros sobre pruebas y medición ya mencionados (por
ejemplo, Thorndike, 2004) si decide desarrollar su propia prueba de rendimiento.
Evaluaciones de desempeño y auténticas
Aunque las pruebas de rendimiento más comunes son pruebas de papel y lápiz del tipo que acabamos de
describir, un investigador puede querer medir el desempeño real, es decir, lo que un individuo puede hacer
en lugar de lo que sabe. La evaluación del desempeño se ha convertido en una alternativa popular a las
pruebas tradicionales. En tal evaluación, el investigador observa el desempeño de un individuo en una
determinada tarea y luego juzga el producto basándose en algunos criterios. Las evaluaciones de desempeño
son comunes en áreas como el arte, la música o la ciencia, donde se espera que el individuo pueda hacer o
producir algo como una pintura, un recital o un informe de investigación.
Algunas evaluaciones de desempeño se denominan evaluaciones auténticas, pero no todas las evaluaciones
de desempeño son auténticas en el sentido de que sean evaluaciones de la “vida real”.
Para ser consideradas auténticas, las tareas deben tener un alto nivel de validez ecológica, como se analiza
en el Capítulo 9. Es decir, pueden incluir cosas como una entrevista de trabajo real, un proyecto de investigación
individual o grupal, o un informe. Las evaluaciones auténticas y de desempeño brindan una manera de medir
capacidades y destrezas que no se evalúan fácilmente mediante pruebas de papel y lápiz.
Sin embargo, su administración y puntuación requieren mucho más tiempo y dinero.
Pruebas de
aptitud Las pruebas de aptitud en el pasado a menudo se llamaban pruebas de inteligencia, pero este término
se usa menos ahora debido a la controversia sobre la definición de inteligencia y en qué medida se hereda. El
desempeño en tales pruebas de aptitud depende en parte de los antecedentes genéticos y en parte del entorno
y la escolaridad. Las pruebas de aptitud, a diferencia de las pruebas de rendimiento, tienen como objetivo
medir el desempeño más general o la capacidad para resolver problemas. Estas pruebas intentan medir la
capacidad del participante para resolver problemas y aplicar conocimientos en una variedad de situaciones.
Los investigadores y educadores han descubierto que las pruebas de aptitud son generalmente útiles para
predecir el éxito escolar y como una variable independiente que debe controlarse en los estudios educativos.
Las numerosas pruebas de aptitud disponibles se pueden dividir en las que deben administrarse individualmente
y las que se pueden utilizar en grupo.
Los tests de inteligencia individual más utilizados son el test de StanfordBinet y el de Wechsler. La prueba
StanfordBinet produce un cociente de inteligencia (CI), que se obtiene dividiendo la edad mental (MA) obtenida
por la edad real o cronológica (CA) de la persona. El StanfordBinet proporciona una medida general de
inteligencia y no intenta proporcionar medidas de habilidades separadas. Existen varias versiones de edades
de las escalas de inteligencia de Wechsler; cada uno proporciona dos puntuaciones para cada persona,
coeficiente intelectual verbal y no verbal. Un psicometrista capacitado debe realizar estas pruebas de
inteligencia individuales a una persona a la vez, lo que resulta costoso tanto en tiempo como en dinero.
Las pruebas de aptitud grupal, por otra parte, son más prácticas para su uso en sistemas escolares y en
investigaciones donde se utilizan promedios grupales. En la actualidad hay muchas pruebas de aptitud grupal
disponibles, identificadas en el Anuario de mediciones mentales o en las Críticas de pruebas.
En nuestro estudio de muestra 1 (Schellenberg, 2004) se puede encontrar un ejemplo de una prueba de
aptitud utilizada en un estudio de investigación. Aquí, el autor utilizó la Escala de Inteligencia de Wechsler para
Niños como variable dependiente o de resultado en el estudio de intervención musical. Esta escala mide la
inteligencia de los niños.
Documentos
Un método común para recopilar datos es a través de documentos. Los documentos incluyen elementos como
registros históricos, periódicos y archivos de estudiantes. Cualquier información que se recopile
con respecto a un participante (p. ej., promedio de calificaciones) que no se obtiene directamente del
participante, sino a través de registros o documentos, pueden considerarse datos documentales. La ventaja de
utilizar documentos es que normalmente la información es más precisa. Por ejemplo, solicitar el expediente
académico de un estudiante para conocer su GPA daría el GPA exacto, en lugar de preguntarle al estudiante,
quien podría redondear su GPA o dar un valor inflado. La desventaja de utilizar documentos es que su uso
puede consumir mucho tiempo para el investigador, y obtener el consentimiento de los participantes para
examinar los documentos puede, al menos,
los tiempos serán difíciles.
Landrum y Mulcock (2007) ofrecen un ejemplo del uso de documentos en la investigación. En este estudio,
se obtuvieron datos del registrador de la universidad sobre la especialidad de los participantes, si se habían
graduado, en qué materia se habían especializado y la calificación del curso.
Medidas de autoinforme
Inventarios de personalidad estandarizados
Los inventarios de personalidad presentan al participante una colección de afirmaciones que describen
conductas o patrones de conducta. Luego se pide a los participantes que indiquen si la afirmación es
característica de su comportamiento marcando sí o no o indicando qué tan típico es de ellos. Generalmente
hay una serie de declaraciones para cada característica medida por el instrumento. Algunos de estos inventarios
evalúan sólo un rasgo; por ejemplo, el autoritarismo se mide mediante la Escala F de California y la ansiedad
se mide mediante las Escalas Estatales de Ansiedad Rasgo. Otros inventarios de personalidad, como el
Cuestionario de 16 factores de personalidad de Cattell, miden una serie de rasgos. Algunos inventarios miden
características de personas que uno podría no considerar estrictamente como personalidad. Por ejemplo, el
Inventario de Fuertes Intereses se utiliza principalmente para evaluar intereses vocacionales. Otros inventarios
miden el temperamento (por ejemplo, el Inventario de temperamento infantil), los problemas de conducta (por
ejemplo, la Lista de verificación de conducta infantil) o la motivación (por ejemplo, el Cuestionario de
dimensiones de dominio). Observe que estos instrumentos de personalidad tienen varias etiquetas (p. ej.,
escala, inventario, cuestionario o lista de verificación).
Se dice que estas medidas están estandarizadas porque han sido administradas a una amplia variedad de
encuestados y porque la información sobre estos grupos de normas y sobre la confiabilidad y evidencia de
validez de los datos recopilados anteriormente generalmente se proporciona en el manual del inventario.
También es posible que un investigador desarrolle una medida de algún aspecto de la personalidad
específicamente para un estudio en particular. Al igual que con otras medidas, es necesario abordar la
confiabilidad y la validez.
Los inventarios de papel y lápiz tienen la ventaja de ser relativamente baratos de administrar y objetivos de
calificar. Sin embargo, existen desventajas relacionadas principalmente con el problema de la validez. Debemos
mencionar aquí que la validez de un inventario de personalidad depende no sólo de la capacidad de los
encuestados para leer y comprender los ítems, sino también de su comprensión de sí mismos y de su voluntad
de dar respuestas francas y honestas.
Aunque los inventarios de personalidad, especialmente los más cuidadosamente desarrollados y
estandarizados, pueden proporcionar información útil para la investigación, existe claramente la posibilidad de
que sean superficiales o sesgados.
Otro tipo importante de evaluación de la personalidad es la técnica proyectiva. Estas medidas no se utilizan
con frecuencia en la investigación de ciencias sociales y educativas porque requieren una persona ampliamente
capacitada para administrarlas y calificarlas. Por tanto, son caros. Descriptivo
Las técnicas piden al participante que responda a estímulos no estructurados como manchas de tinta o imágenes
ambiguas. Se llaman proyectivos porque se supone que el encuestado
proyectar su personalidad o motivación en su interpretación del estímulo.
Escalas de actitud
Escalas de actitud sumadas (Likert)
Muchos inventarios de personalidad utilizan el mismo método sumado que se describe aquí, pero
Likert (1932) desarrolló inicialmente este método como una forma de medir actitudes hacia grupos, instituciones
o conceptos particulares. Los investigadores suelen desarrollar sus propias escalas para medir actitudes o
valores, pero también existen una serie de escalas estandarizadas para medir ciertos valores.
tipos de actitudes como la responsabilidad social. Existen varios enfoques para medir las actitudes. Describimos
sólo las escalas Likert sumadas y las escalas diferenciales semánticas .
El término escala Likert se utiliza de dos maneras: (1) para la escala sumada que se analizará
próximo; y (2) para los ítems individuales o escalas de calificación a partir de las cuales se obtiene la escala sumada.
calculado. Los ítems Likert son declaraciones sobre un tema en particular, y los participantes son
Se les pide que indiquen si están totalmente de acuerdo, de acuerdo, indecisos, en desacuerdo o totalmente.
discrepar. La escala Likert resumida se construye desarrollando una serie de afirmaciones
sobre el tema, generalmente algunas de las cuales son claramente favorables y otras desfavorables. Estas
declaraciones pretenden proporcionar una muestra representativa de todos los posibles
opiniones o actitudes sobre el tema. Estas declaraciones luego se presentan a un grupo de
participantes a quienes se les pide que califiquen cada afirmación desde totalmente en desacuerdo hasta totalmente de acuerdo.
Para calcular la puntuación de escala sumada, a cada tipo de respuesta se le asigna un valor numérico o
ponderación, normalmente 1 para totalmente en desacuerdo hasta 5 para totalmente de acuerdo. Al calcular el
escala sumada, los ítems redactados negativamente o desfavorables deben invertirse en términos
de la ponderación; en ese caso, muy en desacuerdo se le asigna un peso de 5 y muy de acuerdo se le da un peso de 5.
dado un peso de 1. Considere los siguientes tres elementos de una escala de responsabilidad social:
1. Cada persona debe dedicar algo de su tiempo a la SD DUA SA.

bien de su pueblo o país.
2. Decepcionar a tus amigos no es tan malo porque no podemos SD DUA SA
hacer el bien todo el tiempo.
3. Es deber de cada persona hacer su trabajo lo mejor que pueda. SD DUA SA
Como se muestra, una persona con una actitud muy favorable hacia la “responsabilidad social” podría
Encierre en un círculo SA para el primer elemento, SD para el segundo elemento y A para el tercer elemento. Su
puntuación sumada sería 5 para el primer ítem, 5 para el segundo ítem (después de codificarlo en forma inversa),
y 4 para el tercer ítem, o 14. Debería poder ver que las puntuaciones sumadas podrían
varían desde 3 para alguien que está muy poco de acuerdo con los tres ítems de actitud de responsabilidad social
hasta un máximo de 15 para alguien que es muy positivo en términos
de esta actitud.
Datos recopilados con escalas de actitud de calificación sumada, como todas las demás herramientas de recopilación de datos.
discutidos en este capítulo, necesitan ser investigados para determinar su confiabilidad, como se analiza en el Capítulo 11.
La coherencia interna estaría indicada si los distintos ítems individuales se correlacionaran entre sí.
otros, lo que indica que pertenecen juntos al evaluar esta actitud. La validez sería
Se evalúa de la manera detallada en el Capítulo 12, viendo si esta escala sumada puede diferenciar entre grupos
que se cree que difieren en esta actitud o mediante correlaciones con otras medidas.
que se supone están relacionados con esta actitud. Spector (1992) analiza en profundidad la construcción de
escalas sumadas (para medir la actitud o la personalidad).
Escalas diferenciales semánticas
Otro enfoque para medir las actitudes es la escala diferencial semántica desarrollada por Osgood, Suci y
Tannenbaum (1957). Esta medida se basa en el supuesto de que los conceptos u objetos tienen un significado
adicional al significado denotativo (o del diccionario) para los individuos. El significado connotativo tiene que
ver con el significado excedente o lo que el concepto u objeto sugiere o connota al participante.
Las escalas de diferencial semántico son adaptables y relativamente fáciles de construir, si uno quiere saber
cómo se sienten los participantes acerca de conceptos como la gestión basada en el sitio, los requisitos de la
ADA o la religión organizada. Se pide a los participantes que califiquen el concepto en cada uno de un conjunto
de pares de adjetivos bipolares, que Osgood et al. (1957) encontraron que se formaban tres grupos o factores:
(1) evaluativos, con pares de adjetivos como buenomalo o valiosoinútil; (2) pares de potencias como fuerte
débil o grandepequeño; y (3) pares de actividades como activapasiva o rápidalenta. El grupo evaluativo se
utiliza con mayor frecuencia en la investigación. Las escalas diferenciales semánticas se califican de manera
muy similar a las escalas de calificación sumadas que acabamos de analizar. La calificación de cada ítem
recibe una puntuación, generalmente de 1 a 7. Si el término con connotación positiva está a la izquierda, la
puntuación se invertiría. Si el término positivo está a la derecha, no se haría ninguna reversión. Luego se
sumaría la puntuación de cada ítem en una escala (por ejemplo, evaluativa).
o resumido.
Cuestionarios y entrevistas Estas dos
técnicas amplias a veces se denominan métodos de investigación por encuestas, pero creemos que esto es
engañoso porque en muchos estudios se utilizan cuestionarios y entrevistas que no cumplirían con la definición
de investigación por encuestas. En la investigación por encuestas se extrae una muestra de participantes
(normalmente utilizando uno de los métodos de muestreo probabilístico analizados en el capítulo 9) de una
población más grande. A esta muestra se le formula una serie de preguntas relacionadas con un tema sobre el
cual deberían tener algún conocimiento o actitud. La intención de las encuestas es hacer inferencias que
describan a toda la población, por lo que el método de muestreo y la tasa de retorno son consideraciones muy
importantes, como se analiza en el Capítulo 9.
Los cuestionarios y las entrevistas utilizados en las encuestas suelen ser elaborados por el investigador
para utilizarlos una sola vez en un estudio en particular. Sin embargo, a veces se hacen preguntas iguales o
similares en varias ocasiones para evaluar cambios en actitudes, preferencias de productos o preferencias de
voto a lo largo del tiempo. Los cuestionarios son cualquier grupo de preguntas escritas a las que se pide a los
participantes que respondan por escrito, a menudo marcando o rodeando las respuestas. Las entrevistas son
una serie de preguntas presentadas oralmente por un entrevistador y generalmente el participante las responde
oralmente. Tanto los cuestionarios como las entrevistas pueden estar muy estructurados con preguntas
cerradas en las que se especifican las posibles respuestas y los participantes simplemente eligen una de las
respuestas proporcionadas. Sin embargo, es común que las entrevistas sean más abiertas, lo que permite al
participante brindar respuestas detalladas a preguntas que no se prestan a respuestas breves.
Cuestionarios Hay
tres formas básicas de recopilar información mediante un cuestionario: cuestionarios enviados por correo,
Internet y cuestionarios administrados directamente.
Cuestionarios enviados por correo
En este caso se deberán reunir nombres y direcciones de personas de la población. Luego, se selecciona
una muestra de esta población utilizando una de las técnicas descritas en el Capítulo 9. Cuando la población
accesible es pequeña, se puede muestrear a todas las personas. Luego, a este grupo se le envía por correo
un cuestionario con una carta de presentación y un sobre sellado con dirección remitente.
A menudo se envían tarjetas postales recordatorias o copias duplicadas del cuestionario a quienes no
respondieron o, si los encuestados no están específicamente identificados, a todas las personas que
recibieron inicialmente el cuestionario. En comparación con las entrevistas, los cuestionarios enviados por
correo son relativamente rentables porque requieren poco tiempo para administrarlos por parte de los
investigadores y no requieren la contratación de personas para administrar el instrumento. La información
se puede obtener con relativa rapidez (es decir, en unas pocas semanas), pero a menudo se obtiene una
tasa de respuesta baja debido a la impersonalidad y la probable falta de relación con el investigador. Dillman
(2007) es una buena fuente para los cuestionarios enviados por correo.
Cuestionarios de Internet
Los cuestionarios de Internet son los más nuevos y se están convirtiendo en uno de los tipos de cuestionario
más utilizados. En el caso de los cuestionarios de Internet, el cuestionario se configura en Internet,
generalmente con un programa de encuestas en línea (por ejemplo, Survey Monkey, http://
www.surveymonkey.com). Los participantes se pueden seleccionar mediante múltiples técnicas: grupos
existentes (p. ej., cursos o clubes), listas de correo electrónico y listas de servicio, solo por nombrar algunas.
El uso de cuestionarios de Internet tiene muchas ventajas. Los encuestados, si tienen una computadora,
pueden completar la encuesta en su propia casa, tomándose su tiempo y teniendo privacidad. Contactar a
los encuestados es más económico que enviar los cuestionarios por correo. Además, los datos se pueden
enviar directamente a un archivo de datos, lo que puede reducir o incluso eliminar los errores de entrada de
datos. Hay algunos aspectos negativos del uso de cuestionarios de Internet. Los encuestados deben tener
acceso a una computadora. Si la encuesta es larga, los encuestados pueden cerrar fácilmente la ventana
de la encuesta y no enviar sus respuestas.
Finalmente, el inconveniente más importante del uso de cuestionarios de Internet es que los datos
recopilados con muchos de los programas de Internet no son anónimos ni confidenciales, ya que las
direcciones IP se adjuntan a los datos. Dillman (2007) es una buena fuente para utilizar en cuestionarios de
Internet.
Un ejemplo del uso de Internet para administrar encuestas se encuentra en Brothen y Wambach (2004),
nuestro cuasiexperimento de muestra sobre los efectos de los límites de tiempo en los cuestionarios de
Internet. Estos autores enviaron la encuesta a los participantes, que eran estudiantes de una clase, a través
de WebCT, un recurso de curso en línea (Edutools, 2002).
Cuestionarios administrados directamente
En esta técnica, el cuestionario generalmente se administra a un grupo de personas que se reúnen en un

lugar determinado con un propósito específico, como una clase o una reunión de un club. También es
posible administrar directamente un cuestionario en una situación cara a cara, como entregar un cuestionario
a la madre de un niño pequeño mientras se le hace la prueba, pero esto es relativamente poco común. La
principal ventaja de esta técnica es que generalmente se obtiene una alta tasa de respuesta, especialmente
si se espera que los participantes estén en ese lugar de todos modos. Por otro lado, es poco probable que
la muestra sea una muestra probabilística de una población objetivo deseada, en parte porque un porcentaje
de participantes potenciales probablemente no asistirá a la clase o reunión. Esto puede ser un problema
grave.
en las aulas universitarias. Esta técnica puede ser bastante rentable si requiere sólo una o pocas
administraciones del cuestionario y si el tiempo del administrador no se considera o no tiene que pagarse.
Un ejemplo de cuestionario administrado directamente proviene de Landrum y Mulcock (2007). En este

estudio, los autores recopilaron datos de los estudiantes matriculados en cursos a través de un cuestionario.
Los estudiantes tuvieron tiempo para completar la encuesta durante la clase. Este es un método común para
recopilar datos, ya que garantiza una tasa de respuesta más alta que los cuestionarios enviados por correo o
por Internet.
Tipos de ítems del cuestionario
Salant y Dillman (1994), Cazja y Blair (2005) y DeVellis (2003) proporcionan excelentes fuentes para las
personas que desean desarrollar y realizar su propio cuestionario o entrevista estructurada. Describen cuatro
tipos de estructura de preguntas para los ítems de cuestionarios y entrevistas : opciones abiertas, parcialmente
abiertas, opciones cerradas desordenadas y respuestas cerradas ordenadas. Cada uno de estos tipos de
elementos tiene ventajas y desventajas, como se analiza a continuación.
Las preguntas abiertas no ofrecen opciones para que los participantes seleccionen. En cambio, cada
participante debe formular una respuesta con sus propias palabras. Aunque este tipo de preguntas requieren
el menor esfuerzo para escribirlas, tienen varios inconvenientes importantes. Las preguntas abiertas son
exigentes para los participantes, especialmente si las respuestas tienen que estar escritas o se refieren a
temas que la persona no ha considerado recientemente o no ha considerado en absoluto. Las preguntas
abiertas pueden producir muchas respuestas diferentes con sólo unas pocas menciones de cada tema.
Este tipo de pregunta podría proporcionar información comparable a través de una muestra porque las personas
que no pensaron en mencionar una respuesta podrían haberlo hecho si se les hubiera dado opciones entre las
cuales elegir. Finalmente, las respuestas a las preguntas abiertas requieren un tiempo considerable para
codificarlas y prepararlas para ingresarlas en una computadora. Sin embargo, existen una serie de ventajas
que hacen que las preguntas abiertas sean útiles en determinadas circunstancias, especialmente si el
investigador no tenía suficientes conocimientos antes del estudio para formular buenas preguntas cerradas. A
veces, las preguntas abiertas requieren una respuesta sencilla y directa, como la fecha de nacimiento de la
persona o su clase favorita. En estos casos, desarrollar una lista de posibles respuestas es un desperdicio de
espacio. Las preguntas abiertas se utilizan con mayor éxito en las entrevistas que en los cuestionarios.
Las preguntas parcialmente abiertas suelen proporcionar varias respuestas posibles y luego tienen un
espacio para otras respuestas o comentarios. Esto puede ser útil, pero nuestra experiencia es que los
participantes generalmente no usan los espacios y no se proporciona mucha información adicional.
Los ítems cerrados y desordenados se utilizan comúnmente cuando las respuestas a una pregunta se
ajustan a categorías nominales que no caen en un continuo. Se pide a los participantes que elijan entre estas
discretas categorías y seleccionen cuál refleja mejor su opinión o situación. En algunos casos, a la persona se
le permite marcar todas las categorías que aplican, pero luego la pregunta en realidad se convierte en una serie
de preguntas de sí/no y cada categoría de respuesta se califica más tarde como si fuera una pregunta separada.
Si no es posible tener una lista completa de posibles respuestas, se puede utilizar una pregunta parcialmente
abierta.
Finalmente, las preguntas cerradas con opciones ordenadas son comunes en los cuestionarios y a menudo
son similares a los ítems individuales de un inventario de personalidad o una escala de actitud sumada. De
hecho, estas preguntas pueden ser ítems únicos tipo Likert en los que se hace una afirmación y se pide al
encuestado que califique uno o una serie de ítems desde totalmente en desacuerdo hasta totalmente de
acuerdo. Son posibles otros tipos de elementos con opciones ordenadas (véase Salant y Dillman, 1994).
Entrevistas
Dos tipos principales de entrevistas son la telefónica y la cara a cara. Las entrevistas telefónicas casi
siempre son estructuradas y generalmente breves (es decir, menos de media hora). Los investigadores de
encuestas suelen utilizar esta técnica para obtener una muestra rápida, geográficamente diversa o
nacional. Groves et al. (1988) proporcionan información detallada para entrevistas telefónicas.
Un ejemplo del uso del teléfono para recopilar datos es DiLorenzo, Halper y Picone (2004), nuestro
estudio comparativo de muestra de personas jóvenes y mayores con esclerosis múltiple (EM). Debido a
que parte de su muestra estaba formada por participantes que no podían caminar, el uso de llamadas
telefónicas para la recopilación de datos permitió a los investigadores llegar a una muestra más grande.
Las entrevistas cara a cara, por otro lado, pueden variar desde lo que equivale a un cuestionario oral
altamente estructurado con respuestas cerradas hasta entrevistas en profundidad, que son las preferidas
por los investigadores cualitativos que desean obtener respuestas detalladas de los participantes. . Las
entrevistas telefónicas y cara a cara estructuradas suelen codificarse sobre el terreno. Las categorías
suelen ser cerradas, de modo que el entrevistador sólo necesita marcar con un círculo la respuesta elegida
o completar un breve espacio en blanco. Las entrevistas en profundidad generalmente se graban y luego
se transcriben para que los comentarios de los participantes puedan codificarse más adelante. Todos los
tipos de entrevistas son relativamente costosos debido a su naturaleza individual. Las entrevistas en
profundidad son aún más caras debido a los costos de capacitación, transcripción y codificación. Fowler y
Mangione (1990) proporcionan una excelente fuente para entrevistas estandarizadas.
Un ejemplo de una entrevista utilizada para recopilar datos se puede encontrar en Wolfe et al. (2006),
nuestro estudio descriptivo de muestra. Los autores utilizaron preguntas estructuradas y preguntas
abiertas para entrevistar a personas que viven con el VIH. Debido a la naturaleza delicada del tema del
VIH, el uso de entrevistas para recopilar datos probablemente ayudó a que los encuestados se sintieran
cómodos con las preguntas.
Grupos de
enfoque Los grupos de enfoque son como entrevistas, pero se entrevistan juntos a grupos relativamente
pequeños de, quizás, 8 a 10 personas. Estos grupos pueden estimular el pensamiento de la gente y
generar ideas sobre un tema específico. Han sido utilizados por empresas para saber cómo reaccionarán
los clientes ante nuevos productos y por campañas políticas para probar las opiniones de los votantes
sobre un tema. Las agencias sin fines de lucro también pueden utilizar grupos focales para identificar las
percepciones e ideas de participantes potenciales o reales en un programa o servicio. Los grupos focales
pueden proporcionar una idea inicial sobre las respuestas que dará la gente a un determinado tipo de
pregunta. Esto puede resultar útil para desarrollar cuestionarios o entrevistas más estructurados. Krueger
y Casey (2000) proporcionan una excelente fuente para los investigadores que planean utilizar grupos focales.
Resumen
Este capítulo proporciona una visión general de muchas de las técnicas o métodos utilizados en las
ciencias conductuales aplicadas para recopilar datos de participantes humanos. La mayoría de los métodos
Se utilizan en investigaciones de métodos cuantitativos, cualitativos y mixtos, pero en diferentes grados.

En la investigación cualitativa se prefieren técnicas de recopilación de datos más abiertas y menos estructuradas
que en la investigación cuantitativa, pero esta distinción no es absoluta. La observación directa de los participantes
por parte del investigador es común entre la investigación experimental y la investigación cualitativa; es menos
común en la investigación por encuestas, donde se utilizan ampliamente entrevistas y cuestionarios de autoinforme.
Es importante que los investigadores utilicen instrumentos que proporcionen datos confiables y válidos para la
población y el propósito para el cual serán utilizados. Los instrumentos estandarizados suelen tener manuales que
proporcionan normas e índices de confiabilidad y validez a partir de datos recopilados en el pasado. Sin embargo, si
las poblaciones y los propósitos en los que se basan estos datos son diferentes a los suyos, puede ser necesario
que usted desarrolle su propio instrumento o, al menos, proporcione evidencia de confiabilidad y validez de los datos
que ha recopilado.
Conceptos clave
Observación directa
Grupo de enfoque
Naturalidad del entorno.
Observación del participante

Desempeño y evaluación auténtica
Escalas diferenciales semánticas
Fiabilidad y validez de las medidas.

Pruebas estandarizadas
Inventarios de personalidad estandarizados

Escalas de actitud sumadas (Likert)
Distinciones clave
Pruebas de rendimiento versus pruebas de aptitud
Técnicas (métodos) de recopilación de datos versus enfoques de investigación

Referencias a normas versus pruebas con referencia a criterios
Preguntas abiertas versus preguntas cerradas
Pregunta/ítem del cuestionario versus pregunta de investigación

Cuestionario versus entrevista
Medidas de informe del investigador versus medidas de informe de autoparticipante

1. Un investigador diseñó una medida de satisfacción laboral. Parte de esta medida es
incluido en la tabla. Se muestran pares de palabras que indican cómo se sienten las personas acerca de
su trabajo. Considere cada uno de los pares de palabras y encierre en un círculo el número que mejor
indique cómo se siente USTED acerca de su trabajo/trabajo en general. ¿Qué tipo de escala de actitud es?
¿este? ¿Cómo lo calificarías si una persona marcara con un círculo 5, 2 y 6?
Aburrido 1 2 3 4 5 6 7 interesante
Agradable 1 2 3 4 5 6 7 miserables
Inútil 1 2 3 4 5 6 7 que vale la pena
etc.
2. El cuadro 13.1 ofrece una aproximación de qué tan común es cada una de las diversas técnicas
de recopilación de datos dentro de cada grupo principal de enfoques de investigación.
a. ¿Por qué los registros fisiológicos serían más comunes para experimentos y
¿cuasiexperimentos?
b. ¿Por qué las medidas de autoinforme se utilizarían más comúnmente con fines comparativos,
¿Enfoques asociativos y descriptivos?
C. ¿Por qué es poco probable que en la investigación cualitativa se utilicen pruebas
estandarizadas, escalas de actitud sumadas y escalas de personalidad estándar?
3. Indique si las siguientes preguntas son abiertas o parcialmente abiertas.
o artículos cerrados ordenados, o artículos cerrados desordenados. Discuta los pros y
Contras de formatear la pregunta como se muestra o de otra manera.
a. ¿Cuál es tu fecha de ___________________
nacimiento? b. ¿Brinda atención especial a cualquier persona enferma, discapacitada o anciana?
.
. No _____
.
. Sí _____
.
. Por favor explique: _________________________________________________________

C. ¿Para cuál de las siguientes áreas de gasto tiene la máxima prioridad?
.
. Defensa _____
.
. Educación _____
.
. Salud y Bienestar _____
.
. Otro. Por favor especifica:

d. ¿Qué tipo de horario de trabajo describe mejor su situación laboral?
. .
_____ Tiempo completo estándar (8 am a 5 pm)

. .
_____ Horarios de trabajo flexibles

. .
_____ Semana comprimida

mi. ¿Cuál describe mejor el tipo de edificio en el que vive?
.
. _____Una casa móvil

.
. _____Una casa unifamiliar separada de cualquier otra

.
. _____Una casa unifamiliar adjunta al menos a otra casa

.
. _____Un edificio de apartamentos

F. Describe las cualidades de tu profesor favorito.
4. Su colega está interesado en saber si el estilo de crianza influye en la delincuencia adolescente. Le pide
su opinión sobre si debería utilizar un formato de cuestionario o de entrevista para recopilar sus datos.
¿Cuáles le dices que son los pros y los contras de cada uno?
5. Un investigador está interesado en el grado en que la alianza terapéutica (o la fuerza de la relación entre
cliente y terapeuta) afecta el resultado terapéutico (o el éxito de la terapia). Si el investigador observa las
sesiones detrás de un espejo unidireccional y
califica la alianza terapéutica en una escala Likert, ¿qué tipo de medida es ésta? b. Si el investigador le
pide al cliente que informe su percepción de alianza utilizando
una escala Likert, ¿qué tipo de medida es esta?

C. ¿Cuáles son los beneficios y desventajas de cada uno?
6. ¿Cuál es la diferencia entre una pregunta de investigación y un cuestionario o ítem?

Proporcione dos ejemplos de cada uno.
14
Cuestiones éticas al realizar el estudio
A lo largo de este libro, hemos estado analizando los principios de la investigación conductual aplicada. En este
capítulo, analizamos los principios éticos de la investigación en seres humanos y una variedad de cuestiones
éticas relacionadas con los distintos pasos del proceso de realización de una investigación, incluida la obtención
de la aprobación de las juntas de revisión institucional (IRB).
Principios éticos en la investigación humana

Panorama historico
Ha habido problemas éticos con respecto al tratamiento de sujetos humanos a lo largo de la historia, pero
comenzamos nuestro resumen con las atrocidades de la investigación nazi de 19331945. A diferencia del resto
de este libro, utilizamos la frase sujetos humanos en lugar de participantes. Este último es un cambio relativamente
reciente que enfatiza la relación colaborativa y voluntaria entre investigador y participante. Las atrocidades de la
investigación nazi fueron experimentos realizados por respetados médicos y profesores alemanes con los
prisioneros de los campos de concentración que llevaron a su mutilación o muerte. Aunque resulta tentador pensar
que estas atrocidades podrían atribuirse a guardias de prisiones, soldados o científicos deshonestos, la evidencia
indica lo contrario (por ejemplo, Pross, 1992). No sólo muchos de estos médicos eran respetados, sino que
Alemania también tenía regulaciones morales y legales más avanzadas en materia de consentimiento y
protecciones especiales para sujetos vulnerables que cualquier otro país en ese momento (Young, 1999). Como
resultado del juicio de estos médicos, un tribunal internacional prescribió el código de Nuremberg en 1947. Su
primer principio establecía que el consentimiento voluntario de los seres humanos es absolutamente esencial. Los
principios 2 a 8 tratan del diseño experimental y de los riesgos y beneficios de la investigación. El principio 9
establecía el derecho del sujeto a negarse a participar o continuar, y el principio 10 trataba de la obligación del
investigador de detener el experimento cuando continuarlo probablemente provocaría daño.
Para que no pensemos que los problemas éticos de la investigación con seres humanos se han limitado a la
Alemania nazi, se citan brevemente algunos ejemplos de investigaciones estadounidenses. En 1963, a niños con
discapacidad mental de la Escuela Estatal Willowbrook de Nueva York se les administró el virus de la hepatitis A vivo.
Sus padres no fueron informados adecuadamente e incluso fueron obligados a ofrecer a sus hijos como voluntarios
para el estudio.
El estudio de la sífilis de Tuskegee, que comenzó en 1932, continuó hasta que se hizo de conocimiento público
en 1972 (Heller, 1972). El estudio involucró a varios cientos de hombres afroamericanos pobres en Alabama que
fueron estudiados pero no tratados durante un período de 40 años, a pesar de que los antibióticos estuvieron
disponibles y se usaron comúnmente para tratar la sífilis durante más de 25 años del estudio. Los efectos a largo
plazo de este estudio incluyen desconfianza y sospecha hacia la investigación médica y hacia los médicos en
general en la comunidad afroamericana.
191
Sin embargo, las serias preocupaciones éticas no se limitan a las ciencias biomédicas.
Milgram (1974) llevó a cabo una serie de conocidos experimentos sobre la obediencia que provocaron
un debate ético tanto dentro como fuera de las ciencias del comportamiento. Su intención de realizar
estos experimentos se basó en su consternación por los efectos de la obediencia ciega a las órdenes
nazis en la Segunda Guerra Mundial. Milgram decidió que era importante estudiar el mecanismo
psicológico que vinculaba la obediencia ciega con el comportamiento destructivo. Quería saber hasta
dónde llegarían los adultos comunes y corrientes en el cumplimiento de las órdenes de una autoridad aparentemente leg
En sus experimentos, engañó a los sujetos haciéndoles creer que le aplicarían dolorosas descargas
eléctricas a una tercera persona, el "alumno", cuando este cometiera un error en una tarea particular. Los
resultados fueron sorprendentes. Muchos de los “maestros”, que eran los verdaderos sujetos del estudio,
obedecieron sin vacilación el llamado del experimentador de continuar aumentando el nivel supuesto de
las descargas, sin importar cuánto suplicara y gritara el alumno. Milgram se sorprendió especialmente de
que ninguno de los sujetos se negara a aplicar las descargas ni abandonara el estudio. El alumno en
estos estudios era un cómplice de Milgram y el maestro no transmitía ninguna conmoción real. Sin
embargo, las preocupaciones sobre los estudios y el uso del engaño continúan hasta el día de hoy.
Milgram defendió su trabajo diciendo que mostraba una obediencia notable una y otra vez en varias
universidades donde se repitió el experimento. Hizo hincapié en la disposición de los adultos a llegar a
casi cualquier extremo cuando se lo ordena una autoridad. Interrogó completamente a los sujetos y
brindó la oportunidad de una reconciliación amistosa con el alumno presumiblemente sorprendido, quien
se demostró que no había recibido ninguna descarga eléctrica real.
Además, envió cuestionarios de seguimiento a los primeros sujetos y encontró que menos del 1% se
arrepintió de haber participado en el estudio. A pesar de esto, es dudoso que los comités de revisión
institucional permitan hoy este tipo de estudio porque se engañó a los sujetos para que participaran en
un estudio que probablemente encontrarían inaceptable si lo hubieran entendido correctamente.
Si se piensa que los problemas éticos relacionados con la investigación se han limitado a los estudios
experimentales, la investigación de Humphreys (1970) sobre el comercio de “salón de té” indica algunas
de las cuestiones potencialmente planteadas por las observaciones participantes y la metodología
cualitativa. Por este estudio sobre el comportamiento homosexual masculino, Humphreys recibió un
prestigioso premio. Utilizó un considerable engaño y violó la privacidad de los sujetos al observar
subrepticiamente las matrículas de hombres que sabía que habían practicado una felación en baños
públicos. Luego, Humphreys obtuvo sus direcciones de la División de Vehículos Motorizados para
entrevistarlos mientras se hacía pasar por un trabajador del servicio de salud. Sospechaba que los
hombres no concederían una entrevista si hubieran sabido su verdadero propósito porque la mayoría de
los hombres estaban casados y vivían con esposas que no habrían aprobado este comportamiento.
En 1974, el Departamento de Salud, Educación y Bienestar publicó normas sobre la protección de
seres humanos. Ordenó que hubiera juntas de revisión institucional en cada institución de investigación
que aceptara fondos federales para determinar si los sujetos estaban en riesgo y, de ser así, si los riesgos
superaban tanto los beneficios y la importancia del conocimiento que se obtendría que a los sujetos se
les debería permitir hacerlo. aceptar estos riesgos. Las directrices también exigen que se obtenga el
consentimiento informado efectivo de los participantes en la investigación.
El Informe Belmont: Principios y Normas En un
informe llamado Informe Belmont, la Comisión Nacional para la Protección de Sujetos Humanos de
Investigación Biomédica y del Comportamiento (1978) identificó tres principios y directrices éticos para la
protección de los sujetos humanos.
Cuestiones éticas al realizar el estudio 193
Respeto a las Personas
Este principio incorpora dos convicciones éticas. Primero, los participantes deben ser tratados como agentes
autónomos, lo que significa que el individuo es capaz de deliberar y tomar decisiones y elecciones
individuales. En segundo lugar, las personas con autonomía disminuida, como los niños, las personas con
retraso en el desarrollo, los presos y las personas con trastornos emocionales, tienen derecho a una
protección especial.
Beneficencia
Los investigadores no deben dañar a los participantes y se deben maximizar los buenos resultados para los
participantes , así como para la ciencia y la humanidad. Este principio requiere maximizar los beneficios
potenciales y minimizar los riesgos.
Justicia
La investigación no debería ser explotadora y debería haber una distribución justa de riesgos y beneficios.
Por ejemplo, quienes soportan la mayor parte de los riesgos deberían ser los que más se beneficien de la
investigación. Los participantes no deben ser seleccionados simplemente por conveniencia.
Consentimiento informado voluntario
El consentimiento informado es el procedimiento mediante el cual las personas eligen si desean participar
en un estudio. El consentimiento es un proceso continuo y puede retirarse en cualquier momento durante el
estudio. El Informe Belmont analiza tres aspectos del consentimiento informado.
Información
La información proporcionada a los participantes debe revelar completamente el procedimiento de la

investigación, el propósito, los riesgos y los beneficios previstos, incluido lo que un voluntario razonable
querría saber antes de dar su consentimiento. La información debe estar en un lenguaje que los participantes
puedan entender y se deben hacer esfuerzos para comprobar que se entiende, especialmente cuando hay
riesgos involucrados.
Comprensión Los
participantes deben tener la capacidad jurídica y la capacidad de comprender la información y los riesgos
involucrados para que puedan tomar una decisión informada. Algunos participantes (por ejemplo, niños) no
están legalmente calificados para tomar decisiones de consentimiento por sí mismos, por lo que otros deben
tomar la decisión por ellos. Suele ser el padre o tutor, pero el niño también debe dar su consentimiento al
procedimiento. La comprensión también puede verse afectada en personas con retraso mental o discapacidad
emocional. En la medida de lo posible, a estas personas se les debe permitir dar su consentimiento o no, pero
se debe elegir a un tercero (por ejemplo, el tutor legal) para que actúe.
en su mejor interés.
Voluntariedad
El tercer aspecto del consentimiento informado significa que el participante libremente, sin amenazas ni
incentivos indebidos, ha decidido participar en el estudio. No debería haber ninguna
elemento de engaño, coacción o coerción. Las personas con autoridad pueden provocar obediencia injustificable de
los niños e incluso de los adultos bien educados. Además, la voluntariedad se reduce cuando la investigación ofrece
incentivos financieros o de otro tipo que a los participantes potenciales les resultaría difícil rechazar.
Se deben considerar varios aspectos del proceso de consentimiento. Se debe lograr una buena relación , no sólo
porque es más probable que los participantes cooperen sino también porque puede fortalecer la validez ecológica del
estudio. Es importante que el investigador no se apresure a abordar el aspecto del consentimiento del estudio ni dé la
impresión de que el consentimiento es innecesario.
Desarrollar confianza y comprender situaciones personales y culturales es importante, especialmente para la
investigación comunitaria realizada en culturas diferentes a la del investigador. La investigación también debe ser
relevante para las preocupaciones de la población investigada y explicarse en esos términos.
La cuestión de quién debe dar el consentimiento es fácil cuando el participante potencial es un adulto que tiene la
capacidad de dar su consentimiento. La cuestión es menos clara para las personas con capacidad reducida y los niños.
No debemos asumir automáticamente que el consentimiento de los padres o tutores es suficiente, aunque en la
mayoría de los casos debería serlo. En algunas situaciones puede haber un conflicto de intereses. Por ejemplo, a los
padres pobres que se les ofrece un gran pago por la participación de sus hijos es posible que no tengan en cuenta el
interés del niño en primer lugar.
¿Cómo se obtiene el consentimiento? Los IRB requieren un formulario de consentimiento formal firmado, excepto
en ciertas situaciones especificadas en las regulaciones federales. Se puede omitir un formulario de consentimiento
firmado cuando los sujetos adultos que tienen la capacidad legal para dar su consentimiento pueden negarse fácilmente
interrumpiendo una llamada telefónica con un entrevistador o no devolviendo la encuesta que recibieron por correo.
Sin embargo, es importante que el entrevistador o la carta de presentación del cuestionario describan el propósito de
la investigación y los riesgos involucrados y establezcan que la participación es voluntaria.
Devolver la encuesta o responder las preguntas es la forma que tiene el sujeto de dar a entender su consentimiento.
Privacidad
Gran parte de la investigación conductual implica pedir a los participantes que revelen algunos aspectos de su
comportamiento o actitudes. La privacidad se refiere a la preocupación de los participantes por controlar el acceso a la
información sobre ellos mismos. El consentimiento informado voluntario implica que el participante acepta revelar
ciertos aspectos que pueden haber sido privados anteriormente. Si los participantes sienten que se está invadiendo su
privacidad o que no se mantendrá la confidencialidad, las respuestas que brinden pueden estar distorsionadas y, por lo
tanto, brindar información engañosa o falsa. La esencia de la privacidad es que el participante es libre de elegir en qué
medida sus actitudes, creencias y comportamientos se compartirán o se ocultarán a los demás. Siempre existe la
posibilidad de que surja un conflicto entre el derecho a la privacidad y el objetivo de la investigación.
Si los datos son anónimos, el participante puede estar más dispuesto a compartirlos. Es importante hacer una
distinción entre confidencialidad y anonimato. Anónimo significa que el nombre del participante y otros identificadores,
como el número de seguro social o de identificación escolar, no se conocen y ni el investigador ni otros pueden
deducirlos. En muchos estudios los datos no pueden ser anónimos porque el investigador ve a los participantes cara a
cara o debe conocer su identidad para comparar información sobre ellos de diferentes fuentes. En todos los casos es
importante que los datos permanezcan confidenciales. Es decir, existe un acuerdo de que la información privada
seguirá siendo privada para el investigador y el participante no será identificable en los informes ni en las conversaciones
con personas ajenas al equipo de investigación.
Los investigadores sensibles tendrán mucho cuidado de no invadir la privacidad de los participantes y los IRB suelen
estar alerta a este problema. Esto implica que se obtendrá de antemano el consentimiento voluntario plenamente
informado y que el investigador garantizará la confidencialidad de la información.
datos. Luego, los participantes pueden decidir si desean participar. Los participantes que ven la investigación como una
invasión de la privacidad pueden sentir una presión sutil para participar, pero luego pueden distorsionar las respuestas.
Por lo tanto, tanto para ser sensible a las preocupaciones de los participantes como para obtener los mejores datos, es
importante considerar si los participantes ven la investigación como una invasión de la privacidad. Para conocer los
intereses de privacidad de su población de investigación, debe preguntar a las personas que sean miembros de la
población si podrían encontrar sus preguntas como una invasión de la privacidad.
Evaluación de riesgos y beneficios
Probablemente la preocupación más importante acerca de la ética de la investigación es que los individuos no resulten
perjudicados al participar en el estudio. El riesgo se refiere tanto a la probabilidad de daño como a la magnitud y tipo de
daño. Hay muchos posibles daños y beneficios que deben tenerse en cuenta. Los dolores o lesiones psicológicos y
físicos son los que se analizan con mayor frecuencia, pero se deben considerar otros riesgos, como los legales,
económicos o sociales (por ejemplo, vergüenza, estigmatización o invasión de la privacidad).
Aunque es raro intentar cuantificar los riesgos y beneficios de un estudio de investigación en particular, debe realizarse
una evaluación sistemática de estos factores. El Informe Belmont afirma que la evaluación de si la investigación es
justificable debe reflejar al menos cinco consideraciones:
1. Nunca se justifica un trato brutal o inhumano.
2. Los riesgos deben reducirse a aquellos que sean necesarios y tenerse en cuenta
procedimientos alternativos que reducirían los riesgos.
3. Cuando la investigación implica riesgos de daños graves, los comités de revisión deben tener mucho cuidado
de que los beneficios justifiquen esos riesgos. Por ejemplo, en la investigación médica, un tratamiento no
probado puede prometer beneficios significativos aunque existan riesgos de efectos secundarios graves.
4. Cuando se trate de poblaciones vulnerables, se deberá demostrar la idoneidad de su uso.
5. Los riesgos y beneficios relevantes deben explicarse de manera justa en el procedimiento y formulario de
consentimiento informado.
Además de minimizar los riesgos, es importante que los investigadores maximicen los beneficios. Esto puede ser
relativamente fácil de hacer en investigaciones médicas y comunitarias donde se prevé algún beneficio claro para los
participantes individuales. Sin embargo, de antemano tales beneficios sólo se anticipan o predicen, o de lo contrario no
es necesario realizar el estudio.
Es menos fácil lograr beneficios para los participantes en investigaciones por encuestas y ciertos tipos de experimentos
de laboratorio. Sin embargo, los investigadores deben pensar en la cuestión de maximizar los beneficios y hacerlo de
una manera realista, que evite falsas promesas o afirmaciones grandilocuentes sobre beneficios para la ciencia y la
sociedad. Los beneficios para los participantes podrían incluir una sesión informativa, libros de trabajo o materiales, la
oportunidad de compartir inquietudes o intereses con el investigador y, en algunos casos, los efectos del tratamiento
experimental. Los beneficios para la comunidad, pero no necesariamente para los participantes, podrían incluir mejores
relaciones con una universidad, una mayor comprensión de los problemas que se estudian, materiales como libros,
capacitación especial y el prestigio de estar asociado con el programa y la universidad.
Si los participantes tienen una buena experiencia de investigación (por ejemplo, se les trata con respeto y se les
proporcionan resultados para validar su contribución), esto aumenta la probabilidad de participación futura. Por el
contrario, las malas experiencias predisponen a los sujetos a no participar en otra
estudio, lo que resultó en que no se beneficiaran de otros tratamientos nuevos. Esto sería una farsa y quizás
sea el riesgo más significativo de una investigación social “benigna”.
Cuestiones éticas en la selección de la muestra En el
capítulo 9 describimos el proceso de selección de una muestra de participantes potenciales de lo que suele
ser una población teórica mucho más grande. Se discutieron varias estrategias para seleccionar la muestra y
varios obstáculos para obtener una muestra representativa. Señalamos que la validez poblacional externa
depende tanto de la representatividad de la población accesible como de la representatividad de la muestra
real de aquellos participantes que aceptaron participar y completaron el estudio.
Agencias cooperantes
Para obtener una población accesible amplia y, con suerte, representativa , a menudo es necesario hacer
arreglos con otras agencias o instituciones, como distritos escolares o clínicas. Estas organizaciones deben
estar convencidas de la importancia y los beneficios de la investigación y de que cualquier riesgo potencial
es mínimo. Si la agencia tiene un IRB, ese IRB deberá revisar el proyecto o podrá decidir eximirlo. Si la
organización no tiene un IRB, debe asegurarle a su IRB que el proyecto es aceptable para la agencia
cooperante. Una persona autorizada para obligar a la agencia podría escribir una carta a su IRB indicando su
apoyo al proyecto y el alcance de cualquier asistencia. Desarrollar y mantener contactos puede ser un
aspecto de la investigación que requiere mucho tiempo y que debe planificarse y presupuestarse. También
hay cuestiones éticas que deben considerarse con respecto a las agencias colaboradoras. ¿Qué beneficios
obtendrán ellos y sus estudiantes/clientes? ¿Se beneficiará la agencia pero los estudiantes/clientes estarán
expuestos a algún riesgo potencial o pérdida de privacidad? Sin duda, su IRB considerará estas cuestiones
y los posibles conflictos de intereses.
Una variante de esto son los llamados datos “intermediados”. En este caso, el investigador no tiene acceso
a una población determinada y el intermediario (por ejemplo, el director de la escuela o el director de la
clínica) puede no permitir que el investigador recopile los datos debido a preocupaciones sobre la privacidad.
La agencia puede estar dispuesta a recopilar los datos para el investigador o al menos a entregar
cuestionarios anónimos a sus clientes y preguntarles si estarían dispuestos a responder. Se considera una
violación de la confidencialidad entre paciente y proveedor permitir que un investigador externo tenga acceso
completo a los expedientes médicos o incluso a una lista de pacientes con quienes contactar directamente.
La revisión del contacto o del expediente debe ser realizada por el proveedor de atención médica o la escuela.
Debido a que las clínicas y escuelas están ocupadas, es posible que no tengan tiempo para comunicarse con
los clientes o revisar archivos. Esto ha generado una gran tensión entre los principios esbozados de ética de
reclutamiento y el deseo de obtener datos completos y una muestra representativa. Se creará una tasa de
respuesta baja y, probablemente, una muestra no representativa si la clínica o la escuela anuncia el estudio
y deja que los participantes potenciales se comuniquen con el investigador.
Tasa de respuesta
Otra cuestión con respecto a la tasa de respuesta es la necesidad de equilibrar la obtención de una alta tasa
de respuesta con el respeto a las personas que deciden no participar. Está bien intentar convencer a los
participantes potenciales de la importancia y el valor de su contribución; puede recordarles que olvidaron
responder una encuesta enviada por correo. También puedes ofrecer incentivos, pero debes
detenerse antes de volverse coercitivo u ofensivo. Esto puede ser especialmente un problema con las encuestas
telefónicas, en parte porque los entrevistadores contratados pueden ir demasiado lejos a menos que estén debidamente capacitados.
Recuerde que es más probable que se responda a los cuestionarios breves bien elaborados que a los largos, abiertos o mal
redactados. Los participantes suelen estar más dispuestos a responder verbalmente a las preguntas o a ser entrevistados
que a escribir las respuestas a las preguntas.
Abandonos
En la investigación longitudinal y de sesiones múltiples, existe la cuestión adicional de mantener el consentimiento y la

cooperación de los participantes. En este tipo de investigaciones es importante que los participantes no abandonen el
estudio innecesariamente. Cualquier coerción para continuar es inaceptable. Por lo tanto, desarrollar una buena relación y
mantener buenas relaciones sensibles con los participantes y sus necesidades a menudo evitará tales abandonos. Si los
participantes van a ser recompensados por su participación, es posible que se recarguen parcialmente los pagos
prorrateados para que se recompense la finalización del estudio. Sin embargo, el IRB tendrá que aprobar dichos acuerdos
y no deben parecer coercitivos o injustos para los participantes que deseen abandonar el estudio a mitad de camino.
Sección de Cuestiones Éticas y Métodos
Cuestiones éticas en el diseño Es
importante planificar cuidadosa y éticamente el diseño de la investigación y también el análisis de los datos antes de que
comience la recopilación de datos. Los estadísticos frecuentemente se sienten frustrados cuando un investigador sin
experiencia les llega con un montón de datos y les pide que los analicen. Con demasiada frecuencia, el diseño o los
instrumentos no se planificaron cuidadosamente y, por tanto, no se puede realizar el análisis adecuado. Cuando esto
sucede, es posible que se haya perdido el tiempo de los participantes, lo cual no es ético.
Los investigadores cualitativos dicen que su diseño es emergente y no planificado previamente. Creemos que esta
aparente dicotomía entre los paradigmas de investigación cualitativos y cuantitativos es relativa, más de grado que
absoluta. Los investigadores cualitativos necesitan tener una buena idea sobre sus preguntas de investigación y al menos
una buena indicación de la literatura relacionada con esas preguntas. Sería imprudente embarcarse en un estudio importante
sin una buena idea de cómo van a analizar los datos. Es cierto que después de realizar algunas entrevistas u observaciones
pueden descubrir que sus preguntas de investigación originales no eran las más interesantes o no obtuvieron la información
que buscaban. Luego pueden decidir reformular las preguntas para formular a los futuros participantes. Esto también se
aplica, en menor medida, a la investigación cuantitativa. Toda buena investigación debe comenzar con pruebas piloto para
garantizar que el diseño y los instrumentos sean apropiados y funcionen bien para responder las preguntas de la
investigación. Si se descubre que los procedimientos o preguntas no son los más adecuados, se deberá obtener una nueva
muestra para valorar las nuevas preguntas.
Engaño Es
más probable que surjan ciertas cuestiones éticas con algunos tipos de diseño que con otros.
Por ejemplo, es más probable que ocurra engaño en la investigación experimental, pero la investigación cualitativa
y la investigación por encuesta puede ser engañosa si los participantes no están plenamente informados de
los propósitos y procedimientos del investigador. El engaño implica una tergiversación de los hechos, por
comisión, que se produce cuando el investigador da información falsa sobre el estudio. Si el investigador no
informa completamente a los sujetos sobre los aspectos importantes del estudio o sus objetivos, se ha
producido una omisión u ocultación .
Hasta hace poco, la investigación en psicología social se basaba en gran medida en el engaño porque se
suponía que la información sobre ciertos temas, como la conformidad o la obediencia, sería imposible de
obtener sin engaño debido a la actitud defensiva, la vergüenza o el miedo a las represalias de los
participantes. Los estudios clásicos de Milgram (1974) sobre la obediencia a la autoridad, que describimos
brevemente al comienzo de este capítulo, plantearían hoy dos problemas. En primer lugar, ahora es típico
que los participantes en la investigación, especialmente los estudiantes universitarios, asuman que se
producirá un engaño y es probable que alteren su comportamiento basándose en esa suposición. En
segundo lugar, las juntas de revisión institucional probablemente no permitirían este tipo de investigaciones
porque el engaño no debería alentar a los participantes a actuar de maneras que ellos, los participantes,
considerarían inaceptables. Por lo general, es indefendible que el engaño induzca a las personas a adoptar
comportamientos que habrían considerado inaceptables si hubieran comprendido correctamente la
investigación. Los IRB ponen un mayor énfasis en el consentimiento verdaderamente informado y el respeto por la autonom
El engaño puede estar permitido en determinadas circunstancias, pero últimamente los IRB lo han
restringido. ¿Existen alternativas al engaño en la investigación? Las simulaciones, que son situaciones
simuladas, se utilizan eficazmente para explorar el comportamiento social. Los métodos etnográficos o de
observación participante se utilizan cada vez más para estudiar el comportamiento real, a menudo en un
entorno comunitario. Consideraciones éticas y prácticas han llevado a los investigadores a proporcionar
procedimientos de consentimiento plenamente informados y a confiar en la simpatía y la confianza en lugar
de la astucia o el engaño, como fue el caso en los estudios de obediencia de Milgram (1974). También se
les puede pedir a los participantes que acepten (consientan) que el investigador pueda ocultar algunas
partes importantes del procedimiento. Ahora hay evidencia de que la mayoría de los sujetos participarán en
la investigación en el entendido de que algunos detalles deben ocultarse hasta después del estudio. Por
supuesto, se les garantiza un informe completo. Después de la sesión informativa, se les puede ofrecer a
los participantes la oportunidad de retirar sus datos del estudio. Si los participantes confían en que el
investigador mantendrá la confidencialidad de sus datos, es probable que pocos se retiren en este momento.
Existen profundas diferencias entre los miembros de la comunidad investigadora sobre la ética del
engaño. Algunos están firmemente en contra y otros creen que es la única forma viable de estudiar ciertos
tipos de comportamiento social. Hay dos puntos en los que esperamos que todos estén de acuerdo. En
primer lugar, algunos comportamientos importantes desaparecen bajo un escrutinio obvio y, por lo tanto, a
veces es necesario ocultarlos o engañarlos. En segundo lugar, las formas de engaño más objetables son
innecesarias y no deberían utilizarse.
Informe El
informe es una buena práctica para la mayoría de los estudios y casi siempre es necesario para los estudios
sobre engaño. Además de discutir los objetivos del estudio y las razones del engaño, es deseable
proporcionar alguna evidencia sobre el engaño. En el caso de comentarios falsos sobre el desempeño de la
prueba, los participantes podrían recibir sus propias pruebas sin puntuación en un sobre sellado tal como
las habían enviado. Es importante intentar eliminar cualquier residuo de desconfianza generalizada por
parte de los participantes. Si el investigador detecta algún resultado emocional indeseable de la investigación,
debe intentar restaurar a los participantes a un estado de ánimo al menos tan positivo como aquel con el
que ingresaron al estudio.
Sin embargo, hay ciertos casos en los que podría ser mejor no desengañar o interrogar al participante
porque dicho interrogatorio puede ser perjudicial. Por ejemplo, si un investigador fuera
Para estudiar la deshonestidad, puede ser mejor no señalar a los participantes que su comportamiento durante
el estudio fue deshonesto. En cualquier caso, la sesión informativa debe realizarse sin degradar el
comportamiento o las actitudes de los participantes. Sin duda, la junta de revisión institucional exigirá que se
reflexione detenidamente sobre esta cuestión y puede imponer requisitos al investigador con respecto al tipo
y alcance de la información.
Investigación experimental
La naturaleza de los diseños experimentales (enfoques experimentales aleatorizados y cuasiexperimentales)

es que algunos o todos los participantes reciben una intervención o tratamiento que puede ser médico,
psicológico o educativo. Con estas intervenciones, siempre existe la posibilidad de daños potenciales. El daño
físico es mucho más probable con las intervenciones médicas que con las educativas o psicológicas, pero es
posible que se produzcan daños menos tangibles con todas las intervenciones. Por ejemplo, los participantes
en el grupo del nuevo plan de estudios pueden aprender menos de lo que habrían aprendido si hubieran
permanecido en el plan de estudios tradicional. O ciertos tipos de capacitación pueden requerir que los
participantes en el grupo de intervención sean más abiertos y reveladores de sí mismos de lo que preferirían
de otra manera. Si existe un riesgo potencial de daño debido a la intervención, ésta debe ser menor, reversible,
de corta duración y anulada en la medida de lo posible.
Hemos descrito algunas cuestiones difíciles relacionadas con el grupo de control en capítulos anteriores
sobre diseños experimentales. Por ejemplo, si se descubre que un nuevo tratamiento es muy ventajoso,
puede ser poco ético ocultárselo al grupo de control. Sería deseable ofrecerlo al grupo de control. En algunos
casos, esto se puede hacer teniendo un grupo de control en lista de espera que reciba el tratamiento después
de un período de retraso presumiblemente igual al tiempo que el grupo de intervención recibió el tratamiento.
Puede ser necesario que un investigador presupuestara los costos de brindar tratamiento al grupo de control
en una fecha posterior.
En capítulos anteriores, analizamos las ventajas de diseño de tener un grupo de control sin intervención o
con placebo. Si se utilizara un grupo de control con placebo, sería necesario presentar un “argumento sobre
el estado natural” ante el IRB. El razonamiento es que a los participantes no tratados no se les niega un
beneficio que ya tienen, sino que simplemente se les deja en su estado natural.
Este argumento queda gravemente debilitado si el grupo de control tiene una enfermedad o ha ingresado para
y no recibe tratamiento.
Investigación no experimental y cualitativa Como se
mencionó anteriormente, los problemas éticos no se limitan a la investigación experimental. Por ejemplo, la
investigación por encuestas tiene posibles problemas éticos relacionados con la coerción de los sujetos para
que participen. Además, ciertos tipos de información obtenida de las encuestas podrían angustiar a los
participantes o perjudicarlos económicamente si fueran identificados por sus empleadores u otras personas
con poder. Por eso hay que tener cuidado. Esta cuestión se aplica también a la investigación cualitativa . De
hecho, las citas largas recopiladas en estudios cualitativos pueden ser identificables porque pueden incluir
información única o personal reconocible por otros. En estos casos, dicha información tendría que modificarse
o eliminarse del informe de investigación.
Investigación con animales
Existe un conjunto separado de cuestiones relacionadas con la investigación con animales no humanos.
Debido a que este libro trata casi exclusivamente de la investigación en humanos, aquí sólo analizamos
brevemente la investigación en animales. Es importante señalar que los Institutos Nacionales de Salud han publicado
información sobre el uso apropiado de animales en la investigación, y la mayoría de las universidades

tienen una junta de revisión interna separada para considerar el uso de animales en la investigación. Los
principios de la investigación con animales implican la capacitación del personal que realiza la investigación
y el manejo de los animales, la naturaleza de la investigación y los procedimientos, las instalaciones
utilizadas para alimentar y alojar a los animales, los métodos utilizados para transportarlos y la justificación
del número y especies a utilizar. Claramente, los experimentos deben realizarse para evitar todo sufrimiento
y daño innecesario a los animales.
Cuestiones éticas en la selección o desarrollo de los instrumentos Como se
analizó en el último capítulo, es necesario para que un estudio válido y ético cuente con instrumentos de
recolección de datos de alta calidad. Por lo tanto, seleccionar o desarrollar instrumentos con evidencia
sólida que respalde la confiabilidad y validez de las mediciones es una cuestión tanto práctica como ética.
En general, un investigador sin experiencia debería utilizar instrumentos ya desarrollados y estandarizados
siempre que haya disponibles instrumentos apropiados. Recuerde que la confiabilidad y la validez no
residen en los instrumentos en sí mismos sino en su uso para ciertos propósitos con ciertos tipos de
participantes. Debe considerar si los instrumentos utilizados comúnmente son apropiados si su población
es inusual o vulnerable. Incluso los instrumentos bien establecidos deben someterse a pruebas piloto para
asegurarse de que sean apropiados y no planteen cuestiones éticas.
Cuestiones éticas en el procedimiento de recopilación de datos
Las juntas de revisión institucional son sensibles a las cuestiones relacionadas con el procedimiento que se
utiliza para la recopilación de datos. Ya hemos discutido el tema del engaño; si es necesario, debe
explicarse y justificarse completamente. La sección de procedimiento de una propuesta y, especialmente,
el protocolo de investigación en humanos deben detallar los procedimientos que se utilizarán para obtener
el consentimiento de los participantes. Este y otros materiales que el IRB probablemente querrá revisar se
describen en la sección de este capítulo sobre cómo obtener la aprobación del IRB.
En los proyectos de investigación financiados es común pagar a los sujetos algo por participar en el
estudio, especialmente si su participación requiere que acudan a un laboratorio o requiere mucho tiempo.
Incluso para tareas breves o fáciles, puede ser conveniente considerar muestras de agradecimiento, como
un juguete pequeño para los niños participantes o un bolígrafo o un dólar para otros participantes. Estos
incentivos están diseñados para aumentar la tasa de respuesta. Sin embargo, el IRB no los considerará
“beneficios” para los participantes. Los pagos u otros incentivos no deben ser tan elevados que parezcan
coercitivos. Por ejemplo, el pago para los pobres o los estudiantes no debería ser tan alto que les resulte
difícil rechazarlo. De manera similar, a los presos no se les deben prometer privilegios que los llevarían a
aceptar realizar procedimientos perjudiciales.
Confidencialidad
Como se mencionó anteriormente, es una parte importante del procedimiento de investigación garantizar
la confidencialidad de cada participante. Esta es una cuestión de dos partes: (1) Sólo aquellos en el equipo
de investigación deberían poder hacer coincidir las identidades de los participantes con sus respuestas, si
dicha coincidencia es necesaria; y (2) no se revela la identidad de participantes específicos, si se conoce.
Esta prohibición no sólo se aplica a los informes escritos, sino que también significa que el equipo no
hablará sobre participantes específicos en público (por ejemplo, en el baño, el comedor o el pasillo). Los
grupos focales plantean problemas especiales de confidencialidad porque, aunque el investigador instruya
a otros participantes del grupo sobre la confidencialidad, es posible que no le presten atención.
La confidencialidad también puede ser importante para los grupos (p. ej., escuela, hospital, empresa).
del que se extrae la muestra. Es una práctica común y a menudo necesaria que la identidad de dichos grupos
quede oculta en un informe. De hecho, algunas tribus nativas americanas exigen
que sólo se haga referencia a ellos por región geográfica general para evitar estigmatizar a las tribus.
miembros.
Por lo general, la cuestión de la confidencialidad surge cuando el investigador conoce las identidades de los
participantes y ha aceptado mantenerlas confidenciales. Ciertos procedimientos eliminan
o minimizar el vínculo entre los identificadores y los datos y, por tanto, ayudar a asegurar la confidencialidad. Por
ejemplo, se puede garantizar que los nombres de los participantes no aparezcan en transcripciones de
grabaciones de audio, cuestionarios o formularios de datos. Los participantes pueden ser identificados.
por un código (pero nunca sus números de seguro social) que se mantiene bajo llave en un lugar diferente
a partir de los datos. Si se proporcionan viñetas u otras descripciones en un artículo, las características
como la ocupación, la ciudad o el origen étnico deben cambiarse. Las cintas de audio o de vídeo deben guardarse
en un lugar cerrado con llave y verse únicamente en lugares que proporcionen privacidad.
de visitantes no deseados. Las cintas y listas maestras de nombres pueden destruirse después del informe.
ha sido aceptado para publicación o el proyecto de posgrado aprobado. Los métodos utilizados para
preservar la confidencialidad debe identificarse en el proceso de consentimiento para que el posible
Los participantes pueden estar seguros de que la información se mantendrá confidencial.
En los casos en que los datos de la investigación son anónimos para los investigadores, la cuestión es
diferente. Por ejemplo, si se obtienen datos demográficos u otros datos potencialmente identificativos de
En una encuesta anónima, el investigador debe tener cuidado de que los resultados no se presenten.
de manera que alguien familiarizado con la institución de donde provinieron los participantes
Sería capaz de deducir la identidad de los participantes. Por ejemplo, si una empresa sólo tuviera
uno o unos pocos trabajadores minoritarios, la confidencialidad de sus respuestas estaría en peligro
si el promedio de sus respuestas se presentara en un informe. Garantizar que el informe no
No revelar identidades involuntariamente es, por supuesto, importante en toda investigación.
Aprobación de la Junta de Revisión Institucional

IRB y cómo funcionan
Un IRB o comité de sujetos humanos es un grupo que revisa propuestas de estudios con
participantes humanos antes de que pueda comenzar la investigación. El libro de Sieber (1992) Planificación de
una investigación éticamente responsable: una guía para estudiantes y juntas de revisión interna es una guía útil. El
El comité tiene el mandato de las regulaciones federales para proteger a los sujetos humanos y decidir
si el plan de investigación ha abordado adecuadamente las cuestiones éticas relacionadas con el proyecto.
Los IRB fueron el resultado de los tipos de problemas éticos que mencionamos al principio.
de este capítulo. La junta o comité está formado por cinco o más miembros con distintos antecedentes; Incluyen
miembros de la comunidad en general, así como académicos.
de una variedad de áreas dentro de la universidad o institución de investigación. El comité se reúne
Periódicamente, a menudo mensualmente, para revisar los protocolos de investigación de proyectos propuestos por académicos.
y estudiantes de la institución.
Toda investigación realizada en la institución que recopile datos sistemáticamente y tenga como objetivo
desarrollar conocimientos generalizables debe ser revisado, a menos que cumpla con los criterios de exención
que permiten algunas instituciones. En la práctica esto significa que cualquier proyecto de investigación que
está destinado a ser publicado en una revista, libro o como disertación o tesis debe ser
revisado. No se revisan los datos recopilados con fines administrativos y demostraciones en el aula. Muchas
instituciones no revisan la investigación realizada como parte de un curso y que no está destinada a ser
publicada, pero el instructor y el estudiante deben seguir los principios éticos descritos en este capítulo. El
gobierno también permite que ciertos tipos de investigación, por ejemplo, cuestionarios anónimos sobre temas
no controvertidos e investigaciones que tratan sobre métodos de instrucción en las escuelas, estén “exentos”.
Sin embargo, muchos IRB universitarios exigen que se les presenten todos los proyectos de investigación
propuestos y luego ellos (el IRB) deciden si estarán exentos. El estado de exención puede significar sólo que
hay una revisión menos intensiva, que no tendrá que esperar hasta la próxima reunión del comité en pleno, pero
es posible que se requieran el protocolo de investigación y también informes periódicos sobre el progreso.
Por lo general , las pruebas piloto, que implican probar procedimientos o ajustar un cuestionario con algunos
conocidos o personas con conocimientos en el campo, no requieren la revisión del IRB. Sin embargo, los
estudios piloto en los que se recopilan (y analizan) datos de los participantes como los que se utilizarán en la
investigación sí requieren una revisión del CEI.
Los IRB han sido controvertidos entre algunos investigadores que los veían como obstáculos para una buena
investigación científica. Esto se debe en parte a las presiones para cumplir los plazos, lo que puede provocar
faltas de comunicación y malentendidos. Las regulaciones federales requieren que las instituciones desarrollen
políticas que se ajusten a las regulaciones pero que reflejen los estándares comunitarios. Por lo tanto, es
probable que cada institución tenga políticas algo diferentes y pueda tomar decisiones diferentes sobre el mismo
protocolo. Por estas razones, es deseable que los estudiantes discutan su investigación con personas
conocedoras de su institución, como expertos en el área de contenido e investigadores experimentados, para
estar conscientes de posibles problemas éticos. También es deseable hablar con la gente sobre los
procedimientos del IRB local y si se puede obtener retroalimentación del personal o de los miembros del IRB
con anticipación. Esto puede ahorrar una cantidad considerable de tiempo y frustración. Los estudiantes deben
conocer las políticas y procedimientos de la junta de revisión institucional de su universidad. A menudo, el
administrador o un miembro de la junta están dispuestos a discutir cuestiones éticas relacionadas con un
proyecto con el investigador antes de presentar el protocolo.
El protocolo de investigación
El protocolo de investigación es una versión corta de su propuesta de investigación que se centra en el problema
o los objetivos de la investigación, los participantes, los procedimientos a seguir, los riesgos, los beneficios, los
procedimientos de consentimiento y la confidencialidad. Su IRB local probablemente le proporcionará una lista
detallada de las preguntas que desea que se respondan como parte del protocolo. Por lo general, incluirá
respuestas breves pero específicas a estas preguntas en el texto del protocolo. Aunque algunas de las
respuestas pueden ser versiones condensadas de su propuesta, es posible que otras (por ejemplo, declaraciones
de riesgos y beneficios) deban ampliarse a partir de lo que tiene en su propuesta. Además, probablemente
tendrás que incluir varios de los siguientes archivos adjuntos:
• Anuncios o carteles. • Guiones

telefónicos u otros guiones de reclutamiento. • Formularios
de consentimiento, incluido el permiso de los padres y el consentimiento del niño, o cartas de presentación
si no se requiere consentimiento por escrito. (La mayoría de los IRB tienen un formulario de
consentimiento de muestra, que indica el texto necesario y sugerido).
• Cartas de acuerdo o aprobación del IRB de organizaciones cooperantes, tal vez
en papel membretado con firmas originales.
• Instrumentos (es posible que se requiera evidencia de permiso de uso si el instrumento

tiene derechos de
autor). • Materiales
informativos. • Currículum del investigador
principal. • Una copia de la propuesta de investigación completa o al menos la sección de método.
El protocolo y los anexos se envían al IRB para su consideración y, se espera, su aprobación. El protocolo debe
recordar al investigador los elementos que son esenciales para una investigación científica y éticamente sólida.
Las instituciones son legalmente responsables de las investigaciones realizadas por profesores y estudiantes,
al igual que los investigadores y asesores. Por tanto, el protocolo debe reflejar lo que realmente se hace en la
investigación. Si el investigador decide cambiar el procedimiento o los instrumentos, debe obtener la aprobación
del IRB.
Además de una discusión completa de los riesgos y beneficios, incluidos los incentivos y un análisis de la
relación riesgo/beneficio, debe haber una discusión completa de las características de los participantes y los
procedimientos de consentimiento y confidencialidad. En cuanto a los participantes, se debe brindar información
sobre su origen étnico, género, edad y estado de salud y, si se incluyen poblaciones vulnerables, se debe
justificar su uso.
Si se utilizan organizaciones o instituciones cooperantes para conseguir participantes, se debe obtener una
aprobación por escrito. Es deseable proporcionar una explicación racional del número de participantes que se
incluirán mediante un análisis de poder como se analiza en los Capítulos 9 y 16.
Los procedimientos de consentimiento y los métodos utilizados para garantizar la confidencialidad deben
especificarse en el protocolo. Los procedimientos deben indicar cómo, dónde y quién obtendrá el consentimiento
informado y cómo se llevará a cabo la sesión informativa. El formulario de consentimiento real debe adjuntarse al
protocolo. Si el consentimiento está implícito al devolver un cuestionario enviado por correo o verbalmente,
como en el caso de una entrevista telefónica, se debe proporcionar la carta de presentación o el guión que
detalle los procedimientos.
Problemas potenciales con los protocolos de investigación
Los IRB frecuentemente encuentran ciertos tipos de problemas. A veces, los estudiantes o investigadores sin
experiencia no tendrán la ayuda adecuada para preparar el protocolo. Si ese es su caso, debe consultar a otros
investigadores experimentados o al administrador del IRB. Esté atento a las clases de capacitación que la
institución podría brindar y consulte otros recursos informativos, como la página web del IRB.
Algunos protocolos de IRB para estudiantes dedican mucho espacio a la importancia de la investigación, pero
no describen los métodos y procedimientos con suficiente detalle o especificidad. Por ejemplo, es necesario
explicar claramente el procedimiento de consentimiento, al igual que el diseño de la investigación y los
procedimientos para reclutar y retener a los participantes.
Algunos investigadores exageran los beneficios potenciales o minimizan los riesgos que el IRB puede
identificar. Además de los riesgos físicos, pueden existir riesgos para el empleo, el avance, la reputación y la
situación financiera. La angustia emocional también puede ser un riesgo importante. Los investigadores deben
tener claro que son sensibles a las cuestiones de la coerción y las relaciones de doble rol, es decir, cuando un
investigador es también profesor o supervisor de los participantes potenciales.
El investigador, cuya intención es ayudar a personas con algún tipo de problema o discapacidad mediante una
intervención, también debe ser sensible a la posibilidad de que identificarlos como participantes en la intervención
pueda de hecho estigmatizarlos. Se debe hacer todo lo posible para ser sensible a este tipo de situaciones y
garantizar la privacidad de dichas personas.
Cuestiones éticas con respecto a la recopilación de datos Al igual que con los
otros pasos del proceso de investigación, surgen una serie de cuestiones éticas durante las fases de recopilación y análisis
de datos de la investigación. Algunos de ellos involucran el tratamiento de los participantes y ya han sido discutidos (por
ejemplo, sensibilidad a las preocupaciones de privacidad de los participantes, confidencialidad o información). Otro conjunto
de cuestiones éticas tiene que ver con la integridad de la recopilación, el registro y el análisis de datos. Pasamos ahora a
estas cuestiones.
Integridad de los datos
Debería ser obvio que los investigadores no deben fabricar datos ni falsificar resultados en sus informes. Y si los
investigadores descubren errores importantes en los datos publicados, deberían corregirlos. Desafortunadamente, este tipo
de mala conducta científica ha ocurrido con demasiada frecuencia. Altman y Hernon (1997) describieron más de 60 casos
de publicaciones discutidas públicamente que involucraban datos fabricados, falsificados o plagiados. Altman y Hernon
afirmaron que discuten sólo una fracción de los casos en los que se determinó mala conducta científica. Señalan que,
aunque la medicina tiene la mayoría de los casos, el problema se extiende a muchas disciplinas, incluidas la psicología, la
historia y la química. Se han dedicado números enteros de revistas de sociología, negocios y medicina a debates sobre la
mala conducta y la ética profesional.
La fabricación (es decir, inventar los datos o los resultados) y la falsificación (es decir, cambiar los datos o los resultados)
son claramente inaceptables pero, con suerte, son relativamente raras. Sin embargo, existen otros comportamientos que
pueden deberse a un descuido, un sesgo o una decisión imprudente que causan problemas para la integridad de los datos
y para las inferencias que se hacen a partir de estos datos. Algunos errores al observar, registrar e ingresar datos pueden
ser un subproducto inevitable del uso de humanos (en lugar de dispositivos de registro electrónicos) en estas funciones,
pero una buena investigación minimizará dichos errores. Puede resultar útil una formación cuidadosa de los observadores
y otros asistentes. Verificar los datos para asegurarse de que se registraron e ingresaron correctamente puede ser útil, al
igual que, en algunos casos, puede serlo el uso de computadoras para reducir posibles errores en la transcripción de datos.
Por lo tanto, el cuidado es tan importante como la honestidad para que los datos recopilados sean significativos.
Los investigadores cualitativos han señalado que la investigación siempre está cargada de valores y nunca es
completamente objetiva. Por lo tanto, las perspectivas que uno aporta a la investigación seguramente influirán no sólo en la
selección de los problemas, las variables y los métodos utilizados, sino también en la codificación y categorización de los
datos y en cómo se interpretan. Esto es cierto, pero se puede y se debe hacer mucho para minimizar los efectos de los
sesgos del investigador. En primer lugar, se pueden reconocer los sesgos y tratar de descubrir cómo podrían influir en la
recopilación, codificación y análisis de datos. Verificar la confiabilidad de la codificación es deseable, pero no suficiente,
especialmente si los otros codificadores tienen sesgos similares o fueron capacitados por el mismo investigador.
Una vez más, el cuidado de minimizar los efectos del sesgo evitable puede ser tan importante como la honestidad para una
buena investigación.
Hay muchas opciones que tomar al realizar una investigación. Las limitaciones financieras y de otro tipo dan lugar a
decisiones necesarias que debilitan un estudio de alguna manera para fortalecerlo de otras maneras. Por ejemplo, casi
siempre existe un equilibrio entre validez interna y externa; es decir, un buen control tiende a hacer que las cosas sean
artificiales. Sin embargo, los investigadores también toman malas decisiones innecesarias, algunas de las cuales son
éticamente cuestionables. Un ejemplo es el investigador que elimina participantes del estudio por razones inexplicables.
Como ya comentamos, a los participantes se les debe dar permiso para retirarse en cualquier momento, por lo que es un
motivo válido para excluir los datos. Pero si los participantes no se desempeñan de la manera esperada, esa no es una
razón válida. Otro ejemplo sería
cambiar la duración del estudio o anular a evaluadores supuestamente independientes. Cualquier cambio de este tipo
debe justificarse y no debe deberse a que los datos resulten “incorrectos”.
Resumen Este
capítulo analiza problemas y principios éticos. Primero, dimos una breve reseña histórica de los problemas éticos en el
tratamiento de sujetos humanos. A continuación, revisamos las políticas generales relacionadas con el consentimiento
informado voluntario, la privacidad y las evaluaciones de riesgos y beneficios. Luego, avanzamos paso a paso a través
del proceso de investigación, discutiendo cuestiones éticas relacionadas con el muestreo, la planificación del diseño, la
selección de instrumentos, la planificación del procedimiento, la obtención de la aprobación del IRB y la recopilación de
datos.
Conceptos clave
Asentimiento de los niños

Beneficencia
Consentir
Fabricación y falsificación de datos.
Engaño
Interrogación
Consentimiento informado
Junta de revisión institucional (IRB)
Justicia
Revisión enmascarada (ciega)
Privacidad
Protocolo de investigación
Respeto por las personas
Tasa de respuesta
Distinciones clave
Confidencial versus anónimo
Pruebas piloto versus estudios piloto

Riesgos versus beneficios
1. ¿Cuál es el propósito del IRB? ¿Cuándo se requiere que un investigador obtenga IRB?
¿aprobación?
2. Enumere cada uno de los tres principios/directrices éticas para la protección de los derechos humanos.
asignaturas. Da un ejemplo original para cada uno.
3. ¿Cuáles son los tres aspectos del consentimiento informado? Da un ejemplo original para cada uno.
4. ¿Cuál es la diferencia entre anonimato y confidencialidad?
5. Explique la cuestión de evaluar el riesgo versus el beneficio en la investigación.
6. Nombra tres cuestiones éticas en la selección de muestras y da un ejemplo original para cada una.
7. ¿Qué es el engaño en la investigación? ¿Es alguna vez aceptable el engaño? Explicar.
8. Nombra dos cuestiones éticas relacionadas con la integridad de los datos. Da un ejemplo original para cada uno.
9. Un investigador interesado en los servicios de libertad condicional para menores ha desarrollado una herramienta
para medir el grado en que un menor corre riesgo de cometer delitos repetidos (la escala indica riesgo bajo, riesgo
medio o riesgo alto). El investigador revisó los registros de casos iniciales de todos los nuevos en libertad
condicional durante un período de 6 meses y aplicó la escala a cada caso. Luego siguió a las personas en libertad
condicional durante 6 meses adicionales para determinar si fueron arrestadas por delitos adicionales. a. ¿Qué
cuestiones éticas enfrenta este investigador?
b. ¿Cómo abordaría el investigador cada cuestión ética de (a)?
10. Un investigador ha sido consultado por un programa de educación continua que ofrece clases de inglés a inmigrantes
que hablan poco o nada de inglés. El programa tiene dos planes de estudio diferentes y desea saber cuál es más
eficaz. a. ¿Qué cuestiones éticas enfrenta este investigador?
b. ¿Cómo abordaría el investigador cada cuestión ética de (a)?
11. Lea el siguiente escenario y luego responda las preguntas siguientes:
El Dr. Jones, de la Facultad de Educación de Major University, está interesado en la salud emocional de los
niños. Quiere estudiar el bienestar emocional de los niños criados en un ambiente tradicional de “escuela
religiosa”. Ella plantea la hipótesis de que estos niños serán emocionalmente “más fuertes” que las normas
nacionales generales. Debido a que el Dr. Jones forma parte de la junta directiva de la escuela, la directora, la
hermana Mary, está de acuerdo. El Dr. Jones puede reunirse con los estudiantes de quinto grado y entrevistar
a los 20 estudiantes sobre las actitudes de sus familias hacia el alcohol, el tabaco, el uso de drogas y su
resistencia a la violencia. También conoce un instrumento estandarizado de salud emocional. La hermana Mary
determina que la evaluación de la salud emocional de los niños será información útil para que la escuela la
tenga en los registros de los estudiantes, por lo que se les informará que las entrevistas son parte de la clase.
Debido a que es parte de la tarea de clase, no es necesario informar especialmente a los padres. Además, ¡los
avisos enviados a los padres nunca regresan cuando se envían en loncheras de todos modos! Los 20
estudiantes están divididos en partes iguales entre niños y niñas, asisten tres estudiantes cubanos y el resto
son caucásicos. Junto con el instrumento psicológico estandarizado, debería poder tomar una “instantánea”
razonablemente bien de los niños y diferenciar el bienestar por género, etnia y actitudes familiares. a. ¿Quiénes
son “los jugadores” (tanto aparentes como no aparentes) y qué podrían ser
sus problemas?
b. ¿Qué principios del Informe Belmont (respeto a la persona, beneficencia o justicia) se aplican y
cómo? C. ¿Qué
preguntas podría tener una junta de revisión institucional sobre este proyecto? d. ¿Debería
aprobarse el proyecto tal como se propone actualmente? mi. ¿Cómo
podría rediseñarse el proyecto para abordar algunas de las preocupaciones del IRB?
En los escenarios de los problemas 12 y 13, ¿qué cuestiones éticas se violaron?
12. Un investigador está interesado en el consumo de chocolate y el tiempo de reacción. Asigna

aleatoriamente a 16 estudiantes a un grupo experimental o de control. A los estudiantes se les dice
que como parte de su calificación final del curso, deben ser una materia del estudio. Después de
darles a comer a ocho de los estudiantes cinco barras de chocolate a cada uno (mientras ella se
sienta y observa para asegurarse de que se las coman todas), les da a los 16 estudiantes una
prueba de tiempo de reacción. Cuando los estudiantes han completado la prueba, ella les permite irse.
13. En una universidad grande, un investigador quiere saber si los estudiantes de posgrado tienen
mejores habilidades para tomar decisiones que los estudiantes universitarios. El investigador les dice
a 30 graduados y 30 estudiantes universitarios que les dará 50 dólares a cada uno si completan una
tarea de decisión difícil. Después de tabular los resultados, la investigadora publica los números de
seguro social de los estudiantes y su puntuación en la toma de decisiones en su puerta para que los
estudiantes puedan saber cómo les fue en la tarea.
14. Los científicos están interesados en las causas del comportamiento violento. ¿Por qué algunas
personas que parecen haber experimentado una infancia “normal” exhiben un comportamiento muy
violento, con poco o ningún remordimiento? Los investigadores plantearon la hipótesis de diferencias
innatas en la fisiología del cerebro. El director acordó que se incluirían en el estudio todos los
prisioneros varones de una prisión de alta seguridad en un estado del sur que hubieran cometido un
delito violento y que no tuvieran evidencia de abuso o negligencia infantil. Se seleccionó una muestra
de varones demográficamente similar (p. ej., edad, origen étnico, antecedentes familiares) de la
población general de ese estado para que sirviera como grupo de comparación; El 40% de ellos
aceptó participar (y recibieron una compensación de 200 dólares). Había 28 personas en el grupo de
prisioneros y 30 en el grupo comunitario no criminal.
Se realizaron escáneres cerebrales a todos los participantes y luego se hicieron comparaciones entre
los dos grupos. a. Discuta las
cuestiones éticas involucradas en este estudio. b. Discuta
cuestiones de validez poblacional a partir de la información proporcionada. C. Discutir
cuestiones de validez ecológica.
15
Cuestiones prácticas en la recopilación y codificación de datos
En este capítulo, proporcionamos una breve revisión de los pasos iniciales de un proyecto de investigación
antes de centrarnos en (1) preparar los datos (codificar y verificar) para ingresarlos en una hoja de cálculo; (2)
definir y etiquetar variables; (3) ingresar los datos apropiadamente; (4) verificar que la entrada de datos se
haya realizado correctamente y sin errores; y (5) calcular escalas de calificación compuestas. Gran parte de
este capítulo es una adaptación de Morgan, Leech, Gloeckner y Barrett (2007).
Pasos iniciales en el proceso de investigación
Planificación del estudio, pruebas piloto y recopilación de datos
Planificación del
estudio La investigación comienza con la identificación de un problema y preguntas o hipótesis. También es

necesario planificar el enfoque y el diseño de la investigación antes de seleccionar el instrumento de
recolección de datos (Capítulo 13) y comenzar la recolección de datos.
Selección o desarrollo de los instrumentos Si
hay instrumentos apropiados disponibles y se han utilizado con una población similar a la población prevista,
generalmente es deseable utilizar estos instrumentos.
Sin embargo, a veces es necesario modificar un instrumento existente o desarrollar uno nuevo. En este
capítulo, proporcionamos un ejemplo de un breve cuestionario que se entregará a los estudiantes al final de
un curso. Por lo tanto, para simplificar nuestra introducción a la codificación de datos, nos centramos en este
instrumento. Sin embargo, en los estudios que utilizan enfoques experimentales aleatorios, cuasiexperimentales
o comparativos, también se realizaría la codificación en grupos de tratamiento y control. Los cuestionarios o
encuestas son sólo una forma de recopilar datos cuantitativos. También se podrían utilizar entrevistas
estructuradas, observaciones, pruebas, inventarios estandarizados o algún otro tipo de método de recopilación
de datos. Si se utilizan instrumentos establecidos, la literatura proporcionará alguna evidencia de confiabilidad
y validez.
Refinamiento de instrumentos y
procedimientos Siempre es conveniente probar (prueba piloto) un instrumento y las instrucciones que lo
acompañan con, al menos, algunos colegas o amigos. Este es especialmente el caso si los instrumentos,
procedimientos o población son aquellos que no se han utilizado antes en este combinación.
Se debe preguntar a los participantes del piloto sobre la claridad de los elementos y si creen que se debería
agregar o eliminar alguno. La retroalimentación se puede utilizar para realizar modificaciones en el instrumento
antes de comenzar un estudio piloto formal. La validez del contenido también se puede comprobar mediante
209
pedir a expertos que juzguen si sus elementos cubren todos los aspectos del dominio que desea medir y
si están en proporciones apropiadas en relación con ese dominio.
Cuando sea posible, se debe realizar un estudio piloto formal con una muestra similar a la que se planea
utilizar más adelante. Esto es especialmente importante si el instrumento va a ser utilizado con una
población diferente a aquella para la que fue desarrollado o en la que se utilizó anteriormente. Los datos
recopilados de un estudio piloto formal pueden proporcionar evidencia sobre la confiabilidad y validez de
los datos en este contexto con la población planificada. Nuevamente, si el instrumento o los procedimientos
se cambian después del estudio piloto, estos datos no deben combinarse con los datos del estudio real.
Recopilación de datos
El siguiente paso en el proceso de investigación es recopilar los datos. Hay varias formas de recopilar
datos de cuestionarios o encuestas (por ejemplo, teléfono, correo postal o correo electrónico). La guía de
Salant y Dillman (1994), Cómo realizar su propia encuesta, proporciona considerables detalles sobre los
diversos métodos para recopilar datos de encuestas y los posibles problemas a considerar.
Los datos brutos deben comprobarse después de su recopilación, incluso antes de introducirlos en la
computadora. Es importante asegurarse de que los participantes marcaron adecuadamente sus hojas de
puntuación o cuestionarios; además, es necesario ver si hay respuestas dobles a una pregunta (cuando
solo se espera una) o respuestas que estén marcadas entre dos puntos de calificación. Si esto sucede, se
debe aplicar una regla consistente (por ejemplo, “usar el promedio”). Por lo tanto, es necesario “limpiar” los
datos, asegurándose de que sean claros, consistentes y legibles, antes de ingresarlos en un archivo de
datos u hoja de cálculo. Esto no significa que esté bien cambiar o alterar
los datos.
Supongamos que el breve cuestionario que se muestra en la figura 15.1 se entregó a una clase de
estudiantes que lo completaron y lo entregaron al final de la clase. Si el cuestionario pretende ser anónimo,
no incluiría un número de identificación, pero después de recopilar los cuestionarios, el investigador
numeraría los formularios para poder verificar la entrada de datos más adelante. Luego, el investigador
está listo para comenzar el proceso de codificación, que se describe en la siguiente sección.
Var.
IDENTIFICACIÓN Variable
No. Por favor circule o proporcione su respuesta DE ingrese # SA Nombre
1. Recomendaría este curso a otros estudiantes 2. Trabajé muy 1 234234 5 Recomendar
12 duro en este curso 1 5
Trabaja duro
3 3. Mi universidad es: Artes y ciencias = 1 Negocios = 2 Ingeniería = 3 4. Mi género es Colega

4 M=0F=1 Género
ingrese # con
5 5. Mi GPA es GPA
2 decimales
6. Para esta clase, hice: (marque todo lo que en blanco marcado
6 corresponda) =0 =1 Lectura
7 lectura y tarea =0 =1 Tarea
8 Crédito adicional =0=1 Extracrd
Figura 15.1 Una
encuesta en blanco que muestra cómo codificar los datos.

Cuestiones prácticas en la recopilación y codificación de datos 211
Codificación, ingreso y verificación de datos
Pautas para la codificación de
datos La codificación es el proceso de asignar números a los niveles o valores de cada variable.
La Figura 15.1 es nuestro cuestionario de ejemplo. Hay ocho medidas en el cuestionario.
El cuestionario proporciona un ejemplo del enfoque descriptivo en el sentido de que se utiliza para
describir cómo se sienten los estudiantes acerca de un curso en particular al final del mismo. En este
caso, las medidas proporcionarían información al instructor sobre cómo se sienten los estudiantes acerca
de, por ejemplo, el curso, su especialización y el promedio de calificaciones (GPA). Sin embargo, este
cuestionario también podría considerarse como un ejemplo del enfoque comparativo, con un atributo
variable independiente de género (ítem 4) o universidad (ítem 3) y una variable dependiente del ítem 1.
O bien, el cuestionario podría ser un ejemplo del enfoque asociativo con una variable independiente de
atributo de GPA (ítem 5) o una variable independiente de atributo de qué tan duro trabajó el estudiante
(ítem 2) y una variable dependiente del ítem 1.
Antes de iniciar el proceso de codificación, presentamos algunas pautas o reglas a tener en cuenta.
Estas sugerencias están adaptadas de las reglas propuestas en el útil libro de Newton y Rudestam
(1999) titulado Your Statistical Consultant.
Cada nivel de una variable debe ser mutuamente excluyente.
Es decir, sólo se puede registrar un valor o número para cada variable. Algunos ítems del cuestionario,
como nuestro ítem 6 en la Figura 15.1, permiten a los participantes verificar más de una respuesta.
En ese caso, el ítem debe dividirse en una variable separada para cada posible opción de respuesta
(marcada o no), correspondiendo un valor de cada variable a sí (es decir, marcada = 1) y el otro a no (no
marcada = 0). . Por ejemplo, como se muestra en la Figura 15.1, el elemento 6 se convierte en las
variables 6, 7 y 8.
Por lo general, los elementos deben redactarse de manera que las personas elijan lógicamente sólo
una de las opciones proporcionadas, y se deben proporcionar todas las opciones posibles. Se puede
proporcionar una categoría denominada “otro” en los casos en que no se pueden enumerar todas las
opciones posibles, pero estas “otras” respuestas suelen ser bastante diversas y, por lo tanto, no suelen
ser muy útiles para fines estadísticos.
Cada variable debe codificarse para obtener la máxima información
Las categorías o valores no deben contraerse cuando se configura la codificación. Si fuera necesario, se
podría utilizar la computadora para hacerlo más tarde. En general, es deseable codificar e ingresar datos
en la forma más detallada posible. Por lo tanto, si se conocen, se deben ingresar los puntajes reales de
los exámenes, las edades, los GPA, etc. Es una buena práctica pedir a los participantes que proporcionen
información que sea bastante específica. Sin embargo, se debe tener cuidado de no hacer preguntas que
sean tan específicas que el encuestado no sepa la respuesta o no se sienta cómodo proporcionándola.
Por ejemplo, se obtendrá más información pidiendo a los participantes que indiquen su GPA con dos
decimales (Figura 15.1) que si se les pidiera que seleccionaran entre unas pocas categorías amplias (por
ejemplo, menos de 2,0, 2,0–2,49 o 2,50–2,99). . Sin embargo, si los estudiantes no conocen su GPA o no
quieren revelarlo con precisión, pueden dejar la pregunta en blanco o escribir una respuesta difícil de
interpretar.
Para cada participante debe existir un código o valor para cada variable
Estos códigos deben ser números, excepto para las variables para las que faltan datos. Recomendamos utilizar
espacios en blanco cuando falten datos. SPSS, por ejemplo, está diseñado para manejar espacios en blanco como
valores faltantes. Sin embargo, en ocasiones faltan más de un tipo de datos, como ítems que se dejan en blanco y
aquellos que tenían una respuesta inapropiada o inutilizable. En este caso, se les podrían asignar códigos numéricos
como 98 y 99, pero se debe indicar al programa de computadora que estos códigos son para valores faltantes o serán
tratados como datos reales.
Las reglas de codificación deben aplicarse de manera consistente para todos los
participantes. Esto significa, por ejemplo, que si se toma la decisión de tratar un cierto tipo de respuesta como faltante
para una persona, la decisión debe ser la misma para todos los demás participantes.
Se deben utilizar números altos (valores o códigos) para "acordar".

Extremo "bueno" o "positivo" de una variable ordenada
A veces, los cuestionarios utilizan 1 para “muy de acuerdo” y 5 para “muy en desacuerdo”. Esto no está mal siempre
que sea claro y coherente. Sin embargo, habrá menos confusión al interpretar los resultados si los valores altos tienen
un significado positivo. Algunos cuestionarios tienen ítems redactados tanto positiva como negativamente. En el
Capítulo 13, demostramos cómo invertir la codificación de algunos de los ítems para que todos los ítems a combinar
tuvieran una puntuación alta en el extremo positivo de la escala.
Todos los datos deben ser numéricos
Aunque es posible utilizar letras o palabras como datos, para el análisis de datos generalmente no es deseable hacerlo.
Por ejemplo, podríamos codificar el género como M para hombre y F para mujer, pero para hacer la mayoría de las
estadísticas, las letras o palabras tendrían que convertirse a números. Generalmente es más fácil realizar esta
conversión antes de ingresar los datos en la computadora. La figura 15.1 muestra que decidimos codificar a las mujeres
como 1 y a los hombres como 0. A esto se le llama codificación ficticia. En esencia, el 0 significa "no mujer". Por
supuesto, podríamos haber codificado a los hombres como 1 y a las mujeres como 0, o podríamos haber codificado un
género como 1 y el otro como 2. Sin embargo, es crucial ser consistente en la codificación (por ejemplo, para este
estudio, todos los hombres están codificados 0 y hembras 1) y tener un registro y al menos un duplicado de cómo se
realizó la codificación. Un registro de este tipo se denomina libro de códigos o diccionario.
Cada variable para cada caso o participante debe ocupar la misma columna
en la hoja de cálculo o editor de datos. Para casi todos los
análisis estadísticos, es importante que los datos de cada participante ocupen solo una línea (fila) y cada columna debe
contener datos sobre la misma variable. para todos los participantes. El editor de datos debe tener los nombres de las
variables que se eligen en la parte superior de cada columna. Si una variable se mide más de una vez (por ejemplo,
prueba previa y prueba posterior), se ingresará en dos columnas con nombres algo diferentes, como mathpre y
mathpost.
Será necesario tomar algunas decisiones sobre cómo codificar los datos, especialmente los que aún no están en
forma numérica. Cuando las respuestas proporcionadas por los participantes son números, se dice que la variable se
“autocodifica”. El número que fue escrito, encerrado en un círculo o marcado puede
acaba de ser ingresado. Por otro lado, variables como el género o la universidad en la Figura 15.1 no tienen ningún valor
intrínseco asociado. La figura 15.1 muestra las decisiones que tomamos sobre cómo numerar las variables, codificar los
valores y nombrar las ocho variables. Cada uno de los cuestionarios debe estar numerado para luego comparar los datos
ingresados con los cuestionarios.
Consulte los cuestionarios completados para detectar problemas. Para
cada tipo de respuesta incompleta, en blanco, poco clara o doble, se debe establecer una regla sobre qué hacer. En la medida
de lo posible, estas reglas deben establecerse antes de la recopilación de datos, pero es posible que surjan algunos problemas
imprevistos. Es importante que las reglas se apliquen de manera consistente para todos los problemas similares para no
sesgar los resultados.
En esta sección, identificamos varios tipos de posibles respuestas de los participantes a los cuestionarios que deben
aclararse. En la Figura 15.2 se muestran copias de los cuestionarios para seis estudiantes que plantearon tales problemas.
Discutimos cada uno de estos temas y cómo podríamos decidir manejarlos. Por supuesto, algunas elecciones razonables
podrían haber sido diferentes a las nuestras. Hemos escrito nuestras decisiones en cuadros numerados en la figura 15.2 y
las analizaremos a continuación.
1. Para el participante 7, el GPA parece estar escrito como 250. Parece razonable suponer que este estudiante quiso
incluir un decimal después del 2, por lo que podríamos ingresar 2,50. En lugar de eso, podríamos haber dicho que
se trataba de una respuesta no válida y codificarla como faltante. Sin embargo, los datos faltantes crean problemas
en análisis de datos posteriores, especialmente para estadísticas complejas. Por lo tanto, queremos utilizar tantos
datos proporcionados como sea razonable. Lo importante aquí es que todos los demás problemas similares deben
tratarse de la misma manera.
2. Para el Participante 8, se marcaron dos universidades. Podríamos haber desarrollado un nuevo valor de respuesta
legítimo (4 = otro). Debido a que esta universidad ficticia requiere que los estudiantes sean identificados con una y
sólo una de sus tres facultades, hemos desarrollado dos códigos de valores faltantes. Por lo tanto, para esta
variable utilizamos 98, para varias universidades marcadas u otras respuestas escritas que no encajaban
claramente en una de las universidades (por ejemplo, historia y negocios). Tratamos dichas respuestas como
faltantes porque parecían no ser válidas o porque no habríamos tenido suficientes respuestas dadas para formar
un grupo de tamaño razonable para el análisis. Usamos 99 como código para los casos en los que no se verificó ni
escribió nada en el formulario. Tener dos códigos nos permite distinguir entre estos dos tipos de datos faltantes.
Otros investigadores (por ejemplo, Newton & Rudestam, 1999) recomendaron usar 8 y 9 en este caso, pero
pensamos que es mejor usar un código que sea muy diferente de los códigos “válidos” para que destaquen
visualmente en la hoja de cálculo. y dará lugar a diferencias notables en las estadísticas descriptivas si no se
codifican como valores faltantes.
3. Además, el Sujeto 8 anotó 2,2 en su GPA. Parece razonable introducir 2,20 como GPA.
4. Decidimos ingresar 3.00 para el GPA del Participante 9. Por supuesto, el GPA real podría ser mayor o, más
probablemente, menor, pero 3,00 parece ser la mejor opción dada la información, “alrededor de 3 puntos”,
proporcionada por el estudiante.
5. El participante 10 respondió solo las dos primeras preguntas, por lo que faltaban muchos datos. Parece que decidió
no completar el cuestionario. Establecimos la regla de que si tres de los primeros cinco ítems estaban en blanco o
no eran válidos, descartaríamos todo el cuestionario por no válido. En un informe de investigación se debe indicar
cuántos cuestionarios se descartaron y por qué motivos. Generalmente no hay datos
2. Ingrese 98.
identificación 7
Por favor circule o proporcione su respuesta

SA ID 8 5 5
SD 1. Recomendaría este curso a otros estudiantes 1 2. Trabajé 2 3 4
DE SA
identificación 9
muy duro en este curso 1 2 3 4
1 2 3 4 5
Dakota del Sur
SA
1 2 3 4 5
3. Mi universidad es: Artes y Ciencias Ingeniería Comercial 4. Mi género es 2 3 4 5
ABE 11 2 3 4 5
MF
250 MF ABE
5. Mi GPA es
2.2 MF
6. Para esta clase, hice: (marque todo lo que
unos 3 puntos
corresponda)
lectura y tarea Crédito adicional
1. Ingrese 2,50. 3. Ingrese 2.20. 4. Ingrese 3.00.
5. Deja todas las variables

en blanco, excepto ingrese 10. Ingrese 2.5.
99, falta, para universidad. 6. Ingrese 3.5.
7. Ingrese 1.
identificación 10
Por favor circule o proporcione su respuesta DE SA identificación 11
1. Recomendaría este curso a otros estudiantes. 1 2 3 4 5
DE SA identificación 12
2. Trabajé muy duro en este curso. 1 2 3 4 5
1 2 3 4 5 Dakota del Sur
SA
1 2 3 4 5 2 3 4 5
3. Mi universidad es: Artes y Ciencias Ingeniería Comercial 4. Mi género es
ABE 11 2 3 4 5
MF
Biología ABE
MF
5. Mi GPA es
9.67 MF
6. Para esta clase, hice: (marque todo lo que
corresponda)
11.
lectura y tarea Crédito adicional
Dejar
en
blanco, falta
8. Por ahora ingrese 9.67, pero 9. Introduzca 1 para
consulte la discusión adjunta. leyendo y

tarea.
Figura 15.2
Encuesta completa con cuadros de llamadas que muestran cómo manejamos las respuestas a los problemas.
se ingresaría a partir de ese cuestionario. Para demostrar cómo codificar la universidad de

alguien si se deja en blanco, no eliminamos a este participante en este momento.
6. Para el Participante 11, existen varios problemas. Primero, rodeó el 3 y el 4 para el primer ítem;
una decisión razonable es ingresar el promedio o punto medio, 3,50.
7. El participante 11 ha escrito sobre “biología” para la universidad. Aunque no hay una facultad
de biología en esta universidad, parece razonable ingresar 1 = artes y ciencias en este caso y
en otros casos (por ejemplo, historia = 1, marketing = 2 o civil = 3) donde se encuentra la
facultad real. claro. Consulte la discusión del problema 2 para saber cómo manejar ejemplos poco claros.
8. El participante 11 parece haber ingresado 9.67 para el GPA, lo cual es una respuesta no válida.
porque esta universidad tiene un sistema de calificaciones de cuatro puntos (4.00 es el GPA máximo
posible ). Para mostrarle un método para verificar errores que se han ingresado
En la computadora ingresamos 9.67. Por supuesto, hubiera sido mejor haber identificado problemas
como este y haber ingresado un espacio en blanco para los datos faltantes o no válidos.
9. Parece razonable suponer que un cuadro rodeado por un círculo debería codificarse como si fuera
marcado, por lo que ingresamos 1 para lectura y tarea para el Participante 11.
Además, ingresamos 0 para crédito adicional (no marcado) como lo haríamos con todos los
casillas dejadas sin marcar por otros participantes (excepto el Sujeto 10). A pesar de
esta persona rodeó las casillas en lugar de poner X o marcas en ellas, su
la intención es clara.
10. Decidimos ingresar 2.5 para la X del Participante 12 entre 2 y 3, como habíamos decidido
para el tema 11.
11. El participante 12 también dejó el GPA en blanco, por lo que lo dejamos en blanco, el valor que falta habitualmente.
Una vez que se han creado las reglas y se han tomado decisiones sobre cómo manejar cada problema, estas
reglas y decisiones deben aclararse a las personas que ingresarán los datos. A
procedimiento común sería escribir las decisiones en cada cuestionario real, probablemente
en un color diferente.
Definir y etiquetar las variables
El siguiente paso es nombrar y etiquetar las variables. Es común dar a las variables cortas.
Los nombres de las variables, como se muestra en la Figura 15.1, por ejemplo, recomiendan para el punto 1,
“Recomendaría este curso a otros estudiantes”. Para el punto 2, lo llamamos trabajador. En computadora
programas, como SPSS, también se puede dar a cada variable una etiqueta de variable más larga , como
uno entre comillas para el punto 1. A la tercera variable la llamamos universidad. Es especialmente importante
etiquetar los niveles o valores de variables nominales como la universidad para que no haya confusión
más tarde. Tenga en cuenta que en la figura 15.1 asignamos la etiqueta de valor 1 a los estudiantes de la facultad
de artes y ciencias; utilizamos 2 para negocios; y 3 para ingeniería. Recuerde que decidimos usar 98 para otras o
múltiples respuestas y 99 para cuando el alumno lo dejó en blanco. Es esencial, si se utilizan números para valores
faltantes, que se indique a la computadora que dichos números (p. ej.,
98 o 99) debe considerarse faltante, no realmente 98 o 99. Debe tenerse en cuenta que el
Los investigadores han tomado decisiones que otro investigador podría haber tomado de otra manera. Para
Por ejemplo, se podría haber usado 1 en lugar de 3 para la facultad de ingeniería, por lo que es importante
etiquetar los valores de forma clara y coherente.
El siguiente paso es etiquetar el género y sus niveles (1 = mujer, 0 = hombre, como se muestra en la Figura 15.1).
La pregunta 6 se dividió en las tres variables relacionadas con las partes de la clase que completó un estudiante.
En la figura 15.1, los nombres de estas tres últimas variables eran lectura, tarea y extracrd. Las etiquetas de las
variables podrían ser Leí, hice la tarea o obtuve crédito adicional. Las etiquetas de valor eran 0 = no marcado/en
blanco y 1 = marcado.
Visualización del diccionario o libro de códigos
Una vez definidas y etiquetadas las variables, se crea un libro de códigos o diccionario de las variables.
debe imprimirse. El libro de códigos es un registro impreso completo de los nombres y etiquetas de
cada variable y de los valores y etiquetas de valores para los niveles de al menos el nominal y
variables dicotómicas.
Recomendar Workhard Universidad Género GPA Lectura Tarea Extracrd
1 3 5 1 0 3.12 0 0 1
2 4 5 2 0 2.91 1 1 0
3 4 5 1 1 3.33 0 1 1
4 5 5 1 1 3.60 1 1 1
5 4 5 2 1 2.52 0 0 1
6 5 5 3 1 2,98 1 0 0
7 4 5 2 0 2.50 1 0 0
8 2 5 98 0 2.20 0 0 0
9 5 5 3 0 3.00 0 1 0
10 99
11 3.5 5 1 1 9.67 1 1 0
12 2.5 5 2 1 1 1 1
Figura 15.3
Una hoja de cálculo de entrada de datos de muestra.
Ingresar y verificar los datos en busca de errores
Después de definir y etiquetar las variables, la siguiente tarea es ingresar los datos codificados y limpios en una
hoja de cálculo de computadora a partir de los cuestionarios. La mayoría de las hojas de cálculo de la computadora
están prenumerados en la columna de la izquierda (Figura 15.3). Estos números corresponden a
el número de identificación que el investigador puso en cada cuestionario. Los datos del cuestionario de cada
participante van en una y sólo una línea a lo largo de la página y cada columna representa una variable del
cuestionario. A continuación, se deben escribir los datos en la computadora.
hoja de cálculo. La Figura 15.3 muestra los datos de 12 estudiantes participantes, incluidos los ID 7 a 12,
que tenía los problemas mostrados en la Figura 15.2 y discutidos anteriormente.
Antes de realizar cualquier análisis, es necesario comparar los datos de los cuestionarios.
con los datos ingresados en la computadora. Si hay una gran cantidad de datos, una muestra del
Se pueden verificar los participantes, pero es preferible verificar todos los datos para asegurarse de que
fueron ingresados correctamente. Si se encuentran errores en la muestra revisada, todas las entradas deben ser
comprobados y errores corregidos. En la siguiente sección, mostramos una forma de verificar dos veces si
ciertos tipos de errores graves en la entrada de datos.
Descriptivos y Verificación de Datos
Para tener una mejor “sensación” de los datos y verificar algunos tipos de errores, recomendamos calcular
estadísticas descriptivas básicas. Las distribuciones de frecuencia, especialmente para datos nominales, dicotómicos
y ordinales, proporcionan una manera útil de tener una idea de los datos y detectar ciertas
errores. Calcular los valores mínimos y máximos para todos los participantes en todas las variables.
con un programa de computadora proporcionará un resultado compacto para realizar un examen inicial
de los datos. Debido a que la media (promedio) proporciona información significativa para todos los tipos de
La universidad promedio es
Etiquetas variables
no significativo.
Estadísticas descriptivas
norte Mínimo Máximo Media

recomiendo el curso 11 2.00 5.00 3.8182
he trabajado duro 11 5.00 5.00 5.0000
Colega 10 1 3 1,80
Género 11 0 1 0,55
Promedio de calificaciones 10 2.20 9.67 3.5830

yo hice la lectura 11 0 1 0,55
hice la tarea 11 0 1 0,55
hice el crédito extra 11 0 1 0,45
N válido (en lista) 9
el número de personas Puntajes más altos y más bajos GPA promedio

sin que falten datos sobre
cualquier variable.
Figura 15.4
Salida de SPSS utilizando estadísticas descriptivas para verificar la entrada de datos.
variables excepto las nominales con tres o más categorías, también solicitamos la media
en la Figura 15.4. (Muestra estas estadísticas descriptivas calculadas con el programa SPSS).
A continuación, para cada variable, comparamos las puntuaciones mínima y máxima que se muestran en el
cifra con los valores más altos y más bajos apropiados en el libro de códigos. Si algún dato ingresado
son más altos (por ejemplo, 9.67 para GPA) o más bajos que los especificados en el libro de códigos, aquellos
Los errores deben encontrarse en el conjunto de datos y corregirse antes de realizar más estadísticas.
En la Figura 15.4, indicamos los aspectos clave que podemos aprender de este resultado encerrándolos en un círculo.
y agregando algunos comentarios. Por supuesto, estos círculos y cuadros de información de llamada
no aparece en la impresión real de la computadora.
Este resultado muestra, para cada una de las ocho variables, el número (N) de participantes sin
datos faltantes sobre esa variable. El resultado también muestra la puntuación mínima y máxima que
cualquier participante tenía en esa variable. Por ejemplo, nadie marcó un 1, pero una o más personas marcaron un 2 para la
variable Recomiendo curso y al menos una persona marcó un 5. Aviso
que para Trabajé duro, 5 es tanto el mínimo como el máximo, por lo que todos los estudiantes se calificaron a sí mismos
trabajando duro, un 5. Por lo tanto, este ítem es realmente una constante y no una variable; va a
no será útil en análisis estadísticos. La Figura 15.4 también proporciona la puntuación media o promedio para
cada variable. Observe que la media de Trabajé duro es 5 porque todos marcaron con un círculo 5. La media
de 1,80 para la universidad, una variable nominal (desordenada), no tiene sentido, por lo que puede ignorarse.
Sin embargo, las medias de las variables dicotómicas (de dos niveles) se pueden interpretar de manera significativa. Para
el género, leí e hice la tarea, las medias fueron todas .55, lo que indica que en cada caso el 55% eligió las respuestas que
correspondían a 1 en lugar de 0 (es decir,
mujer para género y “sí” para hacer la lectura y la tarea). Sin embargo, el 45% dijo
dieron el crédito extra porque la media era .45.
El promedio de calificaciones fue 3.58, lo cual es un error porque el resultado muestra un GPA máximo de 9.67, lo cual no
es posible en esta universidad. Así, el 9,67 para el participante 11
es una respuesta inválida. Los cuestionarios deben revisarse nuevamente para asegurarse de que no haya
un error en la entrada de datos. Si, como en este caso, el formulario dice 9.67, se debe cambiar a blanco, el
código de valor faltante.
Reducción de datos: aplicación de la confiabilidad y validez de las mediciones

Razones para reducir el número de variables
Esta sección proporciona ejemplos de dos estadísticas descriptivas complejas que se encuentran
comúnmente en artículos de revistas para ayudar a los investigadores a reducir una gran cantidad de
preguntas o ítems relacionados a variables compuestas significativas, también llamadas escalas agregadas o sumadas.
La razón más importante para reducir el número de medidas en una encuesta o cuestionario es el análisis
de datos. Si la medida, como un cuestionario, tiene 15 ítems, las comparaciones entre el grupo de tratamiento
y control requerirían 15 pruebas estadísticas. Aunque la computadora podría realizar fácilmente 15
comparaciones, surge un problema porque lo más probable es que los 15 ítems no sean independientes
entre sí; es decir, muchos de los ítems miden conceptos similares. La realización de tantas pruebas
estadísticas infla el nivel de significancia de tal manera que las comparaciones entre grupos en muchos
ítems pueden arrojar resultados estadísticamente significativos cuando, en realidad, no lo son
estadísticamente. Por lo tanto, cuando el investigador tiene una variable dependiente, como una prueba,
encuesta o cuestionario, con numerosos ítems, es importante reducir el número de ítems para que puedan
analizarse estadísticamente. Dos métodos para reducir estos ítems son (1) agregar los ítems de una escala
para producir una escala de calificación compuesta; y (2) reducir los ítems de una escala a unas pocas
variables mediante análisis factorial exploratorio. Las estadísticas analizadas aquí que se utilizan para
ayudar a lograr estas dos alternativas son el alfa de Cronbach y el análisis factorial exploratorio (AFE). A
menudo se analizan en la sección de métodos de un artículo cuando los investigadores describen la
confiabilidad y validez de sus medidas o el desarrollo de puntuaciones compuestas.
Aquí proporcionamos ejemplos de cómo un investigador podría condensar significativamente el número

de variables y proporcionar evidencia de la confiabilidad y validez de las nuevas medidas. Primero, discutimos
el uso y la interpretación de una medida común de confiabilidad: el alfa de Cronbach. Luego, analizamos el
análisis factorial exploratorio, que se utiliza para preparar un gran conjunto de datos para análisis inferenciales
más eficientes de las preguntas de investigación de un estudio. Los principales ejemplos citados en este
capítulo se basan en un conjunto de datos que se describe, analiza e interpreta en un libro de texto, SPSS
for Intermediate Statistics, de Leech, Barrett y Morgan (2008), parte del cual se reimprime aquí.
Evaluación de la confiabilidad de la consistencia interna con el alfa de Cronbach
Se utilizan varios tipos de estadísticas, especialmente correlaciones, para evaluar el apoyo a la confiabilidad,
pero en este capítulo solo analizamos el coeficiente alfa de Cronbach, que es probablemente la medida de
confiabilidad reportada con mayor frecuencia. Alfa es una medida de la confiabilidad de la consistencia
interna de una escala compuesta o sumada. Por lo general, se utiliza cuando el investigador tiene varios
ítems de tipo Likert (calificaciones que van desde muy en desacuerdo hasta muy de acuerdo) que se suman
o promedian para formar una puntuación compuesta o una escala sumada. Alfa se basa en la correlación
promedio de cada ítem de la escala con todos los demás ítems. En la literatura sobre ciencias del
comportamiento, alfa se utiliza ampliamente porque proporciona una medida de confiabilidad que se puede
obtener a partir de una sola sesión de prueba o de la administración de un cuestionario.
Sanguijuela y col. (2008) calcularon tres alfas para proporcionar evidencia de la confiabilidad de la
consistencia interna de cada una de las tres escalas de actitud matemática (motivación, competencia y
placer). La puntuación de la escala de motivación estaba compuesta por seis ítems que se calificaban en
escalas Likert de cuatro puntos. , desde muy atípico (1) hasta muy típico (4). ¿Estos elementos se
combinaron (intercorrelacionaron) lo suficientemente bien como para sumarlos y usarlos como una variable compuesta etiqu
Tabla 15.1
Matriz de correlación entre ítems para los ítems de la escala de motivación
elemento elemento tema 7 artículo tema 12

1 motivación 4 al revés motivación 8 al revés motivación
1. Practica matemáticas hasta que te vaya bien 1.00 — — — —
.25 1.00 — — —
4. (No) te rindas fácilmente 7.
.46 .55 1.00 — —
Prefieres resolver problemas sin ayuda 8. (Debes) seguir
.30 .58 .59 1.00 —
trabajando por mucho tiempo si el problema es desafiante
12. Intenta completar matemáticas incluso si lleva mucho .18 .38 .34 .40 1.00
tiempo 13. Explora todas las soluciones posibles .17 .32 .36 .31 .60
Tabla 15.2
Ítem: estadísticas totales para los ítems de la escala de motivación
Correlación ítemtotal Alfa de Cronbach si se

corregida elimina el elemento
Practica matemáticas hasta hacerlo bien. .38 .80
(No) te rindas fácilmente .60 .75
Prefiere resolver los problemas sin ayuda. .68 .72
(Debe) seguir así por mucho tiempo si el problema es desafiante .63 .74
Intenta completar matemáticas aunque te lleve mucho tiempo. .52 .77
Explora todas las soluciones posibles .48 .77
¿motivación? Es decir, ¿cuál es la confiabilidad de consistencia interna de la escala de actitud matemática?

¿motivación etiquetada ?
La tabla 15.1 enumera los ítems incluidos en esta escala de motivación, sus etiquetas y una matriz.
mostrando las correlaciones entre ítems de cada ítem de la escala con todos los demás ítems. Nota
que los ítems 4 y 8, que estaban redactados negativamente en el cuestionario, fueron invertidos
(por ejemplo, 4 = 1, 3 = 2) antes de que se calculara alfa. Esto es necesario para que se calcule alfa.
correctamente. Tenga en cuenta también que algunas de las correlaciones son altas; por ejemplo, los artículos 12 y 13
estaban correlacionados .60. Otros pares de ítems tuvieron una asociación positiva débil; Por ejemplo,
Los ítems 1 y 13 tuvieron una correlación de sólo 0,17.
La tabla 15.2, denominada “Estadísticas totales de elementos”, proporciona dos datos para cada
ítem de la escala (la correlación ítem corregidatotal y alfa de Cronbach) si ese ítem era
eliminado. La primera es la correlación de cada ítem específico con la suma/total de los demás.
ítems de la escala. Si esta correlación es moderadamente alta (digamos, 0,40 o superior), el ítem probablemente esté al
menos moderadamente correlacionado con la mayoría de los demás ítems de la escala propuesta y
será un buen componente de esta escala de calificación sumada. Artículos con artículo más bajo – total
Las correlaciones (como el ítem 1) tampoco encajan en esta escala, psicométricamente. Si el artículo
la correlación total es negativa o demasiado baja (menos de 0,30), los investigadores deben examinar la
elemento por problemas de redacción y ajuste conceptual, y es posible que quieran modificar o eliminar dichos
elementos. La columna de la derecha describe cuál sería el alfa si se eliminara un elemento.
Esto se puede comparar con el alfa de la escala con los seis ítems incluidos, que fue
.79. Eliminar un elemento deficiente generalmente hará que el alfa aumente. Sin embargo, tal eliminación
probablemente hará sólo una pequeña diferencia en el alfa, a menos que la correlación ítemtotal sea
cerca de cero (o negativo). Eliminar un ítem tiene más efecto si la escala tiene solo unos pocos ítems
porque alfa se basa en la cantidad de elementos y en sus intercorrelaciones promedio.
Al igual que con otros coeficientes de confiabilidad, alfa debe estar por encima de 0,70; sin embargo,
es común ver artículos de revistas donde una o más escalas tienen alfas algo más bajos (p. ej., en el
rango de 0,60 a 0,69), especialmente si solo hay una pequeña cantidad de ítems en dicha escala. Un alfa
muy alto (por ejemplo, superior a 0,90) probablemente significa que los ítems son algo repetitivos o que
puede haber más ítems en la escala de los realmente necesarios para una medida confiable del concepto
con fines de investigación.
Un error común es calcular un único alfa general cuando existen varias escalas, como motivación,
competencia y placer. El alfa general es apropiado sólo si el investigador pretende calcular una escala
sumatoria general, como la actitud matemática general, y dicha escala general es significativa
conceptualmente. Con frecuencia, y en este ejemplo, no había ningún plan para una puntuación global.
En nuestro ejemplo, se calcularon e informaron tres alfas separados (uno para motivación, uno para
competencia y otro para placer), pero no un alfa general. Sanguijuela y col. (2008) escribieron, para la
sección de método, las siguientes frases sobre la confiabilidad de la escala de motivación y las otras dos
escalas:
Para evaluar si los seis ítems que se sumaron para crear la puntuación de motivación formaban
una escala confiable, se calculó el alfa de Cronbach. El alfa para los seis ítems fue 0,79, lo que
indica que los ítems forman una escala que tiene una confiabilidad de consistencia interna
razonable. De manera similar, el alfa para la escala de competencia (0,80) indicó una buena
consistencia interna, pero el alfa de cuatro ítems (0,69) para la escala de placer indicó una
confiabilidad mínimamente adecuada. (pág.53)
Análisis factorial exploratorio El
análisis factorial exploratorio es un método que se utiliza para ayudar a los investigadores a representar
un gran número de relaciones entre variables distribuidas normalmente de una manera más simple (más
parsimoniosa). Este enfoque hace que la computadora especifique grupos o conjuntos de elementos que
"se unen". Los resultados del análisis factorial sugieren que todos los ítems estudiados pueden agruparse
en uno o varios conjuntos de ítems correlacionados para los participantes. Un enfoque relacionado es el
análisis factorial confirmatorio, en el que se prueban modelos muy específicos de cómo las variables se
relacionan con constructos subyacentes (variables conceptuales o latentes). No se analiza aquí pero sí,
junto con la EFA, en Thompson (2004).
En el análisis factorial exploratorio, se postula que existe un conjunto más pequeño de variables o
constructos no observados (latentes) que subyacen a las variables que realmente fueron observadas o
medidas. Hay varias formas algo diferentes de calcular factores para el análisis factorial; Uno de estos
métodos, el análisis factorial del eje principal, se utilizó para describir el AFE en este capítulo. SPSS y
muchos libros de texto de investigación denominan a todos estos métodos, incluido el análisis de
componentes principales, “análisis factorial”, y los resultados suelen ser bastante similares.
Por lo general, cuanto mayor sea el tamaño de la muestra, especialmente en relación con el número
de variables, más confiables serán los factores resultantes. El análisis factorial busca explicar la matriz
de correlación, lo cual no sería sensato si todas las correlaciones rondan el cero.
Uso del análisis factorial exploratorio para proporcionar evidencia de la validez de la medición en
Leech et al. (2008), se realizó un análisis factorial del eje principal sobre las variables de actitud hacia las
matemáticas. El análisis factorial fue apropiado porque los autores creían que había tres variables latentes
subyacentes a las variables o elementos medidos: motivación, competencia y placer. Querían ver si los
elementos escritos para indexar cada una de estas construcciones realmente “se unían”. Es decir,
deseaban determinar empíricamente
si las respuestas de los participantes a las preguntas de motivación eran más similares entre sí que a sus respuestas
a los ítems de competencia o placer. En el capítulo 12, mencionamos que un método para respaldar la validez de
la medición era buscar evidencia de una estructura interna consistente con la propia teoría.
Los programas de análisis factorial generan una serie de tablas según las opciones elegidas. Una de esas tablas,
una matriz de correlación, mostraría cómo cada uno de los 14 ítems estaba asociado con cada uno de los otros
13. Algunas de las correlaciones eran altas (p. ej., +0,60 o –0,60) y otras eran bajas ( es decir, cerca de cero). Las
correlaciones altas indican que dos ítems están asociados y probablemente serán agrupados por el análisis factorial.
En este ejemplo, cuatro factores tenían valores propios (una medida de la varianza explicada) mayores que 1,0,
que es un criterio común para que un factor sea útil. Cuando el valor propio es menor que 1,0, esto significa que el
factor explica menos información de la que habría explicado un solo elemento. La mayoría de los investigadores no
considerarían que la información obtenida a partir de tal factor fuera suficiente para justificar su mantenimiento.
Así, si los investigadores no hubieran especificado lo contrario, el ordenador habría buscado la mejor solución de
cuatro factores. Como los autores creían que había tres constructos y especificaron que querían sólo tres factores,
se “retuvieron” tres.
Los autores utilizaron una rotación ortogonal llamada varimax. Esto significa que los últimos tres factores estarían
lo menos correlacionados posible entre sí. Como resultado, podemos suponer que la información explicada por un
factor es independiente de la información de los otros factores. La rotación hace que, en la medida de lo posible,
diferentes elementos sean explicados o predichos por diferentes factores subyacentes, y cada factor explica más
de un elemento. Esta es una condición llamada estructura simple. Aunque éste es el objetivo de la rotación, en
realidad a menudo no se logra por completo. Generalmente se examina la matriz rotada de cargas factoriales para
ver hasta qué punto se logra una estructura simple.
Dentro de cada factor (en la medida de lo posible), los elementos se clasifican desde el que tiene el peso o carga
factorial absoluto más alto para ese factor hasta el que tiene el peso más bajo en ese primer factor. Las cargas
resultantes de una rotación ortogonal son coeficientes de correlación de cada elemento con el factor, por lo que
varían de –1,0 a 0 y +1,0. Una carga negativa simplemente significa que la pregunta debe interpretarse para ese
factor en la dirección opuesta a la forma en que está escrita. Por ejemplo, “Me cuesta un poco entender nuevos
temas en matemáticas” tiene una carga negativa en el factor de competencia, lo que indica que las personas que
obtienen puntuaciones más altas en este ítem se ven a sí mismas como de menor competencia. Por lo general, las
cargas factoriales inferiores a 0,30 o 0,40 se consideran bajas, razón por la cual los autores no imprimieron
(suprimieron) dichas cargas en la tabla 15.3.
Por otro lado, las cargas de 0,40 o más suelen considerarse aceptablemente altas. Esto es sólo una guía; sin
embargo, establecer el criterio por encima de 0,50 sería inusual.
Cada ítem tiene un peso o carga de cada factor, pero en un análisis factorial “limpio” casi todas las cargas más
allá de +.40 o –.40 en la matriz de factores rotada estarían en una sola columna o factor. Observe en la tabla 15.3
que dos ítems (preferir resolver problemas sin ayuda y sentirse feliz después de resolver un problema difícil) tienen
cargas superiores a 0,40 o dos factores. Esto es común pero indeseable, ya que sólo se desea un factor para
predecir cada elemento.
Sanguijuela y col. (2008) escribieron sobre este análisis factorial:
Se realizó un análisis factorial del eje principal con rotación varimax para evaluar la estructura
subyacente de los catorce ítems del Cuestionario de Motivación Matemática.
Se solicitaron tres factores, basándose en que los ítems fueron diseñados para indexar tres
constructos: motivación, competencia y placer. Después de la rotación, el primer factor
representó el 21,5% de la varianza, el segundo factor representó el 16,6% y el tercer factor
representó el 12,7%. La tabla (15.3) muestra los ítems y las cargas factoriales para los
factores rotados, omitiéndose las cargas inferiores a 0,40 para mejorar la claridad. (pág.65)
Tabla 15.3
Cargas factoriales para los factores rotados

Carga de factores
Artículo 1 2 3
Lentamente captando nuevos temas –.90
Resolver problemas matemáticos rápidamente .78
Practica matemáticas hasta hacerlo bien. .78
Tiene dificultades para hacer matemáticas. –.57
Intenta completar matemáticas incluso si lleva mucho tiempo. .72
Explora todas las soluciones posibles .67
No continúes así por mucho tiempo si el problema es desafiante. –.62
Ríndete fácilmente en lugar de persistir. –.60
Prefiere resolver los problemas sin ayuda. .41 .59
Realmente disfruto resolviendo problemas de matemáticas. –.80
Sonríe sólo un poco al resolver un problema de matemáticas. .58
Siéntete feliz después de resolver un problema difícil. .49 –.54
No disfrutes mucho de las matemáticas. .52
Valores propios 3.02 2.32 1,78
Porcentaje de varianza 21.55 16.62 12.74
Nota: Se omiten cargas <.40.
El primer factor parece indexar la competencia; Incluía los primeros cuatro elementos del primer
columna. Los ítems primero y cuarto indexaron baja competencia y tuvieron cargas negativas.
El segundo factor, que parecía indexar la motivación, estaba compuesto por cinco ítems con
cargas en la segunda columna de la tabla. “Prefiero resolver el problema sin
ayuda” tuvo su carga más alta en el segundo factor pero tuvo una carga cruzada de más de .40 en el
factor de competencia. El tercer factor, que parecía indicar un bajo placer al hacer matemáticas,
comprendía los cuatro elementos con cargas en la tercera columna. “Me siento feliz después de resolver un
problema difícil” tuvo su mayor carga del factor placer pero también tuvo una fuerte carga del factor
competencia. Uno de los 14 elementos no se cargó por encima de .40 en ninguno de los
tres factores por lo que fue eliminado.
En la siguiente sección, analizamos cómo un investigador podría utilizar los resultados de un análisis
factorial para agregar (suma o promediar) los elementos que tienen cargas altas para cada factor y
utilizar estas variables compuestas en futuras investigaciones. La implicación es que cada compuesto
variable es un índice de un constructo subyacente separado, como motivación, competencia o
placer al estudiar matemáticas.
Desarrollo de escalas sumadas o agregadas
Es común que un investigador desarrolle un número menor de nuevas variables a partir de un número
inicialmente mayor de ítems, como las 14 calificaciones tipo Likert que diseñamos para medir.
Actitudes sobre la motivación, la competencia y el placer matemático. La figura 15.5 muestra una
diagrama de flujo esquemático de un método que los investigadores pueden utilizar para ayudar a decidir qué elementos analizar
combinar o sumar y cómo verificar la confiabilidad de la consistencia interna del resultado
escalas sumadas. En nuestro ejemplo, podríamos utilizar este método para desarrollar tres sumados
escamas. Como se ilustró anteriormente en este capítulo, se usarían tres alfa de Cronbach para verificar
la fiabilidad de cada una de las tres escalas inicialmente previstas: competencia, motivación y
Un investigador quiere combinar una serie de preguntas o ítems de tipo Likert en un número más pequeño de grupos de
ítems basándose en una organización conceptual de estos ítems de la literatura o de una teoría.
Es decir, ¿hay varios elementos específicos para cada uno de un número limitado de constructos?
Comprobar la consistencia interna (alfa de Cronbach)

de los ítems que se supone integran cada constructo o
escala.
Se puede utilizar el análisis factorial exploratorio para ver si los

participantes organizaron los elementos de la misma manera que la
literatura o la teoría. Esto es especialmente útil si algunos alfa
son bajos (<0,70) o si existen dudas sobre qué elementos
pertenecen a qué construcciones.
Si se elimina, modifica o mueve algún ítem de una

escala o constructo a otro, se deben volver a calcular
los alfas de Cronbach .
Se calculan varias puntuaciones de escala

agregadas o sumadas para cada participante en
función de los ítems finales de cada factor.
Figura 15.5
Diagrama esquemático de una estrategia para hacer escalas compuestas o sumadas de múltiples ítems cuando hay una
cantidad de ítems de tipo Likert que el investigador cree que se pueden reducir a un número menor de escalas (variables)
conceptualmente significativas.
placer. Se podría utilizar EFA si uno o más de los alfas fueran bajos o si fuera necesario realizar una verificación para
determinar si los 14 elementos deberían agruparse de la manera prevista inicialmente. La EFA podría ayudar a reducir los 14
ítems a un número menor de grupos o conjuntos de ítems significativos.
Se especificaría el número (3 en este caso) de factores que se utilizarán cuando el investigador tenga un plan conceptual,
como Leech et al. (2008) lo hicieron para las tres escalas de actitud hacia las matemáticas.
Luego, si algún ítem fue eliminado o movido de una escala a otra, se deben volver a calcular los alfas para la agrupación
revisada de ítems.
Finalmente, los ítems de cada grupo o escala deben sumarse o promediarse para formar nuevas variables compuestas. En
nuestro ejemplo, la puntuación de cada participante en los cuatro ítems de competencia se sumaría para formar una nueva
variable de competencia compuesta para cada persona. Del mismo modo, se sumarían las puntuaciones de los cinco ítems
de motivación y de los cuatro ítems de bajo placer. Ahora, cada participante tendría tres nuevas variables o medidas que se
utilizarían en análisis de datos inferenciales posteriores en lugar de sus puntuaciones para los 14 ítems originales.
Resumen En
este capítulo, comenzamos con una breve revisión del proceso de planificación y prueba piloto del procedimiento y los
instrumentos. A continuación, hubo una discusión extensa sobre siete pautas o reglas para codificar los datos con el fin de
prepararlos para ingresarlos en una base de datos informática. Esto era
seguido de un ejemplo de un cuestionario breve, que produjo una variedad de respuestas difíciles de codificar,
y nuestras sugerencias sobre cómo manejar dichas respuestas problemáticas.
Una vez codificadas las respuestas de los participantes, el investigador configura una base de datos
informática e ingresa los datos codificados utilizando nombres y valores de variables designados. Antes de
realizar cualquier análisis de datos para ayudar a responder las preguntas o hipótesis de la investigación, los
datos deben verificarse cuidadosamente para asegurarse de que se ingresaron con precisión. El capítulo
concluye con ejemplos ampliados del uso del alfa de Cronbach y del análisis factorial para elaborar escalas
compuestas o sumadas. Alpha también se utiliza para verificar la confiabilidad de la consistencia interna de
una escala de calificación de múltiples ítems. El análisis factorial se utiliza para reducir un número relativamente
grande de preguntas a un número menor de escalas, que luego pueden calcularse sumando o promediando
varios elementos relacionados.
Conceptos clave
Alfa de Cronbach
Codificación
Análisis factorial
Estudio piloto
Distinciones clave

Etiquetas de variables versus etiquetas de valores
1. ¿Qué pasos o acciones se deben tomar después de recopilar datos y antes de ejecutar los análisis
destinados a responder sus preguntas de investigación o probar sus hipótesis de investigación?
2. ¿Existen otras reglas sobre la codificación de datos de los cuestionarios que crea que deberían
agregarse? ¿Hay alguna de nuestras “reglas” que crea que debería modificarse?
¿Cuáles? ¿Como y por qué?
3. ¿Por qué imprimirías un libro de códigos o un diccionario?
4. ¿Qué problemas se identificaron con los cuestionarios completados? ¿Cómo decidirías manejar los
problemas y por qué?
5. Si la universidad del ejemplo permitiera carreras dobles en diferentes facultades (de modo que en
realidad sería posible que un estudiante estuviera en dos facultades), ¿cómo manejaría los casos
en los que se controlan dos facultades? ¿Por qué?
6. (a) ¿Por qué es importante verificar los datos brutos (cuestionario) antes y después de ingresarlos en una
computadora?; y (b) ¿Cuáles son las formas de verificar los datos antes de ingresarlos?
¿a ellos? ¿Después de ingresarlos?
7. Proporcione otro ejemplo de cómo podría utilizar el alfa de Cronbach y el análisis factorial.
Se propone reducir 20 ítems de un cuestionario a cuatro nuevas variables.
Sección IV
Análisis e interpretación de datos

dieciséis
Hacer inferencias a partir de datos de muestra I:

El enfoque de prueba de significancia de hipótesis nulas
Rara vez podemos trabajar con una población completa de individuos. En cambio, normalmente
estudiamos una muestra de individuos de la población. Con suerte, si nuestro tratamiento tiene
éxito, podremos inferir que los resultados de nuestra muestra se aplican a la población de interés.
Si bien aquí nos referimos a la implementación de un tratamiento y, por tanto, al uso de enfoques
experimentales aleatorios o cuasiexperimentales, la estadística inferencial también es apropiada
para los enfoques comparativo y asociativo. La estadística inferencial implica hacer inferencias a
partir de estadísticas muestrales, como la media muestral (M) y la desviación estándar muestral
(SD), hasta parámetros poblacionales como la media poblacional (μ) y la desviación estándar
poblacional (σ). Cuando nos referimos a estadísticas muestrales, utilizamos letras romanas en
cursiva (nuestro alfabeto); cuando nos referimos a parámetros poblacionales, utilizamos letras
griegas.
Comenzamos nuestra discusión con un ejemplo y luego ofrecemos dos enfoques para informar los
resultados de las pruebas estadísticas: el enfoque de prueba de significancia de hipótesis nula
(NHST) (este capítulo) y el enfoque basado en evidencia (Capítulo 17). El enfoque NHST se analiza
primero, con considerable detalle, porque históricamente ha sido el método generalmente aceptado
para guiar las inferencias a partir del análisis de datos y sigue siendo el enfoque dominante para
informar los resultados de las pruebas estadísticas. Sin embargo, existe una considerable controversia
sobre el papel de NHST y si su uso debe continuar en las ciencias sociales y la educación,
especialmente en su forma actual. Discutimos estos temas muy importantes al final de este capítulo
sobre el enfoque NHST.
Un ejemplo
Supongamos que estamos interesados en la relación entre el ejercicio y la calidad de vida en

adolescentes deprimidos. Una hipótesis general razonable es que los adolescentes deprimidos que
hacen ejercicio con regularidad tendrán puntuaciones de calidad de vida más altas que aquellos que
no hacen ejercicio con regularidad. La estadística inferencial nos proporciona una manera de emitir
un juicio sobre la relación entre el ejercicio y la calidad de vida en adolescentes deprimidos.
Comenzamos operacionalizando nuestras variables. La variable independiente, ejercicio, tiene dos
niveles: uso de una bicicleta estática 45 minutos por día (5 días a la semana durante 6 semanas con
una carga de trabajo del 50% de la capacidad máxima) o ningún ejercicio prescrito. La variable
dependiente, un inventario de Calidad de Vida (CV), es un indicador de la calidad de vida y se mide
como una puntuación entre 1 y 100. Para respaldar nuestra hipótesis, esperaríamos que 36
participantes que hacen ejercicio tuvieran una mayor índice de calidad de vida que 36 que no hacen ejercicio regula
229
La hipótesis nula (H0) y las hipótesis alternativas (H1)

El enfoque NHST comienza reformulando nuestra hipótesis general en dos enunciados o hipótesis, la hipótesis nula (H0)
y la hipótesis alternativa o de investigación (H1).
Estas hipótesis se pueden mostrar de la siguiente manera:
H0: µI = µC H1: µI > µC
dónde
µI = Media de la población del grupo de intervención µC
= Media de la población del grupo de control o de comparación
En nuestro ejemplo, la hipótesis nula establece que la CV media de la población de quienes recibirán la intervención
será igual a la CV media de la población de quienes no recibirán la intervención. Si la hipótesis nula es cierta, la
intervención del ejercicio no ha tenido éxito en proporcionar una mejor calidad de vida. La hipótesis alternativa establece
que la CV media de la población de quienes reciben la intervención será mayor que la CV media de la población de
quienes no recibirán la intervención. Si la hipótesis nula es falsa o rechazada, la intervención del ejercicio ha tenido éxito
en alterar la calidad de vida. Según NHST, el objetivo de la investigación es rechazar la hipótesis nula a favor de la
hipótesis alternativa.
Tenga en cuenta que hemos planteado la hipótesis nula como una hipótesis nula de “no diferencia”; es decir, que no
hay diferencia entre las medias poblacionales de los grupos de tratamiento y control. Sin embargo, especialmente en
aplicaciones prácticas, la hipótesis nula podría plantearse como una cierta cantidad de diferencia entre las medias de las
dos poblaciones. Por ejemplo, podríamos decir que para rechazar la hipótesis nula el grupo de tratamiento tendría que
exceder al grupo de control en una cantidad necesaria para marcar una diferencia funcional . Esto se conoce como
hipótesis nula no nula. Desafortunadamente, la mayoría de los paquetes informáticos estadísticos no están configurados
para facilitar la prueba de hipótesis nulas no nulas y no se han utilizado ampliamente en la literatura de investigación.
Hipótesis alternativas direccionales versus no direccionales Para nuestra hipótesis
alternativa especificamos que la media de la población de intervención será mayor (o menor si estuviéramos midiendo la
depresión y prediciendo que disminuirá) que la media de la población del grupo de control. Esta es una hipótesis
direccional y es sólo un método para expresar la hipótesis alternativa. Otra opción es especificar la hipótesis alternativa
como no direccional. Se hace una predicción de que la intervención será significativamente diferente del control, pero no
estamos seguros de la dirección de esta diferencia. A menudo se utiliza una hipótesis alternativa no direccional cuando
se comparan dos métodos de tratamiento diferentes. Las hipótesis alternativas direccionales se utilizan con mayor
frecuencia al comparar un tratamiento con una condición de control.
Si bien puede parecer que elegir una hipótesis direccional o no direccional es arbitrario, dos cosas son importantes.
Primero, el tipo de hipótesis alternativa seleccionada debe basarse en la literatura o la teoría. Cuando exista investigación
previa que respalde la intervención, se debe utilizar una hipótesis direccional. A veces no existe un fuerte apoyo a la
intervención. Esto podría deberse a informes contradictorios de estudios anteriores o a muy poca investigación realizada
con la intervención. En estos casos una alternativa no direccional
Hacer inferencias a partir de datos de muestra I 231
Se debe utilizar la hipótesis. En segundo lugar, hay consecuencias estadísticas. Hay menos poder estadístico
asociado al tipo de hipótesis no direccional. Esto significa que es más difícil rechazar la hipótesis nula (suponiendo
que debería rechazarse) cuando se utiliza una hipótesis no direccional. Sin embargo, si se selecciona una hipótesis
alternativa direccional y el resultado es una diferencia estadísticamente significativa en la dirección opuesta, la
única conclusión aceptable es no rechazar la hipótesis nula.
Tres formas de plantear la hipótesis alternativa Especificar
nuestra hipótesis alternativa en el ejemplo del ejercicio como que la media de la población de intervención será
mayor que la media de la población del grupo de control es sólo un método para expresar la hipótesis alternativa.
En realidad hay tres opciones. Una opción es especificar la hipótesis alternativa como no direccional. Esto se
expresa como
H1: µI ≠ µC
Esto indica que se prevé que la intervención será significativamente diferente (es decir, desigual) del control, pero
no se especifica la dirección de esta diferencia. Las otras dos opciones de hipótesis alternativas son direccionales
positivas:
H1: µI > µC
y direccional negativa (la media de la población de intervención será menor/menor que la media de la población
de control):
H1: µI < µC
Debido a que existen consecuencias estadísticas asociadas al tipo de hipótesis que se selecciona, "no hay
almuerzo gratis". Trataremos este tema más adelante en este capítulo.
Poblaciones teóricas y accesibles Ahora que hemos
planteado las hipótesis nula y alternativa, debemos considerar la población de interés para el estudio del ejercicio.
Si nos interesa generalizar a todos los adolescentes deprimidos, ellos serían nuestra población teórica o objetivo.
Quizás un subconjunto de todos los adolescentes deprimidos, como los adolescentes ambulatorios, sea nuestra
población teórica. Sin embargo, a menudo sólo tenemos acceso a adolescentes deprimidos que visitan una o dos
clínicas de la comunidad. Por lo tanto, estos pacientes disponibles son nuestra población accesible.
Si la población accesible no es representativa de la población teórica o objetivo de interés, la inferencia hecha

a partir de la muestra no será precisa sobre las relaciones en la población teórica de interés. Por ejemplo, en
nuestro estudio de muestra sobre los efectos de una intervención de ejercicio, tal vez las clínicas que se utilizaron
para obtener la población accesible de adolescentes deprimidos tenían clientes que eran bastante diferentes de
todos los adolescentes deprimidos (por ejemplo, en términos de clase social o etnia). De ser así, los resultados
del estudio se aplicarían sólo a la población de las clínicas accesibles, no a la población de interés más amplia.
Desafortunadamente, tal diferencia entre la población teórica y la accesible es un problema común para la validez
externa de la población, como se analiza en el Capítulo 9.
Además, existe un problema de validez externa con la interpretación si la muestra seleccionada no es

representativa de la población accesible. Si, en nuestro estudio de ejercicio, los adolescentes en
las clínicas accesibles habían sido muestreadas por conveniencia más que por probabilidad (p. ej.,
muestreo aleatorio), los 72 participantes podrían haber sido muy diferentes de los demás en
la población accesible. Por ejemplo, si sólo los adolescentes con depresión menos grave aceptaran
Para participar, las muestras no serían representativas de todos los adolescentes atendidos en la clínica.
De ser así, los resultados se generalizarían sólo a clientes similares a los de la muestra, no a todo el grupo.
población accesible.
El proceso inferencial
La figura 16.1 proporciona información sobre el proceso inferencial utilizando nuestro ejemplo. En el extremo izquierdo de
la figura es un cuadro que representa la población. De la población accesible (deprimida
adolescentes de las clínicas comunitarias disponibles) tomamos una muestra o seleccionamos, preferiblemente al azar, 72
adolescentes. Este es el paso (a) en la Figura 16.1. Este paso se realiza mejor seleccionando
nombres de una lista total de adolescentes deprimidos accesibles de tal manera que todos los disponibles
Los pacientes ambulatorios con depresión tienen las mismas posibilidades de ser seleccionados para participar en nuestro
estudio (selección aleatoria). Sin embargo, frecuentemente la muestra es por conveniencia y no seleccionada al azar.
En el siguiente paso (b), asignamos a los participantes a grupos. Asignamos 36 pacientes para estar en
el grupo de ejercicio (intervención) y 36 pacientes en el grupo de no ejercicio (control).
De nuevo, es mejor utilizar la aleatorización, en este caso la asignación aleatoria, lo que implica que
cada paciente tiene las mismas posibilidades de estar en cualquiera de los grupos. Si los participantes no pueden ser aleatoriamente
asignado, el enfoque, como se analiza en el Capítulo 5, sería un cuasiexperimento en lugar de
que un experimento aleatorio y se necesitaría una prueba previa para determinar la similitud de
los grupos antes de la intervención.
Moviéndose hacia la derecha en la Figura 16.1, el siguiente paso (c) es realizar el estudio. El grupo de intervención (un
nivel de la variable independiente) hace ejercicio en una bicicleta estática durante 45
Ejercicio
(Intervención mi muestra
Grupo) n = 36 Los medios provienen de
Diferentes poblaciones
(C) Mi = 73 μi > μc
(d) (mi)
Población de
Muestra de
Deprimido Comparar o
Participantes
Adolescentes
(a) norte = 72
en comunidad
Mc = 65
mi muestra
(d) Los medios provienen de
Sin ejercicio
la misma población
(Grupo de control)
μi = μc
(b) norte = 36
(C) (mi)
Llave:
(a) Selección de (b) Asignación de (c) Experimento (d) Resultado del (e) Decisión basada en
muestra de la participantes a realizado experimento resultado de inferencial
población grupos estadística
Figura 16.1
Diagrama esquemático del proceso de hacer una inferencia sobre la diferencia entre dos grupos.
minutos por día, 5 días por semana, durante 6 semanas. El grupo de control (el otro nivel de la variable
independiente) continúa con sus actividades diarias habituales durante las próximas 6 semanas.
Después de 6 semanas pedimos a los participantes que completen el inventario de Calidad de Vida (paso d);
las puntuaciones QL son la variable dependiente. Supongamos que encontramos que la media de las puntuaciones
de CV del grupo de intervención es 73 y la media de las puntuaciones de CV del grupo de control es 65.
Entonces la media del grupo de intervención es mayor, lo que parece respaldar nuestra hipótesis de que el
ejercicio aumenta la calidad de vida de los pacientes deprimidos. A partir de estos resultados, ¿podemos rechazar
nuestra hipótesis nula (que no hay diferencia entre las condiciones de ejercicio y no ejercicio) y apoyar la hipótesis
alternativa (que la condición de ejercicio aumentará la calidad de vida)? Antes de tomar esta decisión, los
resultados de un segundo estudio serán informativos.
Para ilustrar una cuestión clave que interviene en la decisión de rechazar la hipótesis nula, imagine que hicimos
un estudio similar. En nuestro nuevo estudio, utilizamos el mismo número de participantes (también adolescentes
deprimidos), el mismo método de selección de muestra y asignación aleatoria a grupos. Sin embargo, en este
nuevo estudio, ninguno de los grupos recibe instrucciones de hacer ejercicio durante 6 semanas. Al final del
período de 6 semanas medimos la calidad de vida media de ambos grupos.
¿Los medios serán idénticos? Es poco probable que las medias sean idénticas porque existen diferencias
individuales entre los miembros de cada muestra. Como no estamos midiendo a toda la población, sino sólo dos
muestras de la población, esperaríamos que las medias fueran diferentes debido a una fluctuación aleatoria. Es
decir, incluso sin introducir un tratamiento e incluso si las dos muestras fueran equivalentes en otras características,
esperaríamos que las dos medias fueran algo diferentes. Por lo tanto, necesitamos utilizar estadística inferencial
para ayudar a tomar la decisión adecuada sobre la hipótesis nula.
Ahora volvamos a nuestro estudio original. Después de realizar la prueba estadística adecuada (una prueba t
para muestras independientes para este ejemplo), podemos sacar una de dos conclusiones. Por un lado,
podríamos concluir que la media del grupo de intervención es significativamente mayor que la media del grupo
control. En otras palabras, podríamos concluir que la media del grupo de intervención representa la media de una
población de participantes con mayor calidad de vida, y la media del grupo de control proviene de una población
diferente de participantes con menor calidad de vida. Esta conclusión define una diferencia estadísticamente
significativa y se muestra en el cuadro superior de la columna e en la Figura 16.1.
Una segunda conclusión podría ser que no hay diferencia entre las dos medias. Esto se muestra en el cuadro
de la parte inferior de la columna derecha (e) de la figura. En otras palabras, la diferencia entre las medias se
debió simplemente a una fluctuación aleatoria.
Esta última conclusión implicaría que los dos grupos provienen de la misma población subyacente y que esta
cantidad de ejercicio no marca una diferencia en la calidad de vida de los adolescentes deprimidos tal como se
definió para nuestro estudio.
¿A qué conclusión llegamos? ¿Cuánta diferencia se necesita entre las dos medias antes de que podamos
concluir que existe una diferencia estadísticamente significativa?
Las estadísticas inferenciales nos proporcionan un resultado (una estadística) que nos ayuda a tomar una decisión
informada sobre cuánta diferencia se necesita. Incluso después de realizar procedimientos estadísticos
inferenciales sobre nuestros datos, todavía estamos tomando una decisión con cierto grado de incertidumbre.
Dijimos que había dos decisiones posibles que podrían tomarse con base en los datos de nuestra muestra. O
rechazaríamos la hipótesis nula y concluiríamos que los dos grupos provienen de dos poblaciones diferentes, o
no rechazaríamos la hipótesis nula y concluiríamos que los grupos provienen de la misma población. La decisión
de rechazar o no rechazar la hipótesis nula se determina sometiendo los datos de nuestra muestra a una prueba
estadística particular. Un resultado que es altamente improbable (es decir, uno que da como resultado un valor de
probabilidad bajo) si se cumple la hipótesis nula.
era cierta nos llevará a rechazar la hipótesis nula. La mayoría de los investigadores y revistas de ciencias
sociales establecen este valor de probabilidad en 5 veces entre 100, o 0,05. Un resultado que sea más
probable (probable) resultará en que no se rechace la hipótesis nula.
Resultados de una prueba estadística
Ahora examinamos los resultados de una prueba estadística aplicada a los datos de nuestro ejemplo.
Se seleccionó una prueba t de muestras independientes para probar la significación estadística. (Consulte el
Capítulo 19 para una discusión sobre los fundamentos para la selección de esta prueba en esta situación).
La prueba t de muestras independientes arrojó un valor de 2,10 con un valor de probabilidad asociado (p) de
0,04 para una hipótesis no direccional, o .02 para la hipótesis direccional que propusimos originalmente.
Suponiendo que habíamos establecido un nivel alfa (nivel de significancia) antes del estudio de 0,05, nuestro
valor p es menor que el nivel de significancia. Por lo tanto, podemos concluir que nuestro resultado es
estadísticamente significativo y rechazar la hipótesis nula de que no hay diferencias entre nuestra intervención
y las condiciones de control. Otra forma de expresar este resultado es que los dos grupos representan dos
poblaciones diferentes, una que se sometió a la intervención y otra que no la recibió.
Errores de tipo I y tipo II Aunque
la estadística inferencial nos informa de la decisión que debemos tomar (es decir, rechazar o no rechazar la
hipótesis nula), todavía existe la posibilidad de que la decisión sea incorrecta.
Esto se debe a que nuestra decisión se basa en la probabilidad de un resultado determinado. El valor
estadístico que obtenemos está asociado a una probabilidad particular. Si bien los cálculos realizados en el
ejemplo nos llevaron a rechazar la hipótesis nula en favor de una hipótesis alternativa, existe la posibilidad de
que estuviéramos equivocados. En otras palabras, la hipótesis nula puede ser cierta.
Aunque las estadísticas inferenciales nos informan si debemos rechazar o no la hipótesis nula según nuestros
datos de muestra, la decisión puede ser correcta o puede ser errónea.
Cada vez que realizamos un estudio basado en datos de muestra, son posibles cuatro resultados. Dos de
los resultados son decisiones correctas y dos de los resultados son errores.
Decisiones correctas
1. No rechazamos la hipótesis nula cuando es cierta y no debe rechazarse. Eso

Es decir, realmente no hay diferencia en la población.
2. Rechazamos la hipótesis nula cuando, en realidad, es falsa. Es decir, realmente hay una diferencia
en la población.
Errores
1. Rechazamos la hipótesis nula cuando, en realidad, es cierta. Esto se llama error de tipo I.
2. No rechazamos la hipótesis nula cuando es falsa. Esto se llama error de tipo II.
Nunca estamos seguros de si la decisión que hemos tomado es realmente cierta en la población (es decir,
correcta) porque basamos nuestra decisión en datos de muestra. La figura 16.2 es un diagrama de flujo que
muestra el proceso que conduce a los cuatro resultados (en cuadros sombreados) que pueden resultar de la
decisión de rechazar o no rechazar la hipótesis nula con base en los resultados de una prueba estadística de
datos de muestra.
Decisión del investigador basada en

NHST de los datos de muestra
No rechace la
Rechazar la hipótesis nula (H0) hipótesis nula (H0)
Y aquí hay un Si la hipótesis nula es es que hay un

Realmente cierto (no hay diferencia Decisión correcta
Error tipo I (α,
alfa) en la población) (1 – α)
Y aquí hay un Si la hipótesis nula es Y aquí hay un

Decisión correcta (1 Realmente Falso (hay una Error tipo II (β,
– β o potencia) diferencia en la población) beta)
Figura 16.2
Diagrama de flujo que muestra los cuatro resultados posibles (dos correctos y dos errores) que podrían resultar de una decisión de rechazar o
no rechazar una hipótesis nula.
Rechazar H0 No rechazar H0
Distribución de Distribución de
Puntuaciones si H1 es verdadero
Puntuaciones si H0 es verdadera
Probabilidad de acierto Probabilidad de error tipo I probabilidad de un Probabilidad de acierto

Decisión = 1 – β(poder) = α (0,05) Error tipo II = β Decisión = 1 – α
Figura 16.3
Errores de tipo I y tipo II relacionados con las distribuciones de población nula y alternativa. (Adaptado de Loftus, G.
R., & Loftus, EF, Esencia de la estadística, Monterey, CA, Brooks/Cole, 1982, pág. 225. Con permiso.)
La figura 16.3 (adaptada de Loftus y Loftus, 1982, p. 225) nos ayuda a conceptualizar los cuatro resultados
posibles que acabamos de analizar. La cifra se basa en probar una hipótesis direccional negativa (es decir, se
espera una puntuación más baja en la variable dependiente). La curva de la derecha representa la distribución de
la población si la hipótesis nula es cierta. La curva de la izquierda es una posible representación de la distribución
de la población bajo la hipótesis alternativa si la hipótesis nula es falsa (es decir, si H1 es verdadera). La línea
trazada perpendicular al eje x representa el punto de decisión o nivel de significancia de 0,05. Establecemos
este nivel antes del estudio. Es habitual decidir que cualquier diferencia entre nuestras dos medias muestrales
que sea lo suficientemente grande como para producir un resultado estadístico que podría ocurrir menos de 5
veces de cada 100 (α = 0,05), si la hipótesis nula es verdadera debería resultar en un rechazo de la hipótesis
nula. A veces los investigadores utilizan un nivel de significancia de 0,01, que es más conservador (más difícil
de rechazar la hipótesis nula) que 0,05. Esto es especialmente cierto si hay varios tratamientos en el estudio.
La curva de la derecha representa la distribución de la población si la hipótesis nula es cierta.

La mayor parte del área bajo esta curva de la derecha (95%) está a la derecha del punto de decisión de 0,05 o
línea vertical del nivel de significancia estadística. Sólo una pequeña porción (5%) del área está a la izquierda de
la línea de significación estadística. A la porción a la izquierda de la línea de significancia estadística la llamamos
alfa (α). Esto también se refiere a la probabilidad de cometer un error de Tipo I (ver también la Figura 16.2). Por
lo tanto, en el presente ejemplo, dado que el área bajo la curva a la izquierda de la línea del nivel de significancia
es del 5%, la probabilidad de cometer un error de Tipo I El error (α) es 0,05. La porción restante de la curva (la
parte de la curva a la derecha de la línea de significancia) es la probabilidad de tomar una decisión correcta;
esto es 1 – α. Dado que estamos tratando con la distribución poblacional asociada a la hipótesis nula, una
decisión correcta sería no rechazar la hipótesis nula, asumiendo que es cierta. En nuestro ejemplo actual, la
probabilidad de tomar una decisión correcta de no rechazar la hipótesis nula es .95 (1 – α = 1 – .05 = .95).
La curva de la izquierda en la Figura 16.3 representa la distribución de la población relacionada con la hipótesis
alternativa, si es cierta. El área de esta curva a la derecha de la línea de significación estadística se llama beta
(β). Es relativamente pequeño pero normalmente no tan pequeño como alfa.
Beta representa un área de la curva de hipótesis alternativa asociada con el error tipo II. El área representada
para β proporciona la probabilidad de cometer el error de no rechazar la hipótesis nula cuando es falsa o debería
rechazarse. El área de la curva de hipótesis alternativa que cae a la izquierda de la línea de significancia es la
probabilidad de tomar una decisión correcta. Debido a que se trata de la curva de hipótesis alternativa, esta
decisión correcta es rechazar la hipótesis nula cuando es falsa, es decir, cuando debería rechazarse. La
probabilidad de tomar esta decisión correcta es 1 – β. Dado que nuestro objetivo en la investigación suele ser
rechazar la hipótesis nula en favor de una hipótesis alternativa, el área o probabilidad 1 – β es muy importante.
Nos gustaría aumentar esta área tanto como sea posible. Por su importancia, 1 – β se llama potencia.
Analizaremos el poder con más detalle más adelante en este capítulo. Nuevamente, la Figura 16.2 y la Figura
16.3 resumen nuestra discusión sobre el Tipo I y el Tipo
II errores.
Toma de decisiones estadísticas
Volvemos ahora a las hipótesis alternativas direccionales y no direccionales. Recuerde que anteriormente en el
capítulo establecimos que existen consecuencias estadísticas asociadas con el tipo de hipótesis alternativa
seleccionada. Si planteamos una hipótesis alternativa direccional negativa, se conceptualizaría de manera similar
a la Figura 16.3. La distribución de puntuaciones según la hipótesis alternativa está a la izquierda de la distribución
de puntuaciones según la hipótesis nula. Si, como en la figura 16.3, establecemos nuestro nivel de significancia,
α, en 0,05, entonces un resultado estadístico a la izquierda de este valor de 0,05 daría como resultado un
rechazo de la hipótesis nula.
Una conceptualización similar resultaría para una hipótesis alternativa que es direccionalmente positiva ,
como nuestro ejemplo con adolescentes que hacen ejercicio y deprimidos. En ese ejemplo, la curva de la
hipótesis alternativa estaría a la derecha de la curva de la hipótesis nula, y un resultado estadístico que estaría a
la derecha de la curva de la hipótesis nula. Un valor de 0,05 daría como resultado un rechazo de la hipótesis nula.
Ahora supongamos que nuestra hipótesis alternativa no es direccional, como se ve en la figura 16.4.
Tendríamos dos distribuciones de puntuaciones bajo la hipótesis alternativa.
Rechazar H0 No rechazar H0 Rechazar H0
H1 H0
H1
0.025 0.025
Figura 16.4
Hipótesis alternativas no direccionales.
Una distribución estaría a la derecha de la distribución de puntuaciones según la hipótesis nula, y la otra
distribución estaría a la izquierda de la distribución de puntuaciones según la hipótesis nula.
hipótesis nula. Si mantenemos nuestro nivel de significancia en .05, entonces significaría que rechazar
hipótesis nula en cualquier dirección, el resultado estadístico tendría que exceder la
Nivel .025 en lugar del nivel .05. Por lo tanto, es más difícil rechazar la hipótesis nula utilizando una hipótesis no
direccional. Sin embargo, es menos probable que se cometa un error crítico. En otra
En otras palabras, si se selecciona una hipótesis alternativa direccional y el resultado fue una
diferencia en la dirección opuesta, una conclusión de no rechazar la hipótesis nula o
no debe hacerse ninguna diferencia significativa. Cabe señalar que, debido a que estamos usando ambos
extremos, o colas, de la distribución bajo la hipótesis nula al afirmar una distribución no direccional
hipótesis, una prueba de esta hipótesis se denomina prueba de dos colas. Cuando se utiliza una hipótesis
direccional, la prueba se denomina prueba de una cola.
Un último punto clave en la filosofía de la prueba de hipótesis es que cuando la hipótesis nula no se rechaza,
en realidad nunca se acepta. La conclusión correcta es que no se rechaza la hipótesis nula. Aunque uno puede
cuestionar la diferencia entre los términos aceptar y
no rechazar, el problema con el primero es que podría haber muchas razones por las que nuestro estudio
no resultó en el rechazo de la hipótesis nula. Quizás otro más potente o mejor.
estudio diseñado podría resultar en un rechazo de la hipótesis nula. Cuando no logramos rechazar el
hipótesis nula, simplemente estamos diciendo que no tenemos suficiente evidencia para concluir que
las dos muestras pertenecen a la misma población. Esto no es lo mismo que concluir
que las dos muestras pertenecen definitivamente a la misma población.
Comprensión y evaluación del poder estadístico

Volvemos ahora al concepto de poder estadístico mencionado anteriormente. El poder desde un punto de vista
estadístico se define como la probabilidad de rechazar una hipótesis nula falsa. Fuerza
implica una decisión correcta, por lo que se debe maximizar. En otras palabras, si configuramos nuestro alfa
nivel en el convencional .05 o el menos convencional .01, ¿cuál es la probabilidad de rechazar
¿La hipótesis nula suponiendo que sea falsa?
Volvemos a la figura 16.3, que muestra dos curvas normales que representan tanto la distribución de la
población si la hipótesis nula es verdadera (H0) como la distribución de la población si la
La hipótesis alternativa (H1) es verdadera (la hipótesis nula es falsa). Nos interesa el área de distribución de la hipótesis
alternativa que no está sombreada, es decir , la probabilidad de rechazar una hipótesis nula falsa, o potencia (1 – β). Lo
que la mayoría de los investigadores realmente quieren saber es si tendrán suficiente poder en su estudio para permitir
una prueba justa de la hipótesis nula. Idealmente, la potencia debería tener un valor de .80.1
Podemos determinar cuánta potencia (1 – β) está presente utilizando gráficos de potencia o un programa de
computadora, si conocemos el tamaño de la muestra, el nivel de significancia (α) y una estimación del tamaño del efecto
de la relación. Por ejemplo, supongamos que se propone un estudio para determinar el efecto de la reforma de la
enseñanza sobre el rendimiento en matemáticas de los estudiantes universitarios. Un miembro de la facultad se ha
ofrecido como voluntario para enseñar dos secciones diferentes de álgebra lineal. Ella enseñará una sección de manera
reformista y la otra sección de manera tradicional. El tamaño de la clase de la sección de reforma es 24 y el tamaño de la
clase de la sección tradicional es 28. Ella establece su nivel alfa antes del estudio en 0,05 para una hipótesis no
direccional. Ahora conoce el tamaño de su muestra y su nivel alfa. ¿Cuál es el tamaño del efecto estimado? El tamaño
del efecto es la fuerza de la relación entre las variables independientes y dependientes. Analizaremos más el tamaño del
efecto en el Capítulo 17 y cómo se calcula en el Capítulo 20. Sin embargo, para los propósitos actuales, normalmente el
investigador especifica un tamaño del efecto como pequeño, mediano o grande. Por ejemplo, un tamaño del efecto
pequeño sería de alrededor de 0,20 desviaciones estándar de diferencia entre las medias de intervención y de control,
un tamaño del efecto mediano sería de alrededor de 0,50 desviaciones estándar entre las medias de intervención y de
control, y un tamaño del efecto grande sería de aproximadamente 0,80 desviaciones estándar entre las medias de
intervención y de control. los medios de intervención y control. ¿Cómo sabe el investigador qué tamaño del efecto
estimar? La mejor estimación sería a partir de estudios previos en esta área. Si estudios anteriores que investigaron la
relación entre la reforma de la enseñanza y el rendimiento demostraron tamaños de efecto medianos, entonces una
estimación del tamaño del efecto para su estudio podría ser 0,50. Ahora que el investigador conoce el tamaño de la
muestra, el tamaño estimado del efecto y el nivel de significancia de su estudio, puede utilizar la tabla 16.1 para determinar
su poder (de Cohen, 1988).
Observe que esta tabla de potencia en particular (Tabla 16.1) es para una prueba t de muestras independientes con
un α de 0,05 de dos colas (hipótesis no direccional). Encima de la columna de la izquierda de la tabla está la letra n, que
representa el número de participantes en cada grupo. A medida que bajamos por la columna n, vemos que el tamaño de
la muestra aumenta de 10 a 100.
Dado que nuestros dos grupos no son iguales en tamaño, tomamos el promedio de los dos, que es 26. Lo usamos como
una estimación del tamaño de nuestra muestra en cada grupo. En la parte superior de la tabla está la letra d (tamaño del
efecto), que tiene una columna separada para cada tamaño del efecto de 0,1 a 1,2. Ubicamos la columna de tamaño del
efecto de 0,50, la estimación de nuestro tamaño del efecto previsto.
Luego, encontramos dónde la columna del tamaño del efecto de 0,50 se cruza con la fila del tamaño de la muestra de 26.
El número en este momento es nuestro poder. En nuestro ejemplo, la potencia sería .42. Este es un nivel de poder
inferior al ideal, por lo que a la investigadora le gustaría tener más poder en su estudio.
¿Cómo podemos aumentar el poder?
Para aumentar el poder en nuestra situación de investigación, necesitamos decidir qué cosas podemos controlar y cuáles
no. El control en esta situación es relativo. Presentamos varias formas de aumentar el poder, desde lo que suele ser
menos apropiado hasta lo más apropiado y controlable.
Una posible forma de aumentar la potencia es cambiar alfa (α). En la Figura 16.3 se puede visualizar que si α se
estableciera en un nivel de significancia más bajo, la potencia disminuiría (es decir, si α se estableciera en 0,01, el punto
de corte se movería hacia la izquierda). Por otro lado, si α se estableciera en un nivel más alto (por ejemplo, 0,10),
entonces la potencia aumentaría . Sin embargo, a medida que aumentamos alfa,
Tabla 16.1
Potencia para una prueba t de dos colas en Alfa = 0,05
norte .10 .20 .30 .40 .50 .60 .70 .80 1.00 1.20
10 06 07 10 13 18 24 31 39 56 71
11 06 07 10 14 20 26 34 43 61 76
12 06 08 11 15 21 28 37 46 sesenta y cinco 80
13 06 08 11 dieciséis 23 31 40 50 69 83
14 06 08 12 17 25 33 43 53 72 86
15 06 08 12 18 26 35 45 56 75 88
dieciséis 06 08 13 19 28 37 48 59 78 90
17 06 09 13 20 29 39 51 62 80 92
18 06 09 14 21 31 41 53 64 83 94
19 06 09 15 22 32 43 55 67 85 95
20 06 09 15 23 33 45 58 69 87 96
21 06 10 dieciséis 24 35 47 60 71 88 97
22 06 10 dieciséis 25 36 49 62 73 90 97
23 06 10 17 26 38 51 64 75 91 98
24 06 10 17 27 39 53 66 77 92 98
25 06 11 18 28 41 55 68 79 93 99
26 06 11 19 29 42 56 69 80 94 99
27 06 11 19 30 43 58 71 82 95 99
28 07 11 20 31 45 59 73 83 96 99
29 07 12 20 32 46 61 74 85 96 99
30 07 12 21 33 47 63 76 86 97 *
31 07 12 21 34 49 64 77 87 97
32 07 12 22 35 50 sesenta y cinco 78 88 98
33 07 13 22 36 51 67 80 89 98
34 07 13 23 37 53 68 81 90 98
35 07 13 23 38 54 70 82 91 98
36 07 13 24 39 55 71 83 92 99
37 07 14 25 39 56 72 84 92 99
38 07 14 25 40 57 73 85 93 99
39 07 14 26 41 58 74 86 94 99
40 07 14 26 42 60 75 87 94 99
50 08 17 32 50 70 84 93 98 *
60 08 19 37 58 77 90 97 99
80 10 24 47 71 88 96 99 *
100 11 29 56 80 94 99 *
* Los valores de potencia en la columna debajo de este punto son mayores que .995.
Fuente: Adaptado de Cohen, J., Análisis de poder estadístico para las ciencias del comportamiento, Hillsdale, Nueva Jersey, Lawrence
Erlbaum Associates, 1988. Con autorización.
También aumenta la probabilidad de cometer un error de tipo I. Más importante aún, no deberíamos
establecer alfa en un nivel superior a 0,05. La razón de esto es principalmente una convención. Pocas
revistas de investigación y, por lo tanto, nuestros colegas aceptarán una publicación de investigación con
un alfa establecido superior a 0,05, excepto, quizás, en un estudio de muestra pequeña claramente exploratorio.
Un segundo método para aumentar el poder implica la formulación de hipótesis. Cuando utilizamos una
prueba t , tenemos la opción de formular una hipótesis direccional o no direccional. La elección de una
hipótesis direccional aumentará la potencia porque el nivel alfa aumenta de, por ejemplo, 0,025 a 0,05. Si
hubiéramos propuesto una hipótesis direccional en nuestro ejemplo de enseñanza, nuestro poder habría
aumentado de 0,42 a aproximadamente 0,55. De manera similar, cuando uno tiene más de dos grupos en
un diseño de un solo factor, la opción de usar comparaciones planificadas en lugar de un análisis de
varianza de un solo factor es otra forma de aumentar el poder mediante el uso de la formulación de hipótesis
(ver Keppel, 1991). .
Un tercer método general para aumentar la potencia es disminuir la variabilidad o variación del error.
Aunque existen muchos métodos para disminuir la variabilidad, aquí sugerimos dos. Un método para
disminuir la variabilidad es asegurarse de que los grupos del estudio sean homogéneos. Una segunda
estrategia para disminuir la variabilidad es asegurarse de que la medida dependiente tenga un alto nivel de
confiabilidad. Siempre que sea posible, se debe seleccionar un instrumento de medición que haya sido
estandarizado y que haya demostrado evidencia de buena confiabilidad. Las medidas que tienen poca
evidencia de confiabilidad aumentan la variabilidad dentro del grupo.
Finalmente, el tamaño de la muestra es el elemento sobre el que normalmente tenemos mayor control a
la hora de aumentar el poder. Tenga en cuenta que un aumento en el tamaño total de la muestra (N)
generalmente reduce la variabilidad. Volviendo a la Tabla 16.1, nuestra tabla de poder, podemos ver que
un aumento en los participantes aumentará el poder. Si aumentamos el tamaño de nuestra muestra a 40
participantes en cada grupo, nuestro poder sería 0,60. Si tenemos 80 en cada grupo, la potencia sería .88.
Es importante recordar todos los métodos para aumentar el poder porque hay muchas situaciones, como
las evaluaciones de programas, en las que existen límites para obtener participantes. Además, puede haber
rendimientos decrecientes después de alcanzar un cierto tamaño de muestra.
Problemas con las pruebas de significancia de hipótesis nulas Acabamos
de analizar el proceso de prueba de significancia de hipótesis nulas, que ha sido una parte integral de todas
las estadísticas inferenciales (p. ej., prueba t , correlación, chicuadrado) en los sectores biológico,
conductual y social. ciencias durante gran parte del siglo pasado. Durante años, los investigadores han
cuestionado el uso de NHST, pero la intensidad de las objeciones ha aumentado recientemente (por
ejemplo, Finch, Thomason y Cumming, 2002). Aunque literalmente cientos de artículos abordan el tema en
múltiples disciplinas, vale la pena considerar dos textos excelentes sobre este tema (Harlow, Mulaik y
Steiger, 1997; Kline, 2004). Las principales críticas al NHST parecen ser tanto filosóficas como una mala
interpretación de la significación estadística.
Filosofía de la crítica científica Una
crítica a la NHST es que no promueve un buen conocimiento y comprensión científicos porque el

conocimiento científico no se basa en los resultados de un solo estudio.
Más bien, la replicación de los hallazgos es el sello distintivo de la ciencia. Cuando nos involucramos en
NHST, terminamos tomando una decisión dicotómica: rechazar o no rechazar la hipótesis nula. A menudo,
cuando no se rechaza la hipótesis nula , el estudio no se publica debido a un sesgo.
contra la publicación de hallazgos estadísticamente no significativos. O peor aún, el estudio se publica, pero se
abandona la investigación continua sobre el problema porque parece que la intervención no funciona. Al discutir la
decisión de rechazar o no la hipótesis nula, Schmidt y Hunter (1997) dicen:
Pero, de hecho, no es necesario tomar una decisión dicotómica de este tipo en ningún estudio
individual. De hecho, es inútil hacerlo, porque ningún estudio individual contiene información
suficiente para respaldar una conclusión final sobre la verdad o el valor de una hipótesis. Sólo
combinando los hallazgos de múltiples estudios utilizando metanálisis se puede llegar a una
conclusión científica confiable... Desde el punto de vista del objetivo de avanzar de manera
óptima en la acumulación de conocimiento científico, lo mejor es que los investigadores
individuales presenten estimaciones puntuales y datos de confianza. intervalos y abstenerse de
intentar sacar conclusiones finales sobre las hipótesis de investigación. Estos surgirán de metanálisis posteriores. (pág.
Confusión sobre el significado de la significancia estadística La segunda
crítica general, la falta de comprensión de lo que nos dicen los resultados estadísticamente significativos, puede verse
de la siguiente manera. A partir de nuestro ejemplo anterior con adolescentes deprimidos, se realizó una prueba de
significación estadística, como la prueba t , para determinar si los dos grupos, con ejercicio y sin ejercicio, eran
estadísticamente diferentes entre sí. Los resultados de esa prueba estadística se proporcionan en forma de valor de
probabilidad o valor p . Convencionalmente, si el valor de p era inferior a 0,05 (5 veces en 100), se consideraba que los
dos grupos eran estadísticamente significativamente diferentes entre sí. Sin embargo, ¿qué nos dice realmente el
valor p ?
Lo que la mayoría de nosotros pensamos que nos dice es la probabilidad de una hipótesis nula verdadera. Por lo tanto,
pensamos que un valor de p inferior a 0,05 nos dice que menos de 5 de cada 100 veces la hipótesis nula es verdadera.
Lamentablemente, este no es el caso , como señala Cohen (1994):
¿Qué pasa con NHST? Bueno, entre muchas otras cosas, no nos dice lo que queremos saber, y
queremos tanto saber lo que queremos saber que, por desesperación, ¡creemos que así es! Lo
que queremos saber es: "Dados estos datos, ¿cuál es la probabilidad de que la H0 (hipótesis
nula) sea cierta?" Pero… lo que nos dice es “Dado que H0 es cierta, ¿cuál es la probabilidad de
que se produzcan estos datos (o más extremos)?” No son lo mismo, como se ha señalado
muchas veces a lo largo de los años. (pág. 997)
Esta falacia de probabilidad inversa nos muestra la confusión con el valor p . Lo que nos gustaría que nos dijera el
valor p es la probabilidad condicional p (H/D). En otras palabras, ¿cuál es la probabilidad de que la hipótesis nula (H)
sea cierta, dados nuestros datos (D)? Los datos de nuestro ejemplo serían la diferencia entre las medias de los grupos
con ejercicio y sin ejercicio. Sin embargo, lo que p realmente nos dice es la probabilidad condicional p (D/H). En otras
palabras, ¿cuál es la probabilidad de que los datos (la diferencia entre las medias de los dos grupos) sean verdaderos?
Por lo tanto, cuando se proporciona un valor p después de una prueba estadística, solo nos dice la probabilidad de que
los datos (la diferencia actual entre medias o una diferencia mayor) asuman una hipótesis nula verdadera y nada más.
Si bien algunos podrían argumentar que, dado que la probabilidad de los datos es muy poco probable, suponiendo una
hipótesis nula verdadera, la hipótesis nula no puede ser verdadera. Sin embargo, nunca se sabe la probabilidad de que
la hipótesis nula sea cierta.
Para demostrar que estas dos probabilidades condicionales no son iguales, consideremos un ejemplo más práctico
del campo de la rehabilitación. En primer lugar, considere la probabilidad condicional de que alguien pueda sufrir una
lesión de la médula espinal debido a un accidente automovilístico. Si uno tiene una lesión en la médula espinal, la
probabilidad de que se deba a un accidente automovilístico es relativamente alta. Más del 50% de todos
Las lesiones de la médula espinal se deben a accidentes automovilísticos. Sin embargo, lo contrario de esa situación (la
probabilidad de que, dado que uno sufre un accidente automovilístico, la probabilidad de que el accidente resulte en una
lesión de la médula espinal) es bastante baja. Hay cientos de resultados diferentes en los accidentes automovilísticos, de
los cuales la lesión de la médula espinal es una ocurrencia relativamente rara.
Otras complicaciones del NHST Además de
la falacia de la probabilidad inversa, existen otras complicaciones derivadas del uso del NHST. Kline (2004) enumera 13
falacias asociadas con el uso de NHST. Schmidt y Hunter (1997) enumeran ocho objeciones al NHST. Nickerson (2000)
enumera 11 conceptos erróneos asociados con NHST. Analizamos la más común de estas objeciones, a las que
llamamos complicaciones del uso de NHST.
La primera complicación es la observación de que la hipótesis nula rara vez es cierta; casi siempre hay alguna diferencia
entre las medias de las dos poblaciones de interés. Entonces se convierte simplemente en una cuestión de tener
suficientes participantes en el estudio para demostrar esta diferencia estadísticamente. Esto es especialmente problemático
con los enfoques de investigación comparativa y asociativa cuando se hacen comparaciones dentro de entornos no
experimentales.
Como no hay posibilidad de asignación aleatoria a grupos o condiciones, la probabilidad de una hipótesis nula verdadera
es pequeña.
La segunda complicación implica el planteamiento de la hipótesis nula como una hipótesis no direccional y se deriva
de la primera complicación. Si hay suficientes participantes, resulta especialmente fácil encontrar una diferencia
estadísticamente significativa, ya que la diferencia entre las condiciones de intervención y control podría ser positiva o
negativa.
La tercera complicación de la NHST implica la significación estadística como decisión dicotómica.
El uso de un “punto de corte” artificial de 0,05 (o 0,01) para determinar la significancia estadística implica que los resultados
son dicotómicos, significativos o no significativos en lugar de continuos.
Ciertamente, un hallazgo con un valor de p de 0,06 debería agregar casi tanta evidencia que respalde una hipótesis como
encontrar valores de p de 0,05 o 0,04.2 La cuarta complicación
(fuerza de la relación) de la NHST es la confusión de que cuanto menor es el valor de p ( ej., 0,01 frente a 0,05), más
fuerte será la relación en el estudio. Este no es el caso porque cuanto mayor es la muestra, menor es el valor de p . Sin
embargo, si el tamaño de la muestra es constante, como suele ser el caso en un estudio determinado, cuanto menor sea
p, mayor será el tamaño del efecto. Como se indicó anteriormente, el valor p solo demuestra la probabilidad del resultado,
dada una hipótesis nula verdadera. Para conocer la fuerza de la relación en un estudio, se debe calcular el tamaño del
efecto como se analiza en el próximo capítulo.
La quinta complicación es la confusión entre significación estadística e importancia sustantiva o clínica. Un resultado
estadísticamente significativo no demuestra la importancia de la diferencia entre grupos porque no nos dice la fuerza de la
relación ni nada sobre otros factores clave que contribuyen a la importancia sustancial, como el costo o los efectos
secundarios. Un hallazgo estadísticamente significativo sólo indica que es poco probable que no haya diferencias entre
los grupos.
Las mejoras a las pruebas de
significación de la hipótesis nula del NHST podrían fortalecerse abordando algunas de las críticas ya expuestas. Para
quienes defienden el uso de NHST, la hipótesis nula
de no diferencia (la hipótesis nula nula) debe ser reemplazada por una hipótesis nula que especifique algún valor
distinto de cero basado en investigaciones previas (Cohen, 1994). Por lo tanto, habría menos posibilidades de que
una diferencia trivial entre grupos resultara en un rechazo de la hipótesis nula. Si se utiliza una hipótesis nula de
no diferencia, la hipótesis alternativa debe ser direccional porque al menos el resultado tendría que estar en la
dirección hipotética (es decir, mayor que o menor que). Esto ayudaría a minimizar un resultado trivial que a
menudo se asocia con un tamaño de muestra grande. Si la hipótesis alternativa no es direccional, entonces
cualquier diferencia, independientemente de la dirección, podría ser estadísticamente significativa.
Por lo tanto, para que las NHST sean más aceptables, es necesario lo siguiente. En primer lugar, el investigador
debe proponer una o un número limitado de hipótesis específicas. En el ejemplo detallado de este capítulo,
planteamos la hipótesis de que la introducción de un programa de ejercicio daría como resultado un aumento en
la calidad de vida entre los adolescentes deprimidos. En segundo lugar, debe existir una población grande y
accesible de la cual el investigador tendrá la opción de extraer una muestra aleatoria lo suficientemente grande
como para tener el poder adecuado (es decir, la probabilidad de declarar un resultado “estadísticamente
significativo” cuando la hipótesis nula es falsa). . En tercer lugar, el investigador debe tener una medida (variable
dependiente) que tenga fuertes propiedades psicométricas, como evidencia suficiente de confiabilidad y validez
de la medición. Quizás lo más importante es que la medida debe tener algún grado de validez clínica o práctica.
Esto significa que el investigador debe saber en qué medida una diferencia entre IM y CM produciría un cambio
clínicamente significativo en la calidad de vida de los participantes. También es deseable probar la hipótesis nula
no nula de que la diferencia entre IM y MC es igual o mayor que esta diferencia clínicamente significativa.
cantidad.
Por lo tanto, antes de recopilar cualquier dato, el investigador debe tener una hipótesis específica, una
población accesible representativa, una muestra de tamaño adecuado y una medida clínicamente válida. Además,
el investigador debe tener un enfoque metodológico sólido para la realización del estudio. Esto incluye opciones
apropiadas sobre cuántos participantes serán muestreados, cómo serán muestreados, cómo serán asignados a
los grupos, cómo se analizarán los datos y un nivel establecido de significancia estadística, alfa, generalmente
fijado en 0,05. Sin embargo, estos pasos son difíciles de lograr, como se analiza en el próximo capítulo.
Resumen En
este capítulo analizamos el método de prueba de significancia de hipótesis nula para informar los resultados de
las pruebas estadísticas. Se prestó atención al establecimiento de las hipótesis nula y alternativa, a los diferentes
tipos de hipótesis alternativas (direccionales y no direccionales) y al proceso inferencial asociado con NHST. Se
proporcionó un ejemplo para ayudar a ilustrar el proceso inferencial. Los errores de tipo I y tipo II se explicaron
con las figuras adjuntas. El poder estadístico es la probabilidad de tomar una decisión correcta, por lo que
idealmente debería ser .80 o mejor. Se proporcionó un gráfico para ilustrar que el poder depende del tamaño de
la muestra, el tamaño del efecto y el alfa. Se describieron varios métodos para aumentar la potencia. Finalmente,
se describieron las críticas al NHST y se ofrecieron posibles mejoras al NHST.
Conceptos clave
Hipótesis alternativas
Proceso inferencial
Falacia de probabilidad inversa
Hipótesis nula no nula
Prueba de significancia de hipótesis nula (NHST)

Fuerza
Significancia estadística
Distinciones clave
Hipótesis alternativas direccionales versus no direccionales
Errores tipo I versus tipo II
Problemas de aplicación Para los
problemas 1 a 4, proporcione hipótesis alternativas direccionales y no direccionales.
1. No hay diferencia entre los métodos de enseñanza reformistas y los métodos de enseñanza tradicionales en
los datos de rendimiento de los estudiantes en matemáticas.
2. No hay diferencia entre empleo con apoyo y trabajo protegido en tales casos.
participación comunitaria exitosa.
3. No existe diferencia entre hacer ejercicio y no hacer ejercicio en la salud cardiovascular.
4. No hay diferencia entre los estudiantes que se desempeñan bien y los estudiantes que no se desempeñan
bien en las evaluaciones docentes.
Para los problemas 5 a 8, describa con palabras el error tipo I, el error tipo II y las dos decisiones correctas.
5. Se realiza un estudio para determinar si los métodos de enseñanza reformados son mejores que los
métodos de enseñanza tradicionales.
6. Se realiza un estudio para determinar si las personas con empleo con apoyo participan más en la comunidad
que las personas en talleres protegidos.
7. Se realiza un estudio para determinar si quienes hacen ejercicio tienen frecuencias cardíacas en reposo más
bajas que quienes no hacen ejercicio.
8. Se realiza un estudio para determinar si los estudiantes con calificaciones altas dan mejores resultados docentes.
evaluaciones que los estudiantes con calificaciones bajas.
9. ¿Cuáles son dos problemas generales con las pruebas de significancia de hipótesis nulas? Cómo
¿Se pueden aliviar estos problemas?
10. Para cada uno de los cinco estudios de ejemplo del Capítulo 1, responda lo siguiente:
a. ¿Cuál sería una hipótesis nula? b. ¿Cuál
sería una posible hipótesis alternativa?
11. Un psicólogo escolar está interesado en probar una nueva intervención para las conductas de acoso en
niños de escuela primaria. a. ¿Cuáles serían
sus hipótesis nulas? b. ¿ Cuál sería una hipótesis
direccional alternativa? C. ¿ Cuál sería una hipótesis no direccional
alternativa? d. ¿Cómo podría reducir el error de tipo I? mi. ¿Qué podría
hacer ella para reducir el error de tipo II?
Para las preguntas 12, 13 y 14 utilice la Tabla 16.1.
12. Un investigador considera que ciertas modificaciones en su tratamiento generarán beneficios adicionales
para los pacientes. Se organiza un estudio para comparar el tratamiento modificado (grupo de
intervención) con el tratamiento original (grupo de control). Investigaciones anteriores que utilizaron el
tratamiento original han demostrado tamaños del efecto de aproximadamente 0,70.
El investigador está dispuesto a aceptar una potencia de .60. ¿Cuántos participantes necesitará en
cada grupo?
13. Un colega acaba de realizar un estudio. Una prueba t no había logrado demostrar una diferencia
significativa entre el grupo de tratamiento y el de control. El tamaño del efecto fue 0,4.
Tenía 15 participantes en cada grupo. ¿Cuánto poder tenía en este estudio?
¿Cuál era la probabilidad de cometer un error tipo II?
14. Una estudiante de posgrado está planeando su estudio. Tiene la cooperación de suficientes estudiantes
universitarios para formar dos grupos de 30 estudiantes en cada grupo. A ella le gustaría tener una
potencia de .70. Para obtener un resultado estadísticamente significativo, ¿qué tamaño de efecto
necesitará?
15. Un método para ganar poder es reducir la varianza del error. ¿Cómo se logra esto sin aumentar el
tamaño de la muestra?
16. Le han pedido que evalúe un programa que promueve técnicas de protección de las articulaciones para
personas con artritis. El programa es relativamente pequeño y sólo tiene 18 participantes en cada grupo.
¿Qué medidas razonables debería tomar para maximizar la potencia sin aumentar el tamaño de la
muestra?
Notas
1. Keppel (1991) sugiere que la mayoría de los metodólogos de las ciencias del comportamiento parecen estar de acuerdo en
este nivel de potencia, asumiendo que los errores de tipo I son más graves que los de tipo II.
2. La adopción de un alfa de 0,05 se remonta a principios del siglo XX, cuando los científicos agrícolas querían establecer un
nivel bajo para el error Tipo I para poder estar bastante seguros de que sus recomendaciones conducirían a mejoras.
17
Hacer inferencias a partir de datos de muestra II:
El enfoque basado en la evidencia
El enfoque basado en evidencia para informar los resultados de las pruebas estadísticas tiene que ver
con la confiabilidad de los hallazgos. La clave de este enfoque es la acumulación de evidencia a través
de múltiples estudios que investigan hipótesis iguales o similares. No son necesarios métodos
estadísticos sofisticados que podrían aplicarse a un solo estudio. Detrás del enfoque basado en
evidencia está el conocimiento de que un solo estudio no es suficiente para utilizarlo como evidencia
para fundamentar una hipótesis o teoría. En las ciencias sociales o aplicadas y en la disciplina de la
educación, existe una tendencia a probar nuevas intervenciones basadas en evidencia mínima como la
que se deriva de un solo estudio. Sin embargo, si examinamos la disciplina de la medicina clínica, nos
horrorizaríamos si la medicación que estábamos tomando o la técnica quirúrgica aplicada se basaran en
un solo estudio. En cambio, asumimos que los juicios emitidos por los médicos se basan en múltiples
estudios bien diseñados que demuestran intervenciones confiables.
Problemas al considerar un solo estudio En el capítulo anterior
analizamos algunos de los problemas relacionados con la prueba de significancia de hipótesis nula
(NHST). Todos estos problemas, como las limitaciones del valor p , el concepto de rechazar una
hipótesis nula que ya podría ser falsa y las confusiones en torno a la significación estadística se aplican
al estudio único. A estos problemas se suma la imposibilidad de obtener una muestra aleatoria de la
población objetivo y una muestra lo suficientemente grande como para proporcionar un poder estadístico
adecuado. A menudo, los estudios individuales no están bien diseñados y, en el mejor de los casos, se
basan en enfoques cuasiexperimentales. Desafortunadamente, incluso cuando los estudios individuales
están bien diseñados (asignación aleatoria de participantes a grupos), la mayoría de las veces se
realizan con muestras de conveniencia. Además, el error de medición en un solo estudio siempre es una
posibilidad, incluso cuando la evidencia de confiabilidad y validez del instrumento parece adecuada.
Todos estos problemas pueden provocar errores de tipo I o de tipo II.
En el resto de este capítulo, analizamos tres métodos que subyacen al enfoque basado en la evidencia
para la interpretación de los resultados de la investigación. Estos métodos utilizan (1) intervalos de
confianza; (2) tamaños del efecto; y (3) metanálisis.
Intervalos de confianza
Un problema principal del NHST implica la interpretación de una diferencia estadísticamente significativa
en forma de una decisión de todo o nada. Se interpretan los hallazgos de un solo estudio
247
como significativo o no significativo en lugar del reconocimiento de que la significación estadística implica
una probabilidad de incertidumbre. Además, cuando dicotomizamos la significación estadística de esta
manera, nos eliminamos de los datos reales de nuestro estudio. Un procedimiento importante del enfoque
basado en evidencia es la creación de intervalos de confianza.
El concepto de intervalos de confianza es difícil de entender incluso para investigadores experimentados,
lo que hace que se informe con poca frecuencia en la literatura de investigación, especialmente en las
ciencias del comportamiento. En los siguientes párrafos intentamos aclarar muchos de los conceptos
erróneos asociados con los intervalos de confianza.
Comenzamos examinando los términos estimación puntual e intervalos con un ejemplo común a la mayoría
de nosotros: ¿ Qué calor crees que hará mañana? Se podrían ver las noticias meteorológicas para conocer
el pronóstico de mañana. Supongamos que el pronosticador predice una temperatura máxima de 84 grados.
Este número exacto es una estimación puntual. Utiliza un número específico para estimar la temperatura. Si
bien este número podría ser una buena estimación, también lo podrían ser los números 83 grados u 85
grados. Si le preguntaran en una escala del 1 al 100 qué tan seguro estaba de que la temperatura alta sería
exactamente 84 grados, probablemente respondería con un número relativamente bajo, tal vez por debajo
de 50. Ahora, ¿qué pasaría si la pregunta se reformulara para preguntarle? ¿Qué tan seguro estaba de
obtener una temperatura alta entre 80 grados y 88 grados? Este es un intervalo de 8 grados. Su calificación
de “seguridad” probablemente aumentaría sustancialmente, tal vez hasta 90 sobre 100. ¿Qué pasaría si el
intervalo aumentara entre 70 y 95 grados? Su índice de “seguridad” podría ser tan alto como 99 sobre 100
de que la temperatura alta para mañana estará dentro de ese intervalo. Del ejemplo queremos enfatizar lo
siguiente: Primero, a medida que pasamos de un único punto de datos o estimación puntual a una estimación
de intervalo relativamente pequeña y luego a una estimación de intervalo más grande, nuestra “seguridad”
de cuál podría ser el valor real podría aumentar. En segundo lugar, a medida que pasamos de una estimación
puntual a un rango más amplio de valores e intervalos más grandes, la precisión de la información disminuyó.
En otras palabras, a medida que el intervalo aumenta, hay menos información útil.
Ahora, volvamos al ejemplo del capítulo anterior (Capítulo 16) que examinó una intervención de ejercicio
para aumentar la calidad de vida en adolescentes deprimidos. En la Figura 16.1 vemos que la diferencia
promedio en las puntuaciones del Inventario de Calidad de Vida entre los dos grupos, el Grupo de Ejercicio
y el Grupo de Control, es de ocho puntos (73–65). Este valor de ocho puntos es una estimación puntual,
similar a lo que comentamos en el párrafo anterior. Recuerde que la estimación puntual en esta situación se
ha determinado a partir de dos muestras de participantes. Es una estimación porque no conocemos la
diferencia real en el Inventario de Calidad de Vida entre una población de adolescentes deprimidos que
hacen ejercicio y aquellos que no lo hacen. Por lo tanto, utilizamos la diferencia entre las medias muestrales
como estimación puntual en este ejemplo.
Ahora, en lugar de realizar una prueba t de muestras independientes para determinar si los dos grupos
son estadísticamente significativamente diferentes como hicimos en el capítulo anterior, el enfoque basado
en evidencia requiere la construcción de un intervalo alrededor de la estimación puntual, llamado intervalo
de confianza. El intervalo de confianza es un rango de puntuaciones de la variable dependiente que debe
contener la verdadera diferencia poblacional entre medias. Para construir este intervalo de confianza
(consulte el Capítulo 20 para ver un ejemplo más detallado sobre el cálculo de una prueba t , el intervalo de
confianza y el tamaño del efecto a partir de los mismos datos) usamos la misma información que se usó para
realizar la prueba t para muestras independientes. , la diferencia entre las medias, el número de participantes
y las desviaciones estándar de cada muestra. Sin embargo, en lugar de establecer un nivel de significancia
(α) de 0,05, normalmente establecemos el intervalo de confianza en 95%. Podríamos establecer un intervalo
de confianza del 99% o del 90%, pero el intervalo de confianza del 95% es el más utilizado. Utilizando el
ejemplo del capítulo 16, se podría calcular un intervalo de confianza del 95%. Digamos que está entre 0,42
y 15,28.
Hacer inferencias a partir de datos de muestra II: el enfoque basado en la evidencia 249
Interpretación del intervalo de confianza Ahora
comienza la diversión. Como dijimos anteriormente, existen muchas ideas erróneas sobre lo que nos dice un
único intervalo de confianza. Según el ejemplo del capítulo 16, nuestro intervalo de confianza del 95% está
entre 0,42 y 15,58. ¿Está nuestra verdadera diferencia poblacional entre medias dentro de este intervalo? No lo
sabemos con certeza. Si construyéramos un número infinito de estudios usando las mismas condiciones de
ejercicio y sin ejercicio, la misma medida y el mismo tamaño de muestra y calculáramos un intervalo de
confianza del 95% para cada estudio, exactamente el 95% de los intervalos contendrían la verdadera diferencia
poblacional. entre medias, y el 5% no contendría este valor. Ten cuidado aquí. Primero, esto no significa que
haya una probabilidad de 0,95 de que la verdadera diferencia poblacional entre medias esté dentro de nuestro
intervalo. En segundo lugar, si pudiéramos crear un número infinito de intervalos de confianza, el 95% contendría
la verdadera diferencia poblacional entre medias, pero todos los intervalos de estos intervalos de confianza no
serían iguales. No todos estarían entre 0,42 y 15,28.
Entonces, uno podría preguntarse por qué construimos intervalos de confianza en lugar de realizar una
prueba estadística. Los intervalos de confianza son parte de un enfoque de largo plazo para realizar investigaciones.
Recuerde, el enfoque basado en evidencia desalienta la toma de decisiones basadas en un solo estudio. En
cambio, fomenta la replicación de estudios como base. Si bien la construcción de un intervalo de confianza
para un solo estudio solo proporciona la estimación puntual y el intervalo del 95%, el tamaño del intervalo le
dice al investigador qué parte de la estimación podría deberse a un error de muestreo. La figura 17.1 muestra
un ejemplo hipotético de intervalos de confianza derivados de 10 estudios diferentes que utilizaron la misma
variable independiente y dependiente que en nuestro ejemplo de ejercicio y calidad de vida. También se incluyen
en la figura los valores de la prueba t de muestras independientes para cada estudio y si la hipótesis nula sería
rechazada (no direccional, p < 0,05).
t(70) Rechazar H0
1 2.1 Sí
2.7 Sí
2
3 1.6 No
4 2.7 Sí
1.8 No
5
raidutsE
6 1.8 No
3.5 Sí
7
1.9 No
8
9 1.8 No
M1 – M2
Intervalo de confianza
10 2.6 Sí
–20 –10 0 10 20
Figura 17.1
Replicaciones hipotéticas de 10 estudios con adolescentes que hacen ejercicio y deprimidos. (Los datos provienen de Kline, RB,
Beyond Significance Testing, Washington, DC, Asociación Estadounidense de Psicología, 2004, p. 74.)
Los intervalos de confianza de los 10 estudios oscilan entre poco menos de 0 y 20,8.
El promedio de la diferencia entre las medias de las condiciones de ejercicio y de no ejercicio para los 10 estudios
es 7,4, lo que proporciona una estimación de la diferencia de medias de la población.
Sin embargo, de los 10 estudios hipotéticos, 5 no fueron estadísticamente significativos. Si solo el
Si se publicaran cinco estudios que demostraron significación estadística, la diferencia promedio entre medias
sería mayor (8,2), lo que produciría una sobreestimación de la verdadera
valor poblacional.
Una última palabra sobre los intervalos de confianza
Ha sido difícil para los investigadores dejar de informar sobre significancia estadística.
de un solo estudio. Esto es especialmente cierto cuando la información de un intervalo de confianza parece tan
inespecífica. Sin embargo, siempre se puede tomar una decisión sobre la significancia estadística a partir de un
intervalo de confianza observando si cero está dentro del intervalo. Si
cero está contenido en el intervalo, entonces el intervalo de confianza indica que el resultado
no es estadísticamente significativo. En nuestro ejemplo de ejercicio versus no ejercicio, cero no está en
el intervalo de confianza; por lo tanto, podríamos concluir que los dos grupos fueron estadísticamente
significativamente diferentes en p < 0,05. También nos gustaría poder decir más sobre el
intervalo de confianza de un estudio individual. Según Kline (2004), “Existe una especie
de un lenguaje de compromiso para describir los intervalos de confianza tradicionales que 'divide la diferencia'
entre las visiones frecuentista y subjetivista de la probabilidad” (p. 30). Usando Kline
terminología, diríamos de nuestro ejemplo que el intervalo único de 0,42 a 15,28 estima
la diferencia de medias poblacional con un 95% de confianza.
Tamaños de efectos
Si bien siempre se deben informar los intervalos de confianza, independientemente de si uno se suscribe al
enfoque basado en evidencia o al enfoque de prueba de hipótesis, estos tienen
limitaciones. Ya hemos discutido problemas de interpretación de intervalos de confianza. Quizás un problema más
importante con los intervalos de confianza para los estudios basados en evidencia
enfoque es que la variable dependiente debe ser la misma de un estudio a otro para comparar
los diferentes intervalos. Desafortunadamente, las réplicas exactas no son recompensadas en el ámbito académico.
instituciones porque, en parte, se percibe una falta de creatividad en la replicación exacta de
el trabajo de otra persona. Por lo tanto, es probable que las réplicas de trabajos anteriores impliquen algunas
alteración de la variable independiente, la variable dependiente o ambas. Un seguimiento de
Nuestro ejemplo de estudio de ejercicio anterior podría incluir un tipo o cantidad diferente de ejercicio o una medida
diferente de calidad de vida. Si se aplicara una medida diferente de la calidad de vida
empleado con una escala diferente, luego comparando un intervalo de confianza del anterior
Un estudio con este estudio modificado tendría poco significado. Cabe señalar que cuando
Los estudios clínicos utilizan una intervención ligeramente diferente pero una variable dependiente estándar.
como la presión arterial, los intervalos de confianza de estos estudios son comparables. A
resolver este problema de usar una escala diferente para medir el mismo constructo, los investigadores
han agregado una segunda estrategia al enfoque basado en evidencia: el tamaño del efecto.
Un resultado estadísticamente significativo no proporciona información sobre la fuerza o el tamaño.
del resultado. Por lo tanto, es importante conocer, además de la información estadística
importancia, el tamaño del efecto. El tamaño del efecto se define como la fuerza de la relación.
entre la variable independiente y la variable dependiente o la magnitud de la diferencia entre niveles de la

variable independiente respecto de la variable dependiente. Los estadísticos han propuesto medidas del
tamaño del efecto que se dividen principalmente en tres tipos o familias: la familia r , la familia d y medidas de
potencia de riesgo (ver Grissom y Kim, 2005; Kraemer et al., 2003).
Tamaño del efecto estandarizado versus no estandarizado
Cuando analizamos el tamaño del efecto en este texto, nos referimos a tamaños del efecto estandarizados,
es decir, tamaños del efecto que pueden calcularse independientemente de la escala de medición específica
utilizada en el estudio. Por ejemplo, en nuestro estudio que investiga el efecto del ejercicio con adolescentes
deprimidos (Capítulo 16), el tamaño del efecto podría expresarse como un tamaño del efecto no estandarizado
o un tamaño del efecto estandarizado. El tamaño del efecto no estandarizado es solo la diferencia entre las
medias del grupo de intervención y de control, que fue 8. Este tamaño del efecto no estandarizado no tiene
mucho significado por sí solo, a menos que podamos compararlo con estudios que utilizaron una escala de
medición similar ( ej., el Inventario de Calidad de Vida). Por lo tanto, a veces se encuentran tamaños de
efecto no estandarizados en intervenciones médicas, donde la variable dependiente es el cambio en la presión
arterial o el nivel de colesterol de lipoproteínas de baja densidad (LDL), que son comunes a muchos estudios.
Sin embargo, en las ciencias sociales es bastante común que diferentes estudios que miden un constructo
similar utilicen escalas de medición diferentes . Para tener una métrica similar para comparar entre estos
estudios, los tamaños del efecto están estandarizados.
En nuestro ejemplo actual, calculamos un tamaño del efecto estandarizado dividiendo la diferencia entre las
medias de los grupos de intervención y control por la desviación estándar combinada de los dos grupos.
Luego, el tamaño del efecto estandarizado de nuestro estudio se puede comparar con tamaños del efecto
calculados de manera similar en otros estudios con diferentes escalas de medición.
Tipo de tamaño del
efecto La familia r de medidas del tamaño
del efecto Un método para expresar los tamaños del efecto es en términos de fuerza de asociación. La
variante más conocida de este enfoque es el coeficiente de correlación de Pearson, r. Usando la r de Pearson,
los tamaños del efecto siempre tienen un valor absoluto menor o igual a 1,0, variando entre –1,0 y +1,0, donde
0 representa ningún efecto y +1 o –1 representa el efecto máximo. Esta familia de tamaños de efectos incluye
muchas otras estadísticas asociativas como rho (rs ), phi (φ), eta (η) y la correlación múltiple (R). Véanse los
Capítulos 21 y 22 para un análisis de estas estadísticas y medidas del tamaño del efecto. Para una
descripción más detallada de todos los índices de tamaño del efecto recomendamos Grissom y Kim (2005).
La familia d de medidas del tamaño del
efecto La familia d se centra en la magnitud de la diferencia que dos niveles de la variable independiente
tienen sobre la variable dependiente más que en la fuerza de la asociación. Una forma de calcular el tamaño
del efecto (d) es restar la media del grupo de comparación de la media del grupo de intervención y dividir por
la desviación estándar combinada de ambos grupos. Existen otras fórmulas para los tamaños del efecto de la
familia d , pero todas expresan el tamaño del efecto en unidades de desviación estándar. Por lo tanto, una d
de 0,5 significa que los grupos difieren en la mitad de una desviación estándar. Al utilizar d, los tamaños del
efecto pueden variar de 0 a infinito, pero d suele ser menor que 1. Las estadísticas que utilizan d tamaños del
efecto se analizan principalmente en el Capítulo 20.
Tabla 17.1
Interpretación de la fuerza de una relación (tamaños del efecto)

La familia r
Interpretación general de la fuerza la familia d Potencia de riesgo
de una relación. d ry R DR (%)
Mucho más grande de lo típico >1.00c >.70 .70+ >52
Grande o más grande de lo típico .80 .50 .51 43
Medio o típico .50 .30 .36 28
Pequeño o más pequeño de lo típico .20 .10 .14 11
Los valores de a d pueden variar de 0,0 a infinito, pero d mayor que 1 es poco común.
b
Los valores de la familia r pueden variar de 0,0 a +1,0 o –1,0, pero excepto por la confiabilidad (es decir, el mismo concepto
medido dos veces), r rara vez supera .70. De hecho, algunas de estas estadísticas (por ejemplo, phi) tienen una
alcance restringido en ciertos casos; es decir, el phi máximo es inferior a 1,0.
c Interpretamos los números de esta tabla como un rango de valores. Por ejemplo, d mayor que .90
(o menos de –.90) se describiría como “mucho mayor que lo típico”; d entre, digamos, .70 y
.90 se consideraría “más grande que lo típico”; y d entre, digamos, 0,60 y 0,70 sería “típico
a más grande de lo normal”. Interpretamos los otros números en estas columnas de manera similar.
Medidas de potencia de riesgo
Estas medidas se basan en datos con variables dicotómicas independientes y dependientes.

variables. Existen muchas medidas de tamaño del efecto de este tipo, generalmente expresadas como proporciones o
porcentajes, incluidos los odds ratios, el riesgo relativo y la diferencia de riesgos. Normalmente, el uso de estos efectos
Las medidas de tamaño provienen de una tabla de contingencia de 2 × 2 y la prueba de chicuadrado, analizada en
Capítulo 21, o del análisis de regresión logística, mencionado brevemente en el Capítulo 22.
En resumen, el tamaño del efecto r se utiliza más comúnmente cuando las variables independientes y
las variables dependientes son continuas. El tamaño del efecto d se utiliza cuando la variable independiente es dicotómica
y la variable dependiente es continua. Finalmente, el efecto de potencia de riesgo.
Los tamaños se utilizan cuando las variables independientes y dependientes son dicotómicas (binarias).
Sin embargo, como se demuestra en la Tabla 17.1, la mayoría de los tamaños del efecto se pueden convertir de una familia
a otro.
Cuestiones sobre las medidas del tamaño del efecto
Desafortunadamente, hay poco acuerdo sobre qué tamaño del efecto utilizar (p. ej., ver Rosenthal,
2001). Aunque d es la medida del tamaño del efecto más comúnmente discutida en experimentos
estudios en ciencias del comportamiento y educación, odds ratios y otros efectos de potencia del riesgo
Los tamaños son los más comunes en la investigación médica. Los tamaños del efecto de la familia r , incluidos r y R
(correlación múltiple), son comunes en la investigación por encuestas que utiliza preguntas de investigación asociativas.
Además, existe desacuerdo entre los investigadores sobre si es mejor expresar el efecto
tamaño como el estadístico de la familia r cuadrado o no cuadrado (p. ej., r o r2 ). Las versiones cuadradas tienen
Se han utilizado históricamente porque indican el porcentaje de varianza en la variable dependiente.
Variable que puede predecirse o explicarse a partir de las variables independientes. Sin embargo,
Cohen (1988) y otros argumentaron que estos porcentajes, normalmente pequeños, dan una impresión subestimada de la
fuerza o importancia del efecto. Nosotros, como Cohen, preferimos usar
Las estadísticas no cuadradas son nuestros índices de la familia r , pero ambos son comunes en la literatura.
Aunque los estadísticos han recomendado durante muchos años que los investigadores informen sobre el efecto
tamaños, relativamente pocos investigadores lo hicieron antes de 1999, cuando la American Psychology
(APA) Task Force on Statistical Inference declaró que los tamaños del efecto siempre deben informarse para
los resultados primarios (Wilkinson & the Task Force on Statistical Inference, 1999). La quinta edición del
Manual de publicaciones de la Asociación Estadounidense de Psicología (American Psychoological
Association, 2001) adoptó esencialmente esta recomendación del grupo de trabajo, por lo que actualmente la
mayoría de los autores de artículos en revistas de ciencias del comportamiento discuten el tamaño del efecto
y si el resultado fue estadísticamente significativa. Los tamaños del efecto deben informarse porque, con
muestras grandes, se puede tener una relación muy débil (un tamaño del efecto pequeño), pero aun así puede
ser estadísticamente significativa.
Más adelante en este capítulo, mostramos que conocer el tamaño del efecto, o al menos la información
necesaria para calcularlo, es importante para el metanálisis, que combina todos los estudios apropiados. El
metanálisis incluye tanto los estudios estadísticamente significativos como los que no son significativos para
calcular el tamaño del efecto entre los estudios.
Interpretación de los tamaños
del efecto En nuestro ejemplo del Capítulo 16 con adolescentes deprimidos y calidad de vida, encontramos
que había una diferencia estadísticamente significativa entre el grupo de intervención con ejercicio y el grupo
de control sin ejercicio. Además, encontramos que el intervalo de confianza no contenía cero, otro método
para determinar la significación estadística. Sin embargo, la significación estadística no nos dice acerca de la
fuerza de la relación entre el ejercicio y la medida de la calidad de vida. Por lo tanto, deberíamos calcular un
tamaño del efecto para estimar la fuerza de esta relación. Para nuestro ejemplo, elegiríamos el tamaño del
efecto d porque la variable independiente era dicotómica y la variable dependiente era continua. Resulta que
el valor d para nuestro ejemplo es aproximadamente 0,5. ¿Qué quiere decir esto? ¿Cómo debe interpretarse?
Cohen (1988) sugirió valores para efectos de tamaño grande, mediano y pequeño. Tenga en cuenta que
estas pautas se basan en los tamaños del efecto que generalmente se encuentran en estudios en ciencias del
comportamiento y educación. Por tanto, no tienen un significado absoluto; grande, mediano y pequeño son
sólo relativos a los hallazgos típicos en estas áreas. Por ese motivo, creemos que sería una buena práctica
utilizar “más grande que lo típico” en lugar de grande, “típico” en lugar de mediano y “más pequeño que lo
típico” en lugar de pequeño. Las directrices de Cohen no se aplicarán a todos los subcampos de las ciencias
del comportamiento, y definitivamente no se aplicarán a campos, diseños o contextos donde los efectos
normalmente esperados son mayores o menores. Es aconsejable que los autores examinen la literatura de
investigación para ver si hay información sobre los tamaños de efecto típicos sobre el tema y reconsiderar lo
que se dice que son valores pequeños, grandes y típicos. La tabla 17.1 proporciona pautas para interpretar el
tamaño del “efecto” para cinco medidas comunes del tamaño del efecto: d, r, φ, R y diferencia de riesgo.
Cohen (1988) proporcionó ejemplos de investigación de lo que denominó efectos pequeños, medianos y
grandes para respaldar los valores familiares d y r sugeridos . La mayoría de los investigadores no
considerarían que una correlación (r) de 0,5 sea muy fuerte porque sólo se predice el 25% de la varianza en
la variable dependiente. Sin embargo, Cohen argumentó que una d de 0,8 y una r de 0,5 (que demostró ser
matemáticamente similar) son “diferencias muy perceptibles y, por lo tanto, grandes, como (por ejemplo lo
es) la diferencia media de altura entre personas de 13 a 13 años. y niñas de 18 años” (p. 27). Cohen afirmó
que un efecto pequeño puede ser difícil de detectar, tal vez porque pertenece a un área de investigación
menos controlada. El efecto de tamaño mediano de Cohen es “…visible a simple vista. Es decir, en el curso
de experiencias normales, uno se daría cuenta de una diferencia promedio en el coeficiente intelectual entre
los trabajadores administrativos y los semicalificados…” (p. 26).
Por lo tanto, encontrar un tamaño del efecto d de 0,5 en nuestro ejemplo parece indicar un tamaño del
efecto medio o típico. Sin embargo, no debemos interpretar este tamaño del efecto fuera de contexto.
Como investigador, el conocimiento sobre esta área de contenido antes de realizar nuestro estudio es una
requisito. Con suerte, a partir de investigaciones anteriores se han informado tamaños del efecto ya sea para
un solo estudio o, aún más útil, en metanálisis. Tener esta información permite
para describir el tamaño del efecto en contexto. Es posible que exista una gran base de investigación que sugiera que un
tamaño del efecto d de 0,5 es bastante grande en relación con hallazgos anteriores en esta área. De este modo,
interpretar d de .5 como típico en este contexto sería engañoso.
Tamaño del efecto y significado práctico
Dado que el tamaño del efecto indica la fuerza de la relación, proporciona información relevante sobre la importancia
práctica. Aunque algunos investigadores (por ejemplo, Thompson, 2002) consideran que las medidas del tamaño del efecto
son un índice de importancia práctica, nosotros pensamos que el tamaño del efecto
Las medidas no son índices directos de la importancia de un hallazgo. Como se dio a entender anteriormente, lo que
constituye un efecto grande o importante depende del área específica estudiada, el contexto y la situación.
métodos. Además, la importancia práctica siempre implica un juicio por parte del investigador.
o los consumidores (por ejemplo, médicos, clientes, profesores o juntas escolares) de investigaciones que toman
en cuenta factores como el costo y las consideraciones políticas. Por ejemplo, el tamaño del efecto
tomar algún medicamento (p. ej., una estatina) puede ser relativamente pequeño para los ataques cardíacos, pero el
La importancia práctica podría ser alta porque prevenir ataques cardíacos es una cuestión de vida o muerte, los costos de
las estatinas son relativamente bajos y los efectos secundarios son relativamente poco comunes. Sobre el
Por otro lado, un cambio terapéutico o curricular podría tener un efecto de gran tamaño pero no ser
práctico debido a los altos costos o la amplia oposición a su implementación.
Cálculo de tamaños de efectos
Hay dos puntos importantes que recordar al derivar los tamaños del efecto para individuos.
estudios. Primero, los índices de tamaño del efecto se pueden calcular a partir de pruebas de significancia cuando las medias
y en el estudio no se han proporcionado las desviaciones estándar de las medidas. Por ejemplo,
si un estudio comparó un grupo de tratamiento con un grupo de control e informó los resultados de un t
prueba pero no informó medias ni desviaciones estándar, se pudo calcular un valor d a partir de t.
En segundo lugar, los índices de tamaño del efecto se pueden convertir de un tamaño de efecto a otro. Por ejemplo, si
Los investigadores optaron por utilizar el tamaño del efecto d como índice del tamaño del efecto para el metanálisis.
pero algunos estudios que se incluirán expresan el tamaño del efecto como r, entonces r se puede convertir a d.
El tamaño del efecto no sólo indica la fuerza de la relación entre la variable independiente y la variable dependiente, sino
que también permite a los investigadores combinar tamaños del efecto de diferentes estudios incluso si se utilizaron diferentes
variables dependientes. Esta es una decisión
ventaja sobre los intervalos de confianza al combinar evidencia como la utilizada en el metanálisis, que analizamos a
continuación.
Metaanálisis
El metanálisis es una síntesis de investigación de un conjunto de estudios que utiliza una medida cuantitativa,
tamaño del efecto, para indicar la fuerza de la relación entre el tratamiento u otras variables independientes y las variables
dependientes. Para las profesiones sanitarias, la internacionalmente conocida Colaboración Cochrane publica revisiones
sistemáticas de los efectos de
intervenciones de atención de salud (ver Antes y Oxman, 2001). No todas las síntesis de investigación son metanálisis. A
menudo, el propósito de una síntesis de investigación es proporcionar una descripción de un tema.
zona, ilustrando los estudios que se han llevado a cabo. En otros casos, los estudios son de naturaleza
demasiado variada para proporcionar un índice de tamaño del efecto significativo. Sin embargo, el foco de
esta sección está en las síntesis de investigación que resultan en un metanálisis.
Una ventaja de realizar un metanálisis incluye el cálculo de una estadística resumida para una gran cantidad
de estudios. Esta estadística resumida proporciona una estimación general de la fuerza de la relación entre
las variables independientes y dependientes. Anteriormente, las síntesis de las investigaciones se dividían en
aquellos estudios que apoyaban una hipótesis particular y aquellos que no apoyaban esa hipótesis, lo que
hacía difícil llegar a una conclusión. Una segunda ventaja del metanálisis es que proporciona evidencia de la
confiabilidad de un hallazgo de investigación. Los investigadores tienen más confianza en los hallazgos de
múltiples estudios que en los resultados de un solo estudio. Una tercera ventaja es que tiene en cuenta
estudios que no lograron encontrar significancia estadística y que pueden no haber sido publicados quizás
debido a una falta de poder estadístico (comúnmente por usar un tamaño de muestra reducido). Una cuarta
ventaja del metanálisis es una mayor validez externa. Muchos estudios que tienen una sólida validez interna
(características de diseño) no utilizan una muestra representativa de sujetos. Esto limita la generalización de
los resultados. Sin embargo, incluir muchos estudios aumenta la variación de la muestra y fortalece la validez
externa.
Aunque el metanálisis tiene muchas ventajas, también ha habido críticas considerables. La crítica más
frecuente al metanálisis es que puede combinar “manzanas y naranjas”. Sintetizar estudios que podrían diferir
tanto en variables independientes como dependientes pone en duda la utilidad del producto final. Además,
muchos estudios tienen variables independientes y dependientes similares pero difieren en la solidez del
diseño. ¿Deben combinarse estos estudios? Otra crítica tiene que ver con el pequeño tamaño de la muestra.
Introducir una gran proporción de estudios con poder estadístico inadecuado en un metanálisis podría
introducir sesgo en el tamaño del efecto general. Kraemer, Gardner, Brooks y Yesavage (1998) demostraron
que los tamaños del efecto generados a partir de estudios con poco poder estadístico probablemente eran
estimaciones deficientes de los tamaños del efecto poblacional. Por último, y quizás lo más importante, aunque
las estadísticas utilizadas en el metanálisis son bastante sofisticadas, el producto final nunca será mejor que
los estudios individuales que componen el metanálisis. Reconocemos que nuestra discusión sobre el
metanálisis es breve y recomendamos el texto de Lipsey y Wilson (2000) como una introducción al metanálisis.
Recomendamos el texto editado por Cooper y Hedges (1994) para el lector más sofisticado.
Criterios de revisión
Aunque gran parte del metanálisis se centra en los procedimientos estadísticos, quizás la parte más importante
de un metanálisis es la planificación de los criterios de inclusión y exclusión para seleccionar un estudio para
el metanálisis. Estos criterios de inclusión y exclusión suelen estar relacionados con la validez interna y la
validez externa. La mayoría de los investigadores consideran que los metanálisis compuestos de ensayos
controlados aleatorios (ECA) representan el estándar de oro para la investigación clínica. Un ensayo de control
aleatorio se distingue por la asignación aleatoria de participantes a grupos de tratamiento y de comparación,
lo que crea un factor de selección imparcial.
Sin embargo, hay algunos investigadores que reconocen las fortalezas de un ECA y su énfasis en la validez
interna, pero nos recuerdan la importancia de una validez externa sólida.
Esto se resume en la siguiente afirmación de Egger, Smith y Schneider (2001):
Los pacientes que participan en ensayos aleatorios a menudo difieren del paciente promedio atendido en la
práctica clínica. Las mujeres, los ancianos y los grupos étnicos minoritarios suelen quedar excluidos de los
ensayos aleatorios. De manera similar, los hospitales universitarios que normalmente participan en ensayos clínicos
difieren de los entornos donde se trata a la mayoría de los pacientes. En ausencia de evidencia de ensayos
aleatorios de estos entornos y grupos de pacientes, los resultados de los análisis de bases de datos
observacionales pueden parecer más relevantes y más fácilmente aplicables a la práctica clínica. (pág. 213)
Cálculos estadísticos para estudios individuales.
Número de tamaños de efectos
Cada estudio del metanálisis debe arrojar al menos un tamaño del efecto. Sin embargo, no es raro observar estudios que
comparan un grupo de tratamiento con un grupo de control en muchas medidas. Se podría calcular un tamaño del efecto
para cada medida del estudio. Sin embargo, cuando los estudios tienen más de una medida, las medidas generalmente
están relacionadas o correlacionadas, y calcular más de un tamaño del efecto produce información redundante y le da
demasiado peso a ese estudio en particular. Por lo tanto, el investigador debe seleccionar una medida representativa del
estudio o utilizar un método estadístico para determinar una medida representativa.
Un método estadístico común es calcular una media ponderada de las medidas relacionadas del estudio. Sin embargo,
existen métodos más sofisticados para calcular un tamaño del efecto representativo cuando existen medidas correlacionadas
que hacen uso de la fuerza de las correlaciones.
Si el investigador está convencido de que algunas de las medidas del estudio son representativas de diferentes
constructos (es decir, independientes entre sí), se puede calcular más de un tamaño del efecto a partir de ese estudio.
Ponderaciones En su mayor parte, cada estudio incluido en el metanálisis se basa en un tamaño de muestra diferente. Es
probable que los estudios con tamaños de muestra más grandes sean mejores estimaciones de la población que los
estudios con tamaños de muestra pequeños. Por lo tanto, para tener en cuenta el tamaño de la muestra cuando se
promedian los tamaños del efecto, se calcula una ponderación para cada tamaño del efecto. Los tamaños del efecto
también pueden ponderarse mediante otros índices importantes, como la calidad del estudio.
Cálculo del tamaño del efecto combinado para estudios y estadísticas relacionadas
Cuando se hayan codificado todos los estudios que cumplen con los criterios de inclusión en el metanálisis y se hayan
ingresado los datos del tamaño del efecto, se podrá calcular un tamaño del efecto combinado . Con frecuencia se calcula
un tamaño del efecto para cada constructo. Además de un índice de tamaño del efecto medio calculado para cada
constructo, también se obtiene un intervalo de confianza, generalmente del 95%. Además, se realizan análisis para probar
la significancia estadística y la homogeneidad, como se analiza a continuación.
Un método común para probar la significancia estadística del tamaño medio del efecto se llama método Stouffer y se
basa en sumar valores z . Este procedimiento, cálculo de un valor z , se realiza para cada tamaño del efecto en el
metanálisis. Se obtiene un valor z global , lo que produce un valor p correspondiente . Si el valor de p es inferior a 0,05, se
supone un resultado estadísticamente significativo.
Un resultado significativo indica que el tamaño del efecto es significativamente diferente de cero.
El segundo análisis estadístico común al metanálisis es la prueba de homogeneidad de la distribución del tamaño del
efecto. ¿El tamaño medio del efecto de un constructo particular es representativo del tamaño del efecto poblacional?
¿Cuánta variabilidad debería esperarse en torno al tamaño medio del efecto? Se supone que si la distribución es
homogénea, entonces la variabilidad en torno al tamaño del efecto no es mayor de lo que se esperaría a partir del error de
muestreo (Lipsey y Wilson, 2000). Sin embargo, si la variabilidad alrededor del tamaño medio del efecto es grande (la
distribución del tamaño del efecto es heterogénea), entonces parece que cada tamaño del efecto no es
estimar una media poblacional común. Para probar una distribución homogénea, un común
La prueba utilizada es la prueba Q. Si Q es estadísticamente significativo, la hipótesis nula de homogeneidad es
rechazada y el investigador supone una distribución heterogénea.
Procedimientos de seguimiento
Cuando una prueba de homogeneidad de la distribución del tamaño del efecto es estadísticamente significativa, el investigador
Se pueden tomar varios pasos para explicar la heterogeneidad (Lipsey y Wilson, 2000).
Suponga un modelo de efectos aleatorios
Antes de emprender la tarea de calcular un metanálisis, es importante considerar qué

Se harán generalizaciones a partir de la estimación del tamaño del efecto resultante. Hay dos modelos
entre los que elegir, uno con efectos fijos y otro con efectos aleatorios. En un modelo de efectos fijos, el investigador intenta
generalizar sólo a estudios que son iguales a los
incluido en el metanálisis. El tamaño del efecto generado por cada estudio sería una estimación del tamaño del efecto poblacional,
excepto por el error aleatorio debido a la variabilidad del muestreo. En
En otras palabras, si cada estudio tuviera un tamaño de muestra infinito, todos los estudios arrojarían resultados idénticos.
tamaños de efecto. En el modelo de efectos aleatorios, existe un error aleatorio debido al muestreo a nivel de sujeto.
(similar al modelo de efectos fijos) y también error aleatorio debido al muestreo a nivel de estudio (problemas en el muestreo de
estudios en el metanálisis). La variabilidad del muestreo a nivel de estudio podría
deberse a diferencias en cómo se llevaron a cabo los procedimientos terapéuticos o a diferentes
escenarios del estudio. El modelo de efectos aleatorios no propone un único efecto subyacente
tamaño idéntico en todos los estudios; en cambio, se supone que los tamaños del efecto están distribuidos aleatoriamente
siendo el promedio como representativo de estos estudios. Cuando la prueba de homogeneidad del efecto
Si la distribución de tamaño es significativa, una posibilidad es que los datos se ajusten a un modelo de efectos aleatorios.
Identificar la variabilidad sistemática
El procedimiento de seguimiento más común cuando una prueba de homogeneidad de la distribución del tamaño del efecto es
estadísticamente significativa es intentar identificar la variabilidad que contribuye a la heterogeneidad. En la mayoría de los
casos, el investigador tiene en mente, antes de
metanálisis, ciertas hipótesis sobre qué variables podrían contribuir a la variabilidad
en el tamaño medio del efecto. Estas variables (p. ej., solidez del diseño de la investigación, subgrupos de muestra, género)
suelen denominarse variables moderadoras . En algunos casos, se puede asumir heterogeneidad, pero la introducción de
variables moderadoras no logra estar relacionada con la
tamaño medio del efecto.
El metanálisis es una herramienta valiosa tanto para el investigador como para el clínico. resumiendo
Los resultados de muchos estudios como índice del tamaño del efecto proporcionan una importante fortaleza de la información
sobre las relaciones. Siempre se debe tener precaución con respecto a los tipos de estudios que
entró en el metanálisis; especialmente, uno debe ser consciente de los problemas de diseño.
Resumen
El enfoque basado en evidencia enfatiza la acumulación de evidencia a través de múltiples estudios que investigan hipótesis
iguales o similares. Problemas con la interpretación de
Se señalaron los resultados basados en estudios individuales. Tres métodos utilizados con el enfoque basado en
evidencia son los intervalos de confianza, el tamaño del efecto y el metanálisis. Los intervalos de confianza
proporcionan una buena estimación de la magnitud del error de muestreo y son más útiles para acumular evidencia
cuando estudios similares utilizan la misma variable dependiente. El tamaño del efecto proporciona un índice de la
fuerza de la relación entre las variables independientes y dependientes, y es particularmente importante para el
metanálisis donde las variables dependientes de los estudios considerados suelen ser diferentes. Los intervalos de
confianza y el tamaño del efecto deben presentarse en un solo estudio incluso si uno se suscribe al enfoque de prueba
de hipótesis. El metanálisis utiliza una medida cuantitativa, el tamaño del efecto general, para indicar la fuerza de la
relación entre una variable independiente y una variable dependiente derivada de varios estudios individuales que
investigan propósitos similares.
Conceptos clave
Tamaño del efecto
Efectos fijos
Homogeneidad
Metaanálisis
Punto estimado
Síntesis de la investigación
Efectos aleatorios
Distinciones clave
Medidas del tamaño del efecto: d versus r versus potencia de riesgo

Efectos fijos versus efectos aleatorios
Metanálisis versus síntesis de investigación

Estimación puntual versus intervalo de confianza
Significancia práctica versus significancia estadística Intervalo de
confianza del 95% versus significancia estadística de 0,05
1. Compare y contraste el enfoque basado en evidencia con la prueba estadística de hipótesis nula analizada
en el Capítulo 16.
2. Explique la diferencia entre estimaciones puntuales e intervalos de confianza y proporcione una

ejemplo original para ilustrar esta diferencia.
3. ¿Cuándo usarías cada uno de los siguientes?

a. tamaño del efecto
b. tamaño del efecto d
C. Tamaño del efecto de potencia
del riesgo 4. Discuta las ventajas y desventajas de un metanálisis.
5. Discuta las ventajas y desventajas de la síntesis de la investigación.
6. ¿Qué son los efectos fijos? Da un ejemplo original.
7. Un grupo de investigadores sociales está interesado en la forma en que los periódicos locales abordan el
crimen y las personas de color, tanto víctimas como perpetradores. (Por ejemplo, ¿informan en los artículos
más delitos que involucran a personas de color como perpetradores? ¿Indican raza cuando el perpetrador o la
víctima no es blanco?) Hay 10 investigadores involucrados en el estudio, cada uno de los cuales vive en un
estado diferente. . Durante un período de 3 meses (1 semana cada mes), cada investigador revisará tres
periódicos locales de su estado (uno de una gran área urbana, uno de un mercado mediano y uno que atiende
predominantemente a áreas rurales). a. ¿Es esto un metanálisis o una síntesis de investigación? Explica tu
respuesta. b. ¿Cuál sería el mejor
método para medir el tamaño del efecto? Apoye su decisión. C. ¿Qué sería más importante aquí:
la significancia práctica o la significancia estadística? Explique su respuesta.
8. A menudo se afirma que los estudios de investigación en ciencias sociales carecen de suficiente potencia.
¿Cómo puede el metanálisis mejorar la situación?
18
Clasificaciones generales de diseño para la selección
de métodos estadísticos de diferencias.
En el Capítulo 5 analizamos diseños de investigación experimental específicos, como el diseño

experimental aleatorizado sólo postest y el diseño cuasiexperimental no equivalente pretestpostest
de grupo control. Estos diseños de investigación específicos nos ayudan a visualizar las operaciones
de un estudio, especialmente con respecto a la validez interna. En el presente capítulo, analizamos
las clasificaciones generales de diseño, que son especialmente importantes para determinar el
enfoque estadístico adecuado que se utilizará en el análisis de datos. En el Capítulo 19, dividimos la
selección de estadísticas utilizadas para el análisis de datos en dos categorías generales: responder
preguntas sobre diferencias y responder preguntas asociativas. El conocimiento de la clasificación
general del diseño es un requisito previo para la selección de estadísticas apropiadas para responder
preguntas diferentes. Dentro de los enfoques experimental aleatorio, cuasiexperimental y comparativo,
todos los diseños deben encajar en una de tres categorías (entre grupos, dentro de sujetos o mixtos)
que llamamos clasificaciones de diseño general.
Clasificaciones generales de diseño
Diseños entre grupos Los
diseños entre grupos se definen como diseños en los que cada participante en la investigación se
encuentra en una y sólo una condición o grupo. Por ejemplo, en un estudio que investiga los efectos
del estilo de enseñanza sobre la satisfacción de los estudiantes, puede haber tres grupos (o
condiciones o niveles) de la variable independiente estilo de enseñanza. Estas condiciones podrían
ser tradicionales, basadas en investigaciones o una combinación de ambas. En un diseño entre
grupos, cada participante recibe sólo una de las tres condiciones o niveles. Si el investigador
encontró mediante un análisis de poder que se necesitaban 20 participantes en cada grupo, entonces
se necesitarían 60 participantes para llevar a cabo la investigación. A los 60 participantes se les
mediría sólo una vez la satisfacción de los estudiantes, la variable dependiente.
Diseños intrasujetos o de medidas repetidas El segundo
tipo de clasificación general de diseño, los diseños intrasujetos, es conceptualmente lo opuesto a los
diseños entre grupos. En estos diseños, cada participante en la investigación recibe o experimenta
todas las condiciones o niveles de la variable independiente para completar el estudio. Utilizando el
ejemplo anterior de la investigación de los efectos de la variable independiente, estilo de enseñanza,
sobre la variable dependiente, satisfacción de los estudiantes, todavía habría tres condiciones o
niveles para la variable independiente, estilo de enseñanza. Estas condiciones nuevamente son el
estilo de enseñanza tradicional, el estilo de enseñanza basado en la investigación y una combinación
de ambos. En un diseño intrasujetos, cada participante experimentaría y sería medido
261
para la satisfacción de los estudiantes en las tres condiciones o niveles de la variable independiente. Si el
El investigador encontró a través de un análisis de poder que eran necesarios 20 participantes para cada
condición, sólo se necesitarían 20 participantes para realizar la investigación, porque cada
El participante se somete a las tres condiciones de la variable independiente en la investigación.
Debido a que cada participante es evaluado más de una vez (es decir, para cada condición), estos diseños
También se les conoce como diseños de medidas repetidas .
Los diseños dentro de las materias son atractivos debido al menor número de participantes necesarios
y a la reducción de la varianza del error porque cada participante es su propio control.
Sin embargo, los diseños intrasujetos a menudo pueden ser menos apropiados que los diseños entre grupos.
diseños debido a la posibilidad de efectos de arrastre. Si el propósito del estudio es
investigar condiciones que pueden resultar en un cambio permanente o a largo plazo, como el aprendizaje, no es
posible que un participante esté en una condición y luego “desaprenda” esa
condición para estar en el mismo estado anterior para iniciar la siguiente condición. Dentro de los sujetos
Los diseños pueden ser apropiados si los efectos del orden de presentación son insignificantes, por ejemplo,
cuando se pide a los participantes que evalúen varios temas. Los efectos del orden se pueden controlar
presentando las condiciones a los participantes en diferentes órdenes (por ejemplo, en órdenes aleatorios o
contrapesado de modo que, por ejemplo, la mitad reciba la condición A primero y la otra mitad reciba la condición
B primero). Además, siempre que un estudio tiene un pretest y un postest contamos con medidas repetidas y un
diseño intrasujeto.
Diseños mixtos
Las dos clasificaciones anteriores tienen sólo una variable independiente. Un diseño mixto tiene
al menos una variable independiente entre grupos y al menos una variable independiente dentro de los sujetos;
por lo tanto, tiene un mínimo de dos variables independientes.1 Una variable independiente entre grupos es
cualquier variable independiente que establece condiciones entre grupos. A
La variable independiente dentro de los sujetos es cualquier variable independiente que establece condiciones
dentro de los sujetos. Volvamos a nuestro ejemplo de investigar el efecto de la independencia
variable, estilo de enseñanza, sobre la variable dependiente, satisfacción del estudiante. Si el estilo de enseñanza
es una variable independiente dentro de los sujetos, como en el segundo ejemplo anterior, haríamos
Además, se necesita una segunda variable independiente que sea independiente entre grupos.
variable para completar los criterios para un diseño mixto. La segunda variable independiente para
este ejemplo podría ser el tipo de estudiante de la clase. El tipo de estudiante sería una variable independiente
entre grupos, con dos niveles, tradicional y no tradicional. Por lo tanto,
este ejemplo satisface los criterios para un diseño mixto: dos variables independientes, con una
una variable intraasignaturas (estilo de enseñanza) y la otra variable independiente una variable entre grupos
(tipo de estudiante).
Más consideraciones de diseño

Número de variables independientes
Un diseño mixto debe tener un mínimo de dos variables independientes: una entre grupos
variable independiente y una variable independiente dentro de los sujetos. Tanto entre grupos
Los diseños y diseños dentro de las materias también pueden tener más de una variable independiente
(generalmente no más de tres), aunque el requisito mínimo para cada una de estas
Clasificaciones generales de diseño para la selección de métodos estadísticos de diferencias. 263
diseños es sólo una variable independiente. Si el investigador decide utilizar más de uno
variable independiente, ya sea en un diseño entre grupos o en un diseño dentro de los sujetos, estos
Las variables independientes adicionales también deben ser variables independientes entre grupos (en
un diseño entre grupos) y variables independientes dentro de los sujetos (en un diseño dentro de los sujetos).
diseño). De lo contrario, el diseño se denominaría diseño mixto.
Tipo de variable independiente
Anteriormente, todas las variables independientes se describían como activas (es decir, la variable independiente
se manipula o se da a un grupo pero no a un segundo grupo) o de atributo (el investigador está interesado en una
cualidad que es característica de un grupo). de gente que no es
característico de un segundo grupo de personas). En un diseño entre grupos, el independiente
La variable puede ser una variable activa o de atributo. Así, los diseños entre grupos
pueden encontrarse dentro del grupo experimental aleatorio, cuasiexperimental o comparativo.
acercarse. Ejemplos de diseños entre grupos donde la variable independiente está activa
incluir intervenciones como nuevos métodos de enseñanza, nuevos tipos de terapia y talleres. El género, la
superdotación y el tipo de discapacidad son ejemplos de atributos independientes.
Variables utilizadas en diseños entre grupos.
Por otro lado, en un diseño intrasujetos, la variable independiente suele estar activa,
y los participantes reciben tanto la intervención como el tratamiento o condición de comparación. Por lo tanto, el
enfoque suele ser experimental aleatorio (si el orden de las condiciones
es aleatorio) o cuasiexperimental. La razón por la que los diseños intrasujetos no suelen
Tener una variable independiente de atributo es más claro si consideramos un ejemplo de la relación entre la
discapacidad de aprendizaje, una variable independiente de atributo y la velocidad de lectura.
Un estudiante no puede tener discapacidad de aprendizaje y no tener discapacidad de aprendizaje al mismo tiempo.
Del mismo modo, una persona no puede ser al mismo tiempo mujer y hombre, por lo que en estos ejemplos de
enfoque comparativo no es posible utilizar un diseño intrasujetos. Sin embargo, en algunas situaciones, hay
puede ser un diseño dentro de los sujetos utilizando una variable independiente de atributo.
Tres diseños intrasujetos con una variable independiente de atributo
Todos estos diseños utilizan el enfoque comparativo. La primera situación ocurre cuando se comparan las
respuestas de los participantes de varias partes de un instrumento en particular, como una prueba o un cuestionario.
Por ejemplo, supongamos que un instrumento proporciona puntuaciones separadas para
habilidades motoras y mentales. Si el investigador está interesado en comparar las capacidades motoras de los participantes.
puntuaciones con sus puntuaciones mentales, el diseño se convierte en un diseño intrasujetos con dos niveles. La
variable independiente es el tipo de habilidad, un atributo con dos niveles. Un ejemplo similar
Un diseño intrasujetos con una variable independiente de atributo se puede ver en un estudio de cuestionario
donde se pide a los participantes que califiquen varios aspectos de sus actitudes.
sobre algo. Luego se comparan estos aspectos. Por ejemplo, las percepciones de los trabajadores sobre
Escalas Likert de siete puntos sobre la importancia de un aumento salarial frente a días extra de vacaciones
podría compararse.
Un segundo caso en el que la variable independiente en un diseño intrasujetos no está activa
Implica emparejar participantes. El emparejamiento se refiere a una situación en la que los participantes
combinados en pares (o tríadas) para hacer que cada miembro del par sea lo más parecido posible
en alguna medida relevante para la variable dependiente.
Aunque normalmente no recomendamos emparejar a los participantes como una estrategia de investigación
común, hay ciertas circunstancias en las que el investigador puede desear emparejar pares de participantes. Estas
situaciones suelen ocurrir cuando el tamaño de la muestra es relativamente pequeño y
heterogéneo con respecto a la variable dependiente. Por ejemplo, un investigador podría

utilizar el emparejamiento para estudiar cuestiones de calidad de vida de personas con discapacidades del desarrollo.
Específicamente, el interés del investigador es determinar si las personas que trabajan en apoyo
Las personas con empleo tienen mayor calidad de vida que las personas en trabajos protegidos. Sin embargo, anterior
Las investigaciones han indicado que existe una relación entre la inteligencia y la calidad de vida.
(la variable dependiente del estudio). Por lo tanto, para eliminar el efecto de confusión de
inteligencia, el investigador utiliza una estrategia de emparejamiento. El nivel de inteligencia está determinado.
para todos los participantes que tienen empleo con apoyo y para todos los participantes
en trabajo protegido. Se forman parejas (parejas de participantes), una de un empleo con apoyo y otra de un trabajo
protegido, en función de su nivel de inteligencia. El participante con
el nivel de inteligencia más alto del empleo con apoyo formaría el primer par con
el participante con mayor nivel de inteligencia del trabajo protegido. El participante
con el siguiente nivel de inteligencia más alto del empleo con apoyo se combinaría con
el participante con el siguiente nivel de inteligencia más alto del trabajo protegido. Esta coincidencia
El proceso continuaría hasta que, por ejemplo, 20 participantes hayan formado 10 parejas de participantes. Ahora el
investigador tiene dos grupos, uno con participantes de empleos apoyados y otro con participantes de trabajos
protegidos que coinciden en inteligencia. Todo
A los participantes se les puede dar un inventario de calidad de vida para determinar si existen diferencias.
entre quienes tienen empleo con apoyo y quienes tienen trabajo protegido
La consideración importante para los diseños de investigación que utilizan el emparejamiento es que cambian
en la categoría de diseños intrasujetos. 2 Aunque los participantes están en una, y sólo
uno, como se demuestra en el estudio de calidad de vida que se acaba de describir, el diseño no es
un diseño entre grupos porque los grupos no son independientes. el investigador
emparejó a los participantes antes de analizar los datos. Para comprender conceptualmente el emparejamiento,
recuerde la definición de diseño intrasujetos: cada participante se somete a
todas las condiciones del estudio. En el diseño a juego, estamos tratando de hacer que cada par de
participantes como si fueran el mismo participante al emparejarlos según un criterio relevante para la variable
dependiente. Para el primer par de participantes, un participante está en
la condición de empleo con apoyo, y el otro participante está en el trabajo protegido
condición. Sin embargo, desde un punto de vista estadístico, es como si el mismo participante
se encontraba tanto en empleo con apoyo como en condiciones de trabajo protegido. La falta de independencia
estadística sería obvia si los pares de participantes fueran gemelos o emparentados, como
discutido en la siguiente sección.
Una tercera situación de diseño intrasujetos en la que la variable independiente no está activa
es cuando los miembros de los grupos a comparar están relacionados de alguna manera importante.
Se dice que el diseño es un diseño de muestras relacionadas o de muestras pareadas . Obviamente, gemelos idénticos
deben tratarse estadísticamente como si fueran la misma persona, por lo que se utilizaría un análisis intrasujetos.
Quizás menos obvio, lo mismo sería cierto para las parejas, los padres y
niño, maestro y alumno. Estos ejemplos se tratarían estadísticamente como diseños intrasujetos. La razón por la que
esta clasificación como diseño intrasujetos es importante es que diferentes tipos de estadística inferencial son
apropiados para el diseño entre grupos y para el diseño intrasujetos.
diseños intrasujetos, como veremos en el Capítulo 19.
Cambio a lo largo del tiempo (o ensayos) como variable independiente
En los diseños intrasujetos puede haber un tercer tipo (ni activo ni de atributo) de variable independiente, cambio en el
tiempo o pruebas. Este tercer tipo de variable independiente es extremadamente
importante en diseños experimentales aleatorios y cuasiexperimentales porque la prueba previa
y postest son dos niveles de este tipo de variable independiente. Estudios longitudinales, en
en los que los mismos participantes son evaluados en varios períodos/edades, son otro caso importante donde el
cambio en el tiempo es la variable independiente.
Considere el siguiente estudio utilizando un diseño de grupo de control pretestpostest como se describe
en el Capítulo 5. Los participantes son asignados aleatoriamente (R) a uno de dos grupos: una intervención
grupo (E), que recibe un nuevo plan de estudios; y un grupo control (C), que recibe el
antiguo plan de estudios. Los participantes son medidos antes de la intervención (O1) y después de la intervención
(O2), quizás al final del semestre. El diseño se puede ver de la siguiente manera:
R MI: O1 X O2
R C: O1 ~X O2
Es un diseño mixto porque hay dos variables independientes: un entre grupos

variable independiente y una variable independiente dentro de los sujetos. La variable independiente, tipo de currículo,
es una variable independiente entre grupos porque cada participante experimenta sólo uno de los dos currículos. La
otra variable independiente en este
estudio, cambia con el tiempo, es una variable independiente dentro de los sujetos porque los participantes
dentro de cada grupo se midieron más de una vez en el estudio. Esta variable independiente
se conoce como cambio en el tiempo porque el segundo período de medición tuvo lugar en un
más tarde que el primer período de medición. El cambio a lo largo del tiempo se considera un tercer tipo.
en lugar de una variable independiente activa porque el cambio a lo largo del tiempo no puede ser activamente
manipulado; la prueba posterior siempre viene después de la prueba previa.
Diseños de diagramación
Se pueden diagramar diseños entre grupos, dentro de los sujetos y mixtos para ayudar a visualizar lo que está
sucediendo en la investigación. Además, el método de diagramación que utilizamos
recomienda (basado en Winer, 1962) describe cómo se ingresan los datos en la computadora para análisis estadísticos.
Diseños entre grupos
Estos diseños siempre tienen los datos de un solo sujeto o grupo colocados horizontalmente en
una fila en la página y en la hoja de cálculo de la computadora. Supongamos que tenemos un diseño entre grupos con
dos variables independientes, estilo de enseñanza y género. Cada variable independiente tiene dos niveles (estilo de
enseñanza, tradicional o basado en la investigación; y género, masculino).
o mujer). Observe que hemos simplificado un poco el diagrama al incluir los nombres
de los niveles pero no el nombre de la variable. Por lo tanto, un diagrama del diseño sería el siguiente, suponiendo
que se asignaran 40 participantes a los cuatro grupos:
Mujer (Grupo 1, n= 10) O

Tradicional
Masculino (Grupo 2, n= 10) O
Mujer (Grupo 3, n= 10) O

Basado en consultas
Masculino (Grupo 4, n= 10) O
Los cuatro grupos son los siguientes: (1) Femenino Tradicional; (2) Masculino Tradicional; (3) Basado en consultas
Mujer; y (4) Hombre basado en consultas. En este ejemplo, se observa a cada participante de cada grupo.
o medido (O) una vez en la variable dependiente, tal vez alguna medida de logro.
¿Por qué no ponemos el diagrama en bloques de la siguiente manera?
Género
Femenino Masculino
Tradicional (n = 10) (n = 10)

Estilo de enseñanza
Basado en consultas (n = 10) (n = 10)
Una razón por la que no utilizamos el método del diagrama de bloques ilustrado aquí es que funciona bien.
sólo siempre que no haya más de dos variables independientes. cuando hay mas
de dos variables independientes, la tercera variable independiente tendría que visualizarse en una tercera dimensión.
Más importante aún, el diagrama de bloques tampoco representa
la forma en que los datos se ingresarían en la computadora para un análisis adecuado. La siguiente
El diagrama ilustra parcialmente la forma en que se configurarían los datos anteriores para entrar en
el ordenador. (Solo se muestran el primer y el último participante de cada grupo de 10). Aviso
la similitud con el diagrama recomendado anterior:
Participante No. Estilo de Enseñanza Género Logro
1 1 1 53
10 1 1 75
11 1 2 67
20 1 2 77
21 2 1 82
30 2 1 75
31 2 2 86
40 2 2 92
También se puede diagramar una tercera variable independiente entre grupos. Usando nuestro formato
recomendado, agreguemos la variable independiente edad, con dos niveles, joven y mayor.
Dado que se necesitan ocho grupos para completar el diseño, necesitaríamos 80 participantes para
tener 10 en cada grupo. El diagrama es el siguiente:
Jóvenes (n = 10) oh
Femenino
Antiguo (n = 10) oh
Tradicional
Masculino
Antiguo (n = 10) oh
Femenino
Antiguo (n = 10) oh
Basado en consultas
Masculino
Antiguo (n = 10) oh
Diseños dentro de los sujetos
A diferencia de los diseños entre grupos, los diseños dentro de los sujetos siempre están diagramados.
usando columnas, y los datos se ingresan en la computadora de esa manera para su análisis. Suponer
que tenemos un estudio que utiliza un diseño intrasujetos. Hay dos independientes
variables, ambas variables independientes dentro de los sujetos. La primera variable independiente es
cambian con el tiempo, con dos niveles, pretest y postest. La segunda variable independiente es
Nuestro estilo de enseñanza es variable independiente, con dos niveles, tradicional y basado en la indagación.
Sin embargo, debido a que hemos decidido hacer que ambas variables independientes sean intrasujetos
variables independientes, cada participante debe someterse a todas las condiciones del experimento.
Tenga en cuenta que las puntuaciones de la variable dependiente (O) son las que se ingresan en cada columna. El
El diseño se diagrama de la siguiente manera:
Prueba previa Post prueba Prueba previa Post prueba
Basado en consultas Basado en consultas Tradicional Tradicional
(Condición 1) (Condición 2) (Condición 3) (Condición 4)
(n = 10) oh oh oh oh
En el diseño de este estudio, sólo se necesitan 10 participantes para completar el estudio. Sin embargo,
cada participante debe someterse a las cuatro condiciones.3 Como se analizó anteriormente, este diseño es
susceptible a efectos de arrastre; el segundo estilo de enseñanza puede verse afectado por el primero.
Por lo tanto, para la mitad de los participantes, el investigador probablemente presentaría la tradicional
primero el estilo y luego el estilo de consulta.
Diseños mixtos
Este tipo de diseño se diagrama combinando tanto el diseño entre grupos como el
El diseño intrasujetos. Un ejemplo común de diseño mixto sería una investigación.
estudio para evaluar los efectos de un nuevo plan de estudios. La variable independiente entre grupos sería el currículo,
con dos niveles, currículo nuevo y currículo antiguo. El
La variable independiente intrasujetos sería el tiempo, con dos niveles, antes de la evaluación y después de la evaluación.
Debido a que el diagrama es relativamente simple, hemos incluido
el nombre de la variable así como los niveles:
Prueba previa y posterior a la prueba

Tipo de plan de estudios
(Grupo 1, n = 10) 1 oh oh
(Grupo 2, n = 10) 2 oh oh
Observe que cada participante está en un solo grupo, pero todos los participantes de cada grupo están
medido antes de la intervención y después de la intervención.
Describiendo los distintos tipos de diseño

Dentro de la sección de métodos de un trabajo de investigación suele haber una subsección denominada Diseño
o Diseño/Análisis. El propósito de esta sección es identificar las variables independientes,
variables dependientes y diseño en estudios experimentales aleatorios, cuasiexperimentales y

comparativos. Debido a que la mayoría de las revistas no permiten espacio para diagramar el diseño,
el procedimiento apropiado es describir el diseño en palabras y números. Los diseños generalmente
se describen en términos de (1) el tipo general de diseño (entre grupos, dentro de sujetos o mixto); (2)
el número de variables independientes; y (3) el número de niveles dentro de cada variable
independiente.
Diseños de un solo factor
Ya sea en un diseño entre grupos o dentro de sujetos, si el diseño tiene sólo una variable
independiente, debe describirse como un diseño de un solo factor. (Factor es otro nombre para
variable independiente). Por ejemplo, un diseño entre grupos con una variable independiente y cuatro
niveles se describiría como un diseño de un solo factor con cuatro niveles. Si el mismo diseño fuera
un diseño intrasujetos con cuatro niveles, entonces se describiría como un diseño de medidas
repetidas de un solo factor con cuatro niveles. Tenga en cuenta que “entre grupos” no se indica
directamente en el primer ejemplo, pero está implícito porque en ese ejemplo no se mencionan
medidas repetidas.
Diseños factoriales entre grupos Cuando
hay más de una variable independiente, los niveles de cada variable independiente se vuelven
importantes en la descripción del diseño. Por ejemplo, supongamos que un diseño tiene tres variables
independientes entre grupos, y la primera variable independiente tiene dos niveles, la segunda
variable independiente tiene tres niveles y la tercera variable independiente tiene dos niveles. El
diseño se escribe como un diseño factorial 2 × 3 × 2. (Factorial significa dos o más variables
independientes.) Nuevamente, entre grupos no se menciona explícitamente, pero está implícito
porque no se mencionan medidas repetidas, como en una descripción de diseño dentro de los
sujetos. Dado que el diseño es entre grupos, el número de grupos necesarios para realizar el estudio
es 2 multiplicado por 3 multiplicado por 2, o 12 grupos.
Diseños factoriales intrasujetos Por otro
lado, si el diseño es un diseño intrasujetos con dos variables independientes, cada una con dos
niveles, entonces se describe como un diseño intrasujetos 2 × 2 o, más comúnmente, un diseño
intrasujetos. Diseño factorial 2 × 2 con medidas repetidas de ambos factores.
Diseños mixtos
Un diseño de este tipo podría tener dos variables independientes entre grupos con tres y cuatro
niveles, respectivamente, y tener una variable independiente dentro de los sujetos con dos niveles.
Se describiría como un diseño factorial 3 × 4 × 2 con medidas repetidas en el tercer factor.
Recuerde, al describir un diseño, que a cada variable independiente se le asigna un número, el
número de niveles para esa variable. Así, una descripción de diseño con tres números (por ejemplo,
2 × 4 × 3) tiene tres variables o factores independientes, que tienen dos, cuatro y tres niveles,
respectivamente. Un diseño de factor único se clasifica o describe específicamente con palabras,
como anteriormente, y no con números y x. Tenga en cuenta que la variable dependiente no forma
parte de la descripción del diseño, por lo que no se considera en esta sección. La tabla 18.1
proporciona ejemplos de cómo describir los diseños intermedio, interno y mixto para estudios con una,
dos y tres variables independientes.
Tabla 18.1
Ejemplos de clasificaciones de diseño general
Un solo factor Una variable independiente

Entre Diseño unifactorial con ___ niveles
Dentro Diseño de medidas repetidas de un solo factor con ___ niveles
Mezclado N/A
dos factores Dos variables independientes

Entre ___ × ___ diseño factorial
Dentro ___ × ___ diseño con medidas repetidas en ambos factores
Mezclado ___ × ___ diseño (mixto) con medidas repetidas
Tres factores Tres variables independientes
Entre ___ × ___ × ___ diseño factorial

Dentro ___ × ___ × ___ diseño con medidas repetidas en todos los factores
Mezclado ___ × ___ × ___ diseño con medidas repetidas en los últimos (o dos últimos) factores
Nota: La variable dependiente no forma parte de la clasificación del diseño y, por lo tanto, no se menciona. El
número de niveles para una variable independiente se inserta en cada espacio en blanco.
Clasificaciones de diseño de diseños de investigación específicos.

Los diseños de investigación específicos son importantes para evaluar la validez interna; sin embargo, no lo hacen
ayudar a determinar la selección del análisis estadístico adecuado. Cualquier diseño de investigación específico.
También se puede describir utilizando las clasificaciones de diseño generales discutidas en la sección anterior y en la
Tabla 18.1. Proporcionamos tres ejemplos de cómo los diseños de investigación específicos encajan en los diseños generales.
clasificaciones de diseño: (1) el diseño de cuatro grupos de Solomon; (2) el diseño del grupo de control no equivalente
pretestpostest; y (3) un diseño experimental aleatorio dentro de los sujetos.
De particular interés es cómo este diseño, descrito en el Capítulo 5, encaja en nuestra estrategia general.
clasificación del diseño de diseños entre grupos, dentro de sujetos o mixtos. Una primera suposición
es que parece ser un diseño mixto porque al menos dos de los grupos reciben un pretest
y posprueba. Sin embargo, un examen más detenido de este diseño indica que el investigador está
Realmente no me interesan los puntajes de las pruebas preliminares, solo los efectos que tiene realizar una prueba preliminar en el rendimiento.
post prueba. Por lo tanto, el diseño es en realidad un diseño entre grupos con dos
variables. En concreto, el diseño es un diseño factorial 2 × 2. Las dos variables independientes
son el pretest (sí o no) y el de intervención (sí o no), cada uno con dos niveles. El diseño puede ser
visto esquemáticamente de la siguiente manera:
Intervención O
Prueba previa
Sin
intervención O
Intervención O
Sin prueba previa
Sin
intervención O
Diseño de grupos de comparación no equivalentes antes y después de la prueba
Este diseño de investigación específico se ajusta a la clasificación de diseño general para un diseño mixto.
Hay dos variables independientes. Una variable independiente es un tipo de intervención,
una variable independiente entre grupos con dos niveles, tratamiento y ningún tratamiento. El
La segunda variable independiente es el cambio en el tiempo, una variable independiente dentro de los sujetos.
con dos niveles, pretest y postest. El diseño se puede ver de la siguiente manera:
Prueba previa IV Post prueba
Tratamiento oh X oh
Sin tratamiento oh ~X oh
Observe que el diseño experimental aleatorio de grupo de control pretestpostest tiene la

Misma clasificación de diseño general, mixta, que el diseño de grupo de comparación no equivalente pretestpostest,
un enfoque cuasiexperimental.
Experimento aleatorio dentro de los sujetos
Este diseño también se denominó diseño cruzado en el Capítulo 5. En el caso más simple, este diseño
Tiene dos niveles y se puede mostrar de la siguiente manera:
Primero Post prueba 1 Segundo Post prueba 2
R Grupo 1 X oh ~X oh
R Grupo 2 ~X oh X oh
Los participantes son asignados aleatoriamente al grupo 1, que recibe el experimento

condición primero y luego la condición de control, o al grupo 2, que recibe la condición de control.
condición y luego la experimental. Recuerde que este diseño puede tener problemas si
hay efectos de arrastre de la primera condición a la segunda. Se considera que la clasificación general del diseño se
mezcla con el cambio a lo largo del tiempo como una clasificación independiente dentro de los sujetos.
variable y grupo (1 o 2) como variable independiente entre grupos.
La Figura 18.1, que es una versión ampliada de la Figura 5.1, muestra en la última columna cómo
cada diseño de investigación específico se ajusta a la clasificación de diseño general. Esta clasificación
(entre grupos, dentro de sujetos o mixto) determina, en buena parte, la adecuada
tipo de estadístico inferencial de diferencia a utilizar, como se muestra en el siguiente capítulo. Por ejemplo,
El diseño intrasujetos de prueba previa y posterior de un grupo se analizaría utilizando el método pareado.
prueba t de muestras en lugar de la prueba t de muestras independientes , que se utilizaría para analizar
diseños entre grupos, como los diseños de posprueba únicamente que se muestran en la Figura 18.1. Ambas pruebas t
se analizan en el Capítulo 20. El diseño de cuatro grupos de Solomon de dos factores y el diseño mixto
Los diseños que se muestran en la Figura 18.1 podrían analizarse con uno de varios análisis bidireccionales de
varianza (ANOVA). El Capítulo 19 describe qué ANOVA es apropiado utilizar.
Resumen
Este capítulo describe las clasificaciones de diseño general de entre grupos, dentro de sujetos,
y diseños mixtos. Recuerde que en los diseños entre grupos, cada participante está en una sola
Asignar. Grupo Pre. IV Correo. Clase.
Diseños cuasiexperimentales deficientes
Diseño de posprueba de un solo grupo NR MI: X oh Ninguno
Diseño pretestpostest de un solo grupo NR MI: oh X oh Dentro
Diseño de grupos no equivalentes solo postprueba NR MI: X oh Entre

NR C: ~X oh
Diseños cuasiexperimentales
Pretestpostest no equivalente NR MI: oh X oh Mezclado
diseños de grupos de comparación NR C: oh ~X oh

Con tratamiento temporal NR MI: OOO X OOO dentro
Con tratamiento continuo NR MI: OOO XOXO XOXO Dentro

Con tratamiento temporal NR MI: OOO X OOO Mezclado
NR C: OOO ~X OOO
Con tratamiento continuo NR MI: OOO besos y abrazos besos y abrazos Mezclado
NR C: OOO O...O O...O
Diseños experimentales aleatorios.
Diseño de grupo de control solo posterior a la prueba R MI: X oh Entre

R C: ~X oh
Diseño de grupo de control pretestpostest R MI: oh X oh Mezclado

R C: oh ~X oh
Diseño de 4 grupos de Solomon R E1: oh X oh Entre

R E2: X oh 2 factores
R C1: oh ~X oh
R C2: ~X oh
Diseño experimental aleatorio con SEÑOR MI: X oh Dentro
pareo SEÑOR C: ~X oh
Orden Publicación 1 Publicación 2
Diseño intrasujetos o cruzado R E1 X oh ~X oh Mezclado

R E2 ~X oh X oh
Notas: Asignar. = asignación de sujetos a grupos (NR = no aleatorio, R = aleatorio, MR = emparejados y luego aleatorios
asignado). Grupo = grupo o condición (E: = experimental, C: = control o comparación). Pre. = prueba previa (O = una
observación o medición; un espacio en blanco significa que no hubo prueba previa para ese grupo). IV = activo independiente
variable (X = intervención, ~X = control u otro tratamiento). Correo. = posprueba (O = una observación posprueba o
medida). Clase. = clasificación (entre, dentro o mixta).
Figura 18.1
Clasificación de diseños específicos para experimentos y cuasiexperimentos.
grupo o condición. Por otro lado, en los diseños intrasujetos/medidas repetidas , cada participante
recibe todas las condiciones o niveles de la variable independiente. En los diseños mixtos, hay al
menos una variable independiente entre grupos y al menos una variable independiente dentro de los
sujetos. Al clasificar el diseño no se consideran las variables dependientes.
Los diagramas, clasificaciones y descripciones presentados en este capítulo son para preguntas
sobre diferencias, utilizando enfoques de investigación experimentales aleatorios, cuasiexperimentales
y comparativos. La clasificación y descripción adecuadas del diseño son cruciales para elegir la
estadística inferencial adecuada.
Conceptos clave
Diseños entre grupos
Efectos de arrastre
Cambian con el tiempo
Pareo
Diseños mixtos
Diseños intrasujetos
Distinciones clave
Variable independiente activa versus atributo en diseños intrasujetos
Diseños entre grupos versus diseños dentro de los sujetos versus diseños mixtos
Clasificaciones de diseño general versus experimentales y cuasiexperimentales específicos.
diseños
Diseños unifactoriales versus factoriales
1. Explique por qué las variables independientes para un diseño intrasujetos no suelen ser
variables independientes de atributos.
2. ¿Es el cambio a lo largo del tiempo una variable activa o independiente de un atributo? ¿Por qué? ¿Cómo se usa?
3. Dé un ejemplo de un diseño dentro de los sujetos/medidas repetidas y diagramarlo.

Para los ejemplos 4 a 7 responda lo siguiente:
a. Identifica las variables independientes. Para cada uno, indique si es activo, attri
pero cambia o cambia con el
tiempo b. Identificar las variables dependientes.
C. Diagrama el diseño. d.
Identifique la clasificación del diseño (p. ej., factorial 4 × 4).
4. Un investigador quería saber si el tipo de ejercicio y el tipo de individuo influyen en la voluntad de una
persona de permanecer en un programa de ejercicio. El investigador reclutó a 300 participantes. El
estudio incluyó a personas consideradas jóvenes (20 a 35), de mediana edad (36 a 50) y mayores (51
a 70); 150 eran hombres y 150 eran mujeres. Además, de los 300 participantes, 100 eran afroamericanos,
100 eran caucásicos/no hispanos y 100 eran hispanos. Los participantes fueron asignados aleatoriamente
a tres regímenes de ejercicio diferentes: (1) correr en círculos alrededor de una pista; (2) nadar en una
piscina cubierta; o (3) andar en bicicleta por las Montañas Rocosas. Los regímenes duraron 2 meses.
Al final de los 2 meses, todos los participantes completaron la Escala de disposición para continuar
haciendo ejercicio.
5. Un profesor de humanidades que iba a dirigir un programa de estudios en el extranjero de un año de

duración se preguntó si la experiencia de viajar tenía algún impacto en la capacidad de los estudiantes
para comprender y aceptar la diversidad en los demás. Al inicio del año escolar el profesor entregó a
todos los estudiantes la Escala de Aceptación Multicultural. Esta escala también se dio al final del año
cuando los estudiantes regresaron del extranjero y 2 años después.
6. Un adiestrador de perros estaba interesado en saber si su nuevo enfoque aversivo para el entrenamiento
de obediencia era efectivo. Dividió a su nueva clientela en tres grupos diferentes. El primer grupo recibió
un adiestramiento canino tradicional, en el que el buen comportamiento se recompensa con elogios y
golosinas. El segundo grupo recibió el nuevo entrenamiento aversivo, en el que el comportamiento
disconforme era castigado con retirada temporal de agua y comida, bofetadas en la nariz y fuertes gritos
por parte del entrenador y el propietario. Los participantes del tercer grupo eran el control y no recibieron
ningún entrenamiento para sus perros. Antes del entrenamiento y 3 meses después, el entrenador
calificó a los perros de los tres grupos en una escala de obediencia canina.
7. Un investigador estaba interesado en dos señales diferentes que podrían usarse en la reproducción del
movimiento: (1) la posición inicial del movimiento; y (2) la velocidad del movimiento. Además, también
estaba interesada en cómo la edad afecta la reproducción del movimiento. En el estudio participaron
tres grupos de participantes (40 participantes por grupo). Estos tres grupos eran niños de 7 años, 11
años o adultos. Cada grupo fue asignado al azar a una de cuatro condiciones: (1) un movimiento rápido
con la misma posición inicial; (2) un movimiento lento con la misma posición inicial; (3) un movimiento
rápido con la posición inicial diferente; y (4) un movimiento lento con la condición inicial diferente. El
investigador midió el error de distancia desde el objetivo y el error de ángulo.
Notas
1. Algunos textos introductorios de diseño de investigación describen un diseño mixto como un diseño que tiene al
menos una variable independiente activa y una variable independiente de atributo. El problema con esta
caracterización de un diseño mixto es que podría confundirse con el diseño mixto tal como se define en este libro,
y luego sería incorrectamente analizado estadísticamente porque ambas variables independientes son variables
entre grupos, lo que requiere un tipo diferente de análisis. de varianza (ANOVA) que un diseño mixto (entre y
dentro). Para evitar confusión, un diseño entre grupos con una variable independiente activa y una variable
independiente de atributo podría denominarse diseño de bloques aleatorios generalizados (Kirk, 1982). Sin
embargo, el análisis de datos adecuado no distingue entre variables independientes activas o de atributos, solo que
son variables independientes entre grupos.
2. El nombre que se da a los diseños que implican emparejar sujetos en pares (o tríadas) y luego asignar
aleatoriamente un miembro de cada par a un grupo particular es diseño de bloques aleatorios.
Sin embargo, estadísticamente estos diseños se analizan de manera similar a los diseños intrasujetos.
3. En algunos casos, la prueba posterior para el primer nivel (basada en indagación) sirve como prueba previa para el
segundo nivel (tradicional) de una variable independiente, y requiere sólo tres observaciones.
19
Selección de métodos estadísticos apropiados:
Integración de diseño y análisis.
Elegir el análisis estadístico adecuado puede parecer una tarea difícil, considerando el gran número de
opciones posibles. Sin embargo, esta tarea debería ser más fácil con el conocimiento de las variables
independientes y dependientes, los enfoques de investigación, las clasificaciones de diseño y las
escalas o niveles de medición. Este capítulo presenta una serie de pasos de decisión y cuatro tablas
que ayudarán a realizar una elección adecuada de una estadística inferencial. Sin embargo, antes de
presentar el árbol de decisión y describir cómo utilizar las tablas de selección estadística, revisamos
los conceptos necesarios para seleccionar estadísticas inferenciales.
Revisión de los conceptos necesarios para seleccionar enfoques y preguntas de
investigación en estadística inferencial En
el capítulo 4, analizamos cinco enfoques de investigación y tres tipos de preguntas de investigación.

La Figura 19.1, que es igual a la Figura 4.1, es la figura clave que presenta las relaciones entre los
cinco enfoques específicos, los tres tipos de preguntas de investigación y los tres tipos de estadísticas:
inferencial de diferencias, inferencial asociacional y descriptiva.
Preguntas de diferencia
Los primeros tres enfoques (experimental, cuasiexperimental y comparativo) comparan grupos y

prueban preguntas/hipótesis de diferencias, como en nuestro ejemplo de adolescentes deprimidos y
ejercicio (Capítulo 16). Estos tres enfoques suelen utilizar los mismos tipos de estadísticas, a las que
llamamos estadísticas inferenciales de diferencias. Recuerde que las estadísticas de diferencias y las
preguntas se utilizan para comparar algunos grupos (p. ej., hombres versus mujeres, experimental
versus control, o tres currículos) en términos de las puntuaciones promedio de cada grupo en la
variable dependiente (p. ej., una medida de logro).
Preguntas asociativas
Las preguntas asociativas utilizan el enfoque asociativo de la investigación y lo que llamamos

estadística inferencial asociacional. Las estadísticas de este grupo examinan la asociación o
correlación entre dos o más variables. Si hay una asociación positiva, las personas que tienen
puntuaciones altas en una variable tienden a tener puntuaciones altas en la segunda variable; aquellos
con puntuaciones bajas tienden a tener puntuaciones bajas en ambas variables. Es decir, las
puntuaciones altas se asocian con altas, las bajas con bajas y las medias con medias. Por otro lado, si
existe una asociación negativa entre las dos variables, aquellos con puntuaciones bajas en la variable
uno tienden a tener puntuaciones altas en la variable dos y viceversa. Es decir, las puntuaciones bajas se asocian con
275

Enfoque específico Aleatorizado Cuasiexperimental Comparativo asociacional Descriptivo

Experimental
encontrar asociaciones, Resumir

Propósito específico Determinar causas Examinar la causalidad Comparar grupos
Hacer predicciones Datos
Tipo de pregunta/ Diferencia asociacional

Descriptivo
Hipótesis (Para comparar grupos) (Para relacionar variables)
Tipo general de
Estadísticos Estadísticas Descriptivo
Estadística
inferenciales de diferencias inferenciales Estadística
(p. ej., prueba t, ANOVA) asociativas (p. (p.
ej., correlación, ej., histogramas,
regresión medias,
múltiple) porcentajes)
Figura 19.1
Diagrama esquemático que muestra cómo el tipo general de estadística e hipótesis/pregunta utilizados en un estudio se corresponde con los
propósitos y el enfoque.
asociación, no se puede hacer una predicción de la puntuación de una persona en la segunda variable conociendo
la primera. Las personas que obtienen una puntuación alta en la primera variable pueden tener una puntuación
alta, baja o media en la segunda variable.
Las preguntas descriptivas y las estadísticas se analizaron en el Capítulo 10, por lo que no se analizarán en
este capítulo. Vale la pena señalar que en varias situaciones puede haber más de un análisis estadístico
apropiado. Se podría suponer, dado que las fórmulas estadísticas son matemáticamente precisas, que esta misma
precisión se aplica a la elección de una prueba estadística. Como veremos, lamentablemente esto no siempre es
cierto.
Variables independientes y dependientes
Analizamos las variables en profundidad en el capítulo 3. La variable independiente es una presunta causa de los
cambios en la variable dependiente, aunque los enfoques cuasiexperimental, comparativo y asociacional
moderados y débiles no proporcionan buena evidencia sobre las causas. En el Capítulo 3 distinguimos entre
variables independientes activas/manipuladas y variables independientes de atributos. Aunque esta distinción es
importante para decidir si la variable independiente es una causa, sólo es relevante para ciertas estadísticas
asociativas complejas (por ejemplo, regresión múltiple jerárquica), que son, en su mayor parte,
Selección de métodos estadísticos apropiados: integración del diseño y análisis 277
más allá del alcance de este libro. Por lo tanto, no mencionamos activos e independientes de atributos.
variables nuevamente en este capítulo. Lo que es relevante para seleccionar estadísticas es el número de
variables independientes, niveles dentro de estas variables independientes y escala de medición
de la variable dependiente.
Número de variables independientes
La primera pregunta que cabe plantearse es si existe una o más de una variable independiente. Si solo hay
una variable independiente, llamamos diseño básico (o diseño de un solo factor, si se responde a una pregunta
de diferencia). Si hay más de una variable independiente,
las estadísticas se llaman complejas (o factoriales en el caso de preguntas de diferencias).
Número de niveles de la variable independiente
Una pregunta de diferencia se indica cuando la variable independiente tiene algunos (es decir, dos a
cuatro) niveles. Por ejemplo, ¿los hombres y las mujeres o los grupos experimental y de control difieren?
en la variable dependiente? Sin embargo, si la variable independiente tiene más de cuatro niveles desordenados
(nominales), normalmente se haría una pregunta de diferencia y se compararían los niveles.
grupos. Por ejemplo, ¿se diferencian seis grupos étnicos? Recuerda que tiene que haber al menos
dos niveles, o no hay una variable sino una constante.
Cuando la variable independiente tiene cinco o más niveles ordenados , se formula una pregunta asociativa
y se utiliza un estadístico inferencial asociativo. Por lo tanto, si la variable independiente es continua (un
número infinito de niveles ordenados dentro de algún rango)
o se aproxima a una variable continua (nuestra pauta es cinco o más niveles ordenados),
Se utilizan estadísticas asociativas. Sin embargo, también se puede hacer una pregunta asociativa.
cuando la variable independiente es nominal. Cabe señalar que dos estadísticas inferenciales asociativas
variables (p. ej., correlación de Pearson) son bidireccionales, por lo que los estadísticos
Diríamos que no existe una variable independiente. Sin embargo, debido a que los investigadores generalmente
Si tenemos una relación causal en mente, sugerimos identificar una de las variables como la
variable independiente.
La variable dependiente también es importante para la elección adecuada de una estadística inferencial. La
cuestión principal es el nivel de medición de la variable dependiente, que
Analice las siguientes clasificaciones de diseño.
Clasificaciones de diseño
Nuestra discusión sobre las clasificaciones de diseño en el Capítulo 18 es un antecedente importante para
seleccionar una estadística apropiada. La cuestión clave para seleccionar una estadística apropiada es si
la clasificación es entre, dentro o mixta. Estas clasificaciones se aplican sólo a los enfoques experimentales
aleatorios, cuasiexperimentales y comparativos (es decir, a las preguntas de diferenciación).
Diseños de factor único entre grupos versus dentro de sujetos
Con una variable independiente el diseño debe ser entre grupos o dentro de sujetos porque se necesitan al
menos dos variables independientes para tener un diseño mixto. Usar
estadísticas de diferencias básicas, la información necesaria es si los dos o más grupos o
Los niveles de la variable independiente son independientes entre sí (un diseño entre grupos).
o relacionados (diseños dentro de sujetos/medidas repetidas).1 En los diseños entre grupos, cada
El participante está en un solo grupo y los participantes no están emparejados en parejas o tríadas ni están
relacionados de alguna manera, como parejas, padres e hijos, o maestros y estudiantes. En los diseños
intrasujetos/medidas repetidas, los participantes son evaluados dos o más veces (medidas repetidas) o dos (o
incluso tres o más) de ellos son emparejados o emparejados de alguna manera significativa. Para fines
estadísticos, sus puntuaciones no son independientes (es decir, se dice que son muestras relacionadas o
correlacionadas). Estos diseños intrasujetos utilizan estadísticas diferentes de los diseños entre grupos, como
veremos.
Clasificación en diseños factoriales
Cuando están presentes dos o más variables independientes, hay tres clasificaciones de diseño posibles: todos
entre grupos, todos dentro de sujetos y mixtos (entre y dentro). Es importante comprender esta distinción para
elegir el estadístico de diferencia compleja apropiado. Como ya se dijo, en los diseños entre grupos, los grupos
son independientes; cada participante es evaluado sólo una vez en cualquier variable dependiente dada. En los
diseños intrasujetos, cada persona es evaluada en cada condición y, por lo tanto, tiene una puntuación en cada
celda del diseño.
En diseños mixtos, como el diseño de grupo de control pretestpostest, hay al menos una variable entre grupos y
al menos una variable dentro de los sujetos.
Niveles de medición
Para una selección estadística adecuada, el nivel de medición también es importante. Recuerde que los datos
distribuidos normalmente fueron el nivel más alto analizado en el capítulo 10. Las distribuciones normales
también son un supuesto de estadística paramétrica como la prueba t , el análisis de varianza (ANOVA) y la
correlación de Pearson. Los datos ordinales tienen tres o más niveles ordenados de menor a mayor (a menudo
rangos) pero con espacios desiguales entre niveles y, lo que es más importante para la selección estadística, los
datos no están distribuidos normalmente. Por el contrario, los datos nominales tienen tres o más niveles o
categorías desordenados .
Para las estadísticas de diferencias, la variable cuyo nivel de medición importa es la variable dependiente. La
variable independiente puede ser nominal (p. ej., grupos étnicos) u ordenada (p. ej., bajo, medio y alto), pero
normalmente tiene menos de cinco niveles ordenados. Para las estadísticas asociativas, es necesario determinar
el nivel de medición de ambas o de todas las variables.
Las variables dicotómicas constituyen un caso especial, como se analiza en el capítulo 10. Aunque las variables
dicotómicas son en muchos sentidos similares a las variables nominales, pueden usarse, especialmente como
variables independientes o predictoras en regresión múltiple, como si fueran variables distribuidas normalmente.
Supuestos estadísticos Cada
prueba estadística se basa en ciertos supuestos. Hay tres supuestos generales que deben abordarse para el
uso de estadísticas paramétricas (es decir, prueba t , ANOVA, correlación de Pearson, regresión múltiple). Hay
más supuestos para estadísticas complejas, que están más allá del alcance de este libro. Un supuesto general
de la estadística paramétrica supone que la variable dependiente proviene de una población que se distribuye
normalmente. Esto se conoce como supuesto de normalidad. A menudo, puede haber grandes violaciones de
este supuesto antes de que se distorsionen los resultados; por lo tanto, las variables dependientes utilizadas en
los análisis paramétricos sólo tienen que tener una distribución aproximadamente normal.
Un segundo supuesto para las pruebas paramétricas es que las varianzas de los grupos deben ser iguales.
Este supuesto se conoce como homogeneidad de la varianza. Esta suposición puede violarse hasta cierto punto.
Sin embargo, cuando también hay tamaños de muestra desiguales, significativamente
Las varianzas desiguales pueden conducir a errores de tipo I (rechazar la hipótesis nula cuando no debería
rechazarse), especialmente si el tamaño de la muestra de un grupo es excepcionalmente mayor que el de
los otros grupos. Algunos programas estadísticos (por ejemplo, SPSS) tienen correcciones incorporadas
por violación de este supuesto para algunas estadísticas. Si uno o ambos de estos supuestos (normalidad
o, especialmente, homogeneidad) se violan marcadamente , entonces se debe utilizar la prueba no
paramétrica ordinal equivalente.
El supuesto de independencia significa que todos los participantes dentro de un grupo particular deben
ser independientes entre sí. En otras palabras, la puntuación de un participante no debe verse influenciada
por la puntuación de otro individuo ni depender de ella. Este supuesto no debe violarse cuando se utilizan
estadísticas inferenciales paramétricas o no paramétricas. Recuerde que en los diseños entre grupos, los
participantes de cada grupo deben ser independientes (no emparejados ni relacionados) con los de los
otros grupos.
Selección de estadísticas inferenciales apropiadas

Cómo utilizar las tablas de selección estadística
La figura 19.2, así como el texto siguiente, proporciona un método que puede usarse para ayudar a
seleccionar la prueba estadística apropiada. El primer paso es decidir si la pregunta o hipótesis de
investigación es diferenciadora (es decir, compara grupos) o asociacional (es decir, relaciona variables).
Para ayudar a decidir si se utiliza una estadística de diferencia o de asociación, recomendamos que si la
variable independiente o predictiva tiene cinco o más niveles/categorías ordenados , la pregunta debe
considerarse asociativa.2 Si la variable independiente tiene de dos a cuatro categorías, Generalmente es
mejor tratar la pregunta como si fuera diferente. Sin embargo, si la variable independiente tiene cinco o
más niveles nominales (es decir, niveles desordenados ); uno normalmente
¿Qué tipo de pregunta de investigación?

¿Hay muchos (5+) niveles ordenados de la variable
independiente?
NO SÍ
Entonces una diferencia Entonces una asociación
Pregunta (Compara Pregunta (Se relaciona
Grupos) variables)
¿Existe más una variable

¿Hay más uno?
independiente y/o
¿Variable independiente?
dependiente?
SÍ
NO SÍ NO
Utilice Fig. 19.6
Uso Fig. 19.3 Utilice la Fig. 19.5 Uso Fig. 19.4
Estadísticas
Estadísticas de Estadísticas de Estadísticas
asociativas
diferencias básicas diferencias complejas Asociacionales Básicas
complejas
Figura 19.2 Un
árbol de decisión para decidir cómo seleccionar la estadística apropiada.

Un factor o independiente Una variable independiente 2 o

Variable con 2 Categorías o más categorías o niveles
Niveles/Grupos/Muestras o grupos
Escala
de Medición de
Repetido Repetido
Dependientes COMPARAR Independiente Independiente
Medidas o Medidas o
Variable Muestras o Muestras o
Relacionadas Relacionadas
Grupos Grupos
Muestras Muestras
(Entre) (Entre)
(Dentro de) (Dentro de)
Variable dependiente INDEPENDIENTE

MUESTRAS
EMPAREJADO DE UNA SOLA MANO REPETIDO
Aproximados
MUESTRAS ANOVA MEDIDAS
Paramétrico Distribución normal t PRUEBA o
MEDIO t PRUEBA ANOVA
Estadísticas Datos DE UNA SOLA MANO
y supuestos no ANOVA
Marcadamente violado Cap. 20 Cap. 20 Cap. 20 Cap. 20
Variable dependiente MANN WILCOXON KRUSKAL FRIEDMAN

No MEDIANAS
Claramente ordinal WHITNEY o WALLIS
Paramétrico O
Datos (clasificados)
PRUEBA DE SEÑAL
Estadísticas RANGOS
o supuestos
Marcadamente violado
Cap. 20 Cap. 20 Cap. 20 Cap. 20
PLAZA CHI Cap. MCNEMAR PLAZA CHI COCHRAN

Dependiente 21 PRUEBA Q
Nominal variable
CUENTA o
(Datos categóricos PESCADOR
PRUEBA EXACTA Cap. 20 Cap. 21
Notas: Para seleccionar la estadística adecuada, ubique un cuadro basado en a) el tipo de pregunta, b) el diseño yc) la escala de medición.
Es aceptable utilizar estadísticas que se encuentran en los cuadros debajo de la estadística apropiada, pero generalmente hay cierta pérdida
de información y poder. No es aceptable utilizar estadísticas encima del cuadro correspondiente. • Los diseños de muestras relacionadas
también se denominan medidas repetidas, grupos emparejados o pareados y son diseños intrasujetos. • Pruebas de chi cuadrado para la
independencia de dos variables. Se utilizan datos de frecuencia o recuentos del número de S en cada celda o categoría en lugar de puntuaciones
y medias brutas.
• ANOVA es Análisis de Varianza.
Figura 19.3
Selección de una estadística inferencial apropiada para preguntas o hipótesis básicas, de un solo factor y de diferencias (para enfoques
experimentales, cuasiexperimentales y comparativos).
Utilice estadísticas inferenciales de diferencias y la Figura 19.3. Las preguntas de diferencia conducen a la Figura 19.3 o
la Figura 19.5, y las preguntas de asociación conducen a la Figura 19.4 o la Figura 19.6.
El segundo paso es decidir cuántas variables hay en la pregunta. Si solo hay una variable independiente, utilice la Figura
19.3 o la Figura 19.4, dependiendo de cómo se respondió la primera pregunta. Si hay más de una variable independiente
(o dependiente) en este análisis, utilice la Figura 19.5 o la Figura 19.6 dependiendo de si la pregunta de investigación es
una pregunta de diferencia o de asociación.
Estadísticas de diferencias básicas
Si la pregunta involucra una pregunta básica o de diferencia de un solo factor , use la Figura 19.3. Para hacerlo, determine
(1) el nivel de medición de la variable dependiente y si los supuestos se violan marcadamente; (2) cuántos niveles/grupos/
muestras hay en la variable independiente; y (3) si el diseño es entre grupos o dentro de sujetos. Las respuestas a estas
preguntas conducen a un cuadro y una estadística específicos en la Figura 19.3. Observe que una decisión
Nivel (escala)
Dos variables o puntuaciones
de medición de RELATAR para materias
ambas variables
iguales o relacionadas
PEARSON r Cap.
Las variables son ambas.
21 o
Datos normales y otras suposiciones PUNTUACIONES
REGRESIÓN BIVARIADA Cap. 22
No marcadamente violado
SPEARMAN (Rho) o
Ambas variables
RANGOS KENDALL'S TAU Ch. 21
al menos datos ordinales
PHI
Una o ambas variables son Cap. 21
CUENTA
datos nominales o
CRAMER'S V
Nota. Al igual que en la figura 19.3, es aceptable utilizar una estadística en un cuadro debajo de la
estadística apropiada, pero habrá cierta pérdida de potencia para detectar una asociación desde la fila
superior a la segunda y mucha pérdida desde la segunda a la siguiente. tercera fila. No es aceptable
utilizar una estadística ordinal o de distribución normal si al menos una variable es nominal.
Figura 19.4
Selección de una estadística inferencial apropiada para preguntas o hipótesis asociativas básicas de dos variables (para el enfoque asociativo).
Dos o más variables independientes

Dependiente
Variables Todo entre Mezclado
Todo dentro de las materias
Grupos (Entre y dentro)
ANOVA factorial con ANOVA factorial con

uno normalmente ANOVA repetido medidas repetidas
Repartido factorial Medidas sobre en el último o los 2
Variable dependiente Cap. 22 todos los factores últimos factores
Cap. 22 Cap. 22
Ordinal
Ninguno común Ninguno común Ninguno común
Variable dependiente
Nominal
Registro lineal Ninguno común Ninguno común
Variable dependiente
MANOVA MANOVA
Varios normalmente
con Repetido Con repetido
Repartido MANOVA
Medidas en todos Medidas en último o
Variables dependientes
Factores Últimos factores
Figura 19.5
Selección de la estadística compleja apropiada (más de una variable independiente o dependiente) para responder preguntas/hipótesis de
diferencias (para los enfoques experimental, cuasiexperimental o comparativo).
Lo que se debe hacer es si la variable independiente tiene dos versus dos o más niveles de la
variable independiente. Uno podría preguntarse por qué nos molestamos en tener una categoría
separada para dos niveles cuando “dos o más” incluye dos. Parte de la respuesta es que la popular
prueba t sólo se puede utilizar cuando hay dos niveles; la segunda parte es que la prueba t se
puede utilizar con una hipótesis direccional (de una cola), mientras que la estadística alternativa, unidireccional
Varias variables independientes

un dependiente
Variable Todo normalmente Algo normal Todo
↓ Repartido Algunos dicotómicos dicotómico
MÚLTIPLE MÚLTIPLE MÚLTIPLE

Normalmente distribuido
REGRESIÓN REGRESIÓN Cap. REGRESIÓN Cap.
(Continuo)
Cap. 22 22 22
DISCRIMINANTE REGRESIÓN REGRESIÓN

dicotómico ANÁLISIS Cap. LOGÍSTICA Cap. 22 LOGÍSTICA Cap. 22
22
Figura 19.6
Selección de la estadística asociativa compleja adecuada con el fin de predecir una única variable dependiente/de resultado a partir de varias
variables independientes.
ANOVA, siempre es de dos colas. Hay más información sobre este tema en el Capítulo 20. La mayoría de
las estadísticas de la Figura 19.3 se analizan, al menos brevemente, en el Capítulo 20. Sin embargo, hemos
optado por analizar el chicuadrado en el Capítulo 21, y la prueba Q de Cochran es no se discute porque es
rara vez usado.
Recuerde que si se violan marcadamente los supuestos de la prueba paramétrica (normalidad y
homogeneidad), se debe utilizar el estadístico no paramétrico ordinal equivalente (p. ej., MannWhitney en
lugar de la prueba t para muestras independientes ) o una prueba paramétrica corregida.
Las alternativas ordinales no paramétricas (utilizadas con datos muy asimétricos) se enumeran justo debajo
de la prueba paramétrica en la figura 19.3. Al utilizar estas pruebas se pierde poca potencia, por lo que
probablemente sea prudente utilizarlas cuando se violan marcadamente los supuestos. También sería
legítimo utilizar las estadísticas de la fila inferior (p. ej., chicuadrado) si se tuvieran datos ordinales o
nominales/desordenados, pero se pierde mucho poder al hacerlo, por lo que no se considera una buena
práctica. . Un principio al utilizar la Figura 19.3 y la Figura 19.4 es que está bien usar una estadística más
abajo en una columna determinada; se pierde un poco de potencia desde la parte superior hasta la segunda
fila (ordinal). Se pierde mucha potencia al pasar de la segunda a la tercera fila de la columna. Es un error
grave utilizar la columna incorrecta, es decir, dentro en lugar de entre o viceversa.
Otra violación absoluta que producirá resultados sin sentido es utilizar un estadístico de las dos filas
superiores de las figuras 19.3 y 19.4 (p. ej., una prueba t o U de MannWhitney) cuando se tiene una variable
dependiente nominal (desordenada). ¡Eso definitivamente está mal!
Estadísticas asociativas básicas
Si se hace una pregunta asociativa básica de dos variables, utilice la Figura 19.4. La fila que se utilice
depende de ambas variables. Si ambos tienen al menos una distribución aproximadamente normal (y se
cumplen otros supuestos), se utilizaría la correlación momentoproducto de Pearson. Si ambas variables
están al menos ordenadas y los supuestos paramétricos se violan marcadamente, se utilizaría la correlación
de orden de rango de Spearman, Rho. Si una o ambas variables son nominales, se utilizaría phi (si ambas
variables tienen dos niveles, una tabulación cruzada de 2 × 2) o la V de Cramer para una tabulación cruzada
más grande. La figura 19.4 muestra sólo dos (phi y V de Cramer) de muchas estadísticas asociativas que
proporcionan información sobre la fuerza de la asociación entre dos variables, cuando una o ambas son
variables nominales (por ejemplo, grupo étnico y preferencia de voto). El uso de estadísticas asociativas
nominales es relativamente poco común en la literatura, por lo que no las analizamos en detalle, pero phi se
analiza en el Capítulo 21. Las correlaciones de Pearson, Spearman y Kendall también se analizan en el
Capítulo 21.
Estadísticas de diferencias complejas
Si hace una pregunta de diferencia compleja (tres o más variables), las estadísticas apropiadas
se identifican utilizando la Figura 19.5. Para seleccionar la estadística apropiada, primero decida si
la clasificación del diseño es entre grupos, dentro de materias o mixta. Entonces si hay uno
variable dependiente y tiene una distribución aproximadamente normal, la elección es una de tres
ANOVA factoriales. Estos ANOVA son similares pero tienen fórmulas diferentes, por lo que es importante saber
cuál usar. Cada uno de estos tres tipos de ANOVA y análisis factorial
de covarianza (ANCOVA) se analizan en el Capítulo 22.
Tenga en cuenta que, lamentablemente, ninguna estadística ordinal común es equivalente al factorial.
ANOVA. El análisis log lineal a veces se ve en la literatura, pero no se analiza en
este libro. Es similar a un ANOVA factorial para datos nominales/categóricos y es algo
similar a un chicuadrado complejo.
La fila inferior de la Figura 19.5 muestra tres análisis de varianza multivariados (MANOVA).
que son paralelos a los tres ANOVA factoriales pero se utilizan cuando se quiere analizar varios
variables dependientes normalmente distribuidas juntas en lugar de una a la vez. MANOVA también
Se puede utilizar en lugar de varios ANOVA unidireccionales cuando hay una variable independiente.
(diseño de un solo factor) y varias variables dependientes que deben analizarse en un solo análisis en lugar de por
separado. Debido a su complejidad, no analizamos más MANOVA.
en este libro.
Estadísticas asociativas complejas
Si se formula una pregunta asociativa compleja (dos o más variables independientes ), se identifican las estadísticas
apropiadas utilizando la figura 19.6.
Estas estadísticas asociativas complejas se analizan en el capítulo 22. Observe que la columna de la izquierda
de la figura 19.6 es diferente de las otras tres tablas en ese orden ordinal y
Los niveles nominales de medición no están listados. No existen estadísticas ordinales comunes.
similares a estos. La fila superior enumera la regresión múltiple, que se utiliza para los casos en los que
Se utilizan dos o más variables independientes para predecir una variable dependiente distribuida normalmente.
variable. Observe que la regresión múltiple se puede utilizar tanto cuando las variables independientes
se distribuyen normalmente y cuando son dicotómicos. El supuesto de normalidad
porque la regresión múltiple es más compleja de lo indicado anteriormente; sería útil
consulte los libros de texto de estadística avanzada para analizar los supuestos de la regresión múltiple y otras
estadísticas complejas. En la figura 19.6 se indica cuándo utilizar el análisis discriminante y la regresión logística.
El análisis discriminante se utiliza a veces cuando hay
más de dos niveles de la variable dependiente, pero esto hace que el análisis y la interpretación sean mucho más
complejos.
Una nota sobre las mejores prácticas
Ocasionalmente se encontrará un artículo de investigación en el que se utilizó una variable dependiente dicotómica
en una prueba t , ANOVA o correlación de Pearson. Por la naturaleza especial
de variables dicotómicas, esto no está mal, como lo sería el uso de un nominal (tres
o más niveles desordenados) variable dependiente con estadísticas paramétricas. Sin embargo, nos
Creo que es una mejor práctica utilizar las mismas estadísticas con variables dicotómicas que
se utilizan con variables nominales. La excepción es que es apropiado utilizar variables independientes dicotómicas
(ficticias) en regresión múltiple y regresión logística.
(Figura 19.6).
Otras estadísticas complejas (multivariadas)
En la literatura se ven otras cuatro estadísticas asociativas complejas. El más común es el análisis
factorial, que generalmente se utiliza para reducir un número relativamente grande de variables a un
número menor de grupos de variables. Estas nuevas variables compuestas se denominan factores o
componentes. El análisis factorial se analiza en los capítulos 12 y 15.
Debido a que son estadísticas muy avanzadas, las otras tres no se analizan en este libro, pero sí se
mencionan aquí. La correlación canónica es una correlación de una combinación lineal de varias
variables independientes con una combinación lineal de varias variables dependientes. El análisis de
rutas es un análisis multivariado en el que las relaciones "causales" entre varias variables se
representan mediante figuras que muestran las "rutas" entre ellas. Los modelos de ecuaciones
estructurales (SEM) son modelos que describen relaciones "causales" entre variables latentes (no
observadas). El análisis de ruta y el SEM están relacionados; ambos proporcionan pruebas de la
exactitud del modelo propuesto y, según sus defensores, ambos proporcionan evidencia de vínculos
causales a partir de diseños no experimentales. Sin embargo, el Grupo de Trabajo sobre Inferencia
Estadística de la Asociación Estadounidense de Psicología (APA) afirma: “El uso de software
complicado de 'modelado causal' rara vez produce resultados que tengan alguna interpretación como
efectos causales” (Wilkinson y el Grupo de Trabajo sobre Inferencia Estadística, 1999, p. .600).
El modelo lineal general
Algo que no resulta obvio en la figura 19.2 es que la pregunta general de si existe una relación entre
las variables X e Y puede responderse de dos maneras. Si tanto la variable independiente como la
variable dependiente proporcionan datos aproximadamente distribuidos normalmente con cinco o más
niveles, la estadística obvia a utilizar (basada en la Figura 19.2 y la Figura 19.4) es la correlación de
Pearson, y esa sería nuestra recomendación. Sin embargo, algunos investigadores optan por dividir la
variable independiente en dos o varias categorías o grupos, como bajo, medio y alto, y luego realizar
un ANOVA unidireccional. Por el contrario, otros que comienzan con una variable independiente que
tiene algunas (por ejemplo, de dos a cuatro categorías ordenadas) pueden optar por realizar una
correlación en lugar de un ANOVA unidireccional. Aunque estas elecciones no son incorrectas, no
creemos que sean la mejor práctica. Decimos esto porque, en el primer ejemplo, se pierde información
al dividir una variable independiente continua en unas pocas categorías. En el segundo ejemplo, habría
un rango restringido, que tiende a disminuir el tamaño del coeficiente de correlación.
En los ejemplos anteriores recomendamos una de las opciones, pero el hecho de que haya dos
opciones plantea una cuestión mayor y más compleja que hemos insinuado en capítulos anteriores.
Los estadísticos señalan, y pueden demostrar matemáticamente, que la distinción entre estadística
de diferencias y asociación es artificial y que el ANOVA unidireccional y la correlación de Pearson son
matemáticamente iguales, al igual que el ANOVA factorial y la regresión múltiple. Por tanto, toda la
gama de métodos utilizados para analizar una variable dependiente continua y una o más variables
independientes, ya sean continuas o categóricas, están relacionadas matemáticamente (Keppel y
Zedeck, 1989). El modelo en el que se basa se denomina modelo lineal general; es “general” en el
sentido de que no se especifica el tipo de variable independiente. La idea es que la relación entre las
variables independientes y dependientes se pueda expresar mediante una ecuación con términos para
los valores ponderados de cada una de las variables independientes o predictoras más un término de
error.
Lo que esto significa es que si hay una variable dependiente o de resultado continua, distribuida normalmente
y cinco niveles aproximadamente de una variable independiente distribuida normalmente, se analizaría
adecuadamente con una correlación o un ANOVA unidireccional. Una respuesta similar se obtendría con
respecto al nivel de significancia. Sin embargo, se necesitaría una muestra grande para tener suficientes
participantes en cada grupo para las comparaciones ANOVA si hay más de cuatro niveles de la variable
independiente.
Aunque reconocemos que nuestra distinción entre estadística paramétrica de diferencias y asociativa es
una simplificación, todavía pensamos que es útil desde el punto de vista educativo. Esperamos que este
vistazo a un tema avanzado sea claro y útil.
Resumen
Este capítulo sirve como introducción a la selección de métodos estadísticos apropiados.

En los siguientes tres capítulos analizamos conceptualmente y con más profundidad muchos de los métodos
estadísticos que se muestran en las Figuras 19.3 a 19.6. Tomamos ejemplos de revistas que publican
investigaciones en entornos aplicados y demostramos por qué los autores seleccionaron un método estadístico
particular. Nuestro enfoque muestra que la elección de un método estadístico particular está directamente
relacionada con la clasificación general del diseño y el nivel de medición. Además, discutimos cómo se
interpretaron los resultados del método estadístico.
La selección de una estadística apropiada requiere juicio y seguir las reglas de decisión. Esto puede resultar
difícil, pero esta descripción general debería proporcionar una buena base. Una revisión de este capítulo es
útil para decidir qué estadística utilizar. Debería proporcionar una buena comprensión de cómo encajan las
distintas estadísticas y cuándo deben utilizarse.
Conceptos clave
Preguntas asociativas básicas
Preguntas básicas de diferencia
Preguntas asociativas complejas
Preguntas de diferencias complejas
Supuesto de homogeneidad de la varianza.
Supuesto de independencia
Supuesto de normalidad
Distinciones clave
Preguntas asociativas básicas versus preguntas básicas de diferencia
Preguntas asociativas complejas versus preguntas complejas de diferencias
Supuesto de homogeneidad de la varianza versus supuesto de independencia versus supuesto de
normalidad
Término diferente para concepto similar

Distribuciones no normales ≈ distribución sesgada
1. ¿Cómo debería decidir si su investigación es una pregunta de diferencia o una cuestión de asociación?
¿Pregunta adicional?
2. ¿Cómo debe determinar si debe utilizar análisis estadísticos básicos o complejos?
3. Al seleccionar un estadístico inferencial de diferencias básicas, ¿cuándo se compararían las medias?

¿Medianas? ¿Cuenta? Explicar.
4. Una maestra clasificó a los 25 estudiantes de su clase de Álgebra 1 de 1 = más alto a 25 = más bajo en
términos de sus calificaciones en varias pruebas. Después del siguiente semestre, revisó los registros
escolares para ver qué calificación recibieron los estudiantes de su maestro de Álgebra 2. El maestro
preguntó: “¿La clasificación final de los estudiantes en Álgebra 1 influye en su calificación en Álgebra 2?”
¿Cuál es el análisis estadístico apropiado?
Explicar. ¿Por qué los resultados, incluso si hay un tamaño de efecto muy grande, no permitirán que la
profesora responda la pregunta específica que hizo? (Pista: consulte el Capítulo 4.)
Para los problemas 5 a 10, cree un ejemplo original y luego utilice las cifras de este capítulo para llegar al análisis
estadístico adecuado.
5. Una variable independiente, tres niveles, entre grupos, un ordinal no normal

variable dependiente distribuida.
6. Dos variables independientes entre grupos, cada una con tres niveles, uno normalmente
variable dependiente distribuida.
7. Una variable independiente entre grupos, una variable independiente de medidas repetidas, cada una con
dos niveles, una variable dependiente distribuida normalmente.
8. Una variable independiente, dos niveles, medidas repetidas, una variable dependiente nominal.
variable de abolladura.
9. Una variable independiente, cuatro niveles, entre grupos, una nominal dependiente
variable de abolladura.
10. Tres variables distribuidas normalmente y una variable independiente dicotómica,

una variable dependiente distribuida normalmente.
11. El director de educación especial de un distrito escolar suburbano quería comparar dos escuelas en términos
del desempeño de los estudiantes de inglés como segundo idioma (ESL) en sus respectivas escuelas. La
variable independiente fue la escuela, con dos niveles. Las variables dependientes incluyeron los puntajes
de las pruebas nacionales estandarizadas de los estudiantes de ESL en cada una de las cuatro áreas
temáticas. ¿Qué tipo de estadística debería utilizarse en este estudio y por qué?
Notas
1. Tenga en cuenta que en esta oración la palabra independiente tiene dos significados diferentes. El segundo
uso, que significa "separado de, no relacionado o no influenciado por", es un término clave en estadística y
es una suposición de muchas pruebas estadísticas. El Apéndice B contrasta los diversos significados de
términos como independiente, aleatorio y validez, cuyos significados, lamentablemente, dependen del contexto.
Hemos tratado de ser claros sobre el contexto.
2. La excepción es para evaluar la fuerza de la asociación entre dos variables nominales (se utilizaría la
estadística de asociación nominal apropiada de la Figura 19.4, es decir, phi o V de Cramer).
20
Análisis e interpretación de datos—
Este capítulo incluye pruebas estadísticas que se utilizan para diseños que tienen una variable independiente
(factor) y una variable dependiente. Estas pruebas estadísticas se utilizan para responder preguntas básicas
sobre diferencias (consulte el Capítulo 19 para conocer las pautas de decisión sobre la selección de dichas pruebas).
Aunque en este capítulo se mencionan muchas pruebas estadísticas, prestamos especial atención a las pruebas
paramétricas que se utilizan comúnmente en la literatura. Estas pruebas son la prueba t de muestras
independientes, el análisis de varianza de un solo factor (ANOVA), la prueba t de muestras dependientes o
pareadas y el análisis de varianza de medidas repetidas de un solo factor. Todas las pruebas descritas en este
capítulo se ven comúnmente cuando un estudio utiliza el enfoque experimental aleatorio, el enfoque
cuasiexperimental o el enfoque comparativo.
Análisis de un solo factor (entre grupos)

Diseños con estadística paramétrica Hay tres
supuestos principales que subyacen al uso de la prueba t o ANOVA para muestras independientes que se
analizaron en el capítulo 19: (1) normalidad; (2) homogeneidad de la varianza; y (3) independencia.
La prueba t para muestras independientes
Comenzamos con diseños de un solo factor entre grupos realizados sobre variables dependientes que se
distribuyen normalmente (a menudo se dice que son escalas de intervalo o de razón). Primero, analizamos la
prueba t para muestras independientes y luego el ANOVA de un solo factor o unidireccional. Para nuestra
discusión sobre la prueba t , proporcionamos un ejemplo de Poirier y Feldman (2007).
Poirier y Feldman (2007) investigaron el uso de la tecnología de respuesta individual (TRI) en un amplio curso
de introducción a la psicología. Los estudiantes estaban matriculados en una de dos secciones de un curso de
introducción a la psicología. La sección que incorporó la TRI a las clases magistrales tuvo 447 estudiantes.
Había 418 estudiantes en la sección de comparación, que era tradicional y no utilizaba TRI. Las dos secciones
se encontraron una tras otra y los estudiantes no tenían conocimiento antes del comienzo del curso de que se
usaría la TRI. Por lo tanto, el sesgo basado en la selección de la intervención no fue un problema. El diseño fue
cuasiexperimental porque los participantes no fueron asignados aleatoriamente a los grupos. Al final del
semestre, el impacto de la TRI se evaluó comparando la calificación general de los estudiantes de cada uno de
los dos cursos. La tabla 20.1 muestra las medias y las desviaciones estándar para cada uno de los dos grupos.
El diseño de este estudio fue un diseño de factor único, entre grupos, con dos niveles.
La variable independiente fue recibir TRI con dos niveles: TRI y sin TRI (tradicional).
El diseño fue entre grupos porque los participantes estaban en uno y solo un grupo, y
289
Tabla 20.1
Datos de rendimiento del curso
Tradicional (n TRI
= 418) (n = 447)
Significar 82,72 84.03

Desviación Estándar 7.64 7.54
Fuente: Los datos provienen de Poirier, CR y Feldman, RS, Teaching of

Psychology, 34, 2007, 194–196.
Los participantes fueron medidos sólo una vez. Se supuso que la variable dependiente (rendimiento en
el curso como porcentaje) tenía una distribución normal con varianzas iguales. Por lo tanto, la elección
estadística para este estudio fue una prueba t para muestras independientes .
Expresamos los resultados de la prueba t de la siguiente manera. Las diferencias entre las medias de
los grupos alcanzaron significación estadística: t863 = 2,54, p = 0,01. ¿Qué quiere decir esto?
Conceptualmente, la prueba t y también el ANOVA ( prueba F) son relaciones entre la variabilidad entre
grupos o condiciones y la variabilidad dentro de los grupos o condiciones. ¿Qué queremos decir con la
variabilidad entre grupos y la variabilidad dentro de los grupos? En la prueba t , la variabilidad entre
grupos se determina a partir de la diferencia entre la media del grupo TRI y la media del grupo tradicional.
En el presente estudio, la media del grupo TRI fue 84,03 y la media del grupo tradicional fue 82,72. Por
tanto, la diferencia entre las medias fue de 1,31 puntos porcentuales a favor del grupo TRI. La
variabilidad dentro de grupos o condiciones es la variabilidad entre los participantes individuales dentro
de cada grupo. Se esperaría que hubiera cierta variabilidad entre los participantes dentro de los grupos
porque son individuos diferentes. Otra variabilidad podría deberse a errores cometidos en la medición.
El tamaño de la variabilidad dentro de los grupos se puede estimar a partir de las desviaciones estándar
dentro de cada grupo, que se muestran en la Tabla 20.1. Estas desviaciones estándar se utilizan como
parte del cálculo de la variabilidad dentro de los grupos. Si hay una gran variabilidad en el desempeño
entre los participantes dentro de un grupo, entonces la desviación estándar será grande. Por otro lado,
si hay poca variabilidad, entonces la desviación estándar será pequeña. La variabilidad dentro de los
grupos a menudo se denomina varianza del error.
Si la proporción que acabamos de describir es grande (es decir, la variabilidad entre grupos es varias
veces mayor que la variabilidad dentro de los grupos) y dada una muestra lo suficientemente grande,
entonces es probable que el resultado sea estadísticamente significativo. ¿Cómo se sabe que el
resultado es estadísticamente significativo? Para responder a esta pregunta, debemos comprender qué
se entiende por significación estadística. Cuando utilizamos pruebas de hipótesis (Capítulo 16),
expresamos nuestro resultado en términos de la hipótesis nula, que, en este caso, es la hipótesis de
que no hay diferencia entre las puntuaciones medias de desempeño en la población de estudiantes que
reciben el Curso TRI y la media en la población de estudiantes que reciben el curso tradicional.
Específicamente, afirmamos: Si la hipótesis nula fuera cierta, ¿cuál es la probabilidad de que se
produzca el resultado del estudio? Si la probabilidad fuera bastante pequeña, menos de 5 veces en 100,
por ejemplo, p (el valor de probabilidad) sería <.05, por lo que rechazaríamos la hipótesis nula y
respaldaríamos la hipótesis alternativa o de investigación. (0,05 es el nivel de significancia más común,
pero algunos investigadores utilizan un nivel más bajo y más conservador, como 0,01, en parte porque
están menos dispuestos a correr el riesgo de rechazar una hipótesis nula que sea verdadera). Utilizando
los datos de Poirier y Feldman (2007), la probabilidad calculada fue de 0,01 de que el resultado pudiera
ocurrir si la hipótesis nula fuera realmente cierta.
Por lo tanto, rechazaron la hipótesis nula de que no había diferencia en el rendimiento.
Análisis e interpretación de datos: preguntas básicas sobre diferencias 291
puntuaciones entre las medias poblacionales de los dos grupos. Se concluyó que el puntaje promedio de
desempeño en la población de estudiantes del TRI es superior al puntaje promedio de desempeño de
aquellos en la condición tradicional.
Poirier y Feldman (2007) expresaron los resultados de su comparación como t863 = 2,54, p = 0,01.
El número del subíndice, 863, fueron los grados de libertad, que se refiere al número de piezas de
información independientes de los datos recopilados en el estudio. En la prueba t de muestras
independientes , encontramos los grados de libertad del número total de participantes menos 2. Hubo 865
participantes en el estudio (447 en el grupo IRT y 418 en el grupo tradicional). Por tanto, existen 863
grados de libertad para la comparación.
Como se discutió en el Capítulo 17, no es suficiente afirmar que el resultado fue estadísticamente
significativo y que la media del grupo TRI fue mayor que la del grupo tradicional. Además, se debe informar
e interpretar el tamaño del efecto y, si es posible, se debe anotar la importancia práctica o clínica del
hallazgo. En el estudio de Poirier y Feldman (2007), se informó que el tamaño del efecto familiar era de
0,17, que es bastante pequeño . Tenga en cuenta que la Tabla 17.1 muestra que un valor d de 0,2 se
considera pequeño o menor de lo típico. Debido al gran tamaño de la muestra, existía una gran posibilidad
de encontrar una diferencia estadísticamente significativa, aunque el tamaño del efecto fuera pequeño.
El estadístico t , los intervalos de confianza y los tamaños del
efecto Ahora que hemos analizado el estadístico t , los intervalos de confianza (IC) (Capítulo 17) y los
tamaños del efecto (Capítulo 17), resulta instructivo demostrar las diferencias entre los tres utilizando los
datos de el estudio de Poirier y Feldman (2007) (Tabla 20.1). Primero, evaluamos el estadístico t . Al
calcular el estadístico t , dividimos la diferencia entre medias muestrales por una medida de variabilidad,
el error estándar de la diferencia entre medias. (Un error estándar se calcula dividiendo la desviación
estándar por la raíz cuadrada del tamaño de la muestra). La información necesaria para calcular la prueba
t se proporciona en la tabla 20.1: las medias de las dos muestras, las desviaciones estándar
correspondientes y el tamaño de la muestra para cada grupo. Si bien el denominador de la fórmula hace
que sea un poco difícil calcularla con una calculadora manual, especialmente si los tamaños de muestra
de los dos grupos no son los mismos, los programas estadísticos de computadora son capaces de realizar
la prueba t . El resultado de la prueba fue estadísticamente significativo con un valor de p de 0,01.
Diferencia entre muestras medias

t=
Error estándar de diferencia entre medias
mml −_ C
t =
1 1
SS×+
yo
Cnnl _ _ C
1 .31
t = = 2 .54
.516
A continuación, utilizando los mismos datos proporcionados por Poirier y Feldman (2007), calculamos
un intervalo de confianza del 95%. La información necesaria para calcular el intervalo de confianza es la
misma que se utiliza en la prueba t . Además, necesitamos un valor de una tabla de valores críticos de la
distribución t , que se puede encontrar en cualquier libro de estadística. Con muestras muy grandes, como
en el estudio de Poirier y Feldman, el valor crítico de 0,05 es 1,96.
Límite inferior IC del 95% = Diferencia entre medias – Error estándar estimado de diferencia
entre medias × valor crítico
Límite superior IC 95% = Diferencia entre medias + Error estándar estimado de diferencia
entre medias × valor crítico
Límite inferior IC 95% = 1.31 – (.516)(1.96) = .29

Límite superior IC 95% = 1,31 + (0,516)(1,96) = 2,32
Por lo tanto, el intervalo de confianza del 95% para el estudio de Poirier y Feldman (2007) está entre
.29 y 2.32. Se podría decir con un 95% de confianza que la verdadera media poblacional está dentro de
ese intervalo. Observe que 0 no está dentro del intervalo de confianza. Esto también es un indicador
que hubo una diferencia estadísticamente significativa en p < 0,05.
Por último, utilizamos los mismos datos para calcular el tamaño del efecto. En este caso, dado que el independiente
Si la variable era dicotómica y la variable dependiente era continua, elegimos un tamaño del efecto familiar , como lo
hicieron Poirier y Feldman (2007). Observe que el denominador del efecto
La fórmula del tamaño se basa en la desviación estándar y no en el error estándar como en el estadístico t y el
intervalo de confianza.
Diferencia entre muestras medias

re =
Desviaciones estándar agrupadas de ambas muestras.
MM − C
d =
yo
Sagrupado
1 .31
d = = . 17
7 .58
Nuevamente, el tamaño del efecto (0,17), que es la fuerza de la relación entre la variable independiente y la
dependiente, se consideró pequeño, aunque la diferencia
entre grupos fue estadísticamente significativo en 0,01. Lo más probable es que este resultado se debiera
a un tamaño de muestra grande.
ANOVA de un solo factor
El ANOVA de un solo factor (también llamado ANOVA unidireccional) se utiliza para diseños con una variable
independiente, entre grupos y dos o más niveles. De manera similar a la prueba t para muestras independientes , el
ANOVA de un solo factor se realiza sobre variables dependientes que normalmente son
distribuido (a menudo llamado escala de intervalo o de razón). Para nuestra discusión de este análisis
proporcione un ejemplo de Herpertz et al. (2001).
Herpertz et al. (2001) investigaron las respuestas psicofisiológicas en niños con atención
trastorno por déficit de hiperactividad (TDAH) en comparación con niños con este trastorno que también
tenía trastorno de conducta (TC) (TDAH + CD). Un tercer grupo de niños sin TDAH sirvió como
un grupo de comparación o control. Aunque el enfoque principal de este estudio fueron las diferencias psicofisiológicas
entre los tres grupos, otras variables dependientes, incluido el coeficiente intelectual,
También fueron de interés. Para fines de demostración del ANOVA de un solo factor, utilizamos
los datos de CI que se muestran en la tabla 20.2. Porque Herpertz et al. Tenía tres grupos en su estudio.
(TDAH, TDAH + CD y control) y cada participante en el estudio estaba en solo uno de
los tres grupos y medido solo una vez, el diseño fue de un solo factor entre grupos
Diseño con tres niveles. Se consideró que la variable dependiente, el coeficiente intelectual, tenía una distribución
normal. Además, debido a que los grupos diferían en una variable independiente de atributo,
el enfoque de investigación del estudio se considera comparativo.
Tabla 20.2
Datos de coeficiente intelectual
TDAH (n TDAH + EC (n = Sin TDAH (n =

= 21) 26) 21)
Significar 95,71 93,50 110.24

Desviación Estándar 11.08 7,97 11.77
Fuente: Los datos provienen de Herpertz, SC, Wenning, B., Mueller, B., Qunaibi, M., Sass,
H. y HerpertzDahlmann, B., Revista de la Academia Estadounidense de Psiquiatría Infantil
y Adolescente, 40, 2001, 1222–1230.
Tabla 20.3
Tabla fuente de ANOVA de factor único (hipotética)

Fuente SS df EM F
Grupos 500 2 250 17,44*
Dentro de los temas (error) 931.45 sesenta y cinco 14.33
*p < .01.
Fuente: Los datos provienen de Herpertz, SC, Wenning, B., Mueller, B., Qunaibi, M., Sass,
H. y HerpertzDahlmann, B., Revista de la Academia Estadounidense de Psiquiatría Infantil
y Adolescente, 40, 2001, 1222–1230.
Debido a que hay tres grupos o niveles para este estudio, podríamos realizar tres pruebas t de muestras
independientes (comparando control con TDAH, TDAH con TDAH + CD y
TDAH + CD con control) para considerar todas las comparaciones pareadas posibles. El problema es
que el resultado de realizar múltiples pruebas t es que la probabilidad de cometer un error tipo I aumenta
sustancialmente. Este error ocurre cuando el investigador rechaza incorrectamente la hipótesis nula.
cuando es verdad. Si se realizaron tres pruebas t separadas en esta situación, la significancia
El nivel para cada comparación debe reducirse a aproximadamente 0,017 (0,05/3 pruebas) para mantener la
nivel de significancia general de 0,05. Esta corrección, llamada Bonferroni, divide el nivel alfa
(normalmente 0,05) por el número de pruebas realizadas. Desafortunadamente, el uso del procedimiento
de Bonferroni reduce el poder estadístico al cambiar el nivel de significancia (de 0,05 a 0,013 en este caso).
situación). La selección estadística más apropiada para un diseño de un solo factor con más
de dos niveles es el ANOVA de un solo factor, que permite al investigador probar la nula
hipótesis en p = 0,05.
Todos los procedimientos ANOVA tienen una tabla fuente que muestra los resultados del ANOVA.
Aunque es relativamente raro que una tabla fuente de un ANOVA de un solo factor se muestre en un
artículo de revista, las tablas fuente que acompañan a los diseños factoriales son más comunes. La tabla
20.3 muestra una tabla fuente hipotética para el ANOVA de un solo factor de la
Herpertz et al. (2001) datos.
El ANOVA de un solo factor comienza dividiendo las sumas de cuadrados (SS) en un componente entre
grupos y un componente de error. Los grados de libertad (gl) de la variable independiente, llamados grupos,
son el número de niveles de la variable independiente menos
uno. El gl del término de error se calcula restando el gl de la variable independiente del gl total. El gl total
(no se muestra en la tabla fuente) es el número de participantes menos 1. Cada uno de los SS se divide
por su gl correspondiente para obtener los cuadrados medios.
(EM). Por tanto, habrá dos MS en el ANOVA de un solo factor. El valor F , visto en los últimos
columna de la Tabla 20.3, se obtiene dividiendo el MS para grupos por el MS para error. Como
Como muestra la tabla 20.3, hay un valor F en la tabla fuente.
Herpertz et al. (2001) realizaron un ANOVA de un solo factor en sus datos de CI y reportaron los resultados en
una tabla. Informaron una F de 17,44, que fue estadísticamente significativa en p < 0,0001. Si hubieran informado
este resultado en el texto, diría lo siguiente: Se encontró una diferencia estadísticamente significativa entre los tres
grupos: F(2,65) = 17,44; p <0,0001. Observe que hay dos grados de libertad diferentes en el ANOVA de un solo
factor. Un total de 65 grados de libertad están asociados con la varianza del error, similar a la prueba t , y se calcula
restando el número de grupos (3) del número total de participantes (68). Dos grados de libertad están asociados
con la varianza entre grupos y se calculan como el número de grupos menos 1.
¿ Qué significa un valor F de 17,44? Herpertz et al. (2001) encontraron, a partir de una tabla estadística o de su
computadora, que la probabilidad (p) era menor que .0001. En otras palabras, la probabilidad de que pudieran
ocurrir los tres valores medios diferentes, suponiendo una hipótesis nula verdadera, era inferior a 1 entre 10.000, o
sea, muy improbable. Por lo tanto, rechazaron la hipótesis nula de que no hay diferencias entre las tres medias
poblacionales del CI. Un valor F general estadísticamente significativo de un ANOVA revela sólo que las medias
poblacionales no son iguales. Para determinar qué grupos o condiciones son significativamente diferentes entre sí
después de una F estadísticamente significativa , se debe realizar una prueba post hoc.
Existen numerosas alternativas de pruebas post hoc entre las que elegir. La prueba de diferencia honestamente
significativa (HSD) de Tukey se considera una prueba intermedia entre liberal (por ejemplo, la prueba de diferencia
menos significativa [LSD] de Fisher ) y conservadora (por ejemplo, la prueba de Scheffé para todas las
comparaciones). La mayoría de los estadísticos creen que las pruebas liberales, como el LSD o las pruebas tres t ,
permiten una probabilidad demasiado alta de cometer un error de tipo I.
Herpertz et al. (2001) realizaron una prueba post hoc utilizando el procedimiento Tukey HSD. Los resultados de
esta prueba revelaron que el coeficiente intelectual del grupo sin TDAH (comparación) fue estadísticamente
significativamente mayor que el grupo con TDAH o TDAH + CD. El grupo con TDAH y el grupo con TDAH + CD no
difirieron estadísticamente de manera significativa entre sí en la variable dependiente del coeficiente intelectual.
SPSS y otros paquetes informáticos estadísticos proporcionan un índice del tamaño del efecto, eta2, que
corresponde a la F general (Tabla 20.3). Para nuestro ejemplo, eta2 es 0,35. Debido a que eta2 es similar al
coeficiente de correlación al cuadrado, esto implicaría que aproximadamente el 35% de la varianza en el estudio
es explicada por la variable independiente. Sin embargo, normalmente estamos más interesados en el tamaño del
efecto para pares de condiciones o grupos, por lo que se informarían d tamaños del efecto para los pares de
medias que resultaron estadísticamente significativos utilizando la prueba post hoc de Tukey. Las comparaciones
entre TDAH versus no TDAH y TDAH + CD versus no TDAH tendrían valores d superiores a 1,0 y, por lo tanto,
serían diferencias muy grandes y probablemente clínicamente importantes. Es importante señalar que existe cierto
desacuerdo sobre cómo se deben calcular los valores d en diseños unifactoriales con más de dos grupos o niveles
y en diseños factoriales (Kline, 2004). La cuestión se refiere a la medida de la variabilidad. ¿Se debe usar la
desviación estándar agrupada de los dos grupos en la comparación ( g de Hedges), o se debe usar la raíz cuadrada
del término de error, el cuadrado medio dentro de los sujetos (Tabla 20.3), que es más conservadora? Estamos a
favor del primer método.
Análisis de un solo factor (entre grupos)

Diseños con estadísticas no paramétricas Los análisis no
paramétricos a menudo se denominan análisis sin distribución. Las pruebas no paramétricas están “libres” de los
supuestos de varianza igual y distribución normal. En realidad, cada
El análisis no paramétrico tiene su propia distribución muestral. Las pruebas no paramétricas deben
usarse cuando los supuestos de la estadística paramétrica equivalente se violan marcadamente, pero
normalmente las pruebas no paramétricas ordinales no son tan poderosas.
Existen muchas pruebas no paramétricas diferentes (ver Siegel y Castellan, 1988). Las dos pruebas no
paramétricas que se analizan a continuación comienzan convirtiendo los datos de todos los grupos
combinados en rangos, ordenándolos desde la puntuación más pequeña hasta la más grande,
independientemente del grupo o condición en particular. Una vez clasificados los datos, las clasificaciones
se utilizan en una fórmula. Por lo general, esto implica sumar las clasificaciones de cada grupo. Como
podría esperarse, si las sumas de las clasificaciones son bastante diferentes entre grupos, entonces es
probable que sean estadísticamente significativamente diferentes. Un programa de computadora indicará
la probabilidad, p, o el investigador puede buscar el resultado de la fórmula en una tabla y sacar una
conclusión usando la misma lógica que la prueba t .
Prueba U de MannWhitney para muestras independientes
La prueba U de MannWhitney se realiza cuando el diseño es entre grupos con una variable independiente
y dos niveles. Se utiliza cuando ha habido una violación de los supuestos subyacentes a la prueba t . El
análisis arroja un valor para el estadístico U y un valor p asociado a él. Si el valor p es menor que el nivel
de significancia de 0,05, se rechaza la hipótesis nula. Debido a que sólo hay dos grupos o niveles en una
comparación, no hay necesidad de realizar una prueba post hoc después de un valor U estadísticamente
significativo .
ANOVA unidireccional por rangos de KruskalWallis
Esta prueba es el análogo no paramétrico del ANOVA de un solo factor entre grupos. Se utiliza cuando
hay una variable independiente con más de dos niveles, los participantes están en un solo grupo y ha
habido una violación de los supuestos de la estadística paramétrica. Los pasos preliminares del ANOVA
de KruskalWallis son similares a los de la prueba U de MannWhitney . Los datos se clasifican de menor
a mayor sin distinción de grupo.
Luego, los rangos de cada grupo se suman y se aplican a la fórmula de KruskalWallis.
La lógica subyacente al ANOVA de KruskalWallis es que si tuviera tres distribuciones idénticas de
puntuaciones y seleccionara tres grupos al azar, uno de cada distribución, esperaría que sus rangos se
distribuyeran equitativamente bajo la hipótesis nula. Sin embargo, si los rangos fueran bastante diferentes
para al menos uno de los grupos, entonces se rechazaría la hipótesis nula. De manera similar a un
ANOVA de un solo factor, una prueba de KruskalWallis estadísticamente significativa debe ir seguida de
una prueba post hoc. Un método post hoc común para el ANOVA de KruskalWallis es realizar pruebas U
de MannWhitney para cada par de grupos, pero esa es una comparación post hoc liberal, similar a hacer
tres pruebas t después de un ANOVA, por lo que sería prudente Utilice la corrección de Bonferroni.
Análisis de diseños de medidas repetidas de un solo factor con

estadísticas paramétricas Los análisis analizados
en esta sección se utilizan en un diseño con una variable independiente, con dos o más niveles o
condiciones, y los participantes se miden en todas las condiciones. Estos diseños se denominan
intrasujetos, muestras dependientes o medidas repetidas.
diseños, y aquí utilizamos estos términos indistintamente. Esto significa que los participantes se someten
todas las condiciones del estudio o los participantes se emparejan en algunas variables que se supone que son
relacionado con la variable dependiente.
Los tipos de enfoques de investigación utilizados con diseños de medidas repetidas de un solo factor
A menudo son experimentales o cuasiexperimentales aleatorios. El enfoque comparativo puede
utilizarse en un diseño y análisis intrasujetos para comparar participantes que varían en un
atribuir variable independiente si están emparejados (p. ej., pares de estudiantes con y sin TDAH emparejados en
coeficiente intelectual y género). El enfoque comparativo también se utiliza cuando una
Se realiza un seguimiento longitudinal de una cohorte de participantes para estudiar el cambio en el desarrollo (es decir,
son evaluados en las mismas medidas dos o más veces sin ninguna intervención planificada
entre evaluaciones).
Ahora analizamos la prueba t para muestras dependientes y las medidas repetidas de un solo factor.
ANOVA, que se utilizan con diseños de medidas repetidas/intrasujetos de un solo factor.
La prueba t para muestras dependientes o pareadas
Para facilitar nuestra discusión sobre diseños intrasujetos, proporcionamos un ejemplo de un cuasiexperimento de
Goddard (2003). El autor impartió un curso llamado “Escritura en Psicología”.
para mejorar las habilidades de escritura de los estudiantes. Un inventario de actitudes y pruebas sobre los americanos.
Se utilizaron el estilo y la gramática de la Asociación Psicológica (APA) para evaluar el impacto de
el curso. Para nuestro ejemplo aquí, nos centramos en los resultados de la prueba de gramática que fue
entregado a cada estudiante antes del curso y al final del mismo. Éste es un ejemplo de un
Diseño de medidas repetidas (intrasujetos) de un solo factor con dos niveles. El independiente
La variable fue el impacto del curso. Los dos niveles fueron el pretest y el postest. Desde
Todos los estudiantes fueron examinados dos veces, el diseño es de medidas repetidas o dentro de las materias.
diseño. Se supuso que la variable dependiente, la puntuación en la prueba de gramática, tenía una distribución normal.
La puntuación máxima que un estudiante podía alcanzar en esta prueba era 33.
Se utilizó una prueba t pareada o dependiente para analizar los datos. La selección de esta estadística
La prueba se desprende del Capítulo 19. Los datos de la prueba de gramática se pueden ver en la Tabla 20.4.
Goddard (2003) informó los resultados de la siguiente manera: “Una prueba t de muestras pareadas de dos colas
indicó que la diferencia era significativa, t(26) = –4,60, p < 0,001” (p. 28). Note que los grados
de libertad (entre paréntesis) fue sólo uno menor que el tamaño de la muestra. En una prueba t para muestras
dependientes , sólo se pierde un grado de libertad de la muestra total. El valor t negativo
resultó porque el postest fue restado del pretest. No se calculó el tamaño del efecto
para esta medida. Además, cabe señalar que, si bien se puede calcular el tamaño del efecto para
una prueba t de muestras dependientes , se debe obtener un coeficiente de correlación entre las dos
medidas (en este caso entre las medidas previas y posteriores) como parte del análisis. Esto es
diferente de calcular el tamaño del efecto a partir de una prueba t de muestras independientes , que podría
hacerse a partir del valor t resultante .
Tabla 20.4
Datos de rendimiento del curso (prueba de gramática)
Precursor Postcurso (n
(n = 27) = 27)
Significar 22,93 26.19

Desviación Estándar 5.25 4.06
Fuente: Los datos provienen de Goddard, P.,Teaching of Psychology,

30, 2003, 25–29.
Tabla 20.5
Interés en Áreas de Especialidad de la Psicología Profesional

Consejería Escuela Clínica Perfiles Forenses
Significar 2.67 2.43 1,73 2.52 2.49

Desviación Estándar 1.14 1.04 1.08 1.14 1.27
Fuente: Los datos provienen de StarkWroblewski, K., Wiggins, T. y Ryan, J., Journal of Instruccional
Psychology, 33, 2006, 273–277.
ANOVA de un solo factor con medidas repetidas
El ANOVA unifactorial con medidas repetidas se realiza en diseños con una variable independiente, dos o
más niveles y los participantes se someten a todas las condiciones o niveles.
de El estudio. La variable dependiente se distribuye normalmente y las varianzas son similares para
cada condición. Consideremos un ejemplo de StarkWroblewski, Wiggins y Ryan (2006), quienes
evaluó el interés y la familiaridad de los estudiantes de pregrado con cinco áreas de especialidad en psicología
profesional. Un total de 83 estudiantes de pregrado de la carrera de psicología calificaron
su interés y familiaridad con los subcampos de la psicología. La variable independiente,
subcampos de la psicología profesional, tenían cinco niveles: (1) asesoramiento psicológico; (2) clínico
psicología; (3) psicología escolar; (4) psicología forense; y (5) elaboración de perfiles criminales. A
Para evaluar el interés de los estudiantes, la variable dependiente fue una escala tipo Likert de cinco puntos, que variaba
de 0 a 4, de la siguiente manera: 0 = ningún interés, 1 = poco interés, 2 = interés moderado, 3 = mucho
interesado, y 4 = suficientemente interesado para seguir una carrera en esta área de especialidad. Estudiantes
calificó cada subcampo utilizando la escala Likert. El diseño de este estudio fue de un solo factor.
Diseño de medidas repetidas con cinco niveles. Se consideró que la medida dependiente era
normalmente distribuido y aproximado a una escala de intervalo.
Los datos de este estudio se pueden ver en la Tabla 20.5. Medidas repetidas de un solo factor
Se realizó ANOVA sobre los datos. Se obtuvo un resultado estadísticamente significativo: F(4, 79) =
17,24, p < 0,001. Una F estadísticamente significativa indica que hubo al menos una
diferencia significativa para el interés en áreas de especialidad. Los autores utilizaron una técnica de
Bonferroni para realizar todas las comparaciones por pares entre áreas de especialidad. La técnica Bonferroni
es similar a realizar pruebas t entre cada par de disciplinas. Para controlar para hacer un
Error de tipo 1 para tantas comparaciones, el investigador normalmente divide el alfa (o nivel de significancia)
por el número de comparaciones (10 en este ejemplo). Si el nivel alfa fuera
establecido en 0,05 antes del estudio, entonces cada comparación se probaría en 0,005. El
Los resultados demostraron que hubo un interés estadísticamente significativamente mayor en todos los
disciplinas en comparación con la psicología escolar, pero no hay diferencias en el interés entre estas otras
disciplinas. Comparaciones post hoc similares a las del factor único entre grupos
Se podría realizar ANOVA siguiendo medidas repetidas estadísticamente significativas.
ANOVA, pero el término de error sería diferente (Keppel, 1991).
Los supuestos de independencia, homogeneidad de la varianza y normalidad discutidos en
El capítulo anterior también debe considerarse para la prueba t para muestras pareadas y la
ANOVA de medidas repetidas de un solo factor. Sin embargo, además de estos supuestos, una
También se debe considerar un supuesto adicional, la esfericidad, para el ANOVA de medidas repetidas de
un solo factor si se aplica a más de dos grupos. Conceptualmente, el supuesto de esfericidad se satisface
cuando las correlaciones entre las puntuaciones de los diferentes niveles son
igual. En StarkWroblewski et al. (2006), porque había cinco niveles en el
diseño de medidas repetidas de un solo factor, la correlación entre, por ejemplo, el asesoramiento
y la psicología clínica debe ser similar a la correlación entre el asesoramiento y la escuela.
psicología, que debe ser similar a la correlación entre la psicología clínica y

psicología escolar, etc. Si se viola el supuesto, se infla el error de tipo I.
Sin embargo, la mayoría de los programas estadísticos informáticos tienen una corrección por la violación de la
Suposición de esfericidad.
Un tamaño del efecto general para el análisis de varianza de medidas repetidas en el estudio de StarkWroblewski
et al. (2006) se informó: eta2 = 0,47. Este es un tamaño de efecto grande que indica
la fuerza de la relación entre interés y especialidad.
Análisis de diseños intrasujetos de un solo factor

con estadísticas no paramétricas
Las estadísticas no paramétricas se utilizan con diseños intrasujetos/medidas repetidas cuando
Uno de los supuestos que subyacen al uso de estadísticas paramétricas ha sido marcadamente violado. Analizaremos
brevemente tres estadísticas no paramétricas.
Prueba de pares emparejados de rangos firmados de Wilcoxon
La prueba de pares emparejados de Wilcoxon se utiliza en un diseño en el que hay un par independiente
variable, con dos niveles, y los participantes se someten a ambas condiciones o se han emparejado pares de
participantes en una variable relevante. Los datos de la variable dependiente son ordinales (y no están distribuidos
normalmente), o ha habido violaciones de los supuestos de la prueba t para muestras pareadas. Por ejemplo, se podría
haber utilizado la prueba de Wilcoxon en lugar de
la t de muestras pareadas en el estudio de Goddard (2003) para comparar el pretest y el postest si
Se habían violado supuestos.
ANOVA bidireccional de Friedman por rangos
La prueba de Friedman se utiliza en un diseño de medidas repetidas cuando hay una variable independiente.
variable, hay tres o más niveles y la variable dependiente es ordinal (y no está distribuida normalmente) o se han
producido violaciones de los supuestos de ANOVA. StarkWroblewski y
Alabama. (2006), quienes evaluaron el interés y la familiaridad de los estudiantes de pregrado con cinco especialidades.
áreas de la psicología profesional, podrían haber utilizado la prueba de Friedman. Porque el Friedman
La prueba se lleva a cabo en datos con más de dos niveles o condiciones, una estadísticamente significativa.
El resultado debe ir seguido de alguna comparación post hoc para determinar diferencias específicas. El
La prueba de Wilcoxon se puede utilizar como prueba post hoc en esta situación si la prueba de Friedman es
estadísticamente significativa. Sin embargo, tenga en cuenta que utilizar la prueba de Wilcoxon después de la prueba
de Friedman es análogo a utilizar la prueba de diferencia menos significativa después de un ANOVA; es algo "liberal".
La prueba de McNemar
La prueba de McNemar se utiliza en diseños similares a los de la t pareada o la prueba de Wilcoxon, pero
la variable dependiente es nominal o dicotómica. La prueba de McNemar es similar a la
prueba de chicuadrado, que analizamos en el capítulo 21, en el sentido de que las frecuencias son la unidad de
medida y se pueden visualizar en una tabla de tabulación cruzada. Sin embargo, debido a que cada
participante se somete a ambas condiciones del estudio, existen diferencias importantes
la prueba de chicuadrado para la independencia. Si el estudio de Goddard (2003) hubiera comparado a

los participantes en la prueba previa y posterior en la medida dicotómica de si mejoraron, probablemente
se habría utilizado la prueba de McNemar.
Ventajas y desventajas de los diseños intrasujetos Ventajas de los diseños
intrasujetos Una ventaja obvia de utilizar un
diseño intrasujetos/medidas repetidas es que se necesitan menos participantes en el estudio. Si el estudio

de Goddard (2003) hubiera utilizado un diseño entre grupos, se necesitaría un grupo separado de
estudiantes, posiblemente duplicando el número de participantes en el estudio. El diseño de medidas
repetidas ahorra tiempo en el reclutamiento de participantes. A veces, si los participantes tienen
características que no son comunes, un diseño de medidas repetidas es más eficiente. Una razón más
importante para seleccionar un diseño de medidas repetidas es que se debe reducir la variabilidad entre
los participantes. El análisis estadístico de diseños de medidas repetidas de un solo factor suele ser una
prueba t pareada o ANOVA de medidas repetidas (anteriormente analizado), que conceptualmente puede
considerarse como una relación entre la variabilidad entre grupos y la variabilidad dentro de los grupos.
Cuando realizamos un diseño de medidas repetidas, cada participante cumple con todas las condiciones.
Por lo tanto, se espera que cualquier cambio de una condición a otra se deba a la naturaleza de una
condición particular (tratamiento) y no a la variabilidad entre los participantes (error), porque el mismo
participante está experimentando cada una de las condiciones. Esta reducción en la varianza del error
aumentaría el tamaño de la relación t o F y daría como resultado una mayor probabilidad de encontrar una
diferencia estadísticamente significativa si realmente hay una allí.
Desventajas de los diseños intrasujetos Aunque los
diseños intrasujetos/medidas repetidas son ventajosos para reducir la varianza del error, existen dos
desventajas distintas al utilizar diseños de medidas repetidas. En primer lugar, los diseños de medidas
repetidas (con excepción del emparejamiento) no pueden utilizarse en situaciones en las que podría
producirse un efecto duradero de un tratamiento. El problema suele denominarse efectos de arrastre. Por
ejemplo, los estudios de intervenciones educativas o psicológicas no utilizarían diseños de medidas
repetidas porque una vez que los participantes experimentaron las condiciones del tratamiento, no se
podía esperar que "desaprendieran" el tratamiento. Debido a los efectos de arrastre, los diseños de
medidas repetidas no se ven con tanta frecuencia como los diseños entre grupos en la literatura clínica.
Un método para evitar los efectos de arrastre y al mismo tiempo obtener la ventaja de reducir la
varianza del error es utilizar un procedimiento de comparación . Los participantes se agrupan en parejas
(díadas) o trillizos (tríadas) en función de alguna característica que debería estar relacionada con la
variable dependiente, por ejemplo, la inteligencia. Una vez emparejados los participantes, uno de cada
par se asigna (de manera óptima al azar) al grupo A y el otro al grupo B. Luego se lleva a cabo el estudio.
Conceptualmente, la idea de emparejar es hacer que cada miembro de la pareja o tríada sea como si
fuera el mismo participante que se somete a todas las condiciones. Por lo tanto, los diseños que utilizan
el emparejamiento se consideran diseños intrasujetos y utilizan procedimientos estadísticos similares.
Una segunda desventaja de los diseños de medidas repetidas es que se reducen los grados de libertad
en el estudio. Si uno hiciera un estudio de medidas repetidas con dos condiciones, sería
Se necesitaría la mitad de participantes para recopilar la misma cantidad de datos porque cada persona
sería medida dos veces. Por ejemplo, considere un estudio entre grupos que compara una condición de
intervención con una condición de control, con 20 participantes en cada condición. Entonces, hay 40
participantes, o 38 grados de libertad (gl = [n1 – 1] + [n2 – 1]) para una prueba t de muestras
independientes ). Por otro lado, supongamos que se utilizó un diseño de medidas repetidas. Habría 20
participantes en cada condición, pero como cada participante se somete a ambas condiciones, solo
habría 20 participantes. Los grados de libertad serían n – 1 o sólo 19; por lo tanto, el poder estadístico
se reduce. La decisión de qué tipo de diseño utilizar implica un equilibrio entre un mayor tamaño de la
muestra (es decir, un mayor gl) con un diseño entre grupos y una varianza del error reducida con un
diseño intrasujetos.
Resumen En
este capítulo analizamos la aplicación de métodos estadísticos apropiados utilizados para responder
preguntas básicas sobre diferencias. En la primera parte del capítulo abordamos análisis estadísticos
apropiados para diseños entre grupos. La segunda parte del capítulo abordó análisis estadísticos para
diseños intrasujetos o de medidas repetidas. Ambas secciones se dividen a su vez en la selección de
estadísticas paramétricas y no paramétricas apropiadas según la escala de la variable dependiente y si
se han cumplido ciertos supuestos. El énfasis de este capítulo estuvo en la estadística paramétrica,
incluida la prueba t y el análisis de varianza. La prueba t se usa más comúnmente cuando hay una
variable independiente con dos niveles porque le da al investigador la opción de probar una hipótesis
direccional. Cuando la variable independiente tiene más de dos niveles, el ANOVA es el procedimiento
de elección.
También analizamos las pruebas no paramétricas para responder preguntas básicas sobre
diferencias. Para diseños entre grupos, estas pruebas incluyeron la prueba U de MannWhitney y el
análisis de varianza por rangos de KruskalWallis. Para diseños intrasujetos incluimos la prueba de
Wilcoxon y la prueba de Friedman. Todas estas pruebas no paramétricas se utilizan con datos ordinales
que no están distribuidos normalmente o con datos de intervalo convertidos en rangos debido a la
violación de los supuestos subyacentes a las pruebas paramétricas. También mencionamos la prueba
de McNemar, que se utiliza en diseños intrasujetos con datos nominales. Las pruebas no paramétricas
se utilizan con menos frecuencia que los análisis paramétricos y, por lo general, son menos potentes.
Cabe señalar que las sugerencias que brindamos son pautas y, especialmente con respecto a los
análisis no paramétricos, podría haber otras opciones apropiadas. Al seleccionar un análisis estadístico
particular, es deseable exponer una justificación adecuada. Como última advertencia, un resultado
estadísticamente significativo no es necesariamente un resultado clínicamente significativo.
La significación estadística simplemente nos dice que es probable que exista alguna diferencia; no nos
dice sobre el tamaño de la diferencia (efecto) o si tiene importancia clínica o práctica.
Conceptos clave
Análisis de varianza (ANOVA)

Grados de libertad
Efectos de arrastre
prueba de Friedman
Análisis de varianza por rangos de KruskalWallis
Prueba U de MannWhitney
Pareo
prueba de McNemar
Pruebas post hoc

tabla fuente
Prueba t de suposición de
esfericidad
Prueba de pares emparejados de Wilcoxon
Distinciones clave
Diseños entre grupos versus diseños dentro de los sujetos
Diseños coincidentes versus diseños intrasujetos
Estadísticas paramétricas versus no paramétricas
ANOVA de un solo factor versus ANOVA de KruskalWallis
ANOVA de medidas repetidas de un solo factor versus prueba t de Friedman para
muestras independientes versus prueba U de MannWhitney Prueba t para
muestras independientes versus prueba t para muestras pareadas Prueba t para
muestras pareadas versus prueba t ANOVA de medidas repetidas de un solo factor para muestras
pareadas versus prueba de pares emparejados de Wilcoxon versus prueba de McNemar
Problemas de aplicación Para las
preguntas 1 a 3, seleccione el análisis estadístico adecuado basándose en (a) si el diseño es entre grupos, dentro de los
sujetos o mixto; (b) número de niveles de las variables independientes; (c) la escala/nivel de medición de las variables
dependientes; y (d) si se violan los supuestos subyacentes a las pruebas paramétricas.
1. Un profesor que enseñaba estadística tenía curiosidad por conocer diferentes métodos para calcular la
desviación estándar. Específicamente, se preguntó qué camino era más rápido: el método de desviación o el
método de puntuación bruta . Dio la casualidad de que tenía una clase de 31 estudiantes de posgrado. Asignó
al azar a 16 estudiantes al método de desviación y a 15 estudiantes al método de puntuación bruta y les pidió
que llevaran la cuenta de cuánto tiempo les llevó (al minuto más cercano) determinar la desviación estándar del
problema.
2. En una clínica de las Montañas Rocosas, un terapeuta de mano estaba interesado en determinar la
recuperación funcional de la cirugía de reemplazo articular a diferencia de otras dos
tratamientos más conservadores, esteroides y entablillados, en personas con reumatoide
artritis. Se seleccionaron aleatoriamente un total de 30 participantes de una población de
pacientes de terapia de manos. Los participantes fueron asignados aleatoriamente a uno de tres
grupos (10 participantes en cada uno). Los grupos fueron la condición de cirugía, la condición de
medicamento y la condición de férula. Después de 6 meses, se midieron los tres grupos.
en una subprueba del Índice de recuperación ocupacional de manos de Gliner, una escala de intervalo.
3. Un investigador está interesado en comparar el empleo exitoso debido a diferentes sistemas de prestación
de servicios para personas con lesión cerebral traumática. Un sistema
(n = 10) se denominó sistema de entrega cognitiva (C). Un segundo sistema (n
= 10) fue el sistema de entrega emocional (E). Un tercer sistema (n = 10) fue el caso
sistema de gestión de entrega (CM). El investigador clasificó a los 30 sujetos de
1 a 30 sobre el éxito que tuvieron en su primer trabajo después de la recuperación.
4. Un terapeuta quería saber si su férula especial aumentaría el rango de movimiento.
(ROM) en la muñeca después de una lesión traumática. Hizo que ocho pacientes usaran el traje especial.
férula y ocho pacientes usan la férula estándar. Predijo que su especial
la férula aumentaría el ROM (en grados) al final del período de recuperación. Realizó una prueba t para
muestras independientes de los datos y encontró un valor t de 1,82.
Fue a una tabla t y encontró que este valor era mayor que el valor crítico.
para una t con 14 grados de libertad (una cola). Concluyó que su férula especial
fue estadísticamente significativamente mejor que la férula estándar. ¿Qué quiso decir con
¿significancia estadística?
5. Tienes tres grupos independientes, con 10 participantes en cada grupo (n = 30).
Estos grupos están etiquetados como A1, A2 y A3. Las medias de los tres grupos son 10, 14,
y 20, respectivamente. ¿Te preguntas si existe una diferencia significativa para alguno de los
posibles comparaciones.
a. ¿Cuántas comparaciones hay?
b. Si utilizas una prueba t para probar cada comparación, ¿en qué peligro te encuentras?
C. Decide realizar un análisis de varianza de los datos. Los resultados son como
sigue. Complete el resto de la tabla:
Fuente de variación SS df EM F
Entre grupos 320 k–1
Dentro de las materias 1080 norte – k
d. Encuentra que la F es estadísticamente significativa. ¿Cómo se determina cuál de

¿Los grupos son diferentes entre sí?
6. El diseño es un diseño de un solo factor (entre grupos) con dos niveles. Los datos
se distribuyen normalmente. Hay dos análisis que se pueden realizar.
a. ¿Cuáles son los dos tipos diferentes de análisis que se pueden utilizar en esta situación?
b. ¿Cuándo se debe utilizar cada análisis y por qué?
Para los siguientes ocho pasajes (preguntas 7 a 14), seleccione el análisis estadístico adecuado basado
sobre (a) si el diseño es entre grupos o dentro de sujetos; (b) número de niveles de
las variables independientes; (c) escala de medición de las variables dependientes; y (d) si se violan los
supuestos subyacentes a las pruebas paramétricas.
7. Una clase de seminario de posgrado tiene 10 estudiantes. Los estudiantes están expuestos a
cuatro instructores diferentes, cada uno de los cuales representa un estilo de enseñanza diferente.
Al final del semestre, se pide a cada estudiante que clasifique a los cuatro instructores del 1 al 4
en el desafío de clase. ¿Existen diferencias significativas entre los estilos de enseñanza?
8. Un investigador planteó la hipótesis de que la aplicación de férulas durante un período de 3
meses aumentaría significativamente el rango de movimiento en pacientes tetrapléjicos. Se
seleccionó una muestra aleatoria de 16 pacientes con esta discapacidad. Luego, los pacientes
fueron emparejados en rango de movimiento inicial para formar ocho parejas. Luego, un
participante de cada par fue asignado aleatoriamente al grupo de intervención (n = 8) y el otro al
grupo de control (n = 8). El grupo de intervención estuvo entablillado durante 3 meses, mientras
que el grupo de control no estuvo entablillado. Después de 3 meses, se midió el rango de
movimiento (que estaba distribuido normalmente) para cada grupo y se compararon.
9. Un educador está interesado en los grupos de aprendizaje cooperativo. Se pregunta si la
participación activa aumenta si los grupos son facilitados por alguien en esta área. Un estudio se
lleva a cabo durante dos períodos de clase diferentes. En un período de clase, los participantes
participan en grupos cooperativos sin un facilitador. Durante un segundo período de clase,
presenta a un facilitador a los grupos. Un miembro de cada grupo, desconocido para los demás
miembros, realiza un seguimiento de la participación activa. Después de cada clase, los
participantes se dividen entre si participaron activamente o no.
10. Se lleva a cabo un estudio para determinar si un plan de estudios empresarial práctico para
estudiantes de secundaria aumentará las habilidades empresariales. Un total de 20 estudiantes
fueron agrupados en 10 parejas según el género y los grados anteriores de la escuela secundaria.
A un miembro de cada pareja se le asignó la condición de intervención, el plan de estudios
empresarial práctico. El otro miembro de la pareja fue asignado a la clase de negocios tradicional,
donde la mayoría de las actividades involucraban a los estudiantes leyendo simulaciones y
debates en clase. Al final del semestre, a cada estudiante se le asignó una puntuación de habilidad
empresarial, en una escala de 1 a 5 (5 = siempre, 4 = la mayor parte del tiempo, 3 = a veces, 2 =
rara vez y 1 = nunca).
11. Un investigador estaba interesado en determinar cómo lograr que las personas con artritis utilicen
técnicas de protección de las articulaciones. Observó a 20 personas con artritis en su casa durante
una mañana y descubrió que 6 de 20 utilizaban técnicas de protección de las articulaciones.
Luego hizo una demostración sobre protección conjunta a cada participante. Un mes después,
volvió a observar a cada uno de los participantes durante una mañana. Descubrió que 16 de 20
personas utilizaban técnicas de protección conjunta.
12. Una clase de seminario de posgrado tiene 10 estudiantes. Los estudiantes están expuestos a
cuatro instructores diferentes, cada uno de los cuales representa un estilo de enseñanza diferente.
Al final del semestre, se pide a cada estudiante que juzgue cada estilo de enseñanza como
desafiante o no desafiante. ¿Existen diferencias significativas entre los estilos de enseñanza?
13. Un estudio emparejó a los participantes en pares y luego realizó una prueba t para muestras
pareadas. ¿Cuáles son las ventajas y desventajas de emparejar en esta situación?
(Pista: considere los grados de libertad).
14. Los investigadores realizaron un ANOVA de medidas repetidas para comparar tres grupos
emparejados. También realizaron una prueba post hoc en el estudio. Explicar por qué.
21
Análisis e interpretación de conceptos básicos.
Preguntas de investigación asociativa
En este capítulo discutimos la selección y aplicación de métodos estadísticos apropiados.

para responder preguntas básicas de investigación asociativa. Cuando nos referimos a preguntas de investigación
básica, estamos analizando análisis que tienen sólo una variable independiente y una variable dependiente.
Examinamos en detalle dos pruebas estadísticas de uso muy común: el coeficiente de correlación momentoproducto
de Pearson, r, y la prueba de independencia de chicuadrado (χ²) . Para el
En su mayor parte, el enfoque de investigación asociativa básica examina la relación entre dos
variables continuas (o al menos aquellas que tienen muchos niveles ordenados) que conducen a un coeficiente de
correlación. El coeficiente de correlación más común utilizado para describir las relaciones entre dos variables
continuas es la correlación productomomento de Pearson.
que está representado por r. Cuando una o ambas variables no se distribuyen normalmente o
existen violaciones que excluyen el uso de estadísticas paramétricas, la correlación de Spearman o
Se suele utilizar la tau de Kendall (τ) .1 Sin embargo, cuando examinamos la relación entre
dos variables que son dicotómicas o de nivel nominal, con algunas categorías no ordenadas,
Se utiliza la prueba de independencia de chicuadrado (χ²) de Pearson.
En este capítulo también analizamos problemas comunes asociados con la generación de informes y
interpretación de los coeficientes de correlación y la necesidad de presentar tamaños del efecto e intervalos de
confianza. Además, dedicamos algún tiempo a discutir el caso especial del chicuadrado.
prueba con un grado de libertad debido a su uso destacado en la investigación médica. Nota
que en el Capítulo 19 incluimos chicuadrado en la Figura 19.3 como una estadística inferencial de diferencia que
podría usarse para comparar dos o un pequeño número de grupos de participantes.
Tanto la estadística de diferencias como la estadística asociativa examinan la relación entre variables de modo que
chicuadrado podría haberse analizado en el capítulo actual o en el capítulo 20 junto con
estadísticas no paramétricas como la prueba de MannWhitney. Cuando discutimos la relación entre dos variables
en el enfoque de investigación asociativa, técnicamente, ninguna de las dos
La variable se designa como independiente o dependiente porque una correlación es bidireccional.
Sin embargo, los investigadores suelen tener alguna dirección en mente, por lo que seguimos utilizando los términos
variable independiente y dependiente aquí.
Análisis de variables continuas con estadísticas paramétricas

Correlación productomomento de Pearson
La correlación productomomento de Pearson proporciona un índice de la fuerza de la correlación lineal.

relación entre dos variables continuas. La correlación de Pearson supone que la
La distribución de la variable dependiente es normal, con igual varianza para cada valor de la
variable independiente, y supone que la variable independiente también se distribuye normalmente. La correlación
de Pearson se informa ampliamente en la literatura para evaluar la medición
305
confiabilidad donde se podría probar la relación entre dos administraciones del mismo instrumento
(confiabilidad testretest) o la relación entre dos observadores diferentes (confiabilidad entre evaluadores) y,
para la validez de la medición, probar la relación entre un instrumento y algún criterio externo (véanse los
Capítulos 11 y 12). La correlación de Pearson se expresa como un coeficiente, r, que indica la fuerza de la
asociación o relación entre dos variables. Este coeficiente tiene un rango de –1 a +1. Una relación positiva
significa que a medida que aumentan las puntuaciones de una variable, también aumentan las puntuaciones
de la otra variable. Si r es 0,5 o mayor, generalmente se considera una relación positiva fuerte, y los valores
de r inferiores a –0,5 se consideran relaciones negativas o inversas fuertes entre las dos variables. Una
relación inversa significa que una puntuación alta en una variable se asocia con una puntuación baja para la
misma persona en la otra variable y viceversa. Cuando el valor de r es cercano a cero, indica que no existe
relación entre las dos variables; en este caso, puntuaciones altas en la variable independiente se asocian con
puntuaciones altas, medias o bajas en la variable dependiente. Una correlación cero o baja significa que la
variable dependiente no se puede predecir conociendo las puntuaciones de la variable independiente.
Un estudio de Zamboanga, PadillaWalker, Hardy, Thompson y Wang (2007) demuestra el uso de

coeficientes de correlación. Estos autores estaban interesados en predecir el desempeño de los estudiantes
en clase en conferencias y preguntas basadas en textos a partir de los antecedentes de los estudiantes y su
participación en el curso. Para predecir estos resultados, los autores utilizaron análisis de regresión lineal
jerárquica (Capítulo 22). Sin embargo, los autores proporcionan, en una tabla, estadísticas descriptivas y
correlaciones entre las variables que se utilizarán en el análisis de regresión.
Aunque los autores incluyeron 10 predictores diferentes en su estudio, para nuestros propósitos aquí,
analizamos cuatro de sus medidas: (1) puntuaciones ACT; (2) promedio de calificaciones anterior (GPA); (3)
asistencia a conferencias; y (4) desempeño en los exámenes basado en puntajes promedio en cuatro
exámenes.
Hubo 114 estudiantes en el estudio. Se obtuvieron coeficientes de correlación de Pearson para todas las
relaciones entre las cuatro medidas. Zamboanga et al. (2007) colocaron los resultados de sus correlaciones
en una tabla. Sin embargo, si hubieran informado de un único resultado de correlación en el texto, como la
correlación entre la asistencia a clases y el rendimiento en exámenes, se escribiría de la siguiente manera:
Se encontró una relación estadísticamente significativa entre la asistencia a clases y el rendimiento en
exámenes: r = 0,39, gl = 112, p < 0,01. Los grados de libertad de un coeficiente de correlación de Pearson
son el número de participantes en el análisis menos 2.
Nuevamente, los grados de libertad se refieren al número de piezas de información independientes de los
datos recopilados en el estudio y están estrechamente asociados con el número de participantes con datos
sobre ambas variables. Hubo 114 participantes, por lo que los grados de libertad para esta correlación fueron
112.
Significancia estadística
Como ocurre con cualquier estadística inferencial, se debe tener cuidado al interpretar los coeficientes de
correlación estadísticamente significativos. Existe una relación inversa entre el número de participantes en
el estudio (grados de libertad) y el tamaño del coeficiente necesario para obtener significación estadística. En
otras palabras, los estudios con un gran número de participantes pueden encontrar coeficientes de correlación
estadísticamente significativos, pero pueden ser triviales.
Si examinamos una tabla de valores críticos para la correlación de Pearson, encontramos que con 114
participantes en un estudio, una correlación de aproximadamente 0,185 es todo lo que se necesita para
obtener significación estadística en p < 0,05, dadas una o dos hipótesis no direccionales. prueba de cola.
Por lo tanto, es útil con coeficientes de correlación, así como con otras estadísticas inferenciales, para obtener
un índice del tamaño del efecto o intervalos de confianza.
Análisis e interpretación de preguntas básicas de investigación asociativa. 307
Tabla 21.1
Correlaciones entre variables que predicen el desempeño de los estudiantes en clase
ACT GPA previo Asistencia a conferencias Rendimiento en exámenes
ACTO — .41** .09 .53**

GPA anterior — .29** .47**
Asistencia a conferencias — .39**
—
Rendimiento del examen
**p < 0,01... . .
Fuente: Los datos provienen de Zamboanga, BL, PadillaWalker, LM, Hardy, SA, Thompson,
RA y Wang, SC, Enseñanza de la Psicología, 34, 2007, 158–162.
Matriz de correlación
Es relativamente raro ver sólo un coeficiente de correlación o incluso dos o tres coeficientes de correlación en un estudio.
Cuando se informan más de unas pocas correlaciones, la correlación
Se utilizan comúnmente matrices. Una matriz de correlación es una tabla de coeficientes de correlación que
muestra cómo todas las variables están relacionadas entre sí.2 Zamboanga et al. (2007) presentaron una matriz de
correlación en su estudio de las 10 variables. Mostramos una matriz de correlación (Tabla 21.1)
para cuatro de sus variables estudiadas.
Una tabla que muestra una matriz de correlación tiene las variables ordenadas horizontalmente
la fila superior de la tabla y verticalmente hacia abajo en la primera columna de la tabla. en correlación
matrices, los valores generalmente se muestran en la esquina superior derecha o en la esquina inferior
esquina izquierda de la tabla, pero no ambas, lo que sería redundante porque los mismos valores
estaría presente. Para interpretar una matriz de correlación, se lee la primera columna para
Encuentre la variable de interés. A continuación, se procede a encontrar la otra variable de interés.
Donde estas dos variables se cruzan es el coeficiente de correlación para las dos variables. Para
Por ejemplo, la correlación entre ACT y asistencia a conferencias es r = 0,09; la correlación entre
El rendimiento en el ACT y en los exámenes es r = 0,53.
Aunque las matrices de correlación son comunes en los artículos de revistas, se debe tener precaución al
interpretarlos porque a menudo pueden ocurrir relaciones estadísticamente significativas que antes
no fue una hipótesis original. Interpretar estas relaciones fuera de una teoría o hipótesis de trabajo a menudo se denomina
“pescar” en busca de significación estadística y no se considera
mejores prácticas.
Tamaños de efectos
Un resultado estadísticamente significativo da una indicación de la probabilidad de que un resultado como

Por muy extremo que esto pueda suceder, suponiendo que la hipótesis nula sea cierta. no describe
la fuerza de la relación entre las variables independientes y dependientes, que
es lo que hace el tamaño del efecto. En otras palabras, ¿cuánto del resultado se puede predecir a partir de
¿conocer el valor de la variable independiente? Se puede calcular el tamaño del efecto para cada
estadística. Es especialmente fácil realizar esta operación para una correlación de Pearson porque
Un tamaño del efecto que se utiliza con frecuencia es r2. Esto describe la cantidad de variación compartida o la
varianza en la variable dependiente que podría predecirse a partir de la variable independiente.
Por ejemplo, en Zamboanga et al. (2007), el r2 para la correlación (.39) entre
La asistencia a clases y el desempeño en exámenes es .15. Esto indicaría que sólo el 15% de los
la varianza entre las dos medidas era común a ambas. Un total del 85% de la varianza es
inexplicable. Tenga en cuenta que r2 para una correlación de 0,185, que sería estadísticamente significativa con
n = 114, es 0,03; por lo tanto, sólo se comparte alrededor del 3% de la varianza.
Existe un desacuerdo entre los investigadores sobre si utilizar r2 o r como medida del tamaño del efecto.
Cohen (1988) proporcionó pautas aproximadas para interpretar el tamaño del efecto de los coeficientes de
correlación. Consideró que los valores de r de Pearson alrededor de +.1 o –.1 eran relaciones débiles, los
valores alrededor de +.3 o –.3 eran de fuerza media y los valores de +.5 o –.5 o más eran fuertes. Aunque una
correlación (r) de 0,50 significa que sólo se puede predecir el 25% de la varianza de la variable dependiente si
se conoce la variable independiente, Cohen argumentó que podríamos considerarlo como un efecto grande
porque es casi tan alto como las correlaciones. entre medidas de diferentes conceptos se obtienen en las
ciencias conductuales aplicadas.
Vaske, Gliner y Morgan (2002) sugirieron que una terminología más descriptiva sería que .1 es una relación
mínima, .3 es una relación típica (que es común para las ciencias del comportamiento pero que puede diferir
entre disciplinas) y .5 o más es una relación sustancial (más fuerte de lo habitual) entre dos conceptos diferentes .
Proponemos que las correlaciones de estos tamaños se etiqueten como menos que típica, típica y mayor que
típica, respectivamente, para enfatizar que son relativas a la literatura en el campo. Cuando se realiza una
investigación en otros campos, puede resultar útil que el investigador examine la literatura para evaluar lo que
se consideraría típico en el campo específico.
Quizás una mejor alternativa para abordar la significación estadística y el tamaño del efecto (Capítulo 17), y que
actualmente recomiendan muchos metodólogos, sea informar los resultados de un coeficiente de correlación
como un intervalo de confianza. La razón para presentar un intervalo de confianza es que mostrar una r
“estadísticamente significativa” significa mostrar sólo que es distinta de cero. Por tanto, una r significativa puede
ser completamente trivial. Un intervalo de confianza delinea la magnitud y el error de estimación de r y se calcula
utilizando la misma información necesaria para determinar la significancia estadística. Específicamente, esta
información incluye el valor de r, el tamaño de muestra utilizado para determinar r y una tabla llamada tabla de
transformación z de Fisher. Zamboanga et al. (2007) podrían haber indicado lo siguiente como ejemplo de
intervalo de confianza: El intervalo de confianza del 95% para la relación entre la asistencia a clases y el
rendimiento en los exámenes estaba entre 0,23 y 0,54. En otras palabras, podrían tener un 95% de confianza
en que el valor real (poblacional) de la relación entre las dos variables se encontraría dentro de este intervalo.
(En el capítulo 20 ilustramos cómo calcular el intervalo de confianza para una prueba t ).
Uso de estadísticas asociativas no paramétricas Coeficiente de
correlación de orden de rango de Spearman y coeficiente Tau de Kendall Cuando hay muchos
niveles ordenados de ambas variables, se debe usar una estadística no paramétrica si la variable independiente
o dependiente está clasificada (o medida en una escala ordinal y no distribuida normalmente). ) o si se violan
otros supuestos subyacentes a las estadísticas asociativas paramétricas (linealidad o varianza igual). Dos
estadísticas no paramétricas que se utilizan para evaluar la relación entre variables independientes y
dependientes ordenadas son la correlación de orden de rango de Spearman (rho o rs) y la tau de Kendall (τ). El
La correlación de Spearman, la más común de las dos, proporciona un índice de la fuerza de

una relación monótona (es decir, un aumento en las puntuaciones de una variable va acompañado de una
aumento o disminución en las puntuaciones de la otra variable, pero este cambio en las puntuaciones no es
necesariamente lineal). Tanto la correlación de Spearman como la tau de Kendall se realizan en clasificaciones
datos en lugar de puntuaciones originales. Cuando la muestra es relativamente pequeña y muchos de los
Las clasificaciones son las mismas para diferentes participantes (empates), el Kendall tau es el apropiado.
elección no paramétrica.
Coeficientes de correlación engañosos

Anteriormente analizamos los problemas relacionados con la interpretación de la significación estadística y los
coeficientes de correlación. Es necesario prestar atención a otras situaciones que podrían llevar a una sobreestimación.
o subestimación del coeficiente de correlación. Algunos ejemplos comunes son los siguientes.
(Para una explicación más detallada, ver Shavelson, 1996). La primera se conoce como restricción.
del rango. Esto ocurre cuando el rango de una de las variables utilizadas para calcular el coeficiente de correlación
es limitado. Esto sucede a menudo con grupos seleccionados u homogéneos.
pero también podría suceder si la escala de una de las variables tiene un rango limitado. El resultado es
normalmente una reducción en el tamaño del coeficiente de correlación. Un segundo ejemplo común es
cuando se producen valores atípicos o puntuaciones extremas en una muestra relativamente pequeña. Esto puede cambiar el
relación entre variables de lineal a curvilínea o viceversa.
Un tercer ejemplo ocurre cuando se combinan muestras de dos poblaciones diferentes.
El cuarto es el uso de grupos extremos. Esto sucede cuando realizamos correlaciones con participantes que fueron
seleccionados porque representan sólo los extremos superior e inferior de una escala particular, y sin participantes
en el rango medio. El tercer y cuarto ejemplo.
tienden a inflar el coeficiente de correlación.
No es raro hacer inferencias incorrectas a partir de los coeficientes de correlación. Nosotros sólo
Puede hacer inferencias sobre las causas si el diseño es un experimento aleatorio bien construido. Los coeficientes
de correlación son más comunes en la investigación asociativa y no causal.
enfoques; por lo tanto, no se debe inferir causalidad ni siquiera a partir de una correlación muy fuerte.
Aunque las correlaciones no indican causalidad, pueden ser fuertes, moderadas o débiles.
En el Capítulo 22, examinamos la regresión lineal, utilizada cuando el investigador quiere predecir
valores de la variable dependiente o de resultado de la variable independiente con base en la
fuerza de una correlación.
Estadísticos asociativos para variables nominales
La prueba de chicuadrado y los índices de tamaño del efecto que la acompañan
En la primera parte de este capítulo, describimos los métodos estadísticos utilizados para probar la significancia
estadística de una relación entre dos variables que eran continuas o
Tenía muchas categorías o niveles ordenados. Ahora describimos una prueba estadística, la prueba de independencia
de chicuadrado (χ²) de Pearson, que examina la relación entre dos variables que
Son de nivel dicotómico o nominal, con algunas categorías no ordenadas. Datos de escala nominal
Proporcionan menos información que los datos distribuidos normalmente o en escala ordinal. Cuanto
más finas sean las gradaciones en la escala de medición, más información se transmite, siempre que
haya evidencia de confiabilidad y validez. Recomendamos que los datos ordenados no se dividan en
unas pocas categorías si los datos son continuos o tienen varios niveles ordenados, a menos que la
medida a dividir haya sido validada con un criterio externo que justifique el uso de "puntos de corte".
Cuando hay más de dos categorías de al menos una de las variables y estas categorías están
ordenadas (es decir, escala ordinal), como el nivel educativo, que puede variar de poco a mucho, se
pierde potencia si se realiza una prueba de χ². se utiliza para analizar los datos. Recomendamos que
dichos datos se analicen utilizando estadísticas no paramétricas para datos ordinales. Se podría utilizar
la correlación tau de Kendall si ambas variables tienen más de dos niveles ordenados, o se podría utilizar
una prueba U de Mann Whitney si una de las dos variables tiene sólo dos niveles y la otra está ordenada
(consulte el Capítulo 19). En este libro no se analiza la prueba de chicuadrado, para determinar la
bondad del ajuste de una muestra de datos nominales a alguna distribución teórica o distribución conocida.
Para la prueba de χ² los datos a considerar son frecuencias. Específicamente, nuestro interés es
cuántas personas (el recuento de frecuencia) caen en una categoría particular, en relación con una
categoría diferente. Hay dos requisitos principales de la prueba χ². La primera es que las frecuencias
representan recuentos. La segunda es que cada participante puede ser asignado a una sola categoría o celda.
La prueba de independencia de χ² prueba la asociación entre dos variables. Bajo la hipótesis nula, se
supone que las dos variables son independientes entre sí. Primero analizamos una χ² con sólo dos
categorías de cada variable, a menudo denominada tabla de contingencia de dos por dos, y luego
ampliamos nuestra discusión a pruebas de χ² donde hay más de dos categorías no ordenadas para al
menos una de las variables. Se proporcionan ejemplos para ambas situaciones. También analizamos
las medidas del tamaño del efecto que describen la fuerza de la relación.
entre dos variables de escala nominal.
La prueba de chicuadrado (χ²) con un grado de libertad La prueba
de chicuadrado con dos categorías de cada variable se utiliza comúnmente para probar el impacto de
una intervención en comparación con un grupo de control. En este diseño, los participantes del grupo de
intervención se dicotomizan entre los que tienen éxito y los que no. Lo mismo se hace para el grupo de
comparación. Por lo tanto, hay dos niveles de tratamiento (es decir, los que reciben tratamiento y los
que no lo son) y dos niveles de resultado (es decir, los que tienen éxito y los que no). Un estudio de
Walters (2005) demuestra el uso del chicuadrado 2 × 2, que es una prueba de chicuadrado con un
grado de libertad. Walters estaba interesado en prevenir la reincidencia de los presos en una prisión
federal de seguridad media. La intervención en este estudio fue el Programa de Cambio de Estilo de
Vida (LCP). La primera fase fue una clase psicoeducativa de 10 semanas sobre temas de estilo de vida.
La segunda fase consistió en tres sesiones de 20 semanas tituladas “Grupo Avanzado” que examinaban
los estilos de vida relacionados con el juego, las drogas y la delincuencia, que se consideraban más
relevantes para las poblaciones de delincuentes. La tercera fase del programa se tituló “Prevención de
recaídas” y duró 40 semanas. Para nuestros propósitos, nos centramos en el primer análisis de chi
cuadrado de Walters, que categorizó la intervención en aquellos que completaron al menos la primera
fase del LCP (grupo de intervención) y aquellos que también se ofrecieron como voluntarios para el
programa pero fueron liberados o transferidos antes. a someterse a cualquier parte del programa (grupo
de control).
La medida de resultado fue el arresto después de la liberación de prisión durante un período de
seguimiento específico (ninguno versus uno o más arrestos). La tabla 21.2 muestra los datos del primer
resultado del estudio de Walters. Walters informó el resultado de la siguiente manera: “Los datos
recopilados durante el seguimiento mostraron que 115 (39,5%) participantes del programa y 49 (55,1%) control
Tabla 21.2
Datos de frecuencia y porcentajes

Uno o más arrestos Ningún arresto Total
Controlar a los reclusos 49 (55,1%) 40 (44,9%) 89 (100%)

Participantes del programa 115 (39,5%) 176 (60,5%) 291 (100%)
Total 164 216 380
Fuente: Los datos provienen de Walters, GD, Criminal Justice and Behavior, 32, 2005,
50–68.
Los reclusos fueron arrestados una o más veces después de su liberación de prisión, una cifra estadísticamente
diferencia significativa, χ² (1, N = 380) = 6,71, p < 0,01 (p. 58).
La estadística χ² para estos datos se informó como χ² = 6,71. El valor de 6,71 es el calculado.
χ² para este ejemplo. Para llegar a este valor, se generan frecuencias esperadas para cada
celda en la tabla de contingencia multiplicando los totales de filas y columnas correspondientes
juntos y luego dividiéndolos por la muestra total. Las frecuencias esperadas son las frecuencias que esperaríamos
si las dos variables no estuvieran relacionadas. Para obtener el valor de cada celda, el
La frecuencia esperada se resta de la frecuencia observada (las frecuencias reales de las células), se eleva al
cuadrado y se divide por la frecuencia esperada. Los cuatro valores de celda se suman a
determine el valor de χ².
Hay un grado de libertad para este χ². En las pruebas estadísticas anteriores que hemos
discutidos, como la prueba t , la prueba F y el coeficiente de correlación, los grados de libertad fueron
asociado con el tamaño de la muestra, ya sea para todo el estudio o para grupos específicos. En la prueba de χ²,
Los grados de libertad están asociados con el número de categorías dentro de cada variable. Para
cualquier χ², los grados de libertad se determinan multiplicando el número de filas menos
1 multiplicado por el número de columnas menos 1. En el presente ejemplo, los grados de libertad
son 2 filas menos 1 por 2 columnas menos 1 es igual a 1.
Se informó el valor de χ², que fue estadísticamente significativo en p < 0,01. La significancia estadística se
determina comparando el valor de χ² calculado, 6,71, con un valor de la tabla de χ².
asociado con p < 0,01 y un grado de libertad.3 Este valor de la tabla se conoce como valor crítico. Un valor crítico
de 6,63 en la tabla χ² corresponde al nivel de 0,01 para un grado de
libertad. Cualquier valor de χ² que sea tan grande o mayor que este valor crítico tiene una probabilidad de
ocurrencia de menos de 1 en 100, suponiendo una hipótesis nula verdadera. Porque el valor de 6,71
supera 6,63 se considera estadísticamente significativo (p < 0,01). Una afirmación que resume este resultado es
que hubo una relación estadísticamente significativa entre las variables
del Programa de Cambio de Estilo de Vida y su resultado, arrestos posteriores, y el programa condujo a
menos arrestos.
Interpretación de la prueba de chicuadrado con un grado de libertad
Porcentajes
Quizás el método más simple para interpretar la prueba de χ² con un grado de libertad sea
convertir cada frecuencia de celda a un porcentaje y examinar las relaciones entre estos
porcentajes de celda. Por ejemplo, como se mencionó anteriormente, Walters (2005) afirmó que sólo el 39% de los
Los participantes del programa, en comparación con el 55% del grupo de control, fueron arrestados después de su liberación.
Se podrían calcular porcentajes de modo que los porcentajes de la fila o de la columna sumen 100%.
Una regla general es calcular los porcentajes de las filas para que sumen 100% si están en la tabla, como
aquí, la variable independiente es una variable de fila, o viceversa si la variable independiente
es la variable de columna. A veces, como en el presente estudio, la variable independiente es obvia, como cuando hay
tratamiento. Otras veces, sin embargo, cuando no ha habido una variable independiente activa, la interpretación no es
tan obvia. Cuando no hay una variable independiente activa, se debe determinar el orden probable de aparición de las
variables.
Una primera variable que precede a una segunda variable en el tiempo generalmente se considera la variable
independiente.
Phi como tamaño del efecto
Para una prueba de χ² con un grado de libertad, un indicador común del tamaño del efecto de la fuerza de la relación
entre las dos variables es phi (φ). Phi es una medida no paramétrica de asociación o correlación entre dos variables
cuando ambas son dicotómicas (es decir, tienen dos niveles). Al igual que la correlación productomomento de Pearson,
analizada en la última sección, una asociación fuerte estaría indicada por un coeficiente φ de +.5 o –.5 o mayor a partir
de cero (Cohen, 1988). Ninguna asociación estaría indicada por un coeficiente cercano a cero. El valor de phi para la
prueba de chicuadrado realizada en el estudio de Walters (2005) fue 0,13, considerado un tamaño de efecto pequeño
o menor que el típico. Una desventaja de φ como tamaño del efecto es que el tamaño de φ está restringido por los
porcentajes de filas y columnas. Cuanto más cerca estén los porcentajes de las dos filas de los porcentajes de las dos
columnas, mayor será el límite máximo ascendente de φ (Nunnally y Berstein, 1994). Por tanto, phi, como en Walters,
puede subestimar la fuerza de la relación y ser difícil de interpretar como un tamaño del efecto.
Fuerza de las medidas de asociación que implican riesgo Además
de la medida del tamaño del efecto, φ, hay tres medidas de asociación que se utilizan a menudo en epidemiología e
investigación médica con una tabla de contingencia de dos por dos (2 × 2). Estos encajan en la categoría de tamaño
del efecto de potencia de riesgo analizada en el Capítulo 17. Expresan el riesgo de resultados a nivel clínico. Estas
medidas son el riesgo relativo, la diferencia de riesgos y el odds ratio. Las tres medidas pueden entenderse a partir del
ejemplo de Walters (2005) en la Tabla 21.2.
El riesgo relativo se determina calculando primero un porcentaje dividiendo aquellos que están en la condición de
control y no tuvieron éxito (49) por el total de la condición de control (89).
Un segundo porcentaje se computa dividiendo aquellos que están en condición de intervención y no tuvieron éxito
(115) por el total de la condición de intervención (291). En el ejemplo de Walters (2005), estos dos porcentajes son
55,1% para el grupo de control y 39,5% para el grupo de intervención. Luego se obtiene una relación dividiendo el
porcentaje de control (55,1%) por el porcentaje de intervención (39,5%). En el presente ejemplo, el riesgo relativo es
1,4. Por lo tanto, el riesgo relativo de tener un resultado fallido (reincidencia) es 1,4 veces mayor en la condición de
control en comparación con la condición de intervención.
La diferencia de riesgo se obtiene con los mismos porcentajes que el riesgo relativo, excepto que en lugar de obtener
una proporción, se calcula una diferencia porcentual restando el porcentaje de casos fallidos en el grupo de intervención
del porcentaje de casos fallidos en el grupo de control (55,1% menos 39,5%). Por lo tanto, existe aproximadamente un
16% más de riesgo de tener un resultado fallido en el grupo de control en comparación con el grupo de tratamiento.
La diferencia de riesgo está muy cerca del coeficiente phi para todas las tablas de contingencia 2 × 2. En el ejemplo, la
diferencia de riesgo (0,16) tiene una magnitud cercana a φ, que era 0,13.
El odds ratio, la medida más comúnmente reportada, se determina calculando primero la proporción entre aquellos
en el grupo de control que no tuvieron éxito y aquellos en el grupo de control que tuvieron éxito (49/40). Una segunda
proporción se calcula a partir de las de la
grupo de intervención que no tuvieron éxito a aquellos en el grupo de intervención que no

exitoso (115/176). En el estudio de Walters (2005), estas dos proporciones son 1,23 para el grupo control.
grupo y .65 para la intervención. El odds ratio se obtiene entonces dividiendo el control
proporción de grupo por la proporción de grupo de intervención. En nuestro ejemplo actual, la razón de posibilidades es 1,9.
(1,23/0,65), lo que indica que las probabilidades de obtener un resultado fallido en el control
grupo son 1,9 veces mayores que en el grupo de intervención. Cabe señalar que las probabilidades
Los ratios a menudo se proporcionan como resultado de una regresión logística (Capítulo 22). La principal limitación
del odds ratio como índice del tamaño del efecto es que el límite superior puede acercarse al infinito.
si una de las celdas es bastante pequeña en relación con las otras celdas. Por lo tanto, es difícil decidir qué
representa un odds ratio grande en comparación con los tamaños del efecto que acompañan a las pruebas paramétricas
como r y d. Aunque intuitivamente los odds ratios parecen tener significado para quienes no son estadísticos,
pueden ser bastante engañosos.
¿Cuál de las tres medidas del tamaño del efecto que implica riesgo presentadas aquí es la más
¿adecuado? Rosenthal (2001) examinó las tres medidas del tamaño del efecto y recomendó
diferencia de riesgo. Como se indicó anteriormente, la diferencia de riesgo está muy cerca del coeficiente φ, y
en parte, "Por esa razón, el índice de diferencia de riesgo puede ser el que tiene menos probabilidades de ser bastante
engañoso en circunstancias especiales” (p. 135).
La prueba de chicuadrado con más de un grado de libertad
Aunque una tabla de contingencia 2 × 2 analizada por una χ² es comúnmente observada y relativamente
fácil de interpretar, hay muchos casos en los que el número de filas, columnas o ambas
supera 2. Por ejemplo, un estudio publicado por Zeanah et al. (2001) compararon una intervención
grupo (IG) con un grupo de comparación (CG) para examinar los resultados de bebés y niños pequeños en
orfanato. Las cuatro categorías de resultados para los niños de crianza fueron la reunificación con el nacimiento.
padres, terminación de la patria potestad, renuncia de la patria potestad y colocación con
un pariente. La tabla 21.3 muestra la relación entre el grupo de tratamiento y el resultado.
tipo.
Se informó una χ² estadísticamente significativa para estos datos (χ² [df = 3, N = 240] = 16,13, p < 0,01).
El valor 16,13 es el χ² para este ejemplo. Hay tres grados de libertad para este χ²
(4 filas menos 1 por 2 columnas menos 1). Nuevamente, la relación fue estadísticamente significativa (p < 0,01).
Tabla 21.3
Frecuencia del tipo de resultado por pertenencia al grupo

Membresía de grupo
Tipo de resultado Grupo de intervención Grupo de comparación
Reunificación 33 (34,7%) 71 (49,0%)

Terminación 42 (44,2%) 30 (20,7%)
Rendirse 8 (8,4%) 17 (11,7%)
Colocación relativa 12 (12,6%) 27 (18,6%)
Total 95 (100%) 145 (100%)
Fuente: Los datos provienen de Zeanah, CH, Larrieu, JA, Heller, SS,
Valliere, J., HinshawFuselier, S., Aoki, Y., et al., Revista de la
Academia Estadounidense de Psiquiatría Infantil y Adolescente,
40, 2001, 214–221.
50
YO G
40
CG
30
etneicer
cu
nóicaa cidsE
íf
20
10
0
Reunión. Termino. Rendirse Rel. Lugar.
Tipo de resultado
Figura 21.1
Frecuencia del tipo de resultado por pertenencia al grupo, presentada como un gráfico de barras. (Datos de Zeanah, CH, Larrieu, JA, Heller, SS,
Valliere, J., HinshawFuselier, S., Aoki, Y., et al., Journal of the American Academy of Child and Adolescent Psychiatry, 40, 2001 , 214–221.)
Interpretación de la prueba de chicuadrado con más de un grado de libertad
Porcentajes
De manera similar a la χ² con un grado de libertad, las frecuencias de las celdas deben convertirse
en porcentajes para detectar patrones. Los porcentajes que siguen a las frecuencias para cada celda
esta vez son porcentajes de columna porque la variable independiente es la pertenencia a un grupo,
una variable de columna (Tabla 21.3). Cuando se realiza una χ² con más de un grado de libertad, un
gráfico de barras de los porcentajes suele ser un método significativo para facilitar la interpretación.
La figura 21.1 muestra los datos porcentuales de la tabla 21.3.
Las mayores discrepancias porcentuales para los dos grupos fueron para la reunificación y la
terminación; Zeanah et al. (2001) informaron: “Un examen de la tabla de frecuencia indicó que esta
diferencia se debía al hecho de que el IG tuvo más del doble de despidos que el GC y el IG tuvo
significativamente menos reunificaciones” (p. 217). Es decir, “Se liberaron para adopción más niños...
que antes de la intervención” (p. 214).
Tablas de contingencia de dos por

dos Un segundo método para facilitar la interpretación de la prueba de chicuadrado con más de un
grado de libertad es examinar comparaciones significativas estableciendo tablas de contingencia de
dos por dos. En nuestro ejemplo actual, se podría establecer una tabla de dos por dos comparando
el grupo de intervención y el grupo de comparación sobre reunificación y despido. Se podría calcular
un valor de phi o se podría establecer una medida del riesgo asociado. Existen otros métodos para
construir tablas de contingencia de dos por dos a partir de tablas más grandes, como la prueba de
esquinas de chicuadrado o la prueba de chicuadrado de categoría combinada (Rosenthal y Rosnow,
1991). Señalamos que las comparaciones deben ser significativas, generalmente establecidas antes
del estudio y relacionadas con las hipótesis originales.
Resumen En
este capítulo analizamos la selección y aplicación de métodos estadísticos apropiados utilizados para
responder preguntas asociativas básicas. Estos métodos estadísticos suelen ser
Se utiliza en diseños de un solo factor con muchos niveles ordenados de la variable independiente. El coeficiente de
correlación más común utilizado para describir la relación entre una variable independiente y dependiente continua
es la correlación productomomento de Pearson, r.
El tamaño del efecto de un coeficiente de correlación puede ser el valor al cuadrado de r o simplemente el valor de r.
Cuando la medición de la variable independiente no se realiza a nivel de intervalo, o existen violaciones que impiden
el uso de estadísticas paramétricas, la correlación de Spearman se aplica con mayor frecuencia.
La prueba de independencia de chicuadrado (χ²) es la prueba estadística adecuada para responder preguntas
asociativas básicas cuando ambas variables son variables de escala nominal. La prueba de chicuadrado con un
grado de libertad (tabla de contingencia 2 × 2) es la más común.
La interpretación de los resultados de esta tabla se facilita convirtiendo las frecuencias en porcentajes de filas o
columnas y calculando medidas del tamaño del efecto, como el índice de diferencia de riesgo o φ. Las pruebas de
chicuadrado en tablas de contingencia con más de dos niveles en las columnas, filas o ambas suelen ser más
difíciles de interpretar, pero los gráficos de barras son útiles para transmitir de manera precisa y sucinta la relación
entre dos variables. Además, se recomienda la reducción a tablas de contingencia de dos por dos.
Conceptos clave
Prueba de chicuadrado (χ²)

Matriz de correlación
tau de Kendall (τ)
Razón de probabilidades (OR)
Correlación productomomento de Pearson (r)

Fi (φ)
Riesgo relativo (RR)
Diferencia de riesgo (RD)
Correlación de orden de clasificación de Spearman (rs)
Coeficiente de correlación al cuadrado (r2 )
Tabla de contingencia dos por dos (2×2)
Distinciones clave
Coeficiente de correlación versus coeficiente de correlación al cuadrado
Correlación productomomento de Pearson versus correlación de orden de clasificación de Spearman

Odds ratio versus riesgo relativo versus diferencia de riesgo
Phi versus r
1. Usando la tabla 21.1 y el texto, escribe una oración, incluyendo r, df y p, interpretando
la correlación entre la puntuación ACT y la asistencia a conferencias. Escriba también una frase
sobre la correlación entre la puntuación del ACT y el rendimiento en el examen.
2. Se realizó un estudio para determinar si el desempeño docente en la escuela secundaria en el
El aula estaba relacionada con las puntuaciones en un examen de licenciatura. Ambas medidas
Las herramientas estaban distribuidas normalmente. ¿Cuál es la estadística inferencial apropiada?
¿Por qué? ¿Cuál es una medida apropiada del tamaño del efecto?
3. Existe una relación entre las evaluaciones docentes y las calificaciones de los cursos. Este
La hipótesis se probó en un seminario de posgrado con 10 estudiantes. Los estudiantes'
Las calificaciones del curso oscilaron entre C (2) y A (4). Las evaluaciones del curso variaron
de neutral (3) a muy bueno (5). ¿Qué análisis se debe realizar para probar esto?
relación y por qué?
4. Un investigador realiza un estudio para una compañía de seguros para determinar la relación, si la
hay, entre la fuerza de la mano después de la cirugía y la duración del tratamiento medida en horas
de 1 a 15. El investigador mide a cada paciente después
cirugía para determinar la fuerza de la mano de 0 a 100. Luego divide a los pacientes
en períodos de tiempo bajo (1 a 5 horas), medio (6 a 10 horas) y alto (11 a 15 horas)
cada paciente gastó en tratamiento. Para determinar si existen diferencias entre los
tres grupos, realiza un análisis de varianza de un solo factor (ANOVA) con
fuerza de la mano como variable dependiente. ¿Cómo podría utilizar la asociación?
enfoque en este estudio? ¿Cuáles serían las ventajas?
5. Un terapeuta estaba interesado en determinar la eficacia de un nuevo tratamiento.
para niños con parálisis cerebral. La terapeuta tenía 40 de esos niños en su clínica.
Ella asignó aleatoriamente a los participantes a uno de dos grupos (20 en cada grupo). El
El grupo de tratamiento recibió la nueva terapia de tratamiento. El grupo de control recibió
una terapia tradicional. Después de 4 meses, los 40 niños realizaron una tarea de coordinación
motora. Si el niño completaba la tarea, el tratamiento se consideraba exitoso. Si el niño no podía
completar la tarea, se consideraba que el tratamiento era
fracasado. ¿Cuál es la estadística inferencial apropiada? ¿Por qué? ¿Qué tamaño del efecto
medida usarias? ¿Por qué?
6. Dada la siguiente tabla de tabulación cruzada de 2 × 2, interpreta los resultados.
Fallar Aprobar
Intervención 10 (26%) 29 (74%) 100%
Comparación 24 (67%) 12 (33%) 100%
. χ² = 12,71
.
. φ (fi) = .41
Notas
1. En el capítulo 10 introdujimos el tema de la correlación como estadística descriptiva. Aquí ampliamos esto,
en parte, al analizar la significación estadística y cómo interpretar el tamaño del efecto para los coeficientes
de correlación.
2. Es común que las correlaciones en una matriz que son estadísticamente significativas se identifiquen con
asteriscos, como se muestra en la Tabla 21.1. Sin embargo, cuando hay espacio disponible, lo mejor es
incluir los valores p exactos , no simplemente indicar si un valor es estadísticamente significativo.
3. Cuando se usa una computadora, la computadora verifica la tabla y proporciona el valor p exacto asociado
con el resultado.
22
Análisis e interpretación
de preguntas de investigación complejas
En este capítulo analizamos la selección y aplicación de métodos estadísticos apropiados para responder
preguntas de investigación complejas. Cuando nos referimos a preguntas de investigación complejas,
estamos discutiendo análisis que tienen más de una variable independiente y
a veces más de una variable dependiente. Aunque se podrían incluir muchos análisis estadísticos diferentes
en esta categoría, analizamos los análisis más comunes en algunos
detalle, proporcionando ejemplos cuando corresponda. Nos centramos en tres análisis en particular:
(1) el análisis de varianza de dos factores entre grupos; (2) el análisis mixto de varianza con
referencia al análisis de diseños que incluye un pretest y un postest; y (3) regresión múltiple. También
tocamos otros análisis como el análisis de covarianza, el análisis de varianza intrasujetos de dos factores
(ANOVA), la regresión lineal o bivariada, el análisis discriminante,
y regresión logística. Todas estas complejas estadísticas de diferencias y asociaciones tienen un
variable dependiente que debe tener una distribución aproximadamente normal o, para el análisis
discriminante y la regresión logística, dicotómica. No existen estadísticas inferenciales no paramétricas
complejas comunes para variables dependientes ordinales. Transformaciones de datos
u otros ajustes estadísticos son necesarios cuando los supuestos de estos complejos
las estadísticas se violan notablemente.
Análisis e interpretación de preguntas de diferencias complejas

El análisis de varianza de dos factores entre grupos
En el Capítulo 20 analizamos el ANOVA de un solo factor entre grupos. Recuerde, en el

ANOVA de un solo factor, hay una variable independiente, una variable independiente entre grupos
variable, con dos o más niveles. Se supone que la variable dependiente es normalmente
distribuido sin violaciones graves de la homogeneidad de la varianza. Ahora, presentamos una
ejemplo de un estudio con una segunda variable independiente entre grupos y demostrar
cómo se analizan e interpretan los diseños factoriales entre grupos.
Hay dos razones principales para agregar una segunda variable independiente en un estudio. El
La primera razón es que proporciona al investigador más información. Cuando tenemos dos variables
independientes en un solo estudio, podemos determinar cómo cada variable independiente
funciona por sí mismo y determina cómo las dos variables independientes trabajan juntas o interactúan. Se
hace referencia a cómo una variable independiente, por sí sola, afecta a la variable dependiente.
como efecto principal. Cómo interactúan dos variables independientes en la variable dependiente
se le conoce como efecto de interacción. En un estudio con dos variables independientes, hay
Habrá dos efectos principales (uno para cada variable independiente) y un efecto de interacción. Nosotros
319
Me gustaría enfatizar que el término efecto puede ser engañoso porque parece implicar una
relación causal. Como se señaló en capítulos anteriores, esta inferencia no se justifica si la variable independiente
es un atributo (por ejemplo, edad o sexo) y puede no justificarse con un atributo activo.
variable independiente a menos que el estudio sea un experimento aleatorio bien diseñado. De este modo,
Se debe tener cuidado al interpretar un efecto principal significativo en el sentido de que el
La variable independiente causó la diferencia en la variable dependiente.
Considere un estudio de Conners et al. (2001), quienes estaban interesados en los efectos de dos
Variables independientes sobre el resultado del trastorno por déficit de atención con hiperactividad (TDAH)
evaluación medida mediante una puntuación compuesta. En uno de sus análisis, las dos variables independientes
fueron el tipo de tratamiento y el lugar de tratamiento. En el análisis, hubo un principal
efecto para el tratamiento y un segundo efecto principal para el sitio. También hubo un efecto de interacción.
entre el tratamiento y el sitio.
La segunda razón para utilizar un diseño de dos factores en lugar de dos diseños de un solo factor es
esa varianza del error se estima con mayor precisión. La varianza del error es la variabilidad atribuida a
diferencias individuales entre los participantes. A menudo estas diferencias se deben a valoraciones
no medir un constructo de manera confiable. En otras ocasiones estas diferencias se deben a la edad, el género,
o diferencias de sitio entre los participantes. Es este último tipo de error el que estamos tratando de reducir.
Si introducimos una segunda variable independiente, como el sitio, entonces parte de la varianza del error
debido a esta variable podría eliminarse y distribuirse como una segunda variable independiente.
Conners et al. (2001) estaban interesados principalmente en la variable independiente activa, tipo de
tratamiento. La otra variable independiente, el sitio, no era importante por sí sola, pero si lo fuera
estadísticamente significativo, reduciría la variabilidad del error en el estudio.
El estudio de Conners et al. (2001) tuvieron un diseño factorial 4 × 6. Niños de 7 a 9 años que
Cumplieron los criterios del Manual diagnóstico y estadístico de trastornos mentales, 4.ª edición, revisión de texto
(DSMIVTR; Asociación Estadounidense de Psiquiatría, 2000) para el tipo combinado de TDAH.
asignados aleatoriamente a uno de cuatro tratamientos en cada sitio de selección. Los cuatro niveles del
La primera variable independiente fueron cuatro tipos de tratamiento: (1) manejo de la medicación; (2)
Terapia de comportamiento; (3) una combinación de estos tratamientos; y (4) comparación comunitaria,
que estaba compuesto por niños que fueron evaluados y luego remitidos a recursos de atención comunitarios
locales. Los seis niveles de la segunda variable independiente fueron seis sitios universitarios participantes.1 La
variable dependiente clave, la puntuación compuesta, se convirtió en una
puntuación estándar para cada participante. Luego, esta puntuación estándar se comparó con la puntuación inicial.
puntuaciones, lo que arroja una puntuación de cambio para cada período de tiempo. Las puntuaciones negativas indicaron una reducción
en los síntomas. La puntuación de cambio promedio para cada condición de tratamiento después de 14 meses puede
puede verse en la Tabla 22.1.
Tabla 22.1
Resultado compuesto por tratamiento 14 meses después del inicio

Tratamiento norte METRO Dakota del Sur
Conjunto 145 –2,23 1.35
Manejo de medicamentos 144 –1,82 1.61
Terapia de comportamiento 144 –1,42 1.47
Comparación comunitaria 146 –1,29 1.36
Fuente: Los datos provienen de Conners, CK, Epstein, JN, March, JS,
Angold, A., Wells, KC, Klaric, J., et al., Revista de la Academia
Estadounidense de Psiquiatría Infantil y Adolescente, 40, 2001, 159–167.
Análisis e interpretación de preguntas de investigación complejas. 321
Tabla 22.2
Tabla fuente de ANOVA de dos factores
Fuente SS DF MS F
Tratamiento (A) 77,88. . 3 25,96 13,49*
Sitio (B) 83.02. . 5 16,60 8,63*
Tratamiento × sitio (A × B) 52,56 15 3.50 1,82
Dentro de los temas (error) 1.067,76 555 1,92
*p < .01.
Fuente: Los datos provienen de Conners, CK, Epstein, JN, marzo,
JS Angold, A., Wells, KC, Klaric, J., et al., Revista de la
Academia Estadounidense de Psiquiatría Infantil y Adolescente,
40, 2001, 159–167.
Análisis de diseños de dos factores
Los diseños de dos factores se analizan con un ANOVA de dos factores si ambas variables independientes
son variables independientes entre grupos y los supuestos de independencia, homogeneidad de la
varianza y normalidad del ANOVA no se violan marcadamente (consulte el Capítulo 19).
para más discusión sobre estos supuestos). Para aquellos estudios con dos variables independientes y
una variable dependiente que se mide en una escala ordinal , no hay variables comunes.
Estadísticas. Estos estudios a veces se analizan con técnicas no paramétricas aplicadas.
a una variable independiente a la vez, pero el efecto de interacción se pierde. Existen técnicas sofisticadas,
como el análisis loglineal para datos categóricos, que están fuera del alcance
de este libro.
Tabla fuente para un ANOVA de dos factores
Los procedimientos ANOVA tienen una tabla fuente adjunta, que para Conners et al. (2001)
El estudio es la Tabla 22.2.
El ANOVA de dos factores comienza dividiendo las sumas de cuadrados (SS) en un componente entre
grupos y un componente de error. A continuación, como se muestra en la Tabla 22.2, el componente entre
grupos se divide en un SS para la variable independiente A (tratamiento), un SS para
variable independiente B (sitio), y el resto es la interacción SS, A × B. Los grados
de libertad (gl) para la variable independiente A son el número de niveles o tipos de tratamiento
(cuatro) menos 1. Los gl para la variable independiente B son el número de sitios (seis) menos 1. Los
La interacción gl se calcula multiplicando los gl de la variable independiente A (tres) veces.
la gl de la variable independiente B (cinco). Los gl para el término de error se calculan restando la suma
de los gl de la variable independiente A, la variable independiente B y la interacción del gl total. El gl total
(no mostrado) es el número de participantes menos 1. Cada
de los cuatro SS se divide por su correspondiente gl para obtener los cuadrados medios (MS). Así, allí
Serán cuatro MS.
Cada uno de los tres valores F , que se ven en la última columna de la tabla 22.2, se obtiene dividiendo
el MS por esa fuente de variación por el MS por error. Como muestra la Tabla 22.2, hay cuatro
MS y tres valores F en la tabla fuente. Por tanto, en un ANOVA de dos factores, hay tres
Valores F y tres preguntas que se pueden responder: una sobre cada efecto principal y la
interacción. Para obtener una idea más clara del papel de la tabla fuente en un ANOVA de dos factores,
Examinemos los datos del estudio de Conners et al. (2001).
Preguntas respondidas en el ANOVA de dos factores
En el diseño de un solo factor, se prueba una hipótesis: el efecto de esa variable independiente sobre la
variable dependiente. En el diseño de dos factores, se prueban tres hipótesis nulas: (1) las medias de
las cuatro condiciones de la variable independiente A (tipo de tratamiento) son iguales; (2) las medias
de los seis sitios de la variable independiente B son iguales; y (3) la interacción de las variables
independientes A y B es cero.
Describir los resultados en el texto
Aunque hemos presentado los datos de Conners et al. (2001) ANOVA de dos factores en una tabla
fuente, no es raro que los autores informen sus resultados en el texto para ahorrar espacio. Los datos
de la Tabla 22.2 podrían presentarse de la siguiente manera: Hubo diferencias estadísticamente
significativas entre cuatro condiciones de tratamiento (F3,555 = 13,49, p < 0,001). También hubo un
efecto estadísticamente significativo del sitio (F5,555= 8,63, p < 0,001). La interacción fue estadísticamente
significativa en el nivel de probabilidad de 0,05 pero no en el nivel de probabilidad de 0,01 (F15,555 = 1,82, p = 0,029).
Al presentar los resultados en forma de texto, los grados de libertad para ese efecto y el término de error
se dan como números de subíndice.
Interpretación de los resultados de un ANOVA de dos factores Un
primer paso hacia la interpretación del ANOVA de dos factores podría ser calcular una eta2 general
(η2 ), que determinaría qué parte de la varianza en la variable dependiente, puntuación compuesta, Se
estimó por el tratamiento, el sitio y la interacción entre las dos variables independientes. Sin embargo,
en Conners et al. (2001), no hubo discusión sobre las diferencias entre sitios o la interacción,
probablemente porque no eran el tema central de su artículo, que fue uno de muchos de este gran
proyecto multisitio. Al igual que Conners et al., comenzamos nuestra interpretación de los resultados
centrándonos en el efecto principal del tipo de tratamiento. Luego presentamos resultados hipotéticos
simplificados para ilustrar cómo interpretar una interacción significativa.
Interpretación de los efectos principales
significativos Como se señaló, hubo un efecto principal estadísticamente significativo para el tratamiento,
lo que indica que no todas las medias fueron iguales. La Tabla 22.3 muestra qué pares de medias fueron
estadísticamente significativamente diferentes según una prueba post hoc que compara cada par de
tratamientos. Observe que el tratamiento combinado (manejo de medicamentos y terapia conductual)
fue estadísticamente significativamente mejor que cada uno de los otros tres en p < 0,05. Asimismo, el
manejo de la medicación fue mejor que la terapia conductual (p = 0,015) y la comparación comunitaria (p = 0,001).
Sin embargo, la terapia conductual no fue significativamente mejor que la comparación comunitaria (p =
0,451).
La significancia estadística no nos dice sobre el tamaño o la fuerza de la relación (es decir, el tamaño
del efecto; ES) entre la variable del grupo de tratamiento y la puntuación compuesta. Conners et al.
(2001) podrían haber calculado η2 para el efecto principal general del tratamiento. Esto proporcionaría
una estimación de la relación de todos los tratamientos con la variable dependiente, la puntuación
compuesta. Este valor de eta2 (calculado a partir de los datos presentados en la Tabla 22.2) fue 0,06, lo
que indica que el tratamiento representó el 6% de la varianza de la medida dependiente en el estudio,
un tamaño de efecto medio según las directrices de Cohen (1988). Creemos que la mejor práctica en
esta situación sería calcular los tamaños del efecto comparando los resultados individuales.
Tabla 22.3
Tamaños de los efectos y significado de los contrastes post hoc

Entre tratamientos
Contraste pag
ES
Combinado > Gestión médica .012 0,28

Combinado > Comportamiento .000 0,58
Combinado > Comunidad .000 0,70
Gestión médica > Comportamiento .015 0,26
Gestión médica > Comunidad .001 0,35
Comportamiento ≈ Comunidad .451 0,09
Nota: Hipótesis de una cola. ES = delta de Cohen. Gestión médica =

manejo de medicamentos. Conductual = terapia conductual.
Comunidad = comparación de comunidad.
Fuente: Los datos provienen de Conners, CK, Epstein, JN, March, JS.
Angold, A., Wells, KC, Klaric, J., et al., Revista de la Academia Estadounidense
de Psiquiatría Infantil y Adolescente, 40, 2001,
159–167.
tratamientos, como Conners et al. hizo. Calcularon el delta de Cohen (o d), que se presenta en la tabla 22.3 en la
columna ES. Tenga en cuenta que el ES para los contrastes estadísticamente significativos entre el tratamiento
combinado y los otros tres varía desde aproximadamente pequeño (0,28)
a mediano (0,58) a grande (0,70) según las pautas generales de Cohen (ver Tabla 17.1
para interpretaciones del tamaño del efecto). Conners et al. También se discutieron varias formas, sugeridas por
Kraemer (1992), de evaluar la importancia clínica de los hallazgos. Un índice utilizado para
indicar un efecto clínicamente significativo, al comparar dos tipos de tratamientos psicoterapéuticos
tratamientos, es d ES de 0,2 o más. Todos los contrastes estadísticamente significativos en este estudio
son mayores que 0,2 por lo que parecen ser clínicamente importantes.
Interpretación de un efecto de interacción
El Cuadro 22.2 mostró que hubo efectos principales estadísticamente significativos para el tratamiento, el sitio,
y una interacción estadísticamente significativa ( p < 0,05) entre el tratamiento y el sitio. La mejor práctica es
interpretar primero el efecto de interacción porque proporciona una comprensión más precisa de los resultados, ya
que el efecto principal puede ser engañoso cuando existe una correlación estadística.
interacción significativa. Para simplificar la discusión sobre los efectos de interacción, supongamos que
el diseño tenía sólo dos tratamientos (terapia conductual y comparación comunitaria) y
tres sitios. Los hallazgos hipotéticos para este diseño 2 × 3 se muestran en la Figura 22.1.
Un primer paso en el examen de una interacción estadísticamente significativa es trazar la celda
medio. Al configurar una gráfica de interacción, la variable dependiente se coloca en el eje y (vertical). Cuando hay
dos variables independientes, una pauta es colocar el atributo
variable independiente (sitio) en el eje x y graficar la variable independiente activa (tipo de
tratamiento) con líneas separadas, como tenemos en la Figura 22.1. En una interacción desordenada, las líneas
en la cruz del gráfico. Se dice que una interacción es ordinal si las líneas claramente no son paralelas sino
no cruzar dentro del gráfico. Cuando no hay interacción, las líneas son aproximadamente
paralelos entre sí. Aunque un gráfico de los datos es informativo para guiar la interpretación,
La significación estadística sólo puede determinarse mediante procedimientos estadísticos de seguimiento.
Una forma de realizar estos procedimientos estadísticos se denomina análisis de efectos principales simples.
con comparaciones post hoc. El análisis de efectos principales simple es un procedimiento estadístico que toma
ventaja de la información ya recopilada a partir del cálculo del ANOVA de dos factores.
0
Terapia de comportamiento
–0,5 Comparación comunitaria
–1
ibo
saom a
mtn íC
snoe
sl
–1,5
–2
–2,5
Sitio 1 Sitio 2 Sitio 3
Figura 22.1
Hallazgos hipotéticos para un diseño simplificado 2 × 3 que muestra una interacción estadísticamente significativa.
Realizar efectos principales simples es similar a realizar ANOVA de un solo factor en cada una de las
dos variables independientes de la figura 22.1, un nivel a la vez. Si se realizaran efectos principales
simples para la variable independiente de sitio, habría tres efectos principales simples, uno para cada
sitio. Cada efecto principal simple se probaría para determinar si existía una diferencia significativa
entre la terapia conductual y la comparación comunitaria.
En nuestro ejemplo hipotético, no hubo un efecto principal simple significativo para el sitio 1 o el sitio 2,
pero sí hubo un efecto principal simple significativo para el sitio 3. Podríamos concluir que la interacción
estadísticamente significativa resultó de que a los niños del sitio 3 les fue mejor (más reducción de los
síntomas) de la terapia conductual que de los recursos comunitarios, mientras que los estudiantes del
sitio 1 y del sitio 2 no difirieron en los dos tratamientos.
Se podría haber realizado un análisis simple de los efectos principales para las dos condiciones de
tratamiento en lugar de las tres condiciones del sitio. Sin embargo, si hubiera diferencias estadísticamente
significativas para cualquiera de las condiciones de tratamiento, se tendrían que realizar análisis de
seguimiento post hoc, porque hay tres niveles en cada una de las condiciones de tratamiento. Estos
análisis post hoc serían similares a los analizados en el Capítulo 20, en la sección sobre ANOVA de un
solo factor.
Análisis de diseños 2 × 2 cuando ambas variables independientes son atributos Se debe
tener precaución cuando hay dos variables independientes y ambas son variables independientes de
atributos. La cuestión es de interpretación de los resultados si la elección del análisis es un ANOVA de
dos factores. El problema subyacente es que cuando ambas variables independientes son atributos,
puede haber una correlación entre las dos variables, confundiendo los resultados. Dado que no implica
manipulación de ninguna de las variables independientes, esta correlación podría llevar a una
interpretación errónea de los resultados (ver Pedhazur y Schmelkin, 1991, pp. 537538).
Los estudios que examinan dos variables independientes de atributos con ANOVA de dos factores
no son infrecuentes. Por ejemplo, Poole, Chiappisi, Cordova y Sibbitt (2007) estaban interesados en la
calidad de vida de las mujeres indias americanas y las mujeres blancas con y sin artritis reumatoide.
Las dos variables independientes, el origen étnico y la artritis reumatoide, son variables independientes
de atributos. Se deben considerar dos cuestiones. En primer lugar, ¿existe una relación entre el origen
étnico y la artritis reumatoide? En segundo lugar, ¿existen otras variables subyacentes?
¿Qué podría explicar los resultados del estudio? A menudo, como en el presente caso, no se está seguro
de estas posibles relaciones. La mejor práctica es tener cuidado al interpretar los resultados del análisis y
evitar inferencias sobre causa y efecto.
El análisis de varianza de dos factores dentro de los sujetos (medidas repetidas) Un diseño
con dos variables independientes, donde ambas variables son variables independientes dentro de los
sujetos (o de medidas repetidas), es mucho menos común que el diseño de dos factores entre grupos. .
Dado que es relativamente raro, abordaremos brevemente el diseño y el análisis. Un ejemplo de Fuller,
Thomas y Rice (2006) demuestra el uso del diseño intrasujetos de dos factores. Estos investigadores
estaban interesados en la recuperación del movimiento del brazo afectado en personas que habían sufrido
un accidente cerebrovascular (ictus).
Específicamente, los investigadores querían observar el movimiento del brazo en condiciones de alto y
bajo riesgo percibido , con el brazo afectado y el no afectado. Sólo había un grupo de participantes que
había sufrido un accidente vascular cerebral (ACV). Hubo dos variables independientes para este estudio.
La primera variable independiente fue el nivel de riesgo percibido con dos niveles. Los niveles eran de alto
riesgo (transportar un huevo crudo desde una caja de huevos a un recipiente con otros huevos) y condición
de bajo riesgo (transportar huevos de plástico desde la caja de cartón al recipiente). La segunda variable
independiente fue la extremidad, afectada y no afectada.
Una de las variables dependientes fue el tiempo de movimiento (TM).
El análisis para este diseño es un análisis de varianza de dos factores con medidas repetidas en ambos
factores. Si bien los cálculos y los grados de libertad asociados son diferentes del ANOVA de dos factores
entre grupos, los resultados son los mismos; es decir, hay dos efectos principales y un efecto de
interacción. De manera similar a la interpretación del ANOVA de dos factores entre grupos, si hay un
efecto de interacción significativo, entonces ese debería ser el enfoque. Fuller y cols. (2006) encontraron
un efecto principal estadísticamente significativo para el riesgo, donde la condición de alto riesgo produjo
un tiempo de movimiento significativamente más lento que la condición de bajo riesgo. También
encontraron un efecto principal estadísticamente significativo para el brazo, ya que el brazo afectado
produjo tiempos de movimiento más lentos que el brazo no afectado. Sin embargo, no hubo ningún riesgo
estadísticamente significativo por el efecto de interacción del brazo. Los autores informaron los resultados
de la siguiente manera: "El cambio en la MT media de la condición de mayor riesgo a la condición de
menor riesgo para la extremidad afectada no fue significativamente diferente para la misma comparación
con la extremidad no afectada".
El diseño factorial mixto (de parcela dividida)
En esta sección y en la siguiente, analizamos el análisis de diseños que tienen al menos una variable
independiente que es una variable independiente entre grupos y una variable independiente que es una
variable de medidas repetidas. variable independiente. El primer diseño, el diseño factorial mixto, aunque
es relativamente raro, se utiliza a menudo en una situación de diseño cruzado (véase el Capítulo 18).
Ofrecemos un ejemplo de esa situación. El segundo diseño, el diseño de grupo de control pretestpostest,
o su contraparte cuasiexperimental, el diseño de grupos de comparación no equivalentes pretestpostest,
son mucho más comunes, y en la siguiente sección dedicamos considerable detalle al análisis de estos
diseños. .
El diseño factorial mixto tiene una variable independiente entre grupos y una variable independiente
dentro de los sujetos o de medidas repetidas que no es el tiempo. De manera similar al ANOVA de dos
factores entre grupos y al ANOVA de dos factores dentro de los sujetos, el ANOVA mixto proporciona un
resultado que tiene dos efectos principales y un efecto de interacción.
Si bien los cálculos son diferentes (el ANOVA mixto tiene dos términos de error), el método
La forma de interpretar el análisis se centra primero en el efecto de interacción, similar a los ANOVA
de dos vías discutidos anteriormente. Tebben y Jepsen (2004) utilizaron un enfoque cruzado para
examinar la posición de la muñeca con dos herramientas de jardinería diferentes (paletas): una paleta
de diseño ergonómico y una paleta de diseño estándar. En su estudio, los participantes fueron
asignados aleatoriamente a uno de dos grupos diferentes. Un grupo realizó la tarea de llenar macetas
con tierra utilizando primero la llana de diseño ergonómico y luego la llana de diseño estándar,
mientras que el otro grupo realizó la tarea en orden inverso, utilizando primero la llana de diseño
estándar. Sus variables dependientes incluyeron medidas de preferencia y movimiento de la muñeca.
El enfoque obvio de este diseño es la comparación de las dos paletas, una variable intrasujetos ya
que todos los participantes se sometieron a ambas condiciones. Sin embargo, no se puede descartar
el efecto de orden. En otras palabras, ¿es posible que el uso de un tipo de llana afectara primero el
uso de la otra? Estos tipos de resultados se denominan efectos de transferencia asimétricos y es
necesario comprobarlos. Por tanto, un ANOVA mixto de dos factores proporcionaría esa información
además del efecto del tratamiento. Cabe señalar que también se podría utilizar un análisis de cuadrado
latino para probar los efectos de orden con las dos variables secuencia por orden (ver Rosenthal y
Rosnow, 1991, págs. 400401).
Diseños de grupos de comparación antes y después de la prueba: análisis e
interpretación El diseño de grupos de comparación
antes y después de la prueba Este diseño es un diseño experimental aleatorio y uno de los métodos
más utilizados para evaluar la investigación clínica, pero a menudo se sobreanaliza y se realiza más
de un análisis. cuando uno es suficiente. Discutimos los enfoques paramétricos que se utilizan a
menudo para analizar este diseño y las fortalezas y limitaciones de cada enfoque. Luego comentamos
sobre enfoques no paramétricos comunes.
El caso más simple del diseño de grupo de comparación pretestpostest tiene un grupo de
tratamiento y un grupo de comparación. Antes de la prueba previa, los participantes son asignados
aleatoriamente a grupos o condiciones. La asignación aleatoria es una característica importante del
diseño de grupo de comparación pretestpostest y lo separa de los diseños de grupo no equivalentes
(no aleatorizados), que son cuasiexperimentos. Cada grupo se mide antes de la intervención y
después de la intervención. Normalmente, un grupo recibe un tratamiento nuevo y el otro grupo recibe
el tratamiento habitual o un placebo. El propósito de este diseño es permitir al investigador evaluar un
nuevo tratamiento en relación con el tratamiento utilizado anteriormente o ningún tratamiento.
El diseño se clasifica como diseño mixto porque hay dos variables independientes, una variable
independiente entre grupos, el tratamiento, y una variable independiente dentro de los sujetos o de
medidas repetidas, que cambian con el tiempo de la prueba previa a la prueba posterior. El tiempo es
una variable independiente dentro de los sujetos porque se registran dos o más medidas para cada
persona. Aunque la descripción más simple del diseño tiene dos niveles de tratamiento y dos niveles
de tiempo, no es raro tener tres niveles de tratamiento, como dos tratamientos y un grupo de control,
o más de dos medidas repetidas. El número de niveles de una variable independiente marca la
diferencia en el tipo de análisis seleccionado, al igual que la escala de medición de la variable
dependiente.
Comenzamos con el ejemplo del estudio de Miller, Coll y Schoen (2007). El objetivo de este estudio
fue evaluar un tratamiento de terapia ocupacional de integración sensorial para niños con trastorno
de modulación sensorial. Para determinar la efectividad del enfoque de integración sensorial, se
estableció un diseño de grupo de comparación pretestpostest. Hubo tres niveles de la variable
independiente entre grupos: terapia de integración sensorial,
Tabla 22.4
Cambiar puntuaciones de la prueba previa a la prueba posterior (10 semanas)

sobre la medida de atención LeiterR
norte Significar Dakota del Sur
Integración sensorial 7 1,57 2.37
Actividad 10 .10 1.10

Sin diferencia de tratamiento 7 –.43 1.27
Fuente: Los datos provienen de Miller, LJ, Coll, JR y Schoen, SA.

Revista estadounidense de terapia ocupacional, 61, 2007, 228–238.
terapia de actividad y ningún tratamiento. El tiempo, la variable independiente de medidas repetidas,

Fueron 10 semanas desde el pretest hasta el postest. Si bien había muchas variables dependientes en este
Estudiamos, para nuestros propósitos, la atención medida por el Leiter International Performance
Se examina la escala revisada (LeiterR). Los participantes fueron asignados aleatoriamente a uno de los
tres grupos, lo que hace que este sea un diseño de grupo de comparación pretestpostest. Las mejores prácticas
sugieren tres enfoques diferentes para el análisis del grupo de comparación pretestpostest
diseño: (1) el enfoque de puntuación de ganancia; (2) el enfoque ANOVA mixto; y (3) el análisis de
enfoque de covarianza (ANCOVA).
Enfoque de puntuación de ganancia o cambio
Este es el enfoque más sencillo para el análisis de este diseño. La puntuación de ganancia
El enfoque implica restar los puntajes previos a la prueba de los puntajes posteriores a la prueba dentro de cada
grupo. Molinero y cols. (2007) utilizaron este enfoque, que cambia el diseño de un modelo mixto
diseño a un diseño de un solo factor. Al restar las puntuaciones se creó una sola variable independiente con tres grupos
o niveles: el grupo de integración sensorial (SI), el grupo de actividad y el grupo de actividad.
grupo sin tratamiento. Las puntuaciones de ganancia se convierten en la variable dependiente. La tabla 22.4 muestra la
obtener puntuaciones para los tres grupos. Como se informa en la Figura 19.3 (Capítulo 19), el análisis adecuado para
este diseño es un análisis de varianza de un solo factor, que prueba si las medias
de las puntuaciones de ganancia para los tres grupos son iguales. Sin embargo, hay que tener cuidado cuando
utilizar el enfoque de puntuación de ganancia porque la confiabilidad de las puntuaciones de ganancia a menudo es
sospechosa, especialmente si no hay evidencia de una confiabilidad sólida del instrumento de medición. Ellos
encontró una diferencia significativa entre los grupos, y el grupo SI tuvo un desempeño significativamente
mejor que el grupo de control sin tratamiento (p < 0,03) y el grupo de actividad (p < 0,07). Es
Supuso que estas diferencias se evaluaron con algún tipo de prueba post hoc después de
un ANOVA significativo.
Enfoque mixto de análisis de varianza
El método ANOVA mixto es un enfoque menos común para el análisis del pretestpostest.
diseño de grupos de comparación. Este análisis parece ser el análisis adecuado en esta situación,
porque el diseño es un diseño mixto, pero esto es engañoso. Como hay dos independientes
variables en este diseño, el análisis arroja tres razones F diferentes : (1) entre grupos; (2)
cambian con el tiempo; y (3) interacción entre tratamiento y tiempo. La única F de interés para
este diseño es el tratamiento por interacción temporal. Se ha demostrado que la interacción
F proporciona información idéntica a la puntuación de ganancia t (o F si hay más de dos grupos),
que, como se demostró en el párrafo anterior, es un enfoque más sencillo. Por lo tanto, hacemos
No recomendamos el análisis ANOVA mixto del diseño de comparación pretestpostest.
Análisis de covarianza
Este enfoque, favorecido por muchos investigadores, es un método estadístico utilizado para reducir la
varianza del error. Cuando se utiliza en el análisis del diseño del grupo de comparación pretestpostest, el
ANCOVA, al igual que el análisis de puntuación de ganancia, cambia el diseño de un diseño mixto a un
diseño de un solo factor. El ANCOVA utiliza las diferencias en las puntuaciones previas a la prueba entre
condiciones para reducir la varianza del error ajustando las puntuaciones posteriores a la prueba. Una vez
que se han realizado estos ajustes a las puntuaciones posteriores a la prueba, el análisis se aplica sólo a las
puntuaciones posteriores a la prueba. El uso de ANCOVA en el diseño del grupo de comparación pretest
postest permite al investigador utilizar el pretest como covariable y ajustar las puntuaciones postest basándose
en una relación lineal significativa entre las puntuaciones pretest (covariable) y postest (variable). La razón
detrás de este enfoque es que generalmente existen diferencias previas a la prueba entre los grupos de
tratamiento y control antes de la intervención, a pesar de que los participantes fueron asignados aleatoriamente a los grupos
Aunque el enfoque ANCOVA es común en el diseño de grupo de comparación pretestpostest, se deben
cumplir dos supuestos. La primera es que la relación entre las puntuaciones previas y posteriores a la prueba
debe ser lineal. El segundo supuesto es que las pendientes de regresión para cada relación pretestpostest
deben ser homogéneas (las líneas de regresión deben ser paralelas). Este último supuesto a menudo no se
cumple en el análisis del diseño del grupo de comparación pretestpostest, lo que genera dos problemas. En
primer lugar, las investigaciones a menudo se informan utilizando ANCOVA sin satisfacer este supuesto, lo
que invalida las conclusiones. En segundo lugar, el investigador, después de descubrir la infracción, debe
volver a analizar los datos utilizando uno de los otros enfoques mencionados anteriormente. Tenga en cuenta
que se ha recomendado una solución diferente que utiliza ANCOVA mediante regresión múltiple (véase
Morgan, Gliner y Harmon, 2006, p. 220).
Los tres enfoques son aceptables (puntuación de ganancia, ANOVA mixto y ANCOVA). Sin embargo, el
enfoque de puntuación de ganancia utilizado por Miller et al. (2007) parece el más apropiado para este
ejemplo, especialmente considerando el pequeño tamaño de la muestra.
Cuando los datos que se analizarán en el diseño del grupo de comparación pretestpostest son ordinales
(y no están distribuidos normalmente) o nominales/dicotómicos, se deben realizar análisis no paramétricos.
Con datos ordinales, se podría utilizar un enfoque de puntuación de ganancia. Entonces se aplicaría una U
de MannWhitney si solo hay dos condiciones, o se usaría una prueba de KruskalWallis para más de dos
condiciones. ANCOVA no se puede utilizar en esta situación.
A menudo, cuando se considera la importancia clínica, los datos posteriores a la prueba se dicotomizan
basándose en un punto de corte clínicamente relevante y luego se realiza un análisis estadístico. Se
recomienda que si los datos continuos se van a dicotomizar por relevancia clínica, entonces los índices de
tamaño del efecto de potencia del riesgo, como el número necesario a tratar o el cociente de riesgo absoluto,
se informen sin pruebas de significancia.
Diseños de grupos no equivalentes (intactos) con una prueba previa y una prueba
posterior Una característica esencial del diseño de grupo de comparación antes y después de la prueba que
acabamos de comentar es la asignación aleatoria de los participantes a los grupos. Cuando esta característica
no se puede lograr (por ejemplo, usar diferentes hospitales o aulas como grupos intactos), el diseño es
cuasiexperimental y se lo denomina diseño de grupos no equivalentes con una prueba previa y una prueba
posterior. Penningroth, Despain y Gray (2007) proporcionan un ejemplo de este tipo de diseño. Estaban
interesados en el impacto de un curso diseñado para mejorar el pensamiento psicológico crítico. Los
estudiantes del nuevo curso llamado Ciencias Psicológicas (PS) eran aquellos que ya habían tomado un
curso de psicología general o estaban actualmente matriculados en un curso de psicología general. El grupo
de control estuvo formado por estudiantes que actualmente estaban matriculados en una carrera de psicología general.
curso. El tipo de curso con dos niveles fue la variable independiente entre grupos. Todos los estudiantes
fueron medidos al inicio y al final del semestre. Por lo tanto, la segunda variable independiente, una
variable independiente de medidas repetidas, fue el tiempo. La variable dependiente fue una medida de
pensamiento crítico llamada Examen de Pensamiento Crítico Psicológico (PCTE), que se administró al
principio y al final del semestre a todos los estudiantes. Dado que los participantes estaban en grupos
intactos, el diseño fue un diseño de grupo no equivalente con una prueba previa y una prueba posterior.
De manera similar al análisis del diseño del grupo de control pretestpostest ya descrito, hay tres
métodos que a veces se utilizan para analizar este diseño. Sin embargo, el ANCOVA no debe aplicarse
en este caso porque no se puede suponer que las medias poblacionales en la covariable sean iguales
ya que los participantes no fueron asignados aleatoriamente a los grupos (Huck, 2008). Por tanto, las
medias ajustadas después de la prueba podrían estar sesgadas. El método de puntuación obtenida
también presenta problemas porque no proporciona suficiente información sobre las puntuaciones previas a las pruebas
Nuevamente, dado que los participantes no fueron asignados aleatoriamente a los grupos, no se puede
suponer que las diferencias en las puntuaciones de las pruebas previas sean imparciales. Por lo tanto,
el ANOVA mixto parece proporcionar la mayor información para el análisis de este diseño. Penningroth
y cols. (2007) analizaron su diseño utilizando un ANOVA mixto de dos factores. Había dos niveles de
grupos y dos niveles de tiempo. Hubo una variable independiente entre grupos y una variable dependiente.
Si bien encontraron efectos principales significativos tanto para el grupo como para el tiempo, el hallazgo
más importante fue la interacción grupo por tiempo estadísticamente significativa. Las comparaciones
planificadas revelaron que no hubo diferencias estadísticamente significativas entre los dos grupos en la
prueba previa, pero sí en la prueba posterior, donde el grupo PS obtuvo puntuaciones más altas.
Se debe tener cuidado al interpretar los datos del diseño de grupo no equivalente con una prueba
previa y una prueba posterior debido a las posibles confusiones de los grupos intactos. Stevens (1999)
señaló: “El hecho es que inferir causaefecto a partir de grupos intactos es traicionero, independientemente
del tipo de análisis estadístico. Por lo tanto, la tarea es hacer lo mejor que podamos y tener mucha
precaución…” (p. 324).
Análisis e interpretación de preguntas asociativas complejas Uso e interpretación de la
regresión múltiple La regresión múltiple es un método
estadístico utilizado con frecuencia para analizar datos cuando hay varias variables independientes y
una variable dependiente. Aunque puede usarse en lugar del análisis de varianza, se usa más
comúnmente en el enfoque asociativo. Por ejemplo, Zamboanga, PadillaWalker, Hardy, Thompson y
Wang (2007) estaban interesados en la predicción del rendimiento en los exámenes basándose en la
formación académica de los estudiantes y su participación en el curso. Plantearon la hipótesis de que la
participación en el curso basada en la asistencia a clase predeciría el desempeño en los exámenes en
preguntas basadas en conferencias y que la formación académica predeciría el desempeño en los
exámenes en preguntas basadas en texto.
En este ejemplo, las variables independientes, a las que en la regresión múltiple se hace referencia como
variables predictivas, son la puntuación ACT autoinformada, el promedio de calificaciones (GPA), el
número de cursos psicológicos anteriores tomados, el género, el año escolar y la asistencia a
conferencias. La variable dependiente en la regresión múltiple se llama variable criterio o de resultado.
En este estudio hubo en realidad tres variables dependientes: el desempeño en las clases magistrales
preguntas, desempeño en preguntas basadas en texto y desempeño total en exámenes. Se realizó

un análisis de regresión múltiple por separado para predecir cada una de estas variables dependientes.
Sin embargo, para nuestros propósitos, nos centramos en el rendimiento total en los exámenes como
variable dependiente. La regresión múltiple fue apropiada para este análisis porque las variables tienen
una distribución aproximadamente normal (algunas variables predictivas podrían ser dicotómicas) y la
pregunta de investigación preguntó cómo se combinaban las muchas variables independientes para
predecir la variable dependiente.
Correlación y regresión bivariada En el
capítulo 20 analizamos cómo la fuerza de la relación entre dos variables continuas podría indicarse
con un coeficiente de correlación momentoproducto de Pearson. Por ejemplo, en Zamboanga et al.
(2007), la correlación productomomento de Pearson entre la puntuación ACT y el rendimiento en el
examen fue r = 0,53, p < 0,01. Según Cohen (1988), esto indica un efecto grande, algo mayor de lo
típico en las ciencias del comportamiento. Un paso adicional sería formar una ecuación de regresión
bivariada (dos variables) para que se pudiera predecir el desempeño de un estudiante en los exámenes
a partir de puntajes ACT anteriores. Esto se conoce como regresión lineal simple (o bivariada). Por lo
tanto, si conociera los puntajes ACT de los estudiantes, podría predecir su desempeño futuro en los
exámenes. ¿Que tan bien? El r2 da una indicación, que en este ejemplo sería 0,28. ¿Cómo
interpretamos r2 en esta situación?
El r2 es la cantidad de varianza compartida entre las dos variables. Podríamos decir que existe
alguna relación subyacente, que es común tanto a la puntuación del ACT como al rendimiento en los
exámenes y que explica alrededor del 28% de la varianza. Otra forma de ver el problema es centrarse
en la puntuación del examen, que en este caso es la variable Y. A la variable dependiente la llamamos
Y o, en regresión, variable criterio. La puntuación ACT se conoce como variable independiente o
variable predictiva. A partir de estos datos, podemos concluir que la puntuación del ACT representa
sólo el 28% de la varianza de la puntuación del examen. Mirándolo desde otra dirección, podríamos
decir que el 72% de la varianza en la predicción de la puntuación del examen de un estudiante no se
explica o podría explicarse por otras variables. Esto conduce a una regresión múltiple, que incluye
agregar variables independientes para mejorar la predicción de la variable dependiente o criterio.
De manera similar a la correlación productomomento de Pearson, en la regresión múltiple se calcula

una R múltiple; es una correlación de la combinación de las variables independientes con la variable
dependiente. El múltiplo R indica qué tan fuerte existe una relación entre las variables predictoras y la
variable criterio. El objetivo es encontrar una combinación lineal de variables independientes que
explique la mayor varianza en la variable dependiente. La regresión múltiple se utiliza para predecir o
explicar la relación entre la combinación lineal de las variables independientes y la variable dependiente.
Al igual que con la correlación, incluso un coeficiente de regresión múltiple alto no significa que las
variables independientes provocaron el cambio en la variable dependiente.
Cálculo de la regresión múltiple El
cálculo de la regresión múltiple comienza a partir de una matriz de correlación entre todas las variables
de interés, incluida la variable dependiente. Luego se crea una combinación lineal de las variables de
modo que se maximiza la correlación general, R, de las variables independientes y la variable criterio,
y se minimiza el error en la predicción. Para cada una de las variables independientes se calcula una
correlación parcial. Esta es una medida de la relación entre la variable independiente y la variable
criterio, manteniendo constantes las demás variables independientes. De las correlaciones parciales,
se obtienen coeficientes no estandarizados
calculado. Estos coeficientes luego se pueden usar para crear una fórmula que sea una combinación lineal de
variables independientes para predecir la variable criterio. Tenga en cuenta que hay muchos
posibles combinaciones lineales basadas en diferentes conjuntos de variables independientes. La regresión
lineal múltiple encuentra la mejor combinación lineal de variables para predecir la variable criterio utilizando sólo
aquellas variables independientes realmente ingresadas en la ecuación.
Si los coeficientes de regresión se convierten a puntuaciones estandarizadas o z, entonces las comparaciones
se puede hacer entre los coeficientes para determinar la fuerza relativa entre cada uno de los
variables utilizadas en un análisis particular. Se calcula un valor de prueba t para examinar la estadística
significancia de la relación de cada una de las variables independientes con la variable criterio. El valor t indica
si la variable independiente contribuye significativamente al
regresión, asumiendo que todas las demás variables independientes están en la ecuación. Tenga en cuenta que
El hecho de que una variable predictiva no sea estadísticamente significativa en un análisis no significa
necesariamente que esa variable deba eliminarse de la ecuación. La variable aún podría
contribuirá al R2 general. Además, es posible, aunque no común,
tienen un R2 significativo, incluso si ninguna de las variables predictoras individuales por sí sola es
estadísticamente significativa.
Hay varios supuestos relacionados con la regresión múltiple. Al igual que con otros inferenciales
estadísticas, si no se cumplen los supuestos, puede haber problemas para interpretar los resultados.
Un supuesto importante de la regresión lineal múltiple es que las variables independientes
están relacionados con la variable dependiente de forma lineal (línea recta). Si los datos no
cumplir con este supuesto (por ejemplo, las variables independientes están relacionadas de forma curvilínea con
la variable dependiente), entonces la regresión múltiple no es apropiada. Otro importante
La condición es que las variables independientes deben estar correlacionadas con la variable dependiente, pero
no altamente correlacionadas entre sí. Si las variables independientes son altamente
correlacionados entre sí, surgirá el problema de la multicolinealidad. Cuando hay
multicolinealidad en los datos, métodos como transformar o combinar variables podrían
cambie los datos para cumplir con esta suposición. La mayoría de los otros supuestos relacionados con múltiples
error de regresión; Los errores deben ser independientes, constantes y normalmente distribuidos.
Los gráficos residuales pueden ayudar a identificar problemas con errores que no cumplen con los supuestos.
En el análisis de regresión múltiple, la variable criterio debe ser aproximadamente normalmente
distribuido, que tiene muchos valores ordenados. Otros dos métodos estadísticos utilizados para predecir una
Más adelante en este capítulo se analizan la variable criterio a partir de varias variables predictoras, el análisis
discriminante y la regresión logística . En estos dos últimos métodos, la variable criterio
tiene categorías nominales; suele ser dicotómico.
Existen varias formas o métodos diferentes de análisis con regresión lineal múltiple.
Los que se analizan aquí son la regresión múltiple jerárquica, la regresión múltiple simultánea, la regresión
múltiple por pasos y todos los modelos posibles.
Regresión múltiple jerárquica
Zamboanga et al. (2007) estaban interesados en predecir el rendimiento general del examen a partir de
las variables predictoras de género, año, ACT, GPA previo, cursos de psicología previos, discusión
sección y asistencia a conferencias. Dos de las variables, género y año, fueron demográficas.
variables y se ingresarían en la regresión múltiple como controles. Las otras variables
fueron consideradas variables predictoras. Por tanto, utilizaron regresión múltiple jerárquica.
Cuando se utiliza la regresión múltiple jerárquica, las variables se ingresan en pasos y el
El cambio en R2 se examina en cada paso. La decisión del orden de entrada de cada variable.
en la ecuación lo decide de antemano el investigador. Generalmente estas decisiones son
basado en una conceptualización cuidadosa del problema y resulta en la prueba de particular
Tabla 22.5
Modelo Jerárquico De Regresión Múltiple Que Predice El Total

Rendimiento del examen (de Zamboanga et al., 2007)
Predictores B SE Beta
Género –.35 .86 –.03

Año .68 .50 .10
ACTO .57 .11 .40**
GPA anterior 1,76 .74 .21*
Cursos previos de psicología. .20 .58 .03
Sección de discusión –.02 .50 –.01
Asistencia a conferencias .73 .20 .31**
*p < .05.
**p < 0,01.
Fuente: Los datos provienen de Zamboanga, BL, PadillaWalker, LM,
Hardy, SA, Thompson, RA y Wang, SC, Enseñanza de la psicología, 34,
2007, 158–162.
hipótesis. En su estudio de 2007, Zamboanga et al. Determinaron que era necesario controlar las variables demográficas,
género y año de clase, por lo que las ingresaron primero. Este se considera el primer paso. En el segundo paso, las
variables independientes/predictoras de ACT, previamente
Se agregaron GPA, cursos previos de psicología, sección de discusión y asistencia a conferencias.
La tabla 22.5 muestra los coeficientes no estandarizados (B) y estandarizados (β o beta) para
cada una de las variables predictoras. También se muestra el nivel de significancia de cada uno de los predictores
(indicados con asteriscos). Para comprender cuánto contribuye cada predictor al R2, se calculan coeficientes
estandarizados (ponderaciones β) para cada predictor. El
El R2 general fue .45. Se consideró que tres de las cinco variables predictivas eran estadísticamente
significativo: GPA previo (p < 0,05), ACT (p < 0,01) y asistencia a conferencias (p < 0,01).
Por lo general, en el caso de la regresión múltiple resulta útil formar una ecuación de regresión. Esto esta hecho
con los coeficientes no estandarizados. La ecuación entonces podría usarse en el futuro para
predecir el desempeño de los estudiantes en los exámenes a partir de estas variables independientes, asumiendo una
muestra similar de participantes.
Regresión múltiple simultánea
En este método, todas las variables predictivas se ingresan simultáneamente en lugar de hacerlo en pasos.
Al igual que con los otros métodos, la mejor combinación lineal de variables se determina utilizando un
Ajuste de mínimos cuadrados, que es un método para maximizar la precisión de la predicción. en mínimos cuadrados
ajuste, la computadora intenta ajustar la línea de regresión de modo que las desviaciones al cuadrado (la distancia
entre las puntuaciones y la línea de predicción) se minimizan. Por lo tanto, la línea de predicción es como
lo más cerca posible de todas las puntuaciones.
Regresión múltiple por pasos
El enfoque de regresión múltiple por pasos es similar a la regresión múltiple jerárquica,

pero es la computadora, en lugar del investigador, la que decide el orden y cuántos predictores potenciales se utilizan.
El procedimiento de regresión por pasos describe cuánto más
cada variable independiente o predictora ha contribuido a la predicción a partir de las variables predictoras ya utilizadas.
Aunque la regresión lineal por pasos tiene mucho sentido conceptualmente, varios
Se han asociado problemas con este enfoque (ver Thompson, 1995, para una reseña crítica).
revisión de este procedimiento). Los investigadores probablemente deberían utilizar este enfoque sólo como una
procedimiento exploratorio. Uno de los problemas básicos de este enfoque es que debido a que
del número potencialmente grande de variables predictivas que podrían ingresarse en el
ecuación, la probabilidad de un error de tipo I es considerablemente mayor que el valor alfa habitual.
de .05. Una segunda objeción, y quizás más importante, al enfoque gradual es
que es la computadora, y no el investigador, quien toma la decisión sobre qué variables
debe incluirse en la ecuación. Este es especialmente el caso cuando uno entra en un gran
número de variables predictoras en el análisis paso a paso sin prestar mucha atención a
hipótesis o teorías particulares. Muchos estadísticos asocian este enfoque con la
término minería de datos o espionaje. En tercer lugar, el enfoque aprovecha posibles pequeñas diferencias en
las correlaciones al ingresar variables y, por lo tanto, no es probable que se replique.
en otra muestra.
Regresión logística y análisis discriminante
Predecir la probabilidad de que un evento ocurra o no, así como identificar las
variables útiles para realizar la predicción, es importante en las ciencias de la salud; es central
arriesgar la investigación. Se pueden utilizar adecuadamente dos técnicas estadísticas para predecir una
variable dependiente dicotómica: análisis discriminante y regresión logística. Estos dos métodos estadísticos
también se pueden utilizar cuando la variable dependiente tiene más de dos categorías,
pero el uso más común es con una variable dependiente dicotómica. Anteriormente analizamos la regresión
lineal, que se utiliza cuando la variable dependiente es continua. discriminante
El análisis se puede utilizar con una variable dependiente dicotómica, pero el método requiere
varios supuestos para que las predicciones sean óptimas. Grimm y Yarnold (1995) proporcionan
capítulos más extensos, pero aún no técnicos, sobre análisis discriminante y sobre logística.
regresión que la que presentamos aquí.
Análisis discriminante
El análisis discriminante se puede utilizar para predecir una variable de resultado dicotómica a partir de una
combinación de varias variables independientes (como las enumeradas en la tabla 22.5). Una ecuación de
predicción de función discriminante es una combinación lineal de las variables independientes.
destinado a discriminar entre los dos grupos de resultados. En el análisis discriminante, la
Las ponderaciones para cada variable independiente se seleccionan en función de qué tan bien clasifican a los
participantes en los dos grupos.
Regresión logística
La regresión logística requiere menos suposiciones que el análisis discriminante. Incluso cuando el
Aunque se cumplen los supuestos necesarios para el análisis discriminante, la regresión logística sigue
funcionando bien, por lo que es la prueba estadística más utilizada en la investigación clínica. en logística
regresión, se estima la probabilidad de que ocurra un evento. Modelos de regresión logística
Puede incluir una o más variables independientes (predictoras) que pueden ser dicotómicas o continuas. La
regresión logística con una variable independiente se llama regresión logística bivariada; con dos o más
variables independientes, se llama regresión logística
regresión logística múltiple. Estos no deben confundirse con la regresión logística multinomial,
donde la variable dependiente tiene más de dos categorías. En este capítulo, el enfoque es
sobre resultados dicotómicos de la variable dependiente con varias variables independientes.

Por lo tanto, nos centramos en la regresión logística múltiple, a menudo llamada simplemente regresión logística.
En la regresión lineal, el coeficiente de regresión representa la cantidad de cambio en la variable dependiente para un
cambio de una unidad en la variable independiente. Los coeficientes de regresión logística generalmente se expresan
como las probabilidades de que ocurra un evento (resultado). La probabilidad de un resultado es la relación entre la
probabilidad de que el resultado ocurra y la probabilidad de que no ocurra. Por lo tanto, si la probabilidad de que ocurra un
evento es 0,8, la probabilidad del evento es 0,8 dividida por la probabilidad de que no ocurra (0,2) o 0,8/0,2 = 4,0. En el
lenguaje cotidiano, esto significa que las probabilidades son de 4 a 1. Una razón de probabilidades (OR) es simplemente la
razón de dos probabilidades. Por ejemplo, si la probabilidad de un evento es 4 para los niños (es decir, el riesgo es 4 de 5
= 0,80) y la probabilidad del mismo evento es 3 para las niñas (es decir, el riesgo es 3 de 4 = 0,75) , el OR que relaciona el
género con el evento es 4/3 = 1,33.
Los odds ratios son fundamentales para la regresión logística, del mismo modo que el coeficiente de correlación es
fundamental para la regresión lineal. El valor nulo de un OR es 1,0 (similar a un coeficiente de correlación de 0) e indica
una asociación aleatoria. Cuando aumenta una asociación positiva, el coeficiente de correlación aumenta de 0 a 1 y el OR
aumenta de 1 a infinito. A medida que aumenta una asociación negativa, el coeficiente de correlación disminuye de 0 a –
1 y el OR disminuye de 1 a 0.
En la regresión logística, se proporcionan pruebas de significancia para cada variable independiente. Como ocurre con
la regresión múltiple, la contribución de las variables individuales en la regresión logística es difícil de determinar. La
contribución de cada variable depende de las otras variables del modelo. Esto es un problema particularmente cuando las
variables independientes están altamente correlacionadas.
Una prueba para determinar si la combinación de variables independientes tiene una capacidad mayor que la probabilidad
de predecir el estado de las personas en función de la variable dependiente en la regresión logística se denomina prueba
de bondad de ajuste. El objetivo es identificar un "buen" conjunto de variables independientes (un modelo) que ayude a
predecir o explicar la pertenencia a un grupo en función de la variable dependiente.
Resumen En
este capítulo analizamos numerosos análisis que son apropiados para diseños complejos.
Son diseños con más de una variable independiente. El capítulo se dividió en dos secciones principales: análisis aplicados
a preguntas de diferencias complejas y análisis aplicados a preguntas asociativas complejas. En su mayor parte, los
análisis cubiertos se consideraron estadísticas paramétricas. La sección sobre preguntas de diferencias complejas incluía
ANOVA de dos factores entre grupos, ANOVA de dos factores dentro de los sujetos y ANOVA mixto (entre y dentro).
Además, dividimos el ANOVA mixto en diseño de parcela dividida y diseños con una prueba previa y una prueba posterior.
Centramos la atención en este último diseño y describimos diferentes métodos de análisis dependiendo de si el diseño era
experimental aleatorio o cuasiexperimental.
En la segunda sección principal de este capítulo analizamos análisis apropiados para responder preguntas asociativas
complejas. El análisis principal de esta sección fue la regresión múltiple. Analizamos tres métodos comunes de regresión
múltiple: jerárquica, simultánea y por pasos. También mencionamos otros dos métodos para analizar diseños asociativos
complejos cuando la variable dependiente es dicotómica: análisis discriminante y regresión logística. A lo largo del capítulo
se proporcionaron ejemplos de literatura reciente.
Conceptos clave
Análisis de covarianza (ANCOVA)
Análisis discriminante
Obtener puntuaciones
Regresión múltiple jerárquica

Efectos de interacción
Regresión logística
Efectos principales
Análisis de varianza mixto (ANOVA)
Regresión múltiple simultánea
Regresión múltiple por pasos

ANOVA de dos factores
ANOVA de dos factores dentro de los sujetos
Distinciones clave
Análisis discriminante versus regresión logística versus regresión múltiple
Regresión jerárquica versus regresión por pasos

Obtenga puntuaciones versus ANOVA mixto versus ANCOVA
Efectos principales versus efectos de interacción
ANOVA de dos factores versus ANOVA mixto
1. Un terapeuta estaba interesado en predecir el éxito en el trabajo después de la terapia. El terapeuta

consideró que una buena medida de la terapia era el número de horas que una persona podía dedicar a
una tarea de trabajo simulada al momento del alta. La mejor medida del éxito en el trabajo real fue el
número de meses en el empleo actual. El terapeuta recopiló datos de expedientes de pacientes anteriores.
¿Qué estadística es apropiada? ¿Por qué? ¿Qué tipo de evidencia para la validez de la medición de la
tarea de trabajo simulada podría obtenerse?
2. ¿Qué es un diseño factorial? ¿Por qué usarías un diseño factorial?

3. ¿Cuál es la diferencia entre un efecto principal y un efecto de interacción?
4. ¿Por qué harías un análisis (ANOVA factorial) en lugar de dos análisis separados (p. ej., pruebas t )
cuando tienes dos variables independientes, cada una con algunos niveles?
5. ¿Por qué es importante examinar primero los “efectos” de la interacción?

6. Un miembro de la facultad realizó un estudio para determinar quién se desempeñó mejor en su

Clase de investigación: estudiantes de educación o estudiantes de terapia ocupacional. Además, consideró que el
género también podría contribuir. Por ello, llevó a cabo una
estudio retrospectivo (es decir, retrocedió a registros anteriores) y se formaron los siguientes cuatro grupos de 10
estudiantes en cada grupo: educación masculina (ME); educación femenina (EF); OT masculino (MOT); y OT
femenina (FOT). Luego calculó la prueba de la media.
puntuaciones para cada grupo; los medios fueron los siguientes:
YO = 81
FE = 93
MOT = 89
FOT = 84
a. Grafique los datos para ilustrar la interacción.
b. Las sumas de cuadrados de los resultados se encuentran en la siguiente tabla fuente. Completalo.
C. Si se requiere una F de 4,11 para significancia estadística, interprete los resultados.
tabla fuente
Fuente SS df EM F
Importante 420
Género 250
Mayor por género 600
Dentro de los sujetos (error) 5200
7. Un investigador estaba interesado en el efecto del estilo de enseñanza en la percepción de los estudiantes sobre la
credibilidad de su instructor. Un estilo de interés fue el participativo.
Estilo de acción en el que los estudiantes se responsabilizaron de gran parte del material de clase. El otro estilo de
interés fue denominado estilo tradicional, en el que la entrega
del material fue mediante conferencia. Dos instructores del mismo departamento impartieron la
misma clase; un instructor tenía experiencia en el estilo de aprendizaje participativo, mientras que
el otro era hábil en el estilo tradicional. El investigador también pensó que
La edad de los estudiantes puede afectar este proyecto de investigación debido a diferentes expectativas.
entre los estudiantes. El investigador decidió seleccionar tres grupos de edad diferentes.
para el proyecto: jóvenes, medianos y mayores. El investigador realiza un análisis de dos factores.
ANOVA. ¿Qué análisis adicionales debe hacer el investigador para interpretar la
resultados en cada una de las siguientes situaciones?
a. El investigador encuentra un efecto principal significativo para el estilo de enseñanza, pero ningún efecto principal
significativo para la edad o para la interacción del estilo de enseñanza según la edad.
b. El investigador encuentra un efecto principal significativo para la edad, pero no un efecto principal significativo.
efecto para el estilo de enseñanza y ningún estilo de enseñanza por interacción de edad.
C. El investigador no encuentra efectos principales significativos para el estilo de enseñanza o la edad, pero
un estilo de enseñanza significativo por interacción de edades.
d. El investigador encuentra efectos principales significativos para el estilo de enseñanza y la edad y un

Estilo de enseñanza por interacción de edades.
8. Algunos investigadores sostienen que ANCOVA es la estadística más apropiada para usar con
datos pretestpostest. Explicar.
9. Un investigador estaba interesado en los efectos de diferentes tratamientos para las lesiones de espalda en
volver al trabajo. Específicamente, estaba interesada en si aquellas personas que estaban
Los pacientes tratados por lesiones de espalda de forma no invasiva (p. ej., reposo y ejercicio) tendrían un
rendimiento diferente que aquellos que fueron tratados mediante cirugía. Para modelar la vuelta al trabajo
En esta experiencia se utilizó una máquina vibratoria para simular la conducción de maquinaria de gran tamaño.
Una persona que haya sufrido una lesión en la espalda podría permanecer sentada durante largos períodos de tiempo si
no hubo vibración, pero no en condiciones de vibración. Por lo tanto, cada participante en el estudio se sometió
a tres condiciones: conducir con vibración, conducir
sin vibración y simplemente sentado. Había ocho pacientes en el grupo de ejercicio.
y ocho pacientes en el grupo de cirugía. La variable dependiente fue la percepción del dolor: una escala de 10
puntos donde 1 era ningún dolor y 10 era un dolor intolerable. Los significados
fueron los siguientes:
Condición
Tratamiento Sesión Conducir sin vibraciones Conducir con vibración

Ejercicio .33 1.33 3.00
Cirugía .33 3.67 6.00
a. Describa el diseño (p. ej., factorial 2 × 2).
b. ¿Qué tipo de análisis estadístico se realizaría?

C. Trazar los datos.
10. Un profesor de física estaba interesado en demostrar que su nuevo método de

La enseñanza fue superior al método de enseñanza tradicional en el cambio de actitud.
de los estudiantes hacia la física. Antes del inicio del semestre, los estudiantes fueron asignados aleatoriamente
a una de dos secciones iniciales de física: el nuevo método y el
viejo método. Durante el primer día de clase, todos los estudiantes tomaron la “Actitud hacia
Prueba de Física”. Al final del semestre los estudiantes volvieron a tomar esta prueba. Para cada
De los siguientes análisis, explique qué resultado/resultado se utilizaría para respaldar
El argumento del profesor.
a. ANOVA mixto
b. Prueba t de puntuación de ganancia
C. Análisis de covarianza
11. Un consorcio de investigadores quiere analizar algunos de los impactos de la reforma del bienestar.
en individuos/familias que no han recibido asistencia pública durante 2 años. Ellos
tener una muestra multiestatal grande. Para cada participante, un “bienestar económico”
La puntuación del 1 al 10 se calculó como variable de resultado. Los investigadores fueron
interesados en su capacidad para predecir el bienestar económico a partir del nivel de educación anterior, años
de experiencia laboral, disponibilidad de transporte, capacitación recibida mientras
sobre el bienestar y la salud relativa de la economía local (todas medidas dicotómicas o normalmente
distribuidas).
a. ¿Qué tipo de análisis sería apropiado? Explicar.

b. Si los investigadores quisieran saber qué combinación de lo antes mencionado
factores que predicen si un ex beneficiario de asistencia social habrá sido empleado
o no desde que dejaron la asistencia social, ¿qué enfoque analítico deberían utilizar?
Para las preguntas 12 a 15, relacione el análisis con la pregunta particular y explique por qué.
a. ANOVA factorial
b. Regresión múltiple c.
Análisis factorial (consulte el Capítulo 15) d. Regresión
logística 12. Tiene un diseño
de grupo de control pretestpostest. Su variable dependiente es un cuestionario de 50 ítems, que se
entregó a 250 participantes en el grupo de intervención y a 250 participantes en el grupo de no
intervención. El siguiente paso es reducir el número de preguntas a un número menor de variables
compuestas/sumadas.
13. Le interesa predecir si las personas tienen éxito o no cuando regresan al trabajo. Sus variables
predictivas son la fuerza, el rango de movimiento, el coeficiente intelectual y el sexo.
14. Tienes dos variables independientes cada una con tres niveles, y tienes una
variable dependiente normalmente distribuida.
15. Estás intentando predecir el GPA en una escuela de posgrado en un departamento de inglés. Sus
variables predictivas son el GPA de pregrado, las puntuaciones verbales del Graduate Record
Examination (GRE), la puntuación en un inventario de intereses y la edad.
Nota
1. Tenga en cuenta que hay seis niveles nominales de la variable independiente del sitio en lugar de los dos
a cuatro niveles habituales para una estadística de diferencia como el análisis de varianza (ANOVA).
Recuerde del capítulo 18 que una variable independiente nominal con más de cuatro niveles normalmente
se analizaría con un estadístico inferencial de diferencia.
Sección V
Evaluar y escribir
Reportes de investigación
23
Evaluación de la validez de la investigación: Parte I
Un marco para evaluar la validez de la investigación Este
capítulo resume e integra muchos de los conceptos de los capítulos anteriores (especialmente los
Capítulos 8 y 9), lo que lleva a la evaluación de la calidad del diseño y análisis de un estudio cuantitativo
(es decir, la investigación). validez de un estudio completo). Nuestro marco de evaluación utiliza varias
escalas de calificación de la validez de la investigación adaptadas de las desarrolladas por Gliner y
Morgan (2000) y Morgan, Gliner y Harmon (1999, 2006). Aquí discutimos conceptos clave y
presentamos varias figuras y tablas que brindan la información necesaria para realizar una evaluación
integral de la validez de la investigación de un estudio cuantitativo empírico. Los estudios descritos
brevemente en el Capítulo 1 se evalúan utilizando este marco ampliado en el Capítulo 25.
El marco de Cook y Campbell Nuestro
marco se basa en cuatro conceptos de validez de investigación propuestos originalmente por Campbell
y Stanley (1963/1966) y actualizados por Cook y Campbell (1979) y Shadish, Cook y Campbell (2002).
Nuestro plan de evaluación también fue influenciado por el marco What Works Clearinghouse (2006)
llamado Dispositivo de Diseño e Implementación (DIAD) (http://ies.ed.gov/ncee/wwc/pdf/
studydesignclass.pdf) respaldado por Campbell Collaboration. (sin fecha; http://
www.campbellcollaboration.org). El sistema What Works fue diseñado específicamente para evaluar la
investigación de intervención. Una diferencia importante entre nuestro marco y el marco What Works
(y la mayoría de las discusiones de Cook y Campbell) es que nuestro marco está diseñado para ser
utilizado con enfoques de investigación tanto experimentales (es decir, de intervención) como no
experimentales.
Surgieron varias cuestiones utilizando los criterios de validez de Cook y Campbell (1979).
Específicamente, su terminología y sus muchas “amenazas” a la validez plantearon cuatro tipos de
problemas. En primer lugar, había confusión sobre los usos de ciertos términos de investigación
comunes. Por ejemplo, el término validez para Cook y Campbell se refiere al diseño de todo el estudio,
pero un uso más común en la literatura de investigación se refiere a la validez de una medición o
prueba específica. Para hacer las cosas más confusas, dividieron la validez de un estudio en cuatro
aspectos ahora denominados validez estadística, validez interna, validez de constructo y validez
externa (Shadish et. al., 2002).
En segundo lugar, a veces se ha asumido que la validez es todo o nada: un estudio o prueba era
válido o no. Creemos que la validez de la investigación debe evaluarse según una serie de continuos,
de mayor a menor, como se analiza en este capítulo y el siguiente. En tercer lugar, las amenazas
específicas a la validez de Cook y Campbell (1979) eran difíciles de recordar porque muchas de ellas
tienen nombres peculiares (p. ej., historia, interacciones con la selección o mortalidad). En cuarto lugar,
era fácil perder de vista las cuestiones principales porque había muchas amenazas diferentes a la
validez que se referían a situaciones muy específicas, a veces poco comunes. Era fácil no ver el
bosque, sólo los árboles.
341
Otros marcos de evaluación
Muchos de los libros de texto que analizan la evaluación de estudios de investigación tienen un marco más
amplio o menos enfocado que el nuestro, enfatizando cuán completa, apropiada o claramente fueron las
distintas partes (es decir, título, resumen, introducción, resultados y discusión) del artículo. escrito. Aunque
planteamos algunas preguntas de evaluación sobre cómo se redactó el estudio, aquí el énfasis está
mayoritariamente en la sección de método de un artículo, aunque también entra en juego la sección de
resultados. Un estudio mal escrito o insuficientemente justificado puede tener menos impacto que si estuviera
bien escrito, pero una buena redacción no debe sustituir un diseño deficiente. Por lo tanto, enfatizamos el
diseño, el control de variables extrañas, la calidad de la medición y la idoneidad del análisis e interpretación
de los datos.
Por supuesto, la importancia o significado del problema de investigación es una cuestión clave, pero su
evaluación está más allá del alcance de este libro y es mejor que la realicen expertos en contenido en el área
de estudio. (Se proporciona una evaluación indirecta de la importancia del contenido si el artículo se publica
en una revista revisada por pares; consulte la evaluación de la pregunta 17 en el Capítulo 24.)
Un estudio bien diseñado sobre un tema trivial no aportará mucho al conocimiento en un campo.
Por otro lado, un estudio mal diseñado, especialmente si está escrito de manera convincente, puede ser
aceptado sin crítica e incluso hacer retroceder el campo porque los resultados son engañosos.
Nuestro marco de evaluación
Nuestro marco de evaluación se basa en 19 preguntas y ocho escalas de calificación. Algunas de las 19
preguntas solicitan información descriptiva sobre el diseño y otras solicitan una calificación evaluativa. Estas
preguntas están numeradas y presentadas en negrita a lo largo de este capítulo y del Capítulo 24.
Las 19 preguntas se dividen en tres grupos principales. Las preguntas 1 a 8 tratan de describir o nombrar
aspectos clave del diseño y los métodos, incluidas las variables, preguntas/hipótesis de investigación,
enfoque, diseño y respaldo para la confiabilidad y validez de cada medida clave.
El núcleo de la evaluación son las preguntas 9 a 16, que utilizan, en parte, las respuestas a las preguntas
1 a 8 para crear ocho calificaciones evaluativas. Estas calificaciones se dividen en cuatro títulos principales o
aspectos de la validez de la investigación. Etiquetamos estas cuatro dimensiones o aspectos clave de la
validez de la investigación de la siguiente manera: (1) confiabilidad de la medición y estadística (pregunta 9);
(2) validez interna (P10 y P11); (3) validez de medición de los constructos (P12 y P13); y (4) validez externa
(P14 –P16).
Las preguntas 17 a 19 son preguntas de evaluación general sobre la revisión por pares (P17), el vínculo
entre la literatura o la teoría y las preguntas de investigación (P18) y la claridad y precisión del título, resumen
y discusión de los autores, dada la evaluación de los aspectos. de validez de la investigación (P19). Estas
últimas tres preguntas pretenden proporcionar una estimación general de tres aspectos del artículo que no
están bien cubiertos por nuestra evaluación del diseño.
Como se mencionó anteriormente, nuestro marco de evaluación de la investigación mantiene las cuatro
dimensiones de validez de la investigación identificadas por Cook y Campbell (1979), pero modifica de alguna
manera las etiquetas para ayudar a evitar las confusiones ya mencionadas y centrarse en los temas principales.
Antes de discutir estas dimensiones, queremos revisar la confiabilidad y validez en un contexto más amplio.
Hacer esto también debería ayudar a evitar parte de la posible confusión semántica.
Es importante distinguir entre el mérito o valor del estudio en su conjunto (validez de la investigación) y la
calidad de la medición de cada variable o prueba separada utilizada en el estudio (validez de la medición).
Como se muestra en la Figura 23.1, la confiabilidad y validez de las mediciones (dos cuadros superiores) son
diferentes de los aspectos de la validez de la investigación, pero están relacionados con ellos.
Evaluación de la validez de la investigación: Parte I 343
Medición Medición
(1)
Fiabilidad de Validez de
Cada variable (Q7) Cada variable (Q8)
(2) (3)
Medición general Medición general

Interno Externo
Fiabilidad y Validez de los constructos
Validez de la Validez de la
Estadísticas para el para todo el estudio.
Estudio (P10, 11) Estudio (T1416)
Estudio completo (P9) (P12, 13)
Validez general de la investigación del estudio
Figura 23.1
Diagrama esquemático que muestra cómo la validez general de la investigación de un estudio depende de los cuatro aspectos o
dimensiones principales de la validez de la investigación y, a su vez, de la confiabilidad de la medición y la validez de las diversas
variables.
(cuadros del medio), los cuatro determinan la validez de investigación general de un estudio (cuadro inferior).
Dentro de cada casilla, enumeramos el número de la pregunta que utilizamos para evaluar ese aspecto de
validez. La flecha horizontal (1) desde la confiabilidad de la medición (P7) hasta la validez de la medición
(P8) indica que la confiabilidad o consistencia es un precursor necesario (pero no suficiente) para la validez
de una medida. La flecha vertical (2) que va desde la confiabilidad de la medición (P7) hasta la confiabilidad
general de la medición y las estadísticas (P9) indica que un determinante importante de la calidad del análisis
estadístico es la cantidad de evidencia sobre la confiabilidad de los instrumentos específicos utilizados.
Asimismo, la flecha vertical (3) desde la validez de la medición (Q8) hasta la validez de la medición general
de los constructos (Q12 y Q13) indica que esta dimensión depende de la evidencia de la validez de la
medición de todas las variables.
Idealmente, un estudio debería recibir una calificación alta en cada uno de los cuatro principales criterios
de evaluación o dimensiones de validez de la investigación (que se muestran en la fila central de cuadros de
la Figura 23.1). Sin embargo, siempre hay compensaciones y pocos estudios, si es que hay alguno, cumplen
todos los criterios. Además, el peso que los investigadores dan a cada uno de los criterios varía. Por ejemplo,
los investigadores experimentales, especialmente los investigadores médicos que realizan ensayos clínicos
aleatorios y metanálisis para la práctica basada en evidencia, dan más peso a la validez interna. Los
investigadores de encuestas tienden a valorar la validez externa poblacional y los investigadores cualitativos
valoran la validez externa ecológica. Nuestra experiencia indica que los estudios suelen comprometer uno o
más aspectos de la validez externa para lograr una alta validez interna o viceversa.
Análisis del diseño y métodos.

Variables y sus niveles de medición
P1. ¿Cuáles son las variables clave independientes/antecedentes/predictoras? Para cada:
a. ¿Es una variable independiente activa, de atributo o que cambia en el tiempo? b.

¿ Cuál es el número de niveles/categorías de la variable independiente? C. ¿Cuál
es el nivel de medición (nominal, dicotómica, ordinal o aproximadamente normal) de la variable
independiente?
Tabla 23.1
Términos de medición tradicionales y nuestros términos recomendados
Nuestro término Nuestra definición Término tradicional Definición tradicional
Nominal Tres o más desordenados Nominal Dos o más categorías desordenadas

categorías.
Dicotómica Dos categorías, ya sea ordenadas o N/A N/A

desordenado.
Ordinal Tres o más niveles ordenados , pero Ordinal Niveles ordenados , en los que
la distribución de frecuencia de la diferencia de magnitud entre
las puntuaciones no son normalmente Los niveles no son iguales.
distribuido, probablemente marcadamente
sesgado.
Aproximadamente Muchos (al menos cinco) niveles ordenados Intervalo y proporción Intervalo: niveles ordenados , en los que
normal o puntuaciones, con la frecuencia la diferencia entre niveles es
distribución de las puntuaciones siendo iguales, pero no existe un cero verdadero.

aproximadamente normalmente Ratio: niveles ordenados ; la diferencia
repartido. entre niveles es igual, y hay
es un verdadero cero.
En el Capítulo 3, hacemos una distinción importante entre variables independientes activas (a veces llamadas
manipuladas) y variables independientes de atributos o predictoras que son características de los participantes.
Esta distinción es importante porque divide los resultados cuantitativos.
estudios de investigación de dos tipos principales: experimentales (con uno o más activos independientes
variables) y no experimentales (con sólo variables de atributos). Ver Figura 4.1 y Figura 4.2.
para obtener más detalles sobre esta distinción y sus implicaciones.
La Tabla 23.1 (que es la misma que la Tabla 10.1 y está basada en Kraemer, comunicación personal, 1999)
proporciona definiciones para los términos de medición tradicionales y cómo se aplican.
difieren de los nuestros. El Capítulo 10 proporciona más detalles sobre por qué los usamos un poco.
términos de medición no tradicionales y también más información sobre las variables y sus
medición. En los experimentos, el nivel de medición de la variable independiente activa generalmente no se
indica, pero a menudo es dicotómico o nominal, lo que produce dos o más
grupos para comparar.
P2. ¿Cuáles son las variables dependientes o de resultado clave? Para

cada uno, ¿cuál es el nivel de medición?
La tabla 23.1 se puede utilizar para identificar el nivel o escala de medición. El nivel de medición ayuda a
determinar la idoneidad de las estadísticas utilizadas en el estudio. De nuevo, consulte
Consulte el Capítulo 10 para obtener más detalles.
Hipótesis/preguntas de investigación, enfoques y diseño
P3. ¿Cuáles son las principales preguntas o hipótesis de investigación?
La mayoría de los estudios tienen varias preguntas o hipótesis, a menudo detalladas en la introducción o
sección de método del artículo. El Capítulo 3 y el Apéndice D proporcionan ejemplos de métodos descriptivos,
diferencia, y preguntas de investigación asociativas y los tipos de estadísticas que se utilizan comúnmente con
cada una de ellas. Los capítulos 16 al 22 proporcionan ejemplos concretos de la
preguntas de investigación planteadas por una serie de estudios y discusiones sobre cómo esas preguntas
fueron respondidas con la ayuda de pruebas estadísticas.
experimental Cuasi
Criterios aleatorizado experimental Comparativo Asociacional Descriptivo
asignación aleatoria de Sí No No No solo uno Sin grupos

participantes a grupos grupo)
por el investigador
La variable independiente es Sí Sí No No No
activo (atributo) (atributo) independiente
variable
La variable independiente es Generalmente A veces No No No

controlado por el
investigadora
Número de niveles de Generalmente Generalmente Generalmente Generalmente 5 o No

El independiente 2–4 2–4 2–4 mas ordenado independiente
variableb niveles variable
Relaciones entre Sí Sí Sí Sí No
variables o comparación (comparación) (comparación) (comparación) (relación)
de grupos
a Aunque el control de la entrega de la variable independiente por parte del investigador es una cualidad deseada de los diseños
experimentales aleatorios y cuasiexperimentales, no es suficiente para distinguir entre ellos.
b Esta distinción se hace con fines educativos y sólo es cierta “normalmente”.
Figura 23.2
P4. ¿Cuál es el enfoque de investigación (es decir, descriptivo, asociativo, comparativo,

cuasiexperimental o experimental aleatorio) para cada pregunta?
Recuerde que los estudios con varias preguntas de investigación pueden tener más de una.
acercarse. La figura 23.2 y las respuestas a la pregunta 1 ayudan a decidir qué enfoque se utilizó para
cada pregunta de investigación. Algunos estudios tienen una o varias preguntas de investigación descriptivas,
especialmente sobre las variables dependientes. Sin embargo, casi todos los estudios cuantitativos publicados
en revistas revisadas por pares van más allá del enfoque puramente descriptivo para comparar grupos o
asociar/relacionar variables. Por lo tanto, la mayoría de los estudios también utilizarán uno (o más) de los otros cuatro.
enfoques. Si un estudio tiene una variable independiente activa lo llamaríamos experimental.
estudio incluso si el investigador también hace preguntas utilizando variables independientes de atributos como
como género. Los estudios sin variables independientes activas se denominan no experimentales u observacionales;
a menudo tienen preguntas de investigación comparativas, asociativas y descriptivas.
Identificar el enfoque de investigación es importante debido a su influencia en el entorno interno.
validez de un estudio e inferencias sobre si la variable independiente causó algún cambio
en la variable dependiente. En general, el enfoque experimental aleatorio produce la
mejor evidencia de causalidad. Ni el enfoque comparativo ni el asociativo son
Muy adecuado para proporcionar evidencia sobre las causas. La cuasiexperimentación suele estar en el medio
el enfoque experimental aleatorio y los enfoques comparativos o asociativos.
P5. ¿Cuál es la clasificación general del diseño si el enfoque es experimental aleatorio,

cuasiexperimental o comparativo?
Si el estudio tiene investigaciones experimentales, cuasiexperimentales o comparativas aleatorias.

preguntas, la clasificación del diseño se puede identificar utilizando el Capítulo 18 y la Tabla 18.1. Este
requiere conocer (1) el número de factores (es decir, variables independientes); (2) el número de niveles/
valores de cada factor; y (3) si el diseño es entre grupos, dentro de sujetos (medidas repetidas) o mixto.
Por ejemplo, un diseño podría describirse como un diseño factorial 3 × 2 (mixto) con medidas repetidas en
el segundo factor. Esto significa que hay dos variables independientes, la primera con tres niveles/grupos
y la segunda con dos niveles o, en este caso, medida en dos tiempos porque hay medidas repetidas. Esta
clasificación de diseños se aplica no sólo a los enfoques experimentales aleatorios y cuasiexperimentales
(lo cual es típico), sino también a preguntas de enfoque comparativo, donde no existe una variable
independiente activa/manipulada. Tenga en cuenta que el diseño mixto 3 × 2 mencionado podría ser el
típico diseño experimental o cuasiexperimental pretestpostest con tres grupos (por ejemplo, dos
tratamientos y un control), o podría ser un diseño longitudinal (dos edades) que compare tres tipos de
participantes (p. ej., apegados de forma segura versus evitativos versus desorganizados) a lo largo del
tiempo.
P6. ¿Cuál es el nombre del diseño experimental específico si el enfoque es

experimental aleatorio o cuasiexperimental?
Los nombres de diseños experimentales o cuasiexperimentales aleatorios específicos se proporcionan en

la Figura 5.1, un diagrama esquemático general de la mayoría de los diseños comunes y sus nombres (ver
también el Capítulo 5). Por ejemplo, los ensayos clínicos aleatorios (ECA) suelen utilizar diseños de grupos
de control antes y después de la prueba.
Tenga en cuenta que si la pregunta/hipótesis de investigación específica y el enfoque son asociativos,
las preguntas 5 y 6 no son aplicables. En el enfoque asociativo, el análisis normalmente se realizará con
algún tipo de correlación o regresión múltiple.
Confiabilidad y validez de la medición para cada variable clave Las
preguntas 7 y 8 requieren una evaluación basada en el principio de que en un buen estudio cada variable
clave debe medirse de manera confiable y válida. Por lo tanto, se deben evaluar estos aspectos de cada
variable medida. Los capítulos 11 y 12 analizan la confiabilidad y validez de las mediciones y señalan que
los instrumentos no son válidos o inválidos per se. Los datos que produce un instrumento son confiables y
válidos hasta cierto punto, para algún propósito y con cierta población, según la evidencia disponible.
P7. ¿Es aceptable la confiabilidad de la medición para cada variable clave?
a. ¿Qué tipos de evidencia de confiabilidad se presentan? b. ¿Es

aceptable la evidencia o el respaldo para cada variable clave?
P7a. ¿Se citaron u obtuvieron pruebas de testretest, formas paralelas, consistencia interna o confiabilidad
entre evaluadores? La tabla 23.2 y el capítulo 11 ayudan a identificar qué tipos de evidencia de confiabilidad
se proporcionaron. Tenga en cuenta que las variables independientes activas (es decir, intervenciones) y
las variables demográficas rara vez tienen información sobre la confiabilidad o validez de la medición, pero
sería deseable saber si el tratamiento se administró de manera consistente (confiable) y válida.
Sin embargo, para la mayoría de las variables independientes de atributos y para las variables dependientes,
la sección de método debe informar alguna evidencia que respalde la confiabilidad de la medición. Esta
evidencia podría basarse en la literatura que utiliza el instrumento o en la evidencia recopilada en este
estudio. Es deseable que al menos parte de la evidencia provenga de la población actual.
Tabla 23.2
Fiabilidad y validez de la medición (para Q7a y Q8a)

Fiabilidad de la medición: estabilidad Validez de la medición: exactitud
o consistencia o corrección
Las puntuaciones de los participantes son iguales o La puntuación refleja/mide con precisión lo que fue diseñada o pretendida. Se pueden utilizar
muy similares de un momento de prueba a otro. Hay varias fuentes de evidencia para respaldar la validez de una medida:
evidencia de confiabilidad de:
evidencia de contenido
Respuestas de los participantes Todos los aspectos del constructo están representados en proporciones apropiadas.
Fiabilidad testretest: estabilidad en el tiempo
Fiabilidad de formas paralelas: coherencia entre
Evidencia basada en procesos de respuesta
versiones presumiblemente equivalentes del instrumento
Evidencia basada en estructura interna.
Consistencia interna: los elementos que se van a Factorial: el análisis factorial produce una solución teóricamente significativa
combinar están relacionados entre sí.
Evidencia basada en relaciones con otras variables
Respuestas de los observadores Convergente: según la teoría, las variables que se predice que están relacionadas están
Fiabilidad entre evaluadores: diferentes observadores o relacionadas
evaluadores otorgan puntuaciones similares Discriminante: las variables que se predice que no estarán relacionadas no lo están.
Evidencia relacionada con los criterios
Predictivo: La prueba predice algún criterio en el futuro.

Concurrente: La prueba y el criterio se miden al mismo tiempo.
Generalización de validez
Evidencia basada en las consecuencias de las pruebas.
P7b. ¿ Qué tan sólida es la evidencia de la confiabilidad de la medición para cada variable clave?
Generalmente se considera necesario un coeficiente de confiabilidad de 0,70 o más para que una
variable se mida con una confiabilidad aceptable, pero en un estudio complejo unos pocos coeficientes
de confiabilidad entre 0,60 y 0,69 son comunes y marginalmente aceptables. La tabla 23.3 proporciona
un método para evaluar la evidencia de la confiabilidad de la medición de cada medida.
¿Se informaron los coeficientes de confiabilidad? Es deseable, aunque relativamente poco común,
que los investigadores informen más de un tipo de evidencia de confiabilidad (p. ej., tanto testretest
como consistencia interna) para cada medida. Si los instrumentos hubieran sido utilizados anteriormente,
el autor sólo podrá hacer referencia a otro estudio y no proporcionar coeficientes reales; en este caso,
probablemente sea razonable suponer que la confiabilidad fue adecuada. Sin embargo, los investigadores
que planeen utilizar un instrumento en su investigación deben obtener los documentos citados y
verificar personalmente la evidencia.
P8. ¿Es aceptable la evidencia de la validez de la medición para cada variable clave?
a. ¿Qué tipos de evidencia para respaldar la validez de la medición se reportan? b.

¿Es aceptable la evidencia o el respaldo para cada variable clave?
P8a. La tabla 23.2 proporciona un resumen de los tipos de evidencia para la validez de las mediciones
que se analizaron en el Capítulo 12. En términos de la validez de cada medida, los autores a menudo
solo citan estudios previos que utilizaron el instrumento sin proporcionar detalles sobre la evidencia
numérica para la validez; Parece razonable suponer que dichos estudios publicados proporcionaron
evidencia aceptable, pero es prudente ser cauteloso al evaluar la validez, especialmente de las medidas
de autoinforme.
Tabla 23.3
Evaluación de la confiabilidad de la medición

Coeficientes (para P7b)
Coeficiente
de correlación Soporte para la confiabilidad
+.90 Aceptablea
+.80 Aceptableb
+.70 Aceptableb
+.60 Marginalmente aceptableb
+.50 Inaceptable
+.30 Inaceptable
+.10 Inaceptable
–.10 No aceptablec
>–.50 No aceptablec
Nota: La significancia estadística no es suficiente para

la confiabilidad de la medición. Examine el
tamaño y la dirección de la correlación. a
Útil para decisiones sobre selección, ubicación, etc. de
individuos. b Útil para
investigaciones, pero probablemente no para decisiones
sobre individuos. c Verificar los
datos para detectar posibles errores de codificación o
conceptualización.
P8b. La tabla 23.4 proporciona un método para evaluar la validez de la medición cuando la evidencia
proporcionada es un coeficiente de correlación (ver también el Capítulo 12). Tenga en cuenta que no es
necesario que los coeficientes de validez de una medida sean tan altos para considerarse buenos como los que
respaldan la confiabilidad.
En resumen, para cada medida o variable clave, se debe evaluar la evidencia de confiabilidad y validez de la
medición. Tenga en cuenta que, como se muestra en la Figura 23.1, la confiabilidad de la medición es un
precursor necesario de la validez de la medición, y tanto la confiabilidad como la validez (cuadros superiores de
la Figura 23.1) influyen en aspectos de la validez de la investigación.
Evaluación de las cuatro dimensiones clave de la validez de la investigación Ahora
comenzamos nuestra discusión de los cuatro criterios clave y ocho dimensiones evaluativas para la validez de
la investigación de un estudio. Un estudio de alta calidad debe tener calificaciones de moderadas a altas en cada
una de las cuatro dimensiones de la validez de la investigación, como lo indican las calificaciones en cada una
de las ocho escalas que se muestran en las figuras de este capítulo y el siguiente, utilizando los criterios
enumerados en estas figuras. Se puede realizar una evaluación para cada escala de calificación utilizando los
diversos aspectos enumerados en la escala y en el texto para guiar la calificación de la evaluación para cada
una de las ocho dimensiones de validez de la investigación.
Tabla 23.4
Evaluación de los coeficientes de validez de las mediciones (para la pregunta 8b)
Coeficiente de correlación Soporte para la validez
+/–.60 o superior Aceptable, pero

+/–.50 Aceptableb,c
+/–.30 Aceptableb,c
+/–.10 Quizásb,c
a Si un coeficiente de validez es bastante alto (p. ej., >.60), el mismo o

Probablemente se estén midiendo conceptos muy similares, en lugar de
que dos separados, por lo que correlaciones tan altas pueden ser más
más la confiabilidad de la medición que la validez de la medición. b
Basamos la fuerza o nivel de soporte para la medición
validez según las pautas de tamaño del efecto de Cohen (1988). Para
correlaciones: r = 0,1 es un tamaño del efecto pequeño, por lo que el apoyo a la
validez es débil, r = 0,3 es un tamaño del efecto medio o típico, y r = 0,5 es un efecto grande.
tamaño y fuerte apoyo. Sin embargo, la correlación debe ser estadísticamente
significativa. Por lo tanto, una correlación de +/– 0,20 proporcionaría cierto apoyo
a la validez sólo si r fuera significativo, pero ningún respaldo si r no fuera
significativo. c El criterio y la evidencia
convergente de validez serían
Se espera que produzca correlaciones positivas (+), a menos que se plantee la
hipótesis de que los conceptos están relacionados negativamente (p. ej., ansiedad
y promedio de calificaciones).
Fiabilidad general de las mediciones y estadísticas
P9. ¿Cuál es la calificación general de confiabilidad de las mediciones y estadísticas?

Base la calificación y los comentarios en lo siguiente:
a. ¿Es aceptable la confiabilidad general de la medición de las variables?

b. ¿Es el poder apropiado?
C. ¿Es apropiada la elección/uso de las estadísticas?
d. ¿Existe una presentación adecuada de los resultados estadísticos, incluido el tamaño del efecto?
mi. ¿Es adecuada la interpretación de los resultados estadísticos?
Esta primera dimensión de la validez de la investigación enfatiza la importancia de la confiabilidad general de las
mediciones, así como el uso y la interpretación de estadísticas inferenciales. Solicitudes Q9
una calificación general del estudio de baja a media a alta basada en cinco cuestiones (ver
Figura 23.3).
P9a. En primer lugar, está la cuestión de si las variables como grupo se miden de forma fiable. P9
considera una calificación global de la confiabilidad de la medición de todos los instrumentos. Un principio que a
menudo se enfatiza en las clases de medición es que si una prueba no mide consistentemente
la construcción, no se puede medir con precisión. Asimismo, la validez de un estudio se reduce.
si una o más de las variables clave no se miden de manera confiable (ver también el Capítulo 11).
P9b. En segundo lugar, ¿se puede detectar una relación estadísticamente significativa, suponiendo que tales
existe una relacion? La capacidad de detectar una diferencia estadísticamente significativa se conoce más
comúnmente como poder o capacidad de rechazar una hipótesis nula falsa. Aunque el poder adecuado se basa,
en parte, en tener suficientes participantes en el estudio, existen otras
métodos para aumentar el poder (Lipsey, 1990). Algunos de estos métodos incluyen la disminución
variabilidad y aumento de la confiabilidad de la variable dependiente o aumento de la fuerza
y consistencia en la administración de la variable independiente.
CONFIABILIDAD DE MEDICIÓN Y ESTADÍSTICAS
Base la
calificación en: a) Confiabilidad general de los
instrumentos/medidas b)
Adecuación del poder c) Adecuación de las
técnicas estadísticas d) Presentación adecuada de los resultados estadísticos,
incluido el tamaño del efecto e) Adecuación de la interpretación del análisis
BAJO MEDIO ALTO
No en todos si en todos
Figura 23.3
Evaluación de las estadísticas y la confiabilidad de la medición de los hallazgos de un estudio.
Cook y Campbell (1979) plantearon un segundo aspecto de la cuestión del poder, que implica tener demasiado
poder, especialmente con respecto al número de participantes en un estudio.
En su mayor parte, este problema surge cuando un tamaño de muestra muy grande (por ejemplo, varios cientos
de participantes) produce una relación estadísticamente significativa, pero quizás trivial. Por tanto, es importante
proporcionar una estimación del tamaño del efecto (ES). Consulte especialmente los Capítulos 16 y 17 para
obtener más información sobre la potencia y ES.
P9c. Una tercera cuestión a considerar implica la selección del método estadístico adecuado para evaluar si
realmente existe una relación entre la variable independiente y la dependiente.
La selección de estadísticas apropiadas se analiza con más detalle en el capítulo 19. A veces los investigadores
seleccionan la estadística incorrecta, como una prueba t o una correlación con una variable dependiente nominal .
Sin embargo, lo más frecuente es que los problemas impliquen la violación de los supuestos subyacentes a las
pruebas estadísticas o problemas al realizar varias o muchas comparaciones sin ajustar el nivel alfa. Estos
problemas suelen dar lugar a un error de tipo I. Nuestra experiencia sugiere que no ajustar el nivel alfa cuando se
han realizado múltiples pruebas es más común que seleccionar una estadística inapropiada.
P9d. Cuarto, ¿se presentaron adecuadamente los resultados estadísticos? Se deben proporcionar intervalos de
confianza (Capítulo 17) y tamaños del efecto. Si no se proporcionan los tamaños del efecto, se debe presentar la
información necesaria (p. ej., M, DE, N) para que puedan calcularse. El análisis de varias medidas del tamaño del
efecto se presenta en el Capítulo 17 y en cada uno de los capítulos (20 a 22) sobre las estadísticas de interpretación.
P9e. La quinta cuestión a considerar implica realizar la interpretación adecuada del análisis estadístico. A veces
se selecciona la estadística correcta, pero el investigador malinterpreta los hallazgos y concluye más de los datos
de lo que realmente se proporciona. Por ejemplo, si hay una interacción significativa a partir del análisis de un
análisis factorial de varianza (ANOVA), se debe examinar primero la interacción y los efectos simples en lugar de
los efectos principales, que pueden inducir a error. Las cuestiones relativas a la interpretación de los resultados
estadísticos se analizan con más detalle en los Capítulos 20 al 22.
Validez interna La
validez interna se basa en la solidez o solidez del diseño. Esta definición de validez interna nos permite evaluar
investigaciones tanto experimentales como no experimentales.
Los diseños experimentales aleatorios suelen tener una alta validez interna. Creemos que uno
Puede y debe juzgar la validez interna de cualquier estudio en un continuo de menor a mayor.
La validez interna es importante porque indica qué tan seguros podemos estar de que el
La relación entre una variable independiente y una dependiente es una relación de causa y efecto. Aunque es
importante utilizar el análisis estadístico apropiado, la estadística
El método no determina la causalidad. La causalidad se infiere principalmente de la investigación.
acercarse. Por lo tanto, aunque “la correlación no indica causalidad”, lo mismo ocurre con las pruebas t y el ANOVA si
el enfoque fue comparativo. En general, los diseños experimentales aleatorios proporcionan la mejor evidencia de
causalidad (alta validez interna). Los enfoques comparativo y asociativo, en el mejor de los casos, proporcionan
sugerencias sobre posibles causas. El
La fuerza de un cuasiexperimento afecta la confianza que podemos depositar en si el
La variable independiente es una causa de la variable dependiente (véanse los Capítulos 4 y 5). Nuestro
El marco de evaluación divide la validez interna en dos dimensiones: (1) equivalencia de los grupos en las características
de los participantes (P10); y (2) control de experiencias extrañas y variables ambientales (P11).
P10. ¿Cuál es la evaluación de la equivalencia de los grupos en cuanto a las características de los
participantes? Base la calificación y los comentarios en lo siguiente:
a. ¿Hubo asignación aleatoria de participantes a los grupos?
b. Si no hubo asignación aleatoria, ¿se emparejaron los participantes de cada grupo?

¿Son similares estadísticamente o se encontraron similares en una prueba previa? Si la asignación aleatoria fuera
Hecho, b y c deben calificarse como sí.
C. Si no hubo asignación aleatoria, ¿se emparejaron los participantes de cada grupo?

similar estadísticamente, o encontrado similar en otras características clave de los participantes
(p. ej., edad, sexo, coeficiente intelectual)?
d. ¿La retención (baja deserción) de los sujetos durante el estudio fue alta y similar?
entre grupos?
Equivalencia de los grupos en las características de los participantes
En los enfoques experimental aleatorio, cuasiexperimental y comparativo , una pregunta clave es si los grupos que se
comparan eran equivalentes en todos los aspectos excepto en la variable o variables independientes antes de que se
llevaran a cabo los procedimientos del estudio. Hay un numero
de “amenazas” específicas a la validez interna, varias de las cuales son factores “participantes” que
podría conducir a una falta de equivalencia de los participantes en los dos (o más) grupos y, por lo tanto,
influyen en la relación con la variable dependiente (ver Capítulo 8). Esta dimensión es
A menudo se le llama sesgo de selección, porque debe calificarse como bajo si los participantes eligen qué
grupo en el que estarán (es decir, si hay autoselección en grupos). Sin embargo, pensamos que el
Es menos probable que el sesgo de asignación de frases sea confuso porque la cuestión clave para la validez interna
es si los participantes fueron asignados aleatoriamente a los grupos. Muestreo aleatorio o
La selección de sujetos es más relevante para la validez externa de la población, que es Q14. La parte superior
La sección de la Figura 23.4 debe usarse para evaluar este aspecto de la validez interna.
P10a. La mejor manera de asegurar que los grupos sean imparciales y cercanos al equivalente es
asignar aleatoriamente a los participantes a grupos de tamaño adecuado.
Q10b y Q10c. Sin embargo, si no es posible la asignación aleatoria a grupos, asignación aleatoria de tratamientos
a grupos intactos (cuasiexperimentos fuertes), emparejamiento, análisis de covarianza
(ANCOVA), o comprobar la similitud demográfica de los grupos son métodos para lograr una
nivel medio de este aspecto de la validez interna. Si se supiera que los grupos eran diferentes y
VALIDEZ INTERNA
Equivalencia de grupos según las características de los participantes (para Q10)

Calificación basada
en: a) ¿Los participantes fueron asignados aleatoriamente a los grupos?
b) Si no, ¿fueron adecuados los intentos de hacer que los grupos fueran similares o de verificar la similitud de los grupos
en una prueba previa? c) Si no hubo aleatorización, ¿fueron adecuados los intentos de formar grupos o comprobar la similitud de otras
variables clave? d) ¿La retención durante el estudio fue alta y similar en todos los grupos?
BAJO MEDIO ALTO
Grupos muy diferentes, marcado Algunos intentos de equiparar grupos o Asignación aleatoria a grupos y baja
desgaste diferencial grupos encontrados similares deserción
Control de experiencias extrañas y variables ambientales (para Q11)

Base la calificación
en: a) ¿Se realizó el estudio en un ambiente controlado? b) ¿Tenían los
grupos entornos equivalentes, excepto en la variable independiente? c) ¿Hubo un grupo de control sin
tratamiento o con tratamiento habitual? d) ¿Fueron adecuados
los intentos de reducir otras influencias extrañas?
BAJO MEDIO ALTO
Variables extrañas no Intentos de controlar las experiencias. Todas las variables extrañas
controlado, sin grupo de comparación y medio ambiente controlado, eliminado o
(configuración de campo) equilibrado (laboratorio controlado)
Figura 23.4
Escalas de calificación para evaluar la validez interna de los hallazgos de un estudio.
Si no se hiciera ningún intento de confirmar la similitud de los grupos o hacer que los grupos fueran similares
mediante emparejamiento, ANCOVA u otros métodos, la calificación sería baja. Los enfoques asociativos también
recibirían una calificación baja a menos que se intentara controlar otras variables clave.
Si el enfoque es asociativo, sólo hay un grupo. En ese caso, este aspecto de la validez interna se reduce a la
cuestión de si los participantes que obtienen puntuaciones altas en las variables independientes o predictivas
de interés son equivalentes a aquellos que obtienen puntuaciones bajas en términos de otros atributos que
pueden estar correlacionados con las variables dependientes o predictivas de interés. variable de resultado. Por
ejemplo, es probable que las personas que obtienen una puntuación alta en una variable independiente de
atributo, como la ansiedad, no sean equivalentes a aquellas que obtienen una puntuación baja en términos de
otras variables como la edad, el estatus social, la educación y, especialmente, otras características psicológicas.
Por lo tanto, los estudios que utilizan un enfoque asociativo normalmente deberían tener una calificación baja en esta dimensión.
Los controles estadísticos pueden aumentar este aspecto de la validez interna a medio para el enfoque
asociativo, así como para los enfoques cuasiexperimental y comparativo, al hacer que los grupos sean más
similares, pero tales técnicas no pueden producir una validez interna alta.
P10d. Por lo tanto, los experimentos aleatorios reciben una calificación alta en este aspecto de validez interna,
a menos que haya un desgaste (abandonos) marcadamente diferente entre los grupos o un alto desgaste
general durante el estudio. No es bueno que demasiadas personas abandonen el estudio, especialmente si
pertenecen en su mayoría a un grupo u otro. El desgaste también es un problema potencial para los
cuasiexperimentos y para los estudios comparativos y asociativos que son longitudinales (es decir, que duran
más de un período de tiempo).
P11. ¿Cuál es la evaluación del control de experiencias extrañas y

variables ambientales?
a. ¿Se realizó el estudio en un ambiente controlado?
b. ¿Tenían los grupos entornos equivalentes?
C. ¿Hubo un grupo de comparación sin tratamiento (placebo) o con tratamiento habitual?
d. ¿Hubo intentos adecuados para reducir otras influencias extrañas?
Control de Experiencias Extrañas y Variables Ambientales
Usamos los temas enumerados en la mitad inferior de la Figura 23.4 para realizar la evaluación de esta dimensión.
de validez de la investigación. Varias "amenazas" a la validez interna se han agrupado en una categoría
que trata de los efectos de experiencias o condiciones ambientales extrañas (aquellas variables que no son de interés
en este estudio) durante el estudio. A esto también se le llama contaminación.
En general, los entornos tipo laboratorio bien controlados ofrecen menos contaminación, y el campo o
Los entornos naturales no ofrecen control (más contaminación) de variables extrañas. Esta dimensión de validez se
califica más baja si variables o eventos extraños, como diferentes ambientes o maestros, afectan a un grupo más que
a otros. En el enfoque asociativo, el
La cuestión es si las experiencias de los participantes que obtienen puntuaciones altas en las pruebas independiente o
variable predictiva son diferentes de aquellos que obtienen una puntuación baja en la variable independiente. En
En los estudios experimentales, si los participantes saben en qué grupo están, eso puede afectar su motivación y
contaminar los resultados. En experimentos sin control sin tratamiento (placebo)
grupo, cualquier cambio podría deberse a la maduración o alguna otra variable que tuvieran los grupos
en común.
Brevemente, en los diseños experimentales de laboratorio, estas variables experienciales y ambientales suelen
estar bastante bien controladas, pero en los diseños experimentales de campo , y especialmente en
En los enfoques comparativo y asociativo, estas experiencias extrañas pueden no estar controladas adecuadamente.
En general, existe un equilibrio entre un alto control de sustancias extrañas
variables y alta validez ecológica. Es difícil tener ambos.
Si un estudio recibe una calificación baja o media en una o ambas de las dos dimensiones principales de validez
interna, los autores no deben utilizar términos como efecto, impacto y determinar que impliquen
causa y efecto. Frases como puede afectar, causa presunta o posible determinante son más
cauteloso, pero probablemente sea mejor evitar términos causales y simplemente describir los resultados como
indicando que hay una relación o diferencia.
Resumen
Este capítulo proporciona una revisión integrada de la mayoría de los conceptos importantes relacionados con la
evaluación de la confiabilidad de las mediciones y las estadísticas y la validez interna que se introdujeron en capítulos
anteriores. Respuestas a las 11 preguntas discutidas aquí y las 8 discutidas
En el próximo capítulo se proporciona una evaluación integral de un estudio de investigación, especialmente su
métodos. Para realizar esta evaluación es necesario identificar las variables clave y sus características (tipo y nivel
de medición). También es necesario identificar las preguntas de investigación,
enfoques y diseño. Finalmente, discutimos los dos primeros aspectos de la validez de la investigación,
proporcionando tres escalas de calificación y rúbricas para usarlas para evaluar estas dimensiones de
validez de la investigación. Estas tres primeras dimensiones clave de la validez de la investigación son las siguientes:
1. Fiabilidad de las medidas y estadísticas.

2. Validez interna: equivalencia de los grupos según las características de los participantes.
3. Validez interna: control de experiencias ajenas y variables ambientales.
En el próximo capítulo, analizamos cinco dimensiones más, a saber: 1. Validez de
constructo de la intervención o tratamiento.

2. Validez de medición o de constructo de las variables medidas.
3. Validez externa poblacional.
4. Validez externa ecológica.
5. Validez externa: prueba de subgrupos.
Las escalas de calificación para estas ocho dimensiones proporcionan una evaluación integral de los métodos de un
estudio de investigación.
Conceptos clave
Contaminación
Control de experiencias extrañas y variables ambientales.

Variable dependiente o de resultado
Tamaño del efecto
Clasificación general de diseño.

Variable independiente o predictora
Validez interna
Nivel o escala de medición
Niveles o categorías de una variable

Fiabilidad de medición y estadísticas.
Asignación aleatoria de participantes a grupos.
Enfoque de investigación
Retención de materias (baja deserción o abandono)
Nombre específico del diseño experimental.
Poder estatico
Distinciones clave
Validez de la medición versus validez de la investigación
Problemas de aplicación Los
problemas de aplicación del Capítulo 23 se presentan al final del Capítulo 24.

24
Evaluación de la validez de la investigación: Parte II
Este capítulo continúa nuestra discusión sobre cómo evaluar el diseño y análisis de un estudio de investigación
empírico. El enfoque de nuestro marco de evaluación es la investigación cuantitativa, pero creemos que la
mayoría de sus partes también se aplicarían a la evaluación de estudios de investigación cualitativos; Las
preguntas 13 a 19 discutidas en este capítulo serían especialmente aplicables a la evaluación de investigaciones
cualitativas y de métodos mixtos. Ahora, continuamos nuestra evaluación de la validez de investigación de un
estudio. Primero, discutimos la evaluación de la validez de medición general de los constructos y luego
evaluamos tres aspectos de la validez externa.
Validez de medición general de los constructos Esta dimensión a veces
se denomina validez de constructo, pero eso puede resultar confuso porque la misma frase también se ha
utilizado para un tipo específico de evidencia para la validez de la medición (ver Capítulo 12). Comenzamos
la discusión sobre la cuestión de la validez de la medición con la pregunta 8 en el último capítulo. Ahora,
hacemos un juicio general sobre la validez de las definiciones operativas de las diversas variables clave en el
estudio utilizando la Figura 24.1. Este juicio tiene dos aspectos principales: (1) la validez de constructo de la
intervención o variable independiente activa (Q12); y (2) medición o validez de constructo de los resultados (o
variables dependientes) y cualquier variable independiente de atributo (P13).
P12. ¿ Cuál es la evaluación de la validez de constructo de la intervención? (Si no hay una variable
independiente activa, esta pregunta se omite por no ser aplicable).
a. ¿La intervención (variable independiente activa) está operativamente definida e implementada de

manera adecuada con base en un cuerpo existente de investigación empírica o teórica?
b. ¿Se describe la intervención con suficiente detalle como para poder replicarla? C.
¿Existe algún control o verificación de manipulación para asegurarse de que la intervención fue realizada?
presentado como estaba previsto?
Esta pregunta trata sobre la variable independiente activa (tratamiento o intervención) y su implementación
adecuada, es decir, si se basó en conceptos empíricos o teóricos comúnmente compartidos y si se describió
con suficiente detalle para poder replicarse. La pregunta también indaga si hubo una verificación de
manipulación para ver si la intervención realmente se presentó como se planificó y se describió en el protocolo
del estudio. Esta verificación es importante, especialmente con planes de estudio o programas nuevos, porque
es común que los instructores vuelvan a caer en viejas formas de hacer las cosas. Por lo tanto, es posible que
las nuevas técnicas no se hayan aplicado de manera consistente.
355
VALIDEZ DE MEDICIÓN GLOBAL DE LOS CONSTRUCTOS
Validez de constructo de la intervención o tratamiento (para P12)

en: a) Adecuación (validez) de la definición operativa de la variable independiente activa (tratamiento/
intervención), si la hubiera, para el constructo de interés b) ¿Se
presentan suficientes detalles para replicar la intervención? c) ¿Hubo control
de manipulación?
BAJO MEDIO ALTO
Tratamientos no definidos/ Algunos problemas con la validez El tratamiento es válido con

medidos válidamente del constructo. respecto a la construcción prevista.
Validez de medición o de constructo de las variables medidas (para Q13)

en: a) ¿Se han utilizado las medidas con participantes similares? b)
¿Se presenta evidencia adecuada de la validez de los resultados? c) ¿Se
presenta evidencia adecuada de la validez o atributo de las variables independientes?
BAJO MEDIO ALTO
Medidas no definidas/ Algunos problemas con la validez Evidencia sólida de la validez de las
medidas válidamente de los constructos. medidas.
Figura 24.1
Evaluación de la validez de la medición de un estudio.
Además, una intervención podría describirse con suficiente detalle y haber sido sometida a una
verificación de manipulación para que se implementara según lo planeado, pero la intervención podría
no identificarse y etiquetarse adecuadamente, dada la teoría y la literatura actuales. Por ejemplo, se
podría decir que un plan de estudios utiliza técnicas de aprendizaje “constructivistas”, pero un examen
detenido del programa podría indicar que la intervención tal como se planeó e implementó no fue
realmente constructivista. Si no existe una variable independiente activa (intervención), esta calificación
no es aplicable.
P13. ¿Cuál es la evaluación general de la validez de constructo del resultado ?

medidas (variables dependientes) y cualquier atributo de variables independientes?
a. ¿Se han utilizado las medidas con participantes similares? b.

¿Se presenta evidencia adecuada de la validez de los resultados basada en investigaciones
empíricas o teóricas existentes?
C. ¿Existe evidencia adecuada de la validez de las variables independientes del atributo?
presentado?
Esta pregunta trata sobre el atributo de variables independientes y variables dependientes en su

conjunto. ¿Se miden de manera válida y se definen apropiadamente para que representen los
conceptos bajo investigación? La validez de los resultados y medidos (atributo).
Evaluación de la validez de la investigación: Parte II 357
Las variables independientes o predictivas dependen, en parte, de si las medidas son apropiadas para los tipos
de participantes en el estudio.
La cuestión para las preguntas 12 y 13 es si estas definiciones operativas son representativas de los conceptos
y construcciones previstos. A veces, la intervención y los resultados no se basan en ideas comúnmente compartidas
o derivadas teóricamente. De ser así, las calificaciones generales (Q12 y Q13) deberían ser bajas.
Validez externa “La
validez externa plantea la cuestión de la generalización: ¿a qué poblaciones, entornos, variables de tratamiento y
variables de medición se puede generalizar este efecto?” (Campbell y Stanley, 1963/1966, pág. 5). En nuestro
marco de evaluación, la validez externa tiene tres aspectos: (1) validez externa poblacional (P14); (2) validez
externa ecológica (P15); y (3) pruebas de subgrupos (P16). Las dos primeras dimensiones examinan cuán
representativos son la población y el entorno de la población objetivo o teórica y de los procedimientos y el entorno.
La tercera calificación (P16) evalúa si es probable que los resultados se generalicen a subgrupos diversos, como
ambos géneros.
P14. ¿ Cuál es la evaluación de la validez externa de la población general? Base

la calificación en las respuestas a lo siguiente:
a. ¿La población accesible era representativa de la población teórica? b. ¿La muestra seleccionada
fue representativa de la población accesible? C. ¿La muestra real fue representativa frente
a la muestra seleccionada? Es decir, fue
¿La tasa de respuesta es aceptable?
Validez externa poblacional
Este aspecto de la validez externa es una cuestión de selección de participantes o muestreo que involucra cómo
se seleccionaron los participantes para participar en el estudio. ¿Fueron seleccionados al azar de una población
particular o se utilizaron voluntarios? La mayoría de los estudios cuantitativos en ciencias sociales no han utilizado
la selección aleatoria de participantes, pero la cuestión de la validez externa de la población es más compleja que
si hubo una muestra aleatoria; Como se analizó en el Capítulo 9 (ver Figura 24.2), la validez poblacional externa
depende de tres pasos en el proceso de muestreo.
Para evaluar estos tres pasos, primero identificamos los cuatro componentes del proceso de muestreo: (1) la
población teórica; (2) la población accesible; (3) el diseño de muestreo y la muestra seleccionada; y (4) la muestra
real de participantes involucrados en el estudio. Los tres pasos conectan los cuatro componentes del proceso. Es
posible que el investigador pueda utilizar una técnica de muestreo aleatorio u otra técnica de muestreo probabilístico
(paso 2) pero tenga una muestra real que no sea representativa de la población teórica, debido a una baja tasa de
respuesta (paso 3) o a que la población accesible no siendo representativo de la población teórica (paso 1). Este
último problema parece casi universal, en parte debido a las limitaciones de financiación y viajes. Excepto en las
investigaciones mediante encuestas nacionales, los investigadores casi siempre comienzan con una población
accesible del distrito escolar, la comunidad o la clínica local que probablemente no sea totalmente representativa
de la población objetivo de interés.
Muestreo
Diseño
Población objetivo o teórica o
Selección
1er paso
Muestra seleccionada
Población accesible o 2do paso

Marco de muestreo 3er paso
Muestra real
Figura 24.2
Diagrama esquemático del proceso de muestreo.
Ahora se pueden realizar calificaciones para cada subpregunta (P14a, P14b y P14c) utilizando la sección superior de la
Figura 24.3. Finalmente, se puede hacer una calificación general para la pregunta 14 sobre si la muestra real de participantes
es representativa de la población teórica o de la población objetivo. En el Capítulo 9 se analizaron ejemplos de dónde y
cómo la calificación de validez externa de la población general puede verse afectada por problemas en cualquiera de los
tres pasos.
Existe una distinción importante entre el muestreo aleatorio (es decir, la selección de sujetos de la población), que influye
en la validez externa de la población, y la asignación aleatoria (de participantes a grupos), que influye en el aspecto de
equivalencia de los participantes de la validez interna. Para la pregunta 14 estamos considerando el muestreo aleatorio, no
la asignación aleatoria a grupos, lo cual se evaluó en la pregunta 11 del Capítulo 23.
P15. ¿ Cuál es la evaluación de la validez externa ecológica general? La calificación se

basa en lo siguiente:
a. ¿Es el entorno (o las condiciones) natural y representativo del entorno objetivo? b. ¿Es buena la relación
con los evaluadores u observadores? C. ¿Son los procedimientos
o tareas naturales y representativos de los conceptos conductuales?

¿de interés?
d. ¿El momento y la duración del tratamiento o intervención son apropiados (no aplicables)?
cable [NA] si no es un experimento porque no se realiza ninguna intervención)?
mi. ¿Se aplicarán los resultados a algo más que el momento específico de la historia en el que se realizó el estudio?
¿hecho?
Validez externa ecológica Este es un
aspecto de la validez externa que tiene que ver con las condiciones/configuraciones, los evaluadores, los procedimientos
o tareas y el tiempo en la historia. Evaluamos cada uno de estos cinco aspectos de la validez ecológica en términos de qué
tan representativos son del entorno objetivo o previsto y así sucesivamente y, por lo tanto, si los resultados pueden
generalizarse. Debido a que los entornos, los probadores, los procedimientos y las tareas ecológicamente válidos suelen
ser "naturales", utilizamos ese término aquí. Nosotros
VALIDEZ EXTERNA
Población (para el T14)

en: a) Representatividad de la población accesible frente a la población teórica b) Adecuación
del método de muestreo de la población accesible c) Adecuación de la
respuesta/tasa de retorno
BAJO MEDIO ALTO
Muestra real no representativa de la Algunos intentan obtener una Muestra real representativa de la
población teórica. buena muestra. población teórica.
Ecológico (para Q15)

en: a) Naturalidad/representatividad del entorno/condiciones b)
Adecuación de la relación con los evaluadores/
observadores c) Naturalidad de los
procedimientos/tareas d) Adecuación del momento y duración del tratamiento de intervención (califique
solo si está activo IV) e) Grado de cuyos resultados no se limitan a un momento específico de la historia
BAJO MEDIO ALTO
Entorno, probador, Algo artificial Entorno natural, probador,

procedimientos y tiempo antinaturales. (por ejemplo, cuestionario) procedimientos y tiempo.
Pruebas de subgrupos de participantes (para Q16)

en: a) ¿Se compararon los géneros?
b) ¿Se compararon los grupos étnicos/raciales? c)
¿Se compararon los grupos de edad?
BAJO MEDIO ALTO
No se analizaron subgrupos de Algunos subgrupos evaluados Subgrupos de participantes clave

participantes. analizados
Figura 24.3
Escalas de calificación para evaluar la validez externa de los hallazgos de un estudio.
Califique cada uno de los cinco aspectos de la validez ecológica y luego proporcione un juicio general utilizando la escala media de
la Figura 24.3.
Q15a: Naturalidad del entorno. Un estudio en un entorno de campo (por ejemplo, el hogar o la escuela) tiene mejores resultados
en este aspecto de validez ecológica externa que uno en un laboratorio, especialmente si las condiciones del laboratorio son
altamente artificiales.
P15b: Relación con el evaluador. La relación o calidad de la relación entre el evaluador u observador y los participantes es
importante. Las diferencias entre los participantes y el investigador o evaluador en cuanto a estilo personal, origen étnico, género o
edad pueden reducir la relación. Los entrevistadores capacitados pueden aumentar la relación “conociendo” al entrevistado, lo que
puede contribuir a la validez ecológica.
Métodos de investigación 360 en entornos aplicados: un enfoque integrado para el diseño y el análisis
Q15c: Naturalidad de los procedimientos. La mayoría de los procedimientos que utilizan medidas de
autoinforme, especialmente cuestionarios, son al menos algo artificiales porque no son medidas directas del
comportamiento real del participante. Las tareas o pruebas experimentales también suelen ser al menos algo
antinaturales.
P15d: Duración de la intervención. En los experimentos, a veces la intervención o el tratamiento es demasiado
breve para ser representativo de cómo se llevaría a cabo realmente la intervención si se implementara
ampliamente. (Esta calificación no es aplicable si el estudio no es un experimento).
P15e: ¿Cuándo se realizó el estudio? El tema del estudio o la formulación de las preguntas pueden restringir
su utilidad aproximadamente al momento de la historia en que se realizó.
Los resultados relacionados con temas de actualidad o temas de moda pronto pueden quedar obsoletos.
Por ejemplo, las actitudes sobre temas como los vales escolares, las dietas bajas en carbohidratos o el
matrimonio homosexual pueden cambiar con el tiempo. Por tanto, es deseable que las preguntas sobre dichos
temas se repitan o repliquen periódicamente. Recuerde que la mayoría de las encuestas miden un "porción de
tiempo" específica. Otros temas son más atemporales y sus resultados pueden seguir siendo relevantes durante décadas.
Consideremos un ejemplo de un problema de validez ecológica. Si un educador está interesado en el efecto
de un estilo de enseñanza particular en la participación de los estudiantes, el aula debe ser similar a la de un
aula normal. De manera similar, si el investigador pidió a los estudiantes que vinieran por la noche para el
estudio pero estos estudiantes normalmente asistían a clase durante el día, entonces hay un problema con el
aspecto ambiental de la validez externa ecológica. Cabe preguntarse si se utilizó algún método representativo
para seleccionar el entorno y el tiempo o si se utilizó un método de conveniencia. Para una alta validez ecológica,
una intervención debe ser realizada por un interventor culturalmente apropiado (maestro, terapeuta o evaluador)
durante un período de tiempo apropiado. Finalmente, ¿este tema estaba de moda por lo que los resultados
podrían ser diferentes dependiendo de cuándo se realizó el estudio?
P16. ¿Cuál es la evaluación del grado en que se probaron o compararon

importantes subgrupos de participantes?
a. ¿Se analizan o comparan las diferencias de género? b.

¿Se analizan o comparan dos o más grupos étnicos o raciales? C. ¿Se analizan o
comparan dos o más grupos de edad? d. ¿Se comparan otros
subgrupos importantes (p. ej., culturas, regiones geográficas)?
Si el estudio es experimental, ¿con qué amplitud se probó estadísticamente la intervención en subgrupos

importantes de participantes? ¿Los resultados de la intervención para un género, etnia o grupo de edad son
válidos para el otro género, etnia o edad?
Si el estudio se centra en una variable independiente de atributo, como el tipo de discapacidad, la pregunta
es: ¿Son las diferencias en la variable dependiente específicas de un determinado género, edad o etnia (es
decir, hay una interacción con el género, edad o etnia)? ¿O las diferencias de discapacidad observadas se
aplican a ambos géneros, todas las edades y todas las etnias? Se aplicaría una lógica similar a las pruebas de
estos importantes subgrupos para variables independientes de atributos ordenados o continuos que fueron el
foco de un estudio no experimental. Sin embargo, si el estudio se centra en el género, la edad o el origen étnico
como principal variable independiente, esa subpregunta (P16a, P16b o P16c) se consideraría no aplicable para
esta calificación.
Debido a limitaciones financieras y de tiempo, muchos proyectos de investigación limitan a los participantes a
unos pocos grupos demográficos, en parte para tener suficiente poder para detectar diferencias.
Las comparaciones de género son bastante comunes, pero a menudo se utiliza una sola edad o etnia. O hay
una variedad de edades o etnias, pero no hay suficientes participantes en los grupos más pequeños para
analizar las diferencias étnicas o de edad.
Otros asuntos
P17. ¿ Hubo una revisión por pares adecuada?
La pregunta 17 trata sobre el alcance de la revisión por pares del artículo o documento. La revisión por pares
significa que el artículo fue evaluado por otros expertos (pares) en el campo, generalmente sin saber quién era el
autor del artículo (es decir, revisión enmascarada o “ciega”). Aunque los consumidores de investigaciones suelen
leer artículos de periódicos o boletines que resumen estudios de investigación, estas fuentes no son artículos
revisados por pares. Además, es posible que no brinden muchos detalles sobre los métodos utilizados, pero
generalmente brindan cierta información sobre la fuente desde la cual se escribió el artículo. Los artículos
periodísticos a menudo se basan en artículos publicados y revisados por pares o en presentaciones en reuniones
profesionales, que tuvieron algún tipo de revisión por pares.
Sin embargo, es posible que el periodista haya omitido detalles importantes.
Si la fuente es una revista académica, lo más probable es que la revisión por pares haya sido al menos
moderadamente extensa y estricta. Una forma de evaluar indirectamente la calidad de la revisión por pares es
comparar las clasificaciones de citas de la revista que publicó el artículo con otras revistas de la misma disciplina
general. Por ejemplo, si muchos autores hacen referencia a artículos de una revista específica, se considerará
que tiene un estatus alto; consulte las clasificaciones en los informes de citas de revistas.
Ed. Ciencias Sociales. (1994presente). Otro método común para evaluar la calidad de la revista es obtener el
porcentaje de artículos que son aceptados por la revista. Cuanto menor sea el porcentaje aceptado, generalmente
mayor será el estatus de la revista.
Si la asociación que publica la revista está formada principalmente por profesionales que sólo tienen un interés
secundario en la investigación, la revisión por pares del diseño y análisis probablemente será menos estricta
porque las revisiones de los profesionales se centran más en la importancia del problema, la aplicación y
trascendencia. Las presentaciones en reuniones profesionales, incluso aquellas orientadas a la investigación,
suelen ser revisadas de manera menos estricta, especialmente si el juicio de aceptación se basó en un resumen
o resumen del artículo.
Además, es incluso menos probable que las presentaciones ante audiencias no académicas o en eventos
como conferencias de prensa sean revisadas por académicos o investigadores independientes y, por lo tanto, no
cuentan con revisión por pares. Finalmente, los estudios cuya fuente principal o única sea la difusión en un
artículo popular o en un artículo en una revista o periódico popular no habrían tenido revisión por pares.
Si un estudio proporciona resultados clínicamente significativos sobre un tema importante, se podría suponer
que se publicaría en una revista revisada por pares, al menos dentro de unos pocos años de su finalización. No
es una buena señal que un estudio un poco más antiguo sólo haya sido presentado en una conferencia, publicado
en un capítulo de libro, publicado en la prensa especializada o popular o publicado en un sitio web de Internet. Si
el estudio no se publicó en una revista revisada por pares, bien puede indicar que existen fallas graves en el
estudio o que el estudio careció de suficientes hallazgos nuevos e importantes para ser publicado en una fuente
revisada por pares.
P18. ¿Los autores presentan adecuadamente los argumentos a favor de la importancia teórica o la
relevancia práctica de sus preguntas y diseño de investigación?
Esta pregunta pregunta qué tan bien las preguntas de investigación se derivan de la literatura o teoría utilizada
para respaldar su importancia. Los antecedentes teóricos y la justificación del estudio generalmente se
proporcionan en la introducción del estudio. Entonces, ¿la introducción justifica bien la importancia del estudio y
la relevancia de las preguntas de investigación para el problema de interés? Obviamente, este es un criterio muy
importante, pero es difícil de evaluar si el revisor no tiene un conocimiento profundo de la literatura y la teoría
sobre el tema.
P19. ¿Los autores interpretan adecuadamente sus hallazgos? Es decir, ¿fueron el título, el
resumen y la discusión claros y precisos (o exagerados y engañosos) dada la evaluación de
los diversos aspectos de la validez de la investigación?
Finalmente, la P19 es una pregunta de resumen que evalúa el título del resumen y especialmente la
discusión y las conclusiones en busca de indicios de inexactitud o declaraciones engañosas, dado el
análisis previo del estudio. A menudo, en artículos populares, el editor o escritor exagera los hallazgos
para que parezcan más impresionantes o que el público los entienda más fácilmente. El autor de una
discusión en una revista o periódico popular sobre un estudio con validez interna relativamente baja (debido
a la falta de grupos de control adecuados o falta de equivalencia de grupos) puede informar o dar a
entender que la variable independiente causó la variable dependiente, tuvo un impacto en, o determinó el
resultado. Es posible que el investigador no haya hecho estas exageraciones en el artículo original, quien
puede haber presentado las conclusiones de manera más cautelosa y apropiada, dada la validez interna
relativamente baja del estudio.
Del mismo modo, un estudio basado en una muestra no representativa de personas o de un género puede
estar sobregeneralizado, tal vez sin mencionar los tipos de participantes utilizados o sin al menos implicar
que no hay problema en hacer afirmaciones más generales. El consumidor astuto debe tomar conciencia
de estas posibles sobreinterpretaciones y evaluar el artículo adecuadamente.
Se podrían hacer otras preguntas sobre un artículo de investigación, como por ejemplo sobre su
legibilidad y claridad. Sin embargo, creemos que hemos discutido las dimensiones principales y, por lo
tanto, no hemos intentado ser demasiado exhaustivos en nuestra cobertura.
En el Capítulo 25, utilizamos este marco y las 19 preguntas de este capítulo y del Capítulo 23 para
proporcionar evaluaciones narrativas de los cinco estudios de investigación de muestra presentados en el
Capítulo 1. Cada uno de estos estudios se califica de menor a mayor en las ocho dimensiones de validez
de la investigación ( P9–P16).
La importancia relativa de las diferentes dimensiones de validez Otra consideración
importante es cómo se deberían ponderar las ocho calificaciones de validez de la investigación si se

requiriera que se proporcionara una puntuación general o compuesta. Sugerimos que podría haber
ponderaciones iguales para las ocho dimensiones para desarrollar una puntuación porcentual promedio
para el T9 al T16. Por supuesto, muchos investigadores, especialmente aquellos proclives a utilizar
experimentos, darían más importancia a la validez interna, pero otros investigadores enfatizan la validez
externa. Por lo tanto, sería difícil llegar a un acuerdo sobre ponderaciones diferenciales para las ocho
dimensiones de validez de la investigación.
Además, estas ocho dimensiones de validez de la investigación se centran en el diseño y análisis de
los estudios y restan importancia y originalidad al tema o problema de investigación. Estos últimos puntos
obviamente son aspectos clave de una calificación general sobre si se debe otorgar una subvención de
investigación o publicar un artículo. En una calificación más amplia de la calidad de un artículo, se debería
dar un peso sustancial a las preguntas 17 y 19.
Es difícil que un solo estudio alcance puntuaciones altas en cada una de las dimensiones de la validez
de la investigación. Normalmente, los investigadores sacrifican fuerza en una dimensión para mejorar otra.
Campbell y Stanley (1963/1966) discutieron si un estudio debería juzgarse con mayor dureza si es más
débil en ciertas dimensiones de validez que en otras:
Ambos tipos de criterios (validez interna y externa) son obviamente importantes, aunque con
frecuencia están en desacuerdo en que las características que aumentan uno pueden poner en
peligro el otro... la selección de diseños fuertes en ambos tipos de validez es obviamente nuestro
ideal. (pág. 5)
Cook y Campbell (1979) también abordaron el tema con cierta profundidad. Sugirieron que si uno está interesado
en probar una teoría, entonces la validez interna y la validez de medición de los constructos clave tienen la máxima
prioridad. Obviamente, los constructos utilizados en el estudio deben representar los de la teoría. Además, sería
necesario mostrar una relación causal (alta validez interna) entre las variables al probar una teoría.
Campbell y Stanley (1963/1966) hicieron una afirmación frecuentemente citada de que “la validez interna es el
mínimo básico sin el cual cualquier experimento es ininterpretable: ¿Realmente los tratamientos experimentales
marcaron una diferencia en este caso experimental específico?” (pág. 5). Sin embargo, siguieron esa cita con la que
ya examinamos acerca de que tanto la validez interna como la validez externa son importantes y parte de su ideal.
Y agregaron una frase final sobre la validez externa que a menudo se ha pasado por alto: “Este es particularmente
el caso de la investigación sobre la enseñanza, en la que el desideratum es la generalización a entornos aplicados
de carácter conocido” (p. 5). Si se realiza una investigación aplicada, entonces se debe poner énfasis en la validez
externa, especialmente si la investigación implica comparar grupos de diagnóstico específicos.
Creemos que todas estas dimensiones son importantes para evaluar la calidad de todo tipo de investigación:
experimental o no experimental, impulsada por la teoría o aplicada. Además, creemos que estas dimensiones
pueden evaluarse por separado aunque pueda haber cierta interdependencia conceptual. La posibilidad de ponderar
más la validez interna o externa probablemente depende del propósito del estudio. Si uno está interesado en la
práctica basada en la evidencia (Capítulo 26) (es decir, si una intervención funciona), probablemente debería
ponderarse más la validez interna. Sin embargo, como señalaron Cook y Campbell (1979):
También hay una justificación circular para la primacía de la validez interna…. El único propósito de
los experimentos es proporcionar pruebas de hipótesis causales más sólidas que las permitidas por
otras formas de investigación, la mayoría de las cuales fueron desarrolladas para otros propósitos...
Dado que el único propósito original de los experimentos está relacionado con la causa, la validez
interna tiene que asumir una importancia especial en la experimentación, ya que se refiere a qué
tan seguro uno puede estar de que una relación observada entre variables es causal o de que la
ausencia de una relación no implica ninguna causa. (pág. 84)
Resumen Este
capítulo completó nuestra discusión, iniciada en el Capítulo 23, sobre las ocho dimensiones clave que utilizamos
para evaluar la validez general de investigación de un estudio. En el Capítulo 23 proporcionamos escalas de
calificación para evaluar tres dimensiones:
1. Fiabilidad de las medidas y estadísticas.

2. Equivalencia de los grupos sobre las características de los participantes.
3. Control de experiencias extrañas y variables del entorno.
En este capítulo proporcionamos escalas de calificación para evaluar las siguientes cinco dimensiones:
4. Validez de constructo de la intervención.

5. Validez de constructo de las medidas de resultado y variables independientes de atributos.
6. Validez externa poblacional.
7. Validez externa ecológica.
8. Validez externa: grado en que se probaron subgrupos importantes de participantes
o comparado.
En este capítulo, también analizamos brevemente tres cuestiones adicionales que están relacionadas con la
calidad de la presentación escrita de la investigación: (1) si hubo una revisión por pares adecuada; (2) qué tan
bien las preguntas de investigación están justificadas y vinculadas a la literatura; y (3) con qué claridad y
precisión los autores discuten los resultados. Las 19 preguntas que utilizamos para proporcionar una evaluación
integral de un estudio de investigación se presentan en un solo lugar en el Apéndice E.
Conceptos clave
Validez de constructo de la intervención (variable independiente activa)
Validez externa
control de manipulación
Validez general de la medición (de las medidas de resultado y de la independencia de los atributos).
variables de abolladuras)
Revisión por pares
Importancia teórica y relevancia práctica.
Distinciones clave
Validez externa: poblacional versus ecológica versus comparación de subgrupos
Validez de constructo general de las variables (P13) versus validez de constructo de un instrumento
específico (Capítulo 12)
Problemas de aplicación Para
cada uno de los siguientes problemas, evalúe cada una de las ocho dimensiones clave (P9 a P16) de la validez
de la investigación. Si no se proporciona suficiente información, indique lo que necesitaría saber para realizar
una evaluación.
1. Investigadores en un gran distrito escolar metropolitano con una población estudiantil multiétnica diversa han
implementado un estudio sobre los posibles efectos del tipo de plan de estudios y el tipo de consejero en los niveles de
liderazgo estudiantil medidos con un instrumento que utiliza una escala Likert sumada. Los investigadores pudieron
elegir una muestra aleatoria de toda la clase de último año. Luego, estos estudiantes fueron asignados aleatoriamente a
dos grupos, ya sea el plan de estudios de liderazgo experimental multiétnico o tradicional, impartido por un consejero
con amplia formación en temas multiculturales y un consejero con formación tradicional, respectivamente. En otros
aspectos, estos individuos eran muy similares en educación y experiencia.
2. Un investigador está interesado en estudiar el efecto de la falta de sueño en el rendimiento matemático de los
adolescentes. Tiene un presupuesto de investigación limitado, por lo que decide estudiar a los estudiantes de la
universidad local. Obtuvo una lista de todos los estudiantes de cada nivel (desde el primer año hasta el último año).
Muestra aleatoriamente a 10 estudiantes de cada uno de los niveles. Los 40 aceptan estar en el estudio. Responden un
cuestionario sobre la cantidad de horas que durmieron durante la semana de exámenes finales del semestre pasado y
sus puntuaciones en matemáticas del SAT.
3. Un investigador planea realizar un estudio experimental de laboratorio sobre la privación de sueño y el rendimiento en
matemáticas. Asigna aleatoriamente estudiantes de su muestra a dos grupos de 20 cada uno. Los participantes de un
grupo se mantienen despiertos toda la noche estudiando y se les realiza un examen de matemáticas por la mañana. Se
anima a los participantes del otro grupo a dormir todo el tiempo que quieran antes de realizar el examen de matemáticas
por la mañana.
4. Un doctorado. un estudiante pidió a una muestra aleatoria de profesores de una universidad que respondiera un
cuestionario; El 50% respondió. Los profesores clasificaron a sus jefes de departamento como uno de cuatro tipos de
líder (A, B, C o D) según las respuestas a un breve inventario de liderazgo. A los miembros del profesorado se les
preguntó su propia edad, clasificándolos como más jóvenes (<35), medios (3549) o mayores (50+). El investigador
quería saber si estas características parecen influir en su satisfacción laboral, valorada en una escala Likert de nueve
puntos.
5. Se llevó a cabo un estudio para determinar los efectos de dos tipos de tratamiento en el regreso al trabajo en pacientes
con síndrome del túnel carpiano posquirúrgico. Treatment Full utilizó férulas a tiempo completo, mientras que Treatment
Part utilizó férulas a tiempo parcial. Además, el investigador también estaba interesado en si a los pacientes con
puntuaciones altas en la variable de personalidad de codependencia les iría peor que a los pacientes con puntuaciones
bajas en la variable de codependencia. Un total de 500 pacientes posquirúrgicos de una gran área metropolitana se
ofrecieron como voluntarios para este estudio. A los 500 pacientes se les aplicó el Inventario de Personalidad de
Codependencia de Gliner (confiabilidad testretest r = 0,88; validez predictiva r = 66). De esta muestra de 500 pacientes
con síndrome del túnel carpiano, se seleccionaron los 20 pacientes con las puntuaciones de codependencia más altas
(H) y los 20 pacientes con las puntuaciones de codependencia más bajas (L) para continuar en el estudio. De estos
dos grupos, H y L, la mitad de los pacientes fueron asignados aleatoriamente al grupo F con férula a tiempo completo y
la mitad de los pacientes fueron asignados aleatoriamente al grupo P con férula a tiempo parcial . Antes de las
intervenciones, los 40 participantes recibieron el Inventario de Dolor del Síndrome del Túnel Carpiano de Gliner (que
actualmente no se encuentra en los Anuarios de Mediciones Mentales de Buros). Una puntuación alta en este inventario
significaba mucho dolor y poco éxito. Después de 3 meses de intervención, los 40 participantes fueron evaluados
nuevamente en el Inventario de Dolor del Síndrome del Túnel Carpiano de Gliner.
25
Evaluaciones narrativas de los cinco artículos de muestra
Para ilustrar cómo utilizar el marco descrito en los Capítulos 23 y 24 para evaluar la validez de la
investigación, ahora evaluamos los cinco estudios presentados en el Capítulo 1. Varían en el enfoque
utilizado, pero tienen una serie de características en común: Todos fueron publicados en revistas
especializadas. revisó revistas, presentó argumentos razonables a favor de las preguntas y métodos de
investigación basados en la literatura y la teoría, e interpretó los resultados con la debida cautela dadas las
fortalezas y debilidades de los métodos utilizados. Por lo tanto, los P17P19 (otros temas) probablemente no
producirían diferencias importantes en las evaluaciones de este conjunto de artículos revisados por pares.
Sin embargo, hubo diferencias en la solidez de varios aspectos del diseño y los métodos, como se analiza a
continuación. Evaluamos cada uno de los estudios en orden utilizando juicios y narrativas globales para
calificar cada una de las ocho escalas de validez de la investigación (P9 a P16) descritas en los Capítulos
23 y 24.1 Por supuesto,
existe cierto grado de juicio subjetivo involucrado tanto con el ocho calificaciones utilizadas en este
capítulo y cuando se utiliza el formulario de evaluación numérica de 2006. Por lo tanto, diferentes
evaluadores con conocimientos podrían producir calificaciones diferentes para las ocho dimensiones clave
(P9P16). Sin embargo, creemos que la confiabilidad sería bastante alta y que la diferencia media en las
calificaciones sería pequeña.
Evaluaciones como las que se presentan aquí tienen ventajas y desventajas. En el lado positivo, se presta
atención a todos, o casi todos, los factores clave del diseño y análisis de la investigación que influyen en la
validez de la investigación de un estudio. Hacer una evaluación tan completa obliga a leer el artículo
detenidamente, especialmente la sección de métodos, y fomenta la lectura crítica no sólo de lo que se dice
sino de lo que se implica y de lo que se omite.
Creemos que sería apropiada una calificación general de cada una de las ocho calificaciones clave.
Sin embargo, hemos descubierto que estas calificaciones globales son difíciles de realizar para evaluadores
menos experimentados. Por lo tanto, las subpreguntas (p. ej., P9a, P9b, P9c, P9d y P9e) tienen como
objetivo facilitar la consideración de las cuestiones clave para cada una de las ocho dimensiones clave de la
validez de la investigación.
Para cualquier estudio de investigación empírico se podría utilizar una evaluación integral, utilizando
narrativas y calificaciones globales de las ocho dimensiones clave (como en este capítulo) o el formulario de
evaluación numérica de 2006. Sin embargo, estas evaluaciones detalladas son más apropiadas para
estudios que son críticos para alguna decisión, como financiar una subvención, publicar un artículo, utilizar
un diseño como modelo para su replicación o adoptar un procedimiento o instrumento para su uso en un
programa planificado. estudiar. En muchos casos, una evaluación general más breve puede ser adecuada.
Proporcionamos una evaluación narrativa y ocho calificaciones para cada uno de los cinco estudios de
muestra que se presentaron en el Capítulo 1. Hemos proporcionado narrativas extensas para explicar las
calificaciones de cada una de las ocho dimensiones. Para muchos propósitos, probablemente no sería
necesaria una narrativa tan extensa. En el Apéndice E se proporciona una lista completa de las 19
preguntas de evaluación.
367
Estudio 1: Un experimento aleatorio El propósito
de este estudio (Schellenberg, 2004) fue probar la hipótesis de que las lecciones de música mejoran las
habilidades intelectuales y el rendimiento educativo de niños de 6 años. La variable independiente activa o
intervención en este estudio fue el tipo de lección. Había cuatro niveles de esta variable independiente: (1)
lecciones estándar de música de teclado; (2) lecciones de música vocal de Kodály; (3) lecciones de teatro;
o (4) ninguna lección. Los dos grupos de lecciones de música se consideraron condiciones experimentales
o de intervención, y los grupos de teatro y sin lecciones se consideraron grupos de comparación o control.
Los 144 niños fueron asignados aleatoriamente a uno de los cuatro grupos. Debido a que había una
variable independiente activa y los participantes fueron asignados aleatoriamente a cada grupo, el enfoque
fue experimental aleatorio.
Las variables dependientes o de resultado fueron el coeficiente intelectual (medido mediante la escala
de inteligencia Wechsler para niños, tercera edición [WISCIII]; Wechsler, 1991), el rendimiento educativo
(medido mediante la prueba de rendimiento educativo de Kaufman, KTEA; Kaufman & Kaufman, 1985), y
calificaciones de los padres sobre el comportamiento de sus hijos (medidas por el Behavioral System for
Children, BASC; Reynolds & Kamphaus, 1992). Estas son medidas estandarizadas de uso frecuente con
evidencia considerable que respalda su confiabilidad y validez de medición. Sin embargo, en este breve
artículo esta evidencia solo está implícita al enumerar publicaciones y manuales de prueba anteriores, por
lo que sería necesario buscar y leer estas fuentes para conocer los detalles.
Las lecciones (intervención) se impartieron en pequeños grupos de seis niños cada uno durante un
período de 36 semanas por profesionales capacitados en el Real Conservatorio de Toronto. Todos los
niños fueron evaluados antes y después de la intervención. Por lo tanto, este fue un diseño de grupo de
comparación pretestpostest. La clasificación del diseño general fue un diseño factorial 4 × 2 con medidas
repetidas en el segundo factor porque hubo dos variables independientes (la intervención con cuatro
niveles) y cambio en el tiempo (dos niveles) del pretest al postest. Debido a que el autor utilizó el enfoque
de puntuación de ganancia para el análisis de datos, el diseño se redujo a una variable independiente, el
tipo de lección (consulte el Capítulo 22 para una discusión sobre el análisis de puntuación de ganancia).
Los resultados indicaron que los dos grupos de música (combinados) ganaron más en CI que los dos
grupos de comparación combinados (t(130) = 1,99, p < 0,05, d = 0,35), pero no ganaron estadísticamente
significativamente más en educación. logro. El grupo de teatro mejoró significativamente en el
comportamiento social adaptativo, pero los otros tres grupos no cambiaron en esta variable.
Fiabilidad general de las mediciones y estadísticas (P9)
No se informó la confiabilidad de la medición pero, como ya se mencionó, debería ser buena para estos
instrumentos estandarizados. El poder fue apropiado para detectar un tamaño de efecto medio; Para los
análisis estadísticos, los investigadores pudieron colapsar/combinar los dos grupos de música y también
combinar los dos grupos de control porque los dos grupos de música no eran significativamente diferentes
en la mayoría de las medidas. La selección e interpretación de las estadísticas parecen ser apropiadas y
se informaron los tamaños del efecto. En general, calificamos esta dimensión como alta.
Validez interna: Equivalencia de grupos según las características de los participantes (P10)
Los niños fueron asignados aleatoriamente a cuatro grupos, que eran lo suficientemente grandes (n = 36)
como deberían serlo y eran muy similares e imparciales en cuanto a las características de los participantes.
Desafortunadamente, hubo cierta deserción (alrededor del 14%) en los grupos de música entre la prueba
previa y la posterior, pero hubo poca deserción en los grupos de control. Debido al diferencial
Evaluaciones narrativas de los cinco artículos de muestra 369
desgaste, esta dimensión no recibió una calificación tan alta como se habría considerado la asignación
aleatoria a grupos de tamaño adecuado, por lo que se calificó como media alta.
Control de Experiencias Extrañas y Variables Ambientales (P11)
Los grupos recibieron sus lecciones en el conservatorio, que parece ser un ambiente controlado. Sin embargo,
es posible que hubiera cierta contaminación si los niños o sus padres se sintieran influenciados por saber lo
que sucedía en los otros grupos. El grupo que no recibió ninguna lección puede haberse sentido algo
decepcionado porque no recibió ninguna lección; esto posiblemente podría haber afectado su motivación
para obtener buenos resultados en la prueba posterior. Sin embargo, les prometieron lecciones para el año
siguiente, lo que sin duda ayudó. El estudio recibió una calificación de media a alta en esta dimensión.
Validez de constructo de la intervención (P12)
Las intervenciones parecen estar apropiadamente relacionadas con los constructos (lecciones de música y
teatro) y bien implementadas. Sin embargo, en este breve artículo había muy poca descripción de exactamente
cómo se implementaron las lecciones y no hubo evidencia directa de que se haya realizado una verificación
de manipulación para garantizar que las lecciones se implementaron según lo planeado. En general, esta
dimensión se calificó de media a alta.
Validez de constructo de las variables dependientes (P13)
Las medidas fueron instrumentos estandarizados de evaluación del coeficiente intelectual, el rendimiento y
la conducta que han sido ampliamente estudiados y utilizados con niños con un desarrollo típico similar a los
de este estudio. Por lo tanto, esta dimensión fue calificada como alta.
Validez de la población externa (P14)
La población teórica o objetivo parece ser niños de 6 años en países occidentales desarrollados. La población
accesible eran niños canadienses del área de Toronto cuyos padres leían anuncios en los periódicos locales
sobre lecciones de arte gratuitas. Por lo tanto, los niños eran voluntarios que claramente constituían una
muestra de conveniencia seleccionada no aleatoriamente. No se mencionó si alguno de los voluntarios de la
muestra seleccionada no estaba incluido en la muestra real. Suponemos que estas muestras eran iguales.
(Recuerde que hubo cierto desgaste durante el estudio, lo que influyó en la validez interna, pero eso es
menos relevante para la validez externa de la población, la calificación que se considera aquí).
Aunque la población accesible es diferente de muchas partes de los Estados Unidos y Europa Occidental,
Toronto es una ciudad grande y muy diversa, y en muchos sentidos los niños de 6 años de Toronto son
probablemente similares a la población objetivo más amplia de niños de 6 años. . Sin embargo, la muestra
seleccionada de padres voluntarios y sus hijos probablemente era bastante diferente de todos los niños de 6
años de Toronto. Probablemente era considerablemente más de clase media y media alta con menos
minorías, y ciertamente estaba sesgado hacia padres e hijos interesados en las artes. Por lo tanto, la muestra
seleccionada (y real) se califica como media en términos de qué tan bien representaba a la población teórica.
Validez Externa Ecológica (P15)
El entorno del estudio, el conservatorio, era un lugar natural para impartir clases de música y teatro. La
relación probablemente fue muy buena con los profesores y también fue
Probablemente sea bueno con los tests de coeficiente intelectual y de rendimiento, pero esto es sólo una especulación.
Sin embargo, las tareas y procedimientos para las pruebas eran algo artificiales, como siempre ocurre con este tipo
de pruebas e inventarios estandarizados. El momento y la duración de la intervención parecen apropiados:
semanalmente durante 36 semanas, esencialmente un año escolar. La intervención parece lo suficientemente larga
como para producir un efecto, si es que lo hubiera, y tiene una duración/intensidad natural para las lecciones de arte
iniciales. Finalmente, el tema y los resultados no parecen estar restringidos a un momento particular de la historia. Se
han impartido lecciones similares de música y teatro durante siglos y probablemente serán similares en el futuro;
parece probable que cualquier resultado sea similar en el pasado y en el futuro. En general, calificamos alta la validez
ecológica externa .
Validez externa: prueba de subgrupos (P16)
Finalmente, no parece haber ninguna prueba de subgrupos para ver si la intervención funcionó mejor con algunos
que con otros. De hecho, el artículo no informa el número de hombres y mujeres en general ni en cada grupo. Es
posible que los niños fueran en su mayoría mujeres, por lo que comparar los géneros podría no haber sido factible
estadísticamente. Probablemente había relativamente pocas minorías étnicas, lo que nuevamente dificultaba la
comparación significativa de los grupos étnicos.
El rango de edad era muy reducido; todos los niños tenían 6 años, por lo que las comparaciones de edades no serían
significativas. Validez externa general : las pruebas de subgrupos se califican como bajas.
Estudio 2: Un cuasiexperimento Este estudio,
titulado “El valor de los límites de tiempo en los cuestionarios de Internet” (Brothen y Wambach, 2004), evaluó el
efecto de poner un límite de tiempo en los cuestionarios “para llevar a casa”. Se utilizaron como participantes dos
secciones de una clase de psicología. El estudio se considera cuasiexperimental porque, aunque había una variable
independiente activa, los estudiantes no fueron asignados aleatoriamente a los dos grupos (cuestionarios
cronometrados versus no cronometrados). La variable independiente activa fue si había un límite de tiempo para que
los estudiantes tomaran una prueba. Una sección del curso tenía un límite de tiempo de 15 minutos y la otra sección
no tenía límite. Los autores teorizaron que si los estudiantes sabían que tendrían un límite de tiempo, era más
probable que estudiaran el material antes de comenzar el cuestionario en lugar de comenzar el cuestionario para
llevar a casa y luego buscar las respuestas. Las variables dependientes fueron las puntuaciones de los estudiantes
en los exámenes regulares y también el tiempo que dedicaron a las pruebas. Los estudiantes que tenían un límite de
tiempo en las pruebas obtuvieron mejores resultados en los exámenes unitarios supervisados y a libro cerrado (t(44)
= 2,44, p < 0,05) y tardaron menos en las pruebas (t(44) = 3,88, p < .001), lo que apoyó la principal hipótesis de la
investigación. Los tamaños del efecto fueron 0,75 y 1,4, respectivamente, según nuestros cálculos a partir de sus
datos. La clasificación del diseño general fue un diseño de un solo factor (entre grupos) con dos niveles (cuestionarios
cronometrados versus no cronometrados). El diseño experimental específico fue un diseño de posprueba únicamente
con grupos no equivalentes, que sin una prueba previa es un diseño cuasiexperimental muy débil. Bajo la evaluación
de la equivalencia grupal, los autores hicieron varias cosas para mejorar, en cierta medida, este aspecto de la validez
interna.
No se informó evidencia sobre la confiabilidad de las puntuaciones de los exámenes u otras medidas. La confiabilidad
entre evaluadores o entre evaluadores sería alta porque los cuatro exámenes de una hora eran de opción múltiple y
calificados por computadora. Sin embargo, si las puntuaciones de los estudiantes hubieran sido
Se desconoce si fue consistente a lo largo del tiempo o en formas paralelas de los exámenes, pero tal evidencia
de confiabilidad probablemente habría sido al menos satisfactoria. El poder era bajo con sólo 21 y 25 estudiantes
en las dos secciones; el tamaño del efecto d tendría que ser grande para encontrar una diferencia significativa
entre los grupos (Tabla 16.1). Una prueba t para muestras independientes fue una estadística apropiada para
comparar las dos secciones o grupos. El tamaño del efecto de la diferencia y las pruebas de supuestos no se
informaron específicamente, pero sí se informaron las medias y las desviaciones estándar, por lo que se pudo
calcular d . La interpretación de los resultados estadísticos pareció adecuada. En general, calificamos la
confiabilidad de las mediciones y las estadísticas como medias.
Como ocurre con todos los cuasiexperimentos, los participantes no fueron asignados aleatoriamente a los
grupos, por lo que este aspecto de la validez interna no podía ser alto. Sin embargo, no parecía que los
estudiantes fueran conscientes de la variable independiente al inscribirse en las clases. No hubo pretest, por lo
que no se pudo utilizar para comparar los grupos ni para ajustar las medias postest. Se encontró que los grupos
"no eran significativamente diferentes" en el número de créditos anteriores, el promedio de calificaciones
acumulativo (GPA), el rango percentil de la escuela secundaria y la puntuación media del ACT. Estas
comparaciones son útiles, pero con los números pequeños en cada grupo (y, por lo tanto, el poder estadístico
bajo), los grupos podrían haber sido bastante diferentes aunque no estadísticamente significativos. Los autores
de este breve artículo no proporcionan estadísticas descriptivas para estas variables de fondo por separado
para cada grupo, por lo que es posible que el grupo experimental (cuestionario cronometrado) tuviera algo más
alto en algunas o todas estas variables de fondo.
Por otro lado, no se esperaría que dos secciones del mismo curso fueran muy diferentes, pero podrían serlo.
Finalmente, en general hubo un abandono bastante alto (21%), principalmente (14%) al comienzo del curso,
antes de completar cualquier trabajo, pero cuatro estudiantes (7%) faltaron a uno o más exámenes y fueron
excluidos del análisis. , para una tasa de deserción total del 21%. No sería bueno si la mayoría de los estudiantes
abandonados y excluidos fueran del grupo experimental, especialmente si estuviera relacionado con pruebas
cronometradas. La equivalencia de los grupos en (otras) características de los participantes se calificó de baja
a media.
El entorno de las pruebas no estaba controlado; los estudiantes de ambos grupos los tomaron en línea, cuando
se sintieron listos, con los libros abiertos si así lo deseaban. Sin embargo, el entorno para los exámenes de
horas unitarias (la variable dependiente) fue controlado y el mismo para ambos grupos.
Había un grupo de comparación de "tratamiento habitual", la sección de cuestionarios sin tiempo. Los
investigadores supusieron que el grupo de prueba cronometrada estudiaría y luego respondería la prueba,
mientras que el grupo de prueba no cronometrada podría realizar la prueba antes de estudiar el material,
utilizando una estrategia de “prueba para aprender”. Sin embargo, no se sabía ni se controlaba realmente si los
estudiantes realmente estudiaban antes de realizar los cuestionarios y qué estrategia utilizaban. Por tanto, las
experiencias de los grupos podrían haber diferido en aspectos distintos de los que resultan directamente de la variable independ
Además, podría haber habido cierta contaminación (debido a que los estudiantes de diferentes grupos
discutieron estrategias) y otras variables de influencia extrañas podrían haber sido diferentes entre los dos
grupos. En general, el control de variables extrañas se calificó de bajo a medio.
En este cuasiexperimento, la intervención consistió en introducir un límite de tiempo de 15 minutos para los
cuestionarios. El propósito del límite de tiempo era animar a los estudiantes a leer y estudiar antes de realizar
el cuestionario, pero a todos los estudiantes se les dijo que ésta era la mejor manera de utilizar los cuestionarios.
La intervención se definió operativamente y podría replicarse fácilmente. Debido a que el sistema WebCT
implementó el límite de tiempo de manera consistente, no fue necesaria una verificación de manipulación por
separado. Sin embargo, los investigadores sí evaluaron cuánto tiempo dedicaban los estudiantes en promedio
a realizar las pruebas; Como era de esperar, aquellos que habían cronometrado las pruebas dedicaron
significativamente menos tiempo (alrededor de 4 minutos frente a 7 minutos). En general, la validez de constructo
de esta sencilla intervención se calificó como alta.
La variable de resultado dependiente fue la puntuación total en cuatro exámenes computarizados de opción
múltiple de 1 hora de duración. Aunque esta puntuación es probablemente una buena medida del “rendimiento”
del curso, uno podría cuestionar si es una medida válida del “aprendizaje” de los estudiantes. Puede ser que a
algunos estudiantes les vaya bien y a otros mal debido más a su habilidad en lectura o su nivel de ansiedad
ante los exámenes que a lo que aprendieron en el curso. En general, la validez de constructo de la variable
dependiente se calificó de media a alta.
La población teórica o objetivo probablemente eran estudiantes universitarios estadounidenses de psicología o

tal vez incluso estudiantes universitarios en general. La población accesible eran estudiantes de psicología del
desarrollo humano de una gran universidad estatal del Medio Oeste. La muestra seleccionada fueron los 58
estudiantes matriculados en dos secciones de dicho curso. Debido a que la investigación era parte de los
requisitos del curso, todos los estudiantes del curso estaban inicialmente en la muestra real, pero hubo un 21%
de deserción.
La población accesible era considerablemente más reducida que la población teórica porque incluía en su
mayoría estudiantes mujeres en un curso específico de psicología (del desarrollo) en una universidad. Sin
embargo, los estudiantes de esta universidad pueden no ser tan diferentes de los estudiantes de las clases de
psicología de muchas universidades estadounidenses. La muestra seleccionada fue la matrícula total de las dos
clases, por lo que sería representativa de la población accesible.
Sin embargo, el 21% de deserción durante el estudio significa que la muestra real final fue el 79% de la población
accesible. En general, calificamos la validez de la población externa como media.
El entorno de las pruebas era natural (en línea, donde y cuando el estudiante quisiera realizarlos), pero el
entorno de los exámenes de unidad de 1 hora era artificial (supervisado, en un laboratorio de computación),
aunque típico de los exámenes universitarios. La relación con los evaluadores fue probablemente media, en el
mejor de los casos. Los procedimientos para las pruebas parecían naturales, pero, nuevamente, la forma en
que se administraban los exámenes era una forma típica, aunque algo artificial, de evaluar el aprendizaje de los
estudiantes sobre el material del curso. La duración de cada uno de los 19 cuestionarios fue muy breve, pero
aparentemente la intervención fue lo suficientemente potente como para tener un efecto significativo. El tema
de las estrategias para tomar exámenes probablemente persistirá a lo largo de décadas, aunque las tecnologías
para ponerlo en práctica pueden ser relativamente nuevas y pueden cambiar algunas en el futuro cercano. En
general, la validez ecológica externa se calificó como media.
No se realizaron pruebas de subgrupos, probablemente porque la muestra total era pequeña, principalmente
mujeres, y muy probablemente tenía pocas minorías o estudiantes de edades no tradicionales. En general, esta
dimensión se calificó como baja, como suele ser el caso con estudios de muestras pequeñas.
Estudio 3: Un estudio no experimental que utiliza el enfoque comparativo DiLorenzo, Halper y Picone
(2004) compararon personas mayores (de 60 a 85 años) y más jóvenes (de 29 a 59 años) con esclerosis
múltiple (EM) en cuanto a funcionamiento físico y salud mental. y calidad de vida. La variable independiente
edad es un atributo que para este estudio tenía dos niveles: mayor o menor. La duración de la enfermedad
fue otra variable independiente (covariable). Hubo muchas variables dependientes o de resultado que se
clasificaron en las tres amplias categorías de funcionamiento físico, salud mental y calidad de vida. El enfoque
se consideró comparativo porque la principal variable independiente, la edad, era un atributo y tenía solo
unos pocos niveles o grupos (jóvenes y mayores) que se comparaban en cada una de las variables
dependientes. Aunque los pacientes mayores tenían un peor funcionamiento físico (F(1, 56) = 4,02, p < 0,05),
no eran diferentes de los pacientes más jóvenes con EM en cuanto a salud mental y calidad de vida percibida
cuando se controlaba la duración de la enfermedad.
El diseño fue unifactorial con dos niveles. No existe ningún experimento específico.
nombre del diseño porque el estudio no fue experimental.
Las numerosas variables dependientes se evaluaron con instrumentos publicados, la mayoría o todos los
cuales se habían utilizado con personas con EM. Sin embargo, no se informaron coeficientes de confiabilidad
específicos para los instrumentos, probablemente debido a limitaciones de espacio de la revista.
El poder no fue alto con 30 en cada grupo, por lo que la falta de diferencias significativas en la mayoría de las
variables podría deberse a la falta de poder. La elección de una estadística (análisis de covarianza, ANCOVA)
podría haber sido apropiada, pero hay poca evidencia en el artículo de que no se violaran los supuestos de
covarianza, lo que podría haber llevado a interpretaciones inexactas, especialmente con una variable
independiente de atributo (ver Kline, 2004, págs. 191192).
Los tamaños del efecto no fueron presentados ni discutidos. Se proporcionaron medias y errores estándar,
pero las medias se ajustaron según la duración de la enfermedad, lo que dificulta la interpretación de los
tamaños del efecto calculados sobre estas medias. Si los investigadores tuvieran que presentar los tamaños
del efecto, deberían haber sido calculados con medias no ajustadas. Los resultados se interpretaron
apropiadamente, excepto que hubiera sido mejor tener más precaución al interpretar los resultados no
significativos, ya que indicaban "ninguna diferencia". Calificamos la confiabilidad de las mediciones y las
estadísticas como medias.
Este aspecto de la validez interna no podía ser alto porque se trataba de un estudio no experimental que
utilizaba el enfoque comparativo. Sin embargo, los grupos más jóvenes y mayores estaban emparejados en
términos de género y eran bastante similares en términos de raza, estado civil y educación (casi 100%
caucásicos en ambos grupos, alrededor de dos tercios casados en ambos grupos y alrededor de un tercio en
cada grupo). grupo de graduados universitarios). Los grupos fueron diferentes, como era de esperar, en
cuanto a la duración de la enfermedad y el porcentaje de empleo actual. Como se señaló anteriormente, la
duración de la enfermedad se utilizó para ajustar las medias de las variables dependientes de modo que
estadísticamente los grupos fueran más similares en esa dimensión. Debido a que el estudio implicó sólo una
entrevista única, no hubo abandono durante el estudio.
En general, se consideró que la equivalencia de los grupos era media, lo cual es bueno para no ser un
experimento.
Es poco probable que este aspecto de la validez interna sea alto para un estudio de campo no experimental porque
el entorno y las experiencias de los participantes de los dos grupos (mayores y jóvenes) no estaban controlados y
podrían haber sido muy diferentes. Por ejemplo, la mayoría del grupo de mayor edad experimentó, cuando eran
niños, la Gran Depresión y la Segunda Guerra Mundial, mientras que los participantes del grupo más joven eran de
la posguerra y los baby boomers. Los amigos y las experiencias actuales también podrían ser diferentes. Por otro
lado, ambos grupos tenían la misma enfermedad y asistieron al mismo centro de EM en la misma ciudad, por lo que
compartieron en cierto modo el mismo ambiente y experiencias. El control de variables extrañas se calificó de bajo
a medio.
Esto no es aplicable porque no hay intervención en un estudio no experimental, que solo tiene variables independientes
de atributos.
Validez de constructo de las variables medidas (P13)
Sin duda, la edad se evaluó con precisión, al igual que la duración de la enfermedad, utilizando los registros médicos.
Sin embargo, cuando se utiliza un punto de corte artificial (en este caso, la edad de 60 años) para crear grupos en un
estudio comparativo, se crean problemas. La cuestión es si muchos de los participantes mayores y más jóvenes
tienen una edad cercana al punto de corte. Por ejemplo, ¿qué diferencia hay entre una persona de 61 años y una de
59 en cuanto a las variables dependientes de interés? Sin embargo, están en dos grupos diferentes. Probablemente
haya una diferencia considerablemente mayor entre una persona de 61 años y una de 85 años, pero están en el
mismo grupo. Por tanto, la variable edad pierde significado. Un mejor método podría haber sido excluir del estudio a
cualquier persona entre 50 y 60 años. La validez de las variables dependientes probablemente fue aceptable porque
los investigadores utilizaron instrumentos publicados que se habían considerado apropiados para pacientes con EM.
Sin embargo, no se presentaron detalles sobre la evidencia de la validez de estas medidas de autoinforme. Este
aspecto de la validez se calificó de bajo a medio.
La población accesible procedía de un gran centro de atención integral para EM en el noreste, por lo que podría no
ser completamente representativa de la población nacional de adultos con EM, pero los sujetos fueron seleccionados
al azar de las historias clínicas de todos los pacientes diagnosticados con EM durante al menos 5 años. Las tasas de
respuesta fueron ligeramente inferiores al 50%, por lo que no son altas.
En general, la validez poblacional externa se calificó de media a alta.
Validez Ecológica Externa (P15)
El entorno fueron los hogares de los pacientes mediante una entrevista telefónica para mayor eficiencia y para que
los pacientes no ambulatorios pudieran participar fácilmente. La relación con el entrevistador probablemente fue
buena, pero la naturaleza telefónica y estructurada de la entrevista podría haber reducido la relación. Las calificaciones
de las entrevistas de autoinforme son una forma antinatural de evaluar la calidad de vida, la salud física y la salud
mental. No existe intervención en un estudio no experimental por lo que no se calificó su idoneidad. Debido a que se
trata de un diseño transversal en lugar de longitudinal, es posible que los pacientes mayores puedan autoinformar
menos depresión y una mejor calidad de vida actual que la cohorte más joven cuando crezcan.
Sin embargo, el hallazgo de que los pacientes mayores con EM tienen más limitaciones físicas pero una calidad
de vida percibida similar probablemente será aplicable a las generaciones futuras, por lo que el estudio no está
muy vinculado a este momento de la historia. En general, la validez ecológica externa se calificó como media alta.
El estudio no discutió diferencias étnicas o de género; había muy pocas minorías raciales. Debido a que la edad
fue la principal variable independiente, probar las diferencias de edad no es aplicable a la calificación de esta
dimensión. Por tanto, este aspecto de la validez externa se califica como bajo.
Estudio 4: Un estudio no experimental que utiliza el enfoque asociativo Zamboanga, PadillaWalker,
Hardy, Thompson y Wang (2007) realizaron un estudio sobre los antecedentes académicos y la participación en
cursos como predictores del desempeño en exámenes en una clase de psicología universitaria. Se considera
que el estudio es asociativo porque no hubo ninguna variable independiente activa ni tratamiento, y las
puntuaciones de las variables independientes y dependientes varían ampliamente de bajas a altas, por lo que
son esencialmente continuas. Hubo cinco variables predictivas o independientes de atributos clave : (1) puntajes
del examen de ingreso a la universidad ACT; (2) GPA previo en la universidad; (3) número de cursos previos de
psicología; (4) desempeño de la sección de discusión; y (5) frecuencia de asistencia a las conferencias del curso.
Las tres variables clave dependientes o de resultado fueron (1) desempeño general en los exámenes (el
promedio de las puntuaciones de los estudiantes en los cuatro exámenes); (2) desempeño únicamente en
preguntas basadas en conferencias; y (3) desempeño solo en preguntas basadas en texto. Las hipótesis fueron
que las variables de contexto y la participación en el curso (asistencia) predecirían el desempeño en exámenes
tanto basados en textos como en conferencias. Sólo las variables de fondo predecirían el rendimiento basado en
texto.
El ACT, el GPA previo y la asistencia a clases se combinaron para predecir significativamente el rendimiento
general en los exámenes (R2 = 0,45) y también el rendimiento basado en clases (R2 = 0,39). La puntuación ACT
fue el único predictor significativo (R2 = 0,33) del rendimiento basado en textos.
El enfoque de investigación es asociativo porque las cinco variables predictivas clave tienen muchos niveles
ordenados, al igual que las variables de resultado (dependientes). No existe una clasificación de diseño general
ni un nombre de diseño específico porque se trata de un enfoque asociativo.
La confiabilidad de la consistencia interna de las tres medidas de la prueba de resultados fue aceptable (alfa =
0,88, 0,77 y 0,73, respectivamente), y la confiabilidad entre evaluadores sería excelente porque los ítems eran
objetivos. En este breve artículo no se proporciona información sobre la confiabilidad de la medición de las
variables predictivas, como el ACT o el GPA autoinformados, pero es probable que la coherencia de dichos
autoinformes sea buena. Con N = 114, el poder fue adecuado para encontrar una relación significativa cuando
los tamaños del efecto eran medianos a pequeños. Las estadísticas utilizadas (correlación y análisis de regresión
múltiple jerárquica) fueron apropiadas y bien presentadas (véanse los Capítulos 21 y 22 de este texto para
obtener más información sobre la interpretación de estos resultados). Los tamaños del efecto (R2 ) se
presentaron y fueron grandes, pero no se interpretaron específicamente. En general, la fiabilidad de las
mediciones y las estadísticas obtuvieron una puntuación alta.
Este aspecto de la validez interna se califica de bajo a medio. Aunque no hay grupos en un estudio
puramente asociativo, creemos que es importante señalar a través de esta calificación que no se debe
inferir que las variables de fondo (p. ej., GPA, puntuación ACT) o las variables de participación en el
curso (p. ej., asistencia a clase) causó puntajes de desempeño en exámenes más altos (o más bajos). En
un estudio asociativo, este aspecto de la validez interna depende principalmente de si las personas con
puntuaciones altas en las variables predictivas (p. ej., GPA, puntuación ACT) eran similares a los
participantes con puntuaciones bajas en dichas variables. Casi siempre hay otras características
personales importantes, como la habilidad de lectura o la ansiedad ante los exámenes, que podrían ser la
causa principal de las diferencias en el rendimiento en los exámenes. Por supuesto, no hubo asignación
aleatoria de grupos. Los investigadores midieron el género y el año de universidad y luego los ingresaron
primero en la regresión múltiple como controles demográficos. Esto significa que las predicciones de las
puntuaciones de los exámenes controlaron estas variables demográficas. El desgaste fue bastante alto
(41%) porque a muchos estudiantes les faltaban datos para una o más de las 10 variables. (La regresión
múltiple requiere datos completos sobre todas las variables). Los investigadores hicieron un análisis
utilizando lo que se llama procedimientos de imputación múltiple para tener en cuenta los datos faltantes;
el patrón de resultados no difirió de lo que encontraron con la muestra más pequeña, lo que ayuda a
controlar los problemas de deserción. Como se indicó anteriormente, en general la equivalencia de los grupos se calificó
El ambiente estaba bastante bien controlado con respecto a las variables dependientes/de resultado del
examen. Las variables predictivas se recogieron durante la clase, por lo que era un entorno relativamente
bien controlado. No hubo grupos, pero la cuestión de los entornos equivalentes para un enfoque asociativo
tiene que ver con si los participantes que obtuvieron puntuaciones altas en las variables independientes/
predictoras tuvieron entornos similares durante el estudio a las personas que tuvieron puntuaciones bajas
en estas variables en este estudio. En este caso, probablemente los ambientes eran similares. Hay
muchas variables extrañas potenciales (por ejemplo, partidos, cuestiones de ajuste universitario) durante
el estudio que podrían afectar a algunos estudiantes más que a otros, pero no está claro cómo estos tipos
de variables afectarían los resultados. En general, el control de experiencias/variables extrañas se calificó
como medio.
No existe intervención en un estudio asociativo no experimental por lo que esta dimensión no es aplicable.
Validez de constructo de las variables dependientes y variables

independientes de atributos (P13)
Las medidas de resultado y las medidas predictivas utilizadas en este estudio son tipos comunes de
medidas en los estudios sobre el desempeño de los estudiantes universitarios. Sin embargo, existen
algunas dudas sobre la validez de las medidas. Tres de las cinco variables predictivas (ACT, GPA y cursos
previos de psicología) fueron medidas de autoinforme de los estudiantes, cuya validez podría cuestionarse.
Las otras dos variables predictivas, asistencia a conferencias y desempeño en la sección de discusión,
probablemente fueron medidas válidas de los conceptos pretendidos. Al igual que con el estudio 2 sobre
los límites de tiempo de las pruebas evaluado anteriormente, los exámenes del curso aquí sin duda
proporcionan evidencia válida del desempeño en el curso, pero uno podría cuestionar si son medidas válidas.
del aprendizaje de los estudiantes. Los autores describen cautelosamente y consistentemente estas variables de
resultados como desempeño en exámenes más que como aprendizaje de los estudiantes. En general, la validez
de constructo de las variables dependientes e independientes de los atributos se calificó de media a alta.
La población objetivo o teórica probablemente eran todos los estudiantes estadounidenses de introducción a la
psicología o incluso todos los estudiantes universitarios estadounidenses. La población accesible era la introducción
a los estudiantes de psicología en una gran universidad estatal del Medio Oeste. La muestra seleccionada fueron
los 193 estudiantes que se matricularon en este curso. Todos estos estudiantes estaban inicialmente en la muestra
real, pero a 79 (41%) les faltaban algunos datos y, por lo tanto, fueron excluidos del análisis de regresión.
Debido a que la mayoría de los estudiantes universitarios de todas las especialidades toman una clase de
introducción a la psicología y los estudiantes de esta universidad estatal probablemente son similares a la población
universitaria a nivel nacional, la población accesible era sin duda similar a la población teórica. La muestra
seleccionada fue idéntica a la población accesible (todos los estudiantes matriculados). Sin embargo, es
preocupante tener un gran porcentaje de estudiantes a los que les faltan datos, a pesar de que los investigadores
demostraron que el patrón de resultados no cambió cuando se “introdujeron” los datos faltantes. En general, la
validez externa poblacional se calificó de media a alta.
El entorno del estudio, un curso de introducción a la psicología, es típico de una investigación relacionada con un
curso, pero es un entorno algo artificial para evaluar el aprendizaje de la psicología. La relación con el instructor
probablemente fue, en el mejor de los casos, media. Los procedimientos y tareas, nuevamente, eran típicos de
este tipo de investigación pero algo artificiales. No existe ningún tratamiento en un estudio asociativo por lo que
ese aspecto de validez ecológica no es aplicable. Finalmente, el tema y los resultados no parecen limitarse a la
década actual. En general, la validez ecológica externa se calificó como media.
Los subgrupos no se evaluaron por separado, pero se utilizó el género como variable y se encontró que no estaba
significativamente relacionado con ninguna de las tres variables de resultado. Asimismo, el año de universidad,
que probablemente esté relacionado con la edad, no estuvo relacionado con los resultados. No se evaluó el origen
étnico, y es muy posible que sólo hubiera un pequeño porcentaje de minorías étnicas, tal vez no lo suficiente como
para utilizarlo como variable. En general, las pruebas de validez externa de los subgrupos se calificaron de baja a
media.
Estudio 5: Un estudio puramente descriptivo Este
estudio de Wolfe et al. (2006) describieron los resultados de 112 entrevistas sobre el uso de terapia antirretroviral
en personas VIH positivas en Botswana, África. No se informó ninguna variable independiente en este estudio
porque a todos los participantes se les había ofrecido la terapia y porque sus efectos no se evaluaron en este
informe. Asimismo, no se informaron comparaciones ni asociaciones entre variables. Por tanto, no existía
clasificación ni nombre del diseño. Lo que se preguntó y reportó fueron varios aspectos (variables) de la muestra.
como la edad, el género y la educación. Las variables clave de resultado fueron a quién, si acaso, los
participantes revelaron su enfermedad y cuáles fueron los efectos sociales percibidos de la enfermedad (es
decir, cómo el VIH había afectado sus relaciones sociales, su capacidad para trabajar y su miedo a perder
el empleo). La mayoría de los participantes habían mantenido en secreto su enfermedad ante la comunidad
y muchos sentían que afectaba sus relaciones sociales y su capacidad para trabajar. Alrededor del 25%
temía la pérdida de empleo. Aunque en este artículo sólo se informaron los hallazgos cuantitativos tabulados,
las preguntas de la entrevista estructurada se complementaron con preguntas cualitativas o abiertas para
los 110 participantes.
La confiabilidad de la medida no se discutió en este breve artículo, pero las medidas demográficas (edad,
género y educación) sin duda serían respondidas y calificadas de manera consistente. Se desconoce si las
variables de divulgación y efectos sociales serían estables/consistentes incluso durante un período corto de
tiempo. La potencia no es aplicable porque no se probaron hipótesis. Las estadísticas descriptivas citadas
fueron porcentajes simples y directos, que probablemente sean adecuados para los propósitos de este
estudio. Los tamaños del efecto no son relevantes aquí.
En general, la confiabilidad de las mediciones y las estadísticas se calificaron de media a alta, dados los
propósitos básicos del estudio.
En este estudio descriptivo únicamente, la muestra no se dividió en grupos al azar o de otra manera, por lo
que la equivalencia no es aplicable ni relevante aquí. Sin embargo, la muestra podría fácilmente haberse
dividido por edad, género o nivel de educación que se evaluó, y luego se podrían haber comparado esos
grupos. En ese caso, los autores no deberían haber dado a entender (y no lo hicieron) que estas variables
demográficas causaron diferencias en la divulgación o los efectos sociales. En conjunto, la equivalencia de
grupos se califica como no aplicable.
El ambiente durante el estudio estuvo bien controlado porque los pacientes fueron entrevistados en un
ambiente privado en una de las tres clínicas. El tratamiento (terapia antirretroviral) se administró a todos los
participantes, pero su efecto no se estudió en este artículo, por lo que no fue necesario un grupo de
comparación. Hubo muchas experiencias extrañas potenciales que podrían afectar, y probablemente
afectaron, la forma en que los participantes respondieron las preguntas de la entrevista, pero es poco
probable que hayan ocurrido durante el estudio. Creemos que es mejor calificar el control de variables
extrañas como medio.
Esta dimensión no es aplicable porque no hay intervención en este estudio puramente descriptivo. La terapia
antirretroviral es una constante, no una variable, y no fue estudiada aquí.
Las variables de resultado relacionadas con la revelación y los efectos sociales de ser VIH positivo parecen
haber sido estudiadas con otros participantes similares. Es difícil juzgar la validez de las respuestas porque
el tema era claramente delicado y los participantes habían ocultado
de sus comunidades e incluso de sus familiares. De hecho, el 40% había retrasado la obtención de tratamiento
a pesar de tener acceso a un seguro médico. En esta situación, después de decidir recibir tratamiento, sus
respuestas probablemente fueron precisas (válidas), pero tal vez exageraron el grado de secreto y la gravedad
de los efectos sociales. En general, la validez de constructo de la medida se califica como media a alta.
La población objetivo probablemente eran todos los adultos VIH positivos de Botswana que estaban recibiendo
terapia antirretroviral. La población accesible fueron los pacientes de tres clínicas privadas durante un período
de tiempo en 2000. La muestra seleccionada fue probablemente algo más que los 112 pacientes que estaban
en la muestra real, pero no está claro a cuántos de los que se les pidió que participaran. declinó ser entrevistado.
Excepto en unos pocos días de mucha actividad (<10%), se reclutó a todos los pacientes de las clínicas para
ser entrevistados. Los autores afirman que prácticamente todas las personas que recibían terapia en Botswana
en ese momento recibían tratamiento en esas tres clínicas.
Por lo tanto, las poblaciones accesibles y objetivo parecen ser casi las mismas. También podemos estar
bastante seguros de que la muestra seleccionada es representativa de la población accesible, al menos durante
este momento de la historia, porque se seleccionaron casi todos los pacientes. También parece que casi todos
los seleccionados aceptaron ser entrevistados o, de lo contrario, es de esperar que los investigadores hubieran
notado la tasa de rechazo. En general, la validez externa poblacional se calificó como alta, suponiendo que la
población objetivo fueran aquellos pacientes que recibieron terapia en 2000.
El entorno del estudio fue una habitación privada de la clínica, que aunque no es un entorno natural, es
apropiado para este tipo de entrevista. La relación entre los investigadores no está clara, pero sería difícil de
lograr dada la sensibilidad declarada del tema entre los participantes. Las entrevistas fueron realizadas por el
investigador principal, aparentemente un médico de una importante facultad de medicina de Estados Unidos, y
un asistente de campo capacitado localmente. Es difícil saber el efecto que estas personas tuvieron en la
relación. Los procedimientos (entrevistas) parecían bastante naturales, pero discutir el tema podría haber
producido tensión. La intervención (terapia) no fue estudiada, por lo que la duración y el momento no son
aplicables. Finalmente, el tema y los resultados pueden estar muy limitados en el tiempo. Estas entrevistas se
realizaron justo antes de un nuevo e importante programa nacional sobre antirretrovirales que fue diseñado
para llegar a una amplia audiencia y cambiar actitudes. En general, la validez ecológica externa se calificó
como media.
No se realizaron pruebas ni comparaciones de subgrupos, a pesar de que los géneros se dividieron en partes
iguales para poder compararlos. Esta dimensión fue calificada como baja.
Resumen
Cada uno de los cinco estudios de muestra presentados por primera vez en el Capítulo 1 fue evaluado en
profundidad en las ocho dimensiones de la validez de la investigación. Estas evaluaciones y calificaciones
narrativas se resumen en la Tabla 25.1.
Tabla 25.1
Evaluaciones comparativas de los cinco estudios de muestra
Calificaciones de evaluación
Pregunta Estudio 1 Estudio 2 Estudio 3 Estudio 4 Estudio 5
Fiabilidad y estadísticas
9. Fiabilidad general de las mediciones y estadísticas Alta Medio Medio Alto MH
Validez interna
10. Equivalencia de los grupos según participante MH LM Medio LM N/A
características
11. Control de experiencias extrañas y MH LM LM Medio Medio
Variables de entorno
Validez de constructos
12. Validez de constructo de la intervención (si corresponde) MH Alta NA 13. Validez N/A N/A
de medición o de constructo de Alto MH LM mh mh

resultados y otras variables medidas
Validez externa
14. Validez externa poblacional Medio Medio MH mh Alto
15. Validez externa ecológica 16. Alto Medio HM Medio Medio
Pruebas de subgrupos Bajo Bajo Bajo LM N/A
Nota: LM = bajo a medio. MH = medio a alto. NA = no aplicable.
Una comparación lado a lado indica que, en términos de validez general de la investigación, basada en
Según estas calificaciones, los cinco estudios tuvieron algunas fortalezas. Estas calificaciones algo similares no son
demasiado sorprendente porque los cinco fueron publicados en revistas revisadas por pares. Sin embargo, ellos
todos tenían áreas de debilidad, en parte porque eran estudios aplicados.
La mayoría de los estudios tuvieron una validez externa poblacional media, siendo los estudios 3, 4 y
5 teniendo muestras algo mejores. Las muestras, como suele ser el caso, pueden no ser representativas de la
población de interés. Por otro lado, la confiabilidad de la medición.
y las estadísticas, excepto por la baja potencia y la falta de detalles sobre la confiabilidad, fueron buenas para
tres de los cinco estudios. La validez ecológica externa de, especialmente, los estudios 1 y 3.
fue bastante bueno. Las pruebas de los subgrupos de participantes fueron generalmente bajas, en parte porque la
muestras relativamente pequeñas impidieron realizar comparaciones adecuadas de género, edad y etnia/
subgrupos raciales.
Los estudios variaron considerablemente, como se esperaba, en cuanto a la validez interna, que se considera
ser la dimensión más importante para los investigadores experimentales, incluidos aquellos que no
ensayos clínicos aleatorios, metanálisis de qué intervenciones funcionan mejor y prácticas basadas en evidencia.
El experimento aleatorio (estudio 1) obtuvo la calificación más alta en términos internos.
validez; los estudios comparativos y asociativos fueron calificados como los más bajos. Este particular
El cuasiexperimento (estudio 2) recibió una calificación de validez interna relativamente baja porque no
incluir una prueba previa.
Conceptos clave
Véanse los capítulos 23 y 24.
Distinciones clave
Consulte los capítulos 23 y 24.
Consulte el Capítulo 24.
Nota
1. En un libro anterior (Morgan, Gliner y Harmon, 2006) proporcionamos un método posible para realizar
una evaluación numérica más detallada de la validez de investigación de un estudio. Sin embargo,
utilizar el formulario de evaluación de 2006 y asignar puntos a las escalas hizo que la evaluación fuera
algo mecánica, por lo que no lo hemos hecho aquí.
26
Evaluación de la investigación para la práctica basada en la evidencia
En capítulos anteriores analizamos la evaluación del proceso de investigación, incluida la formulación

de hipótesis, la selección de una muestra apropiada, la formulación de un diseño apropiado, la selección
de medidas con evidencia de confiabilidad y validez, la elección del análisis de datos apropiado y la
interpretación de este análisis. La evaluación de la investigación también complementa el proceso de
utilizar la investigación como evidencia para respaldar un nuevo método de tratamiento, un nuevo
programa comunitario, un nuevo enfoque de enseñanza u otras aplicaciones de nuevas intervenciones.
Independientemente de si los estudios se llevaron a cabo en entornos clínicos o aplicados, o si
incluyeron una intervención, proporcionan evidencia que puede servir como guía para los profesionales,
directores de programas o profesores. En su mayor parte, utilizar la investigación como evidencia ha
sido una gran parte del concepto conocido como práctica basada en evidencia (PBE). Si bien la práctica
basada en la evidencia se ha dirigido principalmente a quienes se dedican a disciplinas clínicas, puede
y debe incluirse en todos los lugares donde se ofrecen nuevos programas.
La práctica basada en la evidencia, según Law (2002), “es ahora parte de cada disciplina de atención
médica y programa de educación profesional. Si bien todo el mundo está de acuerdo en que es
importante utilizar la evidencia en la práctica, los desafíos que implica encontrar, evaluar y utilizar la
evidencia son sustanciales” (p. xv). ¿Qué es la práctica basada en evidencia? Según Sackett,
Rosenberg, Gray, Haynes y Richardson (1996), se trata de “un uso explícito y juicioso de la mejor
evidencia actual para tomar decisiones sobre la atención de pacientes individuales” (p. 71). La idea
subyacente detrás de la PBE es que las decisiones sobre intervenciones en áreas clínicas deben
basarse en la solidez de la evidencia. Creemos que la PBE debe aplicarse no sólo a la práctica clínica
sino también a otras situaciones, como métodos de enseñanza y programas comunitarios, donde se
están considerando nuevas intervenciones.
Sin embargo, la mejor evidencia actual no es necesariamente solo evidencia de investigación: “Este
enfoque en la evidencia de investigación puede llevar a los profesionales a malinterpretar la práctica
basada en evidencia como una forma de práctica que se basa únicamente en evidencia de estudios de
investigación y que carece de evidencia basada en experiencia clínica y las propias necesidades y
deseos del cliente” (TickleDegnen, 1999, p. 538). Por otro lado, la información recopilada a partir de la
experiencia clínica, el testimonio de expertos y las discusiones con otros profesionales está sujeta a
sesgos. Por lo tanto, un aspecto importante de la práctica basada en la evidencia es que debe usarse
para integrar los hallazgos de la investigación con otras evidencias más subjetivas, en lugar de ser la
única fuente de evidencia.
Niveles de evidencia
La práctica basada en la evidencia parte del supuesto de que no todas las pruebas deben considerarse
como si tuvieran el mismo valor o peso. Hay varias jerarquías o clasificaciones proporcionadas para
evaluar los niveles de evidencia de fuerte a débil (por ejemplo, Holm, 2000; Sackett, 1989). Ley
383
Tabla 26.1
Jerarquía de niveles de evidencia para la práctica basada en la evidencia
Nivel Descripción
I Evidencia de al menos un metanálisis compuesto de estudios que utilicen ensayos controlados aleatorios
II Evidencia de al menos un ensayo controlado aleatorio con un tamaño de muestra grande
III Evidencia de cuasiexperimentos que utilizan diseños como el diseño de asignación aleatoria por conglomerados, pretest–
Diseño de grupo no equivalente postest o diseño de serie temporal interrumpida.
IV Evidencia de estudios no experimentales que utilizan diseños comparativos o asociativos.
V Evidencia de estudios cualitativos, informes de casos y estudios descriptivos.
VI Evidencia de la opinión de expertos
(2002), en su libro titulado Rehabilitación basada en evidencia, describió tres jerarquías diferentes
o niveles de clasificación. La tabla 26.1 proporciona un resumen de estos niveles de evidencia para
la evidencia se basa en la practica.
¿Qué tienen en común las diversas formas de calificar los niveles de evidencia? En primer lugar, la investigación
cuantitativa se considera más positiva que la investigación cualitativa. Segundo, validez interna.
se le da más peso que la validez externa. En tercer lugar, se ven múltiples estudios sobre un tema.
más favorablemente que un solo estudio. Por último, los estudios con muestras de gran tamaño reciben una calificación más alta.
que los estudios con tamaños de muestra pequeños. Cada una de estas afirmaciones se analiza con más detalle en
las siguientes secciones.
Evidencia cuantitativa versus cualitativa
Los enfoques de investigación cuantitativa y cualitativa representan dos paradigmas o

Filosofías sobre cómo se debe realizar e interpretar la investigación. A pesar de que hay
amplias diferencias dentro de cada uno de estos paradigmas, también hay considerables coherencias
entre investigadores cualitativos y cuantitativos. Sin embargo, los tipos de datos, la recopilación de datos
Los métodos y análisis de datos son sustancialmente diferentes para los dos paradigmas.
Normalmente, en estas clasificaciones de esquemas de evidencia, la investigación cualitativa se ve cerca
El fondo. Una razón para esta opinión es que la mayoría de estos esquemas de clasificación provienen de
el campo de la medicina, donde los datos objetivos y los ensayos de control aleatorios se consideran
el estándar de oro. Cuando los participantes son asignados aleatoriamente a grupos, las críticas por sesgo
en el estudio, aunque no se eliminan totalmente, suelen reducirse considerablemente. En la investigación
cualitativa, rara vez se realiza la asignación aleatoria en grupos. El sesgo en la recopilación de datos también es
considerado un problema porque el investigador como observador es a menudo el único instrumento en
el estudio. El investigador no sólo recopila los datos y los codifica en diferentes categorías, sino que también los
interpreta. Porque estas son partes necesarias del bien.
investigación cualitativa, no pueden evitar dar la apariencia de una fuerte influencia subjetiva. Por último, los
estudios cualitativos, debido a sus métodos de muestreo, tienen baja validez externa,
no permitiendo la generalización a otras situaciones.
Validez interna versus validez externa
Generalmente se considera que los estudios con una fuerte validez interna proporcionan resultados más valiosos.
evidencia que los estudios con fuerte validez externa en estos esquemas de clasificación. Qué
¿Qué queremos decir con validez interna fuerte? Como se analizó en los Capítulos 8 y 23, un requisito
Evaluación de la investigación para la práctica basada en la evidencia 385
Lo más importante para una fuerte validez interna es que los participantes hayan sido asignados aleatoriamente a grupos.
Esto no significa que el proceso de aleatorización haga que los grupos sean exactamente iguales
o equivalentes, aunque cuanto mayor sea el número de participantes, mayor será la posibilidad
de equivalencia. La asignación aleatoria de participantes a grupos significa que no hay sesgo
entre los grupos en las características de los participantes antes de la introducción de la variable
independiente. Por lo tanto, los estudios considerados experimentales aleatorios reciben más
peso que aquellos que son cuasiexperimentales, donde los participantes no pueden ser asignados
aleatoriamente a grupos. Se considera que los estudios en los que la variable independiente es
un atributo, como los que utilizan enfoques comparativos o asociativos, tienen menos validez
interna y se les da un peso significativamente menor en los esquemas de evaluación de la práctica
basada en evidencia.
Una fuerte validez externa poblacional significa que el método de selección de participantes
debe permitir a los investigadores generalizar los resultados del estudio a la población de interés.
Sin embargo, si un estudio tiene una validez interna baja y un segundo tiene una validez interna
alta, este último se ve más favorablemente incluso si el estudio de validez interna baja tiene una
validez externa fuerte (donde los participantes fueron seleccionados al azar para participar en el
estudio entre la población). de interés). Los estudios que están estrictamente controlados se
consideran superiores, aunque puedan tener menos generalización a la población. Los estudios
cualitativos generalmente se consideran de baja validez tanto interna como externa, lo que es otra
razón por la que se le da menor peso a la evidencia que aportan.
Una razón importante por la que en estos esquemas de clasificación se ha dado más peso a la
validez interna que a la validez externa es el metanálisis. Anteriormente, se han criticado los
estudios con una fuerte validez interna pero una validez externa relativamente baja, debido al
muestreo por conveniencia. Sin embargo, cuando se incluye un gran número de estudios en un
metanálisis, aunque la mayoría de estos estudios podrían haber utilizado un muestreo por
conveniencia, el gran número de participantes con diferentes características demográficas
aumenta sustancialmente la validez externa.
Múltiples estudios versus un solo estudio
La evidencia de un único estudio rigurosamente diseñado, aunque convincente, todavía no es tan

convincente como una síntesis de múltiples estudios bien diseñados sobre el mismo tema. A
menudo, el problema con los estudios individuales es que no se han replicado o que, cuando se
intenta replicarlos, los resultados no se sostienen. Peor aún, muchos de los intentos de replicación
que fracasan no se publican en revistas. Para resolver el problema del énfasis en estudios únicos,
se desarrolló una metodología completamente nueva: el metanálisis. El metanálisis (capítulo 17)
es un método para sintetizar la investigación sobre un tema particular combinando los resultados
de muchos estudios que tratan del tema. Estos estudios se combinan promediando un índice de
tamaño del efecto de cada estudio. Recuerde del capítulo 17 que el tamaño del efecto es un
índice de la fuerza de la relación entre la variable independiente y la variable dependiente. Antes
de la introducción del metanálisis, uno podría leer una revisión sobre un tema en particular y ver
que algunos estudios favorecen el tratamiento, mientras que otros sugieren que el tratamiento no fue efectivo.
Fue difícil obtener un juicio global sobre la eficacia del tratamiento.
El metanálisis resuelve este problema obteniendo un promedio general del tamaño del efecto que
indica el grado de éxito o falta del mismo de la intervención. Los metanálisis se han vuelto más
comunes en todos los campos y se han formado colaboraciones como la Colaboración Cochrane
(para investigación médica) o la Colaboración Campbell (para investigación en ciencias sociales)
que proporcionan síntesis de investigación sobre una amplia gama de temas.
Tamaño de muestra grande versus tamaño de muestra
pequeño Los estudios individuales que tienen un tamaño de muestra grande han recibido más peso en los
esquemas de evaluación de la práctica basada en evidencia que los estudios con un tamaño de muestra
pequeño. La razón de esto es que, con un muestreo adecuado, hay menos posibilidades de error a medida
que agregamos más participantes a un estudio. No sólo hay menos variabilidad con números más grandes,
sino que, lo que es más importante, hay más poder estadístico, el poder de rechazar una hipótesis nula falsa.
Los investigadores esperan rechazar una hipótesis de que no hay diferencias (la hipótesis nula) y concluir
que la intervención fue exitosa. Cuando el estudio tiene un tamaño de muestra pequeño, podría haber mayor
variabilidad. Esto significa que la intervención podría haber funcionado, pero debido a que el tamaño de la
muestra era relativamente pequeño, es posible que no se tuviera el poder estadístico para rechazar una
hipótesis nula falsa. Por lo tanto, uno podría renunciar a la intervención, cuando en realidad no se le dio una
prueba justa. Lo que constituye un tamaño de muestra grande en comparación con uno pequeño es algo
arbitrario, pero el poder estadístico se puede determinar para varios tamaños de muestra proporcionando
una estimación del tamaño del efecto (ver Capítulo 16).
En estos sistemas de clasificación de prácticas basados en evidencia, los estudios que combinan un
tamaño de muestra grande con una fuerte validez interna son los más valorados. Cabe señalar que, en
igualdad de condiciones, se prefiere un tamaño de muestra grande a uno pequeño. Sin embargo, se prefieren
muchos estudios con tamaños de muestra pequeños a un estudio con un tamaño de muestra grande.
Mejor aún son muchos estudios con muestras de gran tamaño.
Problemas con el uso de niveles de jerarquías de evidencia
No centrarse en los resultados de un estudio Las
jerarquías de niveles de evidencia evalúan el rigor y el diseño de un estudio, pero describen poco sobre los
resultados específicos del estudio. ¿Qué encontraron exactamente los autores sobre la condición de
intervención en comparación con la intervención utilizada anteriormente? Esto suele ser lo que a un médico
o director de programa le gustaría saber a partir de uno o varios estudios. ¿Cuáles fueron los hallazgos?
Cuando el investigador comparó los dos grupos (o más de dos en algunas situaciones), ¿hubo diferencias?
¿Se consideró que estas diferencias eran estadísticamente significativas? Incluso si las diferencias fueran
estadísticamente significativas, ¿cuál fue el tamaño del efecto? ¿Tenían los resultados importancia práctica?
(Recuerde que en estudios con muestras de gran tamaño, realizar pruebas de significancia estadística de
los datos suele ser un ejercicio trivial porque el poder estadístico es tan grande que cualquier diferencia
entre los dos grupos resultará en una diferencia estadísticamente significativa). Sin saber cómo evaluar la
investigación, es difícil emitir un juicio sobre estas cuestiones.
Poblaciones especiales
Existe preocupación, especialmente entre quienes trabajan en disciplinas como la educación especial y la
terapia ocupacional, de que se le dé demasiado peso al uso de ensayos controlados aleatorios como
estándar de oro para acumular evidencia. En un área donde los tamaños de muestra suelen ser pequeños y
los participantes no son homogéneos, no sólo es difícil realizar experimentos aleatorios, sino que también
es probable que los resultados sean sospechosos. A menudo, el poder estadístico es bajo, lo que da lugar a
errores de tipo II. Una alternativa a los experimentos aleatorios con poblaciones especiales es utilizar
diseños de un solo sujeto (Capítulo 6). Aunque el metanálisis con estos
diseños es algo problemático debido a la falta de acuerdo sobre un tamaño del efecto representativo, aun
así ha habido una gran cantidad de estudios publicados en revistas acreditadas para permitir síntesis de
investigación que podrían usarse como evidencia para la práctica basada en evidencia.
Programas de
enseñanza Los nuevos métodos de enseñanza proporcionan excelentes ejemplos de situaciones que necesitan PBE.
Sin embargo, al igual que las investigaciones con poblaciones especiales, los experimentos aleatorios a
menudo no se han llevado a cabo debido, en su mayor parte, al problema de asignar aleatoriamente a los
participantes a los grupos antes de la intervención. Cuando se han llevado a cabo experimentos aleatorios
en situaciones escolares, surgen dudas sobre la validez externa de los estudios. ¿Qué tan realistas son
estos hallazgos? Nuevamente, esto no significa que no se hayan recopilado pruebas sólidas en el área de
los métodos de enseñanza. La mejor evidencia aquí a menudo se ha reunido mediante el uso de diseños
cuasiexperimentales (Capítulo 5). En las mejores situaciones, se ha recopilado evidencia de un nuevo
método de enseñanza en múltiples escuelas que puede compararse con los métodos de enseñanza
tradicionales que también se llevan a cabo en múltiples escuelas. En este enfoque, denominado diseños
aleatorios por conglomerados, las escuelas, en lugar de los estudiantes, son asignadas aleatoriamente a los
diferentes métodos de enseñanza. Situaciones menos óptimas, pero aún consideradas buenas para la PBE,
son diseños cuasiexperimentales bien diseñados en los que se prueban dos métodos de enseñanza
diferentes comparando las diferencias entre dos escuelas o incluso entre dos aulas dentro de una escuela.
Siempre que la asignación a grupos (por ejemplo, escuelas o aulas) no esté sesgada, se puede obtener
buena información. Esto es especialmente cierto cuando se han realizado múltiples estudios.
Programas comunitarios La práctica
basada en evidencia también se puede aplicar a la selección de una nueva intervención para programas
comunitarios. Por ejemplo, considere un programa para lograr que los niños usen cascos de bicicleta. ¿Cuál
podría ser el mejor método de intervención en este caso? Es dudoso que se encuentren muchos
experimentos aleatorios que se hayan realizado anteriormente. Un buen punto de partida es el área de
diseños de series temporales de un solo grupo. Es posible que gran parte de la evidencia se encuentre en
estudios que utilizan un diseño pretestpostest de un solo grupo. Si bien este diseño suele ser inadecuado
para tomar decisiones importantes, también puede haber estudios que investiguen el mismo tema que hayan
utilizado un diseño cuasiexperimental de series temporales de un solo grupo (Capítulo 5). Creemos que este
tipo de diseño es mucho mejor que el diseño pretestpostest de un solo grupo y es práctico para evaluar
este tipo de programas. A menudo, cuando se ha publicado una revisión sistemática sobre el tema, se
pueden encontrar, además de los dos tipos de diseños ya mencionados, uno o dos estudios que utilizan
diseños cuasiexperimentales de series temporales de dos grupos. Estos diseños, al ofrecer tanto un grupo
de comparación como un tiempo, son aún mejores para EBP.
Desafortunadamente, cuando se practica la PBE, existe una tendencia a rechazar todos los estudios que
no aportan evidencia en forma de un diseño experimental aleatorio. Creemos que esto es demasiado
cauteloso y poco práctico. Es importante recordar que no sólo es importante la calidad del diseño, sino que
cuando se ha proporcionado evidencia de diferentes diseños, algunos mejores que otros, también se debe
seguir la tendencia o dirección de la evidencia para determinar si respalda la idea. intervención. A veces
hay conflictos entre las pruebas. Aquí se debe prestar especial atención a los diseños de mayor calidad. En
general, se debe utilizar la mejor evidencia que se haya proporcionado, sabiendo que puede haber fallas en
esos estudios.
El proceso de la práctica basada en la evidencia
A menudo, cuando pensamos en la práctica basada en la evidencia, pensamos en el médico o director del
programa convirtiéndose en investigador, utilizando la situación actual para recopilar evidencia. De particular
interés es la opinión de que una buena práctica de investigación sistemática convierte a uno en un mejor
profesional. Aunque la formación del profesional/investigador puede ser el objetivo de todo programa académico,
esta expectativa puede no ser realista. ¿Qué podría esperarse del médico actual o del director de programa
respecto del uso de la práctica basada en la evidencia? La opinión adoptada aquí es que aquellas personas que
buscan evidencia de investigación deben ser buenos consumidores de investigación. Es decir, deben poder
comprender la investigación actual en el campo para poder evaluar las intervenciones. También significa que
existe un proceso para la práctica basada en evidencia. Uno de los propósitos de este texto es ayudar a los
profesionales a evaluar el proceso de investigación a través de ejemplos de artículos seleccionados de disciplinas
representativas. El Capítulo 25 proporcionó cinco ejemplos de evaluaciones de estudios individuales basadas
en los criterios y preguntas discutidos en los Capítulos 23 y 24.
Sackett, Richardson, Rosenberg y Haynes (2000) sugirieron cinco pasos en la práctica

de la medicina basada en la evidencia:
Paso 1. Convertir la necesidad de información en una pregunta con respuesta.

Paso 2. Buscar la mejor evidencia para responder la pregunta.
Paso 3. Evaluar críticamente esa evidencia por su validez, impacto y aplicabilidad.
Paso 4. Integrar la valoración crítica con la experiencia clínica y con la experiencia del paciente
biología, valores y circunstancias únicas.
Paso 5. Evaluar nuestra eficacia y eficiencia en la ejecución de los pasos 1 a 4 y buscar
formas de mejorarlos a ambos para la próxima vez. (pág.4)
Este proceso generalmente comienza con la formulación de una pregunta significativa y que pueda responderse,
una pregunta que esté directamente relacionada con un tema de interés sobre la práctica. Si la cuestión no es
motivo de preocupación, habrá poco interés en buscar pruebas de apoyo. Esto no es raro en la investigación, por
ejemplo, cuando los estudiantes intentan seleccionar un tema de tesis. Una vez definida esta cuestión, se inicia
una búsqueda en la literatura. Esto podría incluir la revisión de revistas relevantes, textos recientes y bases de
datos electrónicas. Una vez que se busca en la literatura y se recuperan los artículos relevantes, el siguiente
paso es evaluarlos sistemáticamente. (Cabe señalar que, aunque esto parece una tarea horrenda para el médico
en ejercicio, existen ciertos atajos. Por ejemplo, la colaboración Cochrane publica metanálisis sobre una amplia
gama de temas. Además, se publican metanálisis en la mayoría de las revistas profesionales). No todos los
estudios publicados tienen el mismo valor; algunos están mejor diseñados que otros, algunos han utilizado
técnicas estadísticas inadecuadas, algunos tienen un poder estadístico limitado y algunos tienen una validez
externa deficiente que hace insostenible su aplicación a una población específica. La tarea del terapeuta o
director del programa, como profesional basado en la evidencia, es hacer una pregunta, recopilar la literatura y
ser capaz de evaluar tanto artículos individuales como revisiones sistemáticas para responder a la pregunta
específica. Incluso después de haber logrado todo esto, el practicante aún debe tomar una decisión sobre la
utilidad de la información dentro del contexto específico de la práctica.
Resumen Debido
a que la “práctica” en la práctica basada en evidencia suele ser una intervención o tratamiento, la investigación más relevante para
evaluar la efectividad de esa intervención es la investigación experimental que utiliza la misma intervención o una muy similar.
Como se analizó en los Capítulos 4 y 5, los diseños experimentales aleatorios proporcionan la mejor evidencia de una relación
causal entre la intervención y el resultado. Sin embargo, los experimentos aleatorios no siempre están disponibles y, a veces,
cuando están disponibles, tienen poca validez externa. En estas situaciones, los diseños cuasiexperimentales, especialmente
aquellos que utilizan diseños de series temporales, pueden ser muy eficaces para proporcionar evidencia. La investigación
cualitativa y no experimental también puede proporcionar evidencia útil, especialmente cuando los estudios experimentales no
están disponibles o no son prácticos. Por ejemplo, los estudios sobre la efectividad de un tratamiento o práctica que tuvo lugar en
el pasado, se extendieron durante un largo período de tiempo o donde una intervención no sería ética tienen que ser no
experimentales. En estas situaciones, los enfoques comparativo (ex post facto) o asociativo pueden proporcionar la única evidencia
relevante. Los juicios clínicos y la evidencia cualitativa también pueden complementar o enriquecer los datos de los estudios
cuantitativos, incluso los datos de experimentos aleatorios.
En los capítulos 23 y 24 proporcionamos un marco para una evaluación integral de artículos de investigación, incluidos estudios
tanto experimentales como no experimentales. Allí adoptamos un enfoque más equilibrado de los méritos relativos de la validez
interna y externa porque reconocemos que hay varios propósitos u objetivos que un estudio de investigación podría tener además
o en lugar del objetivo de "qué funciona" de la práctica basada en evidencia. Para algunos estudios, el objetivo es la descripción
de un fenómeno o las opiniones de los participantes. En otros, el objetivo es la predicción o la identificación de relaciones entre
variables. Para esos propósitos, la validez interna sigue siendo importante, pero no creemos que sea dominante.
Conceptos clave
Colaboración Cochrane
Tamaño del efecto
La evidencia se basa en la practica

Niveles de evidencia
Metaanálisis
Distinciones clave
Validez interna versus externa
Tamaño de muestra grande versus tamaño de muestra pequeño
Investigación cuantitativa versus investigación cualitativa

1. ¿Por qué la capacidad de evaluar la investigación es clave para la práctica basada en evidencia?
2. ¿Cuál es el propósito de una jerarquía de niveles de evidencia?
3. ¿Cuáles son las limitaciones de utilizar una jerarquía de niveles de evidencia?
4. Seleccione un artículo cuantitativo de su interés y
a. Evalúelo utilizando la jerarquía de niveles de evidencia. b. Evalúe el valor
de utilizar esta jerarquía con su artículo.
5. Enumere los pasos de la práctica de la medicina basada en la evidencia que se detallan en el capítulo y, para
cada paso, explique cómo podría aplicarse a su campo de práctica.
6. ¿Son valiosos todos los estudios publicados? Explica tu respuesta.

27
Redacción del informe de investigación
Este capítulo tiene tres secciones principales que describen (1) contenidos típicos de una investigación empírica
artículo; (2) cómo escribir sobre sus resultados; y (3) cuestiones éticas relacionadas con la publicación y
revisando. En la primera sección, describimos las distintas partes de un artículo de revista típico.
La anatomía de un artículo de investigación

No existe un formato único que utilicen todas las revistas para difundir información de investigación. Cada disciplina
tiene alguna peculiaridad que es común a esa disciplina. Esta sección
proporciona una visión general de lo que normalmente se encuentra en cada parte de un artículo de revista
cuantitativo empírico (es decir, basado en datos).1 El formato puede diferir cuando se realizan otros tipos de investigación.
informó. Por ejemplo, el formato de los estudios de investigación cualitativos como las etnografías.
o estudios de casos es a menudo bastante diferente del descrito aquí para investigaciones cuantitativas
experimentales, cuasiexperimentales y no experimentales (es decir, comparativas, asociativas o descriptivas).
Artículo de la Asociación Estadounidense de Investigación Educativa (AERA) (2006)
“Estándares para la presentación de informes sobre investigaciones empíricas en ciencias sociales en publicaciones de la AERA”
describe dos principios generales que denominan “garantizado” y “transparencia”; el
El primero significa que “se deben proporcionar pruebas adecuadas para justificar los resultados y las conclusiones”
(p. 33). Transparencia significa que el informe debe hacer explícito y claro el
lógica de la investigación y también todas las decisiones y acciones clave desde el desarrollo del problema a
través del análisis e interpretación de datos.
En esta sección nos centramos en el formato de los estudios empíricos y cuantitativos que se pretenden
presentado en formato de la Asociación Estadounidense de Psicología (APA) a una revista revisada por pares. En
su mayor parte, el formato APA será aceptable para las revistas de investigación y es obligatorio.
para muchas revistas de ciencias del comportamiento y educación. El formato de investigación presentado.
aquí tiene siete partes: (1) título; (2) resumen; (3) introducción; (4) método; (5) resultados; (6) discusión; y (7)
referencias.
Título
El título debe ser breve (La Asociación Americana de Psicología, 2001, recomienda un título
(tiene entre 10 y 12 palabras) pero debe describir lo que se ha estudiado. El título es
También es un punto de venta para el artículo. Pocos investigadores tienen el tiempo o la energía para leer cada
artículo en revistas a las que están suscritos. Por lo tanto, si son como nosotros, al recibir la
diario, consultan la tabla de contenidos y hojean para ver si hay algún artículo que
deseo seguir. Hasta este punto, el título es el único punto de venta de su artículo. Allí tienen
Ha habido algunos títulos memorables; por ejemplo, “La Tierra es redonda (p < .05)” de Cohen (1994) fue
influyente en la motivación del Grupo de Trabajo de la APA (Wilkinson et al. y el Grupo de Trabajo sobre Estadística
391
Inference, 1999) cuyo informe guió partes de este capítulo. Nuestro favorito es “El unicornio, la curva
normal y otras criaturas improbables” (Micceri, 1989). Sin embargo, en su mayor parte sugerimos ser
breve y directo, evitando frases y palabras como estudio de, método y resultados que no sirven para
nada. Es importante señalar que las palabras del título se utilizan en índices y para servicios de
información computarizada.
Abstracto
Una vez que el título capta el interés del consumidor, el resumen es la siguiente parte, y a menudo la
única, del artículo que se lee. El resumen es especialmente importante porque, una vez más, suele
utilizarse en índices de bases de datos de servicios de información. El resumen sigue al título y
proporciona un resumen del artículo. Los resúmenes, al igual que los títulos, tienen una extensión
limitada. La Asociación Estadounidense de Psicología (2001) sugiere un resumen de no más de 120
palabras, en parte porque algunos servicios de resúmenes pueden truncar resúmenes más largos,
posiblemente distorsionando el significado. Por lo general, un resumen describe brevemente el propósito
del estudio, los métodos y una o dos oraciones sobre los resultados. Al igual que el título, el resumen
también es un punto de venta del artículo. Hemos revisado estudios de investigación que dieron lugar a
comentarios a los autores como: "Nadie leerá el artículo porque el resumen no es representativo de lo
que encontró el estudio" o "... Se ha resaltado el contenido incorrecto".
Es fundamental representar correctamente el artículo en resumen; Es el párrafo más importante del
artículo.
Introducción/Revisión de la literatura
En esta sección describimos lo que debería estar en la sección introductoria de un artículo de

investigación. Observe que hemos puesto una barra entre Introducción y Revisión de la literatura. En la
mayoría de los artículos de revistas , la introducción y la revisión de la literatura se encuentran en una
sección que, en formato APA, no tiene título. Sin embargo, algunas de las revistas que lee tienen artículos
con secciones separadas para la introducción y la revisión de la literatura. La mayoría de las tesis de
maestría y disertaciones doctorales tienen capítulos separados titulados "Introducción" y "Revisión de la
literatura". En el capítulo 2 de este libro se analiza cómo se obtiene esa información (por ejemplo, a partir
de una búsqueda en una biblioteca). Hay varios buenos libros sobre cómo realizar una búsqueda
bibliográfica, incluido Doing a Literature Review: A Comprehensive Guide for the Social Sciences de Hart (2001).
¿Qué material debería incluirse en la sección de introducción de un artículo de revista? El primer
párrafo de la sección de introducción debe ser una declaración de propósito general de lo que se debe
lograr. El manual de publicación de la Asociación Estadounidense de Psicología (2001) sugiere que el
primer párrafo debería presentar el problema. El planteamiento del problema debe explicar el propósito y
el alcance del problema, dejando claro cómo el estudio contribuyó al conocimiento. Los Estándares para
la presentación de informes de la AERA (2006) dicen que debe haber una declaración que describa si el
estudio contribuye y cómo contribuye a (1) enriquecer una línea establecida de teoría e investigación; (2)
una nueva teoría; (3) preocupaciones prácticas; o (4) remediar la falta de información sobre un problema.
Después del párrafo introductorio, comienza la revisión de la literatura. Aunque se debe utilizar cierto
grado de orden cronológico, esto debe ocurrir sólo después de que la literatura esté organizada, por
ejemplo, en estudios que apoyan su hipótesis y estudios que contradicen estos hallazgos. Supongamos
que proponemos una hipótesis general de que los estudiantes que toman un curso de diseño de
investigación antes de un curso de estadística se convertirán en mejores investigadores que aquellos
estudiantes que toman los cursos en orden inverso. Intentaríamos formar dos o tres grupos de artículos.
Los artículos que apoyan nuestra hipótesis formarían un grupo; artículos que
Redacción del informe de investigación 393
Oponerse a nuestra hipótesis formaría un segundo grupo. Un tercer grupo podría estar formado por
artículos que no encontraron diferencias en sus resultados. Dentro de cada grupo de estudios, algunos
artículos pueden ser bastante relevantes para el tema y otros pueden estar sólo parcialmente
relacionados con el tema. Los artículos que simplemente tocan el tema deben incluirse únicamente
como apoyo o no a su hipótesis. Los artículos que son relevantes para el tema deben explorarse con
cierta profundidad, especialmente en cuanto a por qué respaldaron o no su hipótesis. El propósito de la
revisión de la literatura es llegar a una afirmación sobre por qué su estudio marcará una diferencia con
respecto a la literatura anterior. ¿En qué se diferencia su estudio de investigaciones anteriores? En
resumen, un buen enfoque para una revisión de la literatura en la sección de introducción de un artículo
de revista comienza categorizando los estudios (citándolos) que respaldan o no la hipótesis de la
investigación y luego describe en profundidad algunos estudios seleccionados que son relevantes para
el presente. estudiar.
Para estudios sobre temas que no están bien investigados, se utilizaría alguna otra organización (por
ejemplo, cronológica, por variables clave o por pregunta de investigación). En cualquier caso, lo que se
debe evitar es una serie de párrafos que resuman cada uno de ellos un único estudio sin transiciones
ni organización claras. Lo que es esencialmente una bibliografía comentada no es deseable.
Debe haber integración y síntesis. Por ejemplo, no hay nada peor que leer que “Smith y Jones (2005)
encontraron una cosa, luego Up and Down (2007) encontraron otra, y luego Hill y Dale (2008)
encontraron otra”. Después de varias páginas te preguntas qué estarán haciendo los autores, si aún
estás despierto.
La última parte de la sección de Introducción en muchos artículos de revistas de investigación es una
declaración formal de las hipótesis o preguntas de investigación. Estas declaraciones deben estar en
términos operativos para que el lector sepa exactamente lo que el investigador intenta estudiar.
Método
La sección de Método para artículos de investigación suele dividirse en varias subsecciones. El objetivo
final de la sección Método es informar al lector exactamente lo que se hizo en el estudio y permitirle
replicar el estudio en condiciones idénticas.
Según el manual de la Asociación Estadounidense de Psicología (2001), estas subsecciones son
Participantes, Aparatos (o Instrumentos/Materiales) y Procedimiento. Nos gusta agregar Diseño/Análisis.
El Grupo de Trabajo de la APA (Wilkinson & the Task Force on Statistical Inference, 1999) recomienda
una descripción más completa del método que la que suele encontrarse en los artículos publicados.
Aunque es dudoso que las revistas asignen espacio suficiente para que los autores describan sus
métodos con el detalle recomendado por el Grupo de Trabajo de 1999, las disertaciones deben
describir completamente sus métodos como se analiza en las siguientes subsecciones.
Participantes
Esta subsección debe estar compuesta por una descripción detallada de los participantes. ¿De dónde
vinieron los participantes? ¿Cómo contactaste con la muestra? ¿Los participantes se ofrecieron como
voluntarios para el proyecto? Se deben incluir una oración o dos que se refieran a cómo se obtuvo el
consentimiento informado.
¿Cómo fueron seleccionados los participantes? ¿Fueron una muestra de conveniencia o se utilizó
algún modo de selección probabilístico reconocido (por ejemplo, aleatorio, por conglomerados o
estratificado)? Debido a que la interpretación de los resultados depende de las características de la
población, es importante definirla claramente. Lamentablemente, esto no siempre se hace. La
descripción de los procedimientos de muestreo debe tener criterios de inclusión o exclusión, información
completa sobre cómo se estratificó la muestra (si lo fue) y el tamaño de la muestra para cada uno.
subgrupo. Una muestra de conveniencia debe identificarse claramente como tal. A veces, los argumentos a
favor de su representatividad pueden reforzarse mostrando cómo se compara su muestra con la población en
variables clave.
Se debe proporcionar información sobre el proceso que condujo a la decisión sobre el tamaño de la muestra.
Se debe realizar un análisis de poder (ver Capítulo 16) antes de recolectar los datos.
Después de una descripción de cómo se obtuvo la muestra, la sección de Métodos trata de las características
de la muestra. Estas características deben incluir al menos la edad (media y rango/desviación estándar) y el
sexo. Cuando sea apropiado, también se debe incluir el grupo étnico, el tipo de discapacidad, el estatus social/
económico o el nivel de educación. Recuerde, según nuestras evaluaciones de los artículos del Capítulo 25,
que, lamentablemente, algunos de los estudios no incluyeron descripciones completas de la muestra. Los
Estándares para la presentación de informes de la AERA (2006) sugieren que dichas estadísticas descriptivas
relevantes, incluidas las realizadas en cada una de las variables clave, así como en la muestra, deben
informarse o ponerse a disposición del autor previa solicitud.
Aparatos o Instrumentación o Materiales

Esta sección describe en detalle todos los instrumentos o pruebas que se utilizarán en la investigación. Si se
trata de un aparato, entonces el investigador debe describir el tipo de equipo (incluida la marca), la precisión,
las especificaciones relativas al tema y la posible información de calibración. Si en el estudio se utilizaron
pruebas, cuestionarios o encuestas, se debe incluir información sobre la confiabilidad y validez de las
mediciones . ¿El instrumento fue estandarizado o fue desarrollado para este estudio? Si el instrumento estaba
estandarizado, ¿se utilizó para propósitos similares a los de este estudio y las muestras de estandarización
fueron similares a las de este estudio? Si el instrumento fue desarrollado para el presente estudio, ¿se realizó
un estudio piloto? Si el instrumento tiene muchos ítems, ¿ha sido analizado factorialmente?
¿Se ha probado la confiabilidad de la consistencia interna de algún conjunto o grupo de ítems, que fueron
sumados o combinados, como se discutió en los Capítulos 11 y 15? Deben incluirse preguntas de muestra para
demostrar el contenido del instrumento. Además, se debe indicar el nivel de medición de los datos.
Cada variable clave debe definirse cuidadosa y explícitamente. Debe demostrarse cómo se relacionan dichas
variables con los objetivos del estudio y cómo se miden. Las mediciones deben ajustarse al lenguaje utilizado
en las secciones de Introducción y Discusión. Nombrar una variable conceptualmente abstracta es casi tan
importante como cómo se mide, y estas deben ser consistentes. Analizamos este tema en los Capítulos 12 y
24 como validez de la medición.
Procedimiento
Esta sección es una descripción detallada de cómo se llevó a cabo el estudio y es especialmente importante
para que se pueda realizar cualquier replicación. También se incluye en esta sección cómo se asignaron los
participantes a los diferentes grupos bajo estudio; es decir, ¿fueron asignados al azar o ya estaban en un grupo
intacto? Es especialmente importante en esta sección informar cualquier instrucción que haya dado el
investigador a los participantes.
El Grupo de Trabajo de la APA (Wilkinson & the Task Force on Statistical Inference, 1999) y este libro
enfatizan la distinción entre la asignación aleatoria de participantes a grupos de intervención y control (o
comparación) y, por otro lado, la selección o muestreo aleatorio. de participantes de la población. Para las
investigaciones destinadas a hacer inferencias causales, la asignación aleatoria es fundamental porque
“permite las inferencias causales más sólidas posibles…. Si se planifica una asignación aleatoria, proporcione
suficiente información para demostrar que el proceso” para realizar la asignación es en realidad aleatorio, no
fortuito (p. 595). La APA
Task Force recomienda describir cómo se realizó la aleatorización, preferiblemente utilizando tablas
publicadas de números aleatorios en lugar de confiar en lanzamientos de monedas, trozos de papel en
un sombrero o dispositivos físicos.
Si los participantes no pueden ser asignados aleatoriamente a grupos, se debe proporcionar una
descripción de cómo se controlaron las diferencias iniciales entre los grupos. Se deben realizar intentos
para determinar las covariables o factores de confusión relevantes y se debe describir cualquier método
utilizado para ajustarlos. Además, es necesario incluir métodos utilizados para atenuar las fuentes de
sesgo, incluida la minimización de los abandonos, el incumplimiento, los datos faltantes y el sesgo del
experimentador.
Diseño y Análisis
Recomendamos que esta sección sea la última subsección de la sección Método; sin embargo, algunos
textos colocan esta sección antes en la sección Método del artículo y, a veces, el diseño se describe en
la Introducción. En el párrafo Diseño , el investigador primero detalla la variable o variables independientes
y el número de niveles dentro de cada variable.
El siguiente dato, si el enfoque es experimental o comparativo, es el tipo de diseño (entre grupos,
intrasujetos, mixto o asociativo). El tercer dato en la sección de diseño es si las variables independientes
son variables activas (manipuladas) o de atributos. La última parte del párrafo Diseño es la especificación
de las variables dependientes y el nivel (escala) de medición.
Los párrafos de Análisis de esta subsección especifican los tipos de análisis que se llevaron a cabo
en la investigación. Estos análisis están determinados por toda la información proporcionada en el párrafo
Diseño. Se puede especificar el programa (sistema) informático que se utilizó para realizar los análisis
(p. ej., SPSS).
El informe del Grupo de Trabajo de la APA (Wilkinson & the Task Force on Statistical Inference, 1999)
recomienda utilizar análisis estadísticos relativamente simples, como los descritos en los capítulos 19 a
22 de este libro, si son razonables para su problema de investigación. El informe del Grupo de Trabajo
continúa afirmando:
La enorme variedad de métodos cuantitativos modernos deja a los investigadores con la tarea no
trivial de hacer coincidir el análisis y el diseño con la pregunta de investigación. Aunque a veces
son necesarios diseños complejos y métodos de última generación para abordar eficazmente las
preguntas de investigación, los enfoques clásicos más simples a menudo pueden proporcionar
respuestas elegantes y suficientes a preguntas importantes. No elija un método analítico para
impresionar a sus lectores o desviar las críticas. (pág. 598)
Un comentario final con respecto a toda la sección de Métodos es que una vez completada la
recopilación de datos, se debe proporcionar una actualización de la sección o capítulo. Debe reflejar con
precisión lo que realmente se hizo. Se debe informar cualquier problema que pueda comprometer la
validez que surgiera durante la recopilación o el análisis de datos, como desgaste, datos faltantes o
desviaciones de los procedimientos planificados. Es necesario agregar evidencia de sus datos sobre la
confiabilidad y validez de sus medidas o instrumentos. Por último, si se violara marcadamente algún
supuesto de las estadísticas inferenciales, ¿cómo se hicieron los ajustes?
Resultados
La sección Resultados es un resumen de los análisis que se realizaron sobre los datos recopilados en el
estudio. Un problema para la mayoría de los estudiantes al describir resultados es el nivel de descripción.
Un editor sugirió una vez: “Utilice la prueba ocular traumática. Si te golpea entre los ojos, úsalo. De lo contrario,
deshazte de él”. Es común que los editores de revistas exijan a los autores que condensen sus manuscritos,
pero los aspectos clave de los Métodos y Resultados, tal como se describen en este capítulo, deben ser los
últimos en eliminarse.
Un problema al escribir la sección de Resultados es si se debe incluir material que podría ser más apropiado
para la sección de Discusión. Si el resultado pertenece estrictamente al análisis, entonces pertenece a la
sección Resultados. Sin embargo, si relaciona explícitamente su resultado con otros estudios discutidos
previamente en la sección Introducción, entonces este material pertenece a la sección Discusión.
En la sección central de este capítulo se proporcionan más detalles (y un ejemplo) sobre cómo escribir la
sección Resultados. Esa sección sigue nuestra descripción de qué incluir en la sección Discusión y Referencias,
y una breve discusión sobre cómo las disertaciones y los informes de investigación generalmente difieren de
los manuscritos enviados a las revistas.
Discusión
Sugerimos comenzar la sección de Discusión con una breve revisión (no más de un párrafo en un artículo,
probablemente unas pocas páginas en una tesis) de las hipótesis y si fueron confirmadas. El objetivo principal
de la sección de Discusión es relacionar los resultados con las hipótesis/preguntas de la investigación dentro
del contexto de la literatura citada anteriormente. A veces, un resultado del estudio es totalmente inesperado y
la sección de Discusión implica literatura e hipótesis completamente nuevas, lo que indica que el autor se
olvidó de la intención original del estudio y de las hipótesis originales. No dejes que esto te pase a ti. Cada
hipótesis debe discutirse con referencia continua a hallazgos previos de la revisión de la literatura.
A veces los investigadores generalizan demasiado sus resultados o los particularizan demasiado. Un buen
enfoque que puede intentar es comparar explícitamente los resultados de su estudio con los tamaños del
efecto informados en estudios anteriores relevantes.
Como hemos subrayado a lo largo del libro, se debe tener precaución al inferir causalidad a partir de
enfoques que no sean experimentales aleatorios. Incluso con diseños aleatorios, es necesario hacer inferencias
cuidadosas. El Grupo de Trabajo de la APA (Wilkinson & the Task Force on Statistical Inference, 1999)
respalda nuestra conclusión con una fuerte recomendación de que “inferir causalidad a partir de diseños no
aleatorios es una empresa arriesgada. Los investigadores que utilizan diseños no aleatorios tienen una
obligación adicional... de alertar al lector sobre hipótesis rivales plausibles” (p. 600). Creemos que es mejor no
hacer afirmaciones causales a menos que se tenga un diseño experimental aleatorio y, aun así, ser cautelosos.
Algunas secciones de Discusión tienen un título separado llamado "Limitaciones". Nuestro sesgo es que no
es función del investigador intentar revisar su propio artículo (excepto en una tesis o disertación). Véase
también la sección al final de este capítulo, “La mala conducta y la estructura de la ciencia”. Los revisores
pueden requerir alguna mención o discusión de las limitaciones. Por lo general, algunas de las limitaciones
surgen cuando se discute por qué las hipótesis se confirmaron o no. Sin embargo, puede ser útil reconocer las
limitaciones con el fin de calificar los resultados y evitar obstáculos en futuras investigaciones.
Aunque generalmente no se requiere una subsección de Conclusión en un artículo de revista, a menudo el

investigador intenta describir, en el último párrafo de la sección de Discusión, cuál debería ser el siguiente
paso en esta línea de investigación. Obviamente, este próximo paso dependerá de lo que se encontró en el
presente estudio. Sin embargo, un párrafo de esta naturaleza deja al lector con una idea de hacia dónde cree
el investigador que se dirige la investigación futura y también puede brindarle algunas ideas de investigación.
Referencias
Las referencias deben seguir de manera uniforme y precisa el formato especificado, que en psicología, educación y muchas,
pero no todas, revistas de ciencias del comportamiento es el formato APA. El manual de publicaciones de la APA proporciona
ejemplos de muchos tipos de publicaciones y documentos (ver Asociación Estadounidense de Psicología, 2010). Todas las
referencias realmente citadas en el texto, pero sólo las citadas, deben incluirse en la lista de referencias. Esto significa que si el
material fue leído pero no incluido en el texto, no debe citarse. (Sin embargo, es una buena idea mantener dicha bibliografía
completa separada del manuscrito).
La APA hace una distinción entre un manuscrito "copia", que es uno enviado a una revista para su revisión y edición, y un
documento o manuscrito "final", como una tesis, disertación o informe de un proyecto de investigación para su distribución a una
biblioteca o a los consumidores. de la investigación. Al enviar manuscritos "copiados" a un editor de revistas APA, todo debe
estar a doble espacio, incluidas las referencias y tablas, que pueden estar parcialmente a espacio simple en un manuscrito "final"
para mejorar la legibilidad. Tenga en cuenta que las referencias se enumeran en orden alfabético y utilizan “sangrías francesas”,
como se muestra en los siguientes ejemplos. En la lista de referencias, se utilizan cursivas para los títulos de libros y para los
números de volúmenes (pero no para los títulos de artículos o capítulos). A continuación se muestran ejemplos de formato APA
para dos artículos de revistas y dos libros:
Asociación Estadounidense de Investigación Educativa (2006, junio). Estándares para informar sobre investigaciones empíricas
en ciencias sociales en publicaciones de AERA. Investigador educativo, 35 (6), 33–40.
Asociación Estadounidense de Psicología (2010). Manual de publicación de la American Psychology
Asociación (6ª ed.). Washington, DC: Autor.
Brothen, T. y Wambach, C. (2004). El valor de los límites de tiempo en los cuestionarios de Internet. enseñanza de la psicología,
31, 62–64.
Rudestam, KE y Newton, RR (2007). Sobrevivir a su tesis: una guía completa de contenido
y proceso (3ª ed.). Newbury Park, California: Sage.
El formato general y la puntuación de una referencia comienzan con el apellido del autor, luego las iniciales seguidas del año
de publicación entre paréntesis. Tenga en cuenta que hay una coma después de la inicial final de cada autor, incluso antes del
signo comercial. En algunos casos, como en los ejemplos 1 y 2, el autor es un grupo como una organización profesional o un
grupo de trabajo.
El primer y tercer ejemplo son artículos periódicos o de revistas. El título del artículo sigue al autor y la fecha. Si hay dos
puntos en el título del artículo, el subtítulo comienza con letra mayúscula; otras palabras (excepto los nombres propios) no están
en mayúscula (es decir, usan mayúsculas y minúsculas).
El siguiente es el título de la revista, que está en cursiva y cada palabra clave comienza con mayúscula, como se muestra en los
ejemplos 1 y 3. Las comas separan el título de la revista, el número de volumen (ambos en cursiva) y las páginas (no en cursiva).
El número de edición se proporciona entre paréntesis después del volumen solo si cada edición comienza en la página 1, como
en el ejemplo 1. Las páginas se muestran al final sin las páginas. Consulte el manual APA para obtener más ejemplos y
excepciones. El primer artículo es inusual porque está escrito por un grupo de trabajo y no por uno o varios autores nombrados.
La segunda y cuarta referencias son libros. La Asociación Estadounidense de Psicología es un grupo de autores y es a la vez
autor y editor. En este caso, la palabra "Autor" aparece como el nombre del editor. Después del autor(es) y el año de publicación,
viene el título, en cursiva, de una publicación no periódica (por ejemplo, libro, presentación, tesis o documento), pero sólo la
primera palabra del título está en mayúscula. Luego se enumeran la ciudad de publicación, el código postal de dos letras, dos
puntos y el editor. Si la ciudad del editor es bien conocida (por ejemplo, Nueva York o Boston) y no se confunde fácilmente con
otra ciudad con el mismo nombre, no es necesaria una abreviatura postal de dos letras.
El manual de publicación de la APA proporciona extensos ejemplos anotados no sólo como referencias sino también sobre
el contenido y la organización de un manuscrito; estilo de escritura, gramática,
y reducir los prejuicios en el lenguaje; Estilo editorial APA, incluyendo puntuación, ortografía, mayúsculas,
abreviaturas, citas, tablas y figuras; listas de referencias; y manuscrito
preparación, incluidos dos artículos de muestra completos y comentados. La publicación APA
El manual también incluye varios capítulos y apéndices técnicos adicionales.
Referencias citadas en el texto
El estilo APA (Asociación Americana de Psicología, 2001) también especifica cómo se

citado en el texto, utilizando el método de citación autorfecha. En general, el apellido (únicamente)
de los autores y el año (únicamente) de publicación se insertan en un lugar apropiado en
el texto. Si el nombre de los autores forma parte de la narración, sólo se deberá citar la fecha,
entre paréntesis, por ejemplo, “Smith y Jones (1995) escribieron…” Sin embargo, si los nombres de
los autores no forman parte de la narrativa, deben incluirse entre paréntesis, por
Por ejemplo, “Varios estudios (Smith y Jones, 1995; Wallace, May y Fink, 1992) analizan…” Si
Hay de tres a cinco autores, todos deben aparecer en el texto sólo la primera vez que se mencionan.
citado. Después de eso, “et al.” se utiliza, por ejemplo, “Wallace et al., (1992) discuten…” En el manual de la
APA se analizan ejemplos más complejos.
Tesis y Disertaciones
Las tesis y disertaciones en educación y ciencias del comportamiento se consideran “finales”

documentos, por lo que a menudo utilizan una versión algo modificada del formato APA. El manual de
publicaciones de la APA (2010) proporciona pautas para “material distinto de los artículos de revistas”, incluidas
tesis, disertaciones, artículos de estudiantes e informes de investigación. Básicamente, estas pautas
diga que debe hacer lo que su departamento (o la agencia financiadora de informes de subvenciones)
requiere.
Las disertaciones y tesis son casi siempre mucho más largas que los artículos enviados a revistas, en parte
porque por lo general tienen un capítulo separado de revisión de la literatura extenso.
Las disertaciones tampoco suelen limitar el número de tablas y figuras. La mayoría de las revistas tienen
espacio limitado, lo que necesariamente limita el número de tablas y figuras. Disertaciones también
Por lo general, tienen un resumen más extenso (hasta 350 palabras), que se publica en Dissertation Abstract
International.
Escribir sobre sus resultados

Uno de los objetivos de este libro es ayudarle a escribir un informe de investigación, una tesis o una disertación.
Por lo tanto, al final de esta sección proporcionamos un ejemplo de dos párrafos de un artículo de investigación
hipotético. Hemos encontrado cuatro libros y tres artículos de revistas, especialmente
útil para escribir los resultados de un estudio de investigación. Las referencias completas se proporcionan en
Apéndice A: Lecturas sugeridas. Los libros son los siguientes:
1. Manual de publicaciones de la Asociación Americana de Psicología (2010).

2. Nicol y Pexman (1999), Presentación de sus hallazgos: una guía práctica para crear tablas.
3. Morgan, Reichart y Harrison (2002), De números a palabras: informes estadísticos
Resultados para las Ciencias Sociales
4. Morgan, Leech, Gloeckner y Barrett (2007), SPSS para introducción a la estadística: uso e interpretación
Los artículos de la revista son:
1. AERA (2006), “Estándares para la presentación de informes sobre investigaciones empíricas”

2. Wilkinson y el Grupo de Trabajo sobre Inferencia Estadística (1999), "Métodos estadísticos en revistas
de psicología: directrices y explicaciones"
3. Grupo de trabajo de la Junta de Comunicaciones y Publicaciones de la APA sobre estándares de
informes de artículos de revistas (2008), “Estándares de informes para la investigación en psicología:
¿por qué los necesitamos? ¿Cuáles podrían ser?
Gran parte de esta sección está adaptada de Morgan et al. (2007) libro.
Antes de calcular cualquier estadística inferencial, se debe realizar un examen de sus datos mediante la
realización de estadísticas descriptivas. Esto no es lo mismo que un “espionaje de datos” o una “oportunidad de
descartar datos o cambiar valores para favorecer su hipótesis”.
Sin embargo, si evalúas hipótesis sin examinar tus datos, corres el riesgo de publicar tonterías” (Wilkinson & the
Task Force on Statistical Inference, 1999, p. 597).
Se debe informar cualquier violación del protocolo, datos faltantes y deserción. La inspección gráfica de los
datos mediante diagramas de dispersión, diagramas de caja y otras técnicas exploratorias para detectar problemas
y errores en los datos puede ser útil para garantizar que los resultados informados no se deban a anomalías en
los datos, como valores atípicos, datos faltantes no aleatorios, sesgos en la selección de la muestra, y desgaste.
Sin embargo, debido a limitaciones de espacio, las estadísticas como los análisis exploratorios suelen omitirse o
estar muy condensadas. Es deseable presentar y discutir estos temas en una tesis o disertación.
Esta sección de Resultados incluye una descripción (pero no una discusión) de los hallazgos en palabras, tablas
y figuras.2 Una imagen a menudo vale más que mil palabras. Recomendamos colocar una figura o una tabla cerca
del comienzo de los resultados, y luego se deben describir brevemente los resultados significativos. El informe del
Grupo de Trabajo de la APA (Wilkinson & the Task Force on Statistical Inference, 1999) afirma: “Las cifras atraen
la atención del lector y ayudan a transmitir resultados globales…. A menudo ayuda tener tablas y figuras” (p. 601).
Las cifras deben mantenerse relativamente simples. Las tablas deben tener números redondeados consistentemente
a no más de dos decimales, excepto los valores de p , que siempre son menores que 1,00 y a menudo tienen tres
decimales. Un problema que enfrentan las personas que intentan publicar artículos es que, por razones de costo,
los editores históricamente han preferido mantener las cifras al mínimo. Esta posible restricción no debería limitar
el uso de figuras en tesis y disertaciones únicamente a aquellas que aporten información valiosa.
La sección de Resultados debe incluir los siguientes números sobre cada estadísticamente significativo:
hallazgo importante (en una tabla o en el texto):
1. El valor del estadístico (p. ej., t = 2,05 o r = 0,30) con dos decimales.
2. Los grados de libertad (a menudo entre paréntesis) y para chicuadrado el N (por ejemplo, χ² = 5,26, df
= 2, N = 49).
3. El valor de p (p. ej., p = 0,048). Preferiblemente, se debe proporcionar el valor p exacto incluso cuando
la estadística no sea significativamente significativa (p. ej., p = 0,476). Se debe dar una declaración de
p < .001 cuando la salida de la computadora lo muestra como .000 porque probablemente sea algún
valor truncado o redondeado como .00075, no cero. El Grupo de Trabajo de la APA sobre Inferencia
Estadística (Wilkinson y el Grupo de Trabajo sobre Inferencia Estadística, 1999) afirmó que casi siempre
es mejor informar el valor p real en lugar de simplemente decir si el resultado fue estadísticamente
significativo. Dicen que es mejor aún informar los intervalos de confianza. Nunca utilices la expresión
“aceptar la hipótesis nula”.
4. Un índice del tamaño del efecto de la familia d o de la familia r y, si el estadístico es significativo, una
declaración sobre el tamaño relativo del “efecto” (Tabla 17.1).
Cuando no se muestra en una tabla, la información anterior (números 1 a 4) debe proporcionarse en el

texto como se muestra en el ejemplo al final de esta sección.
Además de la información numérica, los resultados significativos deben describirse en palabras,
incluidas las variables utilizadas, la dirección del hallazgo y una declaración interpretativa sobre el
tamaño/fuerza del efecto. El Grupo de Trabajo de la APA sobre Inferencia Estadística (Wilkinson & the
Task Force on Statistical Inference, 1999) afirma que los tamaños del efecto siempre deben presentarse
para los resultados primarios y que ayuda agregar comentarios breves para poner los tamaños del efecto
en contexto. En la Tabla 17.1 sugerimos las frases más grandes que lo típico, típicas o más pequeñas
que lo típico según los resultados. O, mejor aún, la interpretación del tamaño del efecto podría basarse
en los tamaños del efecto que se encuentran en la literatura de investigación sobre su tema. Es
importante darse cuenta de que nuestros términos de tamaño del efecto son sólo estimaciones
aproximadas de la magnitud del "efecto" basadas en lo que es típico de las ciencias del comportamiento;
no son necesariamente aplicables a su tema. Los Estándares para la presentación de informes de la AERA (2006) añad
… interpretación del índice del efecto que describe su significatividad en términos de las preguntas
que el estudio pretendía responder. Esta interpretación debe incluir cualquier calificación que pueda
ser apropiada debido a la incertidumbre de los hallazgos (por ejemplo, el efecto estimado es lo
suficientemente grande como para ser importante desde el punto de vista educativo, pero estos
datos no descartan la posibilidad de que el efecto verdadero sea en realidad bastante pequeño). (pág. 37)
Si su artículo tiene una tabla que incluye las estadísticas antes mencionadas, generalmente no es
necesario ni aconsejable incluir todos los detalles sobre el valor de la estadística, los grados de libertad
y p en el texto porque están en la tabla. Si hay una tabla, se debe hacer referencia a ella por número (por
ejemplo, Tabla 1) en el texto y se deben describir los puntos principales. (El Apéndice F proporciona más
información y ejemplos de tablas y figuras en formato APA). Sin embargo, no es necesario repetir todo o
la tabla no es necesaria. Se pueden mencionar relaciones que no sean significativas, no se debe discutir
la dirección del hallazgo o interpretación del tamaño del efecto porque los resultados podrían deberse al
azar. Es necesario incluir el tamaño del efecto o la información (p. ej., ns, medias y desviación estándar)
necesaria para que otros investigadores calculen el tamaño del efecto si su estudio forma parte de un
metanálisis.
Recuerde que la sección de Discusión pone los hallazgos en contexto con respecto a la literatura de
investigación, la teoría y los propósitos del estudio. También se debe intentar explicar por qué los
resultados resultaron como lo hicieron.
Pasos para interpretar la estadística inferencial
Como repaso para planificar cómo escribir sobre la interpretación de la estadística inferencial,
recomendamos lo siguiente:
1. Decide si rechazas la hipótesis nula. Sin embargo, esto no es suficiente para una interpretación
completa. Si el resultado es estadísticamente significativo, es necesario responder al menos
dos preguntas más . La figura 27.1 resume los pasos descritos sobre cómo interpretar más
completamente los resultados de una estadística inferencial.
2. ¿Cuál es la dirección del efecto? Las estadísticas inferenciales de diferencias comparan grupos,
por lo que es necesario indicar qué grupo tuvo un mejor desempeño. Analizamos ejemplos de
cómo hacer esto en los capítulos 20 y 22. Para las estadísticas inferenciales asociativas (p. ej.,
correlación), el signo es muy importante, por lo que se debe incluir una indicación de si la
asociación o relación es positiva o negativa. En los capítulos 21 y 22 se analiza cómo
interpretar las estadísticas asociativas.
Pregunta no técnica Respuesta estadística
1. ¿Podemos estar seguros de que el resultado es Si p es < 0,05, entonces se rechaza la hipótesis nula.
¿No es por casualidad?
a
Sí No Para, pero
Pregunta de diferenciab
2. ¿Cuál es la dirección del “efecto”? Observe qué grupo tiene la media más alta
Pregunta asociativa
Tenga en cuenta si r es + o –
Diferencia Preguntac Uso d

familia (ver Tabla 17.1)
Preguntas asociativas Familia

3. ¿Qué magnitud tiene el efecto? de usuarios (ver Tabla 17.1)
Idealmente, la interpretación del tamaño del efecto
debería basarse en la literatura de investigación
adecuada.
No hay una respuesta definitiva a esto.
pregunta. Se debe considerar el tamaño del

4. ¿Tiene importancia práctica este
efecto, los costos, los efectos secundarios y las
efecto del tamaño?
posibles consecuencias no deseadas de realizar
un cambio.
a
Con una muestra pequeña (N), es posible obtener un resultado no significativo (puede deberse al azar) y, sin
embargo, un tamaño del efecto grande. De ser así, puede estar justificado replicar el estudio con una
muestra más grande. bSi hay tres o más medios o una interacción significativa, será necesaria una prueba post
hoc (p. ej., Tukey) para una interpretación completa.
C
La interpretación del tamaño del efecto se basa en Cohen (1988) y el Cuadro 17.1. Un efecto "grande" es aquel
que, según Cohen, es "muy perceptible". Es más grande de lo que normalmente se encuentra en el área, pero
no necesariamente explica una gran cantidad de variación.
Figura 27.1
Pasos en la interpretación de una estadística inferencial.
3. ¿Cuál es el tamaño del efecto? El tamaño del efecto y los intervalos de confianza, o ambos,
deben incluirse en la descripción de los resultados. Desafortunadamente, los programas
informáticos como SPSS no siempre proporcionan tamaños de efecto e intervalos de confianza,
por lo que para algunas estadísticas deben calcularse o estimarse manualmente.
4. Idealmente, el investigador debería emitir un juicio sobre si el resultado tiene significado o
importancia práctica o clínica. Para hacerlo, deben tener en cuenta la magnitud del efecto, los
costos de implementar el cambio y la probabilidad y gravedad de cualquier efecto secundario o
consecuencia no deseada.
Un ejemplo de cómo escribir resultados El
siguiente ejemplo de Morgan et al. (2007) reportan los resultados de una prueba t que compara
estudiantes varones y mujeres, y reporta una correlación de Pearson. Muchos otros ejemplos de cómo
escribir los resultados de pruebas estadísticas se proporcionan en Morgan et al. (2007):
Para la pregunta de investigación 1, hubo una diferencia estadísticamente significativa entre estudiantes varones
y mujeres en el rendimiento en matemáticas, t(48) = 2,05, p = 0,04, d = 0,33. Los hombres (M = 14,70) obtuvieron
puntuaciones más altas que las mujeres (M = 12,70) y el tamaño del efecto fue de pequeño a mediano según
las directrices de Cohen (1988). El intervalo de confianza del 95% para la diferencia entre las medias fue de 0,50
a 6,50, lo que indica que la diferencia real (valor poblacional) podría ser tan pequeña como medio punto, lo que
probablemente no sea una diferencia prácticamente importante, pero también podría ser tan grande como seis
puntos y medio.
Para la pregunta de investigación 2, hubo una correlación positiva estadísticamente significativa entre los
cursos de matemáticas tomados y el rendimiento en matemáticas r(48) = 0,30, p = 0,03. La correlación positiva
indica que, en general, los estudiantes que tomaron más cursos de matemáticas tendieron a obtener puntuaciones
altas en la prueba de rendimiento en matemáticas y los estudiantes que no tomaron muchos cursos de
matemáticas obtuvieron puntuaciones bajas en logros en matemáticas. El tamaño del efecto de r = 0,30 se
considera medio o típico. (pág.101)
Interpretación de los
resultados Los autores deben tener cuidado al escribir sus resultados y secciones de Discusión para
evitar distorsionar los hallazgos o sus implicaciones. Por ejemplo, en capítulos anteriores analizamos
varias veces el error de inferir causalidad a partir de estudios comparativos, asociativos o incluso
cuasiexperimentales. Por lo tanto, se debe tener cuidado de no afirmar que la variable independiente
“causó”, “determinó” o “impactó” la variable dependiente, a menos que el estudio fuera un experimento
aleatorio bien controlado. Al discutir los resultados de estudios no experimentales, estos términos
causales no deben usarse o deben usarse con calificativos como pueden causar o parecer influir.
Asimismo, se debe tener cuidado con las generalizaciones a poblaciones más amplias a partir de
muestras que pueden no ser representativas de la población.
Cuestiones éticas relacionadas con la publicación y la revisión Los
investigadores deben adherirse a ciertos principios éticos al escribir artículos y revisar el trabajo de
otros. Estos principios éticos no son menos reales que los que implican la protección de los seres
humanos. Los requisitos para los manuscritos enviados a revistas biomédicas (Comité Internacional
de Editores de Revistas Médicas, 1997) y el manual de publicación de la Asociación Estadounidense
de Psicología (2001) brindan asesoramiento y discusión para complementar las cuestiones planteadas
en este capítulo.
Integridad del análisis de
datos Una parte de este libro trata sobre el uso y la interpretación adecuados de las estadísticas. Es
importante señalar que existen muchos desacuerdos legítimos entre estadísticos e investigadores.
Hemos señalado algunas de estas diferencias en capítulos anteriores. Claramente, alterar los datos o
informar deliberadamente un valor p incorrecto no es ético. También hemos señalado una serie de
cosas que un investigador podría hacer en el análisis o la interpretación que son incorrectas pero no
poco éticas, a menos que se hagan deliberadamente para engañar. Por ejemplo, utilizar una
estadística inapropiada, como una prueba t , con una variable dependiente nominal de tres o más
categorías es incorrecto, pero no poco ético. Muchas otras opciones con respecto a las estadísticas
no son las mejores prácticas, a menudo porque el investigador es relativamente inexperto o no tiene conocimientos.
sobre estadísticas. Por ejemplo, no probar los supuestos podría conducir a conclusiones erróneas si los supuestos se
violaran marcadamente.
En otros casos, los informes de análisis de datos pueden al menos generar sospechas de comportamiento poco ético.
Meltzoff (1997) proporcionó varios ejemplos. Uno es el caso en el que los participantes parecen dividirse arbitrariamente
después del hecho en grupos (por ejemplo, altos y bajos) cuando había una variable independiente continua. ¿Probó
el investigador muchos puntos de corte hasta que finalmente encontró uno que fuera estadísticamente significativo? Esta
preocupación es una de las razones por las que recomendamos utilizar una correlación cuando la variable independiente
es continua o tiene muchas categorías ordenadas.
Muchos estadísticos piensan que la prueba de significación de hipótesis nulas (NHST) es apropiada sólo cuando el
investigador tiene una o varias hipótesis bien pensadas para probar. Se muestran escépticos ante un estudio con
muchas pruebas de significancia. Sin embargo, la mayoría apoyaría el análisis de datos exploratorios, sin NHST.
Difusión de resultados
El proceso de investigación no está completo hasta que los resultados se difundan al público y a los investigadores
interesados. Aunque las presentaciones orales y las publicaciones en revistas semipopulares tienen su lugar, la
publicación en revistas arbitradas es clave para el progreso de la ciencia. Como se analizó anteriormente en este
capítulo, se deben proporcionar detalles considerables sobre los procedimientos y análisis de datos para que el trabajo
del investigador esté disponible para el escrutinio de la comunidad académica. Las publicaciones arbitradas también se
utilizan para evaluar el desempeño del investigador y son un aspecto importante de la permanencia y la promoción en
una universidad. Debido a que existe una presión considerable, especialmente para los profesores jóvenes, para producir
publicaciones arbitradas, surgen una serie de posibles problemas éticos. De manera similar, los estudiantes de posgrado
se encuentran bajo considerables presiones de tiempo para completar artículos y tesis o disertaciones.
Plagio El
plagio es presentar una parte del trabajo de otra persona sin citar o citar adecuadamente. Parafrasear, que implica
resumir y reorganizar oraciones, es aceptable si se da crédito en el texto. El plagio se refiere no sólo a las palabras sino
también a los datos e ideas de otra persona. Debido a que las reseñas de literatura y los libros de texto se basan en
gran medida en el trabajo de otros, existe un conflicto entre otorgar el crédito apropiado a otros y abusar de las citas o
impedir el flujo del texto con citas.
Publicaciones múltiples La
publicación duplicada distorsiona la base de conocimientos y desperdicia los escasos recursos de las revistas.
Sin embargo, las presiones sobre los autores para que tengan una gran cantidad de publicaciones y las limitaciones de
espacio de los editores a menudo conducen a múltiples publicaciones de un estudio. Los autores no deben enviar a una
revista un manuscrito que ya haya sido publicado sustancialmente en la misma forma. Sin embargo, los manuscritos
publicados previamente como resumen o resumen o en un documento de circulación limitada pueden publicarse en su
totalidad más adelante. Siempre existe el problema de qué tan similar es el manuscrito actual al original y la similitud de
la audiencia. No es raro, pero quizás éticamente cuestionable, que los investigadores reescriban un artículo de
investigación para otra revista con una audiencia diferente. A veces, los artículos de revistas se revisan para su
publicación como capítulo de un libro. Esto es aceptable siempre que se cite la fuente original y se obtenga permiso del
titular de los derechos de autor para adaptarlo o reimprimirlo. Problemas
También puede surgir la posibilidad de publicación duplicada si el material se publica por primera vez en Internet o a través de los
medios de comunicación de masas.
Los artículos no deben enviarse a más de una revista a la vez. Sólo después del rechazo o retiro del
manuscrito es apropiado enviar el mismo artículo a otra revista.
Es común, aunque en cierto modo indeseable, que se publiquen varios artículos sustancialmente
diferentes a partir del mismo estudio. Sin embargo, para estudios muy grandes, las publicaciones
múltiples son inevitables y pueden ser necesarias. La cuestión ética es la división adecuada en piezas
importantes en lugar de dividirlas en “unidades simplemente publicables”.
Paternidad literaria
Ha habido un debate considerable sobre quién debería figurar como autor e incluso si todo el concepto
de autoría debería descartarse en favor de algún otro sistema. Por ejemplo, Rennie, Yank y Emanuel
(1997) propusieron que en lugar de autores, cada artículo debería proporcionar una lista de
contribuyentes, indicando sus contribuciones específicas (por ejemplo, diseñaron los análisis
estadísticos, conceptualizaron el diseño, escribieron los resultados y la discusión). Parte del motivo de
esta propuesta fue identificar la responsabilidad de partes del artículo.
Una política general, pero no universalmente aceptada, es que la autoría se reserva para aquellos
que hacen una contribución profesional sustancial al estudio y que el orden de la autoría se determina
según la importancia de dicha contribución. Las contribuciones profesionales sustanciales pueden
incluir la formulación del problema o la hipótesis, la estructuración del diseño experimental, la
planificación y organización del análisis estadístico, la interpretación de los resultados o la redacción
de una parte importante del artículo. Las contribuciones menores, que deben reconocerse pero que
generalmente no generan autoría, incluyen funciones de apoyo como diseñar el aparato, realizar el
análisis estadístico, recopilar o ingresar datos y reclutar participantes. Tenga en cuenta que estas
últimas contribuciones suelen ser de estudiantes voluntarios o asistentes remunerados, que pueden
pensar que merecen la autoría.
Al determinar la autoría surgen dos tipos de problemas. Por un lado, están los autores “invitados”,
que no han realizado una aportación profesional significativa al proyecto pero se les concede la autoría
como un favor o como un “derecho” por su estatus en un departamento o laboratorio o porque su Los
nombres en un artículo aumentan la probabilidad de aceptación. Por otro lado, hay autores “fantasmas”,
que sí hicieron una importante aportación profesional.
pero no están incluidos como autores.
A veces, las personas en el poder simplemente se aprovechan de colegas o estudiantes menos
poderosos o fallecidos, que se convierten en autores “fantasmas”. Sin embargo, las cuestiones no
siempre están claras. A menudo las dificultades surgen cuando una persona pierde el interés o
abandona el área después de haber desempeñado un papel importante en los aspectos iniciales del
estudio. Quizás la persona incluso escribió una tesis o un borrador inicial del artículo final. La cuestión
es qué tipo de crédito se le debe dar a esa persona cuando un artículo es rechazado, reanalizado y
luego reescrito por completo sin la ayuda del colaborador inicial.
Pueden surgir una serie de problemas cuando profesores y estudiantes colaboran en la investigación.
La situación es frecuentemente similar al ejemplo del párrafo anterior; es decir, la tesis o borrador del
artículo del estudiante no es adecuado para su publicación, por lo que el docente debe revisarlo
exhaustivamente. En general, pensamos que si un artículo está basado en la tesis o disertación de un
estudiante de posgrado, el estudiante definitivamente debería ser autor, incluso si no participa en las
revisiones.3 En la mayoría de los casos, pensamos que el estudiante debería ser el primer autor. Sin
embargo, otra cuestión es si el asesor de la facultad debe ser coautor de una publicación de la
disertación o tesis de un estudiante. Nos parece que la respuesta es no, a menos que el asesor financie
el proyecto o hizo una contribución significativa al diseño del estudio o a la redacción del artículo final. Leer
y brindar comentarios extensos durante el proceso de tesis o disertación es lo que se espera de un
miembro de la facultad y no es suficiente para la autoría.
Una buena práctica es que los colaboradores se reúnan al inicio del proyecto y acuerden quiénes deben
ser autores y el orden de autoría. También es necesario que estos autores se mantengan en contacto y
renegocien la autoría si las circunstancias cambian. La contribución de cada persona debe documentarse
y actualizarse según sea necesario.
Finalmente, hay otras dos cuestiones relacionadas con la autoría. En primer lugar, siempre se debe
obtener el consentimiento antes de incluir a alguien como autor. Algunos editores incluso dicen que se
debe obtener permiso antes de incluir personas en un reconocimiento, especialmente si se da a entender
que la persona reconocida está de acuerdo con las conclusiones. En segundo lugar, todos los autores
deben revisar el manuscrito antes de enviarlo porque sus nombres como autores implican que asumen la
responsabilidad del artículo. Sin embargo, con artículos de múltiples autores probablemente no sea realista
suponer que todos los autores tienen conocimientos y deben ser responsables de todos los aspectos del artículo.
Citar publicaciones en su Vita

A veces los estudiantes preguntan cuándo y cómo citar artículos de investigación en su currículum vitae
(CV) o currículum. Esta es una cuestión importante porque las citaciones incompletas pueden generar
preocupaciones sobre la sofisticación, y las citaciones inexactas pueden generar acusaciones de mala
conducta. Para conocer el formato exacto de las citas, se debe consultar el manual de publicación utilizado
en su disciplina (p. ej., Asociación Estadounidense de Psicología, 2010). Si no existe tal manual, el formato
utilizado por las revistas de su campo es un buen modelo a emular. En todos los campos es importante
enumerar todos los autores en el orden en que aparecen en la publicación, la fecha de publicación, el título
exacto del artículo, el título de la publicación (si el artículo apareció en un libro o revista), el volumen, si lo
hubiere, y los números de páginas.
Reseñas y revisores
La mayoría de las propuestas de subvención y manuscritos enviados a revistas son revisados por
personas con conocimientos en el campo; esto se llama revisión por pares y se analizó en el Capítulo 24
como un aspecto importante de la evaluación de un estudio. Los revisores deben tener cuidado de no
utilizar las ideas de los autores hasta que sean publicadas y luego dar crédito. Los editores y revisores no
deben citar propuestas que hayan revisado a menos que reciban permiso explícito del
autor.
El proceso de revisión requiere mucha confianza e integridad por parte de los revisores para que
funcione de manera justa y no sea explotador. Los problemas relacionados con la imparcialidad de las
reseñas son relativamente comunes y la mayoría de las agencias de financiación y las revistas tienen
políticas específicas para abordarlos. Por lo general, las identidades de los revisores no se revelan a los
autores, asumiendo que esto hará que las reseñas sean más sinceras y las críticas negativas estén menos
expuestas a represalias. Por otro lado, otros han argumentado que las revisiones podrían ser más
responsables y equilibradas si se conociera la identidad del revisor. De hecho, en campos pequeños, los
solicitantes a menudo pueden adivinar la identidad del revisor.
La revisión enmascarada, anteriormente llamada revisión ciega, ocurre cuando no se proporciona la
identidad del autor al revisor. Este tipo de revisión es común para los manuscritos, pero es inusual para
las propuestas de subvención. El argumento a favor de la revisión anónima o enmascarada es que da una
mejor oportunidad a un nuevo académico porque el trabajo se juzga únicamente por sus méritos y no por
el estatus de los autores. Una vez más, en campos pequeños, puede que no sea posible disfrazar los
manuscritos de investigadores conocidos.
Una vez que se publica un artículo o un libro, se lleva a cabo un tipo diferente de revisión, no sólo en
las reseñas de libros publicados sino también en las reseñas de literatura y los metanálisis, en los que
los revisores excluyen los estudios que no se consideran de alta calidad. O el revisor puede decidir
ponderar los estudios en términos de sus méritos, de modo que algunos cuenten más que otros. Aunque
estas prácticas son una parte necesaria del proceso científico, brindan la oportunidad de posibles abusos
y, al menos, de herir sentimientos.
Conflictos de interés
Aunque los académicos realizan sus investigaciones por diversas razones (p. ej., curiosidad, altruismo),
la fama, el puesto y la ganancia monetaria también son motivadores para realizar investigaciones. Un
problema ocurre cuando hay un conflicto real o aparente entre el beneficio personal y las obligaciones
para con la comunidad científica. Un tipo de conflicto está relacionado con la competencia entre
académicos. Esto podría llevar a que los revisores traten injustamente a sus competidores o oculten
información a sus colegas. Debido a que la originalidad y la prioridad son tan importantes, a menudo
existe un conflicto de intereses inherente que puede restringir la colaboración y la cooperación.
Por otro lado, suele considerarse un conflicto de intereses revisar becas o artículos de colegas
cercanos o personas de la misma institución por una potencial lealtad. Además, si la investigación sobre
el valor de un producto es financiada por el productor de ese producto, la financiación debe reconocerse
en las notas del artículo.
Los conflictos de intereses no son lo mismo que la mala conducta científica, pero esta última puede
resultar de conflictos no reconocidos, que deben ser reconocidos y divulgados. Los conflictos de intereses
son inevitables y no son inherentemente malos, pero no revelarlos y no gestionar los conflictos reales
son problemas. Incluso la apariencia de conflictos debería revelarse.
La mala conducta y la estructura de la ciencia
En un artículo controvertido, Woodward y Goodstein (1996), profesores de filosofía y física, argumentaron

que “muchas reglas que parecen plausibles para definir la conducta ética podrían ser destructivas para
los objetivos de la investigación científica” (p. 479). Preguntaron cómo se podría reducir el fraude sin
perder los efectos positivos de la competencia y la recompensa.
Woodward y Goodstein dijeron que “un código de conducta implícito que aliente a los científicos a ser
un poco dogmáticos y permita cierta medida de exageración” y limite la discusión sobre sus deficiencias
puede ser perfectamente sensato (p. 485). Sostienen que parte de la responsabilidad de los científicos
es presentar los mejores argumentos posibles para sus ideas. Corresponde a otros señalar defectos y
limitaciones. Afirman que esto es, de hecho, lo que hacen la mayoría de los científicos. Por supuesto,
aquí existen límites reales, y exageración probablemente no sea la mejor palabra. La promoción es
apropiada, pero cualquier declaración errónea sobre los hechos no es ética. La cuestión es que lo que
pueden parecer reglas simples y obvias sobre la mala conducta a menudo son menos claras en el caso
específico.
¿Cómo puede saber el investigador qué es una promoción aceptable y qué cruza la línea?
Se requiere el juicio de pares para decidir si los procedimientos de un investigador para seleccionar
participantes particulares o descartar datos selectivamente son apropiados o implican una mala conducta
científica. Los investigadores jóvenes pueden aprender mejor sobre las complejidades del comportamiento
apropiado en su campo observando y discutiendo temas con académicos/mentores experimentados en
su campo. Sin embargo, se debe tener cuidado al emular a los investigadores de alto nivel porque no
todos son buenos modelos a seguir. Esperamos que esta sección del capítulo haya transmitido no sólo
la complejidad de los temas presentados sino también algunas sugerencias para la acción.
Resumen Este
capítulo describe cada una de las siete partes de un artículo cuantitativo empírico (basado en datos): título, resumen, introducción/
revisión de la literatura, método, resultados, discusión y referencias.
También se discutieron algunas diferencias entre manuscritos “copia” para ser enviados a revistas y documentos “finales” (tesis
o disertaciones). La sección central de este capítulo presentó un breve ejemplo de cómo escribir sobre los resultados y una
discusión ampliada sobre lo que debería incluirse. Este capítulo también amplió la discusión del Capítulo 14 sobre problemas y
principios éticos. Discutimos cuestiones éticas relacionadas con el análisis de los datos, la redacción del informe y cuestiones
sobre las citas de currículums, los revisores, los conflictos de intereses y la defensa en contraste con la mala conducta.
Conceptos clave
Abstracto
Paternidad literaria
Sección de discusión
revisión enmascarada
Sección de método
Múltiples publicaciones (el mismo estudio)

Revisión por pares
Contribución profesional (a un proyecto de investigación)

Sección de resultados
Mala conducta científica
Título (de un artículo)
Distinciones clave
Manuscrito “copia” versus documento “final”
Introducción (de un artículo) versus revisión de la literatura (de una tesis)
Plagio versus parafraseo
Referencias versus bibliografía

Sección de resultados versus sección de discusión
1. Si estuviera escribiendo un artículo sobre técnicas de recopilación de datos y quisiera incluir la idea principal de
la siguiente oración de este texto, ¿cuáles son dos formas en que podría hacerlo de manera apropiada?
La preocupación por el filtrado de las respuestas de los participantes a través de recuerdos

quizás defectuosos o en términos de respuestas socialmente deseables ha llevado a los
investigadores cuantitativos, especialmente aquellos que tienden a utilizar enfoques experimentales
aleatorios y cuasiexperimentales, a sospechar de la validez. de instrumentos de autoinforme.
2. Bob acaba de completar un manuscrito para su publicación. Aunque él mismo había desarrollado las líneas
generales del proyecto, le debe mucho a otras personas.
La asistencia que recibió incluye lo siguiente: • Un amigo suyo le
brindó a Bob consejos sobre cómo obtener su muestra. • El director del laboratorio de estadísticas
le dio consejos a Bob y también ayudó a escribir el

Sección de resultados.
• Un estudiante de posgrado recopiló la mayoría de los datos de la entrevista estructurada e hizo la

entrada de datos informáticos.
a. ¿Qué tipo de atribución debería darse a cada uno de estos individuos? Por ejemplo, ¿quién debería ser
reconocido como autor y quién debería recibir un reconocimiento en el artículo? ¿Quién no merece el
reconocimiento formal?
Explicar.
b. ¿En qué punto del proceso de investigación deben tomarse decisiones relativas a
¿Se harán autorías y agradecimientos?
3. Enumere las diferentes secciones principales de un artículo de revista/informe de investigación y brevemente

Describe lo que contiene cada uno.
4. La sección de métodos de un artículo de revista/informe de investigación a menudo consta de cuatro subsecciones

principales.
a. Nombra cada uno.
b. Describe lo que contiene cada uno.
5. Diferenciar entre la sección de resultados y la sección de discusión en un artículo de revista/informe de

investigación.
6. ¿Cuál es el propósito del análisis de datos? Diferenciar entre análisis de datos y

espionaje de datos.
7. ¿Cuál es el propósito de las figuras (es decir, gráficos o cuadros) y tablas en los resultados?
¿sección?
8. ¿Qué información de la sección de resultados se incluye mejor en figuras o tablas y qué información se incluye
mejor en el texto del artículo/informe de investigación?
9. Ha realizado un estudio que analiza la eficacia de dos tipos de enfoques terapéuticos con adolescentes mayores
en libertad condicional. Su muestra consta de 20 personas en período de prueba, 10 en cada grupo. Su prueba
t arroja una puntuación de 1,648, que no es estadísticamente significativa al nivel de 0,05. ¿Cómo informarías
eso en tu sección de resultados?
Notas
1. La organización de esta sección se basa en el Manual de Publicaciones de la Asociación Americana de
Psicología (American Psychology Association, 2001). También nos basamos en gran medida en un
artículo de Wilkinson y el Task Force on Statistical Inference (1999) y los Standards for Reporting on
Empirical Social Science Research de la American Educational Research Association (2006) en AERA
Publications. El último artículo (Asociación Estadounidense de Investigación Educativa, 2006) cubre,
entre otros, métodos tanto cualitativos como cuantitativos para realizar investigaciones empíricas basadas
en datos. Ninguna de estas tres fuentes (ni el presente capítulo) cubren bien la información sobre otras
formas de investigación, como reseñas de investigaciones, ensayos teóricos o metodológicos, o
investigaciones basadas en las humanidades, como el análisis literario. Ya está disponible la sexta
edición del manual de publicaciones de la Asociación Americana de Psicología (2010). Se ha actualizado
para reconocer e incorporar avances en la tecnología informática, incluidas nuevas pautas para hacer
referencia a fuentes electrónicas y ejemplos ampliados de fuentes en línea.
El libro también ha sido reorganizado y simplificado para facilitar su uso, y el enfoque se ha ampliado
para incluir lectores de otras ciencias sociales y del comportamiento y de la educación.
2. El Apéndice F describe los componentes de las tablas y figuras y proporciona algunos ejemplos en
Formato APA.
3. Tenga en cuenta que el manual de publicación APA (American Psychological Association, 2001) establece
que todos los autores deben leer y aprobar el manuscrito final y aceptar la responsabilidad del mismo.
Esto podría resultar difícil si el profesor ha perdido contacto con el alumno.
Referencias
Altman, E. y Hernon, P. (1997). Mala conducta en la investigación: problemas, implicaciones y estrategias. Greenwich,
CN: Ablex.
Asociación Estadounidense de Investigación Educativa. (2006). Estándares para informar sobre investigaciones empíricas en ciencias
sociales en publicaciones de AERA. Investigador educativo, 35 (6), 33–40.
Asociación Estadounidense de Investigación Educativa, Asociación Estadounidense de Psicología y Consejo Nacional de Medición en
Educación. (1999). Normas para las pruebas educativas y psicológicas.
Washington, DC: Asociación Estadounidense de Investigación Educativa.
Asociación Estadounidense de Psiquiatría. (2000). Manual diagnóstico y estadístico de los trastornos mentales (4ª ed. revisión de texto).
Washington, DC: Autor.
Asociación Estadounidense de Psicología. (2001). Manual de publicación de la Asociación Estadounidense de Psicología.
(5ª ed.). Washington, DC: Autor.
Asociación Americana de Psicología. (2010). Manual de publicación de la Asociación Americana de Psicología.
Anastasi, A. y Urbina, S. (1997). Pruebas psicológicas (7ª ed.). Upper Saddle River, Nueva Jersey: Prentice Hall.
Antes, G. y Oxman, AD (2001). La colaboración Cochrane en el siglo XX. En M. Egger, G.D.
Smith y DG Altman (Eds.), Revisiones sistemáticas en la atención sanitaria (2ª ed., págs. 447–458). Londres: BMJ.
Grupo de trabajo de la Junta de Publicaciones y Comunicaciones de la APA sobre estándares de presentación de informes de artículos de revistas.
(2008). Estándares de informes para la investigación en psicología: ¿por qué los necesitamos? ¿Cuáles podrían ser? Psicólogo
estadounidense, 63, 839–851.
Bambara, L. y Ager, C. (1992). Utilizar la autoprogramación para promover actividades de ocio autodirigidas en entornos domésticos y
comunitarios. Revista de la Asociación para personas con discapacidades graves, 17, 67–76.
Bartko, JJ y Carpenter, WT (1976). Sobre los métodos y teoría de la confiabilidad. Revista de Nervios y
Enfermedades mentales, 163, 307–317.
Boote, DN y Beile, P. (2005). Académicos antes que investigadores: sobre la centralidad de la revisión de la literatura de tesis en la
preparación de la investigación. Investigador educativo, 34(6), 3–15.
Brothen, T. y Wambach, C. (2004). El valor de los límites de tiempo en los cuestionarios de Internet. enseñanza de la psicología,
31, 62–64.
Bryze, KA (1991). Evaluación funcional de adultos con discapacidades del desarrollo. Tesis de maestría inédita, Universidad de Illinois
en Chicago.
Colaboración Campbell. (Dakota del Norte). ¿Qué ayuda? ¿Qué daña? ¿Con base en qué evidencia? Consultado el 18 de agosto.
2004, de http://www.campbellcollaboration.org
Campbell, JM (2004). Comparación estadística de cuatro tamaños de efecto para diseños de un solo sujeto. Modificación de conducta,
28, 234–246.
Campbell, DT y Kenny, DA (1999). Una introducción a los artefactos de regresión. Nueva York: Guilford Press.
Campbell, DT y Stanley, JC (1966). Diseños experimentales y cuasiexperimentales para la investigación. Chicago: Rand McNally.
(Publicado originalmente en 1963)
Cohen, J. (1988). Análisis de poder estadístico para las ciencias del comportamiento (2ª ed.). Hillsdale, Nueva Jersey: Lawrence
Erlbaum Associates.
Cohen, J. (1994). El mundo es redondo (p < .05). Psicólogo estadounidense, 49, 997–1003.
Conners, CK, Epstein, JN, March, JS, Angold, A., Wells, KC, Klaric, J., et al. (2001). Tratamiento multimodal del TDAH en la MTA: un
análisis de resultados alternativo. Revista de la Academia Estadounidense de Psiquiatría Infantil y Adolescente, 40, 159–167.
Cook, TD y Campbell, DT (1979). Cuasiexperimentación: cuestiones de diseño y análisis para entornos de campo.
Boston: Houghton Mifflin.
Cooper, H. y Hedges, LV (Eds.). (1994). El manual de síntesis de la investigación. Nueva York: Fundación Russell Sage.
411
412 Referencias
Corbin, J. y Strauss, A. (2008). Fundamentos de la investigación cualitativa: Técnicas y procedimientos para desarrollar
teoría fundamentada (3ª ed.). Thousand Oaks, CA: Sage.
Cramer, KM (1999). Antecedentes psicológicos del comportamiento de búsqueda de ayuda: un reanálisis utilizando
estructuras de modelado de rutas. Revista de Consejería Psicológica, 46(3), 381–387.
Creswell, JW (2007). Investigación cualitativa y diseño de investigación: elección entre cinco enfoques (2ª ed.).
Thousand Oaks, CA: Sage.
Creswell, JW (2009). Diseño de investigación: enfoques cualitativos y cuantitativos (3ª ed.). mil robles,
CA: Sabio.
Crocker, L. y Algina, J. (2006). Introducción a la teoría de tests clásica y moderna. Belmont, California: Wadsworth.
Cronbach, LJ (1960). Fundamentos de las pruebas psicológicas (2ª ed.). Nueva York: Harper & Row.
Cronbach, LJ (1990). Fundamentos de las pruebas psicológicas (5ª ed.). Nueva York: HarperCollins.
Czaja, R. y Blair, J. (2005). Diseño de encuestas: una guía para decisiones y procedimientos. mil robles,
CA: Sabio.
Daniel, L. G. y Witta, E. L. (marzo de 1997). Implicaciones para enseñar a estudiantes de posgrado la terminología correcta
para discutir la validez y confiabilidad en un análisis de contenido de tres revistas de medición de ciencias sociales.
Trabajo presentado en la Asociación Estadounidense de Investigación en Educación, Chicago, IL.
Dellinger, A. (2005). Validez y revisión de la literatura. Investigación en las escuelas, 12(2), 41–54.
Denzin, NK y Lincoln, YS (1994). Manual de investigación cualitativa. Thousand Oaks, CA: Sage.
DeVellis, RF (2003). Desarrollo de escalas: Teoría y aplicaciones (2ª ed.). Thousand Oaks, CA: Sage.
Dillman, DA (2007). Encuestas por correo e Internet: el método de diseño a medida (2ª ed.). Hoboken, Nueva Jersey: Wiley.
DiLorenzo, T., Halper, J. y Picone, MA (2004). Comparación de individuos mayores y más jóvenes con
Esclerosis múltiple: una investigación preliminar. Psicología de la rehabilitación, 49, 123125.
Dunlap, G., FosterJohnson, L., Clarke, S., Kern, L. y Childs, K. (1995). Modificación de actividades para producir resultados
funcionales: efectos sobre las conductas problemáticas de estudiantes con discapacidades. Revista de la Asociación
para personas con discapacidades graves, 20, 248–258.
Edgington, E. (1992). Pruebas no paramétricas para experimentos de caso único. En T. Kratochwill y J. Levin (Eds.), Diseño
y análisis de investigación de caso único (págs. 1540). Hillsdale, Nueva Jersey: Erlbaum.
Herramientas educativas. (2002). Sistemas de gestión de cursos. Obtenido el 17 de septiembre de 2008 de http://
www .edutools.info/static.jsp?pj=4&page=HOME Egger,
M., Smith, GD y Schneider, M. (2001). Revisiones sistemáticas de estudios observacionales. En m.
Egger, GD Smith y DG Altman (Eds.), Revisiones sistemáticas en la atención sanitaria (2ª ed., págs. 211277).
Londres: BMJ.
Finch, S., Thomason, N. y Cumming, G. (2002). Pasado y futuro Asociación Americana de Psicología
directrices para la práctica estadística. Teoría y psicología, 12, 825–853.
Fink, A. (1998). Realización de revisiones de literatura de investigación: del papel a Internet. Thousand Oaks, CA: Sage.
Fink, A. (2009). Cómo realizar encuestas: una guía paso a paso (4ª ed.). Thousand Oaks, CA: Sage.
Fisher, AG (1995). Evaluación de habilidades motoras y de procesos. Fort Collins, CO: Prensa de tres estrellas.
Fowler, FJ, Jr. (2009). Métodos de investigación por encuestas (3ª ed.). Thousand Oaks, CA: Sage.
Fowler, FJ y Mangione, TW (1990). Entrevistas de encuesta estandarizadas: Minimizar las relacionadas con el entrevistador
error. Newbury Park, California: Sage.
Franklin, R. D., Gorman, B. S., Beasley, T. M. y Allison, DB (1997). Visualización gráfica y análisis visual. En R. D. Franklin,
D. B. Allison y B. S. Gorman (Eds.), Diseño y análisis de investigaciones de caso único. Mahwah, Nueva Jersey:
Lawrence Erlbaum Associates.
Fuller, HM, Thomas, JJ y Rice, MS (2006). Riesgo percibido: efectos sobre el rendimiento de alcance y colocación en
personas con accidente cerebrovascular. Revista estadounidense de terapia ocupacional, 60, 379–387.
Gaito, J. (1980). Escalas de medición y estadísticas: resurgimiento de un viejo concepto erróneo. Boletín Psicológico, 87,
564–567.
Gaito, J. (1986). Algunas cuestiones en la controversia entre medición y estadística. Psicología canadiense, 27, 63–68.
Ghiselli, EE, Campbell, JP y Zedeck, S. (1981). Teoría de la medición para las ciencias del comportamiento. San Francisco:
WH Freeman.
Glaser, BG (1978). Sensibilidad teórica. Mill Valley, CA: Sociología Press.
Referencias 413
Glaser, BG y Strauss, AL (1967). El descubrimiento de la teoría fundamentada: estrategias para la investigación cualitativa.
Chicago: Aldina.
Gliner, JA y Morgan, GA (2000). Diseño y análisis de investigaciones en entornos aplicados: un análisis integrado
acercarse. Mahwah, Nueva Jersey: Lawrence Erlbaum Associates.
Gliner, J., Gliner, G., Cobb, B., Alwell, M., Winokur, M., Wolgemuth, J., et al. (2004). Metaanálisis de diseños de un solo tema.
Informe técnico, Lo que funciona en transición. Pie. Collins: Universidad Estatal de Colorado, Facultad de Educación.
Goddard, P. (2003). Implementación y evaluación de un curso de redacción para estudiantes de psicología. Enseñando
de Psicología, 30, 2529.
Goodwin, LD y Leech, NL (2003). El significado de validez en los nuevos estándares: Implicaciones para los cursos de medición.
Medición y evaluación en asesoramiento y desarrollo, 36, 181–192.
Gorman, BS y Allison, DB (1997). Alternativas estadísticas para diseños de caso único. En RD Franklin, D. B. Allison y B. S. Gorman
(Eds.), Diseño y análisis de investigaciones de caso único. Mahwah, Nueva Jersey: Lawrence Erlbaum Associates.
Grimm, LB y Yarnold, PR (Eds.). (1995). Lectura y comprensión de estadísticas multivariadas.

Washington, DC: Asociación Estadounidense de Psicología.
Grissom, RJ y Kim, JJ (2005). Tamaños del efecto para la investigación: un enfoque práctico amplio. Mahwah, Nueva Jersey:
Asociados de Lawrence Erlbaum.
Groves, RM, Biemer, BP, Lars, EL, Massey, JT, Nicholls, WL y Waksberg, J. (1988). Metodología de encuesta telefónica. Nueva
York: Wiley.
Harlow, LL, Mulaik, SA y Steiger, JH (Eds.). (1997). ¿Qué pasaría si no hubiera pruebas de significancia?
Mahwah, Nueva Jersey: Lawrence Erlbaum Associates.
Hart, C. (2001). Haciendo una revisión de la literatura: una guía completa para las ciencias. Londres: Publicaciones Ltd.
Heller, J. (1972, 26 de julio). Víctimas de sífilis en Estados Unidos estudian sin terapia durante 40 años. la nueva york
Times, págs.1, 8.
Herpertz, SC, Wenning, B., Mueller, B., Qunaibi, M., Sass, H. y HerpertzDahlmann, B. (2001).
Respuestas psicofisiológicas en niños con TDAH con y sin trastorno de conducta: implicaciones para el comportamiento
antisocial de los adultos. Revista de la Academia Estadounidense de Psiquiatría Infantil y Adolescente, 40, 1222–1230.
Holm, MB (2000). Nuestro mandato para el nuevo milenio: práctica basada en evidencia, conferencia de 2000 de Eleanor Clarke
Slagel. Revista estadounidense de terapia ocupacional, 54, 575–585.
Huck, SW (2008). Lectura de estadísticas e investigación (5ª ed.). Boston: Pearson.
Humphreys, L. (1970). Comercio de salón de té: sexo impersonal en lugares públicos. Chicago: Aldina.
Comité Internacional de Editores de Revistas Médicas. (1997). Requisitos uniformes para manuscritos enviados a revistas
biomédicas. Revista de la Asociación Médica Estadounidense, 277, 927–934.
Informes de citas de revistas. Ed. de ciencias sociales. (1994presente). (CDROM. Recurso electrónico anual).
Filadelfia: Thompson/ISI.
Kaufman, AS y Kaufman, NL (1985). Prueba de Kaufman de rendimiento educativo. Circle Pines, Minnesota:
Servicio de Orientación Americano.
Kazdin, A. (1982). Diseños de investigación de caso único. Nueva York: Oxford University Press.
Keppel, G. (1991). Diseño y análisis: manual del investigador (3ª ed.). Nueva York: Prentice Hall.
Keppel, G. y Zedeck, S. (1989). Análisis de datos para diseños de investigación. Nueva York: WH Freeman.
Kerlinger, FN (1986). Fundamentos de la investigación del comportamiento (3ª ed.). Nueva York: Holt, Rinehart y Winston.
Kirk, RE (1982). Diseño experimental: Procedimientos para las ciencias del comportamiento (2ª ed.). Belmont, California:
Wadsworth, Inc.
Kline, RB (2004). Más allá de las pruebas de significación. Washington, DC: Asociación Estadounidense de Psicología.
Kraemer, HC (1992). Informar el tamaño de los efectos en los estudios de investigación para facilitar la evaluación de las prácticas.
importancia clínica o clínica. Psiconeuroendocrinología, 17, 524–536.
Kraemer, HC y Thiemann, S. (1987). ¿Cuántas materias? Análisis de poder estadístico en la investigación.
Newbury Park, California: Sage.
Kraemer, HC, Gardner, G., Brooks, JO III y Yesavage, JA (1998). Ventajas de excluir estudios con poca potencia en el metanálisis:
puntos de vista inclusivos versus excluyentes. Métodos psicológicos, 3, 23–31.
414 Referencias
Kraemer, HC, Morgan, GA, Leech, NL, Gliner, JA, Vaske, JJ y Harmon, RJ (2003). Medidas
de importancia clínica. Revista de la Academia Estadounidense de Psiquiatría Infantil y Adolescente, 42,
15241529.
Krueger, RA y Casey, MA (2000). Grupos focales: una guía práctica para la investigación aplicada (3ª ed.).
Kuhn, TS (1970). La estructura de las revoluciones científicas (2ª ed.). Chicago: Prensa de la Universidad de Chicago.
Landrum, RE y Mulcock, SD (2007). Uso de encuestas previas y posteriores al curso para predecir los resultados de los estudiantes.
Enseñanza de la Psicología, 34, 163166.
Ley, M. (Ed.). (2002). Rehabilitación basada en la evidencia. Thorofare, Nueva Jersey: Slack.
Leech, NL, Barrett, KC y Morgan, GA (2008). SPSS para estadística intermedia: uso e interpretación.
ción. Mahwah, Nueva Jersey: Lawrence Erlbaum Associates.
Levin, J., Marascuilo, L. y Hubert, L. (1978). N=1 pruebas de aleatorización no paramétricas. En t.
Kratochwill (Ed.), Investigación de un solo tema: estrategias para evaluar el cambio (págs. 167196). Nueva York:
Prensa académica.
Likert, R. (1932). Una técnica para la medición de actitudes. Archivos de Psicología, N° 140.
Lipsey, MW (1990). Sensibilidad del diseño: poder estadístico para la investigación experimental. Newbury Park, California: Sage.
Lipsey, MW y Wilson, DB (2000). Metaanálisis práctico. Thousand Oaks, CA: Sage.
Locke, LF, Spirduso, WW y Silverman, SJ (2007). Propuestas que funcionan: Una guía para la planificación de disertaciones y
propuestas de subvenciones (Propuestas que funcionan: Una guía para la planificación). Thousand Oaks, CA: Sage.
Loftus, GR y Loftus, EF (1982). Esencia de la estadística. Monterey, California: Brooks/Cole.
McCleary, R. y Welsh, W. (1992). Fundamentos filosóficos y estadísticos de los experimentos de series temporales. En T.
Kratochwill y J. Levin (Eds.), Diseño y análisis de investigación de caso único (págs. 41–92).
Hilsdale, Nueva Jersey: Erlbaum.
Meltzoff, J. (1997). Pensamiento crítico sobre la investigación: Psicología y campos afines. Washington DC:
Asociacion Americana de Psicologia.
Anuarios de medidas mentales. (1938presente). Lincoln, NE: Instituto Buros de Mediciones Mentales,
Universidad de Nebraska.
Micceri, T. (1989). El unicornio, la curva normal y otras criaturas improbables. Boletín Psicológico, 105(1), 156–166.
Milgram, S. (1974). Obediencia a la autoridad: una visión experimental. Nueva York: Harper & Row.
Miller, LJ, Coll, JR y Schoen, SA (2007). Un estudio piloto controlado aleatorio sobre la eficacia de la terapia ocupacional para niños
con trastorno de modulación sensorial. Revista estadounidense de terapia ocupacional, 61, 228–238.
Miller, WL y Crabtree, BF (1992). Investigación en atención primaria: una tipología multimétodo y cualitativa
mapa vial. En BF Crabtree y WL Miller (Eds.), Haciendo investigación cualitativa (págs. 3–28). Newbury
Parque, California: sabio.
Morgan, DL (2007). Paradigmas perdidos y pragmatismo recuperado: implicaciones metodológicas de combinar métodos cualitativos
y cuantitativos. Revista de investigación de métodos mixtos, 1, 48–76.
Morgan, GA, Gliner, JA y Harmon, RJ (1999). Evaluar la validez de un estudio de investigación. Revista de la Academia
Estadounidense de Psiquiatría Infantil y Adolescente, 38, 480–485.
Morgan, GA, Gliner, JA y Harmon, RJ (2006). Comprender y evaluar la investigación en entornos aplicados y clínicos. Mahwah,
Nueva Jersey: Lawrence Erlbaum Associates.
Morgan, GA, Leech, NL, Gloeckner, GW y Barrett, KC (2007). SPSS para introducción a la estadística:
Uso e interpretación. Mahwah, Nueva Jersey: Lawrence Erlbaum Associates.
Morgan, GA, MaslinCole, CA, Harmon, RJ, BuschRossnagel, NA, Jennings, KD, HauserCram, P. y Brockman, L. (1993).
Percepciones de padres y maestros sobre el dominio de los niños pequeños
Motivación: Evaluación y revisión de la investigación. En D. Messer (Ed.), Motivación del dominio en la primera infancia:
desarrollo, medición y procesos sociales (págs. 109131). Londres: Routledge.
Morgan, SE, Reichart, T. y Harrison, TR (2002). De los números a las palabras: presentación de resultados estadísticos para las
ciencias sociales. Boston: Allyn y Bacon.
Comisión Nacional para la Protección de los Sujetos Humanos de Estudios Biomédicos y del Comportamiento
Investigación. (1978). El informe Belmont: Principios y directrices éticos para la protección de los sujetos humanos de
investigación (Publicación DHEW [OS] 780012). Washington, DC: Gobierno de EE. UU.
Imprenta.
Referencias 415
Newton, RR y Rudestam, KE (1999). Su asesor estadístico: respuestas a sus preguntas sobre análisis de datos.
ciones. Thousand Oaks, CA: Sage.
Nickerson, RS (2000). Prueba de significancia de hipótesis nula: una revisión de un antiguo y continuo
troversía. Métodos psicológicos, 5, 241–301.
Nicol, AAM y Pexman, PM (1999). Presentando sus hallazgos: una guía práctica para crear tablas.
Nicol, AAM y Pexman, PM (2003). Mostrando sus hallazgos: una guía práctica para crear figuras, carteles y presentaciones.
Nunnally, JC y Bernstein, IH (1994). Teoría psicométrica (3ª ed.). Nueva York: McGrawHill.
Onwuegbuzie, AJ, Collins, KMT, Leech, NL, Dellinger, AB y Jiao, QG (2005). A. metamarco para realizar y escribir literatura
rigurosa, integral y reveladora
revisiones. En KMT Collins, AJ Onwuegbuzie y QG Jiao (Eds.), Hacia una comprensión más amplia del estrés y el
afrontamiento: enfoques de métodos mixtos. Serie Investigación sobre el estrés y el afrontamiento en la educación (Vol. 5).
Greenway, CT: Publicaciones de la era de la información.
Onwuegbuzie, AJ y Leech, NL (2005). Sobre convertirse en un investigador pragmático: la importancia de
combinando metodologías de investigación cuantitativa y cualitativa. Revista internacional de metodología de la investigación
social: teoría y práctica, 8, 375–387.
Osgood, CE, Suci, GJ y Tannenbaum, PH (1957). La medida del significado. Urbana: Universidad
de Prensa de Illinois.
Ottenbacher, K. (1986). Evaluación del cambio clínico. Baltimore: Williams y Wilkins.
Parker, RI y Brossart, DF (2003). Evaluación de datos de investigación de un solo caso: una comparación de siete
métodos de estadística. Terapia conductual, 34, 189–211.
Parker, RI, Brossart, DF, Vannest, KJ, Long, JR, DeAlba, RG, Baugh, FG, et al. (2005). Efecto
Tamaños en la investigación de un solo caso: ¿Qué tan grande es grande? Revisión de psicología escolar, 34, 116132.
Parsonson, B. y Baer, D. (1992). El análisis visual de los datos y la investigación actual sobre los estímulos que los controlan. En
T. Kratochwill y J. Levin (Eds.), Diseño y análisis de investigación de caso único (págs. 1540).
Hillsdale, Nueva Jersey: Lawrence Erlbaum Associates.
Pedhazur, EJ y Schmelkin, LP (1991). Medición, diseño y análisis: un enfoque integrado.
Hillsdale, Nueva Jersey: Lawrence Erlbaum Associates.
Penningroth, SL, Despain, LH y Gray, MJ (2007). Un curso diseñado para mejorar psicológicamente.
pensamiento crítico. Enseñanza de la Psicología, 34, 153157.
Phillips, DC y Burbules, Carolina del Norte (2000). Pospositivismo e investigación educativa. Lanham, MD: Rowman
y Littlefield.
Poirier, CR y Feldman, RS (2007). Promoción del aprendizaje activo utilizando tecnología de respuesta individual en grandes
clases de introducción a la psicología. Enseñanza de la Psicología, 34, 194196.
Poole, JL, Chiappisi, H., Cordova, JS y Sibbitt, W., Jr. (2007). Participación de adultos con disfunción física: calidad de vida en
mujeres indias americanas y blancas con y sin
Artritis reumatoide. Revista estadounidense de terapia ocupacional, 61, 280–289.
Pross, C. (1992). Médicos nazis, medicina alemana y verdad histórica. En GJ Annas y MA Grodin
(Eds.), Los médicos nazis y el Código de Nuremberg (págs. 32–52). Nueva York: Universidad de Oxford
Prensa.
Rennie, D., Yank, V. y Emanuel, L. (1997). Cuando la autoría falla: una propuesta para hacer contribuyentes
responsable. Revista de la Asociación Médica Estadounidense, 278, 579–585.
Reynolds, CR y Kamphaus, RW (1992). Sistema de evaluación del comportamiento de los niños. Circle Pines, Minnesota:
Servicio de Orientación Americano.
Rosenthal, R. (2001). Tamaños del efecto en la investigación biomédica y conductual. En L. Bickman (Ed.), Validez
y experimentación social (págs. 121139). Thousand Oaks, CA: Sage.
Rosenthal, R. y Rosnow, RL (1991). Fundamentos de la investigación del comportamiento: métodos y análisis de datos (2º
ed.). Boston: McGrawHill.
y proceso (3ª ed.). Newbury Park, California: Sage.
Sackett, DL (1989). Reglas de evidencia y recomendaciones clínicas sobre el uso de antitrombóticos.
agentes. Pecho, 25, 2S–3S.
416 Referencias
Sackett, DL, Richardson, WS, Rosenberg, W. y Haynes, RB (Eds.). (2000). Medicina basada en evidencia: cómo practicar y enseñar la
MBE. Nueva York: Churchill Livingstone.
Sackett, DL, Rosenberg, WM, Gray, JA, Haynes, RB y Richardson, WS (1996). Medicina basada en la evidencia: qué es y qué no es.
Revista médica británica, 312, 71–72.
Salant, P. y Dillman, DA (1994). Cómo llevar a cabo su propia encuesta. Nueva York: Wiley.
Schellenberg, EG (2004). Las lecciones de música mejoran el coeficiente intelectual. Ciencia psicológica, 15, 511–514.
Schmidt, FL y Hunter, JE (1997). Ocho objeciones comunes pero falsas a la interrupción de las pruebas de significancia en el análisis de
datos de investigación. En LL Harlow, SA Mulaik y JH Steiger (Eds.), ¿ Qué pasaría si no hubiera pruebas de significancia? (págs.
37 a 64). Mahwah, Nueva Jersey: Erlbaum.
Schmitt, N. (1996). Usos y abusos del coeficiente alfa. Evaluación psicológica, 8, 350–353.
Scruggs, TE y Mastropieri, MA (1994). La eficacia de la formación en generalización: una síntesis cuantitativa de una investigación de
un solo tema. En TE Scruggs y MA Mastropieri (Eds.), Avances en el aprendizaje y las discapacidades conductuales (Vol. 8, págs.
259–280). Greenwich, CT: JAI.
Shadish, WR, Cook, TD y Campbell, DT (2002). Diseños experimentales y cuasiexperimentales para
inferencia causal generalizada. Boston: Houghton Mifflin.
Shavelson, RJ (1988). Razonamiento estadístico para las ciencias del comportamiento (2ª ed.). Boston: Allyn y Bacon.
Shavelson, RJ (1996). Razonamiento estadístico para las ciencias del comportamiento (3ª ed.). Needham Heights, Massachusetts:
Allyn y tocino.
Sieber, JE (1992). Planificación de una investigación éticamente responsable: una guía para estudiantes y juntas de revisión interna.
Newbury Park, California: Sage.
Siegel, S. y Castellan, Nueva Jersey (1988). Estadística no paramétrica para las ciencias del comportamiento (2ª ed.). Nueva York:
McGrawHill.
Skinner, CH (Ed.). (2005). Diseños de materia única para psicólogos escolares. Binghamton, Nueva York: Haworth
Prensa, Inc.
Smith, ML (1981). Investigación naturalista. Diario de personal y orientación, 59, 585–589.
Spector, PE (1992). Construcción de una escala de calificación sumada: una introducción. Newbury Park, California: Sage.
Stage, SA, & Quiroz, DR (1997). Un metanálisis de intervenciones para disminuir el comportamiento disruptivo en el aula en entornos de
educación pública. Revisión de psicología escolar, 26, 333–368.
Estaca, RE (2005). Estudios de casos cualitativos. En NK Denzin & YS Lincoln (Eds.), El manual de investigación cualitativa de Sage (3.ª
ed., págs. 443–466). Thousand Oaks, CA: Sage.
StarkWroblewski, K., Wiggins, T. y Ryan, J. (2006). Evaluar el interés de los estudiantes y su familiaridad con las áreas de especialidad
de la psicología profesional. Revista de Psicología de la Instrucción, 33, 273–277.
Stevens, JP (1999). Estadística intermedia: un enfoque moderno (2ª ed.). Mahwah, Nueva Jersey: Lawrence Erlbaum Associates.
Strauss, A. (1987). Análisis cualitativo para científicos sociales. Cambridge, Reino Unido: University of Cambridge Press.
Strube, MJ (2000). Teoría de la confiabilidad y la generalización. En LG Grimm y PR Yarnold (Eds.), Leer y comprender más estadísticas
multivariadas (págs. 23–66). Washington, DC: Asociación Estadounidense de Psicología.
Swanson, HL y SachseLee, C. (2000). Un metanálisis de investigaciones de intervención de un solo sujeto para estudiantes con DA.
Revista de discapacidades del aprendizaje, 33, 114–136.
Tashakkori, A. y Teddlie, C. (Eds.). (2002). Manual de métodos mixtos en investigación social y conductual.
Tebben, AB y Jepsen, J. (2004). Paletas etiquetadas como ergonómicas versus diseño estándar: preferencias y efectos sobre el rango
de movimiento de la muñeca durante una ocupación de jardinería. Revista estadounidense de terapia ocupacional, 58, 317–323.
Tesch, R. (1990). Investigación cualitativa: tipos de análisis y herramientas de software. Nueva York: Falmer.
Críticas de pruebas (anualmente). Austin, TX: ProEd.
Pruebas impresas (VI). (2006). Lincoln, NE: Instituto Buros de Mediciones Mentales.
Thompson, B. (1995). La regresión escalonada y el análisis discriminante escalonado no necesitan aplicarse aquí: editorial de una guía.
Medición educativa y psicológica, 55, 525–534.
Thompson, B. (2002). “Estadístico”, “práctico” y “clínico”: ¿cuántos tipos de importancia deben considerar los consejeros? Revista de
Consejería y Desarrollo, 80, 64–71.
Referencias 417
Thompson, B. (Ed.). (2003). Fiabilidad de la puntuación: pensamiento contemporáneo sobre cuestiones de fiabilidad. Mil
Oaks, CA: Salvia.
Thompson, B. (2004). Análisis factorial exploratorio y confirmatorio: comprensión de conceptos y aplicaciones. Washington, DC:
Asociación Estadounidense de Psicología.
Thorndike, RL (2004). Medición y evaluación en psicología y educación (7ª ed.). Nueva York:
Upper Saddle River, Nueva Jersey: Prentice Hall.
TickleDegnen, L. (1999). Foro de práctica basada en evidencia: organización, evaluación y uso de evidencia en la práctica de la
terapia ocupacional. Revista estadounidense de terapia ocupacional, 53, 537–539.
Vaske, JJ, Gliner, JA y Morgan, GA (2002). Comunicar juicios sobre prácticas.
significancia: Tamaño del efecto, intervalos de confianza y odds ratios. Dimensiones humanas de la vida silvestre, 7,
287–300.
Velleman, PF y Wilkinson, L. (1993). Las tipologías nominal, ordinal, de intervalo y de razón son engañosas.
En g. Estadístico estadounidense, 47, 65–72.
Walters, GD (2005). Reincidencia en participantes liberados del Programa de Cambio de Estilo de Vida. Justicia penal
y Comportamiento, 32, 50–68.
Wechsler, D. (1991). Escala de inteligencia de Wechsler para niños—tercera edición. San Antonio: Corporación Psicológica.
Cámara de compensación What Works. (Septiembre de 2006). Clasificación del diseño del estudio What Works Clearinghouse.
Obtenido el 28 de marzo de 2008 de http://www.ies.ed.gov/ncee/wwc/pdf/studydesignclass.pdf
Wilkinson, L. y el Grupo de Trabajo sobre Inferencia Estadística. (1999). Métodos estadísticos en psicología.
revistas: pautas y explicaciones. Psicólogo estadounidense, 54, 594–604.
Winer, BJ (1962). Principios estadísticos en el diseño experimental (2ª ed.). Nueva York: McGrawHill.
Wolfe, WR, Weiser, SD, Bangsber, DR, Thior, I., Makhema, JM, Dickinson, DB, et al. (2006).
Efectos del estigma relacionado con el VIH entre una muestra temprana de pacientes que reciben terapia antirretroviral en
Botswana. Atención del SIDA, 18, 931–933.
Woodward, J. y Goodstein, D. (1996). Conducta, mala conducta y estructura de la ciencia. Científico estadounidense, 84, 479–490.
Yin, R. (2008). Investigación de estudios de caso: diseño y métodos (4ª ed.). Thousand Oaks, CA: Sage.
Joven, ED (1999). Investigación con sujetos humanos: revisión histórica, teoría ética y directrices de Stanford. Documento inédito.
Facultad de Medicina de la Universidad de Stanford, Stanford, CA.
Zamboanga, BL, PadillaWalker, LM, Hardy, SA, Thompson, RA y Wang, SC (2007).
Antecedentes académicos y participación en el curso como predictores del desempeño en los exámenes. Enseñanza de la
Psicología, 34, 158162.
Zeanah, CH, Larrieu, JA, Heller, SS, Valliere, J., HinshawFuselier, S., Aoki, Y., et al. (2001).
Evaluación de una intervención preventiva para bebés y niños pequeños maltratados en hogares de acogida.
Revista de la Academia Estadounidense de Psiquiatría Infantil y Adolescente, 40, 214–221.
Apéndices
Apéndice A: Lecturas sugeridas
Asociación Estadounidense de Investigación Educativa. (2006). Estándares para informar sobre investigaciones empíricas en
ciencias sociales en publicaciones de AERA. Investigador educativo, 35 (6), 33–40.
Asociación Estadounidense de Psicología (APA). (2010). Manual de publicación de la Asociación Estadounidense de Psicología
Grupo de trabajo de la Junta de Publicaciones y Comunicaciones de la APA sobre estándares de presentación de informes de artículos de revistas.
(2008). Estándares de informes para la investigación en psicología: ¿por qué los necesitamos? ¿Qué podrían
¿ser? Psicólogo estadounidense, 63, 839–851.
Creswell, JW (2009). Diseño de investigación: cualitativa, cuantitativa y mixta (3ª ed.). mil robles,
CA: Sabio.
Fink, A. (2009). Cómo realizar encuestas: una guía paso a paso (4ª ed.). Thousand Oaks, CA: Sage.
Hart, C. (2001). Haciendo una búsqueda bibliográfica: una guía completa para las ciencias sociales. Londres: sabio
Publicaciones Ltd.
Huck, SJ (2008). Lectura de estadísticas e investigación (5ª ed.). Boston: Allyn y Bacon.
Leech, NL, Barrett, KC y Morgan, GA (2008). SPSS para estadística intermedia: uso e interpretación.
ción. Nueva York: Erlbaum, Taylor y Francis Group.
Morgan, GA, Gliner, JA y Harmon, RJ (2006). Comprender y evaluar la investigación en entornos aplicados y clínicos. Mahwah,
Nueva Jersey: Lawrence Erlbaum Associates.
Morgan, GA, Leech, NL, Gloeckner, GW y Barrett, KA (2007). SPSS para introducción a la estadística:
Uso e interpretación. Mahwah, Nueva Jersey: Lawrence Erlbaum Associates.
Morgan, SE, Reichart T. y Harrison TR (2002). De los números a las palabras: presentación de resultados estadísticos para
las ciencias sociales. Boston: Allyn y Bacon.
Newton, RR y Rudestam, KE (1999). Su asesor estadístico: respuestas a sus preguntas sobre análisis de datos.
ciones. Thousand Oaks, CA: Sage.
Nicol, AAM y Pexman, PM (1999). Presentando sus hallazgos: una guía práctica para crear tablas.
Nicol, AAM y Pexman, PM (2003). Mostrando sus hallazgos: una guía práctica para crear figuras, carteles y presentaciones.
y proceso (3ª ed.). Thousand Oaks, CA: Sage.
Vogt, WP (2005). Diccionario de estadística y metodología (3ª ed.). Thousand Oaks, CA: Sage.
Wilkinson, L. y el grupo de trabajo sobre inferencia estadística. (1999). Métodos estadísticos en psicología.
revistas: pautas y explicaciones. Psicólogo estadounidense, 54, 594–604.
421
Apéndice B: Términos confusos
Términos parcialmente similares para conceptos diferentes1 • Alfa de
Cronbach ≠ nivel alfa (significancia) • Chicuadrado para

independencia (dos muestras) ≠ chicuadrado para bondad de ajuste (una muestra) • Variable dependiente
≠ diseño o estadístico de muestras dependientes • Análisis discriminante ≠
evidencia discriminante para la validez de la medición • Factor (es decir, variable
independiente) ≠ análisis factorial • Diseño factorial ≠ evidencia
factorial para la validez de la medición • Variable independiente ≠ muestras
independientes • Niveles (de una variable) ≠ nivel de
medición
• Escala ordinal de medición ≠ interacción ordinal
• Variable de resultado (dependiente) ≠ resultado (resultados) del estudio •

Pregunta de investigación ≠ pregunta o ítem del cuestionario •
Asignación aleatoria de participantes a grupos ≠ asignación aleatoria de tratamientos
a grupos
• Asignación aleatoria (de participantes a grupos) ≠ selección aleatoria (o muestreo de participantes que
se incluirán en el estudio) ≠ orden aleatorio ≠ selección aleatoria de momentos para intervenir
• Diseño de muestras relacionadas ≠ variables que están relacionadas (es decir,

correlacionadas) • Muestras aleatorias ≠ muestras pareadas/relacionadas ≠
muestras independientes • Escala de
medición ≠ una escala de calificación • Diseño de sujetos
únicos ≠ diseño de factor único • Investigación teórica ≠
población teórica • Validez de la medición ≠ validez de la investigación
Términos diferentes para conceptos similares2
Variables (Capítulo 3)
• Variable independiente activa ≈ manipulada ≈ intervención ≈ tratamiento • Variable

independiente de atributo ≈ variable medida ≈ variable de diferencia individual • Cambio en el tiempo ≈
cambio entre ensayos ≈ cambio entre medidas • Variable dependiente ≈ DV ≈ variable de
resultado ≈ criterio • Variable independiente ≈ IV ≈ antecedente ≈
predictor ≈ causa presunta ≈ factor ≈ Nvías (p. ej., bidireccional)
• Niveles (de una variable) ≈ categorías ≈ valores ≈ grupos
423
424 Apéndice B: Términos confusos
Enfoques y preguntas de investigación (Capítulo 4)
• Enfoque asociativo ≈ correlacional ≈ encuesta ≈ descriptivo • Preguntas

asociativas ≈ preguntas correlacionales • Enfoque comparativo
≈ comparativo causal ≈ ex post facto • Enfoque descriptivo ≈ investigación
exploratoria • Preguntas sobre diferencias ≈
comparaciones de grupos
Diseños (Capítulos 5 y 18)
• Entre grupos ≈ muestras independientes ≈ muestras no correlacionadas •

Grupo de comparación ≈ grupo de control •
Diseño factorial ≈ dos o más variables independientes ≈ diseño complejo • Investigación
no experimental (enfoques comparativo, asociativo y descriptivo) ≈ algunos escritores llaman a los
tres descriptivos • Cuasiexperimental diseños con limitaciones
importantes ≈ preexperimentos • Asignación aleatoria a grupos ≈ cómo los sujetos se
integran en los grupos ≈ aleatorización
diseño → alta validez interna
• Experimento aleatorio ≈ experimento verdadero ≈ ensayo clínico aleatorio ≈ ensayos controlados
aleatorios ≈ ECA
• Diseño de factor único ≈ una variable independiente ≈ diseño básico • Dentro

de los sujetos ≈ medidas repetidas ≈ muestras relacionadas ≈ muestras pareadas ≈ emparejadas
grupos ≈ muestras correlacionadas ≈ dentro de grupos ≈ muestras dependientes
Validez (Capítulos 8, 9 y 12)
• Confiabilidad de las mediciones y estadísticas ≈ validez estadística (de conclusión) •

Validez de las mediciones ≈ validez de las pruebas, instrumentos o puntajes ≈ validez
• Validez de las mediciones de los constructos ≈ validez de los constructos
• Asignación aleatoria → validez interna • Muestreo
aleatorio → validez externa • Validez de la
investigación ≈ validez de El estudio
Amenazas a la validez interna (Capítulo 8)

• Amenazas aditivas e interactivas ≈ combinaciones de dos o más amenazas
• Amenaza de desgaste/mortalidad ≈ alta tasa de abandono (del estudio) •

Contaminación ≈ bajo control de variables extrañas
• Amenaza histórica ≈ eventos ambientales extraños • Amenaza

de instrumentación ≈ inconsistencia del observador o instrumento • Amenaza
de maduración ≈ cambios de crecimiento/desarrollo • Grupos no
equivalentes ≈ grupos sesgados ≈ grupos intactos ≈ asignación no aleatoria • Efecto placebo ≈ Efecto
Hawthorne ≈ efecto de expectativa
Apéndice B: Términos confusos 425
• Amenaza de regresión (a la media) ≈ uso de grupos extremos • Amenaza

de selección ≈ autoasignación a grupos ≈ grupos sesgados ≈ no aleatorios
tarea • Prueba
de amenaza ≈ efectos de arrastre
Muestreo (Capítulo 9)
• Población accesible ≈ marco muestral • Muestra real

≈ muestra ≈ muestra final • Muestreo de conveniencia
≈ muestreo no probabilístico ≈ muestreo sesgado • Selección aleatoria ≈ muestreo aleatorio
≈ muestreo probabilístico → alta validez poblacional externa • Tasa de respuesta ≈ tasa de retorno ≈
porcentaje de la muestra
seleccionada que consiente/ participantes • Muestra seleccionada ≈ participantes muestreados • Población
teórica ≈ población objetivo ≈ población de interés
Medición (Capítulo 10)
• Variable categórica ≈ generalmente nominal, pero muchas variables ordenadas que tienen
categorías
concretas • Variable continua ≈ distribución normal ≈ escala de intervalo •
Dicotómica ≈ binaria ≈ variable ficticia ≈ nominal con dos categorías • Escala de intervalo ≈
numérica ≈ variable continua ≈ cuantitativa ≈ datos de escala • Normal ≈ (aproximadamente)
variable distribuida normalmente ≈ datos de intervalo y relación • Escala nominal ≈ variable categórica
desordenada ≈ cualitativa ≈ discreta • Variable ordenada ≈ escala ordinal o de intervalo
• Escala ordinal ≈ escala de intervalos desiguales ≈ variable categórica ordenada discreta •

Propiedades psicométricas ≈ evidencia de confiabilidad y validez de la medición
Fiabilidad de la medición (Capítulo 11)
• Fiabilidad de formas alternativas ≈ formas equivalentes ≈ formas paralelas ≈ coeficiente de

equivalencia
• Confiabilidad de consistencia interna ≈ confiabilidad entre ítems ≈ Alfa de Cronbach •
Confiabilidad entre evaluadores ≈ confiabilidad entre
observadores • Confiabilidad de la medición ≈ confiabilidad ≈ confiabilidad de prueba, instrumento
o puntaje • Confiabilidad de pruebareprueba ≈ coeficiente de estabilidad
Técnicas de recopilación de datos (Capítulo 13)
• Informe del observador ≈ observación del investigador

• Participantes ≈ sujetos •
Cuestionario ≈ encuesta
426 Apéndice B: Términos confusos
• Autoinforme ≈ informe o calificación del participante ≠ observación participante

• Escala sumada ≈ escala agregada ≈ compuesta
Estadísticas (capítulos 16 a 21)
• Hipótesis alternativa ≈ hipótesis de investigación ≈ H1 •

Análisis de varianza (ANOVA) ≈ F ≈ análisis de varianza ≈ F general u ómnubus • Variables
asociadas ≈ relacionar ≈ predecir → correlación o regresión • Estadística
inferencial básica ≈ estadística univariada (una variable independiente [IV] ] y una variable
dependiente [DV]) ≈ también llamada estadística bivarita
• Chicuadrado para independencia ≈ chicuadrado de dos muestras
• Chicuadrado para bondad de ajuste ≈ chicuadrado de una
muestra • Comparar grupos ≈ probar diferencias → t o ANOVA
• Estadística inferencial compleja ≈ estadística multifactorial (más de un IV ) ≈ multi
estadísticas variables (generalmente más de un DV)
• Minería de datos ≈ pesca ≈ espionaje ≈ pruebas de significancia múltiple (sin claridad
hipótesis o teoría)
• Prueba U de MannWhitney ≈ Prueba de Wilcoxon MannWhitney ≠ Prueba de pares emparejados
de Wilcoxon • ANOVA mixto ≈ ANOVA de parcela dividida ≈ a veces llamado ANOVA de medidas
repetidas • Regresión múltiple ≈ regresión lineal múltiple •
Hipótesis nula ≈ H0 • Odds
ratio ≈ O
• Ortogonal ≈ independiente ≈ perpendicular a • Prueba

post hoc ≈ seguimiento ≈ comparaciones múltiples •
Relación entre variables ≈ relación entre variables • ANOVA de medidas
repetidas ≈ ANOVA dentro de los sujetos • Nivel de significancia ≈
nivel alfa ≈ α • Prueba de significancia ≈
hipótesis nula prueba de significancia ≈ NHST • ANOVA de un solo
factor ≈ ANOVA unidireccional
Notas
1. Los términos en cursiva se enumeran alfabéticamente; ≠ significa "no igual a".
2. Los términos se enumeran alfabéticamente dentro de las categorías (por ejemplo, Variables). El término que utilizamos con
más frecuencia aparece a la izquierda. Los términos similares (indicados por ≈) utilizados por otros investigadores y/o por
nosotros se enumeran a la derecha. En algunos casos → se muestra para indicar “conduce a”.
Apéndice C: Glosario
Kathryn Kidd
Resumen: en un artículo de revista, sigue al título y proporciona un resumen del artículo.

Población accesible: El grupo de participantes al que tiene acceso el investigador; también podría ser una
organización o grupo al que el investigador tiene acceso; También se llama población de encuesta o
marco muestral.
Muestreo accidental: consulte Muestreo por conveniencia.
Variable independiente activa: Una variable (p. ej., un taller, un nuevo plan de estudios u otra intervención) de
la cual al menos un nivel se da a un grupo de participantes dentro de un período de tiempo específico
durante el estudio; los estudios experimentales deben tener al menos una variable independiente
activa; También se llama variable independiente manipulada.
Muestra real: Los participantes que completan el estudio y cuyos datos realmente se utilizan en el análisis de
datos y el informe de resultados del estudio.
Diseño de tratamiento alternativo: Diseño que compara el impacto de dos tratamientos diferentes dentro del
marco de diseño de un solo sujeto; También llamado diseño multielemento.
Hipótesis alternativa: Alternativa a la hipótesis nula; ver también Hipótesis de investigación.

Bibliografía comentada: lista de fuentes revisadas con un resumen adjunto de cada una.
fuente; No confundir con una revisión de la literatura o una lista de referencias.
Anonimato: el nombre del participante y otros identificadores, como el número de Seguro Social o de
identificación escolar, no se conocen y ni el investigador ni otras personas pueden deducirlos.
Investigación aplicada: Investigación realizada con la intención de aplicar los resultados a algún problema
práctico particular.
Nivel de medición aproximadamente normal: Valores de una variable donde hay muchos (al menos cinco)
niveles o puntuaciones ordenados, con una distribución de frecuencia de las puntuaciones
aproximadamente normal.
Enfoque asociativo de investigación: Enfoque en el que dos o más variables generalmente continuas, para el
mismo grupo de participantes, están relacionadas o asociadas; A veces también se le llama enfoque
correlacional.
Variable independiente de atributo: una variable independiente que no se puede manipular pero que es un foco
importante del estudio; los estudios que sólo tienen variables independientes de atributos se
denominan estudios no experimentales; También se llama característica o variable independiente
medida.
Desgaste: Ver Mortalidad experimental.
Autoría: Quienes realicen un aporte profesional sustancial al estudio; orden de
la autoría está determinada por la importancia de dicha contribución.
Gráfico de barras: Gráfico de la distribución de frecuencias.
Enfoque cuantitativo básico o de factor único: Enfoque de investigación descriptivo en el que sólo se considera
una variable a la vez, de modo que no se realizan comparaciones ni relaciones estadísticas.
Observación conductual: Observación del comportamiento del participante; forma más común de
Medición en diseños de un solo sujeto.
Curva de campana: consulte Distribución normal.
427
428 Apéndice C: Glosario
Diseño entre grupos: Diseño de estudio donde cada participante en la investigación está en uno
y sólo una condición o grupo.
Bibliografía: Lista de referencias y recursos, incluye referencias adicionales no citadas en
el texto de la revisión de la literatura.
Diagrama de caja y bigotes: Representación gráfica de la distribución de puntuaciones; útil en
distinguir entre datos ordinales y normalmente distribuidos.
Efecto de arrastre: Efecto sobre la variable dependiente que proviene de una intervención anterior.
fase de intervención (es decir, pasar de una fase de intervención a otra).
Casos: Ver Participantes.
Enfoque cualitativo del estudio de caso: Enfoque de investigación cualitativa en el que el objetivo es
desarrollar una comprensión profunda de un caso o casos; los casos deben estar limitados por el tiempo,
lugar o contexto.
Variable categórica: Variable cuyas puntuaciones o valores se miden agrupándolas en un
número limitado de niveles o categorías.
Causación: Evidencia de que la variable independiente causó cualquier cambio o diferencia observado en la variable
dependiente; el objetivo de los estudios experimentales aleatorios y cuasiexperimentales.
Variable característica o característica: Ver Variable independiente de atributo.

Observación clínica: en la investigación, practicar observaciones que conduzcan a un problema de investigación.
o pregunta.
Pregunta cerrada: Pregunta en una encuesta u otra investigación que proporciona todas las respuestas permitidas a
la pregunta (el participante debe seleccionar de la lista proporcionada).
Clústeres: Colecciones o grupos de participantes potenciales para un estudio que no se superponen.
Muestreo por conglomerados: un procedimiento de muestreo probabilístico de dos etapas que es especialmente útil
cuando la población está dispersa geográficamente o cuando no existe una lista global única de individuos
en la población accesible; participantes individuales dentro
un grupo determinado suele estar agrupado geográficamente; La estrategia básica es
Primero seleccione conglomerados específicos de la lista de todos los conglomerados utilizando un muestreo probabilístico.
y luego seleccionar a todos o seleccionar aleatoriamente una proporción específica de participantes de los
grupos seleccionados.
Codificación: Proceso de asignar números a los niveles o valores de cada variable.
Enfoque comparativo de la investigación: Enfoque en el que se hace una comparación entre/
entre unos pocos grupos basándose en una variable independiente de atributo.
Grupo de comparación: Grupo en un estudio experimental que recibe el tratamiento habitual o
un tratamiento diferente al del grupo de intervención y cuyos resultados se compararán con los del grupo
de intervención para determinar el efecto de la intervención sobre las variables dependientes.
Probabilidad condicional: La probabilidad (oportunidad) de que ocurra un evento, dado que

ya ha ocurrido otro evento.
Intervalo de confianza: Rango de valores dentro de los cuales puede caer la media poblacional (u otro parámetro de
interés); El 95% de los intervalos de confianza generados contendrían
la media poblacional real.
Confidencialidad: La información privada sobre los participantes permanecerá privada para el
investigador, y el participante no será identificable en los informes ni en conversaciones con personas
ajenas al equipo de investigación.
Conflicto de intereses: los intereses de los participantes o del investigador están en conflicto (o potencialmente
potencialmente en conflicto) con los intereses del estudio.
Consentimiento: Acuerdo del participante para unirse al estudio; consentimiento voluntario plenamente informado
debe obtenerse antes de comenzar el estudio; ver también IRB.
Apéndice C: Glosario 429
Constante: Característica medida que tiene un solo valor en el estudio.

Constructo: Concepto hipotético que no puede observarse directamente.
Validez de constructo: Un aspecto de la validez de la medición donde el investigador demuestra que el instrumento
(medición de resultados) está midiendo un constructo.
Paradigma constructivista/marco teórico: Formas relacionadas de pensar sobre la investigación donde el conocimiento
se construye a partir de experiencias; también llamado paradigma naturalista o cualitativo; ver también
paradigma.
Contaminación: Ver Control de experiencias extrañas/variables ambientales.
Variable continua: Una variable que tiene un número infinito (o muy grande) de puntuaciones o
valores dentro de un rango.
Grupo control: Grupo en un estudio experimental que no recibe tratamiento y cuyos resultados se compararán con
los del grupo de intervención para determinar el efecto de la intervención sobre las variables dependientes;
También llamado grupo placebo.
Variable de control: Ver Variable extraña.
Control de variables extrañas de experiencia/entorno: Dimensión de validez interna que trata de los efectos de
experiencias o condiciones ambientales extrañas (variables distintas a las independientes o dependientes)
en el estudio; También llamada contaminación.
Muestreo por conveniencia: técnica de muestreo no probabilístico en la que los participantes se seleccionan según
su conveniencia o disponibilidad en lugar de intentar de antemano seleccionar participantes que sean
representativos de la población teórica; También llamado muestreo accidental.
Correlación: estadística que indica la asociación o relación entre puntuaciones de dos variables; puede ser positiva
(relación directa: a medida que una variable aumenta, también aumenta la otra), negativa (relación
inversa: a medida que una variable aumenta, la otra disminuye) o cero (sin relación).
Enfoque correlacional: Ver Enfoque asociativo de la investigación.

Covariables: Ver variable extraña.
Tabulación cruzada: Tabla que proporciona frecuencias (y a menudo porcentajes) para valores de dos variables
categóricas; Forma de presentar datos sobre dos variables para que su relación sea más evidente.
Fabricación de datos: Actividad de investigación poco ética en la que los datos no se recopilan sino que se fabrican.
cated (inventado) por el investigador.
Falsificación de datos: Actividad de investigación poco ética en la que los datos se manipulan o presentan falsamente
para mostrar resultados óptimos en lugar de los realmente observados.
Informe: proceso posterior a la recopilación de datos donde el investigador brinda a los participantes la oportunidad
de compartir inquietudes o intereses con el investigador y donde el investigador brinda a los participantes
información adicional sobre el procedimiento, los recursos o las referencias.
Engaño: Implica una tergiversación de los hechos, por comisión, que se produce cuando el investigador da
información falsa sobre el estudio; si el investigador no informa completamente a los sujetos sobre los
aspectos importantes del estudio o sus objetivos, se ha producido una omisión u ocultamiento .
Grados de libertad: Se refiere al número de piezas de información independientes de los datos recopilados en el
estudio.
Variable dependiente: Una variable que se supone mide o evalúa el efecto de la variable independiente; considerado
como el resultado presunto o criterio de la variable independiente; También llamada variable de resultado.
Enfoque descriptivo de la investigación: Enfoque que responde preguntas descriptivas utilizando únicamente
estadísticas descriptivas, no inferenciales; resume datos de la muestra actual de participantes sin hacer
inferencias sobre la población de interés más amplia; no se hacen comparaciones ni asociaciones; no
tiene una variable independiente.
Nivel dicotómico de medición: los valores de una variable incluyen dos categorías, ya sea
ordenado o desordenado.
Observación directa: el investigador entrena observadores para observar y registrar las conductas de los
participantes en el estudio.
Hipótesis direccional: Hipótesis de investigación alternativa que especifica la dirección de
el efecto; ver también Hipótesis no direccional.
Investigación disciplinada: Ver Investigación.
Sección de discusión: En un artículo o estudio de investigación, la sección cuyo objetivo principal es discutir los
resultados, relacionándolos con la hipótesis/pregunta de la investigación dentro del contexto de la
literatura citada anteriormente.
Abandonos: Ver Mortalidad experimental.
Validez externa ecológica: Grado en el que la investigación puede generalizarse en función del grado en que el
entorno de investigación es similar al entorno natural.
Tamaño del efecto: La fuerza de la relación entre la variable independiente y la variable dependiente, o la
magnitud de la diferencia entre los niveles de la variable independiente con respecto a la variable
dependiente.
Elementos: Ver Participantes.
Equivalencia de grupos según las características de los participantes: el grado en que los grupos que se comparan
en un estudio son equivalentes en todos los aspectos antes de la introducción de las variables
independientes; Se supone que la equivalencia es el caso en experimentos con asignación aleatoria a
grupos y donde el tamaño de cada grupo es de 30 o
más.
Enfoque cualitativo etnográfico: Enfoque de investigación cualitativa que describe un grupo.

de individuos que comparten la misma cultura.
Práctica basada en evidencia: uso de investigaciones basadas en evidencia para informar y mejorar la práctica;
Las decisiones sobre intervenciones en áreas clínicas deben basarse en la solidez de la evidencia.
Literatura existente: La que ya ha sido escrita sobre el tema o cuestión a estudiar; proporciona la base para la
sección de revisión de la literatura.
Mortalidad experimental: Se refiere al fenómeno, generalmente con estudios realizados en el tiempo, donde los
participantes abandonan el estudio; También llamado desgaste o abandono.
Enfoque de investigación experimental: Enfoque de investigación que tiene al menos una variable independiente
activa; Puede ser experimental aleatorio o cuasiexperimental.
Validez externa: aborda la cuestión de la generalización, a qué poblaciones, entornos, variables de tratamiento y
variables de medición se puede generalizar el efecto observado; Tiene tres aspectos: validez externa
poblacional, validez externa ecológica y prueba de subgrupos. Las dos primeras dimensiones examinan
cuán representativos son la población y el entorno de la población objetivo o teórica y de los
procedimientos y el entorno. La tercera calificación evalúa si es probable que los resultados se
generalicen a subgrupos diversos, como ambos géneros.
Variable extraña: Variable que no es de interés en un estudio particular pero que podría influir en la variable
dependiente; también llamadas variables molestas, variables de control o (en algunos diseños)
covariables.
Investigación de campo: Investigación realizada en entornos donde los participantes viven, trabajan o
recibir tratamiento.
Grupo focal: grupos relativamente pequeños de personas entrevistadas juntas.
Distribución de frecuencia: un gráfico que indica cuántos participantes hay en cada
categoría.
Tabla de frecuencias: Tabla que da el número observado en la muestra (frecuencia) para cada valor de la variable; A
menudo también incluye los porcentajes de cada valor y las frecuencias acumuladas y los porcentajes
acumulados.
Enfoque cualitativo de la teoría fundamentada: Enfoque de investigación cualitativa en el que el objetivo es generar
teoría a partir de datos.
Histograma: gráfico de una distribución de frecuencia que conecta los puntos entre los cat
egorías; También llamados polígonos de frecuencia.
Homogeneidad de la varianza: Suposición de que las muestras del estudio tienen la misma variación
entre sus miembros.
Comité de sujetos humanos: Ver IRB (Junta de Revisión Institucional).
Hipótesis: Ver Hipótesis de investigación.
Supuesto de independencia: Supuesto de que, dentro de cada muestra, las puntuaciones de las variables son
independientes entre sí (el desempeño de un participante no afecta el desempeño de ningún otro).
Variable independiente: Una variable que se supone afecta o predice los valores de otra variable; puede ser activo o
atributo; También llamada variable predictora.
Proceso inferencial: Proceso de hacer una inferencia sobre la diferencia entre dos grupos o la relación entre dos
variables.
Estadística inferencial: Conjunto de estadísticas que permiten al investigador realizar generalizaciones.
sobre la población de la muestra estudiada.
Consentimiento informado: Ver Consentimiento.
Efectos de interacción: el efecto diferencial que una variable independiente tiene sobre una variable específica.
nivel de una segunda variable independiente.
Validez interna: Grado en el que el investigador puede inferir que una relación entre variables independientes y
dependientes es causal.
Nivel de intervalo de medición: en los enfoques de medición tradicionales, valores de una variable que son niveles
ordenados en los que la diferencia entre niveles es igual pero no existe el cero absoluto.
Entrevista: Técnica/instrumento de encuesta en el que el investigador (o su designado) hace verbalmente las

preguntas del participante; podrá ser presencial o vía telefónica.
Introducción (de un artículo): En un artículo o estudio de investigación, proporciona una exposición de antecedentes
y una declaración de propósito general de lo que se debe lograr con el estudio.
IRB (Junta de Revisión Institucional): Un grupo que revisa propuestas de estudios con participantes humanos antes
de que pueda comenzar la investigación; el comité tiene el mandato de las regulaciones federales de
proteger a los sujetos humanos y decidir si el plan de investigación ha abordado adecuadamente las
cuestiones éticas relacionadas con el proyecto; También llamado comité de sujetos humanos.
Conocimiento (producción): Investigación que se basa o se suma a la base de conocimientos del

profesión.
Investigación de laboratorio: Investigación realizada en un entorno estructurado y controlado que no es el lugar donde
los sujetos o participantes suelen vivir, trabajar o recibir terapia.
Nivel: Ganancia o pérdida de una fase a otra en diseños de series de tiempo, incluidos los de un solo tema.
diseños; También conocido como cambio de nivel.
Niveles de medición: Tipo de medición de los valores de variables importantes para el cálculo de determinadas
estadísticas; los niveles tradicionales incluyen nominal, ordinal, de intervalo y de razón; aquí llamado
nominal, dicotómico, ordinal y aproximadamente normal (o normalmente distribuido); ver cada término.
Niveles de la variable: Ver Valores de la variable.

Interés limitado: Se refiere a la probable naturaleza esotérica del tema de un estudio, uno que sea de
interés para una audiencia pequeña y/o limitada.
Revisión de literatura: Interpretación de una selección de documentos (publicados o no publicados) sobre un
tema específico que implica resumen, análisis, evaluación y síntesis de los documentos.
Variable independiente manipulada: Ver Variable independiente activa.

Revisión enmascarada (ciega): Revisión de un manuscrito o propuesta donde los autores están
desconocido para los críticos.
Emparejamiento: Proceso utilizado para hacer que los grupos sean equivalentes en función de algunas
características; las características que coinciden deben estar relacionadas con la variable dependiente.
Media: Medida de tendencia central calculada dividiendo la suma de las puntuaciones individuales o brutas de la
muestra por el número de observaciones de la muestra; También conocida como media aritmética.
Variable independiente medida: Ver Variable independiente de atributo.

Medición: La asignación de números o símbolos a los diferentes niveles o valores de variables según reglas.
Error de medición: La diferencia entre la puntuación real y la puntuación observada.

Fiabilidad de la medición: consistencia de una medida.
Validez de la medición: Grado en el que una medida o prueba mide lo que se pretendía.
para medir.
Mediana: Medida de tendencia central que es el punto medio de las puntuaciones individuales o brutas de la
muestra.
Medidas de tendencia central: Estadísticas que miden el centro de distribución de los datos observados; Incluye
media, mediana y moda.
Medidas de asociación: Pruebas estadísticas que describen la correlación entre
variables.
Medidas de variabilidad: Estadísticas que miden la dispersión (o extensión) de los datos observados; La medida
más común es la desviación estándar.
Metanálisis: Síntesis de investigación de un conjunto de estudios que utiliza una medida cuantitativa, el tamaño
del efecto, para indicar la fuerza de la relación entre el tratamiento u otra variable independiente y las
variables dependientes.
Sección de método: en un artículo o estudio de investigación, indica al lector exactamente qué se hizo en el
estudio y, por lo tanto, le permite replicar el estudio en condiciones idénticas; generalmente dividido
en subsecciones de participantes, instrumentos/materiales, procedimiento y diseño/análisis.
Diseño mixto: Estudio que tiene al menos una variable independiente entre grupos y al menos una variable
independiente dentro de los sujetos.
Estudio de métodos mixtos: Estudio de investigación que utiliza metodologías tanto cualitativas como
cuantitativas. Común en la investigación de evaluación de programas.
Moda: Medida de tendencia central que es igual a las puntuaciones individuales o brutas que son más frecuentes
en los datos.
Mortalidad: Ver Mortalidad experimental.
Diseño multielemento: Ver Diseño de tratamiento alterno.
Diseño de líneas de base múltiples: Diseño de un solo sujeto donde normalmente se registran tres
líneas de base simultáneamente (pueden ser tres participantes diferentes, tres
comportamientos diferentes del mismo participante o el mismo participante en tres entornos
diferentes).
Diseño de series temporales de grupos múltiples: diseño cuasiexperimental en el que se determina
que una línea de base es estable antes de una intervención (a través de múltiples pruebas
previas) para que el investigador pueda concluir que el cambio en la variable dependiente
se debe a la intervención y no a otros. factores ambientales y hay un grupo de comparación
que recibe el mismo número de mediciones pero no recibe la intervención.
Enfoque cualitativo narrativo: Enfoque de investigación cualitativa que explora la vida de un individuo;
el objetivo es identificar y reportar historias de los participantes.
Nivel nominal de medición: los valores de una variable incluyen tres o más
categorías (las definiciones tradicionales requieren dos o más categorías; usamos
dicotómicas para dos).
Hipótesis nula distinta de cero: una hipótesis nula expresada como una diferencia distinta de cero.
En aplicaciones prácticas, donde la hipótesis nula podría expresarse como una cierta
cantidad de diferencia entre las medias de las dos poblaciones, para rechazar la hipótesis
nula, el grupo de tratamiento tendría que exceder al grupo de control en una cantidad
necesaria. para marcar una diferencia funcional.
Hipótesis no direccional: Hipótesis de investigación alternativa que establece simplemente que existe
una relación entre las variables activas independientes y dependientes y no especifica la
naturaleza (dirección) de esa relación; ver también Hipótesis direccional.
Enfoques de investigación no experimentales: enfoques de investigación con al menos una variable

independiente de atributo y ninguna variable independiente activa.
Pruebas estadísticas no paramétricas: Estadísticas inferenciales que se utilizan cuando los datos no
cumplen el supuesto de normalidad.
Muestreo no probabilístico: Selección de participantes en la que no hay forma de estimar la
probabilidad que tiene cada participante de ser incluido en la muestra; Se utiliza cuando las
muestras probabilísticas no son factibles.
Asignación no aleatoria a grupos: Asignación de participantes a grupos (es decir, grupos
experimentales versus grupos habituales o sin tratamiento) mediante algún proceso distinto
de la asignación aleatoria.
Curva normal: Ver Distribución normal.
Distribución normal: Distribución de probabilidad de la población; la distribución normal es unimodal;
la media, la mediana y la moda son iguales; la curva es simétrica; el alcance es infinito; la
curva no tiene curtosis; también llamada curva normal o campana
curva.
Supuesto de normalidad: Asume que las puntuaciones de la variable se distribuyen normalmente en
cada una de las poblaciones de las que se extraen las muestras.
Nivel de medición normalmente distribuido: consulte Nivel de medición aproximadamente normal.
Hipótesis nula: Hipótesis que establece que las medias poblacionales de dos o más muestras son
iguales (p. ej., la variable independiente activa no tiene impacto sobre la variable dependiente).
Prueba de significancia de hipótesis nula: utilización de estadísticas inferenciales para probar si

Rechazar o no rechazar la hipótesis nula.
Variable molesta: consulte Variable extraña.
Observaciones: Ver Participantes.
Puntuación observada: Cualquier puntuación que se obtiene de cualquier participante en un determinado

instrumento.
Pregunta abierta: Pregunta de encuesta que permite al participante construir su
propia respuesta.
Definición operativa de variable: Describe o define una variable en términos de las operaciones o técnicas
utilizadas para hacerla realidad o medirla.
Variable ordenada: Variable que tiene un conjunto de valores que varían de bajo a alto dentro de un cierto
rango, de modo que un valor mayor de la variable indica más que un valor menor de la variable, y
se supone que hay o podrían existir. ser un conjunto infinito de valores dentro del rango.
Nivel ordinal de medición: los valores de una variable incluyen tres o más niveles ordenados,
pero la distribución de frecuencia de las puntuaciones no se distribuye normalmente.
Variable de resultado: Ver Variable dependiente.
Valor atípico: puntuaciones o valores de una variable fuera del rango esperado (generalmente extremos).
puntuaciones).
Prueba de lápiz y papel: prueba que se aplica a los participantes en la que se les pide que utilicen papel y
lápiz para responder las preguntas.
Paradigma: una forma de pensar y realizar una investigación; es una filosofía que orienta cómo se puede
realizar la investigación.
Pruebas estadísticas paramétricas: estadísticas inferenciales que asumen que los datos se distribuyen
normalmente y cumplen con otros supuestos.
Parafrasear: utilizar las ideas de otra persona pero reformularlas con las propias palabras del escritor; el
investigador debe citar la fuente del trabajo parafraseado.
Participantes: Quienes sean objeto de estudio en la investigación; generalmente individuos, pero pueden
ser, por ejemplo, pequeños grupos, organizaciones o comunidades; También llamados casos,
observaciones, elementos o sujetos.
Observación participante: El investigador observa a los sujetos de estudio como participante en
el grupo.
Informe de participante: Información proporcionada directamente por los participantes en el estudio.
Revisión por pares: el artículo fue evaluado por otros expertos (pares) en el campo, generalmente sin
saber quién era el autor del artículo (es decir, revisión enmascarada o “ciega”).
Enfoque cualitativo fenomenológico: Enfoque de investigación cualitativa que ayuda a los investigadores a
comprender el significado que los participantes dan a, por ejemplo, eventos, fenómenos o
actividades.
Gráfico circular: Representación gráfica circular de los grupos (valores) de una variable; especialmente
efectivo con datos categóricos con algunas categorías.
Estudio piloto: proceso formal de recopilación de datos con una muestra similar al estudio de investigación
planificado antes de la recopilación de datos real para el estudio; Es especialmente importante
proporcionar evidencia sobre la confiabilidad y validez de las medidas de resultado.
Prueba piloto: Ver estudio piloto.
Grupo placebo: Ver grupo de control.
Plagio: Usar palabras o ideas de otro sin citar la fuente.
Población: El grupo más grande de interés para el estudio y del cual se obtiene la muestra.
dibujado.
Validez externa de la población: examina qué tan representativa es la población de la población objetivo o
teórica; responde a las preguntas: ¿La población accesible era representativa de la población
teórica? ¿La muestra seleccionada fue representativa de la población accesible? ¿Y la muestra
real fue representativa frente a la muestra seleccionada?
Paradigma pospositivista/marco teórico: una forma de pensar y conducir

investigación cuantitativa; ver también paradigma.
Postest: Medición de la variable dependiente tomada posteriormente a la intervención;
Se utiliza para determinar el cambio en la variable dependiente debido a la intervención (variable
independiente).
Relevancia práctica: La medida en que la pregunta de estudio/investigación tiene importancia y
Aplicaciones prácticas para profesionales en el campo.
Importancia práctica: consulte Relevancia práctica.
Variable predictora: consulte Variable independiente.
Pretest: Medición de la variable dependiente tomada antes de la intervención; solía hacerlo
establecer una línea de base.
Fuente primaria: una fuente original de datos, resultados de estudios; fuente preferida para la literatura
revisión de la situación.
Privacidad: Se refiere a la preocupación de los participantes por controlar el acceso a la información sobre
ellos mismos; consulte también Anonimato, Confidencialidad y Consentimiento.
Muestreo probabilístico: Implica la selección de participantes de manera imparcial; en un
muestra probabilística cada participante o elemento de la población tiene una
probabilidad distinta de cero de ser elegido para ser miembro de la muestra; Se basa en una selección
aleatoria o sistemática de participantes.
Muestreo intencionado: tipo de estrategia de muestreo en la que el investigador define cómo
se seleccionan los casos y se incluye una justificación para ello; se aplica tanto a la selección del
casos a estudiar y al muestreo de información utilizada dentro de los casos.
Muestreo intencional: técnica de muestreo no probabilístico en la que los participantes participan
seleccionados de la población accesible para que presumiblemente sean representativos o típicos de la
población.
Análisis de datos cualitativos: Implica varios métodos para codificar, categorizar y asignar significado a los datos, que
generalmente son palabras o imágenes.
Datos cualitativos y recopilación de datos: datos y procedimientos de recopilación de datos que son más
“subjetivos”, en el sentido de que diferentes personas podrían interpretarlos de manera diferente;
generalmente recopilados a partir de entrevistas, observaciones o documentos narrativos.
Investigación cualitativa: uno de los cinco principales enfoques de investigación no experimental: fenómenos
enológica, teoría fundamentada, etnográfica, estudio de caso y narrativa.
Análisis de datos cuantitativos: implica varios métodos para codificar, categorizar y
asignar significado a los datos, que suelen ser numéricos y que normalmente
implican el cálculo de medidas estadísticas.
Datos cuantitativos y recopilación de datos: los datos y los procedimientos de recopilación de datos generalmente se
recopilan con algún tipo de instrumento que pueda calificarse numéricamente, de manera confiable y
con relativamente poca formación.
Investigación cuantitativa: Conjunto de enfoques de investigación que pueden analizarse numéricamente.
Enfoque cuasiexperimental de la investigación: Enfoque en el que hay una variable independiente activa pero sin
asignación aleatoria de participantes a grupos.
Cuestionario: Instrumento de encuesta que el participante completa por sí mismo;
Puede ser en papel y lápiz o en línea.
Muestreo por cuotas: Técnica de muestreo no probabilístico en la que el investigador establece ciertos
parámetros para la selección de participantes a partir de los cuales se deben determinar ciertas proporciones.
Ser obtenido.
Asignación aleatoria: se crea una tabla aleatoria de números (u otro proceso aleatorio similar).
Se utiliza para asignar a cada participante a un grupo.
Asignación aleatoria de participantes a grupos: consulte Asignación aleatoria.
Asignación aleatoria de tratamientos: se utiliza en estudios cuasiexperimentales donde no es posible la

asignación aleatoria de participantes a grupos; en cambio, el tratamiento (experimental, habitual
o ninguno) se asigna aleatoriamente a los grupos.
Muestreo aleatorio: Selección de la población de interés de los participantes del estudio mediante una
técnica de selección aleatoria para que la muestra sea representativa de todos los posibles
participantes que se ajusten a los criterios de selección.
Selección aleatoria de participantes que se incluirán en un estudio: consulte Muestreo aleatorio.
Enfoque experimental aleatorio de investigación: Enfoque en el que hay una asignación aleatoria de los
participantes a los grupos de intervención y de comparación, y una variable independiente activa
o manipulada.
Rango: Distancia entre los valores observados más bajo y más alto de una variable.
Nivel de medición de la relación: en los enfoques tradicionales, los valores de una variable que son
niveles ordenados y que tienen un cero absoluto.
Lista de referencias: Lista, al final del artículo, que proporciona información completa de citas para
cada publicación citada en el texto del artículo.
Diseño de medidas repetidas: Ver Diseño intrasujetos.
Muestra representativa: muestra que es una pequeña réplica de la población; tiene, en todas las variables
clave, las mismas proporciones que en el conjunto de la población; Lo más probable es que se
obtenga utilizando técnicas descritas como muestreo probabilístico.
Investigación: método disciplinado para obtener nueva información, desarrollar conocimientos o responder
preguntas; también llamada investigación disciplinada; Implica una investigación sistemática con
pautas subyacentes independientemente del paradigma de investigación particular.
Hipótesis de investigación: Enunciados predictivos sobre la relación entre variables.

Problema de investigación: El problema de investigación expondrá los fenómenos a estudiar, los
curiosidad sobre "por qué algo es como es".
Pregunta de investigación: similar a la hipótesis de investigación, pero no implica predicciones específicas
sobre la relación y está redactada en formato de pregunta.
Validez de la investigación: el mérito de todo el estudio (a diferencia de la validez de la medición de una
variable); Incluye confiabilidad de medición y estadística, validez interna, validez de medición
general de los constructos y validez externa.
Respeto a las personas: Principio ético que incorpora dos convicciones éticas: (1) que los participantes
deben ser tratados como agentes autónomos, lo que significa que el individuo es capaz de
deliberar y tomar decisiones y elecciones individuales; y (2) que las personas con autonomía
disminuida, como los niños, los discapacitados del desarrollo y las personas con trastornos
emocionales, tienen derecho a una protección especial.
Tasa de respuesta: proporción de participantes potenciales seleccionados que realmente participan en el

estudio; Se utiliza con mayor frecuencia en estudios de encuestas.
Sección de resultados: Sección de un artículo o estudio de investigación que proporciona un resumen de los
análisis que se realizaron sobre los datos recopilados.
Diseños invertidos: el tipo original y más común de diseño de un solo tema; a menudo denominados diseños
ABAB, donde A se refiere a períodos de referencia y B se refiere a períodos de intervención.
Muestra: Término general para la parte seleccionada de un grupo más grande de participantes potenciales
tomado con la intención de generalizar del grupo o muestra más pequeño a la población teórica.
Muestreo: Proceso de seleccionar parte de un grupo más grande de sujetos con la intención de generalizar
de la muestra a la población.
Diseño muestral: El procedimiento o proceso utilizado para seleccionar la muestra; Hay dos tipos generales de diseño
de muestreo, probabilístico y no probabilístico.
Marco muestral: Ver Población accesible.
Mala conducta científica: Comportamiento poco ético por parte de los investigadores.
Fuente secundaria: Fuente que proporciona datos o información no originales (es decir, de segunda mano).
Muestra seleccionada: el grupo más pequeño de participantes que el investigador selecciona de la población accesible
más grande y les pide que participen en el estudio.
Muestreo aleatorio simple: la más básica de las técnicas de muestreo probabilístico; Muestra en la que todos los
participantes tienen iguales e independientes posibilidades de ser incluidos en la muestra.
Diseños de series temporales de un solo grupo: diseños cuasiexperimentales que involucran a un solo grupo en el que
se determina que una línea de base es estable (mediante múltiples pruebas previas) antes de una intervención
para que el investigador pueda concluir que el cambio en la variable dependiente se debe a la intervención y
no otros factores ambientales.
Diseños de un solo sujeto: una subcategoría de diseños de series temporales cuasiexperimentales que
Se puede utilizar con uno o varios participantes.
Pendiente: El ángulo de los puntos de datos dentro de una fase particular de un diseño de un solo tema;
También conocido como cambio de pendiente.
Diseño Solomon de cuatro grupos: Diseño factorial experimental 2 × 2 donde un grupo de intervención recibe la prueba
previa mientras que el otro grupo de intervención no la recibe y un grupo sin intervención recibe la prueba
previa mientras que el otro no; El interés está en los efectos de realizar una prueba previa sobre la prueba
posterior más que en las puntuaciones de la prueba previa en sí.
Tabla de origen: la tabla generada en el análisis de varianza que enumera las sumas de las desviaciones al cuadrado de
la media de cada grupo, los grados de libertad para cada grupo, los cuadrados medios de cada grupo y la
relación F.
Muestreo de bola de nieve: Modificación del muestreo por conveniencia que se utiliza cuando los participantes de
interés pertenecen a una población que es rara o al menos cuyos miembros son desconocidos para el
investigador; Se identifican algunos participantes y luego se les pide que recomienden participantes potenciales
adicionales que también encajen en la misma categoría.
Desviación estándar: Medida de variabilidad para datos distribuidos normalmente.
Error estándar de la media: Desviación estándar de la distribución de las medias muestrales.
Inventarios de personalidad estandarizados: Pruebas estandarizadas que miden algunos rasgos o características de la
personalidad.
Pruebas estandarizadas: Pruebas que siguen pautas específicas. Todos los participantes realizan la prueba en las
mismas circunstancias. La mayoría de las pruebas estandarizadas tienen un manual.
Significancia estadística: La probabilidad de que la diferencia entre el parámetro de la población y la estadística de la
muestra haya ocurrido por casualidad en un nivel menor que el nivel de significancia predeterminado,
suponiendo una hipótesis nula verdadera.
Pasos en la planificación de la investigación: El proceso de investigación incluye pasos: (a) identificar el problema de
investigación; (b) desarrollar hipótesis o preguntas de investigación; (c) desarrollar un diseño de investigación;
d) recopilación y análisis de datos; (e) hacer inferencias o interpretaciones; y (f) decidir si las hipótesis deben
rechazarse o no.
Estratos: Variables que podrían usarse para dividir la población en segmentos (p. ej., raza, geografía).
región gráfica, edad o sexo).
Muestreo aleatorio estratificado: Técnica de muestreo probabilístico en la que se divide la población en segmentos en
función de variables clave, muestreando a partir de cada valor de la variable clave.
Temas: Ver Participantes.

Escalas de actitudes sumadas (Likert): método desarrollado por Likert como una forma de medir actitudes
sobre grupos, instituciones o conceptos particulares; El término escala Likert se utiliza de dos
maneras: para la escala sumada y para los ítems individuales o escalas de calificación a partir de
las cuales se calcula la escala sumada.
Encuesta: Metodología de investigación en la que generalmente se pide a un gran número de participantes
que respondan una serie de preguntas; Puede ser una entrevista o un cuestionario, abierto o
cerrado, o alguna combinación.
Población encuestada: Ver Población accesible.
Muestreo aleatorio sistemático: Técnica de muestreo probabilístico en la que se utiliza una tabla de
números aleatorios para seleccionar al primer participante en el estudio, luego cada participante
posterior se selecciona sistemáticamente a intervalos regulares; Se debe considerar si la lista de
participantes potenciales está ordenada de alguna manera (es decir, tiene algún patrón recurrente)
que tendrá un efecto diferencial en la muestra resultante dependiendo de dónde comenzó el
investigador.
Población objetivo: Incluye todos los participantes de interés teórico para el investigador y a los que le
gustaría generalizar.
Importancia teórica: la medida en que las preguntas de investigación se derivan de la literatura o teoría
utilizada para respaldar su importancia.
Población teórica: Ver Población objetivo.
Teoría: Afirmación o grupo de afirmaciones que explica y predice relaciones entre fenómenos; un conjunto
de conceptos, definiciones y postulaciones interrelacionados que presentan una visión sistemática
de los fenómenos al especificar relaciones entre variables.
Desarrollo de la teoría: Uno de los propósitos de la investigación, sustentar las bases teóricas del
disciplina.
Título (de un artículo): Los títulos de los artículos deben ser breves pero deben ser un punto de venta para
el artículo, deben dar una idea del tema y captar el interés del lector.
Error tipo I: Rechazar la hipótesis nula cuando, en realidad, es cierta.
Error tipo II: No rechazar la hipótesis nula cuando es falsa.
Categorías o niveles desordenados de una variable: Los valores de la variable no están ordenados, es decir
es decir, ningún valor es más o menos que otro.
Variables desordenadas: Variables nominales en las que los valores o niveles de la variable no están
ordenados; ver también Nivel nominal de medición.
Validez: Término general para el grado en que la medición o estudio mide lo que
pretende medir.
Validez de la medida: Ver Validez de la medida.
Etiqueta de valor: Títulos o nombres dados a los diferentes valores de una variable.
Valores de la variable: Diferentes características, respuestas y medidas posibles para una determinada
variable.
Variabilidad: la dispersión de los puntos de datos dentro de cualquier fase particular del estudio (es decir,
línea de base o intervención).
Variable: Característica de los participantes o situación de un estudio determinado que tiene diferentes
valores; una variable debe tener valores diferentes en el estudio o es una Constante.
Etiqueta de variable: Título o nombre dado a una variable.
Interés generalizado: una pregunta o hipótesis de investigación que es de interés para gran parte de la
profesión o campo de práctica.
Diseño intrasujetos: Diseño de estudio en el que cada participante en la investigación recibe o experimenta
todas las condiciones o niveles de la variable independiente para completar el estudio; También
llamados diseños de medidas repetidas.
Apéndice D: Investigación escrita

Problemas y preguntas
Marcos para plantear problemas de investigación Una
definición común de un problema de investigación es una declaración que pregunta qué relación existe
entre dos o más variables, pero la mayoría de los problemas de investigación son más complejos de lo
que implica esta definición. El problema de investigación debe ser un enunciado amplio, tal vez
utilizando términos resumidos que representen varias variables, que cubra varias hipótesis o preguntas
de investigación más específicas. En la siguiente sección se proporcionan varias formas de plantear el
problema de investigación.
Formato
Una forma de plantear el problema es la siguiente:
El problema de investigación es investigar si (ponga la variable independiente 1 o grupo de variables aquí), (la variable
independiente 2, si la hay, aquí) y (la variable independiente 3, si la hay) están relacionadas con (la variable dependiente
1, aquí), y (variable dependiente 2, si corresponde) en (población aquí).
Todos los estudios tienen varias variables; Excepto en un estudio totalmente descriptivo, una o más
generalmente se denominan variables independientes o predictoras y una o más son variables
dependientes o de resultado. Puede haber dos o más de cada uno, y a menudo los hay. En el
planteamiento del problema, a diferencia de las preguntas/hipótesis de investigación, es deseable
utilizar descriptores amplios para grupos de variables similares. Por ejemplo, la demografía podría
cubrir varias variables como el género, la educación de la madre y el origen étnico. El rendimiento del
curso puede incluir puntuaciones en elementos de prueba basados en conferencias y en elementos
basados en texto. Asimismo, las actitudes podrían referirse a más de una variable. Conceptos como
autoestima o estilo de enseñanza tienen varios aspectos que suelen derivar en más de una variable.
Ejemplos
Si su estudio utiliza el enfoque experimental aleatorio, podría formular el problema de la siguiente

manera:
El problema de la investigación es investigar el efecto de las lecciones de música sobre el coeficiente intelectual y el
rendimiento académico en niños de 6 años (como en el estudio de muestra 1, Schellenberg, 2004).
Para estudios que comparan grupos o asocian/relacionan variables, se podría formular la

problema de la siguiente manera:
439
440 Apéndice D: Problemas y preguntas de investigación de redacción
El problema es investigar si la edad está relacionada con el funcionamiento físico, la salud mental y la calidad de
vida en personas con esclerosis múltiple (como en el estudio de muestra 3, DiLorenzo, Halper y Picone, 2004).
Si tiene varias variables independientes y desea predecir algún resultado, podría decir:
El problema es investigar los antecedentes y las variables relacionadas con el curso que predicen o parecen influir
en el rendimiento en los exámenes en un curso universitario de psicología (como en el estudio 4, Zamboanga et
al., 2007).
Este último formato es especialmente útil cuando el enfoque es asociativo complejo (varias variables independientes) que
utilizará regresión múltiple.
Marco para formular preguntas/hipótesis de investigación Aunque está bien formular un
problema de investigación experimental aleatorio (en el formato del primer ejemplo) como un “estudio del efecto de…”,
creemos que generalmente es mejor formular sus preguntas de investigación o hipótesis para que no parezcan implicar causa
y efecto (es decir, como preguntas/hipótesis de diferencia o asociación y/o como preguntas descriptivas ). Las primeras se
responden con estadística inferencial y las preguntas descriptivas con estadística descriptiva. Hay varias formas razonables
de plantear las preguntas de investigación. En las siguientes secciones, mostramos una forma, que nos ha parecido útil, de
plantear cada tipo de pregunta.
Preguntas descriptivas Preguntas
descriptivas básicas Estas preguntas
tratan sobre algún aspecto de una variable. Las preguntas descriptivas preguntan sobre la tendencia central, la distribución
de frecuencia, el porcentaje en cada categoría, la variabilidad o la forma de la distribución. Algunas preguntas descriptivas
tienen como objetivo probar suposiciones; algunos simplemente describen los datos demográficos de la muestra; otros
describen una variable dependiente. Algunos ejemplos son los siguientes:
1. ¿El rendimiento de las pruebas del curso se distribuye aproximadamente con normalidad?
2. ¿Qué porcentaje de participantes es de cada género?

3. ¿Cuáles son la media y la desviación estándar de las puntuaciones de rendimiento?
4. ¿Qué porcentaje de participantes mantuvo en secreto su estado serológico respecto del VIH ante su familia? (como
en estudio 5)
Preguntas descriptivas complejas Estas
preguntas tratan de dos o más variables a la vez, pero no implican estadísticas inferenciales. Son ejemplos las tabulaciones
cruzadas de dos variables categóricas, el análisis factorial y las medidas de confiabilidad (p. ej., el alfa de Cronbach). Un
ejemplo es el siguiente:
¿Cuál es la confiabilidad de la consistencia interna de los elementos del examen basado en conferencias? (ver
estudio 4, Zamboanga et al., 2007)
Apéndice D: Problemas y preguntas de investigación de redacción 441
Preguntas/hipótesis de diferencia
El formato es el siguiente:
¿Existen diferencias entre los niveles de (inserte el número) de (ponga aquí el nombre de la variable
independiente) (podría nombrar los niveles aquí entre paréntesis) con respecto a las puntuaciones
promedio (ponga aquí el nombre de la(s) variable(s) dependiente(s)?
Un ejemplo es el siguiente:
¿Existen diferencias entre los cuatro niveles de lecciones (piano, voz, teatro y ninguna lección) con
respecto al coeficiente intelectual promedio y los puntajes de rendimiento de los niños? (ver estudio 1,
Schellenberg, 2004)
Análisis apropiados: Se podría utilizar un análisis de varianza unidireccional (ANOVA) o una prueba t si
solo hubiera dos niveles de la variable independiente (ver Capítulo 20).
Preguntas complejas sobre diferencias e interacción Cuando se
consideran juntas dos variables independientes categóricas, se obtienen tres preguntas o hipótesis de investigación. Hay ventajas
de considerar dos o tres variables independientes a la vez. Consulte el Capítulo 21 para obtener una introducción sobre cómo
interpretar la pregunta de interacción . Los formatos de muestra para un conjunto de tres preguntas respondidas mediante un
ANOVA bidireccional son los siguientes:
1. ¿Existe alguna diferencia entre (inserte los niveles de la variable independiente 1) con respecto a las puntuaciones
promedio (ponga aquí la variable dependiente 1)?
2. ¿Existe alguna diferencia entre (insertar los niveles de la variable independiente 2) con respecto
con las puntuaciones promedio (variable dependiente 1)?
3. ¿Existe una interacción de (variable independiente 1) y (variable independiente 2) con respecto a (variable dependiente
1)?
(Repita estas tres preguntas, para la segunda variable dependiente, si hay más de
uno.) A continuación se muestran algunos ejemplos :
1. ¿Existe alguna diferencia entre los estudiantes que reciben lecciones de música y los estudiantes de control?
niños con respecto a sus puntuaciones de coeficiente intelectual? (ver estudio 1, Schellenberg, 2004)
2. ¿Existe alguna diferencia entre las puntuaciones previas y posteriores a la prueba con respecto a las calificaciones de los niños?
coeficiente intelectual promedio?
3. ¿Existe una interacción entre el tipo de lecciones y el tiempo (antes versus después) en
con respecto al coeficiente intelectual?
Tenga en cuenta que la primera pregunta establece los niveles o categorías de la primera variable independiente; es decir,
establece los grupos que se van a comparar (lecciones de música versus estudiantes de control).
La segunda pregunta hace lo mismo con la segunda variable independiente; es decir, establece los niveles (pretest y postest) a
comparar. Sin embargo, la tercera pregunta (la interacción) pregunta si la primera variable en general (tipo de lecciones) interactúa
con la segunda variable (tiempo). En la pregunta de interacción no se hace mención de los niveles de las variables.
Un análisis apropiado: ANOVA factorial (ver Capítulo 22).

442 Apéndice D: Problemas y preguntas de investigación de redacción
Preguntas/hipótesis de asociación/relación
Preguntas asociativas básicas
Cuando ambas variables son ordenadas y esencialmente continuas (es decir, tienen cinco o más categorías
ordenadas), consideramos que el enfoque y la pregunta de investigación son asociativos. Hay dos tipos
principales de estadísticas asociativas básicas: correlación y regresión. El formato para
una correlación es la siguiente:
¿Existe una asociación (o relación) entre (variable 1) y (variable 2)?
En este caso, es arbitrario qué variable es independiente (o antecedente) y cuál es

dependiente o resultado. Un ejemplo de una sola asociación o relación es el siguiente:
¿Existe una asociación entre el GPA anterior y el número de cursos de psicología anteriores (como en el estudio
4)?
Si hay más de dos variables, lo cual es común, y cada par de variables está asociado por separado, puede
tener una serie de preguntas sobre si existe una asociación entre cada variable y todas las demás variables.
Esto produciría una matriz de correlación (ver Capítulo 21).
Un ejemplo que produciría una matriz de correlación es el siguiente:
¿Existen asociaciones entre los puntajes del ACT, el GPA anterior y la cantidad de cursos de psicología anteriores?
(ver estudio 4, Zamboanga et al., 2007)
Nótese que lo que se dice que está asociado en estas preguntas es la variable misma; no hombre
Aquí se hace referencia a los niveles o valores.
Si una variable es claramente independiente o predictora, formularía la pregunta como
sigue y utiliza análisis de regresión bivariados :
En el estudio 2, ¿podemos predecir el total de puntos del examen (la variable dependiente) a partir del tiempo
dedicado a las pruebas (la variable independiente)?
Análisis apropiados: regresión bivariada, si hay una variable independiente o antecedente clara y se desea hacer
una predicción (ver Capítulo 22); correlación si no hay una variable independiente clara (ver Capítulo 21).
Preguntas asociativas complejas En el
enfoque asociativo, cuando dos o más variables independientes se consideran juntas, en lugar de por separado,
como en el formato asociativo básico anterior , se obtiene una pregunta asociativa compleja. El formato se
puede expresar de la siguiente manera:
¿Qué tan bien predice (ponga aquí la variable dependiente) la combinación de (enumere aquí las diversas variables
independientes específicas)?
Un ejemplo es el siguiente:
¿Qué tan bien predice el desempeño en los exámenes la combinación de puntajes ACT, GPA previo y número de
cursos de psicología previos? (ver Zamboanga et al., 2007)
Un análisis apropiado: regresión múltiple (ver Capítulo 22).

Apéndice E: Preguntas para

Evaluación de la validez de la investigación
A continuación se enumeran las 19 preguntas que utilizamos para (a) describir el diseño y los métodos de un estudio
(preguntas 1 a 8); (b) evaluar las ocho dimensiones clave de la validez de la investigación (preguntas 9 a 16); y (c)
evaluar otras tres cuestiones amplias e importantes sobre el estudio (preguntas 17 a 19).
Análisis del diseño y métodos.

Variables y sus niveles de medición
1. ¿Cuáles son las variables clave independientes/antecedentes/predictoras ? Para cada uno:

(a) ¿Es una variable independiente activa, de atributo o que cambia en el tiempo? (b) ¿Cuál
es el número de niveles/categorías de la variable independiente? (c) ¿Cuál es el nivel de
medición (nominal, dicotómico, ordinal o aproximado)?
matemáticamente normal) de la variable independiente?
2. ¿Cuáles son las variables dependientes o de resultado clave ? Para cada uno, ¿cuál es el nivel de
¿medición?
3. ¿Cuáles son las principales preguntas o hipótesis de investigación?

4. ¿Cuál es el enfoque de investigación (es decir, descriptivo, asociativo, comparativo, cuasi
experimental y/o experimental aleatorio) para cada pregunta?
5. ¿Cuál es la clasificación general del diseño si el enfoque es experimental aleatorio, cuasiexperimental o
comparativo?
6. ¿Cuál es el nombre del diseño experimental específico si el enfoque es experimental aleatorio?
¿mental o cuasiexperimental?
Fiabilidad y validez de la medición para cada variable clave
7. ¿Es aceptable la confiabilidad de la medición para cada variable clave? (a)

¿Qué tipos de evidencia de confiabilidad se presentan? (b) ¿Es aceptable
la evidencia o el respaldo de cada variable clave?
8. ¿Es aceptable la evidencia de la validez de la medición para cada variable clave?
(a) ¿Qué tipos de evidencia para respaldar la validez de la medición se reportan? (b) ¿Es
aceptable la evidencia o el respaldo de cada variable clave?
443
444 Apéndice E: Preguntas para evaluar la validez de la investigación
Evaluación de las cuatro dimensiones clave de la validez de la investigación

Fiabilidad general de las mediciones y estadísticas
9. ¿Cuál es la calificación general de confiabilidad de las mediciones y estadísticas? Base la calificación

y comentarios sobre lo siguiente: (a)
¿Es aceptable la confiabilidad general de la medición de las variables? (b) ¿Es
apropiado el poder? (c) ¿Es
apropiada la elección o el uso de estadísticas? (d)
¿Existe una presentación adecuada de los resultados estadísticos, incluido el tamaño del efecto?
(e) ¿Es apropiada la interpretación de los resultados estadísticos?
Validez interna
10. ¿Cuál es la evaluación de la equivalencia de los grupos en cuanto a las características de los
participantes? Base la calificación y los
comentarios en: (a) ¿Hubo una asignación aleatoria de los participantes a los
grupos? (b) Si no hubo asignación aleatoria, ¿los participantes de cada grupo fueron emparejados,
estadísticamente similares o se encontró que eran similares en una prueba previa? Si se realizó
una asignación aleatoria, (b) y (c) deben calificarse como sí.
(c) Si no hubo asignación aleatoria, ¿los participantes de cada grupo fueron emparejados, similares
estadísticamente o se encontró que eran similares en otras características clave de los participantes
(por ejemplo, edad, sexo o coeficiente intelectual)?
(d) ¿La retención (baja deserción) de los sujetos durante el estudio fue alta y similar?
entre grupos?
11. ¿Cuál es la evaluación del control de experiencias y entorno extraños?
variables?
(a) ¿Se realizó el estudio en un ambiente controlado? (b) ¿Tenían los

grupos entornos equivalentes? (c) ¿Hubo un grupo de
comparación sin tratamiento (placebo) o con tratamiento habitual? d) ¿Hubo intentos adecuados
de reducir otras influencias extrañas?
Validez de medición general de los constructos
12. ¿Cuál es la evaluación de la validez de constructo de la intervención? Si no hay ninguna variable

independiente activa, esta pregunta se omite por no ser aplicable. (a) ¿La intervención
(variable independiente activa) está operacionalmente definida e implementada apropiadamente, con
base en un cuerpo existente de investigación empírica o teórica?
(b) ¿Se describe la intervención con suficiente detalle para poder replicarla? (c) ¿Existe
un control o verificación de manipulación para asegurarse de que la intervención
¿Se presentó según lo planeado?
Apéndice E: Preguntas para evaluar la validez de la investigación 445
13. ¿Cuál es la evaluación general de la validez de constructo de las medidas de resultado?

(variables dependientes) y cualquier atributo de variables independientes? (a)
¿Se han utilizado las medidas con participantes similares? (b) ¿Se presenta
evidencia adecuada de la validez de los resultados basada en investigaciones empíricas o teóricas
existentes? (c) ¿Existe evidencia adecuada de
la validez de las variables independientes del atributo?
presentado?
Validez externa
14. ¿Cuál es la evaluación de la validez externa de la población general? Base la calificación

sobre las respuestas a lo siguiente:
(a) ¿Era la población accesible representativa de la población teórica? (b) ¿La muestra seleccionada
fue representativa de la población accesible? (c) ¿Fue la muestra real representativa frente a
la muestra seleccionada? Es decir, ¿fue aceptable la tasa de respuesta?
15. ¿Cuál es la evaluación de la validez externa ecológica general? La calificación es

Residencia en:
(a) ¿El entorno (o las condiciones) es natural y representativo del establecimiento del objetivo? (b) ¿Es
buena la relación con los evaluadores u observadores? (c)
¿Son los procedimientos o tareas naturales y representativos de los conceptos conductuales de interés?
(d) ¿Son apropiados
el momento y la duración del tratamiento o intervención? (NA si no es un experimento porque no se realiza
ninguna intervención) (e) ¿Se aplicarán los resultados a más del
momento específico de la historia en el que se realizó el estudio?
se hizo?
16. ¿Cuál es la evaluación del grado en que se probaron o compararon importantes subgrupos de
participantes? (a) ¿Se analizan
o comparan las diferencias de género? (b) ¿Se analizan o
comparan dos o más grupos étnicos o raciales? (c) ¿Se analizan o comparan dos o
más grupos de edad? (d) ¿Se comparan otros subgrupos importantes
(por ejemplo, culturas o regiones geográficas)?
Otros asuntos
17. ¿Hubo una revisión por pares adecuada?
18. ¿Los autores presentan adecuadamente los argumentos a favor de la importancia teórica o la relevancia
práctica de sus preguntas y diseño de investigación?
19. ¿Los autores interpretan adecuadamente sus hallazgos? Es decir, ¿el título, el resumen y la discusión
fueron claros y precisos (o exagerados y engañosos) dada la evaluación de los diversos aspectos de la
validez de la investigación?
Apéndice F: Hacer psicológico americano

Tablas y figuras de asociación
Don rápido
En la mayoría de los campos de estudio se utilizan tablas y figuras para proporcionar una presentación
visual de información importante. Se utilizan para organizar los resultados estadísticos de un estudio,
enumerar información tabulada importante y permitir al lector un método visual para comparar elementos relacionados.
Las tablas ofrecen una manera de mostrar información que sería difícil describir brevemente en el texto.
Una figura puede ser casi cualquier cosa que no sea una tabla, como un cuadro, un gráfico, una
fotografía o un dibujo lineal. Estas figuras pueden incluir gráficos circulares, gráficos de líneas, gráficos de
barras, organigramas, diagramas de flujo, diagramas, planos o mapas. A menos que la figura pueda ilustrar
claramente una comparación que una tabla no puede, utilice una tabla. Una buena regla es utilizar una tabla
cuando solo hay números y palabras, y utilizar figuras para otras presentaciones visuales.
El significado y el enfoque principal de la tabla o figura deben ser evidentes para los lectores sin que
tengan que realizar un estudio exhaustivo de la misma. Un vistazo debería ser suficiente para transmitir al
lector la idea de lo que representa la tabla o figura. Al leer sólo el texto en sí, el lector puede tener dificultades
para comprender los datos; Al construir tablas y figuras bien presentadas, los lectores podrán comprender
los resultados del estudio más fácilmente.
El propósito de este apéndice es proporcionar pautas que mejorarán la presentación de los resultados de
la investigación y otra información mediante el uso de tablas y figuras. Destacará los aspectos importantes
de la construcción de tablas y figuras utilizando el Manual de publicaciones de la Asociación Estadounidense
de Psicología, quinta edición (2001) como guía para el formato.
Consideraciones generales sobre las tablas Sea selectivo en
cuanto a cuántas tablas se incluyen en el documento total. Determine cuántos datos necesita el lector para
comprender el material y luego decida si la información se presentaría mejor en el texto o en una tabla. Una
tabla que contenga sólo unos pocos números es innecesaria, mientras que una tabla que contenga
demasiada información puede no ser comprensible. Las tablas deben ser fáciles de leer e interpretar. Si es
posible, combine tablas que repitan datos.
Mantenga la coherencia en todas sus tablas en todo el documento. Todas las tablas y figuras de su
documento deben utilizar un formato similar, con los resultados organizados de manera comparable. Utilice
la misma medida o escala de designación en todas las tablas, figuras y texto. Cada tabla y figura debe ser
comentada en el texto. Una tabla informativa complementará pero no duplicará el texto. En el texto, analice
sólo las partes más importantes de la tabla.
Asegúrese de que la tabla se pueda entender por sí sola sin el texto que la acompaña; sin embargo, nunca
es independiente del texto. Debe haber una referencia en el texto a la tabla.
447
448 Apéndice F: Elaboración de tablas y figuras de la Asociación Estadounidense de Psicología
En un manuscrito final, como una tesis o disertación, ajuste los encabezados de las columnas o el espacio entre
columnas para que el ancho de la tabla se ajuste adecuadamente entre los márgenes.
Coloque todo cada cuadro en una sola página. Reduzca los datos, cambie el tamaño de la letra o reduzca el
interlineado para que se ajusten. Una tabla corta puede estar en una página con texto, siempre y cuando siga a la
primera mención del mismo. Cada tabla larga debe caber en una página lo más cerca posible de donde se menciona
en el texto. Si desea mejorar el ajuste y la apariencia, gire la mesa hacia un lado (orientación horizontal, con la parte
superior de la mesa hacia el lomo) en la página.
Construcción de la mesa
La tabla F.1 es un ejemplo de una tabla de la Asociación Estadounidense de Psicología (APA) para mostrar datos
descriptivos simples recopilados en un estudio. También aparece en correcta relación con el texto del documento;
es decir, se inserta debajo del lugar donde se menciona por primera vez la tabla, ya sea en la misma página, si
cabe, o en la página siguiente. (La Figura F.1 muestra la misma tabla con las partes identificadas). Las partes
principales de una tabla son el número, el título, los encabezados, el cuerpo y las notas.
Numeración de tablas
Los números arábigos se utilizan para numerar las tablas en el orden en que aparecen en el texto. No escriba en el
texto “la tabla de la página 17” ni “la tabla de arriba o de abajo”. El método correcto sería hacer referencia al número
de la tabla de esta manera: (Tabla 1) o “La Tabla 1 muestra…” Justifique a la izquierda el número de la tabla
(consulte la Tabla F.1). En un artículo, cada tabla debe estar numerada secuencialmente según el orden de
aparición. No utilice letras de sufijo con los números de tabla en los artículos. Sin embargo, en un libro, las tablas
pueden estar numeradas dentro de los capítulos (por ejemplo, la Tabla 7.1). Si el cuadro aparece en un apéndice,
identifíquelo con la letra del apéndice en mayúscula, seguida del número del cuadro; por ejemplo, la Tabla F.3 es la
tercera tabla del Apéndice F.
Títulos de tabla
Incluya las variables, los grupos sobre quienes se recopilaron los datos, los subgrupos y la naturaleza de la
estadística reportada. El título y los encabezados de la tabla deben describir de manera concisa lo que contiene la
tabla. Las abreviaturas que aparecen en el cuerpo de la tabla a veces pueden
Cuadro F.1
Medias y desviaciones estándar de la medida de autodirección en el
aprendizaje en función de la edad en estudiantes adultos
Puntuación del inventario de
aprendizaje autodirigido
Grupo de edad norte METRO Dakota del Sur
20–34 15 65,05 3,50

35–49 22 88,13 6,31
50–64 14 79,33 5,63
65–79 7 56,67 7,15
80+ a . .— —
Nota: La puntuación máxima es 100. a No se
encontraron participantes para el grupo de mayores de 80 años.

Apéndice F: Elaboración de tablas y figuras de la Asociación Estadounidense de Psicología 449
Número de mesa Título
tabla 1
Medias y desviaciones estándar de la medida de autodirección en

Llave de columna
El aprendizaje en función de la edad en estudiantes adultos
Columna corta Puntuación de inventario
Encabezamientos
Grupo de edad norte METRO Dakota del Sur
Usar horizontal 20–34 15 65.05 3.50

líneas bajo el
35–49 22 88.13 6.31 Celúla
título, encabezados
y el cuerpo; 50–64 14 79,33 5.63
pero no vertical
Cuerpo
líneas. 65–79 7 56,67 7.15
80+ a
Notas
Nota. La puntuación máxima es 100.
a
No se encontraron participantes para el grupo de mayores de 80 años.
Figura F.1
Las partes principales de una tabla APA.
explicarse en el título; sin embargo, puede ser más apropiado utilizar una nota general (ver
también comentarios sobre los títulos de las tablas). El título debe estar en cursiva. Formato APA estándar
para el envío de revistas se requiere doble espacio. Sin embargo, las tablas en estudiante
Los trabajos y tesis pueden estar parcialmente a espacio simple para una mejor presentación.
Encabezados de tabla
Los títulos se utilizan para explicar la organización de la tabla. Puede utilizar abreviaturas en
los títulos; sin embargo, incluya una nota sobre su significado si utiliza mnemónicos, variables
nombres y acrónimos de escala. Abreviaturas y símbolos estándar para términos no técnicos
se puede utilizar sin explicación (p. ej., no. para número o % para porcentaje). Tener título preciso,
encabezados de columna y etiquetas de fila que sean precisos y breves. Cada columna debe tener un
encabezado, incluida la columna auxiliar o la columna situada más a la izquierda. Su título se conoce como el
cabeza dura. La columna de resguardo generalmente enumera las variables independientes significativas o los niveles
de la variable, como en el Cuadro F.1.
Los encabezados de columna cubren una columna y los conectores de columna cubren dos o más columnas, cada una
con su propio encabezado de columna (Tabla F.1 y Figura F.1). Encabezados apilados
de esta manera se llaman cabezas cubiertas. Esta es una buena manera de eliminar la repetición en la columna.
encabezados, pero trate de evitar el uso de más de dos niveles de encabezados. Los encabezados de columna, los tramos
de columna y los encabezados de columna deben ser singulares, a menos que se refieran a un grupo (p. ej.,
niños). Las llaves de mesa que cubren toda la mesa pueden ser múltiples. Utilice mayúsculas en las oraciones en todos los
títulos.
Observe que no hay líneas verticales en una tabla de estilo APA. Las líneas horizontales pueden ser
agregado mediante el uso de una función de "dibujo" o una función de "bordes" para tablas en la palabra de computadora
procesador.
El cuerpo de la mesa
El cuerpo contiene los datos reales que se muestran. Los números redondos mejoran la legibilidad y la claridad más que los
números precisos con varios decimales. una buena pauta
es reportar dos dígitos más que los datos sin procesar. Un lector puede comparar números en una columna
más fácilmente que en una fila. Los promedios de columnas y filas pueden proporcionar un enfoque visual que
permite al lector inspeccionar los datos fácilmente sin saturar la tabla. Si una celda no se puede completar
porque la información no es aplicable, déjela en blanco. Si no se puede completar porque no se pudo obtener la
información o no se informó, inserte un guión y explique el guión con una nota en la tabla.
Notas a una tabla
Las notas se utilizan a menudo con tablas. Hay tres formas diferentes de notas que se utilizan con las tablas: (1)
para eliminar repeticiones en el cuerpo de la tabla; (2) para desarrollar la información contenida en una celda
en particular; o (3) para indicar significación estadística:
• Una nota general proporciona información relativa a la tabla en su conjunto, incluidas explicaciones de
las abreviaturas utilizadas:
Nota: Esto podría usarse para indicar si la tabla proviene de otra fuente.
• Una nota específica hace referencia a una fila, columna o celda específica de la tabla y recibe una letra
minúscula en superíndice, comenzando con la letra “a”: • an = 50. Las notas específicas
se identifican en el cuerpo con el superíndice correspondiente . • Se incluirá una nota de probabilidad
cuando se hayan calculado uno o más estadísticos inferenciales y no haya una columna que muestre la
probabilidad, p. Los asteriscos indican la importancia estadística de los hallazgos presentados en la
tabla. Intente ser coherente en todas las tablas de un artículo. Lo importante es utilizar la menor
cantidad de asteriscos para obtener el valor p más grande . Es común utilizar un asterisco para .05 y
dos para .01. Por ejemplo:
*p < .05.
**p < 0,01.
Las notas deben enumerarse primero con notas generales y luego con notas específicas y deben concluir
con notas de probabilidad, sin sangría. Podrán estar a espacio simple para una mejor presentación. Explique
todos los usos de guiones y paréntesis. Las abreviaturas de términos técnicos, nombres de grupos y aquellos
de naturaleza similar deberán explicarse en una nota a la tabla.
Ejemplos de algunas tablas en formato APA Las
tablas F.2 a F.5 y la figura F.2 están adaptadas de SPSS for Introductory Statistics (Morgan et al., 2007).
Usando figuras
Generalmente se aplican a las figuras los mismos conceptos que se han expuesto anteriormente respecto de las
tablas: Deben ser fáciles de leer e interpretar, consistentes en todo el documento al presentar el mismo tipo de
figura, mantenerse en una sola página si es posible, y complementar la
Apéndice F: Elaboración de tablas y figuras de la Asociación Estadounidense de Psicología 451
Cuadro F.2
Análisis de chicuadrado de la prevalencia de la realización de geometría entre los hombres

y hembras
Geometría
Variable No tomado Tomado Totales 2

pag
Género 12.71 <.001

Machos 10 (29%) 24 (71%) 34 (100%)
Hembras 29 (71%) 12 (29%) 41 (100%)
Cuadro F.3
Intercorrelaciones, medias y desviaciones estándar para cuatro logros

Variables (N = 75)
Variable 1 2 3 4 METRO Dakota del Sur
1. Visualización — .36** .13 .42** . . 5.24 3.91

2. Matemáticas del SAT — — .37** .79** 490.53 94,55
3. Grados — — — .50** . . 5.68 1,57
4. Rendimiento en matemáticas. — — — 12.56 6.67
*p < .05.
**p < 0,01.
Cuadro F.4
Comparación de estudiantes masculinos y femeninos de secundaria en cuanto a rendimiento en matemáticas

Prueba, calificaciones y prueba de visualización (n = 34 hombres y 41 mujeres)
Variable METRO Dakota del Sur t df pag
Logro matemático 2.70 73 .009

Machos 14.76 6.03
Hembras 10,75 6.70
Los grados –.90 73 .369
Machos 5.50 1,64
Hembras 5.83 1,52
Visualización 2.39a 57.2a .020
Machos 6.43 4.47
Hembras 4.26 3.11
a La t y la gl se ajustaron porque las varianzas no eran iguales.
Cuadro F.5
Análisis unidireccional de la variación de las calificaciones en la escuela secundaria según la educación del padre
Fuente df SS EM F pag
Entre grupos 2 18.14 9.07 4.09 .02
Dentro de grupos 70 155,23 2.22

Total 72 173,37
20 Media = 490,53
estándar. Desarrollo. = 94.553
norte = 75
15
aicneucerF
10
0
200 300 400 500 600 700 800
Prueba de aptitud escolar Matemáticas
Nota: El número de la figura está en cursiva pero el texto del título no.
Además, el texto del título está escrito en mayúsculas y minúsculas. En APA, todos los
subtítulos se enumeran en una página separada, pero para los trabajos y tesis de los
estudiantes, colóquelos debajo de la figura.
Figura F.2
Gráfico de barras de frecuencia de las puntuaciones de matemáticas del Scholastic Aptitude Test.
texto o tabla que lo acompaña. Existen numerosos tipos de figuras; sin embargo, algunas cosas concuerdan con
todas las cifras. El número de figura y la descripción del título se encuentran debajo de la figura, y la descripción,
similar a la del título de una tabla, es lo suficientemente detallada como para que la figura pueda entenderse sin
el texto que la acompaña. Además, al igual que las tablas, las figuras deben mencionarse por número en el texto
antes de presentarlas, y los puntos clave deben describirse brevemente en el texto (Figura F.2). Algunas
precauciones al utilizar figuras son las siguientes:
1. Hazlo simple. Deben evitarse diagramas complejos que requieran explicaciones extensas a menos
que sean parte integral de la investigación.
2. Utilice un número mínimo de cifras sólo para los puntos importantes. Si se utilizan demasiadas cifras,
se pueden perder puntos importantes.
3. Integrar texto y figura. Asegúrese de que la figura complemente y mejore el texto que la acompaña.
Índice de materias
A Estadísticas inferenciales asociativas, 38–39, 46,

275–277, 281–283, 400
Resumen de un artículo, 342, 362, 392, 398, 407, 427, 447
Enfoque de investigación asociativa, 10–13, 45–51, 91–95,
345, 427 evaluación
Población accesible, 116–126, 132, 231–232, 425, 427; ver
de, 104–105, 351–353, 375–377
también Población y
Hipótesis o preguntas de investigación asociativa, 39–40, 49, 95,
Validez
344 preguntas básicas,
externa del muestreo, 128–129, 357–359
39–40, 305–314 preguntas complejas, 95,
estudios de muestra, 369, 372, 374, 377, 379
282–283, 329–334
Muestreo accidental, 125, 427
Supuestos, ver Supuestos estadísticos
Pruebas de rendimiento, 7, 145, 179–180, 187, 476; ver
Escalas de actitud, 176, 182, 218
también instrumentos estandarizados
diferencial semántico, 183
Variable independiente activa, 10–15, 34–36, 40–41, 45–
sumadas o Likert, 182–183, 438
49, 274, 344–345, 355–356, 423, 427; ver
Atributo variable independiente, 10–11, 34–36,
también Medición de enfoques
49–53, 91–94, 423–427
experimentales,
evaluación, 103–104, 345–352, 355–356 estudios
140 diseños
de muestra, 373–374, 376–377 estadísticas,
cuasiexperimentales, 60–61 diseños
263, 276–277, 292, 296, 323–324
experimentales aleatorios, 64 estudios de muestra,
Desgaste/mortalidad, 57, 105–107, 351–352, 368–369,
11–12, 368, 370, 375 diseños de un solo
371–373, 424; ver también Amenazas a la validez
sujeto, 73–74
interna
Muestra real, 116–118, 132, 196, 425, 427 evaluación
de, 128–131, 357–359, 434 tasa de respuesta, Autoría, 404–405, 427; ver también Publicación
117 estudios de muestra,

369, 372, 377, 379 B
Alfa
Se requiere alfa de Cronbach, 158–159, 168, 218–223, 423, 425 Gráfico de barras, 141, 314–315, 427
para que sea significativo, 234–240, 245, 350, 423, 426 Diseños, análisis e interpretación asociativos básicos (bivariados),
39–40, 95, 279–282, 305–314, 442
Fiabilidad de formas alternativas, consulte Fiabilidad de

V de Cramer, 281–282, 287
formas paralelas
Diseños de tratamiento alternativos, 78–79 regresión lineal, 145, 306, 309, 334
Hipótesis alternativa, 230–231, 233–238, 243, 426, 427 Correlación momentoproducto de Pearson (r), 146, 281–
282, 308–309, 315 coeficiente
Análisis de covarianza, 104, 328, 373. phi, 251–252, 281–282, 312, 314–315
Análisis de varianza (ANOVA), 292–294, 321–329; ver
también ANOVA de factor único, Tau de Kendall, 281–282, 305, 308–310
ANOVA de dos factores, ANOVA mixto Correlación de orden de clasificación de Spearman (rho), 146,
Investigación con animales, 199–200 149, 281–282, 308–309, 315
Bibliografía comentada, 28, 393, 427 Preguntas de diferencias básicas, análisis e

Anónimo, 194, 201–202, 205, 405 interpretación de datos, 39–40, 279–282, 289–
Variable antecedente, ver Variable independiente 300, 441 Análisis
Investigación aplicada, 6, 14, 56, 363, 427 de diseños de un solo factor (entre grupos), 82, 268–269,
Distribución aproximadamente normal, 137–141, 278, 282– 277, 280, 327, 423–424. . ANOVA
284, 330–331, 425, 427
Prueba de aptitud, 180, 187; ver también estandarizado unidireccional de KruskalWallis por rangos, 295, 301,
instrumentos 328. . Prueba U de Mann
StanfordBinet, 180 Whitney para independientes
Wechsler, 12, 155, 180, 368 muestras, 282, 295, 426
453
454 Índice de materias
. . ANOVA de factor único, prueba t de 82 Importancia clínica o práctica, 254, 258, 401, 435
para muestras independientes, 234, 280, 289–293,
371 Análisis de Diseño de asignación aleatoria por conglomerados, 71, 384, 387
diseños de medidas repetidas de factor único, 295–300. . Muestreo por conglomerados, 121–122, 428
ANOVA de dos vías Colaboración Cochrane, 254, 386, 388.
de Freidman, 298. . Prueba de McNemar, 298. . Prueba Cochran Q, 280, 282
ANOVA de factor único con Libro de códigos, 212, 215, 217
medidas repetidas, 297–298. . prueba t para muestras Codificación de datos, ver codificación de datos.
dependientes o pareadas, Coeficiente de equivalencia, ver Fiabilidad de formas
paralelas
296–297 Coeficiente de estabilidad, consulte Fiabilidad testretest
. . Texto de pares emparejados de rangos con signo de D de Cohen , 238–239, 322–323
Wilcoxon, kappa de Cohen, 160
298 Pregunta de investigación básica, ver Preguntas o hipótesis Cohen sobre los tamaños del efecto, 171–173, 252–253, 308,
de investigación 349, 401–402
Observación del comportamiento, ver Curva de Enfoque de investigación comparada, 10–12, 50–54, 89–96,
campana de 176, 275–277, 424, 428 evaluación
observación, 427 Beneficios de la investigación, ver de, 103–105, 345–346, 351–353, 384–385
Participantes
humanos de la investigación Diseño entre grupos, 261–266, estudios de muestra, 12, 373–375, 380
277, 301, 424, 428 Grupo de comparación, 56–60, 63–67, 270–271, 326–
diseños factoriales, 268–269, 272, 278, 319–324, 328, 424, 428
368 Preguntas, análisis e interpretación asociativos complejos, 279,
diseños de factor único, 268, 289–295, 370 283–284, 329–334, 442
Sesgo, consulte Muestra no probabilística,
Recopilación de datos y Validez interna. análisis discriminante, 282–283, 333, 423
Bibliografía, 397, 407, 428; ver también bibliografía comentada regresión logística, 282–283, 333–335 regresión
múltiple, 38–40, 282–284, 329–333, 375–376, 426 estudio
Correlación/regresión bivariada, 146, 281, 330, de muestra, 92,
442 375–376
Revisión ciega, ver revisión por pares Preguntas, análisis e interpretación de diferencias complejas,
Procedimiento de Bonferroni, 293, 295, 297 278–279, 283, 319–329, 441
Diagrama de caja y bigotes, 428
Diseño factorial mixto (de parcelas divididas), 325–326
C Diseños de grupos de comparación pretestpostest, 58–61,

65–69, 264–265, 270–271, 326–329
Correlación canónica, 284
Efectos de arrastre, 66–67, 106, 158, 260, 299 estudio de muestra, 11–12, 48–49, 368–370
Enfoque cualitativo del estudio de caso, 96–98, 428 análisis de varianza de dos factores entre grupos,
Variable categórica, ver Medición 319–325 dentro de los
Causalcomparativo, ver Enfoque de investigación comparativo. sujetos de dos factores (medidas repetidas), 325
Causalidad, 35, 101–102, 104, 309, 351, 428 Pregunta de investigación compleja, consulte Preguntas
Causa y efecto, 10, 34, 101–102, 351–353, 440; ver también o hipótesis de investigación.
Causalidad y variable independiente Variable compuesta, ver Análisis factorial y
escalas likert
Cambio en el tiempo variable independiente, 264–265, Evidencia concurrente para la validez de criterio, ver
267, 270, 326–327, 423 Validez de la medición
Comprobación de datos, consulte Comprobación de datos Probabilidad condicional, 241, 428
Prueba de independencia de chicuadrado, 280–283, 309– Intervalos de confianza, 155–156, 247–250, 291–292, 308, 401–
314, 423, 426 tamaño 402, 428
del efecto, 252 Confidencial, 184, 194, 196, 200–205, 428
Cita, ver publicación Análisis factorial confirmatorio, 220
Índice de materias 455
Conflicto de intereses, 194, 406, 428 D

Consentimiento, consulte la junta de revisión institucional y
d (índice de tamaño del efecto), 238, 251–254, 294, 368, 371
Consentimiento informado voluntario
Constante, 33, 218, 277, 378, 429
Verificación de datos, 204, 213–
Construir, 23, 158–160, 167–168, 220–223, 429
217 codificación, 139, 204, 211–
Validez de constructo, 165–168, 170, 341, 355–356,
213, 428 recopilación, 8, 20, 175–186, 204–205, 210–213,
369–380, 424, 429; ver también Validez de la
396, 425–426
medición y Validez de la investigación.
definiendo y etiquetando las variables, 215
Paradigma constructivista, 6–9, 14, 17, 51, 96, 429; ver
también Investigación cualitativa mostrando el diccionario o libro de códigos, 212,
215
Consumidor de la investigación, ver Validez de la
investigación y Evaluación de entrada, 216–
217 errores, 184, 204, 216–217,
Contaminación, 104–106, 353, 369, 371, 424, 429
348 fabricación, 204,
429 falsificación,
Evidencia de contenido para la validez, 165–167, 209,
347 Variable continua, consulte el grupo 204 pautas para la codificación de datos, 211–213
Control de medición, 48–49, 64–69, 71, 109, Reducción de datos: aplicación de confiabilidad
199, 352 – y validez de las mediciones, 218–223
353, 429 . . estudios de muestra, 11–12, 153–154, desarrollo de escalas sumadas o agregadas,
222–223
232–233, 265,
368–369 Control de variables extrañas, 104– análisis factorial exploratorio, 220–222
106, 351–353, 369–380, 424, 429; ver Informe, 198–199, 203–204, 429
también Validez Engaño, 192, 197–198, 429
Definiciones de investigación, 3–4
interna Muestra de conveniencia, ver Muestreo
no Grados de libertad (gl), 399–400, 429 prueba
probabilístico Evidencia convergente para la validez, de chicuadrado, 311, 313
170–172, 349 Enfoque correlacional, ver Enfoque Correlación productomomento de Pearson, 306
asociacional ANOVA de un solo factor, 293–294
Correlación, 144–146, 156–160, 171–172, 252–253, prueba t para muestras independientes,
305–309, 330, 429 291 prueba t para muestras pareadas, 296,
total de ítems corregido, 219 299–300 ANOVA de dos factores,
intervalo de confianza, 308 321–322 ANOVA de dos factores con medidas repetidas,
tamaño del efecto, 325
307–308 intraclase (ICC), 160 Variable dependiente, ver Variable
Tau de Kendall, 281, 308, 310 Enfoque de investigación descriptivo, 10–11, 15, 50–53,
matriz, 219–221, 307, 442 90–91, 176, 424, 430
Pearson, 146, 149, 251–253, 281–285, 305–307, estudios de muestra, 13, 91, 186, 377–380
401–402 Preguntas de investigación descriptiva, 39–40, 95–96
fi, 281, 312 Estadísticas y gráficos descriptivos, 8, 11, 90–91,
Spearman, 146, 149, 281–282, 308–309 141–146, 148–149, 216–223, 440
significación estadística, 306–307 gráficos descriptivos, 141
Covariables, 36, 395, 429 medidas de asociación entre dos
Cramer V, 281–282, 287 variables.
Evidencia relacionada con el criterio para la validez, 165– .
tablas de tabulación cruzada, 146 .

166, 168–170, 172–173, 306, 347– .
Correlaciones de Pearson y Spearman, 146.

349 evidencia concurrente para la validez del .
diagramas de dispersión,
criterio, 169–170 144–145 medidas de tendencia central, 142–
evidencia predictiva de validez de criterio, .
143. cálculo de la media, 142–143

169 medidas de variabilidad, 143–144.
Variable de criterio, ver Variable .
cálculo de la desviación estándar, 143144

Alfa de Cronbach, ver Alfa
Diseño cruzado, 67–69, 270–271, 325 Clasificación de diseño, ver Clasificación
Tabulación cruzada, 146, 149 general de diseño.
Terminología de diseño, consulte Diseño general. cuasi experimentos, 103

clasificación estudios de muestra, 368, 371, 373, 376, 378
Nivel dicotómico de medición, 138–140, 148–150, 343– Eta2, 252,294
344, 425, 430 Cuestiones éticas, 191–205, 402–406; ver
Variables dicotómicas, 159–160, 252–253, 282– también Junta de revisión institucional (IRB)
283, 333–334 Informe Belmont, 192193. .
Hipótesis o preguntas de diferencia, 39–40, 53–54, beneficencia, 193 . .
95, 275–280, 424 justicia, 193 . .
Estadísticas inferenciales de diferencias, 39, 279–283, 401, respeto por las personas, 193 historia
441 de, 191–192 plagio,
factorial (complejo), 281, 283, 319–329 factor 403 principios y
único (básico), 280–283, 289–300 políticas, 192–196 privacidad, 194
Hipótesis direccional, 230–231, 237–238, 240, 430; ver publicación,
también Hipótesis alternativa 402–405 revisión, 405–
Dirección del efecto, 39, 348, 400–401, 430 406 mala conducta
Observación directa, ver Observación. científica, 406–407 Enfoque
Variable discreta, ver Medición etnográfico cualitativo, 97, 198, 430 Evaluación
Análisis discriminante, 282–283, 333
Evidencia discriminante de validez, 170171, 423 marcos, 11, 341–343, 443–446 Evaluación de la validez
externa, 128–
Sección de discusión de un artículo, 332, 362, 396, 400, 131, 357–360 validez interna, 103–106,
402, 430 350–353 confiabilidad de las mediciones
Abandonos, ver Desgaste y Amenazas a la validez interna y estadísticas, 349–350 confiabilidad de las
mediciones
Variable ficticia, 139–140, 425; ver también de variables clave, 171–172 , 346–348 validez de
Variable dicotómica la medición, 171,
347–349,
355–357
mi
estudios de muestra, 367–
Validez externa ecológica, ver Validez externa 380 diseños de un solo sujeto, 80–83
Práctica basada en evidencia, 383–389
Tamaño del efecto, 148, 171–172, 250–254, 349– Estudios de ejemplo, consulte Estudios de muestra
350, 399–402, Enfoques experimentales, 10, 45–49, 51–53, 55–69,
430 d medidas familiares, 251–252, 254, 291–292, 323 73–84, 175–176
eta, 251, 294, 298, 322 Mortalidad experimental, ver Desgaste.
interpretación, 253– 254 Análisis factorial exploratorio, 167–168, 171, 220–
metanálisis, 83–84, 254–257, 385 odds 223, 284, 347, 423
ratios (OR), 252, 312–313 phi, 251, Validez externa, 128–131, 231–232, 258, 357–360,
309–312 potencia, 384–385, 424, 430
237–240 r medidas ecológico, 129–130, 358–360, 430
familiares, 251–252, 307–308 riesgo relativo , evaluación de, 128–131, 343, 357–360, 362–
252, 312 diferencia de 363
riesgo, 252, 312–313 índice de población, 128–129, 357–359, 434
riesgo, 252, 312 estudios de muestra, 369–370, 372, 374–375 , 377,
medidas de potencia de riesgo, 379, 380
252 estudios de muestra en, 368, 370–371, 373, 375 diseños de un solo sujeto, 83
Igualdad de varianzas, ver Homogeneidad de pruebas de subgrupos de participantes, 360
varianza Variable extraña, ver Variable
Equivalencia de grupos según las características
de los participantes, 103–107, 351–352, 430;
F
ver también Estudios
asociativos de validez interna, Estadístico F (...relación), ver Análisis de varianza
104 estudios comparativos, 103–104 Factor, ver Variable independiente
Análisis factorial I
análisis factorial confirmatorio, 220 análisis
Independencia, asunción de, 264, 279, 289, 297, 321, 431
factorial exploratorio, 167–168, 220–223, 284, 347, 423
Muestras independientes, ver Diseños entre grupos

ANOVA factorial, ver ANOVA de dos factores
Diseño factorial, 36, 268, 269, 319–329, 423, 424
Variables independientes, 10–11, 17, 34–37, 45–51, 261–
análisis de, 281, 283, 319
270, 276–277, 343–345 activas,
clasificaciones de, 268–269, 278, 345–346, 368
10, 34–37, 46–49, 74–79, 271, 355–356, 423, 427
Evidencia factorial de validez, ver Estructura interna de validez
atributo,
de medición
10, 34–37, 49–50, 89–96, 263–264, 324–325, 356–
Investigación de campo, 6, 129, 431
357, 427 inferencias
Figuras, 141, 398–400, 447, 450–452
causales, 34–35, 101–102 cambios en el
Modelo de efectos fijos, 257
tiempo, 264–265 niveles de, 35–
Grupo focal, 176, 186, 200, 431
36, 277, 279 número de, 36,
Distribución de frecuencia, 135–136, 138, 141–142, 148–
93, 262–263, 277 estudios de muestra,
149, 431
11–13, 368, 370, 375
Análisis bidireccional de varianza por rangos de
Friedman, 280, 298 Proceso inferencial, 20–21, 34–35, 229–237, 247–
256, 431
Estadísticas inferenciales, 8, 39, 275–284, 399–402, 426,
431
GRAMO
Análisis de puntuación de ganancias, 327–329, 368

Consentimiento informado, ver Consentimiento informado
voluntario
Clasificaciones de diseño general, 261–272, 277–278, 283,
345–346, 368, 370 Junta de revisión institucional (IRB), 20, 201–203, 431
Modelo lineal general (GLM), 284–285

Teoría de la generalización, 161. Validez del instrumento, ver Validez de la medición.
Amenaza de instrumentación, consulte Amenazas a la
Generalizar, ver Validez externa.
Autor fantasma, ver publicación. validez interna.
Prueba de bondad de ajuste, 310, 334, 423, 426 Test de inteligencia, ver test de aptitud
Enfoque cualitativo de la teoría fundamentada, 97, 431. Efecto de interacción, 319–329, 350, 423, 431, 441
Autor invitado, ver Publicación diseños factoriales, 321–324
diseños factoriales mixtos, 325–329
Fiabilidad entre elementos, ver alfa de Cronbach y
h
Fiabilidad de consistencia interna
Setos' g, 294 Fiabilidad de consistencia interna, 158–159, 218–
Regresión múltiple jerárquica, 331–332, 375 220, 222–223, 346–347, 394, 425
Histograma, 90, 141, 148–149, 431 Validez interna, 101–109, 130–131, 255, 343, 350–353,
Amenaza histórica, ver Amenazas a la validez interna. 424, 431 enfoque
Homogeneidad de la varianza, supuesto de, 278, 289, 297, asociativo, 104 enfoque comparativo,
319, 321, 431 103–104 control de variables extrañas,
Participantes de investigaciones en humanos, 3, 20, 191– 104–106,
205, 402, 431 352–353, 429
Informe Belmont, ver Cuestiones éticas equivalencia de grupos por participante
Privacidad, 192, 194–195, 196, 435 características, 103–104, 351–352, 430
riesgos y beneficios, 195–196 evaluación de, 103–106, 350, 362–363, 384–385
consentimiento informado voluntario, 193–194 cuasiexperimentos, 103
Hipótesis, ver Preguntas de investigación o experimentos aleatorios, 103 estudios
hipótesis. de muestra, 104, 368–369, 370–371, 373 –374,
Prueba de hipótesis, 38–40, 229–243, 249, 368, 370, 403 376, 378, 380 amenazas,
hipótesis 57, 105–109, 424
alternativa, 230–231, 236–237, 426, Fiabilidad entre evaluadores (interobservadores), 80, 159–
427 161, 346–347, 370, 375, 425
hipótesis nula, 230–237, 349, 399–401, 426, 433 Escala de intervalo, ver Medición
Intervención, ver Variable independiente activa Variable medida, ver Atributo variable independiente
Entrevista, 7–9, 113–117, 122–126, 175–177, 183,
185–186, 359, 431 Medición, 37, 135–141, 146–148, 278, 343–
en profundidad (cualitativa), 96–98, 186, 384, 423, 425,
192 estudios de muestra, 13, 93, 373– 374, 432 nuestra categorización,
377–379 teléfono, 115, 186, 192, 203 .
138, 432. variables dicotómicas, 139,

Coeficiente de correlación intraclase (ICC), 160, 163 .
430. variables nominales, 138, 280–281, 433,

Relación inversa, ver Correlación .
438. variables distribuidas normalmente,

Teoría de la respuesta al ítem, 161 139, 280–283, 433
.
. variables ordinales, 139, 280–281, 423, 434

k diseños de una sola materia, 80–
83 niveles/escalas tradicionales, 136–
Estadística kappa, 160 .
138. escalas de intervalo, 15, 136, 140,

Tau de Kendall, 281–282, 308–310 .
425, 431. escalas

KruskalWallis (ANOVA unidireccional), 280, 295, 301, .
nominales, 136 . escalas

328 .
ordinales, 136 . escalas

Curtosis, ver curva normal. de razón, 136, 436 Error de medición, 107,
155–156, 247, 432 Fiabilidad de la medición,
l 153–161, 218–220, 342–343, 346–347, 425, 432
consistencia interna, 158–159
Investigación de laboratorio, 6, 105–106, 129, 353, 359, confiabilidad entre evaluadores,
431 159–160 confiabilidad de formas paralelas,
Prueba post hoc de diferencia mínima significativa (LSD), 157–158 confiabilidad testretest, 157
294, 298 Fiabilidad de las mediciones y estadísticas, 349–350,
Ajuste de mínimos cuadrados, 82, 332 360, 370, 373, 375, 378, 380, 424
Niveles de una variable, 35–40, 46–47, 93–95, Escalas de medición, ver Medición
211–215, 265–270, 277–285, 343–346, Validez de la medición, 102, 165–173, 220–221,
423 342–343, 347–349, 423, 424, 432
estudios de muestra, 11–12, 92, 368, 370, 373, 375 evidencia de contenido, 166–
Niveles de evidencia, 383–388 167 validez de constructo,
Niveles o escalas de medición, 135–141, 429 evidencia convergente y discriminante, 170,
148–149, 151, 278, 423, 432 423
Escalas Likert, 151, 182–183, 218–220, 438 evidencia relacionada con criterios,
Regresión lineal, ver Regresión bivariada 168 evidencia basada en consecuencias,
Revisión de la literatura, ver Revisión de la literatura. 171 evidencia de estructura interna, 167–
Paradigma positivista lógico, ver Paradigmas 168 relaciones con otras variables, 168–
Regresión logística, 252, 282–283, 313, 333–334 170 evidencia del proceso de
respuesta, 167 generalización de validez, 170
METRO
Validez de medición de los constructos, 355–
357, 363, 424
Efecto principal, 35, 319–325, 350 validez de constructo de la intervención,
Variable manipulada, ver Variable independiente 355–356
activa validez de constructo del resultado, 356–357
Prueba U de MannWhitney , 280, 282, 295, 328, 426 estudios de muestra, 369, 371–372, 374, 376–
MANOVA, ver Análisis multivariado de varianza 377, 378–380
Revisión enmascarada, consulte Revisión por pares Medidas de tendencia central, 142–143, 149, 432,
Coincidencia, 67, 69, 103–104, 264, 299, 351–352, 432 440
Amenaza de maduración, 57, 106–108, 353, 424; ver también media, 142–143, 149, 432
Amenazas a la validez interna mediana, 142, 149, 432
Prueba de McNemar, 280, 298–299 moda, 142, 149, 432
Media (también llamada media aritmética), ver Medidas de variabilidad, 143–144, 149, 432
Estadística descriptiva, tendencia central. rango, 149, 436
Media cuadrática (MS), 293–294, 321 desviación estándar, 143–144, 437
Mediana, 142, 149, 432 Hipótesis nula no nula, 230, 243, 433
Metanálisis, 83–84, 254–257, 384–385, 433 Estadísticas no paramétricas, 83, 279–282, 294–295, 298–299,
Sección de método, 218, 220, 393–395, 433 308–314, 328, 433 prueba de chi
Mala conducta, ver Mala conducta científica y cuadrado, 280, 309–312, 313–314
Cuestiones éticas, Prueba Cochran Q, 280
Valores faltantes, 212–215 Cramer V, 281
ANOVA mixto, 281, 325–329, 426 Análisis bidireccional de varianza por rangos de Friedman,
Diseños mixtos, 262–263, 267, 268–269, 271, 274, 278 280, 298
Tau de Kendall, 281
descripción del diseño, 267, 268–269 diseño KruskalWallis (ANOVA unidireccional), 280, 295
pretestpostest, 271, 326–329 Prueba U de MannWhitney , 280, 295
Investigación con métodos mixtos, 9, 433. Prueba de McNemar, 280, 298
Modo, 142–143, 147, 149, 432 coeficiente phi, 281, 312
Multicolinealidad, 331 Correlación de orden de clasificación de Spearman (rho),
Diseño multielemento, ver Diseño de tratamiento alterno. 146, 281, 309
Prueba de pares emparejados de filas firmadas de
Múltiples diseños de referencia de un solo sujeto, 76–78, 79, Wilcoxon, 280, 298
433 en Muestreo no probabilístico, 118–119, 122–126, 131, 433
todos los comportamientos,
78 en todos los entornos, conveniencia, 117, 125,
78 en todos los participantes, 77 intencional, 435
Diseño de series temporales de múltiples grupos, 63, 69, 387, intencional, 123–124, 435 cuota,
483 122–123, 435 bola de
Análisis de regresión múltiple, 276, 282–284, 329–333, nieve, 125, 437 por qué
375–376, 426, 442 ponderaciones es común, 125–126
beta, 332 regresión Asignación no aleatoria a grupos, 51, 54, 69, 94, 424, 434
múltiple jerárquica, 331 ajuste de mínimos
cuadrados, 332 Curva normal, 135–136, 146–148, 234, 237, 433 áreas
multicolinealidad, 331 inferiores, 147
regresión múltiple simultánea, 332 regresión por distribución de frecuencia, 135–136, 431 curtosis,
pasos, 332 147 distribución
Multivariado, consulte Preguntas asociativas complejas de probabilidad como, 146–147 sesgada, 147,
y Preguntas de diferencias complejas. 149 curva normal
estándar, 147–148
Análisis multivariado de varianza (MANOVA), 281, 283 Distribución normal, ver curva normal
Nivel normal de medición, ver Normalmente
variable distribuida
norte
Normalidad, supuesto de, 278–279, 282, 283, 289, 297,
321, 433
Enfoque cualitativo narrativo, 8, 98, 179, 433 Variable normalmente distribuida, 139–140, 425, 434
Relación negativa, ver Correlación Hipótesis nula, 230–231, 233–237, 426, 433
Escala nominal o variable, ver Nivel nominal de prueba de significancia (NHST), 229–242, 291, 293–294,
medición 400–402, 433
Nivel nominal de medición, 36–37, 136, 138–140, 141,
148–149, 425; ver también
oh
Estadísticas no paramétricas
Hipótesis no direccional, 230–231, 236–238, 242–243, 433 Observación, 98, 177–178, 430
observador como participante, 178
Diseño de grupos no equivalentes, ver diseños Puntuación observada, 154–155, 434
cuasiexperimentales. Razón de probabilidades, 252, 312–313, 334, 426
No experimental, ver Asociacional, Diseño de posprueba de un solo grupo, 56, 69

Enfoques de investigación comparativos y descriptivos. Diseño pretestpostest de un grupo, 56, 62, 69, 270–271
ANOVA unidireccional, consulte ANOVA de factor único Coeficiente phi, 251–252, 281–282, 312, 314
Preguntas abiertas, 13, 185, 434 Estudio piloto, 209–210, 394, 435
Definición operativa, 33, 355–357, 434 Placebo, 64, 106, 109, 186, 199, 353, 424, 434
Variable ordenada, 37, 140, 425, 434 Plagio, ver Cuestiones éticas
Escala ordinal o nivel de medición, 136–141, 148–149, 157, 278– Población, 49, 102, 115–131, 196, 229–237, 357–359,
283, 423, 425, 434 425, 434 accesible,
Variable de resultado, ver Variable dependiente 116–118, 120–121, 126, 231–233, 425,
Valores atípicos, 309, 399, 434 427
teórico o objetivo, 116–118, 231–232, 423,

438
PAG
Validez externa de la población, ver Validez externa

valor p ,
Diseño de muestras pareadas, ver Diseño dentro de los Paradigma positivista, ver paradigma de investigación cuantitativa
sujetos
Prueba de papel y lápiz, 80, 178–180, 181–185, 434 Pruebas post hoc, 294, 295, 297, 298, 322–324, 401, 426
Paradigmas, 7–9, 17, 197, 384, 434
paradigma cualitativo/constructivista, 7–8, 429 U de MannWhitney siguiendo la prueba de KruskalWallis,
295 prueba
paradigma cuantitativo/positivista, 7–8, 435 post hoc de diferencia menos significativa (LSD), 294
Fiabilidad de formas paralelas, 157–158, 161, 346–347, prueba
425 post hoc de Scheffe, 294 prueba
Estadísticas paramétricas, 138, 278, 280, 289–294, post hoc de diferencia honestamente significativa (HSD) de
295–298, 305–308, 434 Tukey, 294, 401 Wilcoxon
análisis discriminante, 333 ANOVA siguiendo un ANOVA de dos vías de Friedman , 298
factorial, 319–327 regresión Diseño de grupo
bivariada, 330 regresión logística, de control solo posprueba, 64–66, 69 Diseño solo posprueba
333–334 regresión múltiple, 329–333 con grupos no equivalentes, 58, 69, 370 Diseño solo
posprueba de un grupo,
Correlación momentoproducto de Pearson (r), 146, 56, 69 Potencia (... de una estadística), 231, 235 –
305–307 236, 237–240, 394
ANOVA de factor único, 292–293 ANOVA
de factor único con repetición idoneidad del poder, 349–350, 380 evaluación del
medidas, 297–298 poder, 237–240, 368, 371, 373, 374,
Prueba t para muestras o grupos independientes, 289– 386
292 Prueba Importancia o importancia práctica, ver Importancia clínica.
t para muestras correlacionadas o pareadas, 296–
297 Diseños preexperimentales, ver Diseños
Participantes, ver Participantes de la investigación en humanos. cuasiexperimentales con importantes
Observación participante, 98, 176, 178, 192, 198, 434 limitaciones
Evidencia predictiva de validez, 169, 173, 347–348

Informe del participante, 7, 176, 181–186, 426, 434
Análisis de ruta, 284 Variable predictiva, 169, 278–279, 329–333, 343–344,
Correlación momentoproducto de Pearson (r), 145, 375–376; ver también variable independiente
149, 282–283, 284, 305–308, 330
intervalos de confianza, 308 Prueba preliminar, 34, 58–60, 69, 106–108, 157–158, 351–352,
tamaño del efecto, 251, 307–308, 402 435
r, 251, 402 Grupo de control o comparación pretestpostest
significación estadística, 306, 402 diseño, 12, 65–66, 69, 153–154, 326–328, 368
Revisión por pares, 361, 367, 380, 391, 405, 434
Métodos de acuerdo porcentual, 159–160 análisis del enfoque de covarianza, 328 análisis
Inventario de personalidad, ver Instrumentos de puntuación de ganancia, 327
estandarizados. análisis ANOVA mixto, 327 análisis no
Enfoque cualitativo fenomenológico, 97, 434. paramétrico, 327
Diseños de grupos de comparación no equivalentes Diseños cuasiexperimentales, 49, 55–63, 69, 74, 104
pretestpostest, 58–62, 69, 270; ver también
Análisis de diseños diseños con limitaciones importantes, 56–58
diseño de posprueba de un solo grupo, 56
cuasiexperimentales, 328 diseños diseño de prepruebaposprueba de un grupo,
cuasiexperimentales 56 diseño de solo posprueba con grupos no
de resistencia moderada, 60–61 diseños pretestpostest de un grupo, 56–57,
equivalentes,
69 58 diseños de prepruebaposprueba, 58–
diseños cuasiexperimentales fuertes, 59–60 diseños 61 diseños de series de tiempo, 62– 63
cuasiexperimentales débiles, 60–61 Cuestionario, 117–118, 137, 175–177, 183–185, 210–
Fuente primaria, 26, 435 219, 435
Muestreo probabilístico, 118–123, 128, 131, 183, 357, 425, Muestreo por cuotas, consulte Muestreo no probabilístico.
435
conglomerados, 121–
R
122, 123 aleatorio simple, 119–120,
123 aleatorio estratificado, 120–121, r (coeficiente de correlación del momento del
123 aleatorio sistemático, 120, 123 producto de Pearson), 146, 282, 305–308,
Problemas al considerar un solo estudio, 247 330 r2, 252, 307–308, 330
R2, 251–252, 331–332
Publicación, 397–398, 402–405 Asignación aleatoria de participantes a grupos, 64–68, 345,
autoría, 404–405 múltiple, 435
403–404 plagio, 204, Asignación aleatoria de tratamientos a grupos, 59–60
403
Muestreo intencionado, 124–125, 435 Selección aleatoria o muestreo, 48, 118–123, 436; ver
Muestreo intencional, 124, 435; ver también también Muestreo probabilístico
Muestreo no probabilístico Modelo de efectos aleatorios, 257
Diseños experimentales aleatorios, 64–68
diseño cruzado, 67 diseño
q
de grupo de control solo postprueba, 64–65 diseño
Datos cualitativos, 8, 96–98, 435 de grupo de control prepruebapostprueba, 65–
análisis, 8, 96–98, 435 66
recopilación, 8, 96–98, 176–178, 435 diseño experimental aleatorio con emparejamiento,
Enfoques de investigación cualitativa no 67
experimental, 89–98 el Diseño Solomon de cuatro grupos, 66
enfoque de investigación fenomenológica, Diseño aleatorio dentro de los sujetos, 67
97 Enfoque de investigación experimental aleatorio, ver Diseños
el enfoque de la teoría fundamentada, 97 el experimentales aleatorios
enfoque de investigación etnográfica, 97 el enfoque Rango, 143, 147, 436; ver también Rango restringido de
de investigación de estudio de casos, 97 el puntuaciones
enfoque de investigación narrativa, 98 Datos Escala de calificación, 179, 182–183, 218–219

cuantitativos, 8, 435 análisis, Escala de relación o nivel de medición, ver
8, 289–299, 305–314, 319–333, 435 colección , 175– Medición
186 Paradigma de Lista de referencias, 397–398, 436
investigación cuantitativa, 7–8, 197 Paradigmas Amenaza de regresión, ver Amenazas a la validez
filosóficos cuantitativos versus cualitativos, 7 Datos y interna
recopilación de Diseño de ejemplos relacionados, consulte Diseño dentro de
datos cuantitativos/objetivos versus cualitativos/ las materias.
subjetivos, 8 Análisis de datos cuantitativos/ Riesgo relativo, 252, 312
estadísticos versus cualitativos/descriptivos, 8 Fiabilidad, ver Fiabilidad de medición
Cuasiexperimental enfoque, 10, Diseños de medidas repetidas, ver Diseños dentro de temas.
49, 55–63, 270, 435; ver también diseños
cuasiexperimentales Variable independiente de medidas repetidas, ver
Dentro de los sujetos variable independiente
Amenaza de prueba repetida, ver Amenazas a la validez Diferencia de riesgo, 252–253, 312–313
interna Medidas de potencia del riesgo, 252–253, 312–313
Muestreo representativo, ver Investigación de Ratio de riesgo, ver riesgo relativo
muestreo, 3–10, 19–27, 436
definición de, 3–4, 436
S
dicotomías, 6–9. .
laboratorio versus campo, 6 . . Muestra, 115–130, 196–197, 229–243, 247–257, 357; ver
cualitativo versus cuantitativo, 7–8. . informe del también Muestra seleccionada y Muestra real
participante versus observación del investigador,
7 . . teórico versus Estudios de muestra (ejemplos), 11–13, 367–380
aplicado, 6 propósitos de, 4–6 Enfoque estudio 1: un experimento aleatorio, 11–12, 27, 40, 60, 101,
de investigación, 45– 180, 368–370, 439, 441 estudio 2: un cuasi
53, 55–69, 89–98, 175, 275, 345 asociacional, 50, 91–92, experimento, 12, 24, 58, 184, 370–372, 397 estudio 3 :
427 un estudio no
comparativo, 50, 92–93, 428 experimental que utiliza el enfoque comparativo, 12, 40,
descriptivo, 50–51, 90–91, 430 no 92, 104, 186, 373–375, 440 estudio 4: un estudio
experimental, 89–98, 49–51, 433 no experimental que
cuasiexperimental, 49, 55–63, 435 experimental utiliza el enfoque asociativo, 12–13, 27, 40, 91–92,. 159,
aleatorio, 47–49, 64–67, 436 306–308, 375–377, 440, 442 estudio 5: un
estudio
.
puramente descriptivo, 13, 21, 91, 186, 377–

Problema de investigación, 21–25, 33, 38, 97, 436, 379 Tamaño de la muestra, 127–128, 238–240, 256–257,
439–440 291–292 , 386,
Preguntas o hipótesis de investigación, 24, 38–40, 95–96, 393–394 Estadística de muestra, 229 Muestreo, 115–130, 436
344–345, 361, 436, 443–445
asociacional, 39
básico versus complejo, 95–96
descriptivo, 39 población accesible, 116–129, 196, 231–232, 243, 357–
diferencia, 39 359, 427 muestra real,
Fiabilidad de la investigación, 255; ver también Metanálisis 116–118, 128–131, 196, 357–359,
Replicación de la investigación, 240, 249–250, 385, 394; ver 427
también Metanálisis no probabilidad, 118–119, 122–126, 433 validez

Validez de la investigación, 101, 341–353, 355–363, 436, externa poblacional, 128, 154, 357–358, 385, 434
443–446 muestreo probabilístico,
validez externa, 83, 128–130, 255, 357–360, 369–370, 118–123, 128, 357, 435
430 validez
interna, 101–109, 130, 255, 261 , 350–353, 431 muestra representativa, 118–122, 130, 182, 196, 255, 436
confiabilidad de tamaño
las mediciones y estadísticas, 342–343, 349–350, de muestra, 127–128, 220, 393–394 muestra
444 validez de las mediciones seleccionada, 116–121, 123, 128, 231, 357, 437
de los constructos, 343, 355–356, 444 versus validez de las
mediciones, 165, interviene, 118
436 población teórica o objetivo, 116–118, 125–126, 128–
Respeto a las personas, 193, 196, 436 129, 231, 357, 438
Tasa de respuesta, 117–118, 184–185, 196–197, 357, 436; Diseño de muestreo, 116, 118–128, 130, 367, 437; ver también
ver también muestra real Muestreo
Rango restringido de puntuaciones, 252, 284, 309 Marco muestral, véase Población accesible
Sección de resultados, 395–396, 399, 436 Escalas de medida, ver Escalas de medida
Diseños invertidos de un solo sujeto, 74–76, 79, 82, 436 Prueba post hoc de Scheffe, 294
Mala conducta científica, 204, 406, 437
flexibilidad, 79 Fuente secundaria, 28, 437
Revisión de la literatura, 25–27 Muestra seleccionada, 116–118, 121, 123, 128, 437
Riesgo, ver participantes de la investigación en humanos. Sesgo de selección, 107
Selección de estadísticas, 138, 275–284 Prueba t para muestras dependientes o pareadas, 296–
asociacional básica, 275, 282 diferencia 297
básica, 275, 280 asociacional Prueba de pares emparejados de filas firmadas de Wilcoxon,
compleja, 283 diferencia compleja, 298
283 descriptiva, 148 inferencial, Diseños de series temporales de un solo grupo, 62–63, 387, 437
279–284 Diseños de sujeto único, 57, 73–85, 386, 437 diseños de
tratamiento alternos, 78–79 nivel, 81, 83–84, 431
Amenaza de selección, ver Amenazas a la validez interna métodos de medición, 80–
Autoasignación o selección, 131; ver también 83 períodos de medición, 80, diseños de línea
Sesgo de selección de base múltiples, 76–79, 433
Medidas de autoinforme, 129, 167, 181–186 diseños de inversión, 74–76, 82, 436 pendiente, 81–
Variación compartida, 307–308, 330 82, 84, 437 análisis estadístico, 82–83
Nivel de significancia (nivel alfa), 234–240, 290, 297 análisis visual, 81–82
Pruebas de significancia (NHST), 229–243, 433 pruebas

de significancia múltiple, 218, 293 Pendiente, 81–82, 84, 328, 437
Efectos principales simples, 323–324 Muestreo de bola de nieve, 125, 437
Muestreo aleatorio simple, consulte Selección aleatoria y muestreo Diseño de cuatro grupos de Salomón, 66, 269–270, 437
probabilístico.
Regresión múltiple simultánea, 332 Tabla fuente (fuente de tabla de varianza), 293, 321–322,
ANOVA de factor único, 292–294, 324 tamaño 437 ANOVA de
del efecto, 294 un solo factor, 293 ANOVA de dos
interpretación del valor F , 294 cuadrado factores, 321–322
medio entre grupos, 293 cuadrado medio dentro Correlación de orden de clasificación de Spearman (rho),
de los sujetos, 293 prueba post hoc, 294 tabla 282, 308–309; ver también Correlación y
fuente, 293 sumas de Correlación del momento del producto de Pearson
cuadrados (SS), 293 Esfericidad, suposición de, 297–298
Desviación estándar, 143–144, 147–148, 155, 179,
ANOVA de factor único con medidas repetidas del tamaño del 238, 251, 292, 437
efecto, 298 pruebas Error estándar de medición, 155156
post hoc, 297 Error estándar de la media, 291, 437
Diseños de factor único entre grupos, 268, 289–295 Prueba Curva normal estándar, 147148
de Instrumentos estandarizados, 177, 187, 200 pruebas
independencia de chicuadrado, 252, 309–314 de rendimiento, 179–180 pruebas de
aptitud, 180 escalas de
KruskalWallis (ANOVA unidireccional), 295, 328 estadísticas actitud, 182, 218, 438
no paramétricas, 294–295, 298–299 Anuario de mediciones mentales, 176, 180 inventarios
Prueba U de MannWhitney , 83, 295, 310 de personalidad, 181–182
ANOVA de factor único, 292–294, 324 Prueba t Supuestos estadísticos, 278–279, 297–298, 328
para muestras o grupos independientes, 233, 289–292 Validez de la conclusión estadística, ver Medición.
confiabilidad y estadisticas
Diseños de factor único, 268, 277–278, 289–315 diseños Amenaza de regresión estadística, ver Amenazas a la
entre grupos, 289–295 diseños dentro de validez interna
sujetos, 295–299 Significancia estadística, 233–236, 241–243, 247–248,
Diseños de factor único dentro de los sujetos, 295–299 efectos 250, 253–256, 290, 306, 437
de arrastre, 57, 67, 79, 299 Regresión gradual, 332
Prueba Cochran Q, 280 Pasos en el proceso/plan de investigación, 209–210
grados de libertad (gl), 296, 299 planificación del estudio, 209
ANOVA bidireccional de Friedman por rangos, 298 selección de instrumentos, 209
Prueba de McNemar, 298–299 perfeccionamiento de instrumentos y procedimientos, 209
prueba post hoc, 297–298 recopilación de datos, 210
ANOVA de factor único con análisis repetidos. Estratos, 120, 123, 437
medidas, 297–298 Muestreo aleatorio estratificado, 120, 437
Diseños cuasiexperimentales sólidos, 59–60 cuadrados medios (MS), 321, 437

Modelado de ecuaciones estructurales (SEM), 10 efectos principales simples, 323–324
Sujetos, ver Participantes de la investigación humana sumas de cuadrados (SS), 321
Escala de actitud sumada, 185 Mesas de contingencia de dos en dos, 314
Escala de calificación sumada, 183, 219 Error tipo I, 234–236, 279, 293–294, 438
Sumas de cuadrados (SS), 293, 321 Error tipo II, 234–236, 247, 386, 438
Población encuestada, ver Población accesible
Investigación por encuesta, 96, 115, 125, 183, 199, 252, 438; Ud.
ver también Cuestionario y Entrevista
Muestreo aleatorio sistemático, 120, 438 Categorías o niveles desordenados de una variable, 37, 138, 438
Variable desordenada, ver Nivel nominal de

t
medición
Prueba t para muestras o grupos independientes, 234, 238, Muestra no representativa, consulte Muestra no probabilística.
248, 289–292 grados
de libertad (gl), 291, 300 tamaño del efecto,
292 supuesto de
V
homogeneidad de la varianza, 278–279
Validez, consulte Validez de medición y
supuesto de independencia, 279 pruebas Validez de la investigación
t múltiples , 293 supuesto Valores, ver Niveles de una variable
de normalidad, 278 prueba t para Variabilidad, 81, 143–144, 155, 240, 256–257, 290–291,
muestras dependientes o pareadas, 296 tamaño del efecto, 299, 438
296 Variables, 33–38, 438
Pruebas, consulte Instrumentos estandarizados. definición de, 33, 438
Prueba de amenaza, consulte Amenazas a la validez interna dependiente, 36, 135, 148, 429
Fiabilidad testretest, 157–158, 161, 306 extraño, 36, 57, 74–75, 105–106, 352–353,
Validez de la prueba, consulte Validez de la medición. 430
Población teórica o objetivo, 117–118, 126, 231, 358, 369, 372; independiente, 33–40, 45–53, 55–67, 89–95, 101–109,
ver también Muestreo 261–270, 275–284, 431 etiqueta, 36,
Importancia teórica, 361, 438. 215, 438 niveles de,
Teoría, 4–5, 21, 23, 168, 438; ver también 35–40, 46–53, 432 medición de,
Teoría de la generalización, teoría fundamentada, 136, 140 conjuntos de variables,
teoría de la respuesta al ítem 37
Desarrollo de la teoría, 4, 438. Consentimiento informado voluntario, 193–194
Amenazas a la validez interna, 105–106, 130, 351, 353, 424 comprensión, 193
información, 193
Diseños de series temporales, 62–63, 69, 73, 387 voluntariedad, 193–194
diseños de series de tiempo de múltiples grupos, 62–63,
69
W.
diseños de series temporales de un solo grupo, 57, 62–63,
69, 387 Diseño de grupo de comparación de lista de espera, 57
Título (de un artículo), 391–392, 397, 438 Diseños cuasiexperimentales débiles, 61; ver también
Tratamiento, ver variable independiente activa Diseños cuasiexperimentales pretestpostest
Diseños experimentales verdaderos, ver Aleatorios
diseños experimentales
Prueba post hoc de diferencia honestamente significativa Ponderaciones, análisis discriminante,
(HSD) de Tukey, 294 333 metanálisis, 256,
ANOVA de dos factores, 321–327 regresión múltiple, 332
tamaño del efecto, Interés generalizado, 25, 438
323 efecto principal, 319–323, Prueba de pares emparejados de filas firmadas de Wilcoxon,
325 efecto de interacción, 319–323, 325–326, 298
431 como prueba posthoc, 298
Dentro de los diseños de los sujetos, 82, 261–265, 267, 278, Dentro de los sujetos, diseño experimental aleatorio, 269
299–300
estadística no paramétrica, 298 prueba t Dentro de la variación de los sujetos, consulte Variabilidad
para muestras dependientes, 296 Escribiendo sobre tus resultados, 398
Redacción del informe de investigación, 391–409
Dentro de la variable independiente de los sujetos, 262–263, 265,
267–268, 270, 272, 326; ver también
z
Diseños mixtos y diseños dentro de los sujetos.
puntuación z , 148, 155, 331
Índice de autores
A Childs, K., 76 F
Clarke, S., 76
Ager, C., 77 Feldman, RS, 289–292
Cobb, B., 83
Algina, J., 161 Finch, S., 240
Cohen, J., 128, 171172, 173,
Allison, DB, 73 Fink, A., 27, 115, 398, 421
238–239, 241, 243, 252, 253,
Altman, E., 204 Fisher, AG, 166–167, 169
308, 312, 322–323, 330, 349,
Alwell, M., 83 FosterJohnson, L., 76
391, 401, 402
Anastasi, A., 156, 177 Fowler, FJ, Jr., 115 , 177
Coll, JR, 326–328
Angold, A., 320–323 Fowler, FJ, 186
Collins, KMT, 26
Antes, G., 254 Franklin, RD, 73
Conners, CK 320–323
Aoki, Y., 313–314 Fuller, HM, 325
Cook, TD , 57, 62, 68, 103,
105–106, 107, 341, 342, 350,
B 363 GRAMO
Cooper, H., 255

Baer, D., 82 Gaito, J., 137
Corbin, J., 97
Bambara, L., 77 Gardner, G., 255
Cordova, JS, 324
Bangsber, DR, 13, 21, 91, 186, Ghiselli, EE, 155
Crabtree, BF, 96
377 Glaser, BG, 97
Cramer, KM, 22
Bartko, JJ, 160 Gliner, G., 83
Creswell, JW, 21, 96, 98, 421
Barrett, KC, 209, 218, 220–221, Gliner, JA, 83, 251, 308, 328,
Crocker, L., 161
223, 398, 399, 401, 421, 450 341, 381, 421
Cronbach, LJ, 153, 157, 161,
Baugh, FG, 84 Gloeckner, GW, 209 , 398, 399,
168, 169
Beasley, TM, 73 401, 421, 450
Cumming, G., 240
Beile, P., 25 Goddard, P., 296, 298, 299
Czaja, R., 177
Bernstein, IH, 156, 161 Goodstein, D., 406
Biemer, BP, 186 Goodwin, LD, 166, 167, 171
Blair, J., 177, 185 D Gorman, BS, 73
Boote, DN, 25 Gray, JA, 383
Brockman, L., 171 Daniel, LG, 157, 159
Gray, MJ, 160 , 328, 329
Brossart, DF, 84 DeAlba, RG, 84 Grimm, LB, 333
Brothen, T., 12, 24, 58, 184, 370, Dellinger, AB, 25, 26 Grissom, RJ, 251
397 Denzin, NK, 96 Groves, RM, 186
Brooks, JO III, 255 Despain, LH, 160, 328, 329
DeVellis, RF, 185
Bryze, KA, 170 h
Burbules, Carolina Dickinson, DB, 13, 21, 91, 186,
377
del Norte, 17, BuschRossnagel, NA, 171 Halper, J., 12, 40, 92, 104, 186,
Dillman, fiscal del distrito, 177, 184, 185, 373, 440
210
C Hardy, SA, 12, 27, 40, 91–92,
DiLorenzo, T., 12, 40, 92, 104, 159, 306–308, 329–332, 375,
186, 373, 440 440, 442
Campbell, DT, 57, 62, 68, 103,
105–106, 107, 341, 342, 350, Dunlap, G., 76 Harlow, LL , 240
357, 362–363 Harmon, RJ, 171, 251, 328,
Campbell, JM, 84, mi
341, 381, 421
Campbell, JP, 155 Harrison TR, 398, 421
Carpenter, WT, 160 Edgington, E., 83 Hart, C., 27, 392, 421
Casey, MA, 186 Egger, M., 255 HauserCram, P., 171
Castellán, Nueva Emanuel, L., 404 Haynes, RB, 383, 388
Jersey, 295 Chiappisi, H., 324 Epstein, JN, 320–323 Hedges, LV, 255, 294
467
468 Índice de autores
Heller, J., 191 Locke, LF, 27 Pedhazur, EJ, 324

Heller, SS, 313–314 Loftus, EF, 235 Penningroth, SL, 160, 328, 329
Hernon, P., 204 Loftus, GR, 235 Pexman, PM, 398, 421
Herpertz, SC, 292–294 Largo, JR, 84 Phillips, DC, 17
HerpertzDahlmann, B., Picone, MA, 12, 40, 92, 104,
292– 186, 373,
METRO
294 HinshawFuselier, S., 313– 440 Poirier, CR, 289–290 , 291,

314 Holm, MB, Makhema, JM, 13, 21, 91, 186, 292 Poole, JL,
383 Hubert, 377 324 Pross, C., 191
L., 83 Huck, Mangione, TW, 186
SJ, 421 Huck, Marascuilo, L., 83
q
SW, 329 Humphreys, March, JS, 320–323
L., 192 Hunter, JE, 241, 242 MaslinCole, CA, 171 Quiroz, DR, 83
Massey, JT, 186 Qunaibi, M., 292–294
Mastropieri, MA, 83
j
McCleary, R., 83 R
Jennings, KD, 171 Meltzoff, J., 403
Jepsen, J., Micceri, T ., 392 Reichart T., 298, 421
326 Jiao, QG, 26 Milgram, S., 192, 198 Rennie, D., 404
Miller, LJ, 326, 327, 328 Reynolds, CR, 12, 368
k Miller, WL, 96 Rice, MS, 325
Morgan, DL, 7, 9 Richardson, WS, 383, 388
Kamphaus, RW, 12, 368 Morgan, GA, 171, 209, 218, Rosenberg, WM, 383, 388
Kaufman, AS, 12, 368 220–221, 223, 251, 308, Rosenthal, R., 252, 313, 314,
Kaufman, NL, 12, 368 328, 341, 381, 398, 399, 326 Rosnow, RL, 314,
Kazdin, A., 73, 81, 82 326 Rudestam, KE, 211, 213, 397,
Kenny, DA, 107 401, 421, 450 Morgan, 421
Keppel, G., 240, 245, 284, SE, 398, 421 Mueller, Ryan, J., 297–298
297 Kerlinger, FN, 21, B., 292–294
23 Kern, L., Mulaik, SA, 240 Mulcock, SD, 24, 181,
S 185
76 Kim, JJ,
251 Kirk, RE, norte
Sackett, DL, 383, 388
274 Klaric, J., 320– SachseLee, C.,
323 Kline, RB, 240, 242, 249, Newton, RR, 211, 213, 397, 421 83 Salant, P., 177, 185,
250, Nicholls, WL, 186 210 Sass, H.,
294, 373 Kraemer, HC, 127, Nickerson, RS, 242, 292–294 Schellenberg, EG,
151, 251, Nicol, AAM, 398, 421 11, 27, 40, 60, 101, 180,
255, 323, 344, Nunnally, JC, 156, 161, 312 368 , 439, 441
Krueger, RA, 186 Kuhn, TS, 7 Scruggs, TE, 83
oh
Schmelkin, LP, 324
l Schmidt, FL,
Onwuegbuzie, AJ, 9, 26 241, 242 Schmitt,
Landrum, RE, 24, 181, 185 Osgood, CE, 183 N., 159 Schneider, M.,
Larrieu, JA, 313–314 Ottenbacher, K., 73, 79 255 Schoen, SA, 326–328
Lars, EL, 186 Oxman, AD, 254 Shadish, WR,
Law, M., 383–384 57, 62, 68, 105–106, 107,
Leech, NL, 9, 26, 166, 167, 171, PAG
341 Shavelson,
209, 218, 220–221 , 223, RJ, 163, 309
251, 398, 399, 401, PadillaWalker, LM, 12, 27, Sibbitt, W. Jr.,
421, 450 40, 91–92, 159, 306– 324 Sieber, JE, 201
Levin, J., 83 308, 329–332, 375, Siegel, S., 295
Likert, R., 182 440, 442 Parker, Silverman, SJ, 27
RI,257,
Lincoln, YS, 96 Lipsey, MW, 255, 256, 84 Parsonson,
349 B., 82 Skinner, CH, 73 Smith, GD, 255 Smith, ML, 3
Índice de autores 469
Spector, PE, 183 Thorndike, RL, 177, 179 Wenning, B., 292–294
Spirduso, WW, 27 TickleDegnen, L., 383 Wiggins, T., 297–298
Stage, SA, 83 Wilkinson, L., 137, 253, 284,
Stake, RE, 97 Ud.
391, 393, 394, 395, 396, 399,
Stanley, JC, 341, 357, 362, 363 400, 409, 421
StarkWroblewski, K., 297–298 Urbina, S., 177 Wilson, DB, 255, 256, 257
Steiger, JH, 240 Winer, BJ, 265
Stevens, JP, 329 V Winokur, M., 83
Strauss, AL, 97 Witta, EL, 157, 159
Strube, MJ, 161 Valliere, J., 313–314 Wolfe, WR, 13, 21, 91, 186,
Suci, GJ, 183 Vannest, KJ, 84 377
Swanson, HL, 83 Vaske, JJ, 251, 308 Wolgemuth, J., 83
Velleman, PF, 137 Woodward, J., 406
t Vogt, WP, 421
Y
Tannenbaum, PH, 183 W.
Tashakkori, A., 9 Yank, V., 404
Tebben AB, 326 Waksberg, J., 186 Yarnold, PR, 333
Teddlie, C., 9 Walters, GD, 310, 311, 312, Yesavage, JA, 255
Tesch, R., 96 313 Yin, R., 97–98
Thiemann, S., 127–128 Wambach, C., 12, 24, 58, 184, Young, ED, 191
Thior, I., 13, 21, 91, 186, 377 370, 397
Thomas , JJ, 325 Wang, SC, 12, 27, 40, 91–92, z
Thomason, N., 240 159, 306 –308, 329–332, 375,
Thompson, B., 153, 220, 254, 440, 442 Zamboanga, BL, 12, 27, 40,
333 Wechsler, D., 12, 368 91–92, 159, 306–308,
Thompson, RA, 12, 27, Weiser, SD, 13, 21, 91, 186, 377 329–332, 375, 440, 442
40, 91–92, 159, 306–308, Wells, KC, 320–323 Zeanah, CH, 313–314
329–332, 375, 440, 442 Welsh, W., 83 Zedeck, S., 155, 284

Ilovepdf Merged

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Ilovepdf Merged

Cargado por

Copyright:

Formatos disponibles

Machine Translated by Google

Machine Translated by Google

Universidad Estatal de Colorado ­ Fort Collins

Universidad Estatal de Colorado ­ Fort Collins

Universidad de Colorado ­ Denver

Nueva York Londres

© 2009 por Taylor y Francis Group, LLC

Esta edición publicada en la biblioteca electrónica Taylor & Francis, 2010.

Número de libro estándar internacional: 978­0­8058­6434­2 (tapa dura)

Datos de catalogación en publicación de la Biblioteca del Congreso

Visite el sitio web de Taylor & Francis en

y el sitio web de Psychology Press en

ISBN 0­203­84310­X Libro electrónico maestro ISBN

Prefacio................................................. ................................................. ......................................... xiii

Sección I Capítulos Introductorios

2. Planificación de un proyecto de investigación cuantitativa .................................... ............................

Sección II Enfoques, preguntas y diseños de investigación

4. Enfoques de investigación................................................ ................................................. ............45

5. Diseños experimentales y cuasiexperimentales aleatorizados ................................55 Terminología de

6. Diseños de un solo tema................................... ................................................. ..........73 Diseños de

7. Enfoques y diseños no experimentales................................................ ........................89 Enfoques de

8. Validez Interna................................................ ................................................. .................. 101 Identificación

Sección III Muestreo, medición y recopilación de datos

10. Medición y Estadística Descriptiva................................................. ................................ 135 Descripción

11. Fiabilidad de la medición................................................ ................................................. ... 153 Fiabilidad

12. Validez de la medición................................................ ................................................. ........ 165 Introducción

13. Tipos de técnicas de recopilación de datos.................................... ................................... 175 Descripción

Distinciones clave................................................ ................................................. ................. 187 Problemas

14. Cuestiones éticas al realizar el estudio................................... ................................ 191 Principios éticos en

15. Cuestiones prácticas en la recopilación y codificación de datos................................. ...................209 Pasos

Sección IV Análisis e interpretación de datos

18. Clasificaciones generales de diseño para la selección de diferencias.

19. Selección de métodos estadísticos apropiados: integración del diseño y

21. Análisis e interpretación de preguntas básicas de investigación asociativa....305 Análisis de variables

22. Análisis e interpretación de preguntas de investigación complejas................................ 319 Análisis e

Sección V Evaluación y redacción de informes de investigación

23. Evaluación de la validez de la investigación: Parte I................................. ........................................ 341 Un

24. Evaluación de la validez de la investigación: Parte II................................... .................................355 Validez

26. Evaluación de la investigación para la práctica basada en la evidencia................................. .................383

Distinciones clave................................................ ................................................. .................389 Problemas

27. Redacción del informe de investigación................................................ ................................................ 391

Referencias................................................. ................................................. ................................ 411

Apéndice B: Términos confusos................................................ ................................................. .423

Apéndice C: Glosario................................................ ................................................. ................427

Apéndice D: Problemas y preguntas de investigación de redacción................................ ........439

Apéndice E: Preguntas para evaluar la validez de la investigación.................................... ......443

Apéndice F: Elaboración de tablas y figuras de la Asociación Estadounidense de Psicología...447

Índice de materias ................................................ ................................................. ................................453

Descripción general del contenido

Cambios principales con respecto a la primera

Herramientas de aprendizaje y ayudas didácticas Este

JAG, GAM, NLL

… debe realizarse e informarse de manera que su argumento lógico pueda examinarse

4 Métodos de investigación en entornos aplicados: un enfoque integrado para el diseño y el análisis

• ¿El tamaño de la clase afecta los resultados de los estudiantes?

• ¿Es el aprendizaje cooperativo más exitoso que el aprendizaje individualizado? • ¿Los

• ¿Funciona algún tratamiento en particular? •

Incrementar la base de conocimientos de la disciplina Este

Definiciones, propósitos y dimensiones de la investigación 5

Aumentar su autoconocimiento como profesional Para la

mayoría de los estudiantes y profesionales, la capacidad de comprender y evaluar la investigación en su

6 Métodos de investigación en entornos aplicados: un enfoque integrado para el diseño y el análisis

Universidad Estatal de Colorado Fort Collins

Universidad Estatal de Colorado Fort Collins

Universidad de Colorado Denver

Número de libro estándar internacional: 9780805864342 (tapa dura)

ISBN 020384310X Libro electrónico maestro ISBN