Captulo 6 Validez Corregido

VALIDEZ
Seis
VALIDEZ
V
alidez es un término importante en la investigación que
se refiere a la solidez conceptual y científica de un
estudio de investigación (Graziano y Raulin, 2004). Como
se comentó anteriormente, el propósito principal de todas
las formas de investigación es producir conclusiones válidas.
Además, los investigadores están interesadas en las
explicaciones de los efectos e interacciones de las variables
que se producen en una amplia variedad de configuraciones
diferentes. Para entender verdaderamente estas interacciones
requiere especial atención al concepto de validez, lo que pone
de relieve la necesidad de eliminar o reducir al mínimo los
efectos de las influencias extrañas invariables y
explicaciones que pudieran interferir con los resultados de un
estudio.
Validez es, por lo tanto, un concepto muy importante y útil en
todas las formas de metodología de la investigación. Su
objetivo principal es aumentar la precisión y utilidad de los
resultados mediante la eliminación o el control de la mayor
cantidad de variables de confusión como sea posible, lo que
permite una mayor confianza en los resultados de un estudio
dado. Hay cuatro tipos distintos de validez (validez interna,
validez externa, validez de constructo y validez conclusión
estadística) que interacciones para controlar y minimizar el
impacto de una amplia variedad de factores extraños que puede
confundir a un estudio y reducir la exactitud de sus
conclusiones. En este capítulo se discutirá cada tipo de
validez, sus amenazas asociadas, y sus implicaciones para el
diseño de la investigación y la metodología.
VALIDEZ INTERNA Validez Interna se refiere a la capacidad

de un diseño de investigación para descartar o hacer otras
explicaciones plausibles de los resultados, o hipotesis
158
VALIDEZ 159
NO OLVIDE
Validez interna y las hipótesis rivales
plausibles
validez Interna: La capacidad de un diseño de

investigación para descartar o realizar otras
explicaciones plausibles de los resultados,
demostrando así que la variable independiente fue
directamente responsable de los efectos sobre la
variable dependiente y, en última instancia, por
los resultados encontrados en el estudio.
Hipótesis rivales Plausible: Una interpretación
alternativa de la hipótesis del investigador acerca
de la interacción de las variables independientes
y colgantes de- que proporciona una explicación
razonable de las conclusiones distintos a la
hipótesis original del investigador.
rivales plausibles (Campbell, 1957; Kazdin, 2003c). Una

hipótesis rival plausible es una interpretación alternativa
de la hipótesis del investigador acerca de la interacción de
las variables independientes y dependientes que proporciona
una explicación razonable poder de las conclusiones distintos
a la hipótesis original del investigador (Rosnow y Rosenthal,
2002).
Aunque rara vez se logra la evidencia de la causalidad
absoluta, el objetivo de los diseños más experimentales es
demostrar que la variable independiente fue directamente
responsable de los efectos sobre la variable dependiente y,
en última instancia, los resultados encontrados en el
estudio. En otras palabras, el investigador en último
término, quiere saber si el efecto observado o fenómeno se
debe a la variable o variables independientes manipuladas o
en alguna variable o variables (Pedhazur y Schmelkin, 1991)
no controlada extraña o desconocida. Lo ideal sería que, al
final del estudio, el investigador le gustaría hacer una
declaración que refleja un cierto nivel de causalidad entre
las variables independientes y dependientes. Mediante el
diseño de fuertes controles de líneas experimentales en un
160 ESCENCIALES DEL DISEÑO Y LA METODOLOGIA DE LA INVESTIGACION
estudio, la validez interna se incrementa y las hipótesis

rivales e influencias extrañas se reducen al mínimo. Esto
permite al investigador AT- homenaje a los resultados del
estudio con mayor confianza en la variable o variables
independientes (Kazdin 2003c; Rosnow y Rosenthal, 2002).
influencias raras incontroladas que no sean la variable
independiente que podría explicar los resultados de un
estudio se les conoce como las amenazas a la validez interna.
Puesta en práctica
…………………………………………………………………………………………………………
Un ejemplo de la validez interna y plausible Las hipótesis
rivales
……………………………………………………………………………………………………………………………………………………………….
Un investigador está interesado en la efectividad de dos padres
diferentes programas de capacitación y educación para mejorar
los síntomas de la depresión en adolescentes. El investigador
recluta a 100 familias que cumplen con las especificaciones
criterios de inclusión en el estudio. El criterio de inclusión
principal es que la familia debe tener un adolescente que
actualmente cumpla con los criterios para la depresión. Después
del reclutamiento, el investigador asigna aleatoriamente
familias en uno de los dos programas de capacitación de
habilidades. Los padres reciben las intervenciones durante un
período de 10 semanas y luego se envían a casa para solicitar
las habilidades que han aprendido. El investigador reevalúa a
los adolescentes 6 meses después para ver si ha habido una
mejora en los adolescentes síntomas de depresión. Los
resultados sugieren que ambos grupos mejoraron. El
investigador concluye que ambas intervenciones de
entrenamiento de habilidades parentales fueron efectivos para
tratar la depresión en adolescentes. Dado que información
limitada aquí, ¿es esta una conclusión apropiada? La respuesta,
por supuesto, es no. Este estudio tiene poca validez interna
porque Es imposible decir con certeza que la variable
independiente (las dos clases de entrenamiento de habilidades)
tuvieron un efecto en la variable dependiente (depresión).
Existen varias hipótesis rivales alternativas que tienen no ha
sido controlado y podría explicar con la misma facilidad los
VALIDEZ 161
resultados de la estudiar. Muchas cosas podrían haber ocurrido

en el transcurso de los 6 meses.
Por ejemplo, ¿ciertos adolescentes recibieron medicamentos?
haría
han mejorado sin la intervención? Hicieron sus circunstancias
de vida
¿cambiar para mejor? Nunca lo sabremos porque el estudio tiene
pobres resultados internos validez y no controla ni siquiera
para los más simples y obvias explicaciones alternativas
Las amenazas a la validez interna
Aunque la terminología puede variar, las amenazas más
comúnmente encontrados a la validez interna son historia, la
maduración, la instrumentación, pruebas, regresión
estadística, sesgos de selección, el desgaste, la difusión o
imitación de tratamiento, y el tratamiento especial o
reacciones de los controles (Christensen, 1988; Cook &
Campbell, 1979; Kazdin, 2003c; Pedhazur y Schmelkin,1991).
Los investigadores deben ser conscientes de que cada diseño
metodológico es tema de por lo menos algunas de estas amenazas
NO OLVIDE
Las amenazas a la validez interna
Como se discutió en los Capítulos 3 y 5, la mayoría de las
amenazas a la validez interna son controlado a través de
análisis estadísticos, grupos de control y comparación, y
aleatorización. El supuesto subyacente de aleatorización tal
como se aplica a validez interna es que los factores extraños
se distribuyen uniformemente en todos los grupos dentro del
estudio. Los grupos de control permiten la comparación directa
entre grupos experimentales y la evaluación de sospechas
extrañas influencias. Los controles estadísticos se usan
típicamente cuando los participantes no pueden asignarse
aleatoriamente a condiciones experimentales e implicar
estadísticamente controlando las variables que el investigador
ha identificado como diferentes entre grupos.
potenciales y el control de ellos en consecuencia. La no
aplicación de controles adecuados afecta la capacidad del
buscador re para inferir la causalidad.
Historia
Generalmente, el historial como una amenaza a la validez
interna se refiere a eventos o incidentes que tienen lugar
durante el curso del estudio y que pueden tener un efecto no
deseado e impacto incontrolado en el resultado final del
estudio (o el variable dependiente; Kazdin, 2003c). Estos
eventos tienden a ser globales lo suficiente como para afectar
a todos o la mayoría de los participantes en un estudio. Ellos
pueden ocurrir dentro o fuera del estudio y generalmente
ocurre entre el pre y fases posteriores a la medición de la
variable dependiente. El impacto de la historia como una
amenaza a la validez interna generalmente se ve durante la
medición posterior fase del estudio y es particularmente
frecuente si el estudio es longitudinal y por lo tanto tiene
lugar durante un largo período de tiempo. En consecuencia, el
cuanto mayor sea el período de tiempo entre la premedida y la
posmedida, mayor la posibilidad de que un efecto de historia
pudiera haber confundido los resultados de el estudio
(Christensen, 1988).
Por ejemplo, un evento nacional catastrófico que provoca
ansiedad podría tener un impacto en muchos, si no todos, los
participantes en un estudio para el tratamiento de la
ansiedad. El evento podría producir una escalada en los
síntomas que podrían ser interpretado como un fracaso de la
intervención, cuando, en realidad, es un artefacto del evento
externo en sí. Dependiendo del momento, este externo evento
podría tener un impacto significativo en la medición del
dependiente variable.
Otro ejemplo se puede encontrar en nuestra discusión previa
sobre la efectividad de capacitación en habilidades para
padres sobre síntomas de depresión en adolescentes (vea
Ponerlo en práctica en la página 160). En ese ejemplo, los
síntomas de la depresión se evaluaron 6 meses después de la
intervención de entrenamiento de habilidades parentales. Es
posible que ocurriera algún otro evento significativo
durante ese período de tiempo que podría explicar los
síntomas reducidos de la depresión. Una posibilidad es que
la escuela termine por el año y las vacaciones de verano.
comenzó, lo que produjo una disminución de los síntomas
depresivos entre la muestra de adolescentes. Entonces, la
disminución de la depresión podría deberse a un artefacto
VALIDEZ 163
histórico y no a la variable independiente (es decir, el

padre intervención de entrenamiento de habilidades). Los
eventos históricos también pueden tener lugar dentro de los
límites del estudio, aunque esto es menos común. Por ejemplo,
una discusión entre dos investigadores que tiene lugar a
plena vista de los participantes y no es parte de la
intervención prevista es un evento que puede producir un
efecto de historia.
Maduración
Esta amenaza a la validez interna es similar a la historia
en que se relaciona con cambiar con el tiempo. Sin embargo,
a diferencia de la historia, la maduración se refiere a la
intrínseca cambios dentro de los participantes que
generalmente están relacionados con el paso del tiempo. Los
ejemplos más comúnmente citados de esto involucran tanto
biológicos como cambios psicológicos, como el envejecimiento,
el aprendizaje, la fatiga y el hambre (Christensen, 1988). Al
igual que con la historia, se produce la presencia de cambios
de maduración. entre las fases previas y posteriores a la
medición del estudio e interfiere con interpretaciones de
causalidad con respecto a la independiente y variables
dependientes. Las amenazas históricas y de maduración tienden
a encontrarse en combinación en estudios longitudinales.
En nuestro ejemplo de entrenamiento de habilidades para
padres, ¿podrían los síntomas de depresión mejorar porque los
padres tenían 6 meses adicionales para desarrollarse como
padres, independientemente de la capacitación en habilidades?
Aunque es poco probable, Esta es una hipótesis rival
alternativa que debe ser considerada y controlada para, muy
probablemente a través de la inclusión de un control o
comparación grupo que no recibió la capacitación de
habilidades para padres.
Otro ejemplo sería un estudio que examinara los efectos de
la visualización en entrenamiento de fuerza en adolescentes
varones durante un período específico de hora. A medida que
los varones adolescentes maduran naturalmente, esperaríamos
ver incrementales aumenta en fuerza independientemente de la
intervención de visualización. Entonces, una declaración
causal con respecto a los efectos de la visualización en la
fuerza en los varones adolescentes tendría que ser
calificados en el contexto de la maduración amenaza a la
validez interna. Una vez más, esta amenaza podría minimizarse
mediante el uso de grupos de control o comparación.
Instrumentación
Esta amenaza a la validez interna no
está relacionada con las NO OLVIDES
características de los participantes y Consideraciones importantes
se refiere a cambios en la evaluación Respecto a Instrumentación
de la variable independiente, que
• La estandarización se refiere a la
generalmente son relacionado con pautas establecidas en la
cambios en la medición instrumento o administración
medida procedimientos a lo largo del y puntuación de un instrumento u
otra evaluación método.
tiempo (Christensen, 1988; Kazdin, • La confiabilidad está presente
2003c). En esencia, compromisos de cuando una evaluación método
instrumentación validez interna cuando mide las características de interés
en un Moda consistente.
cambios en la variable dependiente • La validez está presente cuando
resultado de cambios a lo largo del el enfoque a medida utilizada en el
de estudio realmente mide lo que se
tiempo en los instrumentos supone que debe medir
evaluación y criterios de puntuación
utilizados en el estudio. Existe una gran variedad de medidas
y técnicas de evaluación disponible para investigadores y
algunos de estos son más susceptibles a la instrumentación y
efectos que otros. La susceptibilidad de una medida a el sesgo
de instrumentación suele ser una función de estandarización.
La estandarización se refiere a las pautas establecidas en la

administración y la calificación de un instrumento u otro
método de evaluación, y también abarcarlos conceptos
psicométricos de fiabilidad y validez. Un acercamiento la
medición es confiable si evalúa las características de interés
de manera consistente. La validez se refiere a si el enfoque
de la medición utilizada en el estudio en realidad mide lo
que se supone que debe medida. Instrumentos estandarizados y
psicométricamente sólidos son menos susceptibles a los
efectos de la instrumentación, mientras que otros tipos de
evaluación métodos (por ejemplo, evaluadores independientes,
impresiones clínicas, "caseras" instrumentos) aumentan
dramáticamente la posibilidad de instrumentación efectos.
Por ejemplo, un investigador podría usar varios enfoques de
medición en un estudio de tratamiento de la depresión. El
investigador podría usar, para ejemplo, una medida
estandarizada para evaluar los síntomas de depresión, como
como el Inventario de Depresión de Beck (BDI), que es un
autoinforme, papel y prueba de lápiz conocida por su
fiabilidad y validez(Beck et al., 1961). Los BDI también está
estandarizado en que todos los encuestados están expuestos a
lo mismo estímulos, que es un conjunto de preguntas
VALIDEZ 165
relacionadas con los síntomas de la depresión. Este alto nivel

de estandarización en administración y puntuación lo hace
improbable que los efectos de instrumentación estén
presentes. En otras palabras, a menos que los investigadores
alteren los ítems del BDI, modifiquen la administración
procedimientos, o cambió a una versión diferente del
instrumento a mitad del estudio, no esperaríamos que la
instrumentación sea una amenaza significativa para la validez
interna del estudio.
Por el contrario, otros enfoques PRECAUCIÓN
de medición son más susceptibles a
Efectos de
posibles efectos de
instrumentación
instrumentación. Hay muchas formas
diferentes de medir la Los efectos de la instrumentación son
construcción de la depresión. mínimos prevalente cuando se usa
estandarizado, instrumentos
Supongamos que el BDI no estaba psicometricamente sanos para medir las
disponible, así que el variables de interés. Cuando tal las
investigador tuvo que confiar en medidas no están disponibles, el
probabilidad de efectos de
algún otro método para evaluar el instrumentación se eleva dramáticamente
Impacto del tratamiento sobre los De tal casos, capacitación continua de
evaluadores y las comprobaciones de
síntomas de la depresión. Una fiabilidad entre evaluadores son una
solución común para este problema necesidad absoluta.
podría ser tener evaluadores
independientes que evalúen el nivel de síntomas basado en
criterios de diagnóstico clínico y luego evaluar a los
participantes en el transcurso de la intervención. Este tipo
de enfoque de medición, Si se implementa mal, aumenta
drásticamente la probabilidad de instrumentación efectos.
La principal preocupación es que el los evaluadores pueden
tener diferentes estándares para lo que califica como reunión
los criterios para los síntomas de depresión. Asumamos que el
evaluador A requiere una discapacidad significativamente
mayor en funcionamiento desde un participante antes de
reconocer esa depresión o depresiva Los síntomas están
realmente presentes. Además, los estándares del evaluador
para identificar los síntomas y hacer el diagnóstico de
depresión podría fluctuar significativamente con el tiempo,
lo que agrega otra capa de dificultad cuando el investigador
intenta interpretar el impacto del tratamiento (la variable
independiente) en depresión (la variable dependiente). Sin
estandarización, hay una probabilidad significativa de que
cualquier cambio en la variable dependiente sobre el curso de
tratamiento podría ser el resultado de cambios en los
criterios de puntuación y No la intervención en sí. Estos
problemas generalmente se abordan de manera continua

entrenamiento y frecuentes controles de confiabilidad entre
evaluadores (un método estadístico para determinar el nivel
de consistencia y acuerdo entre diferentes evaluadores).
Pruebas
Esta amenaza a la validez interna se refiere a los efectos de
tomar una prueba en una ocasión puede tener en
administraciones posteriores de la misma prueba (Kazdin,
2003c). En esencia, cuando se mide a los participantes en un
estudio varias veces en la misma variable (por ejemplo, con
el mismo instrumento o prueba), su rendimiento puede verse
afectado por factores como la práctica, la memoria,
sensibilización y expectativas de los participantes e
investigadores (Pedhazur & Schmelkin, 1991). Esta amenaza a
la validez interna se encuentra con mayor frecuencia en
investigación longitudinal donde los participantes son
medidos repetidamente en las mismas variables a lo largo del
tiempo. La principal preocupación con esta amenaza a la
validez interna es que los resultados del estudio podrían
estar relacionados con la repetición prueba o evaluación y no
la variable independiente en sí.
Por ejemplo, consideremos un estudio hipotético diseñado para
evaluar el impacto de las técnicas de imágenes guiadas en la
retención de una serie de símbolos Primero, cada participante
está expuesto a los símbolos aleatorios y luego pidió
reproducir la mayor cantidad posible de memoria después de
unos 15 minutos de retraso. Esto sirve como una prueba previa
o una medida de referencia del rendimiento de la memoria.
Luego, los participantes están expuestos a la intervención,
que es una serie de técnicas de imágenes guiadas que los
investigadores creen que mejorarán retención de los símbolos.
Los investigadores creen que recordar el los símbolos
aumentarán a medida que los participantes aprendan cada una
de las seis técnicas de imágenes, con el mayor nivel de
recordación después de que los participantes hayan aprendido
todas las técnicas de imágenes. En este caso, la técnica de
imágenes guiadas es la intervención o variable independiente,
y la recuperación de los símbolos aleatorios es la variable
dependiente Los participantes están expuestos a seis
aprendizajes juicios. Durante cada prueba, al participante se
le enseña una nueva técnica de imágenes, expuesto a los mismos
estímulos de símbolos aleatorios, y luego pidió reproducir
tantos como sea posible después de un retraso de 15 minutos.
Idealmente, los participantes están utilizando sus técnicas
VALIDEZ 167
de imágenes para ayudar a retener los símbolos. Tenga en

cuenta aquí que los participantes están siendo evaluados en
el mismo conjunto de símbolos en seis ocasiones diferentes,
y que el símbolo establecido en este ejemplo es el instrumento
de prueba y la medida de resultado. Los investigadores corren
sus ensayos y confirman sus hipótesis. Los participantes se
desempeñan por encima de la línea de base expectativas después
de la primera prueba y su rendimiento mejora constantemente
ya que están expuestos a técnicas de imágenes adicionales. El
mejor el rendimiento se ve después de implementar la técnica
de imágenes final.
¿Se puede decir que las técnicas de imágenes son la causa de
la mejora retención de los símbolos aleatorios? Los
investigadores podrían hacer esa afirmación, pero la
presencia de un efecto de prueba socava seriamente la
credibilidad de sus resultados. Recuerde que los
participantes están expuestos a la misma prueba o resultado,
los símbolos aleatorios, en al menos siete diferentes
ocasiones. Esto introduce una hipótesis rival plausible
fuerte de que la mejora en la retención se debe simplemente
a un efecto de práctica, o la exposición repetida a los mismos
estímulos. Como los investigadores no tuvieron en cuenta esta
posibilidad con un grupo de control o variando el contenido
del estímulo del símbolo, Esto sigue siendo una explicación
legítima de los hallazgos. En otras palabras, el efecto de la
práctica proporciona una hipótesis alternativa plausible.
Regresión estadística
Esta amenaza a la validez interna se refiere a un fenómeno
estadístico por el cual puntajes extremadamente altos o bajos
en una medida tienden a revertir hacia la aritmética media o
promedio de la distribución con pruebas repetidas
(Christensen, 1988; Kazdin, 2003c; Neale y Liebert, 1973).
Por ejemplo, supongamos que obtuvimos el siguiente conjunto
de puntajes en nuestra medida de retención de símbolos del
ejemplo anterior: 5, 12, 18, 19, 27, 42, 55 y 62. La media
para este conjunto de puntajes es
30 (240 ÷ 8 = 30). En promedio, los NO OLVIDES
participantes en el estudio
Valores atípicos
recordaron 30 símbolos aleatorios
Un valor atípico es una
cuando se evalúa la retención. En
puntuación que se encuentra
general, la regresión estadística
sugiere que, con el tiempo y la
muy lejos el rango normal
administración repetida de la
de una distribución de
evaluación de la memoria, nosotros puntajes.
esperaríamos que las puntuaciones en esta matriz se reviertan

más cerca de la puntuación media de 30. Esto es
particularmente cierto en el caso de puntajes extremos que se
encuentran muy lejos de lo normal gama de una distribución.
Estos puntajes extremos también se conocen como valores
atípicos. En una distribución de puntajes con una media de
30, sería razonable Identificar, como mínimo, las
puntuaciones de 5 y 62 como valores atípicos. Entonces, en
nuestra próxima administración de la prueba de memoria,
esperaríamos que todos estos puntajes revertir más cerca de
la media, independientemente del efecto de la intervención (o
independiente variable). Además, probablemente veríamos el
movimiento más grande hacia la media en los puntajes más
extremos.
Este fenómeno es particularmente prevalente en la
investigación en que es un diseño pre y post prueba utilizado
para evaluar la variable de interés o cuando los participantes
son asignados a grupos experimentales basado en puntajes
extremos. Vamos a considerar un ejemplo diferente para
ilustrar este punto. Un estudio está diseñado para evaluar
el impacto de un nuevo 10- semana de tratamiento para la
ansiedad. Los investigadores están interesados en los efectos
de su nuevo tratamiento en niveles de ansiedad bajos, medios
y altos según lo determinado por una puntuación en una medida
estandarizada de ansiedad. Los investigadores Esperamos que
su nuevo tratamiento reduzca los síntomas de ansiedad cada
una de las tres condiciones. En consecuencia, cada
participante es administrado la medida de ansiedad como
prueba previa para determinar su ansiedad actual nivel y
luego se asigna a uno de los tres grupos: bajo, medio o alto
ansiedad: sobre la base de puntajes de corte predeterminados.
En aras de la claridad, supongamos que el nivel medio de
ansiedad para toda la muestra fue de 30, en la media para el
grupo de baja ansiedad fue 12, la media para la ansiedad
media grupo fue de 29, y la media para el grupo de alta
ansiedad fue de 42.
Cada uno de estos grupos recibe tratamiento y evaluación
continuos. durante el protocolo de 10 semanas. Los resultados
del estudio sugieren que la ansiedad las puntuaciones
aumentaron en la condición de baja ansiedad, se mantuvieron
aproximadamente igual en la condición de ansiedad media, y
disminuyó en la condición de ansiedad alta. Nuestros
investigadores algo desconcertados concluyen que su
tratamiento es efectivo solo para casos de ansiedad severa,
VALIDEZ 169
exacerba los síntomas en individuos con síntomas mínimos de

ansiedad y tiene poco o ningún efecto sobre Niveles moderados
de ansiedad. Aunque estos hallazgos pueden ser precisos, es
También es posible que sean el resultado de una regresión
estadística. Las puntuaciones en el grupo de alta ansiedad
podrían haber vuelto al promedio general del grupo sobre las
10 semanas, dando la impresión de que la reducción de los
síntomas fue el resultado de la intervención. Del mismo modo,
el aumento percibido de los síntomas en el grupo de baja
ansiedad podría ser el resultado de que esas puntuaciones bajas
se muevan hacia la media general del grupo. En otras palabras,
las puntuaciones medias para ambos los grupos incluyeron
puntajes extremos o valores atípicos, que luego fueron
influenciados por regresión a la media. Por lo tanto, es
posible que hubiéramos visto los mismos resultados incluso sin
el impacto de la variable independiente. Tenga en cuenta que
el grupo de ansiedad media no cambió y que este fue el grupo
cuyo puntaje promedio fue más cercano al promedio general de
la muestra, que lo hace menos susceptible a los efectos de la
regresión estadística. Esto podría explicar la posible
conclusión errónea de que el protocolo de tratamiento fue
ineficaz en los síntomas moderados de ansiedad.
Sesgos de selección
Esta amenaza a la validez interna se refiere a diferencias
sistemáticas en la asignación de participantes a condiciones
experimentales. Como se señaló en el Capítulo 5, los sesgos de
selección son frecuentes en la investigación cuasi-
experimental en la que los participantes son asignados a
condiciones experimentales o de comparación grupos de manera
no aleatoria (Christensen, 1988; Kazdin, 2003c; Rosnow y
Rosenthal, 2002). Recuerde, la aleatorización está diseñada
para controlar para diferencias sistemáticas entre los
participantes a través de experimental y control grupos En
esencia, la aleatorización distribuye y equipara grupos de
manera uniforme en cualquier posible variable de confusión.
Sin aleatorización, es más difícil de explicar y controlar
estas variaciones sistemáticas en las características de los
participantes. Como con todas las amenazas a la validez
interna, el sesgo de selección puede tener un impacto negativo
en la capacidad del investigador para hacer inferencias
causales sobre los efectos de la variable independiente.
Como se mencionó anteriormente, los sesgos de selección son

comunes en la investigación cuasiexperimental en la que no se
puede lograr la aleatorización. El ejemplo más común de esto
es cuando el experimentador intenta realizar investigaciones
en un entorno o bajo un conjunto de circunstancias donde el
los grupos ya están formados y no pueden ser alterados. En
otras palabras, para cualquiera sea la razón, la aleatorización
no es factible o posible. Por ejemplo, consideremos un diseño
para evaluar la efectividad de un aula intervención para
mejorar las habilidades matemáticas en dos clases de alumnos
de tercer grado. Porque los estudiantes ya están asignado a
clases, aleatorización no es posible, y el estudio es por lo
tanto cuasi-experimental en naturaleza. Ambas clases reciben
una prueba previa apropiada para el grado. Clase 1 recibe la
intervención matemática y la clase 2 no. En esto caso, la clase
2 está actuando como control grupo porque no recibe la
intervención. Ambas clases entonces recibir una prueba
posterior. Si la clase 1 funciona mejor, ¿es seguro concluir
que la intervención, o variable independiente, ¿es responsable
de la mejora? A pesar de esto es posible, hay una serie de
hipótesis rivales plausibles que no tienen sido controlado
por. La mayoría de estas hipótesis giran en torno a
preexistentes diferencias entre los dos grupos (es decir,
antes de que se administrara la intervención). Por ejemplo,
es posible que los estudiantes de la clase 1 sean más
motivados o maduros que sus contrapartes en la Clase 2. De
hecho, cualquier diferencia preexistente entre las
composiciones de los dos grupos
es una amenaza para validez
interna. Cualquiera de estas
Sesgos de selección
diferencias podría proporcionar
una explicación válida para los Los sesgos de selección
resultados de la intervención son comunes en diseños
matemática. cuasi-experimentales y
puede interactuar con
Desgaste
otras amenazas a
Esta amenaza a la validez validez interna, como
interna se refiere a la pérdida maduración, historial o
diferencial y sistemática. de instrumentación, para
participantes de grupos producir efectos que
experimentales y de control. En tal vez no ser
esencia, los participantes atribuible a la
abandonan el estudio de una variable independiente
manera sistemática y no
aleatoria que puede afectar la
VALIDEZ 171
composición original de los grupos formados a los efectos del

estudio (Beutler y Martin, 1999). El resultado neto potencial
del desgaste es que Los efectos de la variable independiente
pueden deberse a la pérdida de participantes y no a la
manipulación de la variable independiente. Los comentaristas
han señalado que esta amenaza a la validez interna es común
en la investigación longitudinal y es una función directa del
tiempo (Kazdin, 2003c; Phillips, 1985). En general, las tasas
de deserción promedian entre 40 y 60% en la investigación de
intervención longitudinal, con la mayoría de los participantes
que abandonaron durante las primeras etapas del estudio
(Kazdin). Se aplica el desgaste para la mayoría de las formas
de diseños grupales y de casos únicos y puede ser una amenaza
para la validez interna incluso después de que el investigador
haya asignado participantes al azar a grupos experimentales y
de control. Esto se debe a que el desgaste ocurre cuando
el estudio progresa y después de que los participantes hayan
sido asignados a cada una de las condiciones El desgaste
plantea la posibilidad de que los grupos difieran en ciertas
características que originalmente se controlaron mediante
aleatorización. En otras palabras, los participantes restantes
ya no representan la muestra original y los grupos podrían no
ser equivalentes. Consideremos un ejemplo. Un investigador
decide realizar un estudio de La efectividad de un nuevo
medicamento sobre los síntomas de ansiedad.
Aleatorización
Se usa para asignar a los participantes un medicamento (es
decir, experimental) grupo o grupo placebo (es decir,
control). Supongamos que en el transcurso de En el estudio,
los participantes en el grupo experimental experimentan
algunos efectos secundarios relativamente graves de la
medicación y un aumento de la ansiedad, haciendo que algunos
abandonen el estudio. El grupo placebo no experimenta los
efectos secundarios, por lo que la tasa de abandono es menor
en ese grupo. Los niveles promedio de ansiedad de los dos
grupos se comparan al final del estudio y los resultados
sugieren que los participantes en la medicación grupo están
menos ansiosos que los del grupo placebo. Los resultados
parecen para apoyar la conclusión de que la medicación fue
efectiva para el tratamiento de la ansiedad. El problema con
esta conclusión es que los resultados son potencialmente
confundidos por el desgaste. Si ningún participante del
estudio hubiera caído fuera del grupo de medicamentos, es
probable que los resultados hubieran sido diferentes. En este
ejemplo, observe que la deserción aún era un factor después

de la aleatorización y que la muestra final probablemente era
muy diferente de la muestra original utilizada para formar
los grupos experimentales y de control.
Difusión o imitación del tratamiento
Esta amenaza a la validez interna es común en varias formas
de medicina e investigación de efectividad del tratamiento de
psicoterapia, y se manifiesta en dos conjuntos de
circunstancias distintas pero relacionadas. El primer conjunto
de circunstancias es la exposición no intencional de un
control. grupo a la intervención real o similar (variable
independiente) destinada solo para la condición experimental
(Kazdin, 2003c; Pedhazur y Schmelkin, 1991). Consideremos un
estudio que examina los beneficios relativos de ejercicio y
asesoramiento nutricional sobre pérdida de peso. Los
investigadores plantean la hipótesis de que el ejercicio es
más efectivo que el asesoramiento nutricional y Asigne a los
participantes a un ejercicio, asesoramiento nutricional o
grupo de control sin intervención. El grupo experimental
recibe un régimen de ejercicio personalizado, el grupo
nutricional recibe asesoramiento nutricional general, y el
grupo de control simplemente se controla por peso pérdida
o ganancia por el mismo período de tiempo.
Durante el curso del estudio, un consejero nutricional bien
intencionado pero equivocado ensalza los beneficios del
ejercicio para los miembros del grupo de asesoramiento
nutricional. Este asesoramiento adicional no formaba parte de
El diseño original y los investigadores no son conscientes de
que está teniendo lugar. Aunque el grupo de asesoramiento
nutricional no está recibiendo la intervención de ejercicio
real, la discusión del ejercicio con este grupo podría tener
Un efecto involuntario e incontrolado. Por ejemplo, este
conocimiento podría alentar a los participantes en el grupo
nutricional a buscar sus programas de ejercicio propio o para
cambiar sus hábitos cotidianos de tal manera eso aumenta su
nivel de actividad general, como subir las escaleras del
ascensor. Si ese es el caso, el grupo nutricional ha recibido
una intervención similar al grupo experimental. Como mínimo,
el los resultados podrían confundirse porque la condición
nutricional no se está entregando como los investigadores
pretendieron originalmente, porque la condición de ejercicio
se ha difundido en el grupo nutricional. La amenaza a la
validez interna en este ejemplo radica en la posibilidad de
que el ejercicio y grupos nutricionales han recibido
VALIDEZ 173
intervenciones similares, que podrían igualar el rendimiento

en todos los grupos (Kazdin, 2003c).
El segundo conjunto de circunstancias surge cuando el grupo
experimental no recibe la intervención prevista en absoluto
(Kazdin, 2003c; Pedhazur Y Schmelkin, 1991). En el primer
caso, los participantes en un grupo de control obtener
conocimiento o estar expuesto involuntariamente a lo
experimental intervención (la variable independiente). En este
caso, el investigador cree que el grupo experimental ha
recibido la intervención cuando, en realidad, no lo ha hecho.
Esta es una amenaza común en muchas formas de psicoterapia.
investigación. Tomemos, por ejemplo, un estudio que compara
la efectividad de comportamiento y psicodinámicas terapias
para la depresión. Dos los terapeutas son reclutados y
capacitado para realizar las intervenciones. Ambos terapeutas
son psicodinámicos en su orientación, entonces uno recibe
entrenamiento suplementario en técnicas de comportamiento. Los
participantes reciben uno de los dos tratamientos y los
resultados sugieren que ambos son igualmente efectivos. Lo que
los investigadores no saben es que el terapeuta conductual se
ha desviado intencionalmente o no del protocolo especificado
en tiempos y elementos incluidos del tratamiento psicodinámico
en la condición conductual. En otras palabras, el grupo de
comportamiento podría no tener recibió una intervención
conductual en absoluto. En el mejor de los casos, han recibido
un híbrido de tratamiento psicodinámico y conductual. Como en
nuestro ejemplo anterior, en lugar de comparar dos condiciones
distintas, los investigadores podrían estar comparando dos
condiciones que son más similares a las previstas por El diseño
original de la investigación. De nuevo, esto podría igualar
el rendimiento de los grupos experimentales y de control, que
podrían tener el efecto de distorsionar o nublar los
resultados del estudio.
Tratamiento especial o reacciones de los controles
Estas amenazas relativamente comunes a la validez interna
pueden ser causadas por Tratamiento especial, a menudo
compensatorio, o atención prestada al control grupo. Incluso
en ausencia de atención o tratamiento especial, los controles
pueden darse cuenta de que están en una condición "menor" y
reaccionar compitiendo o mejorando su rendimiento. Cualquiera
de estas situaciones puede igualar el rendimiento de las
condiciones experimentales y de control y por lo tanto,
"lavado" diferencias entre grupos en la variable dependiente
(Christensen, 1988; Kazdin, 2003c; Pedhazur y Schmelkin,
1991). Especial El tratamiento en sí es una amenaza

relativamente común para la validez interna y puede estar
relacionado con cualquier número de actividades realizadas con
el grupo de control (no intervención). Recuerde que en este
caso, la intervención es también la variable independiente.
Estos factores van desde la simple interacción humana a
ejemplos más concretos, como compensación financiera o
privilegios especiales. Por ejemplo, la atención sola podría
producir un cambio no deseado en el comportamiento.
Supongamos que hay dos grupos en un estudio de depresión. El
grupo de intervención o experimental recibe terapia mientras
que el grupo control simplemente se controla semanalmente para
determinar la gravedad de los síntomas. El monitoreo consiste
en una entrevista estructurada de una hora de duración con un
asistente de investigación. Esta la atención social semanal
podría actuar como una intervención a pesar del hecho de que
estaba destinado solo para fines de monitoreo. Quizás la
entrevista da los participantes de control tienen la
oportunidad de discutir sus síntomas, que produce cierto
alivio de los síntomas incluso sin terapia per se. Después de
todo, el apoyo social se ha relacionado con resultados
positivos para la depresión. Los El mismo efecto puede
observarse incluso en ausencia de contacto humano.
Por ejemplo, simplemente completando una medida de autoinforme
de síntomas depresivos en una habitación vacía podría tener
el mismo efecto al aumentar la conciencia de la controlar a
los participantes con respecto a su nivel actual de síntomas.
Reforzadores y otros incentivos pueden tener un efecto
similar. Darles a los participantes de control dinero o
privilegios especiales podría tener un impacto en los niveles
de depresión al aumentar la autoestima o reducir la
desesperanza. Como la difusión o imitación del tratamiento,
esta amenaza a la validez interna podría igualar rendimiento
de los grupos experimentales y de control, que podrían tener
El efecto de distorsionar o nublar los resultados del estudio.
En conclusión, amenazas a la
PRECAUCIÓN
validez interna de un Difusión o Imitación de
estudio (resumido en La tratamiento
referencia rápida 6.1) es Difusión o imitación del
común y, a veces, tratamiento. Es una amenaza
inevitable. Pueden ocurrir para la validez interna porque
puede igualar el rendimiento
solos o en combinación, y
de los grupos experimentales y
pueden crear hipótesis de control.
alternativas plausibles no
VALIDEZ 175
deseadas para los resultados de un estudio. Estas hipótesis

rivales pueden dificultar la determinación de la causalidad.
Algunas de estas amenazas se pueden manejar de manera efectiva
a través de componentes de diseño (por ejemplo, grupos de
control y aleatorización) al comienzo del estudio, mientras
que otras (por ejemplo, desgaste) lugar durante el curso del
estudio. Tener en cuenta estas amenazas es un aspecto crítico
y una función de la metodología de investigación que debería
tener lugar, si es posible, en la etapa de diseño del estudio.
Consulte el Capítulo 3 para una discusión general de estas
estrategias.
VALIDEZ EXTERNA
La validez externa se refiere a la generalización de los
resultados de un estudio de investigación. En todas las formas
de diseño de investigación, los resultados y conclusiones del
estudio se limita a los participantes y las condiciones
definidas por el contorno del estudio. Validez externa
(compárese con la validez ecológica en la referencia rápida
6.2) se refiere al grado en que los resultados de la
investigación se generalizan a otras condiciones,
participantes, horarios y lugares (Graziano y Raulin, 2004).
Referencia rápida 6.1
• Historial: Eventos o incidentes globales internos o externos
que toman lugar durante el curso del estudio que podría haber
sido involuntario e impactos no controlados en el resultado
final del estudio (es decir, en la variable dependiente).
• Maduración: Cambios intrínsecos dentro de los participantes
que generalmente son relacionado con el paso del tiempo.
• Instrumentación: Cambios en la evaluación de los
independientes. variables que generalmente están relacionadas
con cambios en el instrumento de medición o procedimientos de
medición a lo largo del tiempo.
• Pruebas: Los efectos que puede tener tomar una prueba en una
ocasión administraciones posteriores de la prueba. Se
encuentra con mayor frecuencia en investigación longitudinal,
en la que los participantes se miden repetidamente en Las
mismas variables de interés a lo largo del tiempo.
• Regresión estadística: Fenómeno estadístico, prevalente en
pretest y diseños posteriores a la prueba, en los que los
puntajes extremadamente altos o bajos en una medida tienden a
revertir hacia la media de la distribución con repetidas
pruebas.
• Sesgo de selección: Diferencias sistemáticas en la

asignación de participantes a condiciones experimentales.
• Desgaste: Pérdida de participantes en la investigación que
pueden alterar la original composición de grupos y comprometer
la validez del estudio.
• Difusión o imitación del tratamiento: Exposición
involuntaria de un grupo de control a una intervención
destinada solo para el experimental grupo, o una falla al
exponer el grupo experimental a la intención intervención.
Este factor de confusión ocurre con mayor frecuencia en los
estudios de intervención médica y psicológica.
• Tratamiento especial o reacciones de controles:
Relativamente común amenazas a la validez interna en las
cuales (1) especiales o compensatorias Se da tratamiento o
atención a la condición de control, o (2) los participantes
en la condición de control, como resultado de su asignación,
reaccionan o compensar de una manera que mejore o altere su
rendimiento.

Validez Ecológica y Temporal
Aunque los términos "validez ecológica" y "validez externa" a
veces se usan indistintamente, se puede establecer una
distinción clara entre dos. De los dos, la validez externa es
un concepto más general. Se refiere al grado en que los
resultados de la investigación se generalizan a otras
condiciones, participantes, tiempos y lugares, y en última
instancia se preocupa por las conclusiones que se pueden
extraer sobre la fuerza de la relación causal inferida entre
las variables independientes y dependientes de las
circunstancias más allá de los estudiados experimentalmente.
La validez ecológica es más específica. concepto que se
refiere a la generalización de los resultados obtenidos en un
entorno de laboratorio para el mundo real.
La validez temporal es otro término que se relaciona
ampliamente con la validez externa. Se refiere a la medida en
que los resultados de un estudio pueden generalizarse a través
del tiempo. Más específicamente, este tipo de validez se
refiere a los efectos de fluctuaciones estacionales, cíclicas
VALIDEZ 177
y específicas de la persona que pueden afectar la

generalización de los hallazgos del estudio.
Por lo tanto, un estudio tiene más validez externa cuando los
resultados se generalizan más allá de la muestra de estudio a
otras poblaciones, entornos y circunstancias. La validez
externa se refiere a conclusiones que se pueden extraer sobre
la fuerza de la relación causal inferida entre las variables
independientes y dependientes para circunstancias más allá de
las estudiadas experimentalmente. En otras palabras, ¿serían
los resultados de nuestro Qué estudio aplica a diferentes
poblaciones, entornos o conjuntos de circunstancias? Si es
así, entonces el estudio tiene Fuerte validez externa. Por
ejemplo, consideremos un estudio diseñado para determinar la
efectividad de una nueva intervención para la ansiedad ante
los exámenes. De nuevo, la intervención es la variable
independiente, mientras que la ansiedad de prueba es la
variable dependiente.
El estudio se está llevando a cabo en una importante
universidad de la costa este, y los participantes son
estudiantes universitarios de primer año que actualmente toman
una clase de psicología de nivel introductorio. Aunque esto
puede no parecer realista a primera vista, muchos Los estudios
se realizan con estudiantes universitarios porque son
fácilmente accesibles y forman muestras de conveniencia
(Kazdin, 2003c). Los estudiantes son evaluados para determinar
sus niveles de ansiedad ante los exámenes y luego son asignados
a un grupo de control sin tratamiento o un grupo experimental
que recibe la
intervención. La nueva NO OLVIDES
terapia es notablemente
Validez externa
efectiva y
La validez externa es el grado de
significativamente
qué resultados de investigación
reduce la ansiedad de
generalizan a otras condiciones,
prueba en el grupo
participantes, tiempos y
experimental. Los
lugares. La validez externa es
investigadores
relacionado con conclusiones que
inmediatamente
pueden ser dibujado sobre la
comercializan su
fuerza de la relación causal
intervención como un
inferida entre el independiente y
tratamiento generalmente
dependiente variables a
efectivo para Examen de
circunstancias más allá aquellos
ansiedad. ¿Pueden los
investigadores apoyar su estudiados experimentalmente.
reclamo basado en los resultados de su estudio? Con suerte,
ya te has dado cuenta de que este estudio tiene graves fallas

relacionadas con la validez interna, pero dejemos eso de lado
para propósitos de este ejemplo y se centran solo en cuestiones
relacionadas con la validez externa.
Recuerde que la validez externa es el grado en que los
resultados de la investigación generalizar a otras
condiciones, participantes, horarios y lugares. Un estudio
tiene validez externa cuando los resultados se generalizan a
otras poblaciones, entornos, y circunstancias. En nuestro
ejemplo, los investigadores han encontrado que su la
intervención efectivamente reduce la ansiedad de la prueba, y
están asumiendo que es efectivo en una amplia variedad de
entornos y poblaciones. Podrían sea correcto, pero el diseño
de este estudio no tiene una fuerte validez externa por varias
razones, lo que socava la afirmación de que la intervención
es efectiva para otras poblaciones. Primero, el estudio se
realizó con una muestra de estudiantes universitarios de
primer año inscritos en un curso de psicología de nivel
introductorio. Este es un muy estrecho muestra; ¿Se aplicarían
los resultados a poblaciones más amplias, como niños de
primaria, estudiantes de secundaria o estudiantes de último
año de universidad? ¿El Los resultados se aplican a
estudiantes universitarios de primer año que no se
inscribieron en una clase de psicología de nivel
introductorio? No lo sabemos con certeza porque estos
individuos no se incluyeron en la muestra utilizada en el
estudio.
En segundo lugar, ¿se aplican los resultados a otros entornos,
como diferentes universidades, escuelas secundarias, clases y
entornos empresariales? La efectividad de la intervención
podría limitarse al entorno en el que se llevó a cabo el
estudio. Por ejemplo, podríamos encontrar que los resultados
no se generalizan a las universidades de la costa oeste o a
las escuelas secundarias. En otras palabras, la eficacia de la
intervención podría ser específica de la población
representada por la muestra utilizada en el estudio.
Tercero, ¿hay algo único en las condiciones del estudio? Por
ejemplo, ¿se llevó a cabo el estudio alrededor de exámenes de
mitad de período o finales, cuando los niveles de ansiedad
podrían ser inusualmente altos? ¿Habría sido tan eficaz la
intervención si el estudio hubiera ocurrido en un momento
diferente durante el semestre? Como se mencionó anteriormente,
la respuesta es que no sabemos con certeza. En términos de
validez externa, la declaración más precisa que se puede hacer
VALIDEZ 179
a partir de los resultados de nuestro estudio hipotético es

que la intervención fue efectiva para los estudiantes de primer
año de la universidad en clases de psicología introductoria en
una importante universidad de la costa este. Cualquier otra
conclusión no sería necesariamente apoyada, y sería necesaria
una investigación adicional en diferentes momentos, lugares y
condiciones para apoyar cualquier otra conclusión.
Amenazas a la validez externa

Al igual que con la validez interna, hay confundaciones y
características de un estudio que pueden limitar la
generalización de los resultados. Estas características y
confundas se conocen colectivamente como amenazas a la
validez externa, e incluyen características de muestra,
características y ajustes de estímulo, reactividad de los
arreglos experimentales, interferencia de tratamiento
múltiple, efectos de novedad, reactividad de la evaluación,
sensibilización de pruebas y momento de medición (Kazdin,
2003c). El control de estas influencias permite a los
investigadores generalizar con mayor confianza los resultados
del estudio a otras circunstancias y poblaciones (Kazdin;
Rosnow & Rosenthal, 2002).
Características de la muestra
Esta amenaza a la validez externa se refiere a un fenómeno por
el que los resultados de un estudio se aplican sólo a una
muestra en particular. Por consiguiente, no está claro si los
resultados pueden aplicarse a otras muestras que varían en
función de características como la edad, el género, la
educación y el estatus socioeconómico (Kazdin, 2003c).
Un ejemplo de características de muestra se puede encontrar en
nuestra discusión anterior sobre la validez externa. En ese
ejemplo, observamos que la muestra consistía en estudiantes de
primer año universitarios inscritos en una clase de psicología
de nivel introductorio. Como señalamos, no podemos suponer que
los resultados de ese estudio necesariamente se mantendrían
para una muestra diferente, como los estudiantes de secundaria
o los niños de la escuela primaria. Además, ni siquiera podemos
suponer que los hallazgos serían válidos para los estudiantes
de primer año de la universidad en general. A través de
investigaciones adicionales, podríamos descubrir que la
intervención fue efectivamente sólo para los estudiantes de
psicología y no generalizó a los estudiantes de primer año que
tomaron clases de negocios o ciencias de nivel introductorio.
En otras palabras, incluso esta diferencia sutil en las

características de la muestra puede tener un efecto
significativo en la generalización de los resultados de un
estudio. Claramente, no sería posible ni práctico incluir todas
las características de población posibles en nuestra muestra,
por lo que siempre nos enfrentamos a la posibilidad de que las
características de la muestra sean una confunde a la validez
externa de cualquier estudio. En consecuencia, conclusiones.
NO OLVIDAR
………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………
Características de la diversidad
Las características de la muestra pueden abarcar una amplia
variedad de rasgos y características demográficas, siendo
algunos de los más comunes la edad, el género, la educación y
el estatus socioeconómico. Los comentaristas han observado que
algunas características relacionadas con la diversidad no
están bien representadas en la mayoría de las formas de
investigación (Kazdin, 2003c). La principal preocupación en
esta área es que hay una sobrerrepresentación de algunos
grupos, como los estudiantes universitarios; y una inclusión
relacionada y limitada de grupos subrepresentados y
minoritarios, como los hispanoamericanos y las mujeres. Las
características de la diversidad son un tema importante en
términos de validez externa, y pueden tener consecuencias
importantes y de gran alcance para todos los estratos de la
sociedad. Por ejemplo, los resultados de un estudio de eficacia
de medicamentos realizado sólo en hombres blancos podrían no
ser válidos para un grupo racial diferente. Las posibles
ramificaciones deben ser obvias. Del mismo modo, un estudio
diseñado para proporcionar la información necesaria para tomar
una decisión importante de política pública debe incluir una
muestra lo suficientemente diversa como para capturar con
precisión el grupo en particular que se verá directamente
afectado por la decisión. Aunque estos son sólo dos ejemplos,
los factores de diversidad deben ser considerados en todos los
tipos de investigación.
Los resultados de un estudio tienden a limitarse a las

características representado por la muestra utilizada en el
estudio.
Características y ajustes de estímulo
Esta amenaza a la validez externa se refiere a un fenómeno
ambiental en el que características o condiciones particulares
del estudio limitan la generalización de los hallazgos
(Brunswik, 1955; Pedhazur & Schmelkin, 1991).
Cada estudio opera bajo un conjunto único de condiciones y
circunstancias relacionadas con el arreglo experimental. Los
ejemplos más citados incluyen el entorno de investigación y
VALIDEZ 181
los investigadores involucrados en el estudio. La principal

preocupación con esta amenaza a la validez externa es que los
hallazgos de un estudio están influenciados por un conjunto de
condiciones únicas, y por lo tanto no necesariamente pueden
generalizarse a otro estudio, incluso si el otro estudio
utiliza una muestra similar.
Volvamos de nuevo a nuestro ejemplo anterior que implica la
intervención para la ansiedad de prueba. Ese estudio encontró
que la intervención fue eficaz para la ansiedad de las pruebas
con estudiantes de primer año universitarios inscritos en una
clase de psicología de nivel introductorio en una importante
universidad de la costa este. Un colega de una universidad de
la costa oeste decide replicar el estudio utilizando una
muestra de estudiantes de primer año universitarios inscritos
en una clase de psicología de nivel introductorio. A pesar de
seguir nuestros procedimientos de la costa este al escrito,
nuestro colega no encuentra que la intervención fue efectiva.
Aunque podría haber una serie de explicaciones para esto, es
posible que un estímulo-características-y ajustes confundir
está presente. El entorno en el que se realiza la intervención
es sin duda diferente en la universidad de nuestro colega de
la costa oeste, por ejemplo, podría ser menos cómodo que
nuestro entorno de la costa este. Del mismo modo, un individuo
diferente está entregando la intervención a los estudiantes de
primer año de la universidad en la costa oeste, y este
individuo podría ser menos competente o menos accesible que su
contraparte de la costa este. Cada uno de ellos es un ejemplo
de fuentes potenciales de características y configuraciones de
estímulo.
Reactividad de los arreglos experimentales
Esta amenaza a la validez externa se refiere a una variable
potencialmente confundente que es el resultado de la influencia
producida por saber que uno está participando en un estudio de
investigación (Christensen, 1988). En otras palabras, la
conciencia de los participantes que están en un estudio puede
tener un impacto en sus actitudes y comportamiento durante el
curso del estudio. Esto, a su vez, puede tener un impacto
significativo en cualquier resultado obtenido del estudio y es
especialmente problemático cuando los participantes conocen el
propósito o hipótesis del estudio. Discutimos estrategias para
limitar el conocimiento de los participantes sobre las
hipótesis de un estudio en el Capítulo 3. Como amenaza a la
validez externa, la cuestión se convierte en si se habrían
obtenido los mismos resultados si los participantes hubieran
desinformado de que estaban siendo estudiados (Kazdin, 2003c).

Esta amenaza a la validez externa es muy común. La razón
principal de esto es que las normas éticas requieren que los
participantes proporcionen consentimiento informado antes de
participar en la mayoría de los estudios de investigación.
Por ejemplo, consideremos un estudio diseñado para evaluar la
eficacia de un programa de modificación del comportamiento de
10 semanas ideado para reducir la reincidencia en los
delincuentes adolescentes. El grupo experimental recibe la
intervención (es decir, la variable independiente) y el grupo
de control no. Los investigadores encuentran que el grupo
experimental muestra niveles más bajos de reincidencia (es
decir, la variable dependiente) en comparación con el grupo de
control. Los investigadores podrían verse tentados a decir que
la intervención fue responsable de los hallazgos; sin embargo,
podría ser que el comportamiento en cuestión mejoró porque los
participantes habían asumido una actitud obediente hacia la
intervención. Alternativamente, si los participantes en el
grupo de tratamiento hubieran adoptado una actitud más
negativista hacia la intervención, los resultados del estudio
podrían haber sugerido que la intervención no tuvo éxito. En
cualquier caso, cualquiera de los dos resultados podría ser el
resultado de la reactividad de los arreglos experimentales y
no de la intervención en sí.
Interferencia de tratamiento múltiple
Esta amenaza a la validez externa se refiere a situaciones de
investigación en las que (1) los participantes se administran
más de una intervención experimental (o variable
independiente) dentro del mismo estudio o (2) los mismos
individuos participan en más de un estudio ( Pedhazur &
Schmelkin, 1991). Aunque es más común en los estudios de
tratamiento-resultado, también es frecuente en cualquier
estudio que tenga más de una condición experimental o variable
independiente. La principal implicación de esta amenaza es que
los resultados de la investigación pueden deberse al contexto
o serie de condiciones en las que se presentó la investigación
(Kazdin, 2003c).
En la primera situación de investigación, las variables
independientes administradas simultáneamente o secuencialmente
pueden producir un efecto de interacción. En general, múltiples
variables independientes administradas en el mismo estudio
actúan como una confunción que hace difícil determinar cuál es
responsable de los resultados observados. La segunda situación
se refiere a la experiencia relativa y la sofisticación de los
VALIDEZ 183
participantes. La familiaridad con la investigación puede

afectar el comportamiento y las respuestas de los
participantes, lo que de nuevo hace difícil interpretar con
precisión los resultados del estudio.
Por ejemplo, consideremos una situación común en la que puede
ocurrir interferencia de tratamiento múltiple. Un estudio de
tratamiento de 12 semanas está diseñado para evaluar la
eficacia de un enfoque combinado para el tratamiento de la
depresión que abarca elementos de la terapia psicodinámica y
cognitiva. Los participantes se dividen aleatoriamente en un
grupo de control y un grupo experimental. Ambos grupos se
evalúan para determinar la gravedad de los síntomas. El grupo
experimental entonces recibe 6 semanas de terapia
psicodinámica seguida según 6 semanas de terapia cognitiva. Al
final de las 12 semanas, tanto los grupos de control como los
experimentales se reevaluan para determinar la gravedad de los
síntomas. Los resultados de la evaluación sugieren que el grupo
experimental experimentó una reducción significativa de los
síntomas, mientras que el grupo de control no lo hizo. Los
investigadores concluyen que un modelo combinado de
psicodinámica-terapia cognitiva es un enfoque eficaz para
tratar la depresión.
Aunque este puede ser el caso, está lejos de ser una certeza
y hay muchas preguntas sin respuesta. Por ejemplo, ¿habría
sido tan eficaz el tratamiento si la terapia cognitiva se
hubiera administrado primero? ¿6 semanas de terapia
psicodinámica o cognitiva por sí solas habrían producido
resultados similares? ¿La presencia de ambas modalidades de
tratamiento realmente redujo la eficacia de la intervención
global? Aunque el estudio produjo mejoras significativas en
los síntomas, podría haber producido resultados aún mejores si
no se hubieran utilizado ambas formas de terapia. Estos son
aspectos de los efectos de tratamiento múltiple que se
controlan mejor a través de diseños de investigación
específicos que se discutieron en el capítulo 5.
Efectos novedosos
Esta amenaza a la validez
externa se refiere a la Referencia Rápida 6.3
posibilidad de que los El efecto Hawthorne
La reactividad de los arreglos
efectos de la variable experimentales también se
independiente pueden conoce como el efecto Hawthorne,
deberse en parte a la que ocurre cuando el desempeño
singularidad o novedad del de un individuo en un estudio se
estímulo o situación y no ve afectado por el conocimiento
a la intervención Sí del individuo de que él o ella
está participando en un estudio.
mismo. Es similar a la
Por ejemplo, algunos
Efecto espino (discutido participantes podrían ser más
en Capítulo 3; ver también atentos, obedientes o
Referencia Rápida 6.3) en diligentes, mientras que otros
ese nuevo o inusual podrían ser intencionalmente
tratamientos o difíciles o no cooperativos a
tratamientos pesar de haber sido voluntarios
para el estudio (Bracht & Glass,
experimentales
1968).
Las intervenciones podría
producir resultados que
desaparecen una vez que la novedad de la situación o condición
se desgasta apagado. En otras palabras, la novedad de la
intervención o situación actúa como un variable de confundente,
y es que novedad (y no la independiente variable) esa es la
verdadera explicación de los resultados. Esta amenaza a la
validez externa es común en una amplia variedad de entornos y
diseños experimentales.
Tomemos, por ejemplo, una situación en la que los
investigadores están tratando de determinar la eficacia de una
nueva intervención terapéutica para individuos con
antecedentes de depresión crónica. Han decidido llamar a esta
nueva intervención "terapia de sonrisas" porque el terapeuta
está entrenado para sonreír al cliente en un horario regular
con la esperanza de fomentar un estado de ánimo positivo y
perspectiva de la vida. Se evalúan los síntomas de la
depresión, y luego los participantes se asignan aleatoriamente
a un grupo de control o a una de las tres condiciones
experimentales. Las tres condiciones experimentales incluyen
terapia de sonrisa, terapia cognitivo-conductual y terapia
interpersonal. Todos los participantes se someten a sus
respectivos tratamientos durante 4 semanas y luego se les
reevalúa la gravedad de la depresión. Los investigadores
encuentran que la terapia de sonrisa es más eficaz que la
VALIDEZ 185
terapia cognitivo-conductual e interpersonal sobre los

síntomas de la depresión crónica.
Por ahora, es probable que haya descubierto que podría haber
un problema aquí porque un efecto novedoso también podría
explicar los resultados. Nuestra población en este estudio
ficticio consiste en individuos con depresión crónica, por lo
que es probable que hayan probado muchas modalidades de
tratamiento o al menos han estado en tratamiento en una
modalidad durante un período significativo de tiempo. Aunque
estas modalidades son algo distintas, ninguna de ellas implica
que el terapeuta sonriendo al participante como la
intervención. Por lo tanto, la terapia de sonrisa es única, o
novedosa, y esto por sí solo podría explicar las mejoras en la
depresión. La otra cuestión aquí es que la intervención tuvo
lugar en el transcurso de 4 semanas. Si estos hallazgos fueran
el resultado de una novedad, entonces esperaríamos que el
efecto del tratamiento desapareciera con el tiempo a medida
que la novedad de la terapia de sonrisa disminuyera. Cuatro
semanas podrían no ser una cantidad suficiente de tiempo para
que la novedad disminuya, y los resultados del estudio a las
12 semanas podrían no haber demostrado un hallazgo
significativo para esta nueva forma de terapia. La presencia
de un efecto novedoso limitaría la capacidad del investigador
para generalizar los resultados de este estudio a situaciones
o contextos en los que no existe el mismo efecto.
Este efecto también se puede ver fuera del ámbito del
tratamiento-intervención. Supongamos que desea determinar la
eficacia de una intervención diseñada para aumentar el trabajo
en equipo y la productividad relacionada para los gerentes de
nivel superior en dos configuraciones organizativas distintas.
Dejando a un lado las amenazas obvias a la validez interna
creadas mediante la realización de su estudio sin
aleatorización en dos entornos separados, exploremos más a
fondo las implicaciones del efecto novedad. Los investigadores
identifican a los altos directivos de ambas organizaciones y
administran la intervención. Una organización es una empresa
de fabricación y la otra es una gran empresa de gestión
financiera. Los investigadores encuentran que la intervención
aumenta la productividad y el trabajo en equipo, pero sólo en
la empresa de gestión financiera. Por lo tanto, los
investigadores concluyen que la intervención es eficaz, pero
sólo en el único entorno.
Sin embargo, también es posible que el hallazgo se deba a un
efecto novedoso y no a la propia intervención. Vamos a agregar
información relevante adicional. ¿Y si supiera que la empresa

manufacturera está involucrada en un programa de mejora de la
calidad total? Estos programas tienden a implicar un alto nivel
de trabajo en equipo e interacción grupal a diario. También
descubren que la empresa de gestión financiera nunca ha
abordado el tema del trabajo en equipo o la productividad
grupal en el pasado. Por lo tanto, el hallazgo significativo
podría deberse a la novedad de introducir el trabajo en equipo
en un entorno donde nunca antes se había considerado, y no a
la intervención del trabajo en equipo en sí. Por el contrario,
la intervención podría no haber sido efectiva en la empresa
manufacturera porque la organización ya había incorporado el
modelo a su cultura corporativa. ¿Qué pasa si intentamos la
intervención en una empresa de gestión financiera que ya había
implementado un enfoque de equipo? De nuevo, podríamos
encontrar que la intervención no es efectiva. Si ese fuera el
caso, entonces, en términos de generalización, la afirmación
más precisa podría ser que la intervención es efectiva en
compañías de gestión financiera que nunca han estado expuestas
a intervenciones de trabajo en equipo.
Reactividad de la evaluación
Esta amenaza a la validez externa se refiere a un fenómeno por
el cual la conciencia de los participantes de que se está
midiendo su desempeño puede alterar su desempeño de lo que de
otro modo habría sido (Christensen, 1988; Kazdin, 2003c). La
reactividad es una amenaza a la validez externa cuando esta
conciencia lleva a los participantes del estudio a responder
de manera diferente a como lo harían normalmente ante las
condiciones experimentales.
La reactividad es otra amenaza común a la validez externa que
puede ocurrir en una amplia variedad de entornos y
circunstancias, y es una amenaza sustancial siempre que la
evaluación formal o informal sea un componente necesario del
estudio. Por ejemplo, considere un estudio de resultados de
psicoterapia en el que se evalúe a los participantes el número
y la gravedad de los síntomas de angustia emocional. El hecho
mismo de que se esté realizando una evaluación podría hacer
que los participantes distorsionen sus respuestas por diversas
razones. Por ejemplo, los participantes pueden sentirse
incómodos o autoconscientes e informar desempleo de sus
síntomas. Por el contrario, los participantes podrían informar
en exceso sus niveles de síntomas si sospechan que hacerlo
podría conducir a un tratamiento más intensivo. La Referencia
VALIDEZ 187
Rápida 6.4 analiza la obtrusiva del proceso de medición con

respecto a la reactividad de los participantes.
Referencia Rápida 6.4

……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………….
Medición obtrusiva vs.
Como se mencionó anteriormente, la reactividad se convierte en
una amenaza para la validez externa cuando los participantes
en un estudio responden de manera diferente a como lo harían
normalmente frente a condiciones experimentales. Aunque una
amplia variedad de estímulos puede causar reactividad, el
ejemplo más común ocurre durante la medición o evaluación
formal. Si los participantes son conscientes de que están
siendo evaluados, entonces se dice que esa
medida de evaluación es molesta y, por lo tanto, es probable
que afecte el comportamiento. Por el contrario, el término
medición discreta se refiere a la evaluación en la que los
participantes no son conscientes de que la medición se está
llevando a cabo (Rosnow & Rosenthal, 2002).
Aunque la reactividad es común en todas las formas de estudios

de intervención de tratamiento médico y psicológico, también
es frecuente en otros entornos. Por ejemplo, preguntar
directamente a los empleados acerca de sus actitudes hacia la
administración podría conducir a respuestas más favorables de
lo que de otro modo se esperaría si llenaran un cuestionario
anónimo.
Pretest y Posttest Sensibilización
Estas amenazas relacionadas con la validez externa se refieren
a los efectos que la prueba previa y la posprueba podrían tener
en el comportamiento y las respuestas de los participantes en
un estudio (Bracht & Glass, 1968; Lana, 1969; Pedhazur &
Schmelkin, 1991). En muchas formas de investigación, los
participantes son probados previamente para cuantificar
la presencia de alguna variable de interés y para proporcionar
una línea de base de comportamiento contra la cual los efectos
de la intervención experimental (independiente variable) puede
evaluarse. Por ejemplo, se daría una prueba previa para los
síntomas de ansiedad para determinar la sintomatología de los
participantes en un estudio de tratamiento que investiga la
eficacia de una nueva terapia para los trastornos de ansiedad.
La información de la prueba previa se utilizaría como medida
de referencia y se compararía con una medida posterior a la
prueba de los síntomas al final del estudio para determinar la
eficacia de la intervención para reducir los síntomas de
ansiedad. En general, la sensibilización previa es una
posibilidad cada vez que los participantes se miden antes de
la administración de la experimental y los investigadores están

interesados en medir los efectos de la variable independiente
en la variable dependiente.
Como una amenaza a la validez externa, la preocupación es que
la exposición a la prueba previa puede contribuir a, o ser la
única causa de, los cambios observados en la variable
dependiente. En otras palabras, ¿los resultados del estudio
habrían sido los mismos si no se hubiera administrado la prueba
previa? Esto tiene implicaciones obvias para la validez externa
porque la sensibilización previa a la prueba puede hacer que
los resultados sean irrelevantes en situaciones en las que no
se administró la misma prueba previa. Por ejemplo, en nuestro
estudio de ansiedad mencionado anteriormente, los mismos
efectos del tratamiento podrían no encontrarse en ausencia de
la prueba previa para el nivel actual de ansiedad.
Mientras que las pruebas preliminares se centran en evaluar el

nivel de una variable antes de la aplicación de la intervención
experimental (o variable independiente), las pruebas
posteriores se realizan para evaluar la efectividad de la
variable independiente. Una medición posterior a la prueba
puede tener un efecto similar en la validez externa como una
evaluación previa a la prueba. ¿Se habrían encontrado los
mismos resultados si no se hubiera administrado la prueba
posterior? De lo contrario, se puede decir que la
sensibilización posterior a la prueba podría explicar los
resultados, ya sea solo o en combinación con la intervención
experimental. Tanto en la evaluación previa como en la
posterior, la preocupación es si los participantes fueron
sensibilizados por cualquiera de las medidas. De ser así, los
resultados podrían ser menos generalizables que si la
investigación futura y las intervenciones reales se llevaran
a cabo sin el mismo procedimiento y medidas de evaluación. En
otras palabras, la presencia de pruebas previas y posteriores
se convierte en una parte integral de la intervención misma.
Por lo tanto, los efectos de la variable independiente pueden
ser menos prominentes o incluso inexistentes en ausencia de
sensibilización previa o posterior a la prueba.
Momento de evaluación y medición

Esta amenaza a la validez externa es particularmente común en
las formas longitudinales de investigación, y se refiere a la
pregunta de si se habrían obtenido los mismos resultados si la
VALIDEZ 189
medición se hubiera producido en un momento diferente (Kazdin,

2003c). Aunque esta amenaza a la validez externa puede ocurrir
en la mayoría de los tipos de diseño de investigación, es más
común en la investigación longitudinal. (Consulte el Capítulo
5 para una discusión más detallada de la investigación
longitudinal.) La investigación longitudinal se produce con el
tiempo y se caracteriza por múltiples evaluaciones a lo largo
de la duración del estudio. Por ejemplo, un estudio de
resultados de terapia longitudinal podría encontrar resultados
significativos después de la evaluación de los síntomas a los
2 meses, pero no a los 4 o 6 meses. Si el estudio concluyó al
final de los 2 meses, los investigadores podrían llegar a la
conclusión general de que el tratamiento es efectivo para un
trastorno en particular. Esto podría ser una generalización
excesiva porque si el estudio hubiera continuado durante un
período de tiempo más largo, no se habría observado el mismo
efecto del tratamiento. Por lo tanto, la conclusión más
apropiada sobre nuestro estudio de 2 meses podría ser que el
tratamiento produce alivio de los síntomas hasta por 2 meses
o después. El estudio apoya la conclusión más específica,
mientras que la conclusión más general sobre la efectividad
podría no ser precisa debido al momento de la medición. Tenga
en cuenta que lo contrario también podría ser cierto: la falta
de resultados significativos después de la medición a los 2
meses no elimina la posibilidad de resultados significativos
si la intervención y la medición se produjeron durante un
período de tiempo más largo.
Rapid Reference 6.5 resume las amenazas a la validez externa
que hemos discutido en esta sección, y Rapid Reference 6.6
proporciona más discusión.
VALIDEZ DE CONSTRUCCIÓN
En el contexto del diseño y la metodología de la investigación,
el término validez de construcción se relaciona con la
interpretación de la base de la relación causal, y se refiere
a la congruencia entre los resultados del estudio y los
fundamentos teóricos que guían la investigación (Kazdin,
2003c). El enfoque de la validez de constructo generalmente
está en la variable independiente del estudio. En esencia, la
validez de constructo hace la pregunta de si la teoría
respaldada por los hallazgos proporciona la mejor explicación
disponible de los resultados. En otras palabras, es la razón
de la relación entre la intervención experimental (variable
independiente) y el fenómeno observado (variable dependiente)
debido a la construcción o explicación subyacente ofrecida por

los investigadores.

Amenazas a la validez externa
• Características de la muestra: la medida en que los

resultados de un estudio se aplican solo a una muestra en
particular. La pregunta clave es si los resultados del
estudio pueden aplicarse a otras muestras que varían en
una variedad de características demográficas y
descriptivas, como la edad, el género, orientación
sexual, educación y nivel socioeconómico.
• Características y entornos de estímulo: un fenómeno
ambiental por el cual las características o condiciones
particulares del estudio limitan la generalización de los
resultados, de modo que los resultados de un estudio no
se aplican necesariamente a otro estudio, incluso si el
otro estudio está utilizando una muestra similar.
• Reactividad de los arreglos experimentales: una variable
potencialmente confusa que resulta de la influencia
producida al saber que uno está participando en un estudio
de investigación. • Interferencia de tratamiento
múltiple: esta amenaza se refiere a situaciones de
investigación en las que (1) los participantes reciben
más de una intervención experimental dentro del mismo
estudio o (2) los mismos individuos participan en más de
un estudio.
• Efectos de novedad: se refiere a la posibilidad de que
los efectos de la variable independiente puedan deberse
en parte a la singularidad o novedad del estímulo o
situación y no a la intervención en sí.
• Reactividad de la evaluación: un fenómeno por el cual la
conciencia de los participantes de que se está midiendo
su desempeño puede alterar su desempeño de lo que hubiera
sido de otra manera.
• Sensibilización previa y posterior a la prueba: estas
amenazas se refieren a los efectos que las pruebas
preliminares y posteriores pueden tener sobre el
comportamiento y las respuestas de los participantes del
estudio.
• Momento de la evaluación y medición: esta amenaza se
refiere a si se hubieran obtenido los mismos resultados
si la medición se hubiera producido en un momento
diferente.
VALIDEZ 191

Importancia de los efectos de interacción en relación con la
validez externa
La validez externa puede entenderse mejor como una interacción

entre los atributos de los participantes y los entornos
experimentales y sus características relacionadas. La
generalización de los resultados de cualquier estudio se ve
obstaculizada cuando la variable independiente interactúa con
los atributos o características de los participantes del
entorno experimental para producir los resultados observados.
Por lo tanto, los tipos de amenazas a la validez externa
discutidos en este capítulo están lejos de ser exhaustivos. En
el diseño y la pregunta de investigación, cada estudio puede
crear amenazas únicas a la validez externa que deben
controlarse. Si el control experimental no es posible, las
limitaciones de los hallazgos del estudio deben discutirse con
suficiente detalle para aclarar la relevancia y generalización
de los hallazgos.
(Campbell y Stanley, 1966; Cook y Campbell, 1979; Christensen,
1988; Graziano y Raulin, 2004; Kazdin, 2003c). Hay dos métodos
principales para mejorar la validez de constructo de un
estudio. Primero, una fuerte validez de constructo se basa en
definiciones operativas claras y precisas de las variables de
un estudio. En segundo lugar, la teoría subyacente del estudio
debería tener una base conceptual sólida y basarse en
construcciones bien validadas (Graziano y Raulin, 2004). Cook
y Campbell (1979) sugieren varias formas de mejorar la validez
de constructo; Estos se enumeran en la Referencia rápida 6.7.
Consideremos un ejemplo sencillo para ilustrar la importancia
de la validez de constructo en un estudio. Un equipo de
investigadores está interesado en estudiar los factores que
contribuyen a las tasas de mortalidad en varios países
diferentes. El alcance del estudio prohíbe el uso de
participantes reales, por lo que los investigadores deciden
realizar un estudio correlacional en el que analicen las
relaciones estadísticas entre los diferentes países y los datos
demográficos disponibles. Los investigadores plantean la
hipótesis de que el nivel de educación y el ingreso familiar
estarán significativamente relacionados con la tasa de
mortalidad. La hipótesis específica es que la tasa de
mortalidad disminuirá a medida que aumente el nivel educativo
y el ingreso familiar. En otras palabras, los investigadores

plantean la hipótesis de que existe una relación negativa entre
Mejora de la validez de constructo
Cook y Campbell (1979) hacen las siguientes sugerencias para

mejorar la validez de constructo:
• Proporcionan una definición operativa clara del concepto
abstracto o variable independiente.
• Recopilar datos para demostrar que la representación
empírica de la variable independiente produce el
resultado esperado.
• Recopilar datos para mostrar que la representación
empírica de la variable independiente no varía con las
medidas de variables conceptuales relacionadas pero
diferentes.
• Realizar controles de manipulación de la variable
independiente.
la mortalidad y el nivel educativo y el ingreso familiar. La
construcción subyacente que se está probando en el estudio es
que estos dos factores, el nivel educativo y el ingreso
familiar, están relacionados negativamente con la mortalidad.
Los investigadores llevan a cabo sus análisis y descubren que
su hipótesis está confirmada, es decir, que las tasas de
mortalidad están relacionadas negativamente con el nivel
educativo y el ingreso familiar. Los investigadores concluyen
que el nivel educativo y el ingreso familiar son factores
protectores que reducen la probabilidad de mortalidad.
¿Es esta la explicación más probable de los resultados, o hay
quizás una mejor explicación que pueda funcionar como una
amenaza a la hipótesis del estudio con respecto a la causalidad
(o validez de constructo)? ¿Cuál podría ser una mejor
explicación causal de los resultados del estudio? Una posible
explicación alternativa de los resultados podría ser que los
niveles educativos más altos y el ingreso familiar reducen las
tasas de mortalidad porque están relacionados con otro factor
que no se consideró en el estudio. Teniendo en cuenta que el
nivel educativo generalmente está relacionado positivamente
con el nivel de ingresos, los niveles más altos de educación
tienden a conducir a niveles más altos de ingresos. Un mayor
nivel de ingresos generalmente proporciona acceso a una
variedad más amplia de privilegios y servicios, como el acceso
a una atención médica de mayor calidad. Por lo tanto, el acceso
a la atención médica está relacionado con el nivel educativo
VALIDEZ 193
000
NO OLVIDES y el ingreso familiar, y es una

Amenazas para construir explicación causal plausible
validez para los resultados obtenidos en
Las amenazas para construir la el estudio (distintos de los
validez se relacionan con los propuestos por los
aspectos únicos y el diseño del investigadores).
estudio que interfieren con la Hay fenómenos que ocurren dentro
capacidad del investigador para
extraer inferencias causales de
del contexto de la investigación
los resultados del estudio. que pueden actuar como amenazas
para construir la validez. Al
igual que con la validez interna y externa, el número y los
tipos de amenazas están relacionados con los aspectos únicos
y el diseño del estudio en sí. En general, estas amenazas son
características de un estudio que interfieren con la capacidad
del investigador para extraer inferencias causales de los
resultados del estudio (Kazdin, 2003c). En nuestras
discusiones previas sobre la validez interna y externa, pudimos
identificar y clasificar amenazas específicas y bien
definidas. Las amenazas para construir la validez son más
difíciles de clasificar porque pueden ser cualquier cosa
relacionada con el diseño del estudio y la construcción teórica
subyacente bajo consideración. A pesar de esto, las fuentes
más comunes de amenazas para construir la validez son paralelas
a algunas de las amenazas a la validez externa discutidas
anteriormente en este capítulo, como las condiciones que rodean
la situación experimental, las expectativas del experimentador
y las características de los participantes.
VALIDEZ ESTADÍSTICA
El último tipo de validez que discutiremos en este capítulo es
el concepto de validez estadística que es críticamente
importante pero que a menudo se pasa por alto. Como su nombre
lo indica, la validez estadística (también conocida como
validez de conclusión estadística) se refiere a aspectos de la
evaluación cuantitativa que afectan la precisión de las
conclusiones extraídas de los resultados de un estudio
(Campbell y Stanley, 1966; Cook y Campbell, 1979). Los
procedimientos estadísticos se usan típicamente para probar la
relación entre dos o más variables y determinar si un efecto
estadístico observado se debe al azar o es un reflejo verdadero
de una relación causal (Rosnow y Rosenthal,2002). En su nivel
más simple, la validez estadística aborda la cuestión de si
las conclusiones estadísticas extraídas de los resultados de
un estudio son razonables (Graziano y Raulin, 2004).
Los conceptos de prueba de hipótesis y evaluación estadística

están interrelacionados y proporcionan la base para evaluar la
validez estadística. La evaluación estadística se refiere a la
base teórica, la lógica y los aspectos computacionales de las
estadísticas reales utilizadas para evaluar la naturaleza de
la relación entre las variables independientes y dependientes.
Entre otras cosas, la elección de técnicas estadísticas a
menudo depende de la naturaleza de las hipótesis que se prueban
en el estudio. Aquí es donde el concepto de prueba de hipótesis
entra en nuestra discusión de validez estadística. En pocas
palabras, cada estudio está impulsado por una o más hipótesis
que guían el diseño metodológico del estudio, los análisis
estadísticos y las conclusiones resultantes.
Como se discutió en el Capítulo 2, existen dos tipos
principales de hipótesis en la investigación: la hipótesis
nula (generalmente designada como H0) y la hipótesis
experimental (generalmente designada como H1, H2, H3, etc.,
dependiendo del número de hipótesis). La hipótesis
experimental representa la relación predicha entre las
variables que se examinan en el estudio. Por el contrario, la
hipótesis nula representa una declaración de no relación entre
las variables que se examinan (Christensen, 1988).
En este punto, deberíamos revisar una convención importante en
la metodología de investigación en lo que se refiere a análisis
estadísticos y pruebas de hipótesis. Rechazar la hipótesis
nula es un primer paso necesario para evaluar el impacto de la
variable independiente (Graziano y Raulin, 2004). Por lo tanto,
en términos de análisis estadísticos, el foco siempre está en
la hipótesis nula, y no en las hipótesis experimentales. Los
investigadores rechazan la hipótesis nula si se encuentra una
diferencia estadísticamente significativa entre las
condiciones experimentales y de control (Kazdin, 2003c). Por
el contrario, los investigadores retienen (o no rechazan) la
hipótesis nula si no se encuentra una diferencia
estadísticamente significativa entre las condiciones
experimentales y de control.
Al igual que con las otras formas de validez discutidas a lo
largo de este capítulo, existen numerosas amenazas a la validez
estadística. Los más comunes incluyen bajo poder estadístico,
variabilidad en los procedimientos experimentales y
características de los participantes, falta de confiabilidad
de las medidas y múltiples comparaciones y tasas de error.
Cada una de estas amenazas puede tener un impacto significativo
VALIDEZ 195
en la capacidad del estudio para delinear relaciones causales

y descartar hipótesis rivales plausibles.}
Bajo poder estadístico

El bajo poder estadístico es la amenaza más común para la
validez estadística (Keppel, 1991; Kirk, 1995). La presencia
de esta amenaza produce una baja probabilidad de detectar una
diferencia entre las condiciones experimentales y de control,
incluso cuando realmente existe una diferencia. El bajo poder
estadístico está directamente relacionado con el pequeño
efecto y el tamaño de la muestra, y la presencia de cada uno
aumenta la probabilidad de que el bajo poder estadístico sea
un problema en el diseño de la investigación. En consecuencia,
el bajo poder estadístico puede hacer que un investigador
concluya que no hay resultados significativos, incluso cuando
realmente existen resultados significativos (Rosnow y
Rosenthal, 2002). El concepto de poder se discutirá más
adelante en el Capítulo 7.
Variabilidad
La variabilidad es otra amenaza para la validez estadística
que se aplica tanto a los participantes como a los
procedimientos utilizados en un estudio. Primero, consideremos
la variabilidad en los procedimientos metodológicos. Este
concepto incluye una amplia gama de diferencias y preguntas
relacionadas con los aspectos de diseño reales del estudio.
Estas diferencias se pueden encontrar en la entrega de la
variable independiente, los procedimientos relacionados con la
ejecución del estudio, la variabilidad en las medidas de
rendimiento a lo largo del tiempo y una serie de otros ejemplos
que dependen directamente del diseño único de un estudio en
particular. Una amenaza relacionada con la validez estadística
es la variabilidad en las características de los participantes.
Los participantes en un estudio de investigación pueden variar
según una variedad de características y dimensiones, como la
edad, la educación, el estado socioeconómico y la raza. A
medida que aumenta la diversidad de características de los
participantes, hay menos probabilidades de que se pueda
detectar una diferencia entre las condiciones de control y
experimentales. Cuando se minimiza la variabilidad entre estas
dos amplias fuentes, aumenta la probabilidad de detectar una
verdadera diferencia entre el control y las condiciones
experimentales. Esta amenaza a la validez estadística debe
considerarse en la etapa de planificación del estudio, y
generalmente se controla mediante el uso de muestras

homogéneas, protocolos de procedimiento estrictos y bien
definidos, y controles estadísticos en la etapa de análisis de
datos.
Falta de fiabilidad de las medidas

La falta de fiabilidad de las medidas utilizadas en un estudio
es otra fuente de variabilidad que constituye una amenaza para
la validez estadística. Esta amenaza se refiere a si las
medidas utilizadas en el estudio evalúan las características
de interés de manera consistente (o confiable) (Kazdin, 2003c).
Si las medidas del estudio de investigación no son confiables,
se introduce una variabilidad más aleatoria en el diseño
experimental. Al igual que con la variabilidad del participante
y del procedimiento, este tipo de variabilidad disminuye el
poder estadístico y hace que sea menos probable que los
análisis estadísticos detecten una verdadera diferencia entre
el control y las condiciones experimentales cuando realmente
existe una diferencia.
Comparaciones múltiples
La amenaza final para la validez estadística que consideraremos
a menudo se denomina comparaciones estadísticas múltiples y
las tasas de error resultantes (Kazdin, 2003c; Rosnow y
Rosenthal, 2002). Esta amenaza a la validez estadística se
refiere al número de análisis estadísticos utilizados para
analizar los datos obtenidos en un estudio. En general, a
medida que aumenta el número de análisis estadísticos, también
lo hace la probabilidad de encontrar una diferencia
significativa entre las condiciones experimentales y de
control por pura casualidad matemática. En otras palabras, el
hallazgo significativo es un artefacto matemático y no refleja
una verdadera diferencia entre las condiciones. En
consecuencia, los investigadores deben definir sus hipótesis
antes de que comience el estudio para llevar a cabo el número
mínimo de análisis estadísticos para abordar cada una de las
hipótesis.
La referencia rápida 6.8 resume las amenazas a la validez
estadística que hemos discutido en esta sección.
VALIDEZ 197

Amenazas a la validez estadística
• Bajo poder estadístico: baja probabilidad de detectar una

diferencia entre las condiciones experimentales y de
control, incluso si realmente existe una diferencia.
• Variabilidad procesal y de participantes: variabilidad en
los procedimientos metodológicos y una serie de
características de los participantes, lo que disminuye la
probabilidad de detectar una diferencia entre las
condiciones de control y experimentales.
• Falta de fiabilidad de las medidas: si las medidas
utilizadas en un estudio evalúan las características de
interés de manera coherente. Las medidas no fiables
introducen más variabilidad aleatoria en el diseño de la
investigación, lo que reduce el poder estadístico.
• Comparaciones múltiples y tasas de error: el concepto de
que, a medida que aumenta el número de análisis
estadísticos, también aumenta la probabilidad de
encontrar una diferencia significativa entre las
condiciones experimentales y de control por pura
casualidad.
RESUMEN
En este capítulo, hemos discutido los cuatro tipos de validez

que son críticos para una metodología de investigación sólida.
Además, discutimos las principales amenazas para cada tipo de
validez. Aunque cada tipo de validez y sus amenazas
relacionadas se presentaron de forma independiente, es
importante tener en cuenta que todos los tipos de validez son
interdependientes, y abordar un tipo puede comprometer a los
otros tipos. Como se discutió, todas las amenazas generales a
la validez deben considerarse en la etapa de diseño del
estudio, si es posible. En términos de prioridad, garantizar
una fuerte validez interna se considera más importante que la
validez externa, porque debemos controlar las hipótesis
rivales antes de que podamos comenzar a pensar en generalizar
los resultados de un estudio.
PRUÉBATE
1. __________ es un concepto importante en la investigación

que se refiere a la solidez conceptual y científica de un
estudio de investigación.
2. La historia, la maduración, las pruebas, la regresión
estadística y los sesgos de selección son amenazas para
__________ __________.
3. La validez externa se refiere a la __________ de los
resultados de la investigación.
4. __________ __________ se refiere a aspectos de la evaluación
cuantitativa que afectan la precisión de las conclusiones
extraídas de los resultados de un estudio.
5. __________ __________ se refiere a la congruencia entre los
resultados del estudio y los fundamentos teóricos que guían la
investigación.
Respuestas: 1. Validez; 2. validez interna; 3. generalización;

4. Conclusión estadística; 5. Construcción de validez

Captulo 6 Validez Corregido

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Captulo 6 Validez Corregido

Cargado por

Copyright:

Formatos disponibles

VALIDEZ

VALIDEZ INTERNA Validez Interna se refiere a la capacidad

validez Interna: La capacidad de un diseño de

rivales plausibles (Campbell, 1957; Kazdin, 2003c). Una

estudio, la validez interna se incrementa y las hipótesis

resultados de la estudiar. Muchas cosas podrían haber ocurrido

histórico y no a la variable independiente (es decir, el

La estandarización se refiere a las pautas establecidas en la

relacionadas con los síntomas de la depresión. Este alto nivel

problemas generalmente se abordan de manera continua

de imágenes para ayudar a retener los símbolos. Tenga en

esperaríamos que las puntuaciones en esta matriz se reviertan

exacerba los síntomas en individuos con síntomas mínimos de

Como se mencionó anteriormente, los sesgos de selección son

composición original de los grupos formados a los efectos del

ejemplo, observe que la deserción aún era un factor después

intervenciones similares, que podrían igualar el rendimiento

1991). Especial El tratamiento en sí es una amenaza

deseadas para los resultados de un estudio. Estas hipótesis

• Sesgo de selección: Diferencias sistemáticas en la

Referencia rápida 6.2

y específicas de la persona que pueden afectar la

ya te has dado cuenta de que este estudio tiene graves fallas

a partir de los resultados de nuestro estudio hipotético es

Amenazas a la validez externa

En otras palabras, incluso esta diferencia sutil en las

Los resultados de un estudio tienden a limitarse a las

los investigadores involucrados en el estudio. La principal

desinformado de que estaban siendo estudiados (Kazdin, 2003c).

participantes. La familiaridad con la investigación puede

terapia cognitivo-conductual e interpersonal sobre los

información relevante adicional. ¿Y si supiera que la empresa

Rápida 6.4 analiza la obtrusiva del proceso de medición con

Referencia Rápida 6.4

Aunque la reactividad es común en todas las formas de estudios

la administración de la experimental y los investigadores están

Mientras que las pruebas preliminares se centran en evaluar el

Momento de evaluación y medición

medición se hubiera producido en un momento diferente (Kazdin,

debido a la construcción o explicación subyacente ofrecida por

Referencia Rápida 6.5

• Características de la muestra: la medida en que los

Referencia Rápida 6.6

La validez externa puede entenderse mejor como una interacción

y el ingreso familiar. En otras palabras, los investigadores

Cook y Campbell (1979) hacen las siguientes sugerencias para

NO OLVIDES y el ingreso familiar, y es una

Los conceptos de prueba de hipótesis y evaluación estadística

en la capacidad del estudio para delinear relaciones causales

Bajo poder estadístico

generalmente se controla mediante el uso de muestras

Falta de fiabilidad de las medidas

Referencia rápida 6.8

• Bajo poder estadístico: baja probabilidad de detectar una

En este capítulo, hemos discutido los cuatro tipos de validez

1. __________ es un concepto importante en la investigación

Respuestas: 1. Validez; 2. validez interna; 3. generalización;

También podría gustarte