Captulo 6 Validez Corregido

VALIDEZ
Seis
VALIDEZ
V
alidez es un término importante en la investigación que
se refiere a la solidez conceptual y científica de un
estudio de investigación (Graziano y Raulin, 2004).
Como se comentó anteriormente, el propósito principal
de todas las formas de investigación es producir conclusiones
válidas. Además, los investigadores están interesadas en las
explicaciones de los efectos e interacciones de las variables
que se producen en una amplia variedad de configuraciones
diferentes. Para entender verdaderamente estas interacciones
requiere especial atención al concepto de validez, lo que
pone de relieve la necesidad de eliminar o reducir al mínimo
los efectos de las influencias extrañas invariables y
explicaciones que pudieran interferir con los resultados de
un estudio.
Validez es, por lo tanto, un concepto muy importante y útil
en todas las formas de metodología de la investigación. Su
objetivo principal es aumentar la precisión y utilidad de los
resultados mediante la eliminación o el control de la mayor
cantidad de variables de confusión como sea posible, lo que
permite una mayor confianza en los resultados de un estudio
dado. Hay cuatro tipos distintos de validez (validez interna,
validez externa, validez de constructo y validez conclusión
estadística) que interacciones para controlar y minimizar el
impacto de una amplia variedad de factores extraños que puede
confundir a un estudio y reducir la exactitud de sus
conclusiones. En este capítulo se discutirá cada tipo de
validez, sus amenazas asociadas, y sus implicaciones para el
diseño de la investigación y la metodología.
VALIDEZ INTERNA Validez Interna se refiere a la capacidad

de un diseño de investigación para descartar o hacer otras
explicaciones plausibles de los resultados, o hipotesis
158
VALIDEZ 159
NO OLVIDE
Validez interna y las hipótesis rivales

plausibles
validez Interna: La capacidad de un diseño de

investigación para descartar o realizar otras
explicaciones plausibles de los resultados,
demostrando así que la variable independiente fue
directamente responsable de los efectos sobre la
variable dependiente y, en última instancia, por
los resultados encontrados en el estudio.
Hipótesis rivales Plausible: Una interpretación
alternativa de la hipótesis del investigador
acerca de la interacción de las variables
independientes y colgantes de- que proporciona una
explicación razonable de las conclusiones
distintos a la hipótesis original del
investigador.
rivales plausibles (Campbell, 1957; Kazdin, 2003c). Una
hipótesis rival plausible es una interpretación alternativa
de la hipótesis del investigador acerca de la interacción
de las variables independientes y dependientes que
proporciona una explicación razonable poder de las
conclusiones distintos a la hipótesis original del
investigador (Rosnow y Rosenthal, 2002).
Aunque rara vez se logra la evidencia de la causalidad
absoluta, el objetivo de los diseños más experimentales es
demostrar que la variable independiente fue directamente
responsable de los efectos sobre la variable dependiente y,
en última instancia, los resultados encontrados en el
estudio. En otras palabras, el investigador en último
término, quiere saber si el efecto observado o fenómeno se
debe a la variable o variables independientes manipuladas o
en alguna variable o variables (Pedhazur y Schmelkin, 1991)
no controlada extraña o desconocida. Lo ideal sería que, al
final del estudio, el investigador le gustaría hacer una
declaración que refleja un cierto nivel de causalidad entre
las variables independientes y dependientes. Mediante el
diseño de fuertes controles de líneas experimentales en un
160 ESCENCIALES DEL DISEÑO Y LA METODOLOGIA DE LA INVESTIGACION
estudio, la validez interna se incrementa y las hipótesis

rivales e influencias extrañas se reducen al mínimo. Esto
permite al investigador AT- homenaje a los resultados del
estudio con mayor confianza en la variable o variables
independientes (Kazdin 2003c; Rosnow y Rosenthal, 2002).
influencias raras incontroladas que no sean la variable
independiente que podría explicar los resultados de un
estudio se les conoce como las amenazas a la validez
interna.
Puesta en práctica
…………………………………………………………………………………………………………
Un ejemplo de la validez interna y plausible Las hipótesis
rivales
……………………………………………………………………………………………………………………………………………………………….
Un investigador está interesado en la efectividad de dos
padres programas diferentes de capacitación y educación para
mejorar en los síntomas de la depresión en adolescentes. El
investigador recluta a 100 familias que cumplen con las
especificaciones criterios de inclusión en el estudio. El
criterio de inclusión principal es que la familia debe tener
un adolescente que actualmente cumpla con los criterios para
la depresión. Después del reclutamiento, el investigador
asigna aleatoriamente familias en uno de los dos programas de
capacitación de habilidades. Los padres reciben las
intervenciones durante un período de 10 semanas y luego se
envían a casa para solicitar las habilidades que han
aprendido. El investigador reevalúa a los adolescentes 6
meses después para ver si ha habido una mejora en los
adolescentes síntomas de depresión. Los resultados sugieren
que ambos grupos mejoraron. El investigador concluye que
ambas intervenciones de entrenamiento de habilidades
parentales fueron efectivos para tratar la depresión en
adolescentes. Dado que información limitada aquí, ¿es esta
una conclusión apropiada? La respuesta, por supuesto, es no.
Este estudio tiene poca validez interna porque Es imposible
decir con certeza que la variable independiente (las dos
clases de entrenamiento de habilidades) tuvieron un efecto en
la variable dependiente (depresión). Existen varias hipótesis
rivales alternativas que tienen no ha sido controlado y
podría explicar con la misma facilidad los
VALIDEZ 161
resultados de la estudiar. Muchas cosas podrían haber

ocurrido en el transcurso de los 6 meses.
Por ejemplo, ¿ciertos adolescentes recibieron medicamentos?
haría
han mejorado sin la intervención? Hicieron sus circunstancias
de vida
¿cambiar para mejor? Nunca lo sabremos porque el estudio
tiene pobres resultados internos validez y no controla ni
siquiera para los más simples y obvias explicaciones
alternativas
Las amenazas a la validez interna
Aunque la terminología puede variar, las amenazas más
comúnmente encontrados a la validez interna son historia, la
maduración, la instrumentación, pruebas, regresión
estadística, sesgos de selección, el desgaste, la difusión o
imitación de tratamiento, y el tratamiento especial o
reacciones de los controles (Christensen, 1988; Cook &
Campbell, 1979; Kazdin, 2003c; Pedhazur y Schmelkin,1991).
Los investigadores deben ser conscientes de que cada diseño
metodológico es tema de por lo menos algunas de estas
amenazas
NO OLVIDE
Las amenazas a la validez interna
Como se discutió en los Capítulos 3 y 5, la mayoría de las
amenazas a la validez interna son controlado a través de
análisis estadísticos, grupos de control y comparación, y
aleatorización. El supuesto subyacente de aleatorización tal
como se aplica a validez interna es que los factores
extraños se distribuyen uniformemente en todos los grupos
dentro del estudio. Los grupos de control permiten la
comparación directa entre grupos experimentales y la
evaluación de sospechas extrañas influencias. Los controles
estadísticos se usan típicamente cuando los participantes no
pueden asignarse aleatoriamente a condiciones experimentales
e implicar estadísticamente controlando las variables que el
investigador ha identificado como diferentes entre grupos.
potenciales y el control de ellos en consecuencia. La no
aplicación de controles adecuados afecta la capacidad del
buscador re para inferir la causalidad.
Historia
Generalmente, el historial como una amenaza a la validez
interna se refiere a eventos o incidentes que tienen lugar
durante el curso del estudio y que pueden tener un efecto no
deseado e impacto incontrolado en el resultado final del
estudio (o el variable dependiente; Kazdin, 2003c). Estos
eventos tienden a ser globales lo suficiente como para
afectar a todos o la mayoría de los participantes en un
estudio. Ellos pueden ocurrir dentro o fuera del estudio y
generalmente ocurre entre el pre y fases posteriores a la
medición de la variable dependiente. El impacto de la
historia como una amenaza a la validez interna generalmente
se ve durante la medición posterior fase del estudio y es
particularmente frecuente si el estudio es longitudinal y
por lo tanto tiene lugar durante un largo período de tiempo.
En consecuencia, el cuanto mayor sea el período de tiempo
entre la premedida y la posmedida, mayor la posibilidad de
que un efecto de historia pudiera haber confundido los
resultados de el estudio (Christensen, 1988).
Por ejemplo, un evento nacional catastrófico que provoca
ansiedad podría tener un impacto en muchos, si no todos,
los participantes en un estudio para el tratamiento de la
ansiedad. El evento podría producir una escalada en los
síntomas que podrían ser interpretado como un fracaso de la
intervención, cuando, en realidad, es un artefacto del
evento externo en sí. Dependiendo del momento, este externo
evento podría tener un impacto significativo en la medición
del dependiente variable.
Otro ejemplo se puede encontrar en nuestra discusión previa
sobre la efectividad de capacitación en habilidades para
padres sobre síntomas de depresión en adolescentes (vea
Ponerlo en práctica en la página 160). En ese ejemplo, los
síntomas de la depresión se evaluaron 6 meses después de la
intervención de entrenamiento de habilidades parentales. Es
posible que ocurriera algún otro evento significativo
durante ese período de tiempo que podría explicar los
síntomas reducidos de la depresión. Una posibilidad es que
la escuela termine por el año y las vacaciones de verano.
comenzó, lo que produjo una disminución de los síntomas
depresivos entre la muestra de adolescentes. Entonces, la
disminución de la depresión podría deberse a un artefacto
VALIDEZ 163
histórico y no a la variable independiente (es decir, el

padre intervención de entrenamiento de habilidades). Los
eventos históricos también pueden tener lugar dentro de los
límites del estudio, aunque esto es menos común. Por
ejemplo, una discusión entre dos investigadores que tiene
lugar a plena vista de los participantes y no es parte de
la intervención prevista es un evento que puede producir un
efecto de historia.
Maduración
Esta amenaza a la validez interna es similar a la historia
en que se relaciona con cambiar con el tiempo. Sin embargo,
a diferencia de la historia, la maduración se refiere a la
intrínseca cambios dentro de los participantes que
generalmente están relacionados con el paso del tiempo. Los
ejemplos más comúnmente citados de esto involucran tanto
biológicos como cambios psicológicos, como el
envejecimiento, el aprendizaje, la fatiga y el hambre
(Christensen, 1988). Al igual que con la historia, se
produce la presencia de cambios de maduración. entre las
fases previas y posteriores a la medición del estudio e
interfiere con interpretaciones de causalidad con respecto
a la independiente y variables dependientes. Las amenazas
históricas y de maduración tienden a encontrarse en
combinación en estudios longitudinales.
En nuestro ejemplo de entrenamiento de habilidades para
padres, ¿podrían los síntomas de depresión mejorar porque
los padres tenían 6 meses adicionales para desarrollarse
como padres, independientemente de la capacitación en
habilidades? Aunque es poco probable, Esta es una hipótesis
rival alternativa que debe ser considerada y controlada
para, muy probablemente a través de la inclusión de un
control o comparación grupo que no recibió la capacitación
de habilidades para padres.
Otro ejemplo sería un estudio que examinara los efectos de
la visualización en entrenamiento de fuerza en adolescentes
varones durante un período específico de hora. A medida que
los varones adolescentes maduran naturalmente, esperaríamos
ver incrementales aumenta en fuerza independientemente de
la intervención de visualización. Entonces, una declaración
causal con respecto a los efectos de la visualización en la
fuerza en los varones adolescentes tendría que ser
calificados en el contexto de la maduración amenaza a la
validez interna. Una vez más, esta amenaza podría
minimizarse mediante el uso de grupos de control o
comparación.
Instrumentación
Esta amenaza a la validez interna no
está relacionada con las NO OLVIDES
características de los participantes y Consideraciones importantes
se refiere a cambios en la evaluación Respecto a Instrumentación
de la variable independiente, que
• La estandarización se refiere a la
generalmente son relacionado con pautas establecidas en la
cambios en la medición instrumento o administración
medida procedimientos a lo largo del y puntuación de un instrumento u
otra evaluación método.
tiempo (Christensen, 1988; Kazdin, • La confiabilidad está presente
2003c). En esencia, compromisos de cuando una evaluación método
instrumentación validez interna cuando mide las características de interés
en un Moda consistente.
cambios en la variable dependiente • La validez está presente cuando
resultado de cambios a lo largo del el enfoque a medida utilizada en el
tiempo en los instrumentos de estudio realmente mide lo que se
supone que debe medir
evaluación y criterios de puntuación
utilizados en el estudio. Existe una gran variedad de
medidas y técnicas de evaluación disponible para
investigadores y algunos de estos son más susceptibles a la
instrumentación y efectos que otros. La susceptibilidad de
una medida a el sesgo de instrumentación suele ser una
función de estandarización.
La estandarización se refiere a las pautas establecidas en

la administración y la calificación de un instrumento u otro
método de evaluación, y también abarcarlos conceptos
psicométricos de fiabilidad y validez. Un acercamiento la
medición es confiable si evalúa las características de
interés
de manera consistente. La validez se refiere a si el enfoque
de la medición utilizada en el estudio en realidad mide lo
que se supone que debe medida. Instrumentos estandarizados y
psicométricamente sólidos son menos susceptibles a los
efectos de la instrumentación, mientras que otros tipos de
evaluación métodos (por ejemplo, evaluadores independientes,
impresiones clínicas, "caseras" instrumentos) aumentan
dramáticamente la posibilidad de instrumentación efectos.
VALIDEZ 165
Por ejemplo, un investigador podría usar varios enfoques de

medición en un estudio de tratamiento de la depresión. El
investigador podría usar, para ejemplo, una medida
estandarizada para evaluar los síntomas de depresión, como
como el Inventario de Depresión de Beck (BDI), que es un
autoinforme, papel y prueba de lápiz conocida por su
fiabilidad y validez(Beck et al., 1961). Los BDI también
está estandarizado en que todos los encuestados están
expuestos a lo mismo estímulos,
que es un conjunto de preguntas PRECAUCIÓN
relacionadas con los síntomas de
la depresión. Este alto nivel de Efectos de
estandarización en administración instrumentación
y puntuación lo hace improbable Los efectos de la instrumentación son
que los efectos de mínimos prevalente cuando se usa
instrumentación estén presentes. estandarizado, instrumentos
psicometricamente sanos para medir las
En otras palabras, a menos que variables de interés. Cuando tal las
los investigadores alteren los medidas no están disponibles, el
probabilidad de efectos de
ítems del BDI, modifiquen la instrumentación se eleva dramáticamente
administración procedimientos, o De tal casos, capacitación continua de
cambió a una versión diferente evaluadores y las comprobaciones de
fiabilidad entre evaluadores son una
del instrumento a mitad del necesidad absoluta.
estudio, no esperaríamos que la
instrumentación sea una amenaza significativa para la
validez interna del estudio.
Por el contrario, otros enfoques de medición son más
susceptibles a posibles efectos de instrumentación. Hay
muchas formas diferentes de medir la construcción de la
depresión. Supongamos que el BDI no estaba disponible, así
que el investigador tuvo que confiar en algún otro método
para evaluar el Impacto del tratamiento sobre los síntomas
de la depresión. Una solución común para este problema
podría ser tener evaluadores independientes que evalúen el
nivel de síntomas basado en criterios de diagnóstico clínico
y luego evaluar a los participantes en el transcurso de la
intervención. Este tipo de enfoque de medición, Si se
implementa mal, aumenta drásticamente la probabilidad de
instrumentación efectos.
La principal preocupación es que el los evaluadores pueden
tener diferentes estándares para lo que califica como
reunión los criterios para los síntomas de depresión.
Asumamos que el evaluador A requiere una discapacidad
significativamente mayor en funcionamiento desde un
participante antes de reconocer esa depresión o depresiva
Los síntomas están realmente presentes. Además, los
estándares del evaluador para identificar los síntomas y
hacer el diagnóstico de depresión podría fluctuar
significativamente con el tiempo, lo que agrega otra capa de
dificultad cuando el investigador intenta interpretar el
impacto del tratamiento (la variable independiente) en
depresión (la variable dependiente). Sin estandarización,
hay una probabilidad significativa de que cualquier cambio
en la variable dependiente sobre el curso de tratamiento
podría ser el resultado de cambios en los criterios de
puntuación y No la intervención en sí. Estos problemas
generalmente se abordan de manera continua entrenamiento y
frecuentes controles de confiabilidad entre evaluadores (un
método estadístico para determinar el nivel de consistencia
y acuerdo entre diferentes evaluadores).
Pruebas
Esta amenaza a la validez interna se refiere a los efectos
de tomar una prueba en una ocasión puede tener en
administraciones posteriores de la misma prueba (Kazdin,
2003c). En esencia, cuando se mide a los participantes en un
estudio varias veces en la misma variable (por ejemplo, con
el mismo instrumento o prueba), su rendimiento puede verse
afectado por factores como la práctica, la memoria,
sensibilización y expectativas de los participantes e
investigadores (Pedhazur & Schmelkin, 1991). Esta amenaza a
la validez interna se encuentra con mayor frecuencia en
investigación longitudinal donde los participantes son
medidos repetidamente en las mismas variables a lo largo del
tiempo. La principal preocupación con esta amenaza a la
validez interna es que los resultados del estudio podrían
estar relacionados con la repetición prueba o evaluación y
no la variable independiente en sí.
Por ejemplo, consideremos un estudio hipotético diseñado
para evaluar el impacto de las técnicas de imágenes guiadas
en la retención de una serie de símbolos Primero, cada
participante está expuesto a los símbolos aleatorios y luego
pidió reproducir la mayor cantidad posible de memoria
después de unos 15 minutos de retraso. Esto sirve como una
prueba previa o una medida de referencia del rendimiento de
la memoria. Luego, los participantes están expuestos a la
intervención, que es una serie de técnicas de imágenes
guiadas que los investigadores creen que mejorarán retención
de los símbolos. Los investigadores creen que recordar el
los símbolos aumentarán a medida que los participantes
aprendan cada una de las seis técnicas de imágenes, con el
mayor nivel de recordación después de que los participantes
hayan aprendido todas las técnicas de imágenes. En este
caso, la técnica de imágenes guiadas es la intervención o
variable independiente, y la recuperación de los símbolos
aleatorios es la variable dependiente Los participantes
están expuestos a seis aprendizajes juicios. Durante cada
prueba, al participante se le enseña una nueva técnica de
imágenes, expuesto a los mismos estímulos de símbolos
aleatorios, y luego pidió reproducir tantos como sea posible
después de un retraso de 15 minutos. Idealmente, los
participantes están utilizando sus técnicas de imágenes para
ayudar a retener los símbolos. Tenga en cuenta aquí que los
participantes están siendo evaluados en el mismo conjunto de
símbolos en seis ocasiones diferentes, y que el símbolo
establecido en este ejemplo es el instrumento de prueba y la
medida de resultado. Los investigadores corren sus ensayos y
confirman sus hipótesis. Los participantes se desempeñan por
encima de la línea de base expectativas después de la
primera prueba y su rendimiento mejora constantemente ya que
están expuestos a técnicas de imágenes adicionales. El mejor
el rendimiento se ve después de implementar la técnica de
imágenes final.
¿Se puede decir que las técnicas de imágenes son la causa de
la mejora retención de los símbolos aleatorios? Los
investigadores podrían hacer esa afirmación, pero la
presencia de un efecto de prueba socava seriamente la
credibilidad de sus resultados. Recuerde que los
participantes están expuestos a la misma prueba o resultado,
los símbolos aleatorios, en al menos siete diferentes
ocasiones. Esto introduce una hipótesis rival plausible
fuerte de que la mejora en la retención se debe simplemente
a un efecto de práctica, o la exposición repetida a los
mismos estímulos. Como los investigadores no tuvieron en
cuenta esta posibilidad con un grupo de control o variando
el contenido del estímulo del símbolo, Esto sigue siendo una
explicación legítima de los hallazgos. En otras palabras, el
efecto de la práctica proporciona una hipótesis alternativa
plausible.
Regresión estadística
Esta amenaza a la validez interna se refiere a un fenómeno
estadístico por el cual puntajes extremadamente altos o
bajos en una medida tienden a revertir hacia la aritmética
media o promedio de la distribución con pruebas repetidas
(Christensen, 1988; Kazdin, 2003c; Neale y Liebert, 1973).
Por ejemplo, supongamos que obtuvimos el siguiente conjunto
de puntajes en nuestra medida de retención de símbolos del
ejemplo anterior: 5, 12, 18, 19, 27, 42, 55 y 62. La media
para este conjunto de puntajes es 30 (240 ÷ 8 = 30). En
promedio, los participantes en el estudio recordaron 30
símbolos aleatorios cuando se evalúa la retención. En
general, la regresión estadística sugiere que, con el tiempo
y la administración repetida de la evaluación de la memoria,
nosotros esperaríamos que las puntuaciones en esta matriz se
reviertan más cerca de la puntuación media de 30. Esto es
particularmente cierto en el caso de puntajes extremos que
se encuentran muy lejos de lo normal gama de una
distribución. Estos puntajes extremos también se conocen
como valores atípicos. En una
distribución de puntajes con una
NO OLVIDES
media de 30, sería razonable
Identificar, como mínimo, las Valores atípicos
puntuaciones de 5 y 62 como Un valor atípico es una
valores atípicos. Entonces, en puntuación que se encuentra
nuestra próxima administración de muy lejos el rango normal
la prueba de memoria, de una distribución de
esperaríamos que todos estos
puntajes.
puntajes revertir más cerca de la
media, independientemente del
efecto de la intervención (o independiente variable).
Además, probablemente veríamos el movimiento más grande
hacia la media en los puntajes más extremos.
Este fenómeno es particularmente prevalente en la
investigación en que es un diseño pre y post prueba
utilizado para evaluar la variable de interés o cuando los
participantes son asignados a grupos experimentales basado
en puntajes extremos. Vamos a considerar un ejemplo
diferente para ilustrar este punto. Un estudio está
diseñado para evaluar el impacto de un nuevo 10- semana de
tratamiento para la ansiedad. Los investigadores están
interesados en los efectos de su nuevo tratamiento en
niveles de ansiedad bajos, medios y altos según lo
determinado por una puntuación en una medida estandarizada
de ansiedad. Los investigadores Esperamos que su nuevo
tratamiento reduzca los síntomas de ansiedad cada una de
las tres condiciones. En consecuencia, cada participante es
administrado la medida de ansiedad como prueba previa para
determinar su ansiedad actual nivel y luego se asigna a uno
de los tres grupos: bajo, medio o alto ansiedad: sobre la
base de puntajes de corte predeterminados. En aras de la
claridad, supongamos que el nivel medio de ansiedad para
toda la muestra fue de 30, en la media para el grupo de
baja ansiedad fue 12, la media para la ansiedad media grupo
VALIDEZ 169
fue de 29, y la media para el grupo de alta ansiedad fue de
42.
Cada uno de estos grupos recibe tratamiento y evaluación
continuos. durante el protocolo de 10 semanas. Los resultados
del estudio sugieren que la ansiedad las puntuaciones
aumentaron en la condición de baja ansiedad, se mantuvieron
aproximadamente igual en la condición de ansiedad media, y
disminuyó en la condición de ansiedad alta. Nuestros
investigadores algo desconcertados concluyen que su
tratamiento es efectivo solo para casos de ansiedad severa,
exacerba los síntomas en individuos con síntomas mínimos de
ansiedad y tiene poco o ningún efecto sobre Niveles moderados
de ansiedad. Aunque estos hallazgos pueden ser precisos, es
También es posible que sean el resultado de una regresión
estadística. Las puntuaciones en el grupo de alta ansiedad
podrían haber vuelto al promedio general del grupo sobre las
10 semanas, dando la impresión de que la reducción de los
síntomas fue el resultado de la intervención. Del mismo modo,
el aumento percibido de los síntomas en el grupo de baja
ansiedad podría ser el resultado de que esas puntuaciones
bajas se muevan hacia la media general del grupo. En otras
palabras, las puntuaciones medias para ambos los grupos
incluyeron puntajes extremos o valores atípicos, que luego
fueron influenciados por regresión a la media. Por lo tanto,
es posible que hubiéramos visto los mismos resultados incluso
sin el impacto de la variable independiente. Tenga en cuenta
que el grupo de ansiedad media no cambió y que este fue el
grupo cuyo puntaje promedio fue más cercano al promedio
general de la muestra, que lo hace menos susceptible a los
efectos de la regresión estadística. Esto podría explicar la
posible conclusión errónea de que el protocolo de tratamiento
fue ineficaz en los síntomas moderados de ansiedad.
Sesgos de selección
Esta amenaza a la validez interna se refiere a diferencias
sistemáticas en la asignación de participantes a condiciones
experimentales. Como se señaló en el Capítulo 5, los sesgos
de selección son frecuentes en la investigación cuasi-
experimental en la que los participantes son asignados a
condiciones experimentales o de comparación grupos de manera
no aleatoria (Christensen, 1988; Kazdin, 2003c; Rosnow y
Rosenthal, 2002). Recuerde, la aleatorización está diseñada
para controlar para diferencias sistemáticas entre los
participantes a través de experimental y control grupos En
esencia, la aleatorización distribuye y equipara grupos de
manera uniforme en cualquier posible variable de confusión.
Sin aleatorización, es más difícil de explicar y controlar
estas variaciones sistemáticas en las características de los
participantes. Como con todas las amenazas a la validez
interna, el sesgo de selección puede tener un impacto
negativo en la capacidad del investigador para hacer
inferencias causales sobre los efectos de la variable
independiente.
Como se mencionó anteriormente, los sesgos de selección son
comunes en la investigación cuasiexperimental en la que no se
puede lograr la aleatorización. El ejemplo más común de esto
es cuando el experimentador intenta realizar investigaciones
en un entorno o bajo un conjunto de circunstancias donde el
los grupos ya están formados y no pueden ser alterados. En
otras palabras, para cualquiera sea la razón, la
aleatorización no es factible o posible. Por ejemplo,
consideremos un diseño para evaluar la efectividad de un aula
intervención para mejorar las habilidades matemáticas en dos
clases de alumnos de tercer grado. Porque los estudiantes ya
están asignado a clases, aleatorización no es posible, y el
estudio es por lo tanto cuasi-experimental en naturaleza.
Ambas clases reciben una prueba previa apropiada para el
grado. Clase 1 recibe la
intervención matemática y la
PRECAUCIÓN
clase 2 no. En esto caso, la
Sesgos de selección
clase 2 está actuando como
control grupo porque no Los sesgos de selección
recibe la intervención. Ambas son comunes en diseños
clases entonces recibir una cuasi-experimentales y
prueba posterior. Si la clase puede interactuar con
1 funciona mejor, ¿es seguro otras amenazas a
concluir que la intervención, validez interna, como
o variable independiente, ¿es maduración, historial o
responsable de la mejora? A instrumentación, para
pesar de esto es posible, hay producir efectos que
una serie de hipótesis tal vez no ser
rivales plausibles que no atribuible a la
tienen sido controlado por. variable independiente
La mayoría de estas hipótesis
giran en torno a
preexistentes diferencias entre los dos grupos (es decir,
antes de que se administrara la intervención). Por ejemplo,
es posible que los estudiantes de la clase 1 sean más
motivados o maduros que sus contrapartes en la Clase 2. De
hecho, cualquier diferencia preexistente entre las
composiciones de los dos grupos es una amenaza para
validez interna. Cualquiera de estas diferencias podría
proporcionar una explicación válida para los resultados de
VALIDEZ 171
la intervención matemática.
Desgaste
Esta amenaza a la validez interna se refiere a la pérdida
diferencial y sistemática. de participantes de grupos
experimentales y de control. En esencia, los participantes
abandonan el estudio de una manera sistemática y no
aleatoria que puede afectar la composición original de los
grupos formados a los efectos del estudio (Beutler y Martin,
1999). El resultado neto potencial del desgaste es que Los
efectos de la variable independiente pueden deberse a la
pérdida de participantes y no a la manipulación de la
variable independiente. Los comentaristas han señalado que
esta amenaza a la validez interna es común en la
investigación longitudinal y es una función directa del
tiempo (Kazdin, 2003c; Phillips, 1985). En general, las
tasas de deserción promedian entre 40 y 60% en la
investigación de intervención longitudinal, con la mayoría
de los participantes que abandonaron durante las primeras
etapas del estudio (Kazdin). Se aplica el desgaste para la
mayoría de las formas de diseños grupales y de casos únicos
y puede ser una amenaza para la validez interna incluso
después de que el investigador haya asignado participantes
al azar a grupos experimentales y de control. Esto se debe a
que el desgaste ocurre cuando el estudio progresa y
después de que los participantes hayan sido asignados a cada
una de las condiciones El desgaste plantea la posibilidad
de que los grupos difieran en ciertas características que
originalmente se controlaron mediante aleatorización. En
otras palabras, los participantes restantes ya no
representan la muestra original y los grupos podrían no ser
equivalentes. Consideremos un ejemplo. Un investigador
decide realizar un estudio de La efectividad de un nuevo
medicamento sobre los síntomas de ansiedad.
Aleatorización
Se usa para asignar a los participantes un medicamento (es
decir, experimental) grupo o grupo placebo (es decir,
control). Supongamos que en el transcurso de En el estudio,
los participantes en el grupo experimental experimentan
algunos efectos secundarios relativamente graves de la
medicación y un aumento de la ansiedad, haciendo que algunos
abandonen el estudio. El grupo placebo no experimenta los
efectos secundarios, por lo que la tasa de abandono es menor
en ese grupo. Los niveles promedio de ansiedad de los dos
grupos se comparan al final del estudio y los resultados
sugieren que los participantes en la medicación grupo están
menos ansiosos que los del grupo placebo. Los resultados
parecen para apoyar la conclusión de que la medicación fue
efectiva para el tratamiento de la ansiedad. El problema con
esta conclusión es que los resultados son potencialmente
confundidos por el desgaste. Si ningún participante del
estudio hubiera caído fuera del grupo de medicamentos, es
probable que los resultados hubieran sido diferentes. En
este ejemplo, observe que la deserción aún era un factor
después de la aleatorización y que la muestra final
probablemente era muy diferente de la muestra original
utilizada para formar los grupos experimentales y de
control.
Difusión o imitación del tratamiento
Esta amenaza a la validez interna es común en varias formas
de medicina e investigación de efectividad del tratamiento
de psicoterapia, y se manifiesta en dos conjuntos de
circunstancias distintas pero relacionadas. El primer
conjunto de circunstancias es la exposición no intencional
de un control. grupo a la intervención real o similar
(variable independiente) destinada solo para la condición
experimental (Kazdin, 2003c; Pedhazur y Schmelkin, 1991).
Consideremos un estudio que examina los beneficios relativos
de ejercicio y asesoramiento nutricional sobre pérdida de
peso. Los investigadores plantean la hipótesis de que el
ejercicio es más efectivo que el asesoramiento nutricional y
Asigne a los participantes a un ejercicio, asesoramiento
nutricional o grupo de control sin intervención. El grupo
experimental recibe un régimen de ejercicio personalizado,
el grupo nutricional recibe asesoramiento nutricional
general, y el grupo de control simplemente se controla por
peso pérdida o ganancia por el mismo período de tiempo.
Durante el curso del estudio, un consejero nutricional bien
intencionado pero equivocado ensalza los beneficios del
ejercicio para los miembros del grupo de asesoramiento
nutricional. Este asesoramiento adicional no formaba parte
de El diseño original y los investigadores no son
conscientes de que está teniendo lugar. Aunque el grupo de
asesoramiento nutricional no está recibiendo la intervención
de ejercicio real, la discusión del ejercicio con este grupo
podría tener Un efecto involuntario e incontrolado. Por
ejemplo, este conocimiento podría alentar a los
participantes en el grupo nutricional a buscar sus programas
de ejercicio propio o para cambiar sus hábitos cotidianos de
tal manera eso aumenta su nivel de actividad general, como
subir las escaleras del ascensor. Si ese es el caso, el
grupo nutricional ha recibido una intervención similar al
grupo experimental. Como mínimo, el los resultados podrían
confundirse porque la condición nutricional no se está
entregando como los investigadores pretendieron
originalmente, porque la condición de ejercicio se ha
difundido en el grupo nutricional. La amenaza a la validez
interna en este ejemplo radica en la posibilidad de que el
ejercicio y grupos nutricionales han recibido intervenciones
similares, que podrían igualar el rendimiento en todos los
grupos (Kazdin, 2003c).
El segundo conjunto de circunstancias surge cuando el grupo
experimental no recibe la intervención prevista en absoluto
(Kazdin, 2003c; Pedhazur Y Schmelkin, 1991). En el primer
caso, los participantes en un grupo de control obtener
conocimiento o estar expuesto involuntariamente a lo
experimental intervención (la variable independiente). En
este caso, el investigador cree que el grupo experimental ha
recibido la intervención cuando, en realidad, no lo ha
hecho. Esta es una amenaza común en muchas formas de
psicoterapia. investigación. Tomemos, por ejemplo, un
estudio que compara la efectividad de comportamiento y
psicodinámicas terapias para la depresión. Dos los
terapeutas son reclutados y capacitado para realizar las
intervenciones. Ambos terapeutas son psicodinámicos en su
orientación, entonces uno recibe entrenamiento suplementario
en técnicas de comportamiento. Los participantes reciben uno
de los dos tratamientos y los resultados sugieren que ambos
son igualmente efectivos. Lo que los investigadores no saben
es que el terapeuta conductual se ha desviado
intencionalmente o no del protocolo especificado en tiempos
y elementos incluidos del tratamiento psicodinámico en la
condición conductual. En otras palabras, el grupo de
comportamiento podría no tener recibió una intervención
conductual en absoluto. En el mejor de los casos, han
recibido un híbrido de tratamiento psicodinámico y
conductual. Como en nuestro ejemplo anterior, en lugar de
comparar dos condiciones distintas, los investigadores
podrían estar comparando dos condiciones que son más
similares a las previstas por El diseño original de la
investigación. De nuevo, esto podría igualar el rendimiento
de los grupos experimentales y de control, que podrían tener
el efecto de distorsionar o nublar los resultados del
estudio.
Tratamiento especial o reacciones de los controles
Estas amenazas relativamente comunes a la validez interna
pueden ser causadas por Tratamiento especial, a menudo
compensatorio, o atención prestada al control grupo. Incluso
en ausencia de atención o tratamiento especial, los
controles pueden darse cuenta de que están en una condición
"menor" y reaccionar compitiendo o mejorando su rendimiento.
Cualquiera de estas situaciones puede igualar el rendimiento
de las condiciones experimentales y de control y por lo
tanto, "lavado" diferencias entre grupos en la variable
dependiente (Christensen, 1988; Kazdin, 2003c; Pedhazur y
Schmelkin, 1991). Especial El tratamiento en sí es una
amenaza relativamente común para la validez interna y puede
estar relacionado con cualquier número de actividades
realizadas con el grupo de control (no intervención).
Recuerde que en este caso, la intervención es también la
variable independiente. Estos factores van desde la simple
interacción humana a ejemplos más concretos, como
compensación financiera o privilegios especiales. Por
ejemplo, la atención sola podría producir un cambio no
deseado en el comportamiento.
Supongamos que hay dos grupos en un estudio de depresión. El
grupo de intervención o experimental recibe terapia mientras
que el grupo control simplemente se controla semanalmente
para determinar la gravedad de los síntomas. El monitoreo
consiste en una entrevista estructurada de una hora de
duración con un asistente
PRECAUCIÓN
de investigación. Esta la Difusión o Imitación de
atención social semanal tratamiento
podría actuar como una Difusión o imitación del
intervención a pesar del tratamiento. Es una amenaza
hecho de que estaba para la validez interna
destinado solo para fines porque puede igualar el
rendimiento de los grupos
de monitoreo. Quizás la
experimentales y de control.
entrevista da los
participantes de control tienen la oportunidad de discutir
sus síntomas, que produce cierto alivio de los síntomas
incluso sin terapia per se. Después de todo, el apoyo social
se ha relacionado con resultados positivos para la
depresión. Los El mismo efecto puede observarse incluso en
ausencia de contacto humano.
Por ejemplo, simplemente completando una medida de
autoinforme de síntomas depresivos en una habitación vacía
podría tener el mismo efecto al aumentar la conciencia de la
controlar a los participantes con respecto a su nivel actual
de síntomas. Reforzadores y otros incentivos pueden tener un
efecto similar. Darles a los participantes de control dinero
o privilegios especiales podría tener un impacto en los
niveles de depresión al aumentar la autoestima o reducir la
desesperanza. Como la difusión o imitación del tratamiento,
esta amenaza a la validez interna podría igualar rendimiento
de los grupos experimentales y de control, que podrían tener
VALIDEZ 175
El efecto de distorsionar o nublar los resultados del
estudio.
En conclusión, amenazas a la validez interna de un estudio
(resumido en La referencia rápida 6.1) es común y, a veces,
inevitable. Pueden ocurrir solos o en combinación, y pueden
crear hipótesis alternativas plausibles no deseadas para los
resultados de un estudio. Estas hipótesis rivales pueden
dificultar la determinación de la causalidad. Algunas de
estas amenazas se pueden manejar de manera efectiva a través
de componentes de diseño (por ejemplo, grupos de control y
aleatorización) al comienzo del estudio, mientras que otras
(por ejemplo, desgaste) lugar durante el curso del estudio.
Tener en cuenta estas amenazas es un aspecto crítico y una
función de la metodología de investigación que debería tener
lugar, si es posible, en la etapa de diseño del estudio.
Consulte el Capítulo 3 para una discusión general de estas
estrategias.
VALIDEZ EXTERNA
La validez externa se refiere a la generalización de los
resultados de un estudio de investigación. En todas las
formas de diseño de investigación, los resultados y
conclusiones del estudio se limita a los participantes y las
condiciones definidas por el contorno del estudio. Validez
externa (compárese con la validez ecológica en la referencia
rápida 6.2) se refiere al grado en que los resultados de la
investigación se generalizan a otras condiciones,
participantes, horarios y lugares (Graziano y Raulin, 2004).
Referencia rápida 6.1
• Historial: Eventos o incidentes globales internos o
externos que toman lugar durante el curso del estudio que
podría haber sido involuntario e impactos no controlados en
el resultado final del estudio (es decir, en la variable
dependiente).
• Maduración: Cambios intrínsecos dentro de los
participantes que generalmente son relacionado con el paso
del tiempo.
• Instrumentación: Cambios en la evaluación de los
independientes. variables que generalmente están
relacionadas con cambios en el instrumento de medición o
procedimientos de medición a lo largo del tiempo.
• Pruebas: Los efectos que puede tener tomar una prueba en
una ocasión administraciones posteriores de la prueba. Se
encuentra con mayor frecuencia en investigación
longitudinal, en la que los participantes se miden
repetidamente en Las mismas variables de interés a lo largo
del tiempo.
• Regresión estadística: Fenómeno estadístico, prevalente en
pretest y diseños posteriores a la prueba, en los que los
puntajes extremadamente altos o bajos en una medida tienden
a revertir hacia la media de la distribución con repetidas
pruebas.
• Sesgo de selección: Diferencias sistemáticas en la
asignación de participantes a condiciones experimentales.
• Desgaste: Pérdida de participantes en la investigación que
pueden alterar la original composición de grupos y
comprometer la validez del estudio.
• Difusión o imitación del tratamiento: Exposición
involuntaria de un grupo de control a una intervención
destinada solo para el experimental grupo, o una falla al
exponer el grupo experimental a la intención intervención.
Este factor de confusión ocurre con mayor frecuencia en los
estudios de intervención médica y psicológica.
• Tratamiento especial o reacciones de controles:
Relativamente común amenazas a la validez interna en las
cuales (1) especiales o compensatorias Se da tratamiento o
atención a la condición de control, o (2) los participantes
en la condición de control, como resultado de su asignación,
reaccionan o compensar de una manera que mejore o altere su
rendimiento.
Validez Ecológica y Temporal
Aunque los términos "validez ecológica" y "validez externa"
a veces se usan indistintamente, se puede establecer una
distinción clara entre dos. De los dos, la validez externa
es un concepto más general. Se refiere al grado en que los
resultados de la investigación se generalizan a otras
condiciones, participantes, tiempos y lugares, y en última
instancia se preocupa por las conclusiones que se pueden
extraer sobre la fuerza de la relación causal inferida entre
las variables independientes y dependientes de las
circunstancias más allá de los estudiados experimentalmente.
La validez ecológica es más específica. concepto que se
refiere a la generalización de los resultados obtenidos VALIDEZ
en 177
un entorno de laboratorio para el mundo real.
La validez temporal es otro término que se relaciona
ampliamente con la validez externa. Se refiere a la medida
en que los resultados de un estudio pueden generalizarse a
través del tiempo. Más específicamente, este tipo de validez
se refiere a los efectos de fluctuaciones estacionales,
cíclicas y específicas de la persona que pueden afectar la
generalización de los hallazgos del estudio.
Por lo tanto, un estudio tiene más validez externa cuando
los resultados se generalizan más allá de la muestra de
estudio a otras
poblaciones, entornos y NO OLVIDES
circunstancias. La Validez externa
validez externa se
La validez externa es el grado
refiere a conclusiones
de qué resultados de
que se pueden extraer
investigación generalizan a
sobre la fuerza de la
otras condiciones,
relación causal inferida
participantes, tiempos y
entre las variables
lugares. La validez externa es
independientes y
relacionado con conclusiones que
dependientes para
pueden ser dibujado sobre la
circunstancias más allá
fuerza de la relación causal
de las estudiadas
inferida entre el independiente
experimentalmente. En
y dependiente variables a
otras palabras, ¿serían
circunstancias más allá aquellos
los resultados de
estudiados experimentalmente.
nuestro Qué estudio aplica a diferentes poblaciones,
entornos o conjuntos de circunstancias? Si es así, entonces
el estudio tiene Fuerte validez externa. Por ejemplo,
consideremos un estudio diseñado para determinar la
efectividad de una nueva intervención para la ansiedad ante
los exámenes. De nuevo, la intervención es la variable
independiente,
178 ESCENCIALES mientras
DEL DISEÑO Y LA que
METODOLOGIA la INVESTIGACION
DE LA ansiedad de prueba es la
variable dependiente.
El estudio se está llevando a cabo en una importante
universidad de la costa este, y los participantes son
estudiantes universitarios de primer año que actualmente
toman una clase de psicología de nivel introductorio. Aunque
esto puede no parecer realista a primera vista, muchos Los
estudios se realizan con estudiantes universitarios porque
son fácilmente accesibles y forman muestras de conveniencia
(Kazdin, 2003c). Los estudiantes son evaluados para
determinar sus niveles de ansiedad ante los exámenes y luego
son asignados a un grupo de control sin tratamiento o un
grupo experimental que recibe la intervención. La nueva
terapia es notablemente efectiva y significativamente reduce
la ansiedad de prueba en el grupo experimental. Los
investigadores inmediatamente comercializan su intervención
como un tratamiento generalmente efectivo para Examen de
ansiedad. ¿Pueden los investigadores apoyar su reclamo
basado en los resultados de su estudio? Con suerte, ya te
has dado cuenta de que este estudio tiene graves fallas
relacionadas con la validez interna, pero dejemos eso de
lado para propósitos de este ejemplo y se centran solo en
cuestiones relacionadas con la validez externa.
Recuerde que la validez externa es el grado en que los
resultados de la investigación generalizar a otras
condiciones, participantes, horarios y lugares. Un estudio
tiene validez externa cuando los resultados se generalizan a
otras poblaciones, entornos, y circunstancias. En nuestro
ejemplo, los investigadores han encontrado que su la
intervención efectivamente reduce la ansiedad de la prueba,
y están asumiendo que es efectivo en una amplia variedad de
entornos y poblaciones. Podrían sea correcto, pero el diseño
de este estudio no tiene una fuerte validez externa por
varias razones, lo que socava la afirmación de que la
intervención es efectiva para otras poblaciones. Primero, el
estudio se realizó con una muestra de estudiantes
universitarios de primer año inscritos en un curso de
psicología de nivel introductorio. Este es un muy estrecho
muestra; ¿Se aplicarían los resultados a poblaciones más
amplias, como niños de primaria, estudiantes de secundaria o
estudiantes de último año de universidad? ¿El Los resultados
se aplican a estudiantes universitarios de primer año que no
se inscribieron en una clase de psicología de nivel
introductorio? No lo sabemos con certeza porque estos
individuos no se incluyeron en la muestra utilizada en el
estudio.
En segundo lugar, ¿se aplican los resultados a otros
entornos, como diferentes universidades, escuelas
secundarias, clases y entornos empresariales? La efectividad
de la intervención podría limitarse al entorno en el que se
llevó a cabo el estudio. Por ejemplo, podríamos encontrar que
los resultados no se generalizan a las universidades de la
costa oeste o a las escuelas secundarias. En otras palabras,
la eficacia de la intervención podría ser específica de la
población representada por la muestra utilizada en VALIDEZ el 179
estudio.
Tercero, ¿hay algo único en las condiciones del estudio? Por
ejemplo, ¿se llevó a cabo el estudio alrededor de exámenes de
mitad de período o finales, cuando los niveles de ansiedad
podrían ser inusualmente altos? ¿Habría sido tan eficaz la
intervención si el estudio hubiera ocurrido en un momento
diferente durante el semestre? Como se mencionó
anteriormente, la respuesta es que no sabemos con certeza. En
términos de validez externa, la declaración más precisa que
se puede hacer a partir de los resultados de nuestro estudio
hipotético es que la intervención fue efectiva para los
estudiantes de primer año de la universidad en clases de
psicología introductoria en una importante universidad de la
costa este. Cualquier otra conclusión no sería necesariamente
apoyada, y sería necesaria una investigación adicional en
diferentes momentos, lugares y condiciones para apoyar
cualquier otra conclusión.
Amenazas a la validez externa

Al igual que con la validez interna, hay confundaciones y
características de un estudio que pueden limitar la
generalización de los resultados. Estas características y
confundas se conocen colectivamente como amenazas a la
validez externa, e incluyen características de muestra,
características y ajustes de estímulo, reactividad de los
arreglos experimentales, interferencia de tratamiento
múltiple, efectos de novedad, reactividad de la evaluación,
sensibilización de pruebas y momento de medición (Kazdin,
2003c). El control de estas influencias permite a los
investigadores generalizar con mayor confianza los resultados
del estudio a otras circunstancias y poblaciones (Kazdin;
Rosnow & Rosenthal, 2002).
Características de la muestra
Esta amenaza a la validez externa se refiere a un fenómeno
por el que los resultados de un estudio se aplican sólo a una
muestra en particular. Por consiguiente, no está claro si los
resultados pueden aplicarse a otras muestras que varían en
180 ESCENCIALES DEL DISEÑO
función Y LA METODOLOGIA DEcomo
de características LA INVESTIGACION
la edad, el género, la
educación y el estatus socioeconómico (Kazdin, 2003c).
Un ejemplo de características de muestra se puede encontrar
en nuestra discusión anterior sobre la validez externa. En
ese ejemplo, observamos que la muestra consistía en
estudiantes de primer año universitarios inscritos en una
clase de psicología de nivel introductorio. Como señalamos,
no podemos suponer que los resultados de ese estudio
necesariamente se mantendrían para una muestra diferente,
como los estudiantes de secundaria o los niños de la escuela
primaria. Además, ni siquiera podemos suponer que los
hallazgos serían válidos para los estudiantes de primer año
de la universidad en general. A través de investigaciones
adicionales, podríamos descubrir que la intervención fue
efectivamente sólo para los estudiantes de psicología y no
generalizó a los estudiantes de primer año que tomaron clases
de negocios o ciencias de nivel introductorio. En otras
palabras, incluso esta diferencia sutil en las
características de la muestra puede tener un efecto
significativo en la generalización de los resultados de un
estudio. Claramente, no sería posible ni práctico incluir
todas las características de población posibles en nuestra
muestra, por lo que siempre nos enfrentamos a la posibilidad
de que las características de la muestra sean una confunde a
la validez externa de cualquier estudio. En consecuencia,
conclusiones.
NO OLVIDAR
………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………
Características de la diversidad
Las características de la muestra pueden abarcar una amplia
variedad de rasgos y características demográficas, siendo
algunos de los más comunes la edad, el género, la educación y
el estatus socioeconómico. Los comentaristas han observado
que algunas características relacionadas con la diversidad no
están bien representadas en la mayoría de las formas de
investigación (Kazdin, 2003c). La principal preocupación en
esta área es que hay una sobrerrepresentación de algunos
grupos, como los estudiantes universitarios; y una inclusión
relacionada y limitada de grupos subrepresentados y
minoritarios, como los hispanoamericanos y las mujeres. Las
características de la diversidad son un tema importante en
términos de validez externa, y pueden tener consecuencias
importantes y de gran alcance para todos los estratos de la
sociedad. Por ejemplo, los resultados de un estudio de
eficacia de medicamentos realizado sólo en hombres blancos
podrían no ser válidos para un grupo racial diferente. Las
posibles ramificaciones deben ser obvias. Del mismo modo, un
estudio diseñado para proporcionar la información necesaria
para tomar una decisión importante de política pública debe
incluir una muestra lo suficientemente diversa como para
capturar con precisión el grupo en particular que se verá
directamente afectado por la decisión. Aunque estos son sólo
dos ejemplos, los factores de diversidad deben ser
considerados en todos los tipos de investigación.
Los resultados de un estudio tienden a limitarse a las

características representado por la muestra utilizada en el
estudio.
Características y ajustes de estímulo
ambiental en el que características o condiciones
VALIDEZ 181
particulares del estudio limitan la generalización de los
hallazgos (Brunswik, 1955; Pedhazur & Schmelkin, 1991).
Cada estudio opera bajo un conjunto único de condiciones y
circunstancias relacionadas con el arreglo experimental. Los
ejemplos más citados incluyen el entorno de investigación y
los investigadores involucrados en el estudio. La principal
preocupación con esta amenaza a la validez externa es que los
hallazgos de un estudio están influenciados por un conjunto
de condiciones únicas, y por lo tanto no necesariamente
pueden generalizarse a otro estudio, incluso si el otro
estudio utiliza una muestra similar.
Volvamos de nuevo a nuestro ejemplo anterior que implica la
intervención para la ansiedad de prueba. Ese estudio encontró
que la intervención fue eficaz para la ansiedad de las
pruebas con estudiantes de primer año universitarios
inscritos en una clase de psicología de nivel introductorio
en una importante universidad de la costa este. Un colega de
una universidad de la costa oeste decide replicar el estudio
utilizando una muestra de estudiantes de primer año
universitarios inscritos en una clase de psicología de nivel
introductorio. A pesar de seguir nuestros procedimientos de
la costa este al escrito, nuestro colega no encuentra que la
intervención fue efectiva. Aunque podría haber una serie de
explicaciones para esto, es posible que un estímulo-
características-y ajustes confundir está presente. El entorno
en el que se realiza la intervención es sin duda diferente en
la universidad de nuestro colega de la costa oeste, por
ejemplo, podría ser menos cómodo que nuestro entorno de la
costa este. Del mismo modo, un individuo diferente está
entregando la intervención a los estudiantes de primer año de
la universidad en la costa oeste, y este individuo podría ser
menos competente o menos accesible que su contraparte de la
costa este. Cada uno de ellos es un ejemplo de fuentes
potenciales de características y configuraciones de estímulo.
Reactividad de los arreglos experimentales
Esta amenaza a la validez externa se refiere a una variable
potencialmente confundente que es el resultado de la
influencia producida por saber que uno está participando en
un estudio de investigación (Christensen, 1988). En otras
palabras, la conciencia de los participantes que están en un
estudio puede tener un impacto en sus actitudes y
comportamiento durante el curso del estudio. Esto, a su vez,
puede tener un impacto significativo en cualquier resultado
obtenido del estudio y es especialmente problemático cuando
los participantes conocen el propósito o hipótesis del
estudio. Discutimos estrategias para limitar el conocimiento
de los participantes sobre las hipótesis de un estudio en el
Capítulo 3. Como amenaza a la validez externa, la cuestión se
convierte en si se habrían obtenido los mismos resultados si
los participantes hubieran desinformado de que estaban siendo
estudiados (Kazdin, 2003c). Esta amenaza a la validez externa
es muy común. La razón principal de esto es que las normas
éticas requieren que los participantes proporcionen
consentimiento informado antes de participar en la mayoría de
los estudios de investigación.
Por ejemplo, consideremos un estudio diseñado para evaluar la
eficacia de un programa de modificación del comportamiento de
10 semanas ideado para reducir la reincidencia en los
delincuentes adolescentes. El grupo experimental recibe la
intervención (es decir, la variable independiente) y el grupo
de control no. Los investigadores encuentran que el grupo
experimental muestra niveles más bajos de reincidencia (es
decir, la variable dependiente) en comparación con el grupo
de control. Los investigadores podrían verse tentados a decir
que la intervención fue responsable de los hallazgos; sin
embargo, podría ser que el comportamiento en cuestión mejoró
porque los participantes habían asumido una actitud obediente
hacia la intervención. Alternativamente, si los participantes
en el grupo de tratamiento hubieran adoptado una actitud más
negativista hacia la intervención, los resultados del estudio
podrían haber sugerido que la intervención no tuvo éxito. En
cualquier caso, cualquiera de los dos resultados podría ser
el resultado de la reactividad de los arreglos experimentales
y no de la intervención en sí.
Interferencia de tratamiento múltiple
Esta amenaza a la validez externa se refiere a situaciones de
investigación en las que (1) los participantes se administran
más de una intervención experimental (o variable
independiente) dentro del mismo estudio o (2) los mismos
individuos participan en más de un estudio ( Pedhazur &
Schmelkin, 1991). Aunque es más común en los estudios de
tratamiento-resultado, también es frecuente en cualquier
estudio que tenga más de una condición experimental o
variable independiente. La principal implicación de esta
amenaza es que los resultados de la investigación pueden
VALIDEZ 183
deberse al contexto o serie de condiciones en las que se
presentó la investigación (Kazdin, 2003c).
En la primera situación de investigación, las variables
independientes administradas simultáneamente o
secuencialmente pueden producir un efecto de interacción. En
general, múltiples variables independientes administradas en
el mismo estudio actúan como una confunción que hace difícil
determinar cuál es responsable de los resultados observados.
La segunda situación se refiere a la experiencia relativa y
la sofisticación de los participantes. La familiaridad con la
investigación puede afectar el comportamiento y las
respuestas de los participantes, lo que de nuevo hace difícil
interpretar con precisión los resultados del estudio.
Por ejemplo, consideremos una situación común en la que puede
ocurrir interferencia de tratamiento múltiple. Un estudio de
tratamiento de 12 semanas está diseñado para evaluar la
eficacia de un enfoque combinado para el tratamiento de la
depresión que abarca elementos de la terapia psicodinámica y
cognitiva. Los participantes se dividen aleatoriamente en un
grupo de control y un grupo experimental. Ambos grupos se
evalúan para determinar la gravedad de los síntomas. El grupo
experimental entonces recibe 6 semanas de terapia
psicodinámica seguida según 6 semanas de terapia cognitiva.
Al final de las 12 semanas, tanto los grupos de control como
los experimentales se reevaluan para determinar la gravedad
de los síntomas. Los resultados de la evaluación sugieren que
el grupo experimental experimentó una reducción significativa
de los síntomas, mientras que el grupo de control no lo hizo.
Los investigadores concluyen que un modelo combinado de
psicodinámica-terapia cognitiva es un enfoque eficaz para
tratar la depresión.
Aunque este puede ser el caso, está lejos de ser una certeza
y hay muchas preguntas sin respuesta. Por ejemplo, ¿habría
sido tan eficaz el tratamiento si la terapia cognitiva se
hubiera administrado primero? ¿6 semanas de terapia
psicodinámica o cognitiva por sí solas habrían producido
resultados similares? ¿La presencia de ambas modalidades de
tratamiento realmente redujo la eficacia de la intervención
global? Aunque el estudio produjo mejoras significativas en
los síntomas, podría haber producido resultados aún mejores
si no se hubieran utilizado ambas formas de terapia. Estos
son aspectos de los efectos de tratamiento múltiple que se
controlan mejor a través de diseños de investigación
específicos que se discutieron en el capítulo 5.
Efectos novedosos
Esta amenaza a la validez
externa se refiere a la Referencia Rápida 6.3
posibilidad de que los El efecto Hawthorne
La reactividad de los arreglos
efectos de la variable experimentales también se
independiente pueden conoce como el efecto
deberse en parte a la Hawthorne, que ocurre cuando el
singularidad o novedad desempeño de un individuo en un
del estímulo o situación estudio se ve afectado por el
y no a la intervención Sí conocimiento del individuo de
que él o ella está participando
mismo. Es similar a la
en un estudio. Por ejemplo,
Efecto espino (discutido algunos participantes podrían
en Capítulo 3; ver ser más atentos, obedientes o
también Referencia Rápida diligentes, mientras que otros
6.3) en ese nuevo o podrían ser intencionalmente
inusual tratamientos o difíciles o no cooperativos a
tratamientos pesar de haber sido voluntarios
para el estudio (Bracht &
experimentales
Glass, 1968).
Las intervenciones podría producir resultados que desaparecen
una vez que la novedad de la situación o condición se
desgasta apagado. En otras palabras, la novedad de la
intervención o situación actúa como un variable de
confundente, y es que novedad (y no la independiente
variable) esa es la verdadera explicación de los resultados. VALIDEZ 185
Esta amenaza a la validez externa es común en una amplia
variedad de entornos y diseños experimentales.
Tomemos, por ejemplo, una situación en la que los
investigadores están tratando de determinar la eficacia de
una nueva intervención terapéutica para individuos con
antecedentes de depresión crónica. Han decidido llamar a esta
nueva intervención "terapia de sonrisas" porque el terapeuta
está entrenado para sonreír al cliente en un horario regular
con la esperanza de fomentar un estado de ánimo positivo y
perspectiva de la vida. Se evalúan los síntomas de la
depresión, y luego los participantes se asignan
aleatoriamente a un grupo de control o a una de las tres
condiciones experimentales. Las tres condiciones
experimentales incluyen terapia de sonrisa, terapia
cognitivo-conductual y terapia interpersonal. Todos los
participantes se someten a sus respectivos tratamientos
durante 4 semanas y luego se les reevalúa la gravedad de la
depresión. Los investigadores encuentran que la terapia de
sonrisa es más eficaz que la terapia cognitivo-conductual e
interpersonal sobre los síntomas de la depresión crónica.
Por ahora, es probable que haya descubierto que podría haber
un problema aquí porque un efecto novedoso también podría
explicar los resultados. Nuestra población en este estudio
ficticio consiste en individuos con depresión crónica, por lo
que es probable que hayan probado muchas modalidades de
tratamiento o al menos han estado en tratamiento en una
modalidad durante un período significativo de tiempo. Aunque
estas modalidades son algo distintas, ninguna de ellas
implica que el terapeuta sonriendo al participante como la
intervención. Por lo tanto, la terapia de sonrisa es única, o
novedosa, y esto por sí solo podría explicar las mejoras en
la depresión. La otra cuestión aquí es que la intervención
tuvo lugar en el transcurso de 4 semanas. Si estos hallazgos
fueran el resultado de una novedad, entonces esperaríamos que
el efecto del tratamiento desapareciera con el tiempo a
medida que la novedad de la terapia de sonrisa disminuyera.
Cuatro semanas podrían no ser una cantidad suficiente de
tiempo para que la novedad disminuya, y los resultados del
estudio a las 12 semanas podrían no haber demostrado un
hallazgo significativo para esta nueva forma de terapia. La
presencia de un efecto novedoso limitaría la capacidad del
investigador para generalizar los resultados de este estudio
a situaciones o contextos en los que no existe el mismo
efecto.
Este efecto también se puede ver fuera del ámbito del
tratamiento-intervención. Supongamos que desea determinar la
eficacia de una intervención diseñada para aumentar el
trabajo en equipo y la productividad relacionada para los
gerentes de nivel superior en dos configuraciones
organizativas distintas. Dejando a un lado las amenazas
obvias a la validez interna creadas mediante la realización
de su estudio sin aleatorización en dos entornos separados,
exploremos más a fondo las implicaciones del efecto novedad.
Los investigadores identifican a los altos directivos de
ambas organizaciones y administran la intervención. Una
organización es una empresa de fabricación y la otra es una
gran empresa de gestión financiera. Los investigadores
encuentran que la intervención aumenta la productividad y el
trabajo en equipo, pero sólo en la empresa de gestión
financiera. Por lo tanto, los investigadores concluyen que la
intervención es eficaz, pero sólo en el único entorno.
Sin embargo, también es posible que el hallazgo se deba a un
efecto novedoso y no a la propia intervención. Vamos a
agregar información relevante adicional. ¿Y si supiera que la
empresa manufacturera está involucrada en un programa de
mejora de la calidad total? Estos programas tienden a
implicar un alto nivel de trabajo en equipo e interacción
grupal a diario. También descubren que la empresa de
gestión financiera nunca ha abordado el tema del trabajo en
equipo o la productividad grupal en el pasado. Por lo tanto,
el hallazgo significativo podría deberse a la novedad de
introducir el trabajo en equipo en un entorno donde nunca
antes se había considerado, y no a la intervención del
trabajo en equipo en sí. Por el contrario, la intervención
podría no haber sido efectiva en la empresa manufacturera
porque la organización ya había incorporado el modelo a su
cultura corporativa. ¿Qué pasa si intentamos la intervención
en una empresa de gestión financiera que ya había
implementado un enfoque de equipo? De nuevo, podríamos
encontrar que la intervención no es efectiva. Si ese fuera el
caso, entonces, en términos de generalización, la afirmación
más precisa podría ser que la intervención es efectiva en
compañías de gestión financiera que nunca han estado
expuestas a intervenciones de trabajo en equipo.
Reactividad de la evaluación
por el cual la conciencia de los participantes de que se está
midiendo su desempeño puede alterar su desempeño de lo que de
otro modo habría sido (Christensen, 1988; Kazdin, 2003c). La
reactividad es una amenaza a la validez externa cuando esta
conciencia lleva a los participantes del estudio a responder
VALIDEZ 187
de manera diferente a como lo harían normalmente ante las
condiciones experimentales.
La reactividad es otra amenaza común a la validez externa que
puede ocurrir en una amplia variedad de entornos y
circunstancias, y es una amenaza sustancial siempre que la
evaluación formal o informal sea un componente necesario del
estudio. Por ejemplo, considere un estudio de resultados de
psicoterapia en el que se evalúe a los participantes el
número y la gravedad de los síntomas de angustia emocional.
El hecho mismo de que se esté realizando una evaluación
podría hacer que los participantes distorsionen sus
respuestas por diversas razones. Por ejemplo, los
participantes pueden sentirse incómodos o autoconscientes e
informar desempleo de sus síntomas. Por el contrario, los
participantes podrían informar en exceso sus niveles de
síntomas si sospechan que hacerlo podría conducir a un
tratamiento más intensivo. La Referencia Rápida 6.4 analiza
la obtrusiva del proceso de medición con respecto a la
reactividad de los participantes.
Referencia Rápida 6.4

……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………….
Medición obtrusiva vs.
Como se mencionó anteriormente, la reactividad se convierte
en una amenaza para la validez externa cuando los
participantes en un estudio responden de manera diferente a
como lo harían normalmente frente a condiciones
experimentales. Aunque una amplia variedad de estímulos puede
causar reactividad, el ejemplo más común ocurre durante la
medición o evaluación formal. Si los participantes son
conscientes de que están siendo evaluados, entonces se dice
que esa medida de evaluación es molesta y, por lo tanto, es
probable que afecte el comportamiento. Por el contrario, el
término medición discreta se refiere a la evaluación
en la que los participantes no son conscientes de que la
medición se está llevando a cabo (Rosnow & Rosenthal, 2002).
Aunque la reactividad es común en todas las formas de

estudios de intervención de tratamiento médico y psicológico,
también es frecuente en otros entornos. Por ejemplo,
preguntar directamente a los empleados acerca de sus
actitudes hacia la administración podría conducir a
respuestas más favorables de lo que de otro modo se esperaría
si llenaran un cuestionario anónimo.
Pretest y Posttest Sensibilización
Estas amenazas relacionadas con la validez externa se
refieren a los efectos que la prueba previa y la posprueba
podrían tener en el comportamiento y las respuestas de los
participantes en un estudio (Bracht & Glass, 1968; Lana,
1969; Pedhazur & Schmelkin, 1991). En muchas formas de
investigación, los participantes son probados
previamente para cuantificar la presencia de alguna variable
de interés y para proporcionar una línea de base de
comportamiento contra la cual los efectos de la intervención
experimental (independiente variable) puede evaluarse. Por
ejemplo, se daría una prueba previa para los síntomas de
ansiedad para determinar la sintomatología de los
participantes en un estudio de tratamiento que investiga la
eficacia de una nueva terapia para los trastornos de
ansiedad. La información de la prueba previa se utilizaría
como medida de referencia y se compararía con una medida
posterior a la prueba de los síntomas al final del estudio
para determinar la eficacia de la intervención para reducir
los síntomas de ansiedad. En general, la sensibilización
previa es una posibilidad cada vez que los participantes se
miden antes de la administración de la experimental y los
investigadores están interesados en medir los efectos de la
variable independiente en la variable dependiente.
Como una amenaza a la validez externa, la preocupación es que
la exposición a la prueba previa puede contribuir a, o ser la
única causa de, los cambios observados en la variable
dependiente. En otras palabras, ¿los resultados del estudio
habrían sido los mismos si no se hubiera administrado la
prueba previa? Esto tiene implicaciones obvias para la
validez externa porque la sensibilización previa a la prueba
puede hacer que los resultados sean irrelevantes en
situaciones en las que no se administró la misma prueba
previa. Por ejemplo, en nuestro estudio de ansiedad
mencionado anteriormente, los mismos efectos del tratamiento
podrían no encontrarse en ausencia de la prueba previa para
el nivel actual de ansiedad.
Mientras que las pruebas preliminares se centran en evaluar

el nivel de una variable antes de la aplicación de la
intervención experimental (o variable independiente), las
pruebas posteriores se realizan para evaluar la efectividad
de la variable independiente. Una medición posterior a la
prueba puede tener un efecto similar en la validez externa
como una evaluación previa a la prueba. ¿Se habrían
encontrado los mismos resultados si no se hubiera
administrado la prueba posterior? De lo contrario, se puede
decir que la sensibilización posterior a la prueba podría
explicar los resultados, ya sea solo o en combinación con la
intervención experimental. Tanto en la evaluación previa como
en la posterior, la preocupación es si los participantes
fueron sensibilizados por cualquiera de las medidas. De ser
así, los resultados podrían ser menos generalizables que si
la investigación futura y las intervenciones reales se
llevaran a cabo sin el mismo procedimiento y medidas de
evaluación. En otras palabras, la presencia de pruebas
previas y posteriores se convierte en una parte integral de
la intervención misma. Por lo tanto, los efectos de la
variable independiente pueden ser menos prominentes o incluso
inexistentes en ausencia de sensibilización previa o
posterior a la prueba.
VALIDEZ 189
Momento de evaluación y medición

Esta amenaza a la validez externa es particularmente común en
las formas longitudinales de investigación, y se refiere a la
pregunta de si se habrían obtenido los mismos resultados si
la medición se hubiera producido en un momento diferente
(Kazdin, 2003c). Aunque esta amenaza a la validez externa
puede ocurrir en la mayoría de los tipos de diseño de
investigación, es más común en la investigación longitudinal.
(Consulte el Capítulo 5 para una discusión más detallada de
la investigación longitudinal.) La investigación longitudinal
se produce con el tiempo y se caracteriza por múltiples
evaluaciones a lo largo de la duración del estudio. Por
ejemplo, un estudio de resultados de terapia longitudinal
podría encontrar resultados significativos después de la
evaluación de los síntomas a los 2 meses, pero no a los 4 o 6
meses. Si el estudio concluyó al final de los 2 meses, los
investigadores podrían llegar a la conclusión general de que
el tratamiento es efectivo para un trastorno en particular.
Esto podría ser una generalización excesiva porque si el
estudio hubiera continuado durante un período de tiempo más
largo, no se habría observado el mismo efecto del
tratamiento. Por lo tanto, la conclusión más apropiada sobre
nuestro estudio de 2 meses podría ser que el tratamiento
produce alivio de los síntomas hasta por 2 meses o después.
El estudio apoya la conclusión más específica, mientras que
la conclusión más general sobre la efectividad podría no ser
precisa debido al momento de la medición. Tenga en cuenta que
lo contrario también podría ser cierto: la falta de
resultados significativos después de la medición a los 2
meses no elimina la posibilidad de resultados significativos
si la intervención y la medición se produjeron durante un
período de tiempo más largo.
Rapid Reference 6.5 resume las amenazas a la validez externa
que hemos discutido en esta sección, y Rapid Reference 6.6
proporciona más discusión.
VALIDEZ DE CONSTRUCCIÓN
En el contexto del diseño y la metodología de la
investigación, el término validez de construcción se
relaciona con la interpretación de la base de la relación
causal, y se refiere a la congruencia entre los resultados
del estudio y los fundamentos teóricos que guían la
investigación (Kazdin, 2003c). El enfoque de la validez de
constructo generalmente está en la variable independiente del
estudio. En esencia, la validez de constructo hace la
pregunta de si la teoría respaldada por los hallazgos
proporciona la mejor explicación disponible de los
resultados. En otras palabras, es la razón de la relación
entre la intervención experimental (variable independiente) y
el fenómeno observado (variable dependiente) debido a la
construcción o explicación subyacente ofrecida por los
investigadores.

Amenazas a la validez externa
 Características de la muestra: la medida en que los

resultados de un estudio se aplican solo a una muestra
en particular. La pregunta clave es si los resultados
del estudio pueden aplicarse a otras muestras que varían
en una variedad de características demográficas y
descriptivas, como la edad, el género, orientación
sexual, educación y nivel socioeconómico.
 Características y entornos de estímulo: un fenómeno
ambiental por el cual las características o condiciones
particulares del estudio limitan la generalización de
los resultados, de modo que los resultados de un estudio
no se aplican necesariamente a otro estudio, incluso si
el otro estudio está utilizando una muestra similar.
 Reactividad de los arreglos experimentales: una variable
potencialmente confusa que resulta de la influencia
producida al saber que uno está participando en un
estudio de investigación. • Interferencia de tratamiento
múltiple: esta amenaza se refiere a situaciones de
investigación en las que (1) los participantes reciben
más de una intervención experimental dentro del mismo
estudio o (2) los mismos individuos participan en más de
un estudio.
 Efectos de novedad: se refiere a la posibilidad de que
los efectos de la variable independiente puedan deberse
en parte a la singularidad o novedad del estímulo o
situación y no a la intervención en sí.
 Reactividad de la evaluación: un fenómeno por el cual la
conciencia de los participantes de que se está midiendo
su desempeño puede alterar su desempeño de lo que
hubiera sido de otra manera.
 Sensibilización previa y posterior a la prueba: estas
amenazas se refieren a los efectos que las pruebas
preliminares y posteriores pueden tener sobre el
comportamiento y las respuestas de los participantes del
estudio.
 Momento de la evaluación y medición: esta amenaza se
refiere a si se hubieran obtenido los mismos resultados
si la medición se hubiera producido en un momento
diferente. VALIDEZ 191

Importancia de los efectos de interacción en relación con la
validez externa
La validez externa puede entenderse mejor como una

interacción entre los atributos de los participantes y los
entornos experimentales y sus características relacionadas.
La generalización de los resultados de cualquier estudio se
ve obstaculizada cuando la variable independiente interactúa
con los atributos o características de los participantes del
entorno experimental para producir los resultados observados.
Por lo tanto, los tipos de amenazas a la validez externa
discutidos en este capítulo están lejos de ser exhaustivos.
En el diseño y la pregunta de investigación, cada estudio
puede crear amenazas únicas a la validez externa que deben
controlarse. Si el control experimental no es posible, las
limitaciones de los hallazgos del estudio deben discutirse
con suficiente detalle para aclarar la relevancia y
generalización de los hallazgos.
(Campbell y Stanley, 1966; Cook y Campbell, 1979;
Christensen, 1988; Graziano y Raulin, 2004; Kazdin, 2003c).
Hay dos métodos principales para mejorar la validez de
constructo de un estudio. Primero, una fuerte validez de
constructo se basa en definiciones operativas claras y
precisas de las variables de un estudio. En segundo lugar, la
teoría subyacente del estudio debería tener una base
conceptual sólida y basarse en construcciones bien validadas
(Graziano
192 ESCENCIALES y Raulin,
DEL DISEÑO 2004). DE
Y LA METODOLOGIA Cook y Campbell (1979) sugieren
LA INVESTIGACION
varias formas de mejorar la validez de constructo; Estos se
enumeran en la Referencia rápida 6.7.
Consideremos un ejemplo sencillo para ilustrar la importancia
de la validez de constructo en un estudio. Un equipo de
investigadores está interesado en estudiar los factores que
contribuyen a las tasas de mortalidad en varios países
diferentes. El alcance del estudio prohíbe el uso de
participantes reales, por lo que los investigadores deciden
realizar un estudio correlacional en el que analicen las
relaciones estadísticas entre los diferentes países y los
datos demográficos disponibles. Los investigadores plantean
la hipótesis de que el nivel de educación y el ingreso
familiar estarán significativamente relacionados con la tasa
de mortalidad. La hipótesis específica es que la tasa de
mortalidad disminuirá a medida que aumente el nivel educativo
y el ingreso familiar. En otras palabras, los investigadores
plantean la hipótesis de que existe una relación negativa
entre
Mejora de la validez de constructo
Cook y Campbell (1979) hacen las siguientes sugerencias para

mejorar la validez de constructo:
 Proporcionan una definición operativa clara del concepto
abstracto o variable independiente.
 Recopilar datos para demostrar que la representación
empírica de la variable independiente produce el
resultado esperado.
 Recopilar datos para mostrar que la representación
empírica de la variable independiente no varía con las
medidas de variables conceptuales relacionadas pero
diferentes.
NO OLVIDES  Realizar controles de
Amenazas para construir manipulación de la
validez variable independiente.
Las amenazas para construir la la mortalidad y el nivel
validez se relacionan con los educativo y el ingreso
aspectos únicos y el diseño del
familiar. La construcción
estudio que interfieren con la
capacidad del investigador para
subyacente que se está probando
extraer inferencias causales de en el estudio es que estos dos
los resultados del estudio. factores, el nivel educativo y
el ingreso familiar, están
relacionados negativamente con la mortalidad. Los
investigadores llevan a cabo sus análisis y descubren que su
hipótesis está confirmada, es decir, que las tasas de
mortalidad están relacionadas negativamente con el nivel
educativo y el ingreso familiar. Los investigadores concluyen VALIDEZ 193
que el nivel educativo y el ingreso familiar son 000 factores
protectores que reducen la probabilidad de mortalidad.
¿Es esta la explicación más probable de los resultados, o hay
quizás una mejor explicación que pueda funcionar como una
amenaza a la hipótesis del estudio con respecto a la
causalidad (o validez de constructo)? ¿Cuál podría ser una
mejor explicación causal de los resultados del estudio? Una
posible explicación alternativa de los resultados podría ser
que los niveles educativos más altos y el ingreso familiar
reducen las tasas de mortalidad porque están relacionados con
otro factor que no se consideró en el estudio. Teniendo en
cuenta que el nivel educativo generalmente está relacionado
positivamente con el nivel de ingresos, los niveles más altos
de educación tienden a conducir a niveles más altos de
ingresos. Un mayor nivel de ingresos generalmente proporciona
acceso a una variedad más amplia de privilegios y servicios,
como el acceso a una atención médica de mayor calidad. Por lo
tanto, el acceso a la atención médica está relacionado con el
nivel educativo y el ingreso familiar, y es una explicación
causal plausible para los resultados obtenidos en el estudio
(distintos de los propuestos por los investigadores).
Hay fenómenos que ocurren dentro del contexto de la
investigación que pueden actuar como amenazas para construir
la validez. Al igual que con la validez interna y externa, el
número y los tipos de amenazas están relacionados con los
aspectos únicos y el diseño del estudio en sí. En general,
estas amenazas son características de un estudio que
interfieren con la capacidad del investigador para extraer
inferencias causales de los resultados del estudio (Kazdin,
2003c). En nuestras discusiones previas sobre la validez
interna y externa, pudimos identificar y clasificar amenazas
específicas y bien definidas. Las amenazas para construir la
validez son más difíciles de clasificar porque pueden ser
cualquier cosa relacionada con el diseño del estudio y la
construcción teórica subyacente bajo consideración. A pesar
de esto, las fuentes más comunes de amenazas para construir
la validez son paralelas a algunas de las amenazas a la
validez externa discutidas anteriormente en este capítulo,
como las condiciones que rodean la situación experimental,
las expectativas del experimentador y las características de
los participantes.
VALIDEZ ESTADÍSTICA
El último tipo de validez que discutiremos en este capítulo
es el concepto de validez estadística que es críticamente
importante pero que a menudo se pasa por alto. Como su nombre
lo indica, la validez estadística (también conocida como
validez de conclusión estadística) se refiere a aspectos de
la evaluación cuantitativa que afectan la precisión de las
conclusiones extraídas de los resultados de un estudio
(Campbell y Stanley, 1966; Cook y Campbell, 1979). Los
procedimientos estadísticos se usan típicamente para probar
la relación entre dos o más variables y determinar si un
efecto estadístico observado se debe al azar o es un reflejo
verdadero de una relación causal (Rosnow y Rosenthal,2002).
En su nivel más simple, la validez estadística aborda la
cuestión
194 ESCENCIALES de si Ylas
DEL DISEÑO conclusiones
LA METODOLOGIA estadísticas
DE LA INVESTIGACION extraídas de los
resultados de un estudio son razonables (Graziano y Raulin,
2004).
Los conceptos de prueba de hipótesis y evaluación estadística
están interrelacionados y proporcionan la base para evaluar
la validez estadística. La evaluación estadística se refiere
a la base teórica, la lógica y los aspectos computacionales
de las estadísticas reales utilizadas para evaluar la
naturaleza de la relación entre las variables independientes
y dependientes. Entre otras cosas, la elección de técnicas
estadísticas a menudo depende de la naturaleza de las
hipótesis que se prueban en el estudio. Aquí es donde el
concepto de prueba de hipótesis entra en nuestra discusión de
validez estadística. En pocas palabras, cada estudio está
impulsado por una o más hipótesis que guían el diseño
metodológico del estudio, los análisis estadísticos y las
conclusiones resultantes.
Como se discutió en el Capítulo 2, existen dos tipos
principales de hipótesis en la investigación: la hipótesis
nula (generalmente designada como H0) y la hipótesis
experimental (generalmente designada como H1, H2, H3, etc.,
dependiendo del número de hipótesis). La hipótesis
experimental representa la relación predicha entre las
variables que se examinan en el estudio. Por el contrario, la
hipótesis nula representa una declaración de no relación
entre las variables que se examinan (Christensen, 1988).
En este punto, deberíamos revisar una convención importante
en la metodología de investigación en lo que se refiere a
análisis estadísticos y pruebas de hipótesis. Rechazar la
hipótesis nula es un primer paso necesario para evaluar el
impacto de la variable independiente (Graziano y Raulin,
2004). Por lo tanto, en términos de análisis estadísticos, el
foco siempre está en la hipótesis nula, y no en las hipótesis
experimentales. Los investigadores rechazan la hipótesis nula
si se encuentra una diferencia estadísticamente significativa
entre las condiciones experimentales y de control (Kazdin,
2003c). Por el contrario, los investigadores retienen (o no
rechazan) la hipótesis nula si no se encuentra una diferenciaVALIDEZ 195
estadísticamente significativa entre las condiciones
experimentales y de control.
Al igual que con las otras formas de validez discutidas a lo
largo de este capítulo, existen numerosas amenazas a la
validez estadística. Los más comunes incluyen bajo poder
estadístico, variabilidad en los procedimientos
experimentales y características de los participantes, falta
de confiabilidad de las medidas y múltiples comparaciones y
tasas de error. Cada una de estas amenazas puede tener un
impacto significativo en la capacidad del estudio para
delinear relaciones causales y descartar hipótesis rivales
plausibles.}
Bajo poder estadístico

El bajo poder estadístico es la amenaza más común para la
validez estadística (Keppel, 1991; Kirk, 1995). La presencia
de esta amenaza produce una baja probabilidad de detectar una
diferencia entre las condiciones experimentales y de control,
incluso cuando realmente existe una diferencia. El bajo poder
estadístico está directamente relacionado con el pequeño
efecto y el tamaño de la muestra, y la presencia de cada uno
aumenta la probabilidad de que el bajo poder estadístico sea
un problema en el diseño de la investigación. En
consecuencia, el bajo poder estadístico puede hacer que un
investigador concluya que no hay resultados significativos,
incluso cuando realmente existen resultados significativos
(Rosnow y Rosenthal, 2002). El concepto de poder se discutirá
más adelante
190 ESCENCIALES DEL DISEÑO en elMETODOLOGIA
Y LA Capítulo DE
7. LA INVESTIGACION
Variabilidad
La variabilidad es otra amenaza para la validez estadística
que se aplica tanto a los participantes como a los
procedimientos utilizados en un estudio. Primero,
consideremos la variabilidad en los procedimientos
metodológicos. Este concepto incluye una amplia gama de
diferencias y preguntas relacionadas con los aspectos de
diseño reales del estudio. Estas diferencias se pueden
encontrar en la entrega de la variable independiente, los
procedimientos relacionados con la ejecución del estudio, la
variabilidad en las medidas de rendimiento a lo largo del
tiempo y una serie de otros ejemplos que dependen
directamente del diseño único de un estudio en particular.
Una amenaza relacionada con la validez estadística es la
variabilidad en las características de los participantes. Los
participantes en un estudio de investigación pueden variar
según una variedad de características y dimensiones, como la
edad, la educación, el estado socioeconómico y la raza. A
medida que aumenta la diversidad de características de los
participantes, hay menos probabilidades de que se pueda
detectar una diferencia entre las condiciones de control y
experimentales. Cuando se minimiza la variabilidad entre
estas dos amplias fuentes, aumenta la probabilidad de
detectar una verdadera diferencia entre el control y las
condiciones experimentales. Esta amenaza a la validez
estadística debe considerarse en la etapa de planificación
del estudio, y generalmente se controla mediante el uso de
muestras homogéneas, protocolos de procedimiento estrictos y
bien definidos, y controles estadísticos en la etapa de
análisis de datos.
Falta de fiabilidad de las medidas

La falta de fiabilidad de las medidas utilizadas en un
estudio es otra fuente de variabilidad que constituye una
amenaza para la validez estadística. Esta amenaza se refiere
a si las medidas utilizadas en el estudio evalúan las
características de interés de manera consistente (o
confiable) (Kazdin, 2003c). Si las medidas del estudio de
investigación no son confiables, se introduce una
variabilidad más aleatoria en el diseño experimental. Al
igual que con la variabilidad del participante y del
procedimiento, este tipo de variabilidad disminuye el poder
estadístico y hace que sea menos probable que los análisis
estadísticos detecten una verdadera diferencia entre el
control y las condiciones experimentales cuando realmente
existe una diferencia.
Comparaciones múltiples
La amenaza final para la validez estadística que
consideraremos a menudo se denomina comparaciones
estadísticas múltiples y las tasas de error resultantes
(Kazdin, 2003c; Rosnow y Rosenthal, 2002). Esta amenaza a la
validez estadística se refiere al número de análisis
estadísticos utilizados para analizar los datos obtenidos en
un estudio. En general, a medida que aumenta el número de
análisis estadísticos, también lo hace la probabilidad de
encontrar una diferencia significativa entre las condiciones
experimentales y de control por pura casualidad matemática.
En otras palabras, el hallazgo significativo es un artefacto
matemático y no refleja una verdadera diferencia entre las
condiciones. En consecuencia, los investigadores deben
definir sus hipótesis antes de que comience el estudio para
llevar a cabo el número mínimo de análisis estadísticos para
abordar cada una de las hipótesis.
La referencia rápida 6.8 resume las amenazas a la validez
estadística que hemos discutido en esta sección.
VALIDEZ 197

Amenazas a la validez estadística
 Bajo poder estadístico: baja probabilidad de detectar

una diferencia entre las condiciones experimentales y de
control, incluso si realmente existe una diferencia.
 Variabilidad procesal y de participantes: variabilidad
en los procedimientos metodológicos y una serie de
características de los participantes, lo que disminuye
la probabilidad de detectar una diferencia entre las
condiciones de control y experimentales.
 Falta de fiabilidad de las medidas: si las medidas
utilizadas en un estudio evalúan las características de
interés de manera coherente. Las medidas no fiables
introducen más variabilidad aleatoria en el diseño de la
investigación, lo que reduce el poder estadístico.
 Comparaciones múltiples y tasas de error: el concepto de
que, a medida que aumenta el número de análisis
estadísticos, también aumenta la probabilidad de
encontrar una diferencia significativa entre las
condiciones experimentales y de control por pura
casualidad.
RESUMEN
En este capítulo, hemos discutido los cuatro tipos de validez

que son críticos para una metodología de investigación
sólida. Además, discutimos las principales amenazas para cada
tipo de validez. Aunque cada tipo de validez y sus amenazas
relacionadas se presentaron de forma independiente, es
importante tener en cuenta que todos los tipos de validez son
interdependientes, y abordar un tipo puede comprometer a los
otros tipos. Como se discutió, todas las amenazas generales a
la validez deben considerarse en la etapa de diseño del
estudio, si es posible. En términos de prioridad, garantizar
una fuerte validez interna se considera más importante que la
validez externa, porque debemos controlar las hipótesis
rivales antes de que podamos comenzar a pensar en generalizar
los resultados de un estudio.
PRUÉBATE
1. __________ es un concepto importante en la investigación

que se refiere a la solidez conceptual y científica de un
estudio de investigación.
2. La historia, la maduración, las pruebas, la regresión
estadística y los sesgos de selección son amenazas para
__________ __________.
3. La validez externa se refiere a la __________ de los
resultados de la investigación.
4. __________ __________ se refiere a aspectos de la
evaluación cuantitativa que afectan la precisión de las
conclusiones extraídas de los resultados de un estudio.
5. __________ __________ se refiere a la congruencia entre
los resultados del estudio y los fundamentos teóricos que
guían la investigación.
Respuestas: 1. Validez; 2. validez interna; 3.

generalización; 4. Conclusión estadística; 5. Construcción de
validez

Captulo 6 Validez Corregido

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Captulo 6 Validez Corregido

Cargado por

Copyright:

Formatos disponibles

VALIDEZ

VALIDEZ INTERNA Validez Interna se refiere a la capacidad

Validez interna y las hipótesis rivales

validez Interna: La capacidad de un diseño de

estudio, la validez interna se incrementa y las hipótesis

resultados de la estudiar. Muchas cosas podrían haber

histórico y no a la variable independiente (es decir, el

La estandarización se refiere a las pautas establecidas en

Por ejemplo, un investigador podría usar varios enfoques de

Amenazas a la validez externa

Los resultados de un estudio tienden a limitarse a las

184 ESCENCIALES DEL DISEÑO Y LA METODOLOGIA DE LA INVESTIGACION

Referencia Rápida 6.4

Aunque la reactividad es común en todas las formas de

Mientras que las pruebas preliminares se centran en evaluar

Momento de evaluación y medición

Referencia Rápida 6.5

 Características de la muestra: la medida en que los

Referencia Rápida 6.6

La validez externa puede entenderse mejor como una

Cook y Campbell (1979) hacen las siguientes sugerencias para

Bajo poder estadístico

Falta de fiabilidad de las medidas

Referencia rápida 6.8

 Bajo poder estadístico: baja probabilidad de detectar

En este capítulo, hemos discutido los cuatro tipos de validez

198 ESCENCIALES DEL DISEÑO Y LA METODOLOGIA DE LA INVESTIGACION

1. __________ es un concepto importante en la investigación

Respuestas: 1. Validez; 2. validez interna; 3.

También podría gustarte