Kazdin 2001 MÃ©todos Estadã Sticos

MÓDULO 0616- SEMINARIO DE INVESTIGACIÓN 1
PRUEBAS DE SIGNIFICANCIA Y LA HIPÓTESIS NULA...... 2

Aspectos básicos......................................................................... 2
Nivel de significancia (alfa) ....................................................... 4
Potencia ...................................................................................... 5
Formas de aumentar la potencia................................................. 8
TEMAS ESPECÍFICOS EN EL ANÁLISIS DE DATOS ..... 11
Análisis que implican comparaciones múltiples ...................... 11
Resultados múltiples: análisis multivariados y univariados..... 13
UNIDAD III. Análisis de datos y diseño del estudio...................................... 14
OBJECIONES A LAS PRUEBAS DE SIGNIFICANCIA
ESTADÍSTICA........................................................................... 15
MÉTODOS DE INVESTIGACIÓN Interpretación de las pruebas estadísticas................................. 15
Pruebas de hipótesis nula ......................................................... 16
Réplica y conocimiento acumulativo ....................................... 16
ALTERNATIVAS 0 COMPLEMENTOS A LAS PRUEBAS DE
SIGNIFICANCIA........................................................................ 17
Magnitud y fuerza del efecto.................................................... 17
Intervalos de confianza............................................................. 18
Metanálisis................................................................................ 19
Comentarios Generales............................................................. 20
Lectura 3
SIGNIFICANCIA CLÍNICA: EVALUACIÓN DE LOS EFECTOS
Kazdin, A. (2001). Métodos de Investigación en DE LA INTERVENCIÓN............................................................ 20
Psicología Clínica. Prentice Hall. Métodos de comparación.......................................................... 21
Evaluación subjetiva................................................................. 24
Cap. 14, Métodos Estadísticos de
Medidas del impacto social ...................................................... 26
Evaluación de Datos. Pp 355-395
Comentarios generales ............................................................. 27
RESUMEN Y CONCLUSIONES................................................ 28
Para profundizar en este tipo de contenidos consulte la obra:

Kazdin, A. (2001). Métodos de Investigación en Psicología Clínica. Prentice Hall.
UNIDAD III MÉTODOS DE INVESTIGACIÓN.

Suponiendo que se ha diseñado y realizado el estudio, recopilado datos pruebas convencionales de la hipótesis nula. Además de las pruebas de
de múltiples medidas, realizado con detalle todos los controles posibles, hipótesis nula y la búsqueda de la significancia estadística, las técnicas
ahora estamos listos para que en nuestros propios laboratorios estadísticas se usan en psicología clínica para evaluar la implicación
encontremos cuáles fueron los efectos. AI fin estamos listos para clínica o la importancia de los efectos o cambios. También se analizan los
analizar los datos estadísticamente. La evaluación estadística se refiere métodos para evaluar la implicación clínica de los resultados.
al uso de técnicas cuantitativas para describir los datos u obtener
inferencias acerca de los efectos; es decir, si es probable que se deban PRUEBAS DE SIGNIFICANCIA Y LA HIPÓTESIS NULA
al azar o a un efecto verídico. Algunos de los aspectos de la evaluación
estadística que influyen en la posibilidad de obtener conclusiones es la Aspectos Básicos
validez por conclusión estadística. La evaluación cuantitativa del estudio
depende no sólo del hecho de aplicar simplemente algunas pruebas. La
En algún tiempo no existieron las pruebas estadísticas ni la evaluación
investigación actual en psicología y en otras ciencias se basa
estadística, probablemente esta afirmación refleje mi pobre conocimiento.
primordialmente en probar la hipótesis nula y la búsqueda de efectos
Sin duda, uno de los primeros usos de las pruebas estadísticas, como
estadísticamente significativos. La mayoría de los artículos publicados
muchos otras en sus inicios, se pueden remontar a los antiguos griegos y
en revistas utilizan esta aproximación (reflejada en las secciones de
en especial quizás basta Aristóteles. La primera evaluación estadística
"resultados", anotando (fases conocidas como: "los resultados son o no
surgió cuando la madre de Aristóteles jugaba con el a las monedas y, con
estadísticamente significativos"). Dominar la metodología de la
las dos manos cerradas le preguntaba: "Ari, ¿cuál mano tiene más
investigación requiere comprenderlas características centrales de la
dracmas? Si adivinas correctamente, la puedes quedar con el dinero de
evaluación estadística en cuando que influye en el diseño de los
esa mano"; Ari contestó: "ésa es una pregunta capciosa, mami, aunque
experimentos y obtener inferencias válidas. Por tanto, este capítulo
una mano tiene tres monedas y la otra tiene una moneda, los dos
refiere conceptos básicos y prácticas relacionadas con la evaluación
números no son realmente diferentes estadísticamente hablando". La
estadística de los datos.
mamá de Aristóteles ni tarda ni perezosa (después de todo hablaba el
antiguo griego con soltura,), rápidamente contestó: "Si no son diferentes,
Desde la aparición de la evaluación estadística ha habido
entonces déjame darte lo que está en esta mano", en ese momento le dio
desaprobación respecto a la aproximación de las pruebas de la
la moneda que estaba sola. (Aristóteles pronto aprendió que se puede
hipótesis nula. La desaprobación continúa en la actualidad con
aceptar la hipótesis nula, no hay diferencia, cuando no es realmente muy
recomendaciones para eliminar las pruebas de significancia estadística
prudente hacerlo.) En cualquier caso, considerar la significancia
o por lo menos de complementarlas con otras índices (Kirk, 1996;
estadística como criterio para tomar decisiones fue una gran contribución
Schmidt, 1996b; Shrout, 1997). Es importante comprender la
a la ciencia, lo cual le agradecemos a Aristóteles, Mostrar que aun
insatisfacción porque existen mitos acerca de lo que quieren decir las
cuando no hay diferencia estadística puede haber una diferencia real e
pruebas de significancia. Además, la práctica de las pruebas de
importante, es también una gran contribución, por lo que damos las
significancia puede hasta disminuir la cantidad de conocimiento que se
gracias a la mamá de Ari.
puede obtener. Así, para entender las aproximaciones convencionales
referentes a la evaluación de los datos, es importante analizar los
Adelantándonos un poco en el tiempo y en la historia que no es ficción, es
límites de estas aproximaciones. Más que eso, hay métodos
conveniente detenerse en los años veinte y treinta. Durante ese periodo,
alternativos de evaluación estadística de los datos que continúan siendo
los estadistas instrumentaron prácticas que tienen gran influencia en los
sugeridos para evitar el uso de las pruebas de significancia. En este
métodos estadísticos de evaluación en psicología y, por supuesto, en las
capítulo se analizan aspectos fundamentales y prácticas de la
ciencias en general (Fisher, 1925; Neyman y Pearson, 1928). Las prácticas
evaluación estadística convencional, problemas con las pruebas de
incluyen las pruebas estadísticas actuales, así como conceptos
significancia estadística y estrategias para complementar o suplir las,
fundamentales, como plantear una hipótesis nula (no hay diferencias

entre los grupos) y considerar las pruebas de significancia para descartar completamente. No obstante, es común encontrar entre los
determinar si la diferencia obtenida en la muestra tiene la suficiente investigadores un acuerdo que cuando la probabilidad producida por una
magnitud para rechazar esta hipótesis. Una meta era proporcionar un prueba estadística es tan baja como .05 o .01, hay un nivel
objetivo o al menos un criterio establecido (niveles de significancia) que suficientemente conservador para mantener la confianza que permite a
puede usarse para decidir si es probable que los resultados en un uno concluir que existe una relación entre las variables independiente y
estudio particular se deban al azar, esto es, a la fluctuación normal y dependiente.
diferencias en el muestreo y a las diferencias que es probable se
produzcan en tales fluctuaciones. Desde esta aproximación, surgieron Fundamentalmente, la evaluación estadística proporciona un criterio para
todo tipo de problema, como la potencia, el tamaño del efecto, diferenciar los efectos probablemente verídicos de los posiblemente
aleatoriedad y otras que probablemente son tan desagradables que azarosos. Aunque, puede influir la subjetividad y los sesgos en el
tenemos que disfrazar sus verdaderos nombres (errores de Tipo 1 y proceso de la evaluación estadística, por ejemplo, por lo que se refiere a
Tipo II). las pruebas que se aplican y los criterios de significancia estadística, el
objetivo de las estadísticas es proporcionar un método relativamente
La variedad de características de las pruebas de significancia son lo libre de sesgos y consistente para interpretar los resultados. El uso
suficientemente claras para la mayoría de los individuos que no frecuente de las estadísticas no implica que el acuerdo sobre su valor
necesitan ser explicadas. En esencia, en la mayor parte de la sea universal. Han sido cuestionados diversos aspectos de la
investigación, la evaluación estadística analiza si los grupos que difieren evaluación estadística, tales como: (1) el criterio arbitrario que
en una variable independiente particular (por ejemplo, condiciones representa un nivel particular de confiabilidad, como: p <. 05; (2) la toma
diferentes) pueden distinguirse estadísticamente en las medidas de decisiones de todo o nada a la que se llega con base en ese criterio;
dependientes. La evaluación estadística consiste en aplicar una prueba (3) la ausencia de información respecto a la fuerza o valor práctico de la
para evaluar si es probable que la diferencia obtenida en la medida de- relación entre la variable independiente y dependiente, sin considerar si
pendiente haya ocurrido por azar. Usualmente, se selecciona un nivel se obtiene significancia estadística; y (4) la probabilidad de que la
de confiabilidad (como .05 o .01) como un criterio para determinar si los hipótesis nula en la. cual se basan las pruebas realmente no sea
resultados son estadísticamente significativos. Una diferencia verdadera (Chow, 1988; Kupfersmid, 1988; Meehl, 1978). A pesar de
estadísticamente significativa indica que el nivel de probabilidad es igual estos cuestionamientos, la prueba de hipótesis y la evaluación
o menor al nivel de confiabilidad seleccionado, por ejemplo, p .05. Esto estadística siguen dominando la investigación para identificar las
significa que si el experimento se realizara 100 veces, habría relaciones entre variables.
probabilidades de que ocurriera una diferencia de la magnitud
encontrada en la variable dependiente sólo cinco veces en función del La evaluación estadística proporciona criterios consistentes para
azar. Si la probabilidad obtenida en el estudio es más baja que .05, la determinar si un efecto se va a considerar como verdadero. Esta
mayoría de los investigadores rechazarían la hipótesis nula y admitirían ventaja es muy importante. Como investigadores perdemos de vista
que las diferencias entre los grupos muestran una relación verdadera esta ventaja porque no consideramos aquellas influencias que no están
entre las variables independiente y dependiente. basadas en investigación y las justificaciones en las cuales están
bastante alejados los cánones de ésta. Las pretensiones de un
Afirmar que una relación en un experimento es estadísticamente tratamiento efectivo, por ejemplo, para bajar de peso o reducir el
significativa no quiere decir que hay necesariamente un efecto consumo de cigarros, como se sugiere en libros comerciales, artículos
verdadero (es decir, que existe una relación entre las variables de revistas y los nuevos aparatos para hacer ejercicio (para endurecer
estudiadas). Hasta una diferencia estadísticamente significativa pudiera los músculos del estómago, las "abdominales"), rara vez se basan en
ser el resultado de suceso del azar a causa del muestreo de los sujetos métodos experimentales y de evaluación estadística. Las bases para la
y de otras factores. El azar es la hipótesis contraria que nunca se puede evaluación son los testimonios de quienes proponen las técnicas o

aquellos que han participado en los programas. Seria valioso en estos ambigüedades pueden hacerse explícitas, se les puede estudiar y
casos aplicar métodos experimentales y evaluar los resultados comprender. Lo explícito de los procedimientos estadísticos nos ayuda
estadísticamente. a cuestionar y comprender los limites de las conclusiones.
Por otra parte, se requiere significancia estadística, en parte porque La evaluación estadística se enfatiza en gran medida en psicología, en
de otra manera no es claro en muchas situaciones (de hecho en efecto, a menudo la significancia estadística se considera la prueba
mayoría) si los efectos están más allá de los cambios, diferencias o definitiva acerca de si las variables bajo investigación son importantes o
variaciones que serían evidentes por azar o sin una intervención. Sin si vale la pena darles continuidad. Sin embargo, la significancia
embargo, claramente hay algunas situaciones en las que no se estadística es una reunión de muchas características diferentes de un
necesita la evaluación estadística. Analizamos cambios evidentes en experimento, sólo una de las cuales se presenta si hay una relación
el capítulo sobre los estudios de caso y los diseños simples en que se entre las variables independiente y dependiente. Examinar la
utilizan criterios no estadísticos en la evaluación los datos, en parte significancia estadística depende de múltiples conceptos
para ayudar a detectar solamente los cambios que son evidentes. En interrelacionados. El investigador debería conocer los conceptos, de
general, ya sea para la investigación en grupo o de un solo caso, los qué manera se interrelacionan, y cómo se controlan. En la siguiente
cambios muy marcados podrían ser tan contundentes que no habría sección consideramos conceptos fundamentales, lo que significan, y lo
(duda de que algo importante, confiable y verdadero sucedió, el tipo que el experimentador puede hacer para maximizar la probabilidad de
de cambios a los que se denomina efectos "de golpe" (Gilbert, Light y demostrar un efecto, cuando de hecho hay una diferencia.
Mosteller, I975). La claridad de los resultados puede relacionarse
tanto con el grado de impacto como con la confianza que se pueda Nivel De Significancia (Alfa)
tener en su medición. Por ejemplo, si consideramos un tratamiento
especifico para tres individuos enfermos terminales que sobrevivan El nivel de significancia (alfa) es bien conocido en la evaluación
después del tratamiento, y otras tres que no lo hubieran recibido estadística de los datos, como un criterio para tomar decisiones. La
murieran. Las características de esta demostración -la claridad de la tradición nos ha llevado a usar un alfa de p < .05 y .01 para tomar
medida dependiente, el resultado predicho sin tratamiento y las decisiones ¿Serán estadísticamente significativos los resultados del
amplias diferencias en los resultados— la hacen convincente, aunque, experimento? Entre los determinantes de la respuesta se encuentra el
como siempre, es importante reproducirlo. No obstante, la mayoría de número de sujetos por grupo en el estudio. Puede suponerse que los
las situaciones de las cuales, deseamos obtener conclusiones no grupos nunca (o casi nunca) tendrán medias idénticas en las medidas
muestran efectos "de golpe", por tanto, es importante usar algún de los resultados, simplemente a causa de las fluctuaciones normales y
criterio para decidir si es probable que los resultados, diferencias o las diferencias en el muestreo. Aun si la diferencia observada no es
cambios dentro o entre los grupos se deban al azar o a las estadísticamente significativa, el investigador puede estar seguro de
fluctuaciones aleatorias en las muestras. La significancia estadística que la misma magnitud o diferencia entre grupos podrían ser
se diseña para servir a este propósito. estadísticamente significativa o mucho más cerca de la significancia
estadística, si se usara el mismo número de sujetos dos o tres veces.
Considerar la evaluación estadística no significa que proporcione la
"respuesta" o la "verdad real". La evaluación estadística está sujeta a La significancia estadística está en función directa del tamaño de la
todo tipo de abusos, ambigüedades, malas interpretaciones y muestra. Es decir, entre mayor sea el tamaño de la muestra, menores
subjetividad. Los diferentes métodos para analizar los mismos datos diferencias de los grupos se necesitan para la significancia estadística de
pueden llevar a diferentes conclusiones, aun con variaciones al un nivel de confianza dado. Dicho de otra manera, una diferencia dada
parecer menores en puntos de decisión y criterios predeterminados en entre dos grupos se aproximará gradualmente a la significancia estadís-
los análisis. Sin embargo, una ventaja es que a menudo las tica al incrementar el tamaño de las muestras dentro de cada grupo. En

efecto, la significancia estadística está virtualmente asegurada si se Incluso, las repetidas advertencias acerca del problema y las recomen-
usa mayor número de sujetos. (La importancia del tamaño de la daciones consistentemente claras para rectificar el problema han tenido
muestra en relación con la significancia estadística es bastante poco o ningún impacto sobre la investigación. (El valor de este trabajo
evidente en las relaciones. Con una muestra de 40,000 sujetos, es en relación con la psicología clínica ha sido mostrar que la perspicacia y
significativa una correlación de r = .01 en el nivel .05) Cuando tener conciencia dentro de un problema a menudo no son muy potentes
comenzaron los estudios psicológicos en la milicia, se realizaron las intervenciones para cambiar el problema.) No obstante, es importante
pruebas a gran escala en donde se consideraron miles de sujetos. expresar las dificultades.
Invariablemente, los investigadores informaron que la significancia
estadística estaba virtualmente garantizada sin importar qué variables La potencia débil o insuficiente no es un problema menor o simplemente
se estudiaran (Bakan, 1966; Nunnally, 1960). Las muestras más una preocupación por malinterpretar un estudio en particular. Las
grandes sugieren la probabilidad de que las pequeñas diferencias, diversas áreas de investigación pueden caracterizarse por la potencia
triviales o por azar, lleven a la conclusión de que los resultados son débil y las conclusiones que estas áreas han generado se pudieran
estadísticamente significativos. atribuir a esta característica. Por ejemplo, anteriormente se consideró el
trabajo en la investigación sobre los resultados de la psicoterapia, en la
Potencia que los tratamientos usualmente no difieren uno de otro. Una conclusión
de que los tratamientos no son diferentes (es decir, apoyar la hipótesis
El problema. La potencia (grado al cual un investigador puede nula) a menudo se entiende como indicador de que los tratamientos son
detectar una diferencia cuando ésta exista) se analizó en un capítulo igualmente efectivos. Sin embargo, en mucha de la investigación en
anterior. Es importante considerar nuevamente el tema, porque la psicoterapia, la potencia débil es una interpretación contradictoria a
potencia baja es el talón de Aquiles de la investigación psicológica. Es causa del reducido tamaño de las muestras (de 10-20 casos por grupo)
decir, si vamos a usar pruebas de significancia estadística para (Kazdin y Bass, 1989).
evaluar los resultados, es indispensable asegurar que exista una
oportunidad (potencia adecuada) para demostrar una diferencia Relación con alfa, el tamaño del efecto y el tamaño de la
cuando ésta exista. El nivel de potencia que se identifica como muestra. Se ha analizado el punto de variación de cuatro conceptos
"adecuado" no se justifica o se deriva matemáticamente. Como con el diferentes de la estadística inferencial, el criterio de significancia
nivel de confiabilidad (alfa), la decisión se basa en un acuerdo sobre el estadística (alfa), el tamaño del efecto (TE), el tamaño de la muestra y la
margen de seguridad que uno debería tener en contra de aceptar la potencia. Estos conceptos están interrelacionados en el sentido de que
hipótesis nula cuando de hecho sea falsa (beta). Cohen (1988) cuando tres de éstos se especifican, con el que queda puede tomarse
recomendó la adopción de la convención beta = .20 y por tanto la una decisión. El análisis de estas interrelaciones es importante porque
potencia (1 – beta) = .80 cuando alfa = .05. Esto se traduce como la nos permite considerar todo tipo de opciones en un experimento, como
probabilidad de 4 en 5 al detectar un efecto cuando exista una el nivel de potencia (dado un nivel específico de alfa, TE y una N fija),
diferencia en la población. Aunque aquí se usa una potencia mayor a cuál TE se necesita (si se predeterminan alfa, la potencia y el tamaño
.80 como criterio, a menudo se alientan niveles más altos (.90, .95) de la muestra), etcétera. El uso más frecuente de esta información es
como el criterio aceptable (Friedman y cols., 1978; Friedman, Furberg decidir cuántos sujetos incluir en un estudio. Así, para identificar el
y DeMets, 1985). tamaño de nuestra muestra, necesitamos tomar decisiones para fijar
los otros tres parámetros, alfa, potencia y TE. En este caso, adoptemos
Dentro de las revisiones de las diversas áreas de la especialidad de la un alfa de .05 para adherirnos a los criterios tradicionales. Respecto al
psicología y otros campos, también se ha mostrado que la mayoría de nivel de potencia, podríamos también seguir este mismo criterio y
los estudios presenta una potencia adecuada para identificar aceptar una potencia de .80. Ahora debemos estimar el TE, ¿cómo lo
diferencias (Cohen, 1992; Rossi, 1990; Sedlmeler y Gigerenzer, 1989). podemos hacer? La fórmula para el TE requiere que tengamos un

conocimiento sobre la diferencia entre los grupos en las variables los grupos.
dependientes de interés y la desviación estándar (TE = m, – m2)/s).
De cualquier modo, suponga que por alguno de los métodos antes
En realidad, en muchas áreas de investigación se ha estudiado el TE. mencionados consideramos que la probabilidad del TE es alrededor de
El procedimiento de análisis secundario, que se denomina metanálisis, .50. Tenemos que alfa = .05, la potencia = .80 y el TE estimado en .50.
se ha usado ampliamente para evaluar diversas áreas de En este punto, podemos revisar las tablas de potencia en varios libros
investigación (Cook y cols., I992). Los metanálisis proporcionan (Cohen, 1988; Kraemer y Thiemann, 1987). A manera de ejemplo, in
estimaciones del TE para la investigación en un área determinada. El tabla 14.1 reproduce partes de una tabla de potencia para comparar dos
TE se usa como una métrica común para combinar los estudios que medias, usando un alfa de .05. La columna marcada n es el número de
usan variables dependientes diferentes. Podemos consultar dichos casos por grupo; cruzando la parte superior de la tabla está d(TE),
análisis para identificar los TE probables para el estudio que vamos a cada columna representando un TE diferente. Las anotaciones dentro
llevar a cabo. Por ejemplo, si estamos a punto de realizar un estudio de la tabla reflejan la potencia. Por ejemplo, si observamos la tabla en
de psicoterapia que compara recibir tratamiento con no recibirlo, la columna con TE - .50 tenemos una idea de cómo funciona la tabla.
podemos estimar el TE a partir de los muchos matanálisis de la AI bajar por la columna, estamos buscando .80, que es la potencia
psicoterapia ([Brown, 1987; Roth y Fonagy, 1996; Welsz y Welss, que nos convendría para nuestro estudio. La tabla está marcada
1993). El TE para tales comparaciones tiende a ser alrededor de .70. para mostrar .80 y la línea horizontal que se mueve hacia la
De manera alternativa, si estamos comparando dos o más izquierda muestra la n que necesitamos. Cuando alfa - .05, TE - .50,
tratamientos mutuamente, sabemos que es probable que los TE sean y la potencia deseada es .80, necesitamos 64 sujetos por grupo (es
más pequeños (en el rango de .40 – .60) El punto es que las decir, N - 128).
estimaciones del TE se pueden obtener de la investigación publicada
que incluya estudios individuales o, de manera más conveniente, de TABLA 14.1 Tabla de potencia de la muestra: potencia, tamaño de
los matanálisis. El tamaño del efecto varía entre medidas; así, no hay del efecto para una
un solo TE. Incluso, es conveniente estimar, antes del estudio, la Potencia de la prueba t de m1 = m2 al .05
probabilidad de TE para las principales medidas dependientes. d
n .10 .20 .30 .40 (50) .60 .70 .80 1.00 1.20 1.40
Cuando no se dispone de estudios individuales o metanálisis, el TE 10 06 07 I0 13 I8 24 31 39 56 71 84
45 56 75
puede estimarse con base en la razón. El investigador puede no 15
20
06
06
08
09
I2
I5
18
23
26
33
35
45 58 69 87
88
96
96
99
considerar otros antecedentes para el tipo de trabajo que va a realizar. 25 06 IP I8 28 4I 55 68 79 93 99
(Efectivamente, se tiende a creer esto de muestra investigación.) El 30
31 07 12 2I
33
34
47
42
63
64
76
77
86
87
97
97
investigador tendrá que descifrar si el TE es pequeño, mediano o 32 07 12 22 35 (50) 65 78 88 98
grande. Cohen (1988) proporcionó unas guías que se consideran un
33 07 13 22 36 5I 67 80 89 98
tanto arbitrarias, pero bastante útiles en este sentido, considerando 34 07 13 23 37 53 68 81 90 98
que los TE corresponde a .20, .50 y .80, respectivamente. Es (útil 35 07 13 23 38 54 70 82 91 98
seleccionar una estimación conservadora. Si el investigador es nuevo 36 07 13 24 39 55 71 83 92 99
37 07 14 25 39 56 72 84 92 99
en un área de investigación (primer o segundo estudio), 38 07 14 25 40 57 73 85 93 99
probablemente la fuerza de la manipulación experimental y muchas 39
40
07
07
14
14
26
26
41
42
58
60
74
75
86
87
94
94
99
99
fuentes de variabilidad puedan no serle familiares y, por tanto, difíciles 42 07 15 27 44 62 77 89 95 99
de controlar. En esos casos, es probable que el investigador esté 44
46
07
08
15
16
28
30
46
48
64
66
79
81
90
91
96
97
demasiado optimista acerca del TE que espera lograr y puede 48 08 16 31 49 68 83 92 97
subestimar las fuentes (de variabilidad que atenúan las diferencias de 50 08 17 32 50 70 84 93 98
52 08 17 34 51 71 86 94 98

54 08 I8 34 53 73 87 95 98 que realizo. Diseñar una prueba potente es realmente importante

56 08 I8 35 55 74 88 96 99
58 08 19 36 57 76 89 96 99 para obtener la prueba más sensible que sea posible. Si uno se
60 08 19 37 58 90 97 99 adhiere a la tradición de las pruebas de significancia estadística, la
64 09 20 39 6I 80 92 98 99
68 09 21 4I 64 82 93 98 potencia y sus conceptos relacionados son realmente importantes y
72 09 22 43 66 85 94 99 no se pueden descuidar.
76 09 23 45 69 86 95 99
80 10 24 47 7I 88 96 99
84 10 25 49 73 90 97 99 Cuando consideramos la potencia al iniciar un estudio, es probable
88 10 26 51 75 91 98
92 10 27 52 77 92 98 que aprendamos que para determinar un TE razonable (mediano)
96 1I 28 54 79 93 99 necesitamos una N mucho mayor de la que planeamos o tal vez de la
100 I1 29 56 80 94 99 que podamos obtener. En realidad es conveniente identificarla antes
120 12 34 64 87 97
140 13 38 71 92 99 de que realicemos el estudio. Entonces podamos decidir variar alfa
160 14 43 76 95 99
180 I6 47 8I 97 (por ejemplo, p < .10) o reducir ligeramente la potencia (potencia -
200 17 51 85 98 .75) o seleccionar condiciones experimentales (o variaciones de la
250 20 61 92 99
300 23 69 96 manipulación) que es probable que produzcan un TE mayor. Tales
350 26 75 98 consideraciones e información de las decisiones son ponderadas
400 29 8I 99 cuando se realizan antes de una investigación. El uso de tablas de
450 32 85 99
500 35 88 potencia nos ayuda a realizar un experimento en forma adecuada,
con posibles opciones cuando consideramos el alfa, potencia, TE y
Nota: p < .05 La columna n es et número de sujetos que se necesitan dentro
N.
de cada uno de los dos grupos; la fila cruzando la parte superior marcada
como d es el tamaño del efecto; los números en la tabla son la potencia. El
Las dificultades de las personas que sugieren la consideración a la
ejemplo que estamos analizando en et texto pregunta; ¿Que tamaño de la
potencia se derivan en parte de la facilidad de usar tablas de
muestra necesitamos si tenemos un tamaño del efecto de .50, alfa .05, y la
potencia. La información está disponible fácilmente. Estimar la
potencia de .80? Obviamente, fa tabla puede usarse de otra manera diciendo: "Si
potencia, el tamaño de la muestra, el TE o alfa, cuando se han de-
comienzo con cierto número de sujetos (por ejemplo, 50), ¿cuál será la potencia
terminado los otros tres conceptos, requiere poco tiempo (dos
para un tamaño del efecto dado, etcétera? " Aquí se proporciona solamente una
minutos para el investigador inexperto, un minuto para el experto).
parte de la tabla. (Los decimales se omiten de tas cifras de potencia.)
(El minuto se divide así: 40 segundos para buscar la tabla correcta
Fuente: Adapaado de Cohen, J. (1988), Statisticat power anatysis in the
en un libro, 10 segundos para encontrar las columnas correctas, 10
behaviorai sciences (2a. ed.), pigs. 36-37, Hillsdale, NJ, Erlbaum.
segundos para reaccionar y h acer afirmaciones como)a "Deben estar
Reproducido con permiso
bromeando.") La tarea tiene que hacerse más fácil porque existe el
software en computadora que nos permite ingresar cualquier
La mayor parte de los estudios no tienen un tamaño de la muestra
parámetro (N, TE, alfa, potencia) y ver cualquiera de los otros
igual de grande, así que tal vez podamos considerar esto con más
parámetros o todos (Gorman, Primavera y Allison, 1995; Statistical
tranquilidad. De hecho, después de ver el N que necesitamos,
Solutions, 1995). Con éstos u otros programas, se puede identificar
podríamos decir: "Y después de todo, ¿a quién le importa la
fácilmente con uno o dos clics del ratón el tamaño de la muestra
potencia?" Si nos mostramos más flexibles y reducimos la potencia
necesaria. Esto pone mucha potencia en los dedos del investigador.
a .50, necesitamos un tamaño de la muestra de solo 32 por grupo
(N = 64). Reducir la potencia de esta manera es muy arriesgado.
Vale la pena señalar un punto más allá acerca del tamaño de la
En mi propia investigación, cuido mucho la potencia. No voy a
muestra y de la potencia. La potencia pertenece a las comparaciones
hacer muchos estudios en mi vida, así que no estoy tan interesado
estadísticas que hará el investigador, incluyendo los subanálisis que
en obstaculizarme yo mismo con una potencia débil en los estudios

pueden dividir a los grupos en varios subgrupos. Por ejemplo, el tamaño del efecto y la potencia que se obtenga.
investigador puede tener N = 100 sujetos en dos grupos. La
comparación principal que interesa puede contrastar al grupo 1 (n = Formas De Aumentar La Potencia
50) con el grupo 2 (n = 50). El investigador puede planear varios
análisis que dividen todavía más Es muestra, por ejemplo, por sexo Variación de los niveles alfa dentro de una investigación. Para incrementar
(hombres versus mujeres), edad (jóvenes versus mayores), inteligencia la potencia, las alternativas obvias son aumentar el tamaño de la muestra
(división de CE por mediana) o alguna otra variable. Tales y minimizar la variabilidad del error. Como los niveles alfa están
comparaciones dividen a los grupos en unidades más pequeñas (o relacionados con la potencia, su uso y variación justifica su estudio. Alfa
subgrupos). En lugar de grupos con n = 50, los subgrupos son mucho en p< .05 o .0I está más bien dispuesto dentro del campo y representa
menores y la potencia se reduce conmensurablemente. La lección es restricciones sobre las cuales el investigador aparentemente tendría poco
simple. Asegure la potencia adecuada para las comparaciones que control, Sin embargo, hay circunstancias individuales en las que podamos
Interesan primordialmente. desear reconsiderar el nivel alfa. El investigador puede decidir minimizar
el nivel alfa (reducir la probabilidad del error de tipo 11), con base en los
Variabilidad en los datos. La potencia es una función de alfa, N, y problemas sustantivos o de diseño que se deciden antes de la
TE. Sin embargo, hay más en la potencia que la fórmula para utilizarla. recopilación de datos.
Se había señalado la noción de que una excesiva variabilidad dentro de
un experimento puede amenazar la validez por conclusión estadística. Diversas circunstancias pueden llevar al investigador a anticipar
La variabilidad es inherente en la naturaleza del comportamiento del restricciones específicas que atenuarán el TE probable. Primero, se
sujeto en cualquier investigación. Sin embargo, el investigador podría saber que el criterio para seleccionar a los grupos en un estudio
inadvertidamente puede aumentar la variabilidad de manera que de control de casos es defectuoso o de alguna manera sutil. MI, algunas
reducirá el TE obtenido. Obviamente, si la diferencia entre la media de personas en un grupo (por ejemplo, controles no deprimidos) podrían,
los grupos es igual a 8 en alguna medida, el TE aumentará o disminuirá mediante la clasificación defectuosa, pertenecer al otro grupo (por
dependiendo del tamaño de la desviación estándar entre la cual se ejemplo, personas deprimidas). La comparación de los grupos será poco
divide esa diferencia. La desviación estándar puede ser mayor en conocida por la variabilidad y la clasificación defectuosa. Segundo,
función de la heterogeneidad de los sujetos (en edad, antecedentes, pueden no estar muy bien establecidas las medidas en el área de la
sexo, clase socioeconómica, etc.). Es probable que los efectos de la investigación. Las mediciones poco confiables pueden introducir en la
intervención o manipulación experimental sean menos consistentes situación variabilidad que afectará la sensibilidad de la prueba
entre los sujetos cuyas diferencias (heterogeneidad) sean relativamente experimental la relación predicha pudo haber sido evidente con medidas
mayores. La heterogeneidad de los sujetos se refleja en una mayor más sensibles y confiables.
variabilidad dentro de los grupos. Esta variabilidad, a la que se
denomina varianza de error, se relaciona directamente con el TE y la Tercera, puede esperarse que la comparación específica de interés genere
significancia estadística. Para una diferencia dada entre los grupos en la una diferencia muy pequeña entre los grupos. Si esperamos diferencias
medida dependiente, entre mayor sea la varianza de error, es menos pequeñas, la recomendación usual es incrementar el tamaño de la
probable que los resultados sean estadísticamente significativos. Como muestra de modo que la potencia sea elevada para este pequeño efecto.
se analizó en el capítulo 3, la varianza de error puede incrementarse por Cuando se pueden tratar las muestras de estudiantes universitarios y se
el descuido y la falta de cuidado en la realización del experimento, por dispone de una gran cantidad de sujetos, esa alternativa es muy útil. En los
usar diversidad y heterogeneidad de sujetos que varían en escenarios clínicos, aumentar el tamaño de la muestra no siempre es tan
características que tienen que ver con el resultado, y usando fácil; a veces no es posible porque hay relativamente pocos sujetos
mediciones que tienen una baja confiabilidad. Los procedimientos y las disponibles con las características de interés (por ejemplo, niños con una
prácticas que reducen o minimizan la variabilidad externa, aumentan el enfermedad crónica particular, adultos del mismo género que cohabitan

criando a los niños o profesores con habilidades sociales). Obtener muestras de la mayor parte de los estudios en la investigación en
grandes cantidades de casos podría requerir el muestreo en una amplia psicoterapia, pero todavía es probable que sea demasiado pequeña para
área geográfica o continuar el estudio por un periodo prolongado; de mostrar diferencias estadísticamente significativas (Kazdin y Bass, 1989).
hecho, podría impedir realizar la investigación. Alterar alfa podría ser Podría ser razonable usar un nivel alfa menos severo (por ejemplo; p <
razonable como forma de evaluar las diferencias predichas entre los .20) para comparar los dos tratamientos.
grupos.
En general, en un caso determinado puede ser útil reconsiderar el
Cuarto, podríamos alterar alfa con base en la consideración de las nivel alfa antes de un estudio o para algunos de las pruebas o
consecuencias de nuestras decisiones. Aquí las consecuencias se comparaciones dentro de él. Si a priori se pueden esperar
refieren a la atención de los pacientes (beneficios o sufrimiento), costo, condiciones especiales dentro del diseño para, atenuar la
problemas de políticas (facilidad de (diseminación o proporcionar la sensibilidad de un efecto, se puede justificar un alfa menos severo.
mayor atención al mayor número) y otras consideraciones en las cuales Tanto los problemas teóricos como aplicados pudieran llevar a
el peso de aceptar o rechazar la hipótesis nula tenga valor e reconsiderar el alfa. Alterando el nivel de alfa sería conveniente
implicaciones muy diferentes. Por ejemplo, si estamos estudiando si un proceder a partir de evaluar la naturaleza de las consecuencias de
procedimiento particular tiene efectos colaterales, podríamos alterar as diferentes decisiones, es decir, concluir si hay una diferencia
alfa) a p < .20. En tal estudio, seria posible que estimáramos hasta el confiable entré las condiciones o no la hay.
error (tipo II) al afirmar que existen efectos colaterales si hay cualquier
sugerencia razonable de que existen. Se debe considerar muy cuidadosamente el cambio de los niveles
alfa. Obviamente, no es apropiado disminuir los niveles alfa
En un experimento dado, alfa es uno de muchos puntos de decisión. después de realizado el estudio o cuando no se ha determinado por
Aunque el nivel aceptable de alfa está profundamente arraigado por la los resultados los niveles de significancia convencional, porque
tradición, el investigador debería considerar seriamente desviarse, a altera el modelo en el cual se basan las pruebas de significancia.
partir de las circunstancias de cada experimento en particular. También Es tentador minimizar los niveles alfa de esta manera, porque
hay circunstancias en las cuales el investigador puede planear usar pocos creen que un resultado ha sido sustentado por una p< .05,
niveles diferentes de alfa dentro de un experimento. Por ejemplo, porque no se dispone de pruebas de que un nivel de p por arriba de
suponga que estamos estudiando tres condiciones en un estudio de éste (p < .06 o .10). Sin embargo, dentro del modelo convencional
psicoterapia: (1) tratamiento A, (2) tratamiento A con un componente de la prueba de significancia, se tiene que seleccionar algún criterio
adicional para mejorar el resultado, y (3) un grupo control sin trata- generalmente acordado. Cualquiera que sea ese criterio, siempre
miento. Consideremos una muestra de 75 personas que cumplen varios habrá ejemplos que simplemente se equivocan y en los que el
criterios (por ejemplo, diagnóstico, edad y salud física) y las asignamos investigador, aunque no muchos otros miembros de la comunidad
aleatoriamente a las condiciones, con la restricción de que aparezca un científica, dirían que el efecto está lo suficientemente cerca de ser
número igual en cada grupo. ¿Qué usaremos para el nivel alfa? considerado confiable.
Podríamos usar un alfa) de .05 y dejar las cosas como están. De forma
alternativa, podríamos considerar antes del estudio las comparaciones de Uso de pretests. Señalamos previamente los diseños experimentales
interés y su posible 'FE. Probablemente la diferencia entre tratamientos que usaban pretests. Desde este punto de vista del diseño, las
versus sin trata miento sea grande. Podría ser razonable el nivel alfa ventajas de usar pretests eran múltiples e incluían problemas
usual (p < .05) para detectar una diferencia en esta situación. En relacionados con la información que proporcionan (por ejemplo,
contraste, la diferencia entre el tratamiento A con y sin un componente acerca de ha magnitud del cambio, el número de personas que
especial es probable que sea menor. Una muestra de 75 sujetos con 25 cambia n, etcétera). Las ventajas estadísticas de un pretest son los
casos por grupo en nuestro estudio hipotético es mayor que las fundamentos más universales para usar tales diseños. La ventaja

del pretest es que con varios análisis se reducen las condiciones

de error al evaluar el TE. Con una evaluación repetida de los La mayoría de las hipótesis en la investigación es direccional en el
sujetos (previa y posterior a la prueba) se puede tomar en cuenta sentido, de que los investigadores tienen una idea e interés en las
la variación dentro del g r u p o (sujeto) para reducir las condiciones diferencias en una dirección particular. Por esta razón, algunos
de error. autores han sugerido que la mayor parte de las pruebas de signi-
ficancia se debe basar en pruebas de una cola (Mohr, 1990). Sin
Considere el impacto en la fórmula del TE. Cuando hay una embargo, hay resistencia respecto a esto y el lector debe estar
medida pretest u otra medida que está relacionada con el alerta. A menudo hay una suposición implícita de que los
comportamiento posterior al tratamiento (por ejemplo, investigadores que usan pruebas de una cola pudieron haberlo
covariación), se alteran las condiciones de error del TE. La fórmula hecho porque de otra manera los resultados no serían
está representada por TE = (m 1 – m 2 )/ s √ 1– r 2 donde r es igual a estadísticamente significativos. Con frecuencia, es poco claro para
la correlación entre la prueba previa (u otra variable) y la prueba el lector del informe de una investigación que el uso de pruebas de
posterior. Al aumentar la correlación entre la prueba previa y la una cola se debe decidir antes de ver los resultados. La suposición
posterior, se reducen las condiciones de error (denominador); de implícita no da el beneficio de la duda al investigador. Al mismo
aquí que la potencia del análisis aumenta. Se pueden usar varios tiempo, relativamente pocos estudios en psicología clínica y áreas
análisis estadísticos que tienen ventaja para el uso de una prueba relacionadas utilizan pruebas de una cola. Raras veces se ven
previa, como los análisis de covarianza, análisis de varianza de dichas pruebas o sólo se les ve en situaciones en las cuales los
medidas repetidas y el incremento de puntajes (Lipsey, 1990). resultados serían significativos sin considerar si los tests se
realizaron como pruebas de una o de dos colas.
Uso de pruebas direccionales. Otro tema relacionado con la
potencia es el controvertido problema de las pruebas de una En general, se recomienda a los investigadores ser conservadores
versus dos colas. En las pruebas de significancia, alfa se usa para en el análisis de sus datos y al obtener conclusiones acerca de las
decidir si es confiable una diferencia entre ambos. Considere un relaciones que son confiables o estadísticamente significativas. El
estudio de dos grupos y la prueba t para evaluar las diferencias análisis de las comparaciones múltiples (en la siguiente sección;
de ambos. La hipótesis nula es que los grupos no difieren, es describe mejor su uso. Sin embargo, las hipótesis direccionales y el
decir, el TE es igual a 0. Una prueba de dos colas evalúa la uso de pruebas de una cola justifican su estudio. Tener claro el
diferencia obtenida a partir de desviarse de 0 en cualquier origen de la predicción es importante para su uso, de modo que los
dirección, es decir, si un grupo es mejor o peor que el otro. El alfa buscadores de investigación puedan identificar si las pruebas son
de .05 se refiere a ambas "colas" (extremos de la distribución adecuadas. También, como ocasionalmente las pruebas de una
normal), que se usan como la región crítica para el rechazo. cola son vistas ocasionalmente con desconfianza, el investigador
podría señalar, si así lo desean las pruebas que pueden ser
En muchos estudios, el investigador puede tener un punto de vista significativas o no con pruebas de dos colas. Los comentarios en
acerca de la dirección de las diferencias. Puede que no desee ambos tipos de pruebas dentro de un estudio no reflejan las
comprobar si el es diferente de cero, sino más bien si el preocupaciones del estadístico, quien posiblemente influya para una
tratamiento es mejor que la condición control o si el tratamiento A evaluación pertinente en la forma de usar una u prueba (pero no
es mejor que el B. La hipótesis a rechazar no es bidireccional ambas). Sin embargo, los comentarios acerca de las conclusiones
(mejor o peor), sino unidireccional (mejor). Como tal, el obtenidas de las pruebas estadísticas pueden generar problemas
investigador puede considerar el uso de una prueba de cola. Se mayores. Entre éstos está la importancia de informar a otros
requiere un valor t más bajo para rechazar la hipótesis nula investigadores sobre las conclusiones que dependen de
siempre y cuando se direcciones la prueba de una cola. suposiciones y métodos de análisis.

Existen algunas pruebas de comparación múltiple para tratar el

problema del porcentaje de error según el experimento y para controlar el
T EMA S E SP EC ÍF IC O S E N E L A NÁ L ISI S D E D A TO S riesgo de error tipo I que aumentó (Hochberg y Tamhane, 1987). Se
conocen muchas más pruebas de comparación múltiple por el nombre
Análisis Que Implican Comparaciones Múltiples de las personas que han sido principalmente las responsables de su
desarrollo (algunas pruebas como: Tukey, Duncan, Scheffé). Una
alternativa relativamente simple se denomina procedimiento Bonferroni,
Control del nivel de alfa. En un experimento es probable que el
que consiste en la manera de ajustar alfa de acuerdo con el número de
investigador incluya múltiples grupos y que compare algunos o
comparaciones que se hacen. Considere la forma en que funciona la
todos los grupos entre sí. Por ejemplo, el estudio puede incluir
prueba. En un conjunto de comparaciones, el límite superior de la
cuatro grupos, tres de tratamiento y uno de control. El
probabilidad de rechazar la hipótesis nula es el número de
investigador puede realizar una prueba global (análisis de
comparaciones (k) por alfa ( α) (por ejemplo p = .05). Obviamente, si se
varianza) para ver si hay diferencias entre los grupos. Si las
van a hacer 10 comparaciones, la tasa global de error es ka, o .50.
diferencias son estadísticamente significativas, pueden hacerse
Como protección contra un error de tipo I, p = .50 claramente sería
diversas comparaciones individuales para identificar qué grupos
inaceptable. Para controlar el porcentaje de error global, alfa se puede
difieren de otros. De forma alternativa, el investigador puede descartar
ajustar al número de comparaciones.
la prueba global. Se pueden realizar algunas comparaciones de dos
grupos (pares convenientes) al compararse entre sí cada tratamiento y
El ajuste Bonferroni se basa en dividir alfa (p - .05) entre el número de
con el grupo control. Se podría fijar un nivel de alfa en p .05 para
comparaciones. En nuestro estudio de cuatro grupos, hay seis
protegerse contra el riesgo de un error de tipo I. Este alfa se refiere al
comparaciones posibles de pares por conveniencia. Si fijamos alfa en
riesgo de una comparación dada, al (cual a veces se le denomina
.05, sabemos que el riesgo es realmente mucho más alto a causa del
porcentaje de error por comparación. Sin embargo, hay múltiples
número de comparaciones. Para hacer un ajuste, dividimos alfa entre el
comparaciones. Con múltiples pruebas, el porcentaje de error global o
número de pruebas. En nuestro ejemplo, dividimos .05/6 que produce p
riesgo de un error del Tipo I puede ser mucho más alto. Este aumento
=.0083. Para cada comparación individual de los pares por conveniencia,
a veces se denomina probabilidad de piramideo para señalar que la
que realizamos (tratamiento 1 versus tratamiento 2, tratamiento 1 versus
acumulación de la probabilidad real de un error de tipo I aumenta con
grupo control, etc.), usamos p ≤ .0083 como el criterio para la
el número de pruebas. Qué tanto aumente el nivel p depende
significancia. Si usamos este criterio, el porcentaje global de error
directamente del número de comparaciones diferentes: De hecho, con
según el experimento se controla en p = .05.
un número de comparaciones, en las que cada una mantiene un nivel
de .05, la probabilidad de concluir que se ha obtenido algún efecto
El ajuste Bonferroni controla el porcentaje de error global (según el
significativo puede ser muy alfa. En nuestro ejemplo hipotético con
experimento), por ejemplo, en p ≤. 0 5 . Los porcentajes de error para las
cuatro grupos, el investigador puede hacer todas las comparaciones
comparaciones individuales (por comparación) no necesitan ser iguales
posibles de los grupos (en total seis comparaciones de pares por
(por ejemplo, todos en p ≤ .0083 en el ejemplo anterior). Si el
conveniencia). Aunque la tasa de error de los pares por conveniencia
investigador desea incrementar la potencia en algunas pruebas más
es .05, el riesgo de un error de tipo I en el experimento es más alto,
que en otras, pueden variar las comparaciones individuales del nivel
debido a la cantidad de pruebas. La tasa total se denomina porcentaje
alfa por comparación, mientras estos niveles no excedan el porcentaje
de error según el experimento. Debemos controlar la probabilidad de
de error según el experimento de .05 cuando se sumen todas las
un error de tipo en todas las comparaciones o el porcentaje de error
comparaciones.
según el experimento. Es decir, el alfa seleccionada debe justificar el
número de comparaciones de pares por conveniencia.
El ajuste de alfa, como se señaló aquí, surge cuando se realizan

diversas comparaciones de pares por conveniencia en una medida se hacen ajustes para controlar los niveles alfa globales, la potencia de
dada. Una inquietud similar, por un alfa elevado, surge cuando hay un estudio disminuye aún más. Es decir, además de que el tamaño de
múltiples medidas de resultados y múltiples pruebas comparando los la muestra es relativamente pequeño, el investigador tiene la
mismos grupos en cada medida. Por ejemplo, si dos grupos de responsabilidad de rectificar el número de pruebas estadísticas. Es
pacientes (pacientes ansiosos versus no ansiosos) se comparan en comprensible que los investigadores estén renuentes a detallar la gran
diversas medidas, la posibilidad de encontrar una diferencia cantidad de pruebas que a menudo se realizan.
significativa cuando no hay ninguna en la población es mayor que p
=.05 para una comparación dada. Aquí también, el ajuste Bonferroni Hay alternativas para el investigador que cree que los principales
se puede usar para el número de comparaciones en las que k se resultados se basan en las comparaciones estadísticas, pero las ve
refiere aún al número de comparaciones o pruebas. Como antes, para desaparecer cuando se ajusta alfa para controlar el índice de error
cada prueba de pares por conveniencia, el nivel de ajuste se usa para según el experimento. Primera, el investigador puede presentar los
decidir si los efectos son estadísticamente significativos. resultados para ambos niveles alfa, ajustados y no ajustados. Los
resultados pueden mostrar las pruebas que siguen siendo significativas
Consideraciones. Hay un acuerdo general en que las bajo ambas circunstancias y las pruebas que son significativas cuando
comparaciones múltiples requieren algún ajuste para controlar el error no son ajustadas. Ésta no es una solución completamente satisfactoria,
de tipo I. No considerar la multiplicidad de comparaciones tiene pero trata la ambivalencia y el conflicto tanto en el autor como en el
implicaciones directas para la validez por conclusión estadística, en campo en general, es decir, para identificar cuáles son los efectos,
este caso, es frecuente concluir que hay diferencias significativas mantener un nivel razonable de potencia, pero no para perder el control
cuando, por el criterio usual de alfa, no existe ninguna. M á s allá de con una gran cantidad de pruebas, de las cuales sólo unas cuantas son
estos puntos generales y a partir del hecho de que los investigadores estadísticamente significativas.
necesitan realizar un análisis de los datos para tomar decisiones, el
acuerdo disminuye. Por ejemplo, qué pruebas de comparación Segunda, el investigador puede seleccionar un alfa según el
múltiple son apropiadas y si una prueba determinada es demasiado experimento que sea ligeramente más flexible que p < .05, como p <
conservadora o limitada, son dos áreas en las cuales los estadistas .10; antes de hacer el ajuste. El ajuste Bonferroni dividir; este alfa entre
sensatos pueden estar en desacuerdo. El uso de un ajuste, como el el número de comparaciones. El alfa por comparación permanecerá
procedimiento Bonferroni es bastante común. Aunque el alfa ajustado abajo de .05, dependiendo del número de comparaciones. Adoptar un
es razonable, la consecuencia puede ser moderada en un estudio porcentaje según el experimento de .10 usualmente preocupa menos a
dada En la práctica, el número de efectos significativos disminuye otros investigadores que adoptarlo para las comparaciones individuales
cuando se usa un nivel ajustado. Dicho de otra manera, al hacerse (porcentaje por comparación).
más estricta el alfa para las comparaciones individuales de pares por
conveniencia, disminuye la potencia y aumenta la probabilidad de un Tercera, el investigador puede no estar interesado en todas las
error de tipo II. comparaciones posibles, sino más bien sólo en un subconjunto
establecido con anterioridad que se relaciona específicamente con una o
Dentro de las prácticas actuales de las pruebas significativas, se da dos hipótesis iniciales. Ajustar el alfa para un reducido número de
una mayor prioridad al control del error de tipo I en vez de al de tipo II comparaciones significa que el porcentaje por comparación (de alfa) no
y la potencia. De aquí que, a los investigadores se les estimula (por es estricto. En efecto, para unas cuantas comparaciones
tradición, asesores de investigación, revisores, editores) que elijan un preestablecidas, no ajustar el número de pruebas usualmente se
alfa en .05 o .01, casi a cualquier costo. La dificultad de esta tendencia considera como satisfactorio. Aquí, la diferencia está en determinar al
en la investigación es que ya sabemos que es probable que la principio del estudio cuáles son las hipótesis y qué pruebas específicas
potencia en la mayoría de los estudios psicológicos sea débil. Cuando se usarán para evaluarlas. Comúnmente se favorecen las

comparaciones directas, planeadas y a priori. Si se realizan análisis mediciones de los resultados porque refleja una propiedad que el
adicionales, complementarios, o exploratorios, se podrían probar de' la investigador ve como tuna unidad o relacionado de manera empírica
forma más habitual (con niveles p ajustados). porque las medidas correlacionan alto una con otra. Por ejemplo, si
tenemos 10 medidas dependientes podríamos analizarlas por separado
Las alternativas no agotan el rango de posibilidades. Entre las con pruebas 1 o f. Podríamos evitar el problema de un error tipo I
opciones está el uso de variaciones menos tradicionales del ajuste elevado con el ajuste (por ejemplo, Bonferroni) que se señaló
Bonferroni (Simes, 1986) o una variedad de otros procedimientos para anteriormente. Otro problema se refiere al hecho de que las medidas
controlar el error de tipo I (Hochberg y Tamhane, 1987). También, pueden estar interrelacionadas. Las pruebas univariadas, es decir,
puede uno no poner énfasis en todas las pruebas de significancia al pruebas separadas para cada medida, no toman en cuenta la posible
analizar los datos. Se pueden usar las medidas de la fuerza de la redundancia de las medidas y su relación mutua. Es posible, por
relación, como el TE, y no están sujetas a las mismas desventajas que ejemplo, que dos medidas de resultados muestren efectos significativos
las pruebas estadísticas. (Ésta alternativa se explica con detalle debidos al tratamiento. El investigador puede analizar qué tan fuertes
posteriormente a causa de la extensa implicación en relación con las son los efectos entre las dos medidas, cuando de hecho la alta
prácticas actuales de investigación.) El punto central no es discutir una correlación entre las medidas sugiere un constructo en lugar de dos.
solución específica, sino subrayar la importancia de tratar el problema También es posible que ninguna medida muestre un efecto significativo,
en el análisis de datos. Cualquier problema del análisis de datos que pero cuando se considera como un todo conceptual, en realidad sí
se pueda anticipar también requiere la consideración en la etapa de muestran un efecto. Las medidas por separado pueden no proporcionar
diseño. Identificar en el estudio las principales comparaciones un efecto tan fuerte o tan confiable como sucede cuando se combinan.
principales que interesan en el estudio, las pruebas estadísticas que
se usarán, y el número de pruebas, puede tener implicaciones para el Cuando hay múltiples medidas de los resultados, podemos considerar
tamaño de la muestra y la potencia. Todos estos argumentos influyen que los datos son multivariados. Puede ser conveniente realizar análisis
directamente en las conclusiones a las que el investigador tiene multivariados (como los análisis de varianza multivariados). Éstos
derecho y, por tanto, es importante considerarlas antes de que se incluyen varias medidas en un solo análisis de datos, mientras que los
estudie al primer sujeto. análisis univariados estudian una medida a la vez. No usamos análisis
multivariados porque tenemos diferentes medidas dependientes. Más
Resultados múltiples: análisis multivariados y bien, la razón primordial es el interés del investigador por entender las
univariados relaciones entre las medidas dependientes. Los análisis multivariados
consideran estas relaciones proporcionando una combinación lineal de
En la mayoría de la investigación clínica se usan múltiples medidas para las medidas y evaluando si esa combinación proporciona evidencias de
evaluar el impacto de una intervención. Por ejemplo, en un estudio diferencias significativas. Por ejemplo, el estudio puede incluir tres
sobre los resultados de la terapia, pueden realizarse diversas medidas de la ansiedad. Se podría realizar un análisis multivariado
mediciones para evaluar diferentes perspectivas (pacientes, parientes combinando estas medidas. Si el análisis multivariado global indica un
y terapeutas) acerca del funcionamiento del paciente en algunas de efecto significativo, esto sugiere que alguna combinación de variables
sus características (por ejemplo, depresión, autoestima, adaptación en ha mostrado el efecto sobre la intervención o la variable independiente de
el hogar y el trabajo) y para encontrar con diferentes formatos de interés.
evaluación (por ejemplo, entrevistas, cuestionarios, observaciones
directas). Cuando hay múltiples medidas, las interrelaciones de éstas Después de encontrar el efecto global de los análisis multivariados, se
presentan problemas relevantes a los análisis de datos. podrían realizar pruebas univariadas (pruebas F individuales para cada
medida) para identificar las diferencias específicas de cada variable
El rendimiento puede estar conceptualmente relacionado con diversas dependiente. Como antes, el alfa necesitaría ajustarse para evitar un

error de tipo I elevado. Sin embargo, las pruebas univariadas pueden no basándose en sus interrelaciones. Ésta es una característica
mostrar efectos significativos después de un análisis multivariado original y no se evalúa llevando a cabo varias pruebas univariadas
global. Este último toma en cuenta la relación de las medidas por separado; las cuales podrían ser apropiadas bajo una variedad
mutuamente y evalúa la combinación de las medidas. Los análisis de condiciones si el investigador no considera las medidas
univariados ignoran este aspecto de la estructura de los datos y puede relacionadas conceptualmente, si las medidas de hecho no están
ser que no lleven a conclusiones similares. correlacionadas o si el interés primordial o específico está en las
medidas individuales mismas en vez de en cómo se combinan o
Consideraciones. Puede ser muy apropiado analizar las relacionan mutuamente. Los investigadores ocasionalmente usan
mediciones múltiples de los resultados con análisis multivariados, o los análisis multivariados como prueba global. Después que el
con varias pruebas univariadas (Haase y Ellis, 1987; Huberty y Morris, análisis multivariado es significativo, proceden con varias pruebas
1989). Los análisis multivariados son particularmente apropiados si el univariadas. Usualmente, estas pruebas se realizan con un alfa por
investigador considera las medidas conceptualmente comparación de .05; de aquí que, el riesgo global de un error de
interrelacionadas y está interesado en diversas interrelaciones de tipo I aumenta mucho. Descubrir la significancia estadística en esta
las medidas aparte o además de las medidas individuales mismas. situación es un problema, porque se suponía que la prueba
Por ejemplo, puede haber algunas mediciones de la adaptación multivariada controlaba el error tipo I en el nivel de alfa (p =.05).
del paciente y el funcionamiento familiar. Dentro del estudio, el Las pruebas univariadas individuales, si se realizan, aún requieren
investigador puede agrupar todas las medidas de la adaptación consideración del número de pruebas y el porcentaje de error
del paciente y realizar un análisis multivariado para identificar una según el experimento.
asociación considerando el área conceptual global y hacer lo
mismo para las medidas del funcionamiento de la familia. También Análisis De Datos Y Diseño Del Estudio
se pueden realizar análisis separados para las escalas
individuales dentro de cada área conceptual si también son de Las pruebas de significancia son la base de la investigación
interés. Por ejemplo, se ha estudiado el uso de drogas entre contemporánea. Los problemas relacionados con alfa, la potencia, el
adolescentes para comprender su principio curso y relación con la TE esperado y los índices de error que surgen de múltiples pruebas,
adaptación posterior en la etapa adulta (Newcomb y Bentler, por mencionar sólo algunos, es fundamental tomarlos en cuenta al
1988). La droga se concebía como una variable latente estar planeando un estudio. No son problemas esotéricos ni
(constructo con múltiples índices) e incluía tres medidas, es decir, matices meramente cuantitativos; al contrario, influyen de manera
el uso de alcohol (cerveza, vino o licor), cannabis (marihuana y importante en las conclusiones que el investigador desea obtener y
hashish) y drogas fuertes (por ejemplo, cocaína, barbitúricos LSD la fuerza y calidad del diseño. Más concretamente, al estarse
y otras). En el análisis de los datos se consideraron el uso de formulando el propósito del estudio y el diseño, es útil escribir cada
drogas (todas las medidas juntas) porque' se concebían como una hipótesis y junto a cada una determinar las estrategias
tendencia general hacia el uso de sustancias. Las tres medidas , datoanalíticas tentativas que se usarán. En relación con las pruebas
individuales también se evaluaron por separado porque se y análisis específicos, se puede preguntar:
esperaba (y se demostró) que algunas sustancias (drogas fuertes)
tuvieran resultados particularmente perjudiciales a largo plazo. • ¿Tengo suficiente potencia dado el TE probable?
Sin embargo, ambos niveles de análisis —la variable combinada y • ¿Puedo variar alfa, el tamaño de la muestra o reducir la variabilidad de
la variable individual— condujeron a resultados significativos e alguna manera (por ejemplo, homogeneidad de la muestra cómo se realiza el
importantes. estudio) para aumentar la potencia?
• ¿Puedo incrementar la fuerza o potencia de la variable independiente o
incrementar el efecto que ocurrirá usando grupos diferentes en el diseño, o
Los análisis multivariados evalúan las variables compuestas contrastando las condiciones (experimentales y control) que es probable


que produzcan tamaños del efecto más fuertes? significancia para evaluar la hipótesis nula "son un error terrible, es
• ¿Necesito cada grupo en este estudio o puedo distribuir a todos los básicamente una estrategia científica poco sólida, y una de las peores
sujetos en menos grupos (por tanto aumentar la potencia)?
• ¿Habrá otras pruebas relacionadas con esta hipótesis que dividirán más a cocas que hayan sucedido en la historia de la psicología" (por
los grupos (por ejemplo, contrastar hombres versus mujeres) y, por tanto, supuesto, como psicólogo clínico, esta afirmación es difícil de
reducirán la potencia? interpretar, pero a mí me parece negativa). Meehl ha sido claro al
afirmar el caso, pero ninguna manera está solo en el asunto. Las
Es muy útil evaluar estas preguntas y resolverlas en la medida que objeciones a las pruebas de significancia se refieren a que logran y
sea posible en la etapa de diseño. Después de que se realizó el no logran y de qué manera son malinterpretadas. Las objeciones se
experimento, sin duda, surgirán otras preguntas y problemas mencionan brevemente como forma de avanzar hacia una
datoanalíticos; de aquí que, no se pueden anticipar todos los recomendación alternativa para la evaluación estadística de la
resultados y planes para su evaluación. Al mismo tiempo, debería investigación.
elaborarse un plan para los análisis principales en la etapa de
diseño, de modo que puedan hacerse cambios en el diseño para Interpretación De Las Pruebas Estadísticas
mejorar los aspectos de la validez por conclusión estadística.
Una objeción (o más bien, un conjunto de objeciones) se refiere a la
O BJ ECIO NE S A LA S P RUE BA S DE SIG NI FICA NCIA manera en que se interpretan las pruebas de significancia. Primero, a
ESTA DÍSTICA menudo un valor p(.05) es interpretado como uno de los aspectos que
muestran la probabilidad de que la hipótesis nula (sin diferencias) no sea
Como las pruebas de significancia estadística siguen imperando en verdad y, por tanto, que la hipótesis alternativa sea verdadera. El valor p
in investigación contemporánea, es de suma importancia conocer no es una medida de la veracidad de una hipótesis ni el grado en el que
a detalle los problemas y métodos analizados previamente, para puede ser verdad. La hipótesis nula pudiera ser verdad sin importar qué
las personas que planean realizar una investigación. AI mismo resultados muestre; también, aún si está hipótesis no fuera verdad, esto
tiempo, hay otro punto, es decir, de qué manera se practican e no necesariamente argumenta a favor de la hipótesis alternativa
interpretan actualmente. Las pruebas de significancia estadística
pueden ser engañosas y contraproducentes. Las recomendaciones Segunda, puede interpretarse erróneamente una diferencia no
incluyen ya sea que abandonemos la práctica por completo o significativa que no refleje ninguna relación entre las variables
realicemos las pruebas de significancia con otra información (para independiente y dependiente. Si la hipótesis nula no es rechazada, debe
revisiones recientes, véase Kirk, 1996; Schmidt, 1996b). Ésta ser aceptada. Aceptar la hipótesis nula usualmente se interpreta como sin
postura no es nueva ni es la visión de una minoría radical efectos, es decir, las diferencias entre los grupos probablemente se
sostenida por extremistas cuyas tesis, como la mía, los pusieron deban sólo al azar. De hecho, los investigadores tienden a creer que los
en contra de los niveles alfa convencionales. descubrimientos en p< .05 o más bajo, son efectos reales y reflejan una
relación, pero que por arriba de este nivel (p> .05) las diferencias entre
Se hace necesario un breve comentario histórico. Cuando los grupos no existen o sólo son aleatorias (Rosenthal y Gaito, 1963). No
surgieron por primera vez las pruebas estadísticas y las pruebas hay una base racional para esta creencia,. En su cita ahora clásica,
de in hipótesis nula (Fisher, 1925; Neyman y Pearson, 1928), les Rosnow y Rosenthal (1989, p. I277) señalaban que, "Por supuesto, a
siguieron las objeciones que cuestionaban la lógica y utilidad de Dios le encanta el .06 casi tanto como el .05". Qué la hipótesis nula se
tal aproximación (Berkson, 1938). Desde ese tiempo hasta el rechace se basa en la potencia yen un efecto verdadero. Cuando se
presente, ha habido un continuo "aumento de cuestionamientos" acepte la hipótesis nula, todavía podría haber un efecto (es decir,
(Kirk, 1996, Pág. 747). Por ejemplo, entre las afirmaciones más diferencias de los grupos) y hasta un efecto bastante potente (TE).
fuertes, Meehl (1978, pág. 817) señaló que las pruebas de Significativamente no equivale de hecho a ninguna diferencia o ningún

efecto, de la variable independiente. Como se señaló con anterioridad, una preocupación de las pruebas de
significancia es que la hipótesis nula siempre es falsa. Es decir, las
Tercera, un valor p (de nivel más alto (p < .0001 en lugar de p <.05) a medias para los dos grupos siempre serán diferentes (por ejemplo, en
menudo se dice que significa que el efecto es más potente, más fuerte, algún decimal) y preguntar si los grupos son diferentes "es tonto" (Tukey,
mas importante, o con más probabilidades de ser replicado en un 1991, p. I00). Si la hipótesis nula es falsa, no podemos cometer un error
estudio posterior. El uso del término "efecto altamente significativo" en de tipo I (es decir, no podemos rechazar la hipótesis nula cuando sea
muchos artículos contradice las concepciones equivocadas implícitas falsa). Sin embargo, es muy probable que cometamos un error de tipo II
acerca de lo que significa un resultado estadísticamente significativo. El porque la probabilidad de mostrar una diferencia, es muy alta, teniendo
nivel no nos dice la magnitud o fuerza de la diferencia. De hecho, es en cuenta la débil potencia de los experimentos. La potencia débil
muy posible que una diferencia estadísticamente significativa en un aumenta cuando realizamos ajustes en los análisis (por ejemplo,
experimento (con p < .0001) refleje un efecto más débil que un Bonferroni) que hacen a alfa más riguroso en las comparaciones
descubrimiento no significativo (p < .20) en otro estudio. La razón es individuales. Como ha quedado precisado un estudio específico refleja
que el nivel p se relaciona con la fuerza de la relación (por ejemplo, TE) que el efecto es una función de la potencia. Cuando los grupos son
y el tamaño de la muestra, no sólo con la fuerza de la relación. En un realmente diferentes, nos importa menos el valor real de p y más si las
estudio, un 'TE menor podría llevar a una diferencia estadísticamente diferencias son grandes, pequeñas o medianas. También, cuando
significativa, sólo en función de la potencia. Por la misma razón (la consideramos múltiples variables independientes (estudios de
potencia), un TE más fuerte en otro estudio puede no producir una predicción), queremos saber su impacto relativo en relación con algún
diferencia estadísticamente significativa criterio o resultado. Las pruebas de significancia estadística por sí
mismas no proporcionan tal información.
El problema con las pruebas estadísticas es que en su uso común nos
piden que tomemos decisiones binarias (aceptar o rechazar) para la Réplica Y Conocimiento Acumulativo
hipótesis nula. Si no aceptamos ésta, entonces debemos rechazada e ir
hacia la hipótesis alterna. Lo que preferiríamos tener es alguna idea de Las pruebas de significancia pueden impedir la réplica y la acumulación
la probabilidad de que la hipótesis científica sea verdadera (el de conocimiento. Hay todo tipo de hallazgos contradictorios y fracasos en
tratamiento A es mejor que el tratamiento B) y olvidarnos del todo de la la réplica. Para estar seguros, muchos pudieran provenir del hecho de
hipótesis nula. que un descubrimientos dado puede depender de influencias razonables
(edad, sexo y clase social de la población) y variaciones en las muestras
Pruebas De Hipótesis Nula entre los diferentes estudios. En relación con el presente análisis,
La prueba de hipótesis se basa en controlar alfa (error de tipo I), como enfrentamos un punto más problemático, es decir, que los mismos
se reflejó en el interés por fijar p en ≤.05 o .01. Es decir, no queremos hallazgos puedan producir resultados contradictorios cuando las pruebas
rechazar la hipótesis nula (sin diferencias) cuando de hecho es de significativas estadística sean la base para hacer efectiva su
verdadera. El problema con esto es que no hay control del error de tipo influencia.
II; se le permite variar amplia y bruscamente. Si alfa (error del tipo I) se
fija en p = .05, ¿qué significa esto para beta (error del tipo II)? Considere por un momento que hemos realizado un estudio y hemos
Usualmente, el tipo II es alrededor de .50 u .80. Toda la discusión sobre obtenido un tamaño del efecto de .70. Ésta magnitud de efecto es
la potencia gira en torno a los errores de tipo II (potencia = 1 – P. Así, aproximadamente del nivel del TE demostrado cuando la psicoterapia se
cuando la potencia es débil (por ejemplo, .50), beta es elevado (.50). La compara con no recibir tratamiento. Un TE de esta magnitud indica una
potencia débil significa que es muy probable que aceptemos la hipótesis relación (bastante fuerte y se considera m TE de moderado a grande.
nula cuando sea falsa. ¿También se reflejaría un TE de esta magnitud en las diferencias de los
grupos estadísticamente significativas? La respuesta depende del tamaño

(de la muestra. Considere dos estudios hipotéticos, ambos con un TE ALTERNATIVAS 0 COMPLEMENTOS A LAS PRUEBAS DE
de .70. En el estudio I, tenemos un estudio de dos grupos con 10 casos SI GN IF I CA NCIA
en cada grupo (N = 20). En el estudio I tenemos dos grupos con 30
casos en cada grupo (N = 60). Realizamos cada estudio y estamos Es fácil criticar las pruebas de significancia estadística; los argumentos
listos para analizar los datos. En cada estudio tenemos dos grupos, así han sido bien fundamentados por los últimos 60 años y se pueden citar
que decidimos evaluar las diferencias de los grupos usando) una ejemplos reales para mostrar la forma tonta en que hacemos las cosas.
prueba I. La fórmula de la prueba puede expresarse de muchas Generar opciones no ha sido un problema y aquí se dan tres sugerencias
maneras. La relación entre la significancia estadística y el TE para comunes.
nuestro estudio de dos grupos puede verse en la siguiente fórmula:
Magnitud Y Fuerza Del Efecto
En lugar de (o además de) las pruebas de significancia estadística, seria

donde TE = (m1 - m2)/s ú01 considerar la magnitud de alguna medida o fuerza en la relación
entre las variables independiente y dependiente o la magnitud de las
En el estudio I, en el cual TE = .70 y hay 10 casos en cada uno de los diferencias entre grupos. En la investigación clínica, la noción de la fuerza
dos grupos, la fórmula anterior origina una t = 1.56 con grados de de la relación es obviamente importante. Por ejemplo, si deseamos
libertad ( g l ) de 18 (o n1 + n2 - 2). Si consultamos una tabla para la comparar a los padres que abusan de sus hijos con Padres que no lo
distribución t de los estudiantes, observamos que se requiere un t de hacen, no queremos simplemente demostrar diferencias estadísticamente
2.10 para p = .05. Nuestra t no cumple el nivel p ≤ 5.05; por tanto, significantes en algunas medidas (por ejemplo, estrés paterno,
concluimos que no hay diferencias entre el grupo 1 y el grupo 2. funcionamiento familiar). Además, deseamos conocer la fuerza de la
Cuando el TE = .70 y hay 30 casos en cada uno de los dos grupos, la asociación y la magnitud de la relación entre el nivel de abuso paterno y
fórmula mencionada produce t = 2.71, con un gl de 58. Si consultamos otras variables. Si todas las variables que estudiamos distinguen a los
la distribución t de los estudiantes, observamos que el t que se obtiene padres abusivos de los no abusivos, nos gustaría conocer la fuerza de
es más alto que el t de 2.00 que requeríamos para este gl en p < .05. estas conexiones y la contribución relativa de cada una.
Así, concluimos que los grupos 1 y 2 son diferentes. Obviamente,
tenemos dos estudios con efectos idénticos pero conclusiones La magnitud del efecto o fuerza de la relación puede expresarse en
diametralmente opuestas acerca de las diferencias de los grupos. Esto formas diferentes, omega2 (ω 2), eta (ή), epsilon2 (ε 2 ), y la correlación
es el caos y no es como queremos que nuestra ciencia avance. Pearson producto momento (r, r 2) y en la regresión múltiple (R y R')
(Haase, Ellis y Lanady, I989, Kirk, 1996; Rosenthal, 1984; Rosenthal y
En este ejemplo, los resultados idénticos produjeron diferentes Rosnow, 1991). Una medida que ya hemos analizado es el TE, el cual
conclusiones. Las implicaciones a gran escala son enormes. Cuando ilustra muy bien la producción informativa proporcionada más allá de la
expresamos escepticismo al señalar que se encontró un resultado en un significancia estadística. El tamaño del efecto nos permite proporcionar
estudio pero no se replicó en otro, se basa en el hecho de que en un un punto estimado de cuál es la fuerza de la relación entre variables: La
estudio los resultados eran estadísticamente diferentes y en otro estudio utilidad de esta estimación es expresar la relación, no decidir si la relación
no. En la acumulación de conocimiento, no podemos realmente separar es o no estadísticamente significante. También, el TE es familiar a partir
los fracasos al replicar los efectos que de hecho reflejan resultados de su frecuente uso en los metanálisis. Aún más, con el TE, la magnitud
similares (TE), de los que representan diferencias genuinas en los del efecto proporciona una métrica común que permite la comparación (y
resultados. combinación) de diferentes experimentos usando diferentes medidas de
los resultados.


Puede interpretarse un tamaño del efecto de .20, .50 0 .80, respecto a

las unidades de desviación estándar. En un estudio que compara un
grupo de intervención y un control, un TE de .70 es fácilmente
interpretable en relación con las diferencias en las distribuciones entre
los grupos con tratamiento y sin tratamiento. Es decir, el TE se puede
traducir en términos más concretos. La figura 14.1 muestra dos
distribuciones, una para el grupo de tratamiento y otra para el grupo
control. Las medias del grupo (líneas verticales) muestran el tamaño del
efecto de .70; es decir, la media del grupo de intervención es 7/10 de
desviación estándar mayor que el grupo control. Uno puede ir a una Otra medida comúnmente utilizada para evaluar la fuerza de la relación
tabla de la distribución normal y convertir esta información en cómo les es r. La correlación refleja la relación entre la variable independiente y la
fue a las personas en el grupo de intervención en relación con los dependiente. La correlación al cuadrado (r2) se usa para reflejar la
sujetos control en unidades de desviación estándar. Dado el tamaño del varianza compartida en estas variables. La correlación se utiliza en
efecto de .70, el promedio del sujeto en tratamiento está mejor que 76% muchos estudios. Los estudios que emplean la regresión múltiple a
de las personas que no recibieron tratamiento. Éste porcentaje fue menudo reportan R o R2 para expresar cuánta variación es explicada por
obtenido identificando qué porcentaje de la población está por debajo los predictores y resultados. Tanto el tamaño del efecto como r se
de las unidades de desviación estándar +,70 de la distribución normal. computan fácilmente de las fórmulas proporcionadas en libros de
introducción a la estadística. También, las estimaciones pueden
computarse directamente a partir de pruebas estadísticas de significancia
típicas para comparar dos grupos. Observe la sencilla conversión en la
tabla 14.2. Las ecuaciones expresan que una vez que se tiene t o x2, se
puede proporcionar mayor información sobre TE y r. De manera que para
reportar los resultados, se puede derivar con relativa facilidad más
información (y tal vez más importante) que la significancia estadística
Intervalos De Confianza
FIGURA 14.1 Representación de un tamaño del efecto de .70 entre un grupo

de intervención y el control. Cada grupo se refleja en su propia distribución El tamaño del efecto (o alguna otra medida de la magnitud (del efecto)
(curva normal). Si los grupos de hecho no son diferentes, las dos distribuciones proporciona un punto estimado, es decir un valor específico que estima el
estarían colocadas una sobre otra y se verían como una sola distribución valor de la población. Para complementar esta estimación se
(misma media, misma desviación estándar). Con un tamaño del efecto de .70, la recomiendan también los intervalos de confianza (Kirk, 1996; Schmidt,
media del grupo de intervención es .70 unidades de desviación estándar por 1996b). Un intervalo de confianza proporciona un rango de valores y
arriba de la media del grupo control. Las dos distribuciones son diferentes. refleja la probabilidad de que el TE en la población caiga dentro de un
rango particular. Los valores comunes usados para los intervalos de
confianza son 95% o 99%, paralelos a los criterios estadísticos de alfa de
TABLA 14.2 Conversiones simples para cambiar de las pruebas de .05 y .01. La fórmula para computar los intervalos de confianza (IC) es:
significancia estadística a la magnitud de la relación o tamaño del efecto
Cls = m + ZαSm

donde m = puntaje de la media, Zα = el valor de puntuación z (dos sea la diferencia.

colas) bajo la curva normal, dependiendo del nivel de confianza (por
ejemplo, z = 1.96 y 2.58 para p = .05 y p = .01, respectivamente), y Sm Metanálisis
es el error estándar de la medición. El error estándar no es la
desviación estándar de la muestra, sino más bien la desviación dividida Para los estudios individuales, el TE y los intervalos de confianza
entre la raíz cuadrada de N(Sm = S/ √N). Para proporcionar las proporcionan útiles estadísticas que han sido propuestas para remplazar
estimaciones inferiores y superiores del intervalo de confianza para el o completar las pruebas estadísticas. La ventaja se extiende más allá de
intervalo de 95%, la z– 1.96 y + 1.96, respectivamente, se multiplica un estudio específico. El metanálisis es una extensión del uso del TE
por el 5m. para evaluar múltiples estudios. Como se mencionó con anterioridad, el
metanálisis es una metodología o análisis secundarios en los cuales se
Los intervalos de confianza proporcionan un rango de los valores combinan y se evalúan múltiples estudios. El metanálisis tiene muchos
dentro de los cuales es probable que las verdaderas diferencias entre propósitos, uno de los cuales es permitir una evaluación cuantitativa
los grupos no sean reales. Aunque el intervalo es un rango, también (revisión) de la literatura. En relación con el presente análisis, el
incluye la información que se obtiene de una prueba de significancia metanálisis sirve como método para contribuir a la base de conocimientos
estadística, porque los valores z que se usaron para las pruebas de más en general. El método permite combinar varios estudios, Pero en el
significancia (puntuación z de 1.96 para p = .05) se usan para formar proceso logra mucho más que simplemente proporcionar una revisión de
los intervalos de confianza inferiores y superiores. El tamaño del efecto éstos. Demos aprendido que se tiene que interpretar con mucho cuidado
proporciona un punto estimado de las diferencias entre los grupos en cualquier estudio individual. El muestreo por sí solo podría significar que
unidades de desviación estándar; los intervalos de confianza los resultados no son representativos del valor real de la población (o
proporcionan la misma métrica por encima y por debajo de esa media. diferencia). También, las características de un estudio específico
Además, los datos pueden presentarse fácilmente en términos de la (muestra, geografía, forma en que se manipuló la intervención y medidas
unidad de medida original (puntuaciones totales, puntos de CI) de específicas usadas) incrementan las amenazas a la validez externa, es
modo que sean más fácilmente interpretables. Así, la sección m1 – m2 decir, el grado en el que los resultados pudieran generalizarse.
de la fórmula del TE, es la diferencia en la unidad de medida de la
escala original (no unidades de desviación estándar); los intervalos de Los metanálisis combinan muy diferentes TE y muchos estudios
confianza también se pueden presentar en esta métrica original. Así, se diferentes; de aquí que pueden proporcionar una mejor estimación de los
pudiera afirmar, por ejemplo, que en un estudio de psicoterapia, el parámetros de la población. Inclusive pueden hacerse preguntas de la
tratamiento A fue mejor que el tratamiento B con un TE = .70, con literatura, que un estudio específico no puede proporcionar fácilmente.
IC95%:.35, 1.05. Esto significa que podemos estar 95% seguros de que Por ejemplo, en el metanálisis en una investigación en psicoterapia, los
el TE que obtuvimos cae dentro del rango de .35 a 1.05. De manera investigadores analizan si el tratamiento es más efectivo (los TE son más
alternativa, los mismos datos pueden presentarse como una diferencia grandes en las comparaciones tratamiento versus sin tratamiento) en
promedio (es decir, las diferencias de las puntuaciones entre los relación con la experiencia del terapeuta, edad de los sujetos, tipos de
grupos 1 y 2 en alguna escala de síntomas) como 15 puntos con (por problemas para los cuales fueron referidos los sujetos para tratamiento y
ejemplo) un IC95%: 10, 20 puntos en esa medida del síntoma. Ambos la calidad metodológica del estudio (Brown, 1987; Shadish y Ragsdale,
son equivalentes. El TE en unidades de desviación estándar es 1996; Welsz y Weiss, 1993). Estas preguntas no se hicieron en las
fácilmente interpretable en términos de la fuerza del efecto (como en investigaciones originales. Sin embargo, en muchos estudios, cada uno
las recomendaciones de Cohen para efectos pequeños, medianos y de éstos puede ser codificado con nuevas variables de interés. Los
grandes); diferencia promedio presentada en la medición original de tamaños del efecto llegan a ser la variable dependiente de las nuevas
las puntuaciones como con los intervalos de confianza, representa a preguntas que se hacen a la investigación. Así, el metanálisis va más allá
aquellas que le son comunes a la medición exactamente tan grande de describir una literatura dada y puede usarse para examinar preguntas

y probar explicaciones de la literatura que no surgieron en las de significancia, su uso y sus alternativas potenciales para la
investigaciones originales (Cook y cols., 1992). investigación (Schmidt, 1996a, 1996b). Es importante para los
investigadores estar familiarizados con la utilización tradicional de las
El uso del TE como partes de las investigaciones individuales facilita la pruebas de significancia estadística, pero también (por lo menos)
integración de los estudios en forma sistemática a través de los complementar la investigación con estadísticas adicionales que
metanálisis. El metanálisis, además de su habilidad para revisar la expresan la magnitud del efecto.
literatura de forma cuantitativa, nos permite tener- mejores estimaciones
de los efectos verdaderos (TE de la población) y el rango dentro del SIGNIFICANCIA CLÍNICA: EVALUACIÓN DE LOS EFECTOS
cual caen (intervalos de confianza de los TE). Esto es mucho más DE LA INTERVENCIÓN
valioso que las pruebas que buscan significancia estadística. Queremos
conocer el impacto de nuestras intervenciones y las diferencias que Un problema con la evaluación estadística, en especial con la
producen las variables específicas (en estudios de control de caso). Las investigación clínicamente relevante, es que se aparta de la pregunta
estimaciones de la magnitud del efecto o la fuerza de las relaciones sobre la importancia de la aplicación del resultado o de su efecto. Este
mediante alguna otra medida (TE, r) nos dan la información que problema es central para la investigación sobre la intervención o los
buscamos. Combinar las medidas en los estudios, como ilustraron los propósitos para cambiar el comportamiento o funcionamiento para la
metanálisis, no sólo nos permite proporcionar mejores estimaciones del aplicación de un fin, como se mostró en el tratamiento, la prevención, la
TE, sino que también nos permite usar la literatura para tratar nuevas educación y la rehabilitación. En tal investigación, aún se utilizan los
preguntas. métodos datoanalíticos usuales (por ejemplo, significancia estadística).
El criterio adicional es evaluar si las diferencias son clínicamente
Comentarios Generales significativas, es decir, establecen una diferencia la significancia clínica
se refiere al valor práctico o la importancia del efecto de una
No es claro si las pruebas de significancia estadística se consideran intervención, es decir, si produce alguna diferencia real para los
permanentes. En este punto, sabemos que existe continuamente en la pacientes o para otras personas en su funcionamiento y vida diaria.
literatura Comentarios negativos respecto al uso de las pruebas de
significancia y que recomiendan otras alternativas. No obstante, R. A. Es importante distinguir la significancia estadística y la fuerza del efecto
Fisher, a quien se le otorga el crédito de (o, dada la cambiante historia, de la significancia clínica. Esta última tiene que ver con un criterio
a quien se puede culpar por) iniciar la aplicación de las pruebas de basado en la probabilidad para juzgar si un efecto es confiable, pero
significancia estadística, recomendaba que los investigadores tiene poco que ver con la importancia práctica del efecto. La fuerza del
completaran sus pruebas de significancia con mediciones que mejoran efecto (TE, correlación) se relaciona con la magnitud del efecto
la asociación entre la variable independiente y la dependiente. En experimental, la cantidad de varianza compartida y otras medidas
efecto, nos gustaría saber más que si se puede rechazar una hipótesis similares. La fuerza de la relación puede ser fuerte o débil, dependiendo
nula; de hecho, en realidad puede no importarnos Is hipótesis nula, a de todo tipo de influencias (por ejemplo, variabilidad dentro del grupo).
partir de Comentarios (señalados previamente) de que esta nunca es Un efecto estadísticamente significativo y un TE grande pueden no tener
verdadera. También, queremos saber de nuestras hipótesis, es decir, nada que ver con la significancia clínica si la medida dependiente no se
el tamaño o magnitud de los efectos que estudiamos y si son relaciona con el desempeño de la vida diaria (por ejemplo, un tiempo de
importantes (muy fuertes). Actualmente se está considerando un nuevo reacción). También, puede haber un TE muy grande, por ejemplo, si en
enfoque dentro de la investigación psicológica para que se modifiquen un grupo de tratamiento todos bajan dos libras para la intervención todos
los criterios de uso de las pruebas de significancia a favor de los suben dos libras en el grupo control. Sin embargo, al final del estudio,
métodos señalados aquí. Por ejemplo, la Asociación Psicológica todos los participantes pueden estar todavía muy obesos. El tamaño del
Americana actualmente está considerando el problema de las pruebas efecto no expresa si han mejorado realmente el peso y el estado de

salud de alguien. En otras palabras, la significancia estadística, el TE Métodos De Comparación

(u otras magnitudes de las medidas del efecto) y la significación clínica
proporcionan diferente información acerca de los datos aunque todos
ellos son métodos cuantitativos de evaluación de los resultados. Al final del tratamiento puede compararse al paciente con algún otro
estándar para determinar si el cambio es clínicamente significativo. Se
El alcance de la evaluación clínica o aplicada del cambio es que han utilizado diferentes métodos con base en comparaciones normativas
generalmente se usa como complemento para los métodos estadísticos o ipsativas (subjetivas). Las comparaciones normativas se refieren a
para determinar si las diferencias entre los grupos o los cambios a lo comparar el rendimiento de la persona con el rendimiento de otros; las
largo del tiempo son confiables. Una vez que la claridad de los cambios comparaciones ipsativas se refieren a comparar al individuo con él
sean evidentes, se intenta cuantificar si el tratamiento ha cambiado al mismo. Considere los métodos de comparación empleados con mayor
paciente en forma considerable en relación con su funcionamiento frecuencia.
adecuado, es decir, si el cambio es significativo. En algunos casos, uno
puede inferir fácilmente si el cambio lleva al paciente a un Muestras normativas. La pregunta tratada por este método es ¿en qué
funcionamiento adaptativo. Por ejemplo, la conducta de autolastimarse grado quedan los pacientes después de completar el tratamiento (o
(golpearse la cabeza) puede presentarse en un alto porcentaje en un alguna otra intervención) dentro del rango normativo del rendimiento?
niño autista, tal vez 100 autogolpes por hora durante un periodo de Antes del tratamiento, los pacientes tal vez se desviarían
observación. La reducción a 50 golpes por hora es impresionante, pero considerablemente de sus compañeros que funcionan bien en las
probablemente no sería considerada como clínicamente significativa. medidas y en la característica que llevó a su selección (por ejemplo,
Sin una mayor reducción o eliminación total de la conducta, el paciente ansiedad, depresión o retraimiento social). Demostrar después del
todavía puede experimentar un daño severo. La eliminación virtual, si tratamiento que estas mismas personas no se distinguían de o dentro del
no es que total de la conducta de autolastimarse, se requeriría para rango de una muestra normativa o que funcionen bien en las mediciones
efectuar un cambio clínicamente significativo. de interés, seria una definición razonable de un cambio clínicamente
importante (Kazdin, 1977; Kendall y Grove, 1988). Para utilizar este
En muchos casos, la presencia o ausencia de una conducta al final del criterio, se hace una comparación entre los pacientes tratados y otros
tratamiento no es necesariamente el criterio para decidir si se logró un sujetos que funcionan bien o que no tienen problemas significativos en su
cambio importante. El grado de cambio y el impacto de éste es vida diaria. Esto requiere que las medidas usadas en el estudio tengan
relevante para decidir la significancia clínica. Por ejemplo, en el dates normativos a su favor y que se basen en muestras de población
tratamiento de la obesidad, una disminución promedio de 50 libras para general (no pacientes).
los sujetos podría parecer un cambio clínicamente importante. Sin
embargo, que el cambio tenga impacto (sobre la salud, el Como un ejemplo típico, uno de nuestros propios estudios evaluaba los
funcionamiento diario) puede depender del peso inicial de los sujetos tratamientos para Los niños agresivos y antisociales de edades de siete a
que participaron (por ejemplo, peso promedio 500 o 600 libras versus 13 años (Kazdin y cols., 1992). Se examinó la efectividad de tres
peso promedio de 200 libras). Así, simplemente evaluar el nivel, condiciones, incluyendo la capacitación en habilidades de resolución de
absoluto del cambio no es siempre suficiente para determinar si la problemas (CHRP), capacitación para el manejo paterno (CMP), y CHRP
diferencia o el cambio realmente tuvo una variación. Se han elaborado + CMP. Se utilizaron dos mediciones de los resultados para los tres
varios métodos para evaluar la significancia clínica de los efectos del grupos antes, después del tratamiento, y un seguimiento de un año
tratamiento. Cada método se basa en la evaluación cuantitativa para (figura 14.2). Las mediciones fueron las versiones completas de padre y
tomar la decisión acerca del significado del cambio. Se pueden delimitar maestro de la Lista de revisión de la conducta infantil (Achenbach, 1991),
tres grandes estrategias: métodos de comparación, evaluación subjetiva que evalúa un amplio rango de problemas emocionales y conductuales.
e impacto social (Jacobson y Truax, 1991; Kazdin, 1977; Wolf, 1978). Una gran cantidad de datos normativos (de niños de la comunidad, no

referidos) de niños y niños dentro del grupo de edad se encuentra puntuaciones originales de los casos disfuncionales. ¿Cuánto es
disponible. Estos datos han indicado que la puntuación en el percentil "marcadamente" en un cambio? Por supuesto, no hay justificación lógica
90 sobre los síntomas globales (totales) es la puntuación que mejor para la respuesta. Alejarse dos desviaciones estándar de la media de la
distingue a las muestras clínicas de las muestras de la población muestra disfuncional es un criterio propuesto para delimitar dicha
general de niños. En los resultados del tratamiento marcados en la magnitud de cambio como clínicamente significativo (Jacobson y
figura 14.2, se usaron las puntuaciones en este percentil de jóvenes de Revensdorf, 1988). Así, después del tratamiento, se consideraría que los
la población general para definir el límite superior del rango normal de individuos cuyas puntuaciones se alejan por lo menos dos desviaciones
problemas emocionales y conductuales. Se definió el cambio estándar de la media del grupo disfuncional (casos no tratados con
clínicamente significativo como si las puntuaciones de los niños cayeran disfunción demostrada) han cambiado de manera importante.
por debajo de este límite, es decir, dentro del rango normativo.
La figura 14.2 muestra que las puntuaciones de los niños estaban muy
por encima de este rango antes del tratamiento en las medidas de los
padres (gráfica izquierda) y maestro (gráfica derecha). Cada grupo se
aproximaba o quedaba dentro del rango normal después del
tratamiento, aunque respecto al tratamiento combinado fue superior.
Los resultados en la figura 14.2 proporcionan las medias del grupo
(rendimiento promedio de cada grupo). También puede calcularse
cuántos individuos caen dentro del rango normativo al final del
tratamiento. En este ejemplo, para las medidas basadas en los padres,
los resultados después del tratamiento indicaban que 33, 39 y 64%, de
los jóvenes de CHIRP, CMP, y el tratamiento combinado,
respectivamente, quedaban dentro del rango normal. Estos porcentajes
son diferentes (estadísticamente significativos) y sugieren la FIGURA 14.2 Puntuaciones promedio (puntuaciones T) para la Capacitación en
superioridad del tratamiento combinado aunque en el porcentaje de habilidades de resolución de problemas (GRP), Capacitación del manejo paterno
jóvenes reportaron un funcionamiento por debajo de los niveles norma- (CMP') y combinación de ambos (CHRP + CMF) para el total de las escalas de
tivos. Los resultados resaltan la importancia de evaluar la significancia problemas de conducta de la Lista de revisión de la conducta infantil (LRCI,
clínica. En este estudio, aún con cambios estadísticamente grafica izquierda) y la Lista de revisión del reporte del maestro sobre la
significativos dentro de los grupos y las diferencias entre los grupos, Los conducta infantil (LRMCI-FRM, grafica derecha). La línea horizontal refleja el
datos refieren que la mayoría de los jóvenes que recibió tratamiento límite superior del rango no clínico (normal) de nidos de la misma edad y sexo.
seguía cayendo fuera del rango normativo de sus compañeros no Las puntuaciones debajo de esa línea caen dentro del rango normal.
referidos clínicamente. Fuente: Kazdin, A.E., Sieget, T. y Bass, D. (1992) "Capacitación en habilidades
cognitivas de resolución de problemas y capacitación del manejo paterno en el
Muestras disfuncionales. Otro método para definir la significancia tratamiento de la conducta antisocial en los niños", en Journai of consutting and
clínica es utilizar una muestra disfuncional para comparar. La idea es ciinicai psychoiogy, 60, 733-747. Reproducido con permiso.
que, en un estudio sobre el tratamiento, se podría considerar que todos
los sujetos pertenecen a una muestra disfuncional (considerando que el En principio, este criterio parece similar al utilizado para la significancia
propósito de la admisión y selección era identificar tal muestra). AI final estadística ordinaria, es decir, una comparación de dos grupos con el
del tratamiento, si se realiza un cambio clínicamente importante, las mismo problema; un grupo se trata; el otro, no. Sin embargo, se recurre al
puntuaciones de los pacientes deberían desviarse marcadamente de las criterio de significancia clínica en relación con el comportamiento
individual de los pacientes. El cambio clínicamente significativo se evalúa

con respecto a si un determinado paciente se aleja dos desviaciones evaluación, pero si están disponibles se puede evaluar la significancia
estándar al hacer un cambio y con respecto al porcentaje de individuos clínica del cambio evaluando si la conducta del paciente corresponde a
que lo hacen dentro de una condición experimental dada. Para ser niveles normativos, se aleja de los niveles disfuncionales y está más
considerados clínicamente significativos, los cambios deben reflejar un cerca del nivel normativo (media) que del nivel disfuncional.
alejamiento de la muestra desviada en dirección de una disminución de
los síntomas o un aumento en el funcionamiento prosocial. ¿Por qué un El criterio diagnóstico ya no se cumple. Otra forma en que se evalúa la
criterio de dos desviaciones estándar? Primero, si el individuo está a significancia clínica es evaluar si la categoría diagnóstica del individuo ha
dos desviaciones estándar de distancia de la media del grupo original, cambiado con el tratamiento. En muchos estudios sobre el tratamiento,
esto sugiere que no está representado por la media y distribución de la los individuos son admitidos y seleccionados si cumplen los criterios de
cual se sacó dicha muestra; en efecto, dos desviaciones estándar sobre un diagnóstico psiquiátrico. Los que tienen un diagnóstico se incluyen en
la media reflejan el percentil 98. Segundo, dos desviaciones estándar se el estudio y se asignan a varias condiciones control y de tratamiento. Una
aproximan al criterio usado para la significancia estadística cuando se medida de la significancia clínica es determinar si el individuo, al final del
comparan los grupos (1.96 desviaciones estándar para una prueba t de tratamiento, sigue cumpliendo los criterios de los diagnósticos originales
dos colas que compara grupos para el nivel de significancia p < .05). (u otros). Probablemente, si el tratamiento ha logrado un cambio
suficiente, el individuo ya no cumple los criterios para el diagnóstico. A
veces esto se refiere a mostrar que el individuo se ha recuperado. Por
Por ejemplo, un estudio del tratamiento de la depresión entre adultos ejemplo, en un estudio, los adolescentes que cumplen los criterios de
comparaba dos variaciones de estrategias de resolución de problemas diagnóstico psiquiátrico para la depresión clínica fueron asignados a uno
(Nezu y Perri, 1989). Para evaluar la significancia clínica del cambio, los de tres grupos: tratamiento para el adolescente, tratamiento para el
investigadores examinaban la proporción de casos en cada grupo cuya adolescente y sus padres o la condición en lista de espera (Lewinshon,
puntuación en las medidas de la depresión caía dos o más desviaciones Clarke, Hops y Andrews, 1990). Al final del tratamiento, 57 y 52% de los
estándar por debajo (es decir, menos deprimidos) de la media de la casos en los dos grupos de tratamiento, respectivamente, y 95% de los
muestra no tratada. Por ejemplo, en una medida (el inventario Beck de casos en el grupo control seguían cumpliendo los criterios diagnósticos
la Depresión), 85.7% de los sujetos que recibió la condición completa para la depresión. Es evidente que el tratamiento fue efectivo de manera
de resolución de problemas logró este nivel de cambio. En contraste, importante.
50% de los sujetos que recibió la condición abreviada de resolución de
problemas logró este nivel de cambio. El tratamiento más efectivo llevó Hay algo de atractivo en mostrar que, después del tratamiento, el
a un cambio clínicamente significativo para la mayoría de los sujetos, individuo ya no cumple los criterios diagnósticos para el trastorno que se
por supuesto, un tratamiento era mejor que el otro en esta conside- trato. Sugiere que la condición (problema o trastorno) ha desaparecido o
ración. Las comparaciones añaden información importante acerca del "cuando". Si un efecto dramático del tratamiento actual del virus de
impacto del tratamiento. inmunodeficiencia humana (VIH) es que la combinación de medicinas
parece eliminar el virus de modo que ya no se detecte; entonces, el
Para muchas medidas que se utilizan en la evaluación del tratamiento u individuo no presentará más el diagnóstico (Halter, 1996). Sin embargo,
otras intervenciones, los datos normativos que podrían servir de criterio en psiquiatría y psicología, no cumplir los criterios del diagnóstico de m
para evaluar la significancia clínica o no existen o son insuficientes trastorno) (por ejemplo, la depresión) puede lograrse mostrando un
(muchos no se aplican al grupo que se estudia). Es decir, no podemos cambio en sólo uno o dos síntomas. También, sabemos que con algunos
saber realmente al final del tratamiento si los sujetos quedan dentro de diagnósticos (como la depresión, trastorno de conducta), (estar por
un rango normativo. En estos casos, es útil evaluar el grado al cual los debajo del nivel para cumplir el criterio diagnóstico no significa que el
individuos han hecho un cambio que los desvía de la media de una individuo está libre de problemas. Los individuos que no cumplen lo
muestra disfuncional. Los datos normativos no se requieren para esta suficiente con los criterios para el diagnóstico, pero están cerca, aún

pueden tener problemas actuales y duraderos (Gotlib, Lewinsohn y rango normativo es un objetivo cuestionable. Considere, por ejemplo, las
Seeley, 1995; Offord y cols., 1992). El trastorno no define ni por arriba habilidades para la lectura en los niños de primaria. Un cambio
ni por debajo del punto límite de corte para especificar el punto en el clínicamente significativo podría ser cambiar de posición a los niños con
cual principia y termina la disfunción clínica, el daño o un mal disfunción en la lectura, de modo) que caigan dentro del rango normal.
pronóstico. Mostrar que un individuo ya no cumple con los criterios de Sin embargo, tal vez el rango normal por sí mismo no debería verse come
un diagnóstico es informativo en la medida que los criterios un objetivo incuestionable La lectura de la mayoría de los niños podría
diagnósticos se convierten en una manera significativa de comunicarse incrementarse por los niveles normativos actuales. Así, los mismos datos
acerca de la disfunción y los índices de ésta. normativos necesitan ser considerados. Sería más drástico ubicar a los
jóvenes que abusan de las drogas y del alcohol en un nivel igual al de
Problemas y consideraciones. Los métodos de comparación jóvenes funcionales. En algunos grupos, estos podrían estar involucrán-
presentan varios problemas. Una pregunta inicial es ¿quién debería dose en un nivel de conducta desviada, que es potencialmente
servir de grupo normativo cuando éste se una como la base para desadaptada.
decidir la significancia clínica? Por ejemplo, con quién deben
compararse los pacientes con retraso mental, psiquiátricos crónicos o Finalmente, es muy probable que el rendimiento caiga dentro del rango
prisioneros, al evaluar el tratamiento o los programas de rehabilitación? normativo o Se salga marcadamente de un grupo desviado, pero no
Desarrollar niveles normales de comportamiento podría ser un ideal refleje de qué manera está funcionando el individuo en la vida diaria. Las
poco realista en el tratamiento si el nivel se basa en individuos que medidas de lápiz y papel, los cuestionarios, las entrevistas y otras
están funcionando bien en una, población general. También, ¿Cómo se medidas frecuentemente usadas pueden no reflejar el funcionamiento
define una población normativa? Sabemos, por ejemplo, que una adaptativo de un individuo dada. Hasta en las medidas con niveles
muestra normativa, es decir, los individuos en la comunidad no elevados de validez establecidos, el rendimiento en sí de un individuo no
involucrados en el tratamiento y los "normales" seleccionados para significa que esté feliz, que le vaya bien o que se adapte en diferentes
investigación, pueden tener altos porcentajes (20-50%) de esferas de la vida.
psicopatología actual o de por vida y disfunción clínica (Halbreich y
cols, 1989; Kruesi, Lenane, Hibbs y Major, 1990; Robins y cols., 1984), Evaluación Subjetiva
Así, puede haber mucho de conductas disfuncionales en el grupo que
serviría como base para la comparación. También, las tasas de
disfunción y los patrones de síntomas varían en función de la clase El método de evaluación subjetivas se refiere a determinar la importancia
social, el grupo étnico y la cultura. Formar un grupo normativo del cambio de conducta en el paciente evaluando las opiniones de los
probablemente debiera tomar en cuenta tales factores, individuos que es probable que tengan contacto con el paciente o que
sean expertos (Wolf, 1978). La pregunta que trata este método de
Aun si un grupo normativo puede identificarse exactamente, qué rango evaluación es si los cambios han llevado a diferencias en que ven los
de sus conductas se definirían dentro del nivel normativo? Entre los cambios los pacientes y las demás personas. dos puntos de vista de
individuos cuyas conductas no se identifican como problemáticas habrá otros son relevantes porque la gente en la vida diaria a menudo tiene m
un rango de conductas aceptables, Definir los límites superior e inferior papel fundamental para poder identificar, definir y responder a las
de ese rango (por ejemplo, ± 1 desviación estándar) es algo arbitrario a personas que consideran disfuncionales o desviadas. Las evaluaciones
menos que los valores muestren que los datos por arriba o por debajo subjetivas permiten la evaluación del grado en el que otras personas
de un límite particular tengan diferentes consecuencias a largo o a pueden identificar los efectos de una intervención, sin considerar si es
corto plazos sobre otras mediciones de interés (hospitalización o estadísticamente significativa en las mediciones de los resultados
mostrar otro trastorno). iniciales.
Para muchas medidas que interesan, ubicar a los individuos dentro del

Considere el caso de Steven, un estudiante universitario que deseaba después de dejar el tratamiento. La evaluación subjetiva es relevante
tratamiento para eliminar dos tics musculares (movimientos como criterio.
incontrolados) (Wright y Miltenberger, 1987). Los tics implicaban
movimientos de la cabeza y el excesivo levantamiento de las cejas. Se Problemas y consideraciones. Las escalas de índices globales son
realizaron sesiones de tratamiento individuales en las que Steven fue usualmente la base para obtener evaluaciones subjetivas. Estas escalas
capacitado para controlar e identificar cuando ocurrían los tics y estar son consideradas sospechosas porque son más fácilmente susceptibles
más consciente de su aparición en general. Además, el monitoreada los a sesgos por parte de los evaluadores que los cuestionarios y
tics a lo largo del día. Se realizaron sesiones de evaluación en las que entrevistas o las observaciones directas en las cuales los reactivos son
Steven leía en la clínica o en la biblioteca de la universidad y los más concretos y dirigidos a descripciones más claras. Como las
observadores registraban los tics. Los procedimientos de capacitación evaluaciones son globales en lugar de concretas, probablemente
de autocontrol y de autoconocimiento se evaluaron en un diseño de resultan muy variables (que tengan diferentes significados e
línea base múltiple, en el cual el tic declinaba en la frecuencia conforme interpretaciones) entre los que responden. También, es probable que
se aplicaba el tratamiento. las evaluaciones subjetivas, ya sea que las realicen los pacientes u otros
en contacto con ellos, sean poco específicas en la habilidad para
Una pregunta central es si la reducción fue muy importante o había
distinguir entre los diferentes tratamientos.
alguna diferencia, ya sea para Steven o para otros. Al final del
tratamiento, las respuestas de Steven a un cuestionario indicaban que
El hecho de que el paciente o las personas asociadas con éste
ya no estaba molesto por los tics y que sentía que ya no eran muy
identifiquen una diferencia en la conducta en función del tratamiento del
evidentes para otras personas. Además, cuatro observadores
paciente no significa que éste ha cambiado o ha cambiado mucho. Las
calificaron cintas de vídeo de Steven seleccionadas al azar sin saber
personas en contacto con él pueden percibir un pequeño cambio e
cuáles cintas precedían y cuáles eran posteriores al tratamiento. Los
informar esto en sus puntuaciones. Pero esto no necesariamente signi-
observadores puntuaron los tics de las cintas posteriores al tratamiento
fica que el tratamiento haya aliviado el problema para el cual se buscó
como poco evidentes, de normales a muy normales en apariencia y de
tratamiento o haya llevado al paciente dentro de los niveles de conducta
pequeñas a muy pequeñas en magnitud. En contraste, habían
normativos.
calificado los tics en las cintas anteriores al tratamiento como mucho
más severas en estas dimensiones. Luego se informó a los
En general, deben tratarse con cuidado las evaluaciones subjetivas; es
observadores cuáles eran las cintas posteriores al tratamiento y se les
posible que éstas reflejen cambios cuando otras medidas del cambio no
pidió que reportaran qué tan satisfechos estarían si hubieran logrado
lo hacen. Las evaluaciones subjetivas son extremadamente limitadas y
los mismos resultados que Steven. Todos los observadores informaron
de valor poco claro como medida única o inicial de los resultados en la
que habrían estado satisfechos con los resultados del tratamiento. Las
mayoría de las disfunciones clínicas. Sin embargo, como datos
evaluaciones de Steven y los observadores independientes ayudan a
complementarios, las puntuaciones subjetivas pueden proporcionar
verificar la importancia de los cambios; es decir, hicieron una diferencia
información relevante respecto a la manera en que puede ser el
para el paciente y para otros.
problema y el grado de cambio. En realidad sí hay una diferencia en
cómo siente y piensa la gente y si el tratamiento hace a la gente
La evaluación subjetiva es obviamente importante. Si el tratamiento
experimentar la vida mejor que antes del tratamiento. (También, nos
está funcionando y tiene un impacto importante, los efectos deberían
gustaría que los efectos no resultaran simplemente de la regresión
hacer una diferencia perceptible a los mismos pacientes y con los que
estadística.) La evaluación subjetiva se diseña para complementar otras
interactúan. Las opiniones de otros que están en contacto con el
medidas y tratar estos problemas mayores.
paciente son importantes como criterio por su propio derecho, porque
con frecuencia sirven de base para buscar el tratamiento en primer
lugar, y también reflejan las evaluaciones que el paciente encontrará

Medidas Del Impacto Social el costo no es una medida auxiliar para los consumidores de la
investigación.
Otro tipo de medida que ayuda a evaluar la importancia clínica o
aplicada de los resultados del tratamiento es ver si las medidas del Problemas y consideraciones. Las medidas del impacto social son por
impacto social se han alterado. Las medidas del impacto social se definición muy importantes y proporcionan un puente de nuestra
refieren a resultados valorados en la vida diaria que son importantes investigación hasta las personas que buscamos ayudar. En muchas
para la sociedad en general. Índices de arresto, vagancia, manejar panes de nuestra investigación nos estamos hablando a nosotros
intoxicado, enfermedad, hospitalización y muerte, son ejemplos mismos, incluso en áreas (por ejemplo, psicoterapia o evaluación de la
primordiales de las medidas del impacto social. Los interesados en un psicopatología) en las que el tema tiene implicaciones muy directas para
tratamiento (personas que piden o pagan tratamiento) a menudo el público en general. En consecuencia, como medida de los efectos de la
consideran tales medidas "el meollo del asunto". A menudo estas intervención, se recomienda considerar una batería medidas del impacto
medidas son más significativas e interpretativas para el público en social.
general y para las personas que influyen en la política, que las medidas Las medidas del impacto social tienen una cantidad de riesgos por lo que
psicológicas usuales. AI final del tratamiento, los psicólogos pueden se debe considerar con precaución su interpretación. Las medidas (por
entusiasmarse al mostrar que se reflejaron cambios en efectos ejemplo, calificaciones de la escuela, porcentajes de crimen y desgracias)
altamente significativos sobre las medidas psicológicas (por ejemplo, con frecuencia son insensibles como medidas de los efectos de la
MMPI-2, el inventario Beck de la Depresión). Sin embargo, ¿qué intervención. Son medidas burdas y están sujetas a una variedad de otras
significa esto en realidad? Para el público, los efectos son más daros si influencias no asociadas con la intervención y la investigación. Dicho de
podemos decir que como resultado del tratamiento se perdieron menos forma más precisa, el error en las medidas puede ser relativamente alto.
días de trabajo, se hicieron menos visitas al doctor por problemas de El error al azar puede provenir de variaciones en qué tan
salud o hubo menos suicidios como resultado del tratamiento. consistentemente se registran las medidas, como en el caso de muchos
registros de archivos (ir a la escuela y registros en las oficinas públicas).
Las medidas del impacto social se han usado a menudo en los estudios Damos por hecho que la mayoría de las medidas psicológicas tiene un
clínicos y aplicados. Por ejemplo, los programas de prevención método estandarizado de administración. Es muy probable que estas
frecuentemente se enfocan en los infantes o niños pequeños de medidas sean registradas y puntuadas algo fortuitamente a lo largo del
hogares en desventaja socioeconómica, que están en riesgo de tiempo, lo que puede afectar (variabilidad del error) los resultados. Los
problemas posteriores de salud mental y física (Lally, Mangione,y Honig, cambios en la economía (comúnmente recortes de presupuesto), las
1988; Schweinhart y Weikart, 1988). El seguimiento después de 10 a 20 políticas, procedimientos y personas responsables de los registros; todos
añas que los niños recibieron el programa mostró porcentajes altos de pueden operar de forma sistemática para influir en la confiabilidad y
asistencia a la escuela, de graduación de la secundaría, de empleo validez de los datos. También, puede introducirse el error por los cambios
posterior, porcentajes más bajos de arresto y confiabilidad en el sistemáticos en la forma en que se hace la puntuación de la medida
bienestar entre personas que recibieron la intervención, comparadas (instrumentación) a lo largo del tiempo.
con controles sin intervención. Estas medidas y resultados son
claramente significativas para la sociedad. Los obstáculos interpretativos y de evaluación pueden contaminar las
medidas del impacto social. Por ejemplo, el porcentaje de delito interesa
El costo es también una medida del impacto social. Aunque no es tanto a las intervenciones psicológicas como sociales. Primero, ¿Qué es
usualmente una medida de interés como constructo psicológico, es muy lo que realmente evalúa el porcentaje de delito, según lo miden los
importante mostrar que una intervención tiene impacto en el costo de la informes oficiales (Reportes uniformes del delito)? El delito se registra
atención. Efectivamente, el costo puede determinar la utilización de usualmente de manera jerárquica, lo que significa que cuando ocurre un
cierto tratamiento y su aprobación al nivel de las políticas. De aquí que, determinado delito, sólo se cuenta el peor delito (DiLulio, 1997. Por

ejemplo, en un determinado día, un delincuente puede violar a alguien, impacto social deriva de sus dos características más sobresalientes, es
robar un automóvil para huir y asaltar a la persona a quien le robó el decir, su alta credibilidad y sus propiedades psicométricas a menudo
auto. Esto se cuenta como un delito; se cuenta el peor delito (violación, pobres (por ejemplo, tipos alternativos de confiabilidad y validez). A
en este caso). De igual forma, si dos automóviles son robados la misma pesar de estas advertencias, los datos del impacto social pueden ser
noche y dos personas son golpeadas en el proceso, pero los incidentes muy útiles para ver si las mejoras identificadas en medidas psicológicas
fueron hechos por el mismo delincuente, esto se cuenta como un delito. específicas se reflejan directamente en las medidas de interés primario
En general, se cuenta el delito más grave, sólo ese delito es para los consumidores del tratamiento y para la sociedad en general.
considerado en un episodio dado y sólo una vez. Por tanto, el Cuando tales medidas muestran un cambio, expresan evidencia
porcentaje de delito no necesariamente refleja el número de delito, importante de que el impacto de la intervención fue socialmente
realizados o el número de víctimas. Mostrar un cambio en el porcentaje importante.
de delito podría ser importante, pero el significado de la medida no es
obvio para la mayoría de nosotros. Comentarios Generales
Otro problema es la instrumentación. Continuando con un ejemplo

sobre el porcentaje del delito, la mayor parte de los delitos No hay una sola manera de medir la significancia clínica o aplicada de
(aproximadamente 65%) no se reporta. El Departamento de Estadística los erectos de la intervención. En un proyecto determinado, las medidas
de Justicia do Estados Unidos realiza entrevistas anuales en los como la vagancia, el delito o los porcentajes de deserción escolar
domicilios para valorar los delitos, sin considerar si éstos fueron o no pueden incluirse como un asunto del curso, porque fueron los alicientes
reportados a la policía. La dificultad es que la encuesta (comenzada en para diseñar y evaluar la intervención. Otras medidas que no sean las
1973) ha cambiado a lo largo del tiempo; de ahí que haya grandes señaladas anteriormente también pudieran haber sido instrumentadas
cambios (incrementos) en los porcentajes del delito como función de los para evaluar la significancia clínica. No es difícil concebir otras maneras
cambios en el instrumento (DiLulio, 1997). Los cambios en los por- de operacionalizar la significancia clínica. Por ejemplo, en la
centajes nuevamente pueden reflejar los efectos de la intervención, los investigación de la terapia, las medidas de los síntomas se usan
cambios sociales, o la instrumentación en grados y combinaciones, comúnmente para evaluar la significancia clínica. Sin embargo, pueden
variables. Además de las estadísticas desconcertantes en el porcentaje evaluarse otros constructos, como la calidad de vida o el deterioro. Los
real de los delitos, los cambios de criterios para registrar los delitos cambios en las medidas de estos constructos, si son estadísticamente
añaden variabilidad a lo largo del tiempo. Puede ser difícil mostrar un significativos o su TE es grande, pudieran ser esfuerzos operacionales
efecto de la intervención sobreimpuesto a esa variabilidad, basta razonables para definir la significancia clínica porque las mismas
cuando hay un efecto verídico. medidas intentan reflejar la experiencia de la vida real.
Frecuentemente, las personas que no son investigadoras utilizan las Para todas las medidas de la significancia clínica, conviene hacer una
medidas del impacto social como una base para determinar el valor y la advertencia. Estas medidas son definidas principalmente por los
efectividad de un programa. Si la intervención no ha mostrado impacto investigadores, con excepción de las medidas del impacto social. Es
social, los medios o no investigadores a menudo lo considerar decir, las medidas son definiciones operacionales de lo que
evidencia de que la intervención no causa diferencias, no es consideramos bases razonables para decir que hubo impacto clínico
importante, o tal vez ha fracasado. Sin embargo, las medidas del importante. Sin embargo, se pueden reunir pocos datos para mostrar
impacto social necesitan evaluarse e interpretarse en forma minuciosa. que la definición que elegimos es tal que de hecho realiza una diferencia
La ausencia de cambio en tales medidas, dada la naturaleza misma de de alguna otra manera (más allá de nuestra medida) para el paciente en
muchas de ellas, puede no ser un índice adecuado, razonable o su vida diaria. Por ejemplo, podemos mostrar que en la medida de los
interpretable del efecto del programa. El peligro de las medidas del síntomas el paciente que está realizando su terapia está ahora dentro

del rango normativo o ha hecho un gran cambio (dos desviaciones nula (no hay diferencias) y determinar si las diferencias entre los grupos
estándar). ¿Está el individuo de manera palpable funcionando mejor en son estadísticamente significativas. Las pruebas estadísticas usan niveles
la vida diaria? Realmente no lo sabemos, porque las medidas de la de probabilidad para hacer este juicio y se basan primordialmente en la
significancia clínica no se han validado una contra la otra o contra otros preocupación de proteger un error de tipo I, es decir, rechazar la hipótesis
índices del funcionamiento (por ejemplo, desempeño en el trabajo, nula cuando esa hipótesis realmente es verdadera. Como la significancia
relaciones). estadística sigue siendo el criterio primario al evaluar los resultados de la
investigación, al investigador le interesa comprender cómo diseñar
Una dificultad para interpretar las medidas de significancia clínica es estudios que tienen una prueba razonable para demostrar diferencias
que no se han estudiado niveles determinados de comportamiento de cuando existan.
forma que podamos saber qué significan. Como modo de contraste,
considere las medidas dentro de la salad. Hay estándares Se analizaron problemas relevantes a la evaluación estadística,
relativamente bien aceptados para los niveles normativos y de salad incluyendo niveles de significancia, potencia, tamaño de la muestra,
sobre el peso, la hipertensión y el colesterol, aunque estos cambian pruebas de comparación múltiples, significancia y magnitud de los
con los avances en la investigación. Aun así, sabemos que hay riesgos erectos y datos multivariados. La potencia estadística ha recibido el
de mortalidad y morbilidad asociados con los diferentes niveles de mayor análisis en la investigación porque muestra más claramente la
peso, y sabemos que algunos niveles son claramente mucho mejores interrelación de alfa, el tamaño de la muestra y el tamaño del efecto. Las
que otros en relación con estos resultados. El ejemplo es menos claro evaluaciones de la investigación han mostrado repetidamente que la
para las medidas de la psicopatología, la adaptación y la personalidad, mayoría de los estudios se diseña de tal manera que tienen una potencia
porque los correlatos y los pronósticos a largo plazo asociados con una débil. La solución obvia para aumentar la potencia es aumentar el tamaño
puntuación particular no están bien comprendidos. Esto significa que de la muestra, aunque usualmente esto no es muy factible, en parte
es más difícil defender un resultado particular (cambio en dos porque con frecuencia se requiere añadir muchos sujetos en lugar de
desviaciones estándar) como criterio que realmente realiza una unos cuantos. Se analizaron estrategias alternativas, entre ellas
diferencia, es decir, es clínicamente significativo. minimizar alfa en circunstancias especiales, usar pruebas estadísticas
que aumentan la potencia, minimizar la variabilidad del error en todas las
A pesar de estas consideraciones, se estimula al lector a incluir una o
fases del experimento al grado que sea posible y considerar las
más medidas de la significancia clínica en cualquier estudio sobre
condiciones (por ejemplo, manipulaciones experimentales y qué grupos
intervención (Walker y cols., 1996). El propósito de esta adición es ir
incluir en el diseño) que maximizarán el tamaño del efecto obtenido.
más allá de la simple significancia estadística y también ayudar a
estimular la diseminación de los resultados. Es probable que éstos
Desde que surgieron las pruebas de significancia estadística, ha habido
tengan impacto en la sociedad en general al grado de que quienes no
una constante insatisfacción acerca de su utilidad para la investigación.
son investigadores puedan interpretarlos. En consecuencia, el uso de
Entre las muchas preocupaciones está la forma en que los
las medidas de significancia clínica avanzan el trabajo clínico al
investigadores malinterpretan la significancia estadística (no mide la
asegurar que se ha ayudado a los pacientes en un grado importante y
fuerza de un efecto o la probabilidad de la réplica), en que ésta confunde
también trata problemas más amplios pare la investigación al estimular
(la hipótesis nula nunca es verdadera y no tiene que ser comprobada),
la diseminación de los resultados.
nos da puntos límite arbitrarios para tomar decisiones binarias (aceptar o
rechazar la hipótesis nula) y, más importante, no proporciona la
RESUMEN Y CONCLUSIONES información crítica que nos gustaría (pruebas directas de nuestras
Las pruebas de significancia estadística son el método determinante hipótesis e información acerca de la fuerza de nuestras intervenciones).
para analizar los resultados de la investigación. En la mayoría de los Entre las recomendaciones ha habido consenso en que se deberían
casos, las pruebas estadísticas se realizan para comprobar la hipótesis proporcionar medidas de la fuerza o magnitud de la relación, al presentar

los resultados cuantitativos. Se analizó el tamaño del efecto y la

correlación producto-momento de Pearson, Pero hay muchas medidas
similares. Un punto estimado fue la probabilidad del efecto (tamaño del
efecto) y un rango de valores acerca de ese efecto (intervalos de
confianza) que proporcionarían información más útil para interpretar
nuestros estudios.
La significancia clínica se ha definido de muchas maneras. Se

analizaron tres estrategias generales que se han usado: métodos de
comparación, evaluación subjetiva y medidas del impacto social. Los
métodos de comparación usualmente demuestran cambio
clínicamente significativo, mostrando que el rendimiento de los
pacientes después del tratamiento cae dentro del rango de una
muestra normativa de comparación o se desvía marcadamente del
nivel de funcionamiento que caracteriza a la muestra que continúa
manifestando el problema para el cual se aplicó el tratamiento. El
método de evaluación subjetiva consiste en hacer que los mismos
pacientes o los individuos que están en contacto con éstos
proporcionen evaluaciones cualitativas del comportamiento. El método
del impacto social consiste en evaluar las intervenciones en las
medidas de interés directo para los consumidores y la sociedad en
general. Estos tres métodos tratan de maneras diferentes la
importancia y la magnitud del cambio de conducta para el funcio-
namiento del paciente y proporcionan criterios no disponibles en otras
formas de evaluación de los datos.


Kazdin 2001 MÃ©todos Estadã Sticos

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Kazdin 2001 MÃ©todos Estadã Sticos

Cargado por

Copyright:

Formatos disponibles

MÓDULO 0616- SEMINARIO DE INVESTIGACIÓN 1

PRUEBAS DE SIGNIFICANCIA Y LA HIPÓTESIS NULA...... 2

Para profundizar en este tipo de contenidos consulte la obra:

UNIDAD III MÉTODOS DE INVESTIGACIÓN.

UNIDAD III MÉTODOS DE INVESTIGACIÓN.

UNIDAD III MÉTODOS DE INVESTIGACIÓN.

UNIDAD III MÉTODOS DE INVESTIGACIÓN.

UNIDAD III MÉTODOS DE INVESTIGACIÓN.

UNIDAD III MÉTODOS DE INVESTIGACIÓN.

54 08 I8 34 53 73 87 95 98 que realizo. Diseñar una prueba potente es realmente importante

UNIDAD III MÉTODOS DE INVESTIGACIÓN.

UNIDAD III MÉTODOS DE INVESTIGACIÓN.

UNIDAD III MÉTODOS DE INVESTIGACIÓN.

del pretest es que con varios análisis se reducen las condiciones

UNIDAD III MÉTODOS DE INVESTIGACIÓN.

Existen algunas pruebas de comparación múltiple para tratar el

UNIDAD III MÉTODOS DE INVESTIGACIÓN.

UNIDAD III MÉTODOS DE INVESTIGACIÓN.

UNIDAD III MÉTODOS DE INVESTIGACIÓN.

Para profundizar en este tipo de contenidos consulte la obra:

UNIDAD III MÉTODOS DE INVESTIGACIÓN.

UNIDAD III MÉTODOS DE INVESTIGACIÓN.

UNIDAD III MÉTODOS DE INVESTIGACIÓN.

En lugar de (o además de) las pruebas de significancia estadística, seria

Para profundizar en este tipo de contenidos consulte la obra:

UNIDAD III MÉTODOS DE INVESTIGACIÓN.

Puede interpretarse un tamaño del efecto de .20, .50 0 .80, respecto a

FIGURA 14.1 Representación de un tamaño del efecto de .70 entre un grupo

UNIDAD III MÉTODOS DE INVESTIGACIÓN.

donde m = puntaje de la media, Zα = el valor de puntuación z (dos sea la diferencia.

UNIDAD III MÉTODOS DE INVESTIGACIÓN.

UNIDAD III MÉTODOS DE INVESTIGACIÓN.

salud de alguien. En otras palabras, la significancia estadística, el TE Métodos De Comparación

UNIDAD III MÉTODOS DE INVESTIGACIÓN.

UNIDAD III MÉTODOS DE INVESTIGACIÓN.

UNIDAD III MÉTODOS DE INVESTIGACIÓN.

UNIDAD III MÉTODOS DE INVESTIGACIÓN.

UNIDAD III MÉTODOS DE INVESTIGACIÓN.

UNIDAD III MÉTODOS DE INVESTIGACIÓN.

Otro problema es la instrumentación. Continuando con un ejemplo

UNIDAD III MÉTODOS DE INVESTIGACIÓN.

UNIDAD III MÉTODOS DE INVESTIGACIÓN.

los resultados cuantitativos. Se analizó el tamaño del efecto y la

La significancia clínica se ha definido de muchas maneras. Se

Para profundizar en este tipo de contenidos consulte la obra:

UNIDAD III MÉTODOS DE INVESTIGACIÓN.

También podría gustarte