Está en la página 1de 24

Boletín y revisión psiconómica

2009, 16 (4), 617-640


doi: 10.3758 / PBR.16.4.617

T HEORETICAL Y R EVIEW UN RTICULOS

¿Cuál es la probabilidad de replicar un


efecto estadísticamente significativo?

J EFF METRO ILLER


Universidad de Otago, Dunedin, Nueva Zelanda

Si un experimento inicial produce un efecto estadísticamente significativo, ¿cuál es la probabilidad de que este efecto se repita en un experimento de
seguimiento? Sostengo que esta pregunta aparentemente fundamental se puede interpretar de dos maneras muy diferentes y que su respuesta es, en la
práctica, virtualmente incognoscible bajo cualquiera de las interpretaciones. Aunque los datos de un experimento inicial se pueden usar para estimar un
tipo de probabilidad de replicación, esta estimación rara vez será lo suficientemente precisa como para ser de alguna utilidad. El otro tipo de probabilidad
de replicación también es incognoscible, porque depende de aspectos desconocidos del contexto de la investigación. Por lo tanto, aunque sería bueno
conocer la probabilidad de replicar un efecto significativo, los investigadores deben aceptar el hecho de que generalmente no pueden determinar esta
información.

Las teorías científicas se basan en fenómenos replicables (véanse, por En un estudio frecuentemente citado (por ejemplo, Cohen, 1994), Oakes (1986)
ejemplo, Falk, 1998; Guttman, 1977; Tukey, 1969; Wainer y Robinson, 2003). presentó a un grupo de 70 investigadores un escenario en el que una comparación
Ciencias con medida determinista de dos grupos resultó en una t prueba que fue significativa a nivel de pags . 01. Una
En este sentido, la idea de la replicación es simple: si dos investigadores miden el mayoría (60%) pensó que esto indicaba un 99% de posibilidades de un resultado
mismo fenómeno utilizando los mismos instrumentos y procedimientos, deberían significativo en un estudio de replicación, aunque este no es evidentemente el caso
obtener esencialmente los mismos resultados. Las cosas no son tan simples (Oakes, 1986; cf. Haller y Kraus, 2002). Más recientemente, otros han
cuando las mediciones están sujetas a variabilidad aleatoria debido a errores de documentado confusiones adicionales con respecto a lo que se puede esperar de
medición, diferencias individuales o ambos. En este caso, los efectos reales solo las réplicas (por ejemplo, Cumming, Williams y Fidler, 2004).
se replican con una cierta probabilidad, a menudo denominada "probabilidad de
replicación". Incluso cuando existe un efecto real, se deben esperar algunas fallas
de replicación como una de las desafortunadas consecuencias de la variabilidad. Debido a la importancia de la probabilidad de replicación y la confusión
que la rodea, artículos recientes en numerosas disciplinas han instado a los
investigadores a considerar la probabilidad de replicación con más cuidado
Para los investigadores que enfrentan la variabilidad aleatoria, es útil (por ejemplo, Cumming, 2008; Cumming y Maillardet, 2006; Gorroochurn,
comprender la naturaleza y los determinantes de la probabilidad de replicación Hodge, Heiman, Durner y Greenberg, 2007; Greenwald, González, Harris y
por al menos tres razones. En primer lugar, esta probabilidad es relevante para Guthrie, 1996; Killeen, 2005; Robinson y Levin, 1997; Sohn, 1998). A los
evaluar las implicaciones de resultados discrepantes ("¿Es este un efecto real investigadores se les han ofrecido fórmulas con las que calcular la
que por casualidad no se repitió, o el hallazgo inicial fue falso?"). En segundo probabilidad de replicar sus resultados actuales, y se les ha aconsejado
lugar, también es relevante cuando los investigadores quieren mostrar que un que informen las probabilidades de replicación resultantes, así como, o
efecto obtenido en una circunstancia desaparece en otra situación (por ejemplo, incluso con preferencia, medidas estadísticas más tradicionales (por
un experimento de control); la ausencia del efecto en la nueva situación solo es ejemplo, Greenwald et al., 1996; Killeen, 2005; ciencia psicológica consejo
diagnóstica si el experimento tuvo una alta probabilidad de replicar un efecto editorial, 2005).
verdadero. En tercer lugar, la probabilidad de replicación es relevante al planificar
una serie de experimentos (“¿Cuáles son las posibilidades de que vuelva a
obtener este efecto en experimentos futuros como este?”). En este artículo, considero más a fondo las preguntas sobre qué es la
probabilidad de replicación y qué factores la determinan, y defiendo dos tesis
principales. Una tesis es que hay dos significados bastante diferentes del
término "probabilidad de replicación", cada uno de los cuales podría ser de
Desafortunadamente, hay evidencia de que muchos investigadores interés para los investigadores en algunas circunstancias. Es importante
psicológicos no comprenden la probabilidad de replicación (ver, por ejemplo, tener claro qué significado se está considerando, cómo
Tversky y Kahneman, 1971). Por ejemplo, en

J. Miller, miller@psy.otago.ac.nz

617 © 2009 La Sociedad Psiconómica, Inc.


618 METRO ILLER

nunca, al discutir la probabilidad de replicación o al intentar estimarla, porque El procedimiento se elige de modo que la probabilidad de error de Tipo I tenga un
la confusión entre los dos tipos de probabilidad de replicación puede llevar a cierto valor predeterminado, generalmente establecido en . 05, como
conclusiones inapropiadas. La otra tesis es que, en la práctica, ninguna de ya mencionado — cuando la hipótesis nula es verdadera. Cuando la
estas probabilidades de replicación se puede estimar con precisión a partir de hipótesis nula es realmente falsa y alguna hipótesis alternativa es
los datos de un experimento inicial, por lo que ambos son esencialmente verdadera, la probabilidad de rechazar la hipótesis nula se denomina
incognoscibles. Además, la última tesis implica que, en general, los "potencia" del experimento y el símbolo de esta probabilidad es 1
investigadores no son aconsejables al resumir sus datos en términos de . Cor-
probabilidades de replicación estimadas, a pesar de la importancia de estas En respuesta, bajo una hipótesis alternativa particular, la probabilidad de que una
cantidades, porque las estimaciones que obtienen carecen prácticamente de hipótesis nula falsa sea retenida incorrectamente es. Como es bien sabido (para
sentido. una revisión, ver, por ejemplo, Cohen, 1992), el poder aumenta con el tamaño
real del efecto en estudio. 1 También aumenta con el tamaño de la muestra del
Este artículo comienza con una breve revisión del marco estándar de prueba experimento y con el nivel asociado con el procedimiento de prueba de hipótesis.
de hipótesis en el que a menudo surge la cuestión de la probabilidad de Aunque el tamaño de la muestra y el nivel de un experimento dado se pueden
replicación. Las siguientes secciones examinan en detalle los dos significados especificar con exactitud, el tamaño del efecto real nunca se conoce con
diferentes de “probabilidad de replicación”, cómo se puede estimar cada una de exactitud en la práctica, lo que excluye el cálculo directo de la potencia.
estas probabilidades y por qué las estimaciones no son muy precisas. La
Discusión General luego considera cómo las mismas distinciones conceptuales y
la incertidumbre de estimación se extienden al concepto de probabilidad de Los investigadores generalmente consideran que un efecto se ha replicado con
replicación dentro de otros enfoques inferenciales (por ejemplo, bayesiano). éxito si el efecto es estadísticamente significativo tanto en un estudio inicial como en
un estudio de seguimiento, con los resultados de ambos estudios en la misma
dirección (p. Ej., Media mayor para el grupo A que para el grupo B; Rosenthal,
1993). 2

ANTECEDENTES DE LA PRUEBA DE HIPÓTESIS


PAREJAS DE
Aunque el marco de las pruebas de significación de hipótesis nulas (NHST) "PROBABILIDAD DE REPLICACIÓN"
sigue siendo controvertido (véase, por ejemplo, Abelson, 1997; Cohen, 1994;
Kline, 2004; Loftus, 1996; Lykken, 1991; Oakes, 1986; Wagenmakers, 2007), Es útil distinguir entre dos significados legítimos pero bastante diferentes
incluso su los críticos reconocen que todavía es de uso común y que muchos de "probabilidad de replicación" que podrían ser de interés para los
de sus problemas provienen más de malentendidos y mal uso que de fallas investigadores en diferentes circunstancias. Ambos pueden definirse dentro
inherentes. Por lo tanto, la probabilidad de replicación se analiza aquí de un marco frecuentista. Una, que llamo probabilidad de replicación
principalmente dentro de este marco de prueba de hipótesis. Es importante "agregada", es la probabilidad de que los investigadores que obtengan
destacar que este artículo no debe considerarse como un argumento de que la resultados significativos en sus experimentos iniciales también obtengan
NHST es superior a las técnicas estadísticas alternativas (p. Ej., Intervalos de efectos significativos en experimentos de seguimiento idénticos. 3 Como se
confianza; cf. Cumming y Finch, 2005), aunque creo que la NHST es una de discutirá en detalle, este significado de probabilidad de replicación se aplica a
una amplia gama de técnicas que pueden ser útiles ser empleado, siempre que un gran grupo de investigadores que trabajan dentro de un contexto
se comprendan claramente sus puntos fuertes y limitaciones. experimental o teórico común, pero que prueban diferentes hipótesis nulas.
Se refiere a la proporción de réplicas exitosas en todas las diferentes
hipótesis nulas probadas. El otro significado, que llamo probabilidad de
replicación “individual”, es la proporción a largo plazo de resultados
Dentro del marco de prueba de hipótesis, los investigadores prueban significativos que obtendría un investigador en particular en réplicas exactas
un efecto significativo calculando la probabilidad, bajo la hipótesis nula, de del propio estudio inicial de ese investigador. Este significado se refiere a la
observar datos al menos tan discrepantes de las predicciones de la proporción de resultados significativos dentro de las réplicas exactas de un
hipótesis nula como los datos que realmente han observado. Rechazan la estudio inicial en particular (es decir, probar una única hipótesis nula), por lo
hipótesis nula si esta probabilidad calculada, a veces denominada "nivel que es específico para un investigador individual que prueba esa hipótesis
de significancia alcanzado" o " pags valor ”: es menor que un nivel alfa () nula, independientemente de otros investigadores que trabajen dentro del
de corte predeterminado que generalmente se elige mismo contexto. Aunque estas dos definiciones de probabilidad de
replicación pueden parecer casi equivalentes, son conceptualmente
. 05. Aunque algunos detalles de este pro- diferentes, como se desarrolla en el resto de esta sección. A menudo,
La ciencia y su fundamento difieren ligeramente entre las escuelas de también son numéricamente diferentes y la probabilidad de replicación
inferencia de Fisher y Neyman-Pearson (ver, por ejemplo, Batanero, 2000; agregada de un estudio dado puede ser mayor o menor que su probabilidad
Huberty y Pike, 1999), estas características comunes caracterizan el de replicación individual.
comportamiento de los investigadores en ejercicio, y las diferencias no son
importantes para el propósitos actuales (cf. Wainer & Robinson, 2003).

Como deberían saber todos los que utilizan pruebas de hipótesis, la


probabilidad de rechazar una hipótesis nula verdadera (es decir, de obtener un La Figura 1 ayuda a aclarar la distinción entre las probabilidades de replicación
resultado "estadísticamente significativo" por azar) se denomina "probabilidad de agregadas e individuales utilizando una línea de tiempo que representa un contexto
error de tipo I" o "nivel". En consecuencia, la probabilidad de una decisión correcta de investigación general en el que están trabajando muchos investigadores. Sobre la
para retener una hipótesis nula verdadera es 1 base de una teoría de trabajo, cada investigador primero elige al azar uno de los
. El programa de prueba de hipótesis muchos
PAGS ROBABILIDAD DE R EPLICACIÓN 619

Rechazar H 0 ( S 1). ¿Qué proporción de ellos también obtendrá un resultado significativo en un


experimento de seguimiento idéntico ( S 2)? Esta
1 probabilidad de replicación agregada, pags real academia de bellas artes, se puede calcular
Rechazar H 0
utilizando técnicas estándar para trabajar con condiciones

1 probabilidades (por ejemplo, Krueger, 2001), que también se utilizan para calcular la
H 0 Falso Conservar H 0
probabilidad de que una hipótesis nula rechazada sea realmente falsa (por ejemplo,
Ioannidis, 2005). En todos los investigadores que obtienen resultados iniciales
Conservar H 0
significativos, la probabilidad agregada de replicación es

Rechazar H 0
Pr ( Sde2 bellas
pags real academia | S 1) artes

1 /2 Pr ( S 2 yo S 1) / Pr ( S 1)
Rechazar H 0

Pr ( H 1) Pr ( S 2 yo yo S 1 | H 1) Pr ( H 0) Pr ( S 2 yo S 1 | H 0)
1 /2
H 0 Cierto Conservar H 0 Pr ( H 1) Pr ( S 1 | H 1)) Pr ( H 0) Pr ( S 1 | H 0)

1 (1 )
2
(1 ) /2
Conservar H 0 . (1)
Hora
(11 ) (1 )
Escoger H 0 Experimento inicial Experimento de seguimiento
Por ejemplo, con 0,2, 1 . 8, y . 05, el
Figura 1. Representación de la secuencia de eventos dentro de un contexto de investigación probabilidad de replicación agregada (es decir, la probabilidad condicional de
simple. Muchos investigadores llevan a cabo experimentos dentro de este contexto, y sus una replicación en un experimento de seguimiento,
experimentos se basan en una teoría de trabajo dado un resultado significativo en un experimento inicial) es pags real academia de bellas artes
utilizado para generar hipótesis nulas supuestamente falsas ( H 0 s). Cada investigador
Pr ( S 2 | S 1) . 645.
primero elige al azar uno de estos H 0 s para probar en un experimento inicial. Con
probabilidad, el elegido H 0 es de hecho
Sin embargo, tenga en cuenta que la Ecuación 1 no proporciona la proporción
falso como se predijo, y una hipótesis alternativa ( H 1) es cierto Con probabilidad 1 a largo plazo de replicaciones significativas que obtendrá cualquiera de los
, la H 0 es realmente cierto (es decir, la teoría hizo una investigadores individuales que trabajen en este contexto, por lo que no describe
predicción incorrecta). H 0 es falso, como se muestra en la mitad superior del la probabilidad de replicación individual. Para los investigadores que eligieron una
diagrama, se supone por simplicidad que el
hipótesis nula falsa, la probabilidad a largo plazo de una replicación (es decir, la
probabilidad de rechazar H 0 ( es decir, potencia experimental) es siempre la misma, Pr ( S 1 | H 0
falso) 1 , a pesar de H 0. ( Esto asciende probabilidad de replicación individual) es simplemente la ex-
al supuesto de que, dentro de este simple contexto de investigación, H 0 es falso en el
mismo grado siempre que sea falso.) Cuando el elegido poder perimental (es decir, pags Rhode Island 1 ). Para investigadores que
la hipótesis nula es verdadera (mitad inferior del diagrama), la probabilidad de rechazarla es
eligió una hipótesis nula verdadera, esta probabilidad es la mitad de la
Pr ( S 1 | H 0 cierto) . Finalmente, si la experiencia inicial
ment da como resultado el rechazo de H 0, el investigador realiza un experimento de
Tasa de error tipo I (es decir, pags Rhode Island / 2). En el ejemplo del
seguimiento para intentar replicar el efecto. La probabilidad de párrafo anterior, entonces, pags Rhode Island . 8 para algunos investigadores
replicación (es decir, de rechazar H 0 en la misma dirección que en el experimento inicial) es . 025 para otros investigadores, pero no es igual
y pags Rhode Island
de nuevo 1 para investigadores que inicialmente eligieron
Pr ( S de
pags real academia S 1) artes
2 | bellas . 645 para cualquiera de ellos. Por lo tanto, hay
una hipótesis nula falsa, y es / 2 para los investigadores que eligieron una hipótesis nula
dos valores diferentes de probabilidad de replicación individual en el escenario
verdadera.
que se muestra en la Figura 1, y ninguno de estos equivale a la probabilidad de
replicación agregada en todos los investigadores.
hipótesis nulas supuestamente falsas para una prueba experimental. En el
modelo simple que se muestra en esta figura, una hipótesis nula seleccionada Para hacer esta distinción más concretamente, consideremos nuevamente el
al azar es falsa con probabilidad y verdadera con probabilidad 1. Una vez ejemplo de 0,2, 1 . 8, y . 05. De
elegida la hipótesis nula, el investigador realiza un experimento inicial para 1.000 investigadores que trabajan en este contexto, 200 con-
probarla. Si la hipótesis nula es falsa, la probabilidad de un resultado experimentos de conductos en los que H 0 es falso y .8 200
significativo en el experimento inicial es la potencia experimental, 1 160 de estos obtienen resultados significativos (ignorando la variabilidad
binomial). Para cada uno de estos 160 investigadores, la probabilidad de
. Si la hipótesis nula es cierta, por otro lado, la probabilidad de un replicación individual es .8, es decir, el poder asociado con sus experimentos,
resultado significativo en el experimento inicial es. Finalmente, si los resultados porque esta es la probabilidad a largo plazo de obtener resultados
del experimento inicial son estadísticamente significativos, el investigador lleva significativos en experimentos de seguimiento idénticos. Por lo tanto, 128 de
a cabo un experimento de seguimiento para ver si el efecto se replica. Si la
los 160 deberían replicar con éxito sus hallazgos. Los otros 800 investigadores
hipótesis nula es falsa, la probabilidad de un resultado significativo en el
realizan experimentos en los que la hipótesis nula es verdadera, y solo .05
experimento de seguimiento es nuevamente la potencia experimental (es decir,
1
800 40 de estos obtienen importantes
). Si la hipótesis nula es cierta, la probabilidad de resultados. Para estos 40 investigadores que cometieron errores de Tipo I, la
una replicación significativa en el experimento de seguimiento es sólo / 2, porque la probabilidad de replicación individual es / 2 . 025, be-
mitad de los resultados significativos por azar irán en la dirección incorrecta (es porque la mitad de los resultados significativos irán en la dirección incorrecta, por
decir, opuesta al resultado inicial) en el experimento de seguimiento. lo que solo uno de los investigadores debería replicar el resultado inicial. La
probabilidad de replicación agregada de
Considere ahora a todos los investigadores que trabajan en este contexto. Pr ( S 2de| bellas
pags real academia S 1) artes . 645 es la probabilidad de una
texto que obtiene un efecto significativo en un experimento inicial da como resultado un experimento de seguimiento que se selecciona al azar
620 METRO ILLER

de entre los experimentos con resultados iniciales significativos [es decir, (128 La probabilidad de replicación depende únicamente del efecto particular que
1) / (160 40) .esto
645]. Tenga en cuenta que se está considerando.
La probabilidad es también el promedio ponderado de las probabilidades de Estos dos sentidos de "probabilidad de replicación" son relevantes para responder
replicación individuales entre los 200 investigadores que obtuvieron resultados diferentes preguntas. Un investigador que considere replicar un efecto observado
significativos en el experimento inicial (.8 160 previamente probablemente quiera saber acerca de la probabilidad a largo plazo de
. 025 40) / 200. Ahora, un investigador dado en este replicar ese efecto en particular, es decir, su probabilidad de replicación individual.
El escenario no tendría forma de saber si un efecto significativo obtenido Como discutiré en la sección Estimación de la probabilidad de replicación individual,
fue real o un error de Tipo I y, por lo tanto, podría decidir considerar esta se han sugerido técnicas para resumir los datos de un experimento inicial para
probabilidad de replicación agregada como una estimación de la estimar dichas probabilidades de replicación individual. La mayoría de estas técnicas
probabilidad de replicación individual de ese efecto. No obstante, debe simplemente ignoran la idea de que el experimento en consideración fue seleccionado
tenerse en cuenta que este valor en realidad refleja la probabilidad de un de un grupo más grande (por ejemplo, el escenario representado en la Figura 1). A
efecto significativo en las replicaciones de muchos experimentos diferencia de, el concepto de probabilidad de replicación agregada es relevante para
diferentes que prueban diferentes hipótesis nulas, no en muchas un investigador que se pregunta qué tan probable es que los resultados significativos
replicaciones diferentes de un solo experimento que prueba la misma en un área de investigación particular representen en realidad hallazgos espurios o
hipótesis nula que se probó inicialmente. Otra forma de aclarar la errores de Tipo I (por ejemplo, Oakes, 1986, Tabla 1.2.1). En este caso, la pregunta
distinción entre probabilidades de replicación individuales y agregadas es involucra a toda el área de investigación y debe responderse considerando la
considerar la probabilidad de obtener j proporción agregada de resultados significativos obtenidos de los efectos reales
versus los errores Tipo I dentro de esa área. Si más experimentos en el área prueban
2 respuestas exitosas hipótesis nulas verdaderas, entonces, como se discutirá en la sección Probabilidad de
cationes. Si la probabilidad de una sola replicación es pags 1, uno podría esperar la replicación agregada, es menos probable que se repita un efecto inicial significativo. y
probabilidad de j replicaciones independientes debe responderse considerando la proporción agregada de resultados significativos
ser - estar pags j obtenidos de efectos reales versus errores de Tipo I dentro de esa área. Si más
1. Esta expectativa es correcta para el individuo pero no
para las probabilidades de replicación agregadas. Para un investigador cuya experimentos en el área prueban hipótesis nulas verdaderas, entonces, como se
probabilidad de replicación individual es 1 . 8, para discutirá en la sección Probabilidad de replicación agregada, es menos probable que
ejemplo, la probabilidad de j réplicas es .8 j, porque las réplicas son todas se repita un efecto inicial significativo. y debe responderse considerando la proporción
realizaciones independientes del experimento particular de ese investigador, agregada de resultados significativos obtenidos de efectos reales versus errores de Tipo I dentro de esa ár
cada una de las cuales tiene el mismo poder. Sin embargo, la misma fórmula Tenga en cuenta que la probabilidad de replicación individual asociada con
no se aplica para la probabilidad de replicación agregada, debido a que las un diseño experimental particular es exactamente la misma que la probabilidad
múltiples replicaciones de un experimento en particular son dependientes, ya de un resultado significativo (en la dirección observada) en el experimento inicial,
que todas prueban la misma hipótesis nula. Para una ilustración concreta de la porque es simplemente la probabilidad de rechazar la hipótesis nula (en esta
probabilidad agregada de j réplicas, considere más a los 1,000 investigadores dirección) en un experimento de este tipo. Por ejemplo, si la probabilidad de un
que trabajan dentro del escenario ilustrado en la Figura 1, nuevamente con resultado significativo en un experimento inicial con este diseño fue .5, entonces
la probabilidad también es .5 para todos los experimentos de seguimiento
0,2, idénticos. Una justificación simple para esta afirmación es que los experimentos
1 . 8, y . 05. De los 128 investigadores analizados iniciales y de seguimiento son muestras independientes del conjunto de todas las
previamente que probó un falso H 0 y luego replicaron con éxito sus posibles réplicas de ese experimento, por lo que sus resultados no dependen del
hallazgos en un experimento de seguimiento, .8 orden en que se lleven a cabo. A priori, es probable que el experimento de
128 102.4 también tendrá éxito en una segunda réplica seguimiento tenga una menor pags valor que el experimento inicial, ya que es
intento de Del 1 investigador que probó un verdadero H 0 y replicó con éxito los tener uno más grande. 4 Si la hipótesis nula es falsa, la probabilidad de
hallazgos en un experimento de seguimiento replicación individual es simplemente el poder experimental. Si la hipótesis nula
, .025 1 .025 también tendrá éxito en un segundo intento de replicación. es verdadera y se usa una prueba de dos colas, esta probabilidad es / 2 (es
Por lo tanto, la probabilidad agregada de dos réplicas exitosas, dado un decir, típicamente .025). Con una verdadera hipótesis nula, se observará un
resultado inicial significativo, es (102.4 efecto significativo con probabilidad, pero la mitad de los resultados significativos
0,025) / (160 40) . 512. Esta probabilidad es irán en la dirección incorrecta, como se señaló anteriormente.
mucho mayor que el cuadrado de la probabilidad de replicación agregada para
una sola replicación (es decir, .512 . 645 2
. 416), lo que ilustra que la probabilidad agregada de dos
replicaciones no es pags 2 real academia de bellas artes. Consulte el Apéndice A para obtener más información.
información e ilustraciones sobre la dependencia de la probabilidad Puede resultar algo contradictorio que la probabilidad de replicación
agregada del número de repeticiones, j. individual sea la misma que la probabilidad de obtener un resultado
En resumen, la "probabilidad de replicación" se puede utilizar en cualquiera significativo en el experimento inicial, porque psicológicamente parecen
de dos sentidos. los agregar La probabilidad de replicación es la probabilidad de bastante diferentes. Un investigador podría razonar, por ejemplo: “Antes de
un resultado significativo cuando se replica un efecto seleccionado al azar de un realizar mi experimento inicial, habría dicho que solo obtendría este efecto
gran grupo de diferentes efectos significativos, mientras que la individual La en un 50/50. Ahora que ejecuté el experimento y obtuve el efecto en pags
probabilidad de replicación es la probabilidad de un resultado significativo en
muchos intentos idénticos de replicar un único efecto significativo. La .nuevo
01, seguramente mis probabilidades de conseguirlo de
probabilidad de replicación agregada depende del contexto de investigación más han mejorado con estos resultados! "
amplio, incluidos todos los efectos en el conjunto de los inicialmente Este razonamiento es perfectamente válido si el investigador está considerando
significativos, mientras que el las "probabilidades de obtenerlo nuevamente" en términos de la probabilidad de
replicación agregada. El significativo inicial
PAGS ROBABILIDAD DE R EPLICACIÓN 621

El resultado sugiere que es más probable que el efecto en estudio pertenezca a es imposible calcular la verdadera probabilidad de replicación individual sin hacer
alguna población de efectos reales que a otra población de efectos espurios y, por suposiciones muy específicas. Una forma de ver esto es observar que cualquier
supuesto, la probabilidad de replicación agregada es mayor en la primera población conjunto de datos observados podría haberse obtenido en muchos estados
que en la segunda. Sin embargo, al mismo tiempo, el razonamiento no es válido si se diferentes del mundo, por lo que estos datos por sí mismos nunca pueden
aplica a la probabilidad de replicación individual. La probabilidad de replicación especificar exactamente qué estado del mundo les dio origen. Cada estado diferente
individual, es decir, la probabilidad a largo plazo de un resultado significativo con un del mundo corresponde a una probabilidad de replicación individual diferente, por lo
diseño experimental dado, simplemente no cambia cuando se repite ese experimento. que los datos simplemente no determinan de manera única la probabilidad exacta de
Los resultados del experimento inicial pueden revelar algo sobre el valor del poder, replicar los resultados. Para continuar con la analogía del lanzamiento de una
pero no cambian ese valor. Este punto se puede ilustrar con una analogía: moneda, por ejemplo, fácilmente podríamos haber obtenido 30 caras en 50
supongamos que seleccionamos una moneda de un gran conjunto de monedas, lanzamientos de una moneda con cualquier valor verdadero. PAGS dentro del rango
algunas de las cuales pueden estar sesgadas, lanzamos la moneda seleccionada 50 de al menos (digamos) .58 – .62. Dado que la probabilidad de replicación individual
veces y obtenemos 30 caras. En estas condiciones, ¿cuál es la probabilidad de que exacta depende de la PAGS, no podemos recuperarlo de los resultados observados.
salga cara en el lanzamiento número 51? En un sentido agregado, los resultados de
los primeros 50 lanzamientos nos informan que es más probable que esta moneda
provenga de una población de monedas con un sesgo hacia las caras. Sin embargo,
es evidente que la probabilidad (es decir, la frecuencia a largo plazo) de que esta
moneda salga cara en el próximo lanzamiento es la misma que en los primeros 50 ESTIMACIÓN DEL INDIVIDUO
lanzamientos. La observación de 30 caras proporciona alguna información sobre cuál PROBABILIDAD DE REPLICACIÓN
es esa probabilidad (y ha sido todo el tiempo), pero no cambia esa probabilidad. El
punto es que los resultados del experimento inicial solo nos informan sobre el poder y Al escribir sobre las pocas probabilidades de replicar un resultado significativo
la probabilidad de replicación individual, no lo cambian. los resultados de los primeros en particular, Rosenthal (1993) dijo: “Un error relacionado que se encuentra a
50 lanzamientos nos informan que es más probable que esta moneda provenga de menudo en las ciencias sociales y del comportamiento es la suposición implícita
una población de monedas con un sesgo hacia las caras. Sin embargo, es evidente de que si un efecto es 'real', por lo tanto, deberíamos esperar que se encuentre
que la probabilidad (es decir, la frecuencia a largo plazo) de que esta moneda salga significativo de nuevo en la replicación. Nada más lejos de la verdad ”(p. 542).
cara en el próximo lanzamiento es la misma que en los primeros 50 lanzamientos. La Para ilustrar ese punto, consideró un ejemplo de un investigador que trabaja a un
observación de 30 caras proporciona alguna información sobre cuál es esa nivel de poder de .5, y señaló, entre otros hechos tristes, que para este caso “sólo
hayresultados
probabilidad (y ha sido todo el tiempo), pero no cambia esa probabilidad. El punto es que los una posibilidad entre cuatro
del experimento de solo
inicial que tanto el investigador
nos informan sobre eloriginal
poder ycomo el
la probabilidad de replicación indiv
Vale la pena ser explícito que la probabilidad de replicación replicador obtengan [importantes resultados] ”(pág. 543).
individual permanece constante, porque las personas parecen
intuitivamente propensas a considerar muchos tipos de probabilidades,
incluidas las probabilidades de replicación, como fluctuantes Los comentarios de Rosenthal (1993), aunque por supuesto totalmente correctos
dependiendo de los resultados previos. sobre la base de nueva como se ha dicho, parecen implicar que la probabilidad de replicación individual se
información, aunque las probabilidades en sí mismas no lo hagan. La puede estimar con bastante precisión y que es bastante baja. Sin embargo, tenga en
“mano caliente” y las falacias del jugador proporcionan dos ejemplos cuenta que su evaluación del poder (y por lo tanto de la probabilidad de replicación
obvios de lo tentador que es creer que las probabilidades pueden individual) no hizo referencia a los datos del experimento inicial. En cambio,
cambiar a través de eventos repetidos (ver, por ejemplo, Ayton y simplemente asumió que el experimento inicial tenía un nivel de potencia de .5, en
Fischer, 2004; Boynton, 2003; Sundali y Croson, 2006). Peor aún, las cuyo caso el seguimiento también lo tendría.
fórmulas y la terminología estadísticas a veces fomentan este
concepto erróneo. Por ejemplo, la "ley de sucesión" de Laplace dice Entonces, ¿cómo se pueden usar los datos del experimento inicial para
que "si hemos experimentado S éxitos y F fallas de estimar la probabilidad de replicación individual con el mismo diseño
experimental? Como se señaló anteriormente, el poder experimental
depende del tamaño y el nivel de la muestra, que se conocen, y del
S F norte ensayos, la posibilidad de éxito en el ( norte 1) st tamaño del efecto, que se desconoce. El enfoque estándar es asumir que
el juicio es ( S 1) / ( norte 2) ”(Wilson, 1927, pág. 210). 5 Tomado el tamaño real del efecto es igual al efecto que realmente se observó en
literalmente, esta "ley" ciertamente sugiere que la probabilidad de éxito el experimento inicial (p. Ej., Gorroochurn et al., 2007; Greenwald et al.,
cambia con cada nuevo ensayo, aunque en realidad la ley describe 1996; Oakes, 1986; Rosenthal,
fluctuaciones en la mejor estimación de esta probabilidad más que en su
valor real. La tentación de pensar que las probabilidades de replicación 1993). A partir de este tamaño del efecto real supuesto, es sencillo calcular la
individuales cambian puede ser especialmente fuerte porque la probabilidad potencia como una función del tamaño y el nivel de la muestra (ver, por
de replicación agregada cambia con cada nuevo resultado experimental. Sin ejemplo, Cohen, 1988, para fórmulas relevantes, o Faul, Erdfelder, Lang y
embargo, la probabilidad de replicación agregada cambia porque cada Buchner, 2007, para un programa de computadora que realiza dichos cálculos).
nuevo resultado cambia el conjunto dentro del cual se calcula la Las estimaciones calculadas utilizando este enfoque a veces se denominan
probabilidad agregada, no porque el resultado cambie la probabilidad valores de potencia “post hoc” (por ejemplo, Onwuegbuzie & Leech, 2004) o
individual de cualquier efecto particular en estudio. “observados” (SPSS, 2006).

Por ejemplo, considere lanzar una moneda 100 veces para probar la hipótesis
Un corolario importante de la idea de que la probabilidad de replicación nula de que la verdadera probabilidad de que salga cara es .5. Las tablas binomiales
individual permanece constante es que, aunque podemos estimar la indican que esta hipótesis nula puede rechazarse ( pags
probabilidad de replicación individual a partir de los datos iniciales, como se . 05, de dos colas) si el número observado de
considera en la siguiente sección, jefes es mayor que 60 o menor que 40. Suponga que 65
622 METRO ILLER

se obtienen cabezas, valor que es suficiente para rechazar el nulo en pags 1


. 004, de dos colas. Para estimar la potencia, uno luego
asume que la verdadera probabilidad es PAGS . 65 (es decir, el ob-
valor servido). Con eso cierto PAGS, Las tablas binomiales indican que la
probabilidad de obtener más de 60 caras es .83, por lo que este es el poder . 75

Probabilidad de replicación individual


estimado de los experimentos de 100 lanzamientos con esta moneda, tanto el
experimento inicial como todos los siguientes. En ausencia de cualquier otra
información sobre el tamaño real del efecto, puede parecer razonable estimar la
potencia, y por lo tanto la probabilidad de replicación individual, asumiendo que . 50

el efecto verdadero es igual al efecto observado en el experimento inicial (p. Ej.,


Posavac, 2002), aunque En ocasiones, los problemas con este enfoque se han
destacado en la literatura estadística (por ejemplo, Hoenig y Heisey, 2001).
Críticamente, como con cualquier valor estimado a partir de datos, el valor . 25

resultante es solo una estimación de la potencia, no el valor real (p. Ej., Froman

Límite superior
Observado
y Shneyderman, 2004; Macdonald, 2003; Sohn, 1998). El tamaño del efecto

Ligado
Inferior
observado está sujeto a errores de muestreo, por lo que rara vez es
exactamente igual al tamaño del efecto real. En consecuencia, es poco probable 0
.4 .5 .6 .7 .8
que la potencia estimada sea igual a la potencia real. En cambio, la potencia real
será menor que la potencia estimada si el efecto observado es mayor que el Probabilidad de éxito, PAGS

efecto real, y la potencia verdadera será mayor que la potencia estimada si el


efecto observado es menor que el efecto real. Las estimaciones de potencia Figura 2. Ilustración de los límites superior e inferior estimados para la
probabilidad de replicación individual en un experimento binomial con 65 éxitos en
inexactas son una consecuencia directa de la variabilidad en el tamaño del
100 ensayos. La ojiva sólida muestra la probabilidad de replicación individual (es
efecto observado, por lo que afectan no solo a esta simple estimación de decir, la probabilidad de 61 o más éxitos) en función de la verdadera probabilidad
potencia, sino también a otras más sofisticadas (por ejemplo, Cumming, 2008, de éxito en cada prueba. Como lo indican los círculos, el experimento real arrojó
Apéndice B). Por ejemplo, como consecuencia de esta variabilidad, dos réplicas
. 65 como la proporción observada de éxitos; asumiendo la verdad PAGS
idénticas del mismo experimento producirán datos diferentes y, por tanto,
es .65 produce una probabilidad de replicación individual estimada de .83. Sin embargo, con
estimaciones de potencia diferentes, aunque la potencia real sea la misma para una proporción observada de .65, el intervalo de confianza del 95% para el verdadero PAGS se
ambos (según la definición de “réplicas idénticas”; cf. Hoenig y Heisey, 2001). A extiende desde el límite inferior de .56 hasta el límite superior de .74, como lo indican los
la inversa, dos casos de experimentos diferentes, que tienen niveles de potencia triángulos. Los límites inferior y superior correspondientes para la probabilidad de replicación
individual son .18 y .998. Debido a que la probabilidad de replicación individual está
reales que en realidad son bastante diferentes, pueden producir efectos
relacionada monótonamente con la verdadera PAGS, la probabilidad de replicación individual
observados idénticos y, por lo tanto, producir estimaciones de potencia
verdadera cae entre sus límites estimados si y solo si el verdadero PAGS cae entre sus límites
idénticas. estimados.

La probabilidad de replicación individual es realmente solo .18. Ésta es una


estimación del peor de los casos de probabilidad de replicación individual, porque
¿Cuán diferentes podrían ser las probabilidades de replicación individuales se calcula utilizando la estimación PAGS valor más cercano al especificado por la
estimadas y verdaderas (es decir, niveles de potencia)? Debido a que la única hipótesis nula. En el otro extremo, si el verdadero valor de PAGS es .74 (el valor
cantidad aleatoria que influye en la estimación de la potencia es el tamaño del más grande en el intervalo de confianza), entonces la probabilidad de replicación
efecto observado, esta pregunta puede responderse observando un intervalo de individual es .998. Correspondientemente, esta es la estimación del mejor caso de
confianza del 95% para el efecto (Froman y Shneyderman, 2004). La potencia la probabilidad de replicación individual, calculada con la estimación PAGS más
aumenta con el tamaño del efecto, por lo que se puede estimar un límite superior alejado del valor especificado por la hipótesis nula. Críticamente, la verdadera
para la potencia asumiendo que el efecto real es el valor más grande en el intervalo probabilidad de replicación individual de cualquier experimento caerá entre los
de confianza. De manera similar, se puede estimar un límite inferior para la límites de potencia superior e inferior estimados en el eje vertical si y solo si es
potencia asumiendo que el efecto verdadero es el valor más pequeño en el verdadero PAGS El valor cae entre los límites superior e inferior en el eje horizontal,
intervalo. Como se ilustra en el siguiente ejemplo, estos límites estimados para la y viceversa, como se desprende de la geometría de la Figura 2. Dado que un
potencia capturarán su valor real el 95% de las veces, así como el intervalo de intervalo de confianza para PAGS captura la verdad PAGS valor en el 95% de
confianza para el efecto captura su tamaño real el 95% de las veces (por ejemplo, todos los experimentos (por ejemplo, Cumming & Finch, 2001), se deduce que los
Cumming & Finch, 2001) . límites superior e inferior estimados para la probabilidad de replicación individual
también capturarán la probabilidad de replicación verdadera en el 95% de todos los
experimentos.
Por ejemplo, considere lanzar nuevamente una moneda 100 veces y obtener 65
caras, un escenario representado en la Figura 2. Como se discutió anteriormente, .65
es la estimación puntual de PAGS,
y ese valor corresponde a una probabilidad de replicación individual estimada de .83. En resumen, la conclusión general de un análisis basado en intervalos de
Un intervalo de confianza estándar del 95% para PAGS, sin embargo, indica que el confianza de este ejemplo binomial es que la probabilidad de replicación
verdadero PAGS puede ser tan pequeño como .56 o tan grande como .74 (consulte el individual, inicialmente estimada en .83, en realidad podría ser tan baja como
Apéndice B para obtener más detalles). Si el verdadero valor de PAGS es realmente .18 o tan alta como.
solo .56, el indicador . 998: una gama bastante amplia. Aunque es razonable
PAGS ROBABILIDAD DE R EPLICACIÓN 623

Esperamos que la probabilidad de replicación individual esté más cerca de Para mostrar que estos resultados no están asociados con algunos
.83 que de .18 o .998, la posibilidad de que pueda estar en cualquier parte Como peculiaridad de la prueba binomial, las Figuras 3B y 3C muestran
de este amplio rango significa que no debemos confiar mucho en la cálculos análogos para experimentos hipotéticos que serían analizados
estimación puntual original de .83. Parece que el resultado inicial de 65 usando otras dos pruebas estadísticas. La Figura 3B muestra cálculos para
éxitos en realidad no revela casi nada sobre la verdadera probabilidad de experimentos en los que un
replicación individual. En otras palabras, este resultado inicial es consistente t La prueba se usaría para probar la hipótesis nula de que una media verdadera o
con un rango suficientemente amplio de valores PAGS valores que la una diferencia verdadera entre medias,, es igual a cero. La Figura 3C muestra
probabilidad de replicación individual podría ser casi cualquier cosa. Se cálculos para experimentos que utilizan un coeficiente de correlación de muestra
realizaron cálculos análogos a los ilustrados con la prueba binomial anterior observado para probar la hipótesis nula de una correlación verdadera cero en la
para una variedad de tamaños de muestra y números observados de éxitos, población como
y la Figura 3A resume los resultados. Se realizaron cálculos para norte un todo (es decir, H 0: 0). Nuevamente, para cada posible significado
no puedo observar t valor (panel B) o correlación muestral significativa r ( panel
C), el pags El valor se calculó y usó para determinar la ubicación en el eje
100, 500 o 1000 ensayos y por cada horizontal. Se calcularon tres estimaciones de probabilidad de replicación
posible resultado estadísticamente significativo en cada tamaño de muestra. individuales para cada resultado, asumiendo que el efecto verdadero era igual al
Cada resultado significativo se representó en el eje horizontal en términos de su pags
valor observado ( t o r) o al límite superior o inferior de un intervalo de confianza
valor (p. ej., obtener 65 éxitos en 100 ensayos representa un pags valor de del 95% para el efecto verdadero (consulte el Apéndice B para obtener más
.004). Las tres probabilidades de replicación individuales estimadas diferentes detalles).
asociadas con cada resultado estadísticamente significativo se trazaron en el
eje vertical, con estas probabilidades estimadas a partir de la proporción Los resultados mostrados en las Figuras 3B y 3C son virtualmente idénticos a los
observada o del límite superior o inferior del intervalo de confianza del 95% para de la Figura 3A. Nuevamente, los resultados significativos al nivel de .005 – .05 son
la proporción verdadera. Con 65 éxitos en 100 ensayos, por ejemplo, las tres consistentes con los tamaños del efecto para los cuales la probabilidad de
probabilidades de replicación estimadas ya mencionadas son los valores de replicación individual podría estar en cualquier lugar en el rango de
aproximadamente .1–1, con poco efecto del parámetro de tamaño de la muestra, ya
que varía dentro de cada panel. . Por tanto, las conclusiones de la prueba binomial
. 998 (línea continua), .83 (línea discontinua) y .18 (línea discontinua), indicados por parecen generalizarse perfectamente bien a t pruebas y pruebas de correlación. La
las tres flechas. Del mismo modo, otros puntos a lo largo de los tres norte
conclusión general a la que se llega al observar los intervalos de confianza para los
100 curvas representan resultados con efectos observados es que solo los resultados más altamente significativos de un
61-81 éxitos y puntos a lo largo del norte 500 y norte experimento inicial realmente brindan información útil sobre la probabilidad de
1000 curvas representan números observados de éxitos correspondientes a lo replicación individual (o, de manera equivalente, sobre el poder observado o post
indicado pags valores con esos tamaños de muestra. Las tres probabilidades de hoc), independientemente de la muestra. tamaño o el tipo de prueba estadística.
replicación estimadas están determinadas casi completamente por la pags valor Aunque los investigadores pueden estimar la probabilidad de replicación individual
independientemente del tamaño de la muestra, por lo que las curvas para norte asumiendo que el efecto real coincide con el observado, en términos prácticos el
100, norte 500, error asociado con el efecto observado suele ser tan grande que tal estimación
y norte 1.000 se superponen casi a la perfección. parece inútil. Los investigadores deben desconfiar, entonces, de declaraciones
La característica más notable de los resultados que se muestran en la Figura 3A precisas sobre la probabilidad de replicación individual, como "Después de obtener pags
es la amplia gama de probabilidades de replicación individuales que son consistentes
con un resultado experimental estadísticamente significativo dado. Para experimentos
que produzcan pags valores en el rango de aproximadamente .005 a .05, las
probabilidades de replicación individuales asociadas con los límites superior e inferior . 03, en realidad solo hay un
para el verdadero PAGS El valor cubre casi todo el rango 0-1. En estos casos, 56,1% de probabilidad de que una réplica sea estadísticamente significativa con dos
entonces, el resultado significativo del experimento inicial en realidad no proporciona colas pags . 05 ”(Cumming, 2008, p. 287) y“ a pags valor de .005 (nótese el cero
casi ninguna restricción sobre la verdadera probabilidad de replicación individual. La adicional) significa que la probabilidad de replicación exacta es .80 ”(Harris, 1997, p.
probabilidad de replicación individual está estrictamente limitada solo por resultados 10; para afirmaciones similares, ver, por ejemplo, Gorroochurn et al., 2007, p. 327, y
iniciales muy significativos, que arrojan límites superior e inferior cerca de 1.0, en la Greenwald et al., 1996, pág.181). Como señalaron Froman y Shneyderman (2004), a
parte superior izquierda de cada panel. En resumen, la probabilidad de replicación pesar de los recientes pedidos de un mayor énfasis en la estimación de la potencia a
individual se conoce con bastante precisión sólo cuando el efecto es tan grande que partir de los datos disponibles (p. Ej., Onwuegbuzie y Leech, 2004), la misma
esta probabilidad es cercana a 1. Además, este patrón parece mantenerse advertencia también se aplica a las estimaciones de potencia post hoc
virtualmente independientemente del tamaño de la muestra. Aunque uno podría proporcionadas por los nuevos paquetes de software estadístico. . De hecho, incluso
esperar una mayor replicabilidad para muestras más grandes, este efecto esperado declaraciones cualitativas como “la replicabilidad está estrechamente relacionada con
está ausente en la figura debido a una compensación entre el tamaño de la muestra y la pags valor de un estudio inicial ”(Greenwald et al., 1996, p. 180) deben considerarse
el tamaño del efecto. Específicamente, para sostener el como generalizaciones amplias con poco valor diagnóstico para cualquier resultado
experimental específico. Para obtener una estimación razonablemente precisa de la
probabilidad de replicación individual, se requieren límites mucho más estrictos en el
tamaño del efecto real que los que suelen proporcionar los resultados
pags valor constante, el efecto observado debe reducirse a medida que aumenta estadísticamente significativos. Otra característica notable de las probabilidades de
el tamaño de la muestra. El uso de efectos más pequeños para muestras más replicación individuales estimadas que es difícil de ver en la Figura 3
grandes supera la ventaja de replicabilidad que de otro modo se esperaría con las
muestras más grandes (cf. Cumming, 2008).
624 METRO ILLER

UN H:0 P. 5 segundo H:0 Δ 0


norte 100 df 25
norte 500 df 50
norte 1.000 df 100
1 1
Probabilidad de replicación individual estimada

Probabilidad de replicación individual estimada


Estimado de:
Límite superior
. 75 Efecto observado . 75

Límite inferior

. 50 . 50

. 25 . 25

0 0
0 . 01 . 02 . 03 . 04 . 05 0 . 01 . 02 . 03 . 04 . 05
pags Valor pags Valor

C H:0 0
norte 25

norte 50

norte 100
1
Probabilidad de replicación individual estimada

. 75

. 50

. 25

0
0 . 01 . 02 . 03 . 04 . 05
pags Valor

Figura 3: Tres estimaciones de la probabilidad de rechazar la hipótesis nula en un experimento de replicación idéntico en función de la pags valor del experimento inicial. Las
líneas continuas en la parte superior de cada panel muestran las probabilidades de replicación individuales estimadas asumiendo que el efecto verdadero está en el límite superior del
intervalo de confianza del 95% para el efecto verdadero; estas son las probabilidades de replicación en el mejor de los casos. Las líneas punteadas en el medio muestran las
probabilidades estimadas asumiendo que el efecto verdadero coincide exactamente con el efecto observado en el experimento inicial. Estas son estimaciones puntuales estándar de
la probabilidad de replicación individual. Las líneas punteadas en la parte inferior muestran las probabilidades de replicación individuales estimadas asumiendo que el efecto
verdadero está en el límite inferior del intervalo de confianza para el efecto verdadero; estas son las probabilidades de replicación individuales en el peor de los casos. (A)
Probabilidad estimada de rechazar la hipótesis nula PAGS
. 5 usando una prueba binomial con muestra
tamaños de norte 100, 500 y 1000. Los tres puntos marcados con flechas indican los valores correspondientes al ejemplo de
65 éxitos en 100 ensayos, como se comenta en el texto. (B) Probabilidad estimada de rechazar la hipótesis nula de que una media o diferencia de medias
0 usando un t prueba con 25, 50 o 100 grados de libertad ( df) por error. (C) Probabilidad estimada de
rechazando la hipótesis nula de que una correlación verdadera 0 para tamaños de muestra de norte 25, 50 o 100.

es que la probabilidad de replicación individual en el peor de los casos es solo El resultado observado es significativo en pags . 05, el efecto verdadero podría
ligeramente mayor que .025 cuando pags el valor es .05. Parece sorprendente que la ser infinitesimal, porque el límite inferior del intervalo de confianza para el
probabilidad de replicación individual en realidad pueda ser menor que la tasa de efecto es solo ligeramente diferente del valor verdadero especificado por la
error de Tipo I, incluso después de obtener un resultado significativo en un hipótesis nula. Por lo tanto, la probabilidad de un resultado significativo (en la
experimento inicial, pero se obtuvo exactamente el mismo patrón para todos los misma dirección) es solo ligeramente mayor bajo este límite supuesto del peor
tamaños de muestra con las tres pruebas estadísticas. En retrospectiva, no es difícil de los casos que bajo la hipótesis nula (Sohn, 1998). Para una prueba de dos
ver por qué sucede esto con las pruebas de dos colas. colas con pags . 05, la probabilidad asignada
PAGS ROBABILIDAD DE R EPLICACIÓN 625

a esa cola bajo la hipótesis nula es .05 / 2 .025, por lo que la probabilidad selecciona aleatoriamente el efecto a probar en el experimento inicial entre el
asociada con la misma cola es solo un poco mayor que esto cuando el conjunto de todos los efectos sugeridos por la teoría guía.
valor verdadero es solo ligeramente diferente del especificado por la
hipótesis nula. Es fácil ver que la probabilidad de replicación agregada depende
marcadamente de la calidad de la teoría que condujo al experimento inicial.
PROBABILIDAD DE REPLICACIÓN AGREGADA Como ejemplo extremo, el investigador W podría trabajar con una teoría tan débil
que ninguno de sus efectos sugeridos sea de hecho real (es decir, la hipótesis
La sección anterior consideró la estimación de la probabilidad de replicación nula es verdadera en todos los casos, correspondiente a
individual a partir de un experimento inicial significativo considerado de forma 0 en la Figura 1). Todos
aislada. Sin embargo, los experimentos reales se llevan a cabo dentro de un de los resultados significativos del investigador W serían errores de Tipo I, y la
contexto de investigación más amplio, no de forma aislada, y en algunas probabilidad de replicar cualquiera de ellos (en la misma dirección) sería
circunstancias puede ser deseable estimar la probabilidad agregada de replicar un siempre igual a / 2. Así, para este investigador el escéptico tiene toda la razón:
efecto experimental seleccionado al azar dentro de este contexto (por ejemplo, para los datos iniciales habrían producido un efecto de pags . 05 solo por casualidad,
los propósitos de una revisión de la literatura) . por lo que la réplica es pags es muy probable que el valor sea mayor. En el otro
extremo, el investigador Smight usa una teoría tan fuerte que todos sus efectos
Por ejemplo, afirmé anteriormente que cuando se considera un solo sugeridos son reales (es decir,
experimento de forma aislada, la pags El valor de la replicación es tan probable que 1
sea menor que el resultado inicial como mayor, porque el orden de los dos en la Figura 1). Suponga además que estos efectos reales son tan grandes que la
experimentos no influye en su relación relativa. pags valores. Un escéptico podría potencia es 1 . 9 para un experimento típico.
responder que esta afirmación no tiene relevancia al evaluar la investigación dentro Todos los resultados significativos del investigador S serían rechazos correctos y la
de un área determinada, porque los resultados iniciales que se están considerando probabilidad de replicar cualquiera de ellos (en la misma dirección) sería de .9.
para una posible replicación ya han sido seleccionados por ser significativos. Claramente, la probabilidad de replicación agregada sería mucho mayor para el
Evidentemente, tal selección introduce un sesgo a favor de resultados iniciales investigador S que para el investigador W, independientemente de la pags valores de
significativos. Por lo tanto, podría argumentar el escéptico, es probable que la sus experimentos iniciales. Por supuesto, el investigador S tendría muchas más
replicación produzca una mayor pags valor que el experimento inicial. La fuerza de probabilidades de obtener resultados significativos en el experimento inicial que el
este argumento y la fuerza de su efecto (es decir, cuánto mayor es la réplica pags es investigador W, pero incluso el investigador W obtendría algunos hallazgos
probable que el valor sea) dependan críticamente de aspectos del contexto de la importantes ocasionalmente. De hecho, el investigador S normalmente obtendría
investigación. resultados significativos en pags valores muy por debajo de .05, porque los
experimentos con una potencia tan alta tienden a producir bastante pags valores. Con
un t prueba, por ejemplo, las configuraciones experimentales que tienen una potencia
En esta sección, examino algunos aspectos del contexto de la investigación que de .9 típicamente producen una mediana de dos colas pags valores de
tienen implicaciones para la probabilidad de replicación agregada. Dado cualquier aproximadamente .001 – .005. Para el resultado inicial del investigador S que fue
conjunto específico de suposiciones sobre un contexto de investigación en significativo en pags
particular, la probabilidad de replicación agregada se puede calcular utilizando un
enfoque bayesiano, como se ilustró con la Ecuación 1. Desafortunadamente, en la . 05, entonces, el escéptico estaría bastante
práctica, los investigadores prácticamente nunca tienen la información sobre el incorrecto; La replicación de este investigador generalmente lograría un menor pags valor
contexto de investigación necesaria para realizar tales cálculos. . No obstante, es que el inicial pags . 05.
esclarecedor ver cuán fuertemente dependería la probabilidad de replicación Presumiblemente, la mayoría de los investigadores trabajan con teorías de fuerza
agregada de dicha información si estuviera disponible. La fuerte dependencia de la intermedia entre estos extremos débiles y fuertes. Sin embargo, es fundamental que
probabilidad de replicación agregada de la información no disponible muestra que siempre se necesite un supuesto muy específico sobre la solidez de la teoría para
las probabilidades de replicación agregadas son generalmente desconocidas, al calcular la probabilidad de replicación agregada. Este punto se reconoce
igual que las probabilidades de replicación individuales. explícitamente dentro de los enfoques de acumulación de evidencia bayesiana, en los
que la distribución bayesiana "previa" para el tamaño del efecto real es exactamente
este tipo de suposición. Sin embargo, los análisis bayesianos de la acumulación de
evidencia científica se desarrollan generalmente como una alternativa a la NHST más
que como un complemento (por ejemplo, Falk, 1998; Killeen, 2006; Wagenmakers,
Fortaleza teórica y
Probabilidad de replicación agregada
La base teórica del estudio inicial es un aspecto del contexto de investigación 2007), por lo que rara vez se han considerado las consecuencias de la solidez
con importantes implicaciones para la probabilidad de replicación agregada. La de la teoría para NHST (Krueger, 2001, Figura 2; Macdonald, 2005). Por lo
elección de experimentos de un investigador siempre está guiada por alguna tanto, puede ser útil considerar algunos ejemplos que ilustran la influencia de
teoría, ya sea formal o intuitiva. Normalmente, la teoría de un investigador este factor en los valores de probabilidad de replicación agregada dentro de
sugiere que una gran cantidad de efectos deberían ser reales, y el investigador NHST. Ioannidis (2005) presentó ejemplos similares que ilustran la influencia
selecciona uno de esos efectos sugeridos para la prueba experimental. A del mismo factor en la probabilidad de que una hipótesis nula rechazada sea
continuación, el investigador realiza un experimento inicial para probar el efecto realmente falsa.
seleccionado y, si se obtiene un efecto significativo, realiza un experimento de
seguimiento (ver Figura 1). Para mayor comodidad al modelar este proceso Para tener una idea de la influencia cuantitativa de la fuerza de la teoría sobre la
dentro de un probabilidad de replicación agregada, considere a dos investigadores que realizan
experimentos con norte 100 bino-
marco frecuentista, pretenderé que el investigador realiza ensayos para probar la hipótesis nula de que PAGS . 5 dentro
626 METRO ILLER

sus propios contextos de investigación separados. Supongamos que el 90% de los es mayor con efectos mayores en un grado mucho mayor cuando el pags el valor es
efectos sugeridos por la teoría del investigador S son reales (es decir, bastante pequeño. Xa pags valores cercanos a .05, por el contrario, la probabilidad de
. 9), mientras que solo el 10% de los efectos sugirieron replicación agregada puede ser mayor cuando los efectos son pequeños que cuando
por la teoría del investigador W son reales (es decir, . 1). Para ambos son grandes. Esto se debe a que un efecto observado de "solo" pags
investigadores, supongan que PAGS . 60 para un efecto real; bino- . 05 mayo
tablas miales indican que este verdadero PAGS El valor produce un nivel de potencia ser igualmente consistente, o incluso más consistente, con la hipótesis nula que
de 1 . 4621. Ahora suponga que cada investigador con la existencia de un gran efecto. Desafortunadamente, los efectos sobre la
realiza un experimento y observa 63 éxitos; ¿Cuál es la probabilidad de que probabilidad de replicación agregada que se muestran en la Figura 4 no son
cada uno reproduzca con éxito los resultados en un experimento de cuantitativamente útiles para los investigadores en la práctica, porque no hay
seguimiento? razón para aceptar los supuestos particulares usados en el cálculo de estas
Usando el teorema de Bayes y las tablas binomiales (para obtener más detalles, probabilidades. De hecho, la idea de un efecto dicotómico —presente en un grado
consulte el Apéndice A), es posible calcular la probabilidad condicional de que una particular o no en absoluto— es bastante inverosímil, porque la mayoría de las
hipótesis nula muestreada al azar sea verdadera, dado este resultado experimental teorías predicen efectos que están presentes en diferentes grados (es decir,
dentro de este escenario. Para el investigador S, el resultado es algunos efectos predichos son grandes y otros son pequeños). En cambio, los
resultados de la figura son importantes porque demuestran cuánta probabilidad
de replicación agregada puede depender de la solidez de la teoría subyacente.
Pr ( H 0 verdadero | 63 éxitos) . 0044.
De hecho, con la supuesta variación en la fuerza de la teoría y con la pags valores
Para este investigador, la probabilidad de replicación agregada se puede en el rango de .01 – .05, la probabilidad de replicación agregada depende más de
calcular como la solidez de la teoría que de los resultados experimentales reales. Dado que la
solidez de la teoría es prácticamente siempre desconocida en la práctica, esta
Pr (replicación | 63 éxitos) . 4602.
dependencia refuerza la opinión de que los investigadores tienen muy poca base
Los cálculos paralelos muestran que la probabilidad de replicación agregada es para determinar la probabilidad de replicación agregada, a pesar de la
solo .3473 para el investigador W, dado el mismo resultado observado de 63 disponibilidad de fórmulas computacionales apropiadas (por ejemplo, Ecuación
éxitos. Por tanto, la probabilidad de replicación agregada es más de un 30% 1).
mayor para el investigador S que para el investigador W, a pesar de que sus
resultados iniciales fueron idénticos.

La Figura 4 resume los resultados de cálculos análogos bajo una variedad de


escenarios. Esta figura muestra la probabilidad de replicación agregada como una Número de oportunidades para un resultado significativo y
función de (1) la pags valor en el experimento inicial, (2) la probabilidad de que el probabilidad de replicación agregada
efecto probado sea realmente real (es decir, Otro aspecto importante del contexto de investigación que influye en
. 1, .3, .5, .7 o .9) y (3) el la probabilidad de replicación agregada es el número de oportunidades
tamaño del efecto verdadero cuando la hipótesis nula es falsa. Se asumió que un para obtener un resultado significativo. En el trabajo experimental real,
“efecto grande” era un efecto que, si se observaba en una muestra, sería por ejemplo, los investigadores a menudo intentan rechazar una
significativo al nivel de .001. Se asumió que un “efecto pequeño” sería uno que hipótesis nula sospechosa antes de obtener un resultado significativo.
sería significativo al nivel de .05. Estos tamaños de efecto grandes y pequeños Los primeros intentos fallidos tienden a considerarse como estudios
corresponden a la potencia (1 piloto cuyos resultados no significativos proporcionan información
) niveles de aproximadamente .9 y .5, utilizada para mejorar el protocolo experimental. Sin embargo, cuando la
respectivamente. Los paneles en las filas superior, media e inferior presentan cálculos hipótesis nula es realmente cierta, estos intentos múltiples simplemente
para tres procedimientos diferentes de prueba de hipótesis (binomial, t prueba y brindan múltiples oportunidades para cometer un error de Tipo I. Otra
correlación). Los paneles de la izquierda muestran cálculos para experimentos con situación típica con múltiples oportunidades para rechazar hipótesis
tamaños de muestra más pequeños, y los de la derecha muestran cálculos para nulas surge cuando los investigadores prueban una cantidad de hipótesis
experimentos con tamaños de muestra más grandes. Una vez más, los patrones son nulas diferentes dentro de un solo experimento (por ejemplo,
notablemente consistentes en todos los tamaños de muestra y procedimientos de
prueba de hipótesis.

La Figura 4 muestra que la probabilidad de replicación agregada depende Como se ha discutido a menudo en la literatura sobre pruebas de hipótesis,
no solo de la pags valor en el experimento inicial, pero también —y con todos los escenarios con pruebas de hipótesis repetidas brindan múltiples
bastante fuerza— en la fuerza de la teoría utilizada para generar la hipótesis oportunidades para errores de Tipo I (ver, por ejemplo, Shaffer, 1995). Este
experimental en primer lugar. Por un lado, la probabilidad de replicación hecho es importante para los presentes propósitos porque la probabilidad de
agregada es mayor si más de los efectos sugeridos por la teoría son realmente replicación agregada es menor cuando hay una mayor probabilidad de que el
reales, siendo la probabilidad de replicación agregada especialmente baja en resultado inicial sea un error de Tipo I. Desafortunadamente, como se verá en
los ejemplos con solo un esta sección, es posible corregir el efecto contaminante del número de
. 1 probabilidad oportunidades (por ejemplo, con un ajuste de Bonferroni) solo haciendo
que un efecto sugerido es real. Por otro lado, la probabilidad de replicación agregada suposiciones sólidas y generalmente imposibles de contrastar sobre la solidez
suele ser mucho mayor cuando una teoría predice correctamente efectos mayores de la teoría subyacente al experimento inicial.
(líneas continuas) que cuando predice correctamente efectos más pequeños (líneas
discontinuas). Esto es de esperar, por supuesto, ya que la potencia aumenta con el
tamaño del efecto. Sin embargo, tenga en cuenta que la probabilidad de replicación Para tener una idea del tamaño del efecto "número de oportunidades", considere
agregada a los investigadores que trabajan con una teoría en
PAGS ROBABILIDAD DE R EPLICACIÓN 627

H:0 P. 5, norte 100 H:0 P. 5, norte 1.000


Gran efecto, .9 Pequeño efecto, .9
Gran efecto, .7 Pequeño efecto, .7
Gran efecto, .5 Pequeño efecto, .5
1 Gran efecto, .3 Pequeño efecto, .3 1
Gran efecto, .1 Pequeño efecto, .1
Probabilidad de replicación agregada

. 75 . 75

. 50 . 50

. 25 . 25

0 0
0 . 01 . 02 . 03 . 04 . 05 0 . 01 . 02 . 03 . 04 . 05

H:0 0, df 25 H:0 0, df 100

1 1
Probabilidad de replicación agregada

. 75 . 75

. 50 . 50

. 25 . 25

0 0
0 . 01 . 02 . 03 . 04 . 05 0 . 01 . 02 . 03 . 04 . 05

H:0 0, norte 25 H:0 0, norte 100

1 1
Probabilidad de replicación agregada

. 75 . 75

. 50 . 50

. 25 . 25

0 0
0 . 01 . 02 . 03 . 04 . 05 0 . 01 . 02 . 03 . 04 . 05

pags Valor pags Valor

Figura 4. Probabilidad de replicación agregada en función de la pags valor del experimento inicial y la fuerza de la teoría de fondo en la que se basó el
experimento inicial. El grosor de la línea representa la probabilidad de que un efecto sugerido sea real (), que varía de
. 9 para las líneas más gruesas . 1 para los más delgados. Las líneas continuas representan teorías cuyos efectos reales son mayores,
mientras que las líneas discontinuas representan teorías para las que estos efectos son menores. (Arriba) Probabilidad de rechazar la hipótesis nula PAGS .5
utilizando una prueba binomial con el tamaño de muestra indicado de norte 100 o 1000. (Medio) Probabilidad de rechazar la hipótesis nula de que
media o diferencia de medias 0 usando un t prueba con los 25 o 100 grados de libertad indicados ( df) por error. (Abajo) Probabilidad
de rechazar la hipótesis nula de que una correlación verdadera 0 para el tamaño de muestra indicado de norte 25 o 100.
628 METRO ILLER

qué exactamente la mitad de los efectos sugeridos son reales (es decir, concepto ambiguo. Puede interpretarse como la probabilidad de un
. 5). Suponga que cada investigador prueba un nulo dado resultado significativo para el efecto experimental específico en estudio
hipótesis a través de k oportunidades y obtiene exactamente un resultado (probabilidad de replicación "individual", o potencia) o como la probabilidad
significativo. Para cualquier tamaño del efecto real supuesto, el teorema de Bayes se de replicar un efecto seleccionado al azar de una gran población de efectos
puede usar nuevamente para calcular la probabilidad de replicación agregada, que podrían haber sido seleccionados. para estudio (probabilidad de
condicionada no solo a la pags valor del resultado inicial, sino también en el número replicación “agregada”). Dado que los valores numéricos de estas
de oportunidades (consulte el Apéndice A para obtener más detalles). La Figura 5 probabilidades pueden diferir, los investigadores deben al menos decidir
muestra los resultados de dichos cálculos para los mismos procedimientos de prueba cuál les gustaría estimar antes de intentar determinar un valor.
de hipótesis y tamaños de muestra usados para construir la Figura 4.

Esta misma distinción conceptual entre dos tipos de probabilidad de


Los resultados de la Figura 5 revelan una fuerte disminución en la replicación se puede hacer para cualquier enfoque inferencial, no solo
probabilidad de replicación agregada a medida que aumenta el número de NHST, aunque la definición precisa de "replicación" varía entre enfoques.
oportunidades, especialmente cuando pags El valor del resultado inicial está en el En las pruebas de hipótesis bayesianas (ver, por ejemplo, Wagenmakers,
rango de .05 a .01. Además, la figura revela una interacción entre el número de 2007), por ejemplo, un investigador podría considerar si un dato inicial
oportunidades y el tamaño de los efectos de la teoría que puede ser bastante
contradictorio. La probabilidad de replicación agregada disminuye rápidamente establecer favores H 0 o H 1, y una replicación podría definirse como un resultado
con el número de oportunidades para las teorías que predicen grandes efectos, experimental de seguimiento que favorece el mismo
mientras que disminuye bastante lentamente para las teorías que predicen hipótesis como el experimento inicial. Nuevamente, la probabilidad de
pequeños efectos. Esta interacción es tan grande que la probabilidad de replicación individual es la probabilidad de tal replicación dentro del
replicación agregada en realidad puede ser menor cuando las teorías sugieren paradigma experimental particular bajo consideración, mientras que la
efectos grandes (líneas continuas) que cuando sugieren efectos pequeños (líneas probabilidad de replicación agregada es la probabilidad general de tal
discontinuas). Este resultado sorprendente puede entenderse considerando las replicación para un experimento seleccionado al azar de un grupo grande.
implicaciones de las oportunidades no exitosas (es decir, no obtener resultados Como en el caso de NHST Probabilidades de replicación, la probabilidad
significativos). Si un efecto es grande cuando es real, varias fallas en realidad de replicación individual dependería solo del estado del mundo con
proporcionan evidencia bastante fuerte de que no hay un efecto real y, por lo respecto a un paradigma experimental particular, mientras que la
tanto, que el efecto significativo que se obtiene finalmente es solo un error de probabilidad de replicación agregada dependería de las características de
Tipo I. En ese caso, es igualmente poco probable que el efecto se repita. todo el grupo de experimentos de los cuales se seleccionó el inicial.

Otro ejemplo es el de Killeen (2005) pags reps estadística, que es una


estimación de la probabilidad de que una réplica
Quizás la conclusión más inquietante de la Figura 5 es que no hay forma ción producirá un efecto en la misma dirección que el experimento inicial
de corregir la probabilidad de replicación agregada estimada para el número (por ejemplo, una media experimental mayor que
de oportunidades sin hacer suposiciones muy específicas sobre la solidez de la media de control). El individuo pags reps es la probabilidad de tal
la teoría. Con una inicial pags valor de .03 obtenido después de tres pruebas replicación dentro del experimento particular
piloto no significativas, por ejemplo, uno podría ir al panel apropiado de la paradigma bajo consideración, mientras que el
Figura 5 y leer la probabilidad de replicación agregada correspondiente de la pags reps es la probabilidad de replicación en una gran cantidad de experimentos
línea más gruesa (es decir, “4 op.”). Pero el investigador tendría que asumir dentro de algún contexto experimental general.
el efecto pequeño o el efecto grande para saber cuál de estas dos líneas más Aunque Killeen (2005) no reconoció explícitamente
gruesas usar. Además, estas líneas se calcularon asumiendo que esta distinción, aparentemente pretendía su pags reps debe tomarse en el sentido
exactamente el 50% de los efectos sugeridos estaban realmente presentes, y de probabilidad de replicación individual, porque
las probabilidades de replicación agregadas también dependen de este lo derivó sin considerar explícitamente el contexto de investigación más
porcentaje (por ejemplo, en la Figura 4). Incluso cuando el investigador sabe amplio del que se seleccionó el experimento.
exactamente cuántas oportunidades hubo para obtener un resultado Análisis críticos de Killeen (2005) pags reps, Por otro lado, lo he analizado
significativo, la probabilidad de replicación agregada todavía no puede tanto en forma individual como agregada.
calcularse adecuadamente en la práctica, porque estos aspectos influyentes términos sin enfatizar la distinción entre estos dos sentidos (por ejemplo,
de la solidez de la teoría son desconocidos. 6 Doros y Geier, 2005; Iverson, Lee y Wagenmakers, 2009; Iverson,
Wagenmakers y Lee, en prensa). Descuidar esta distinción puede
exacerbar las diferencias
dificultad de comprensión pags reps, especialmente cuando se consideran ambos
sentidos en la discusión.
DISCUSIÓN GENERAL
Las probabilidades de replicación son principalmente desconocidas
Dos significados de "probabilidad de replicación" A nivel práctico, los resultados actuales ilustran varios hechos que
Los resultados de esta investigación resaltan las complejidades deben disuadir a los investigadores de intentar estimar cualquiera de estos
conceptuales y prácticas que los investigadores deben enfrentar al intentar dos tipos de probabilidad de replicación. Con respecto a la probabilidad de
estimar la probabilidad de replicar un resultado inicial significativo. replicación individual, el problema es que los datos iniciales generalmente
Conceptualmente, el problema más importante es que la "probabilidad de brindan muy poca información sobre la probabilidad de replicar la
replicación" es una
PAGS ROBABILIDAD DE R EPLICACIÓN 629

H:0 P. 5, norte 100 H:0 P. 5, norte 1.000


Gran efecto, 1 op. Gran Pequeño efecto, 1 op.
efecto, 2 op. Gran Pequeño efecto, 2 op.
efecto, 3 op. Gran Pequeño efecto, 3 op.
1 1
efecto, 4 op. Pequeño efecto, 4 op.
Probabilidad de replicación agregada

. 75 . 75

. 50 . 50

. 25 . 25

0 0
0 . 01 . 02 . 03 . 04 . 05 0 . 01 . 02 . 03 . 04 . 05

H:0Δ 0, df 25 H:0Δ 0, df 100

1 1
Probabilidad de replicación agregada

. 75 . 75

. 50 . 50

. 25 . 25

0 0
0 . 01 . 02 . 03 . 04 . 05 0 . 01 . 02 . 03 . 04 . 05

H:0 0, norte 25 H:0 0, norte 100

1 1
Probabilidad de replicación agregada

. 75 . 75

. 50 . 50

. 25 . 25

0 0
0 . 01 . 02 . 03 . 04 . 05 0 . 01 . 02 . 03 . 04 . 05

pags Valor pags Valor

Figura 5. Probabilidad de replicación agregada en función de la pags valor del experimento inicial, el número de oportunidades para obtener resultados significativos (op.), el tamaño del efecto
real cuando está presente y el tamaño de la muestra del experimento. En todos los casos, se asumió que los efectos reales estaban presentes para el 50% de las hipótesis nulas probadas. Las líneas
continuas representan teorías para las que los efectos reales son mayores, mientras que las líneas discontinuas representan teorías para las que estos efectos son menores. (Arriba) Probabilidad de
rechazar la hipótesis nula PAGS .5
utilizando una prueba binomial con el tamaño de muestra indicado de norte 100 o 1000. (Medio) Probabilidad de rechazar la hipótesis nula de que
media o diferencia de medias 0 usando un t prueba con los 25 o 100 grados de libertad indicados ( df) por error. (Abajo) Probabilidad
de rechazar la hipótesis nula de que una correlación verdadera 0 para el tamaño de muestra indicado de norte 25 o 100.
630 METRO ILLER

dar como resultado un experimento de seguimiento idéntico, al menos cuando el efecto observado y de los límites superior e inferior de un intervalo de confianza del
resultado inicial no es demasiado significativo (es decir, cuando 95% para el efecto real, por lo que son análogos a las probabilidades de replicación
. 005 pags . 05). Aunque es posible y conveniente individuales. Lo que quizás sea sorprendente es que la probabilidad de un efecto
Para estimar la probabilidad de replicación asumiendo que el efecto verdadero significativo puede ser bastante alta en el seguimiento, alrededor de 0,5, incluso si
coincide con el del resultado significativo inicial, dicha estimación ignora la prácticamente no hubo ningún efecto en el experimento inicial (es decir, pags nivel
variabilidad estadística de ese resultado inicial. Es casi seguro que el efecto real cercano a 1.0). Una vez más, el amplio rango de probabilidades más bajas a más
es algo mayor o menor de lo que se observó inicialmente, por lo que la altas simplemente refleja la incertidumbre estadística con respecto al tamaño del
probabilidad de replicación real es casi con certeza diferente del valor estimado efecto real. Las incertidumbres destacadas en este artículo también tienen
bajo este supuesto. Teniendo en cuenta la variación estadística entre el efecto implicaciones con respecto al uso de estudios piloto para obtener estimaciones de
observado y el efecto real, los resultados iniciales parecen, en la mayoría de los potencia, que son análogas a las probabilidades de replicación individuales. Es
casos, ser compatibles con una gama alarmantemente amplia de posibles posible que los investigadores que se embarcan en una nueva línea de
probabilidades de replicación individual, que van desde casi 0 en el peor de los experimentación deseen realizar pequeños estudios piloto para obtener estimaciones
casos a casi 1 en el mejor (cf. Figura 3). En otras palabras, dados la mayoría de iniciales del tamaño del efecto en las que basar los cálculos de potencia para un
los conjuntos de resultados iniciales, la probabilidad de replicación individual es estudio principal que seguirá. La tentación de hacer esto sin duda se ve incrementada
esencialmente desconocida, y los investigadores deberían tener poca confianza por las exhortaciones para calcular el poder post hoc (por ejemplo, Greenwald et al.,
en cualquier estimación del mismo. Quizás esta conclusión no debería 1996; Onwuegbuzie & Leech, 2004) y por la disponibilidad de software conveniente
sorprender, dada la fuerte dependencia del poder sobre el tamaño del efecto. para realizar los cálculos relevantes (por ejemplo, SPSS, 2006). . Los presentes
Antes del estudio inicial, el investigador ni siquiera estaba seguro de si el efecto resultados sugieren, sin embargo, esos estudios piloto rara vez serán útiles para este
estaba presente. La simple obtención de información suficiente para establecer propósito, porque no proporcionarán restricciones lo suficientemente estrechas sobre
que está presente no proporciona necesariamente información muy precisa sobre el tamaño del efecto como para restringir mucho el poder. Aunque, por supuesto, se
su tamaño exacto. puede utilizar el tamaño del efecto observado en un estudio piloto para estimar la
potencia, el valor de potencia estimado resultante podría ser bastante engañoso
debido a un error estadístico en la estimación del tamaño del efecto (véanse las
Figuras 3 y 6). Hay muchas razones para realizar estudios piloto, pero obtener un
Con respecto a la probabilidad de replicación agregada, la tamaño del efecto estimado para los cálculos de potencia no parece ser una de ellas.
Un hecho desalentador es que pags real academia de bellas artes depende en gran medida de Los investigadores que quieran estimar la potencia a partir de estudios piloto deberían
la solidez de la teoría que sugirió la experiencia inicial al menos calcular un intervalo de confianza para el tamaño del efecto real y luego
ment. Si la teoría es relativamente sólida, en el sentido de que sus efectos calcular las estimaciones de potencia del mejor y del peor caso correspondientes a
sugeridos están presentes en su mayoría y son grandes, la probabilidad de los límites de este intervalo. que tales estudios piloto rara vez serán útiles para este
replicación agregada puede ser bastante alta. Si la teoría es relativamente débil, lo propósito, porque no proporcionarán restricciones lo suficientemente estrechas sobre
que sugiere efectos que en su mayoría son pequeños o ausentes, esta el tamaño del efecto como para restringir mucho el poder. Aunque, por supuesto, se
probabilidad puede ser bastante baja. En la práctica, por supuesto, los puede utilizar el tamaño del efecto observado en un estudio piloto para estimar la
investigadores a menudo trabajan con teorías relativamente nuevas, por lo que potencia, el valor de potencia estimado resultante podría ser bastante engañoso
tienen poca o ninguna base para juzgar la solidez de la teoría, y esto limita debido a un error estadístico en la estimación del tamaño del efecto (véanse las
severamente su capacidad para estimar la probabilidad de replicación agregada. Figuras 3 y 6). Hay muchas razones para realizar estudios piloto, pero obtener un tamaño del efecto estima
El problema es aún peor cuando hubo dos o más oportunidades para obtener el
resultado significativo inicial. La probabilidad de replicación agregada no solo Metanálisis y
depende del número de oportunidades, sino que la magnitud de este efecto de Probabilidad de replicación agregada
"número de oportunidades" también depende en gran medida de la solidez de la Dada la importancia de la solidez de la teoría para la probabilidad de
teoría (véase la Figura 5). replicación agregada, se podría intentar evaluar esta solidez
empíricamente para mejorar las estimaciones de pags real academia de bellas artes. Con
suficientes revisiones de la literatura y metanálisis (p. Ej., Cohen, 1962;
La conclusión práctica general de la presente investigación de las Lipsey y Wilson, 1993; Richard, Bond y Stokes-Zoota,
probabilidades de replicación individuales y agregadas es que los 2003), eventualmente podría ser posible formular suposiciones razonables sobre
investigadores simplemente no pueden esperar tener una buena estimación la solidez de una teoría. Por ejemplo, se podría estimar empíricamente qué
de la probabilidad de replicar un efecto significativo inicial en cualquiera de proporción de resultados iniciales significativos en un área resultan ser replicados.
estos dos sentidos de "probabilidad de replicación". Si bien sería muy Por muy atractivo que parezca este enfoque, el problema de los artefactos de
conveniente poder estimar estas probabilidades de replicación a partir de los selección le crea obstáculos importantes. Por ejemplo, el sesgo en contra de la
resultados iniciales, existe demasiada variabilidad y demasiadas incógnitas publicación de resultados no significativos tiende a significar que los efectos
para que este objetivo sea alcanzable. publicados son, en promedio, más grandes que los efectos verdaderos (ver, por
ejemplo, Rosenthal, 1979). Tal sesgo funciona para hacer que las teorías que
Aunque el presente artículo se ha centrado en la probabilidad de replicar un predicen estos efectos parezcan más fuertes de lo que realmente son. Como
efecto inicial significativo, se podrían hacer argumentos muy similares sobre la ejemplo adicional, considere los sesgos que influirían en que los investigadores
probabilidad de obtener un efecto significativo después de un resultado inicial no seleccionen un efecto para estudiar en un metanálisis. No se seleccionaría ningún
significativo (es decir, pags . 05). Por ejemplo, la Figura 6 muestra tres efecto realmente grande, porque tales efectos son tan fáciles de establecer que el
estimaciones de la probabilidad de un efecto significativo en un experimento de metanálisis es innecesario. Además, es poco probable que se seleccionen muchos
seguimiento después de un resultado inicial no significativo, en función de la pags valor
efectos realmente inexistentes. Dichos efectos, por definición, solo se observan
en el experimento inicial. Como en la Figura 3, las tres estimaciones de
probabilidad se calcularon a partir de
PAGS ROBABILIDAD DE R EPLICACIÓN 631

UN H:0 P. 5 segundo H:0 Δ 0


norte 100 Estimado de: df 25
norte 500 Límite superior df 50
0

0
norte 1.000 Efecto observado df 100
1 Límite inferior 1
Probabilidad estimada de rechazo H

Probabilidad estimada de rechazo H


. 75 . 75

. 50 . 50

. 25 . 25

0 0 . 05
. 05 .2 .4 .6 .8 .2 .4 .6 .8
pags Valor pags Valor

C H:0 0
norte 25

norte 50
0

norte 100
1
Probabilidad estimada de rechazo H

. 75

. 50

. 25

0 . 05
.2 .4 .6 .8

pags Valor

Figura 6. Tres estimaciones de la probabilidad de rechazar la hipótesis nula en un experimento de replicación idéntico en función de la pags valor de un
experimento inicial no significativo (es decir, pags . 05). El formato de esta figura es idéntico al de
Figura 3, excepto que el rango del eje horizontal corresponde a resultados iniciales no significativos.

significativamente a la tasa de error de Tipo I. Los numerosos 1993). A partir de ese hecho, concluyó que “los estudios empíricos han
resultados negativos que surgen de las investigaciones iniciales de demostrado ahora que la hipótesis nula rara vez es cierta” (Hunter, 1997, p. 5).
estos efectos desanimarían a los investigadores a emprender Sin embargo, esta conclusión no es válida porque estos metanálisis verificaron un
suficientes estudios adicionales para respaldar un metanálisis. Por conjunto sesgado de hipótesis nulas (es decir, las que recibieron metanálisis).
lo tanto, parece claro que los metanálisis tenderán a examinar Las hipótesis nulas pueden haber sido ciertas para bastantes efectos que
efectos que son pequeños pero reales en lugar de examinar una recibieron muy poca investigación empírica como para justificar un metaanálisis.
sección representativa de todos los efectos que se han estudiado.
Debido a tales sesgos en la selección de efectos para el
metanálisis, no se puede utilizar una encuesta de los metanálisis
existentes para hacer inferencias sobre el tamaño probable de todos Implicaciones para NHST
los efectos experimentales. Estas influencias del sesgo de muestreo ¿Cuáles son las implicaciones de la probabilidad de replicación incierta para
sobre los temas elegidos para el metanálisis son fáciles de pasar el debate más amplio sobre la utilidad de la NHST como herramienta estadística
por alto. Hunter (1997), por ejemplo, (por ejemplo, Estes, 1997; Fraley y Marks, 2007; Krueger, 2001; Morgan, 2003;
Nickerson, 2000)? NHST ha sido criticado previamente porque pags los valores
son
632 METRO ILLER

“Muy poco confiable” (Cumming, 2008, p. 286); es decir, tienden a variar ción, la probabilidad de replicación individual se estima a partir de cada resultado
ampliamente entre réplicas idénticas de un experimento dado. Además, ahora experimental suponiendo que la proporción de población real PAGS coincide
parece que el pags value proporciona relativamente poca información sobre la exactamente con el valor observado (es decir, yo/ 100), por lo que cada valor
probabilidad de replicación. Ciertamente, es tentador concluir que estas observado en el panel A
incertidumbres indican fallas profundas dentro del propio NHST (por ejemplo, corresponde a uno estimado pags Rhode Island. Como se señaló en el anterior
Cumming, 2008; Sohn, 1998; Thompson, 1996). Por muy convincentes que sección, estos pags Rhode Island Los valores son los mismos que los valores de potencia
puedan parecer estas críticas, en realidad es bastante injusto considerarlas como post hoc (p. ej., Onwuegbuzie & Leech, 2004) y se observan
indicativas de un problema exclusivo de NHST. La falta de fiabilidad de pags Los valores de potencia (SPSS, 2006), y se pueden calcular si el resultado del
valores y la incertidumbre de las probabilidades de replicación surgen puramente experimento inicial es significativo o no. El panel D muestra la probabilidad
del error de muestreo, no de fallas en NHST. Después de todo, pags los valores y de replicación agregada, que se estima a partir de los resultados observados
las probabilidades de replicación estimadas son simplemente estadísticas utilizando la Ecuación 8, en este caso para un ejemplo arbitrario con
calculadas a partir del conjunto general de resultados experimentales. Estas igualmente
cantidades varían entre las réplicas precisamente porque los resultados Probables probabilidades previas de las hipótesis alternativas. H 0:
generales varían, y esta misma variabilidad de muestreo crea una incertidumbre PAGS . 5 y H 1: PAGS . 6.
comparable con respecto a las medidas asociadas con cualquier otra técnica El punto importante ilustrado por los paneles C y D es que ambos tipos de
inferencial. probabilidad de replicación estimada varían sustancialmente de una replicación a
la siguiente, lo que ilustra además el hecho de que ninguna probabilidad de
replicación verdadera puede estimarse con mucha precisión a partir de los
resultados de un solo experimento. Sin embargo, una vez más, la incertidumbre
La Figura 7 ilustra este argumento de manera concreta usando el sobre estas probabilidades de replicación se puede rastrear directamente a la
ejemplo de un experimento binomial con 100 ensayos. El panel A ilustra la variabilidad muestral de yo, porque hay un mapeo uno a uno de los puntos en el
distribución muestral de la medida de resumen más básica del resultado panel A a los de los paneles C
experimental: el número observado de éxitos, yo. La probabilidad de cada
resultado yo depende de la verdadera probabilidad de éxito, PAGS, y D. Por lo tanto, la incertidumbre asociada con pags Rhode Island y pags real academia de bellas artes
también refleja la variabilidad inherente a la investigación experimental
como lo ilustran las diferentes distribuciones muestrales para resultados en lugar de un defecto específico de NHST.
PAGS . 51 y PAGS . 59. Cada distribución se traza como una secuencia Finalmente, los paneles E y F ilustran una variación equivalente en otros
varios puntos para enfatizar el hecho de que existe un conjunto discreto de posibles dos tipos de medidas de resumen que se han sugerido como mejoras sobre las
resultados experimentales, yo 0, 1,. . . , 100. De estas distribuciones de probabilidad NHST. pags valores. El panel E muestra la variación en un binomio análogo al
se desprende claramente que el número observado de éxitos puede variar de Killeen (2005)
ampliamente entre réplicas idénticas (es decir, con un valor fijo de PAGS). pags reps. Como se mencionó anteriormente, Killeen (2005) consideró las diferencias
en las medias de los grupos experimental versus control, y
El panel B muestra las distribuciones muestrales correspondientes para definió la probabilidad de replicación, pags reps, en términos de la
otra medida de resumen de los resultados experimentales, a saber, la pags probabilidad de replicar un efecto de una di-
valor obtenido al probar el reacción del efecto (es decir, si la media de control o experimental era
hipótesis nula H 0: PAGS . 5. Cada experimento pags El valor depende solo de mayor). Para un experimento binomial diseñado para
su número observado de éxitos, por lo que hay evaluar H 0: PAGS . 5, análogo pags reps puede definirse como la probabilidad
es un mapeo uno a uno desde los puntos en el panel A hasta los puntos en el de más del 50% de éxitos, y esto puede ser
panel B, como se ilustra con la flecha que muestra el pags valor calculado para yo estimada asumiendo que la probabilidad verdadera coincide con la proporción
44. 7 observada de éxitos (es decir, yo/ 100), como se hizo para el panel C. Al igual que
La inspección del panel B muestra que pags los valores varían ampliamente entre con todas las otras medidas de resumen
las repeticiones de un experimento idéntico. Con PAGS seguros, pags reps Las estimaciones varían sustancialmente entre las repeticiones
. 51, por ejemplo (cuadrados abiertos), una réplica dada podría producir un pags valor debido a la variación en el número observado de éxitos
aproximándose a cualquiera de las dos posibilidades extremas (es decir, 0 o 1). a partir del cual se calculan. 8
Esta variabilidad muestra claramente la falta de fiabilidad de pags valores que fue De manera similar, el panel F muestra una variación en el factor de Bayes (ver,
enfatizado por Cumming (2008). Críticamente, sin embargo, el mapeo uno a uno por ejemplo, Kass y Raftery, 1995), otra medida que se ha sugerido como una mejora
de los puntos en el panel A a los puntos en el panel B hace que sea obvio que la
con respecto a pags valores (por ejemplo, Wagenmakers, 2007; ver también Glover &
variabilidad de pags valores es un reflejo directo de la variación subyacente en el
Dixon, 2004, para una propuesta similar). En resumen, el factor de Bayes es una
número de éxitos observado. En resumen, el problema de los pags valores es
medida de la probabilidad relativa del conjunto de datos bajo cada una de las dos
simplemente otra manifestación del problema de la variabilidad muestral. La falta
hipótesis en competencia, elegidas arbitrariamente para este ejemplo.
de fiabilidad análoga afecta necesariamente a todas las medidas calculadas a
partir de las estadísticas de muestra relevantes, como se ilustra en los paneles
ser - estar H 0: PAGS . 5 versus lo particular H 1: PAGS .registro
6. Un
C-F, por lo que esta falta de fiabilidad no es en modo alguno peculiar de NHST.
El factor de Bayes de 1, por ejemplo, significa que los datos son 10 1
10 veces más probable bajo una hipótesis que con la otra, y los
bayesianos considerarían esta evidencia positiva para la hipótesis favorecida (por
ejemplo, Raftery, 1995). El factor de Bayes también se calcula directamente a
Los paneles C y D ilustran una variabilidad análoga en los problemas partir del número de éxitos, por lo que también varía entre las repeticiones de una
estimados de replicación individual y agregada. manera que se deriva completamente de la variación de yo ( panel A). Con un
habilidades, pags Rhode Island y pags real academia de bellas artes, respectivamente. Como se verdadero PAGS de .51, por ejemplo, se pueden observar 49 éxitos
discutió en la sección Estimación de la probabilidad de replicación individual
PAGS ROBABILIDAD DE R EPLICACIÓN 633

PAGS . 51 PAGS . 59

UN segundo
. 08 . 08

. 06 . 06
Probabilidad

. 04 . 04

. 02 . 02

50 55 60 50 55 60
0 0
40 50 60 70 1 .5 0
Número de éxitos, yo pags Valor

C re
. 08 . 08

. 06 . 06
Probabilidad

. 04 . 04

. 02 . 02

50 55 60 50 55 60
0 0
0 .5 1 0 .5 1
pags pags
Rhode Island real academia de bellas artes

mi F
. 08 . 08

. 06 . 06
Probabilidad

. 04 . 04

. 02 . 02

50 55 60 50 55 60
0 0
0 .5 1 4 2 0 2 4
pags Registro (factor de Bayes)
reps 10

Figura 7 Las distribuciones muestrales de varias medidas de resultado que podrían usarse para resumir los resultados de un experimento binomial con
100 ensayos. Cada distribución se muestra como una serie de puntos discretos para enfatizar el hecho de que tal experimento tiene resultados discretos
correspondientes a diferentes números enteros de éxitos (es decir, 0-100). La probabilidad de cada resultado se muestra en el eje vertical en todos los
paneles, por separado para ejemplos en los que la verdadera probabilidad de éxito es PAGS
. 51 o .59. (A) Distribuciones muestrales del número de éxitos, yo.
Las distribuciones muestrales en todos los demás paneles reflejan este mismo conjunto discreto de resultados, con un mapeo uno a uno entre los puntos
para cada par de paneles. Por ejemplo, las flechas que unen el panel A con los paneles B y C ilustran este mapeo vinculando los puntos correspondientes
asociados con el resultado. yo 44.Para facilitar la visualización
Alización del mapeo uno a uno en todos los paneles, los resultados correspondientes a yo 50, 55 y 60 éxitos
se indican a lo largo del eje horizontal de cada panel. (B) Distribuciones muestrales de pags valores para pruebas de hipótesis nula PAGS
. 5, de una cola, contra la alternativa que PAGS . 5. Tenga en cuenta que el eje horizontal se ha invertido
de modo que los resultados más significativos se muestran en el extremo derecho, correspondientes al mayor yo valores. (C) Muestreo
distribuciones de probabilidad de replicación individual estimada, pags Rhode Island. Específicamente, pags Rhode Island es la probabilidad estimada de rechazar H 0: PAGS . 5 (
. 05, de una cola), asumiendo que el verdadero PAGS el valor corresponde exactamente al número observado
de éxitos, PAGS yo/ 100. (D) Distribuciones muestrales de la probabilidad de replicación agregada estimada, pags real academia de bellas artes, calculado
usando la Ecuación 8 bajo el supuesto de dos hipótesis alternativas igualmente probables H 0: PAGS . 5 contra H 1: PAGS . 6.
(E) Distribución muestral de una probabilidad estimada de replicación análoga a la propuesta por Killeen (2005),
pags reps. pags reps es la probabilidad de observar más de 50 éxitos, más la mitad de la probabilidad de observar exactamente 50 éxitos, bajo el
supuesto de que el verdadero PAGS es la proporción observada de éxitos yo/ 100. (F) Muestreo
distribuciones del factor de Bayes El factor de Bayes es el cociente de las probabilidades de la observada yo valor bajo dos hipótesis en competencia, H 1: PAGS
. 6 contra H 0: PAGS . 5, trazado en una escala logarítmica para mejorar su apariencia.
634 METRO ILLER

y concluir que hubo evidencia positiva a favor de H 0 y reduciendo el error de medición, no mejorando el estado
(es decir, factor de registro de Bayes 1.06), o se podría observar técnicas estadísticas. Sin embargo, los diferentes métodos inferenciales pueden ser
61 éxitos y concluir que hubo evidencia positiva en especialmente adecuados para responder a diferentes preguntas. Por ejemplo,
favor de H 1 ( log factor de Bayes 1,05). Por lo tanto, los factores de Bayes también son NHST está orientado a evaluar la plausibilidad de una hipótesis particular (nula) de
bastante variables, al igual que las medidas basadas en NHST. forma aislada, mientras que los métodos bayesianos enfatizan las comparaciones
seguros, debido al error de muestreo asociado con el número entre dos o más hipótesis alternativas. Sin embargo, la mayoría de los métodos
subyacente de éxitos. estándar se basan en los mismos valores de resumen de la muestra subyacente (es
En resumen, la lección principal ilustrada por la Figura 7 es que todas las decir, las llamadas estadísticas "suficientes" que capturan toda la información
medidas derivadas de los resultados experimentales generales están sujetas a relevante disponible en la muestra), por lo que son igualmente sensibles a la
la variabilidad natural inherente a esos resultados. Es injusto señalar a NHST variabilidad del muestreo en el punto de sacar inferencias a partir de nuevos datos.
por la crítica de que su pags los valores, las probabilidades de replicación y
otras medidas son "poco fiables"; estas medidas no son menos fiables que los
resultados experimentales a partir de los cuales se calculan. La variabilidad
exactamente correspondiente está presente en otros enfoques inferenciales Preciso pags Valores versus probabilidades de replicación
(por ejemplo, factores de Bayes), por lo que las incertidumbres asociadas con desconocidas: ¿un doble estándar?
las probabilidades de replicación no tienen implicaciones directas para la Dada la variabilidad muestral presente en todas las medidas inferenciales
controversia sobre cuál enfoque inferencial es el mejor. De hecho, la utilizadas para resumir los resultados experimentales, puede parecer extraño
correspondencia uno a uno de cada medida con el número de éxitos, yo, implica que las técnicas inferenciales se basen en evaluaciones muy precisas de los
que las medidas en los diferentes paneles están todas monótonamente resultados experimentales particulares observados. Al utilizar NHST, por
relacionadas entre sí dentro de un diseño experimental dado. Por lo tanto, ejemplo, los investigadores rechazan la hipótesis nula si el pags El valor es
aunque estas medidas pueden tener varianzas numéricamente diferentes, .049 pero no si es .051, a pesar de la posibilidad obvia de que una réplica
todas las medidas proporcionan exactamente la misma información sobre el arrojaría un resultado al otro lado del límite de .05. De manera similar, un
resultado experimental, en el sentido técnico de "transmisión de información" investigador que utilice métodos bayesianos podría concluir que los datos
de Shannon y Weaver (1949). Tenga en cuenta, por ejemplo, que las curvas aumentan la probabilidad
de las verdaderas proporciones de éxito de PAGS . 51 y PAGS . 59 se cruzan en
el mismo resultado experimental en todos los paneles (es decir, el resultado de H 1 relativo a H 0 por un factor de exactamente (digamos) 10,43,
correspondiente a yo a pesar de la posibilidad de que una
contrarrestar esa evidencia por completo, favoreciendo H 0 encima H 1 por el mismo
margen. Incluso los intervalos de confianza, que explícitamente
Reconocer claramente la incertidumbre involucrada en la generalización de
55), por lo que todas las medidas producenmuestras a poblaciones proporcionando un rango de valores posibles para un
particiones equivalentes de los resultados en los que favorecen parámetro de población, se calculan con precisión. Por ejemplo, el intervalo de
PAGS . 51 contra los que favorecen PAGS . 59. En este sentido, la confianza para una media podría cubrir el rango preciso 287,3–423,7. ¿Qué
Las diferentes formas de resumir un conjunto de datos dado son todas equivalentes justifica el cálculo de valores tan precisos a partir de resultados de tales
en términos de información. variables? ¿Estamos, como sugirió un revisor, aplicando un "doble rasero"
La equivalencia informativa de las diferentes medidas en la Figura 7 cuando afirmamos conocer el pags valor con precisión, pero tener poca idea
no siempre ha sido plenamente reconocida. del problema de replicación
afilado. Al hablar de Killeen's (2005) pags reps, por ejemplo,
Wagenmakers (2007) señaló correctamente que "el pags reps la estadística se habilidades pags Rhode Island y pags ¿real academia de bellas artes?
puede obtener de la NHST pags valor por un simple De ningún modo. Cálculos precisos a partir de re-
transformación ”(p. 780). Parecía concluir de resultados, incluyendo pags valores, resumen la información obtenida de la
esta equivalencia, sin embargo, que “ pags reps hereda todos los muestra, que de hecho se conoce con gran precisión. En un experimento
pags problemas de valor ”(p. 780) y, por lo tanto, debe ser defectuoso. dado con 100 ensayos binomiales, por ejemplo, se observa exactamente el
También considerando el trabajo de Killeen (2005), Doros y Geier (2005) número de éxitos obtenidos en esa muestra. De ese número, el exacto pags
comentaron de manera similar que “cualquier medida que no sea más que una El valor asociado con esa muestra también puede ser
simple transformación de la pags valor (véase el apéndice de Killeen [2005])
heredará las deficiencias de ese pags valor ”(pág. 1006). Sin embargo, según calculado, al igual que los valores exactos para pags reps, el factor de Bayes, y
este razonamiento, cualquier otra medida derivada de yo también podría cualquier otro resumen de los resultados en esa muestra. los
pags El valor, por ejemplo, indica con precisión cuán inusuales son los datos
heredar estos problemas, incluyendo no solo pags reps pero también las medidas observados en particular, dadas las predicciones de la hipótesis nula. De manera
bayesianas (por ejemplo, panel F) a menudo se presentan como similar, el factor de Bayes indica con precisión qué tan probables son esos datos
una mejora. particulares bajo cada una de las dos hipótesis alternativas. Por lo tanto, la pags El
De hecho, esta equivalencia informativa puede resultar bastante sorprendente, valor, el factor de Bayes y otras medidas de resumen asociadas con la muestra
porque intuitivamente esperamos que métodos más sofisticados de análisis actual se pueden determinar exactamente a partir de los resultados ya recopilados,
estadístico sean más exitosos para superar la variabilidad. Desafortunadamente, al igual que se conoce exactamente el número observado de éxitos.
incluso los mejores métodos estadísticos tienen una resolución limitada debido a la
variabilidad de los datos básicos que se analizan. En última instancia, la
variabilidad debe superarse aumentando el tamaño de la muestra A diferencia de las características de la muestra, las características de la
población no se conocen con exactitud una vez que
PAGS ROBABILIDAD DE R EPLICACIÓN 635

muestra se ha observado, y es por eso que pags Rhode Island y pags real academia de bellas artes Falk, R. ( 1998). Replicación: un paso en la dirección correcta: comentario sobre Sohn. Teoría
no se conocen con exactitud aunque pags es. Problema de replicación y Psicología, 8, 313-321.
Faul, F., Erdfelder, E., Lang, A.-G. y Buchner, A. ( 2007). G * Power 3: un programa flexible de
Las habilidades se utilizan para predecir lo que sucederá con las muestras
análisis de poder estadístico para las ciencias sociales, del comportamiento y biomédicas. Métodos
futuras, por lo que requieren conocimiento sobre toda la población, no solo sobre de investigación del comportamiento, 39, 175-191.
la muestra actual. Las probabilidades de replicación se pueden estimar a partir
de una muestra, al igual que las proporciones o medias de la población, pero el Fraley, RC y Marks, MJ ( 2007). El debate sobre la prueba de significación de la hipótesis nula y
sus implicaciones para la investigación de la personalidad. En RW Robins, RC Fraley y RF
error asociado con estas estimaciones puede ser bastante grande (ver, por
Krueger (Eds.), Manual de métodos de investigación en psicología de la personalidad ( págs.
ejemplo, la Figura 3). Por tanto, los cálculos precisos con datos de muestra
149-169). Nueva York: Guilford.
llevan a conclusiones imprecisas sobre las poblaciones. Esto no refleja un doble
estándar, sino que simplemente refleja los diferentes niveles de conocimiento del Froman, T. y Shneyderman, A. ( 2004). Replicabilidad reconsiderada: un abanico excesivo de

investigador sobre la muestra y la población. posibilidades. Comprensión de las estadísticas, 3, 365-373.


Glover, S.y Dixon, P. ( 2004). Razones de probabilidad: una estadística simple y flexible
para psicólogos empíricos. Boletín y revisión psiconómica, 11, 791-806.

Gorroochurn, P., Hodge, SE, Heiman, GA, Durner, M. y Greenberg, DA ( 2007). No


AUTORNOTE replicación de estudios de asociación: ¿“Pseudo-fallas” para replicar? Genética
en Medicina, 9, 325-331.
Agradezco a Joachim Krueger, Wolf Schwarz, Rolf Ulrich, Esther Vierck, Eric-Jan
Greenwald, AG, González, R., Harris, RJ y Guthrie, D.
Wagenmakers y a un revisor anónimo por sus comentarios constructivos sobre versiones
(1996). Tamaños de efecto y pags valores: ¿Qué se debe informar y qué se debe
anteriores del artículo. La correspondencia relacionada con este artículo debe dirigirse a J. Miller,
replicar? Psicofisiología, 33, 175-183.
Departamento de Psicología, Universidad de Otago, Dunedin, Nueva Zelanda (correo electrónico:
Guttman, L. ( 1977). Qué no es qué en estadística. Estadístico, 26,
miller@psy.otago
81-107.
. ac.nz).
Haller, H. y Kraus, S. ( 2002). Malentendidos de importancia: ¿un problema que los estudiantes

REFERENCIAS comparten con sus profesores? Métodos de investigación psicológica, 7, 1-20.

Abelson, RP ( 1997). Sobre la sorprendente longevidad de los caballos azotados: por qué existe un Harris, RJ ( 1997). Las pruebas de significación tienen su lugar. Ciencia psicológica, 8, 8-11.
caso para la prueba de significancia. Ciencia psicológica,
8, 12-15. Hays, WL ( 1988). Estadísticas ( 4a ed.). Nueva York: Holt, Rinehart & Winston.
Agresti, A. ( 2002). Análisis de datos categóricos ( 2a ed.). Nueva York:
Wiley-Interscience. Hoenig, JM y Heisey, DM ( 2001). El abuso de poder: la omnipresente falacia de los cálculos de
Ayton, P. y Fischer, I. ( 2004). La falacia de la mano caliente y la falacia del jugador: ¿dos poder para el análisis de datos. Estadístico estadounidense, 55, 19-24.
caras de la aleatoriedad subjetiva? Memoria y cognición,
32, 1369-1378. Hogg, RV y Craig, AT ( 1970). Introducción a la estadística matemática ( 3a ed.).
Batanero, C. ( 2000). Controversias en torno al papel de las pruebas estadísticas en la investigación Nueva York: Macmillan.
experimental. Pensamiento y aprendizaje matemático, 2, 75-97. Huberty, CJ y Pike, CJ ( 1999). Sobre algunos antecedentes relacionados con las pruebas estadísticas.
Boynton, DM ( 2003). Respuesta supersticiosa y emparejamiento de frecuencia en los efectos de En B. Thompson (Ed.), Avances en la metodología de las ciencias sociales ( Vol. 5, págs.1-22).
sesgo positivo y falacia del jugador. Comportamiento organizacional y procesos de decisión Stamford, CT: JAI Press.
humana, 91, 119-127. Hunter, JE ( 1997). Necesario: Prohibición de la prueba de significancia. Ciencia psicológica, 8, 3-7.
Cohen, J. ( 1962). El poder estadístico de la investigación psicológica social anormal:
una revisión. Revista de psicología social y anormal, Ioannidis, JPA ( 2005). Por qué la mayoría de los hallazgos de investigación publicados son falsos. PLoS
sesenta y cinco, 145-153. Medicine, 2, 696-701.
Cohen, J. ( 1988). El análisis del poder estadístico para las ciencias de la conducta Iverson, GJ, Lee, MD y Wagenmakers, E.-J. ( 2009). pags reps desestima la
(2ª ed.). Hillsdale, Nueva Jersey: Erlbaum. probabilidad de replicación. Boletín y revisión psiconómica,
Cohen, J. ( 1992). Una cartilla poderosa. Boletín psicológico, 112, 155-159. dieciséis, 424-429.
Cohen, J. ( 1994). La tierra es redonda ( pags . 05). Psicólogo estadounidense, Iverson, GJ, Wagenmakers, E.-J. y Lee, MD ( en prensa). Un modelo
49, 997-1003. enfoque de promediado para la replicación: el caso de pags reps. Métodos psicológicos.
Cumming, G. ( 2005). Comprensión de la probabilidad media de replicación: comentario sobre
Killeen (2005). Ciencia psicológica, dieciséis, 1002- Kass, RE y Raftery, AE ( 1995). Factores de Bayes. Revista de la Asociación Estadounidense
1004. de Estadística, 90, 773-795.
Cumming, G. ( 2008). Replicación y pags intervalos: pags los valores predicen el futuro solo de manera Killeen, PR ( 2005). Una alternativa a las pruebas de significación de hipótesis nulas. Ciencia
vaga, pero los intervalos de confianza funcionan mucho mejor. Perspectivas de la ciencia psicológica, 3, psicológica, dieciséis, 345-353.
286-300. Killeen, PR ( 2006). Más allá de la inferencia estadística: una teoría de la decisión para la ciencia. Boletín
Cumming, G.y Finch, S. ( 2001). Una introducción a la comprensión, el uso y el cálculo y revisión psiconómica, 13, 549-562.
de los intervalos de confianza que se basan en distribuciones centrales y no Kline, RB ( 2004). Más allá de las pruebas de significación: reforma de los datos
centrales. Medición educativa y psicológica, métodos de análisis en la investigación del comportamiento. Washington, DC: Asociación Americana de
61, 532-574. Psicología.
Cumming, G.y Finch, S. ( 2005). Inferencia a ojo: intervalos de confianza y cómo leer Krueger, J. ( 2001). Prueba de significación de hipótesis nula: sobre la supervivencia de un método
imágenes de datos. Psicólogo estadounidense, 60, defectuoso. Psicólogo estadounidense, 56, 16-26.
170-180. Lipsey, MW y Wilson, DB ( 1993). La eficacia del tratamiento psicológico,
Cumming, G. y Maillardet, R. ( 2006). Intervalos de confianza y replicación: ¿Dónde educativo y conductual: confirmación del metaanálisis. Psicólogo
caerá la próxima media? Métodos psicológicos, estadounidense, 48, 1181-1209.
11, 217-227. Loftus, GR ( 1996). La psicología será una ciencia mucho mejor cuando cambiemos la forma en
Cumming, G., Williams, J. y Fidler, F. ( 2004). Replicación y comprensión de los investigadores de que analizamos los datos. Direcciones actuales en ciencia psicológica, 5, 161-171.
los intervalos de confianza y las barras de error estándar. Comprensión de las estadísticas, 3, 299-311.
Lykken, DT ( 1991). De todos modos, ¿qué pasa con la psicología? En
Doros, G. y Geier, AB ( 2005). Probabilidad de replicación revisada: Comentario sobre "Una D. Cicchetti y W. Grove (Eds.), Pensar con claridad la psicología: ensayos en honor
alternativa a las pruebas de significación de hipótesis nulas". a Paul Everett Meehl. Asuntos de interés público
Ciencia psicológica, dieciséis, 1005-1006. (Vol. 1, págs. 2-39). Minneapolis: Prensa de la Universidad de Minnesota.
Estes, WK ( 1997). Pruebas de significación en la investigación psicológica: algunos problemas Macdonald, RR ( 2003). Sobre la determinación de probabilidades de replicación: Comentarios sobre
persistentes. Ciencia psicológica, 8, 18-20. Posavac (2002). Comprensión de las estadísticas, 2, 69-70.
636 METRO ILLER

Macdonald, RR ( 2005). Comentario: Por qué las probabilidades de replicación dependen de NOTAS
distribuciones de probabilidad previas: una réplica a Killeen (2005). Ciencia psicológica, dieciséis,
1007-1008. 1. La definición exacta del tamaño del efecto real depende de la hipótesis nula que se esté
Morgan, PL ( 2003). Prueba de significancia de hipótesis nula: consideraciones filosóficas y probando, y este artículo considera tres posibilidades como ejemplos. Se usa la prueba
prácticas de una controversia estadística. Excepcionalidad 11, 209-221. binomial para evaluar la hipótesis nula de que
PAGS . 5, donde PAGS es la verdadera probabilidad de éxito. Para esta prueba, el verdadero tamaño del
efecto es simplemente la diferencia PAGS . 5.Un segundo usa un t prueba para comprobar la hipótesis
Murty, VN y Bissinger, BH ( mil novecientos ochenta y dos). La ley de sucesión y la regla de Bayes. Diario
nula de que
universitario de dos años de matemáticas, 13, 44-51. 0, donde es una sola media (es decir,
Newcombe, RG ( 1998). Intervalos de confianza de dos colas para la proporción única: una muestra t prueba), una diferencia entre las medias de dos condiciones con datos emparejados (es
comparación de siete métodos. Estadística en Medicina, 17, decir, emparejados t prueba), o una diferencia entre las medias de grupos independientes (es decir, dos
857-872. muestras t prueba). Para esta prueba, el tamaño del efecto real es /, donde es una medida de la desviación
Nickerson, RS ( 2000). Prueba de significación de hipótesis nulas: una revisión de una estándar de la población de las puntuaciones o las puntuaciones de diferencia que se comparan. La tercera
vieja y continua controversia. Métodos psicológicos, prueba verifica la hipótesis nula de que
5, 241-301. 0, donde es la verdadera correlación poblacional
Oakes, ML ( 1986). Inferencia estadística: un comentario para las ciencias sociales y del relación entre dos variables. Para esta prueba, el tamaño del efecto es simplemente el valor real
comportamiento. Nueva York: Wiley. de.
Onwuegbuzie, AJ y Leech, NL ( 2004). Poder post hoc: Un concepto cuyo momento ha llegado. Comprensión
2. También se han propuesto otros usos del término "reproducción". Por ejemplo, Rosenthal
de las estadísticas, 3, 201-230. (1993) sugirió que se dé mucho más peso a los tamaños del efecto que a los niveles de
Posavac, EJ ( 2002). Utilizando pags valores para estimar la probabilidad de una significación. En contraste, Killeen (2005; ver también Cumming, 2005) propuso que podría ser
replicación tísticamente significativa. Comprensión de las estadísticas, 1, 101-112. más útil considerar que un efecto se ha replicado si el estudio de seguimiento obtuvo resultados
Consejo editorial de Psychological Science ( 2005). Información para contribuyentes. Ciencia en la misma dirección que el estudio inicial, sin tener en cuenta la significación estadística. .
psicológica, dieciséis( 12). Debido a que estas propuestas aún no han ganado una amplia aceptación y NHST todavía es de
Raftery, AE ( 1995). Selección del modelo bayesiano en investigación social. En uso común, sin embargo, en este artículo, "replicación", para bien o para mal, generalmente se
PV Marsden (Ed.), Metodología sociológica 1995 ( págs.111-196). Cambridge, MA: usará en el sentido tradicional que requiere significancia estadística, con extensiones a algunos
Blackwell. otros significados considerados brevemente.
Richard, FD, Bond, CF, Jr. y Stokes-Zoota, JJ ( 2003). Cien años de psicología
social descritos cuantitativamente. Revisión de Psicología General, 7, 331-363.
3. Para simplificar, en este artículo solo considero la probabilidad de replicar un resultado
Robinson, DH y Levin, JR ( 1997). Noticias de investigación y comentarios: Reflexiones sobre significativo inicial en un experimento de seguimiento idéntico (es decir, la misma población y
la importancia estadística y sustantiva, con una porción de réplica. Investigador educativo, 26, tamaño de muestra, error de medición, etc.), aunque en principio surgen las mismas
21-26. consideraciones en réplicas con diferentes tamaños de muestra, variaciones de error, etc.
Rosenthal, R. ( 1979). El "problema del cajón de archivos" y la tolerancia a resultados nulos. Boletín
psicológico, 86, 638-641. 4. Se podría intentar extender este argumento sobre pags valores para obtener una estimación
Rosenthal, R. ( 1993). Acumulación de pruebas. En G. Keren & C. Lewis (Eds.), Un manual para el de la probabilidad de replicación individual. Específicamente, considerando un único resultado
análisis de datos en las ciencias del comportamiento: cuestiones metodológicas ( págs.519-559). significativo de forma aislada, se podría estimar que la probabilidad de replicación individual es
Hillsdale, Nueva Jersey: Erlbaum. siempre al menos .5, ya que la replicación es tan probable que sea "más significativa" que el
Shaffer, JP ( 1995). Prueba de hipótesis múltiples. Revisión anual de experimento inicial como "menos significativa". . " Sin embargo, como se considerará más
Psicología, 46, 561-584. adelante, no siempre es apropiado considerar un solo experimento de forma aislada. Además,
Shannon, C. y Weaver, W. ( 1949). La teoria matematica de la comunicacion. Urbana: incluso cuando sea apropiado, se debe tener en cuenta que esta probabilidad de replicación
Prensa de la Universidad de Illinois. individual estimada de al menos 0.5 es solo un valor estimado basado en datos observados, no un
Sohn, D. ( 1998). Importancia estadística y replicabilidad: por qué la primera no valor verdadero.
presagia la segunda. Teoría y Psicología, 8, 291-311.
SPSS Inc. ( 2006). SPSS 14.0 para Windows [Software de computadora]. Chicago: Autor. 5. Esta ley surge de un análisis bayesiano en el que se supone que la probabilidad de éxito
tiene una distribución previa uniforme a lo largo del intervalo 0-1 (para una derivación, véase, por
Sundali, J.y Croson, R. ( 2006). Sesgos en las apuestas de casino: la mano caliente y la falacia ejemplo, Murty y Bissinger, 1982).
del jugador. Juicio y toma de decisiones, 1, 1-12. 6. Aunque pueda parecer que el investigador conocerá exactamente el número de
Thompson, B. ( 1996). Políticas editoriales de AERA con respecto a las pruebas de significación oportunidades, esto no siempre es cierto en la práctica. Cuando los investigadores llevan a cabo
estadística: Tres reformas sugeridas. Investigador educativo, una serie de estudios piloto, a menudo realizan varios cambios de procedimiento de uno a otro. Si
25, 26-30. estos cambios afectan el poder, el "número de oportunidades" no aumenta de forma incremental
Thompson, B. ( 2002). Cómo podría ser la futura investigación cuantitativa en ciencias sociales: con cada estudio piloto sucesivo. Dado que el investigador no puede conocer el nivel de potencia
intervalos de confianza para los tamaños del efecto. Investigador educativo, 31, 25-32. exacto de cada estudio, es imposible estar seguro de cómo depende exactamente el número de
oportunidades del número de tales estudios.
Tukey, JW ( 1969). Analizando datos: ¿Santificación o trabajo de detective?
Psicólogo estadounidense, 24, 83-91. 7. Los puntos correspondientes tienen valores idénticos en las ordenadas en los dos paneles pero
Tversky, A. y Kahneman, D. ( 1971). La creencia en la ley de los números pequeños. Boletín tienen valores diferentes en las abscisas. Tenga en cuenta que la distribución de pags Los valores
psicológico, 76, 105-110. también son discretos, como el del número de éxitos, aunque el pags los valores no son números
Wagenmakers, E.-J. ( 2007). Una solución práctica a los problemas generalizados de pags valores. enteros.
Boletín y revisión psiconómica, 14, 779-804. 8. La similitud visual de los paneles B y E es bastante sorprendente. Aunque está fuera
Wainer, H. y Robinson, DH ( 2003). Dar forma a la práctica de la prueba de significación de del alcance de este artículo investigar la relación precisa
hipótesis nulas. Investigador educativo, 32, 22-30. entre tradicional pags valores y Killeen's (2005) pags reps, Encontré eso pags reps
Wilson, EB ( 1927). Inferencia probable, ley de sucesión e inferencia estadística. Revista y 1 pags fueron aproximadamente iguales en muchos escenarios. Este mismo
de la Asociación Estadounidense de Estadística, La relación también es evidente en la Ecuación 3 de Doros y Geier (2005) y en la Figura 1 de
22, 209-212. Iverson, Wagenmakers y Lee (en prensa).
PAGS ROBABILIDAD DE R EPLICACIÓN 637

APÉNDICE A
Cálculo de la probabilidad de replicación agregada
Este apéndice presenta los supuestos y fórmulas utilizadas para el cálculo de las probabilidades de replicación agregadas que se muestran
en las Figuras 4 y 5. En la Tabla A1 se muestran dos ejemplos numéricos que ilustran los cálculos.

TablaA1
Ejemplos numéricos para el cálculo de la probabilidad de replicación agregada ( pags real academia de bellas artes)

Hipótesis
Medida H 0: PAGS .5 H 1: PAGS .6

Pr (Rechazar H 0 y concluir PAGS . 5) . 0176 . 4621


Prior Pr ( H) . 75 . 25

Ejemplo 1: O 62 éxitos
Pr ( O | H) . 0045 . 0754
Pr ( H | O) . 1511 . 8489

pags real academia de bellas artes . 0176 .1511 . 4621 .8489 . 3949

Ejemplo 2: Observe la retención de tres pilotos H 0, y entonces O 62 éxitos


Pr (3 | H) . 8981 . 1556
Pr ( O 3 | H) . 0040 . 0117
Pr ( H | O 3) . 5067 . 4933

pags real academia de bellas artes . 0176 .5067 . 4621 .4933 . 2369

Nota: Los dos ejemplos ilustran cálculos para experimentos binomiales con 100 ensayos. Según la hipótesis nula ( H 0),
la verdadera probabilidad de éxito es PAGS . 5; de acuerdo con la
hipótesis alternativa ( H 1), esta probabilidad es PAGS . 6. Las probabilidades previas de la nula y
las hipótesis alternativas son .75 y .25, respectivamente. Se rechaza la hipótesis nula y se concluye que PAGS . 5 si se
observan 61 o más éxitos. En el Ejemplo 1, los datos observados consisten en un solo experimento que resulta en O 62
éxitos. Pr ( O | H) es la probabilidad de este resultado observado bajo cada hipótesis, calculada con la fórmula binomial. Pr ( H
| O) es la probabilidad posterior correspondiente de cada hipótesis, calculada utilizando el teorema de Bayes. La réplica
agregada
probabilidad de cationes pags real academia de bellas artes se calcula a partir de estos valores mediante la ecuación 8. El ejemplo 2 es análogo al
ejemplo 1, excepto que los datos observados consisten en tres experimentos piloto en los que el valor nulo
La hipótesis se mantuvo seguida de un cuarto experimento con O 62 éxitos.

Para simplificar, solo estudié los efectos del contexto de investigación utilizando teorías para las cuales los efectos predichos están presentes, con
probabilidad, o ausentes, con probabilidad 1. El tamaño real de cada efecto se ajustó para coincidir
el tamaño observado que produciría un determinado pags valor de .05 o .001. Deje Pr ( O | H 0) y Pr ( O | H 1) denotar las probabilidades (o densidades de
probabilidad) de cualquier resultado inicial observado dado, Oh bajo la nula y alternativa
hipótesis, respectivamente. Entonces, de acuerdo con el teorema de Bayes (por ejemplo, Hogg y Craig, 1970),

Pr H 1 Pr O | H 1
Pr H 1 | O (A1)
Pr H 1 Pr O | H 1 Pr H 00 Pr O | H 0

Probabilidad de replicación agregada


Dado un resultado inicial significativo seleccionado al azar, la probabilidad condicional de que se repita en la misma dirección en un
experimento de seguimiento es

Pr H
pags real academia | O artes
de 0bellas 1 Pr H 1 | Oh (A2)
2
donde / 2 es la probabilidad de un resultado significativo en la misma dirección bajo la hipótesis nula A1 y 1 potencia del experimento cuando el es el
efecto está presente (es decir, la probabilidad de que dé un resultado significativo).

Efecto del número de oportunidades


Para estudiar la influencia del número de oportunidades, la Ecuación A1 debe elaborarse para incluir k resultados experimentales no significativos antes del
resultado inicial significativo observado, O. Esto se puede hacer concibiendo los datos como el conjunto completo de observaciones, incluidas todas las k resultados
no significativos, así como los resultados significativos
uno, O. Bajo la hipótesis nula, la probabilidad del conjunto de k resultados no significativos es Pr ( O | H 0) [ 1 ] k;
bajo la hipótesis alternativa, es Pr ( O | H 1) [] k. Estos valores pueden usarse para calcular la probabilidad de
H 1 dado el conjunto completo de resultados a través del teorema de Bayes:
638 METRO ILLER

APÉNDICEA (continuación)
k
Pr H 1 Pr O | H 1
Pr H 1 | O k . (A3)
k Pr H 0 Pr O | H 0
Pr H 1 Pr O || H 1 1 un k

Este valor puede usarse en lugar de Pr ( H 1 | O) en las ecuaciones A2 y A4 al calcular la probabilidad de replicación agregada después de una serie de k resultados
no significativos seguidos de uno significativo.

Fortaleza de la teoría y probabilidad de múltiples replicaciones


Los resultados que se muestran en la Figura 4 se refieren a la probabilidad agregada de obtener una única réplica significativa, pero también se pueden
calcular probabilidades análogas para la probabilidad de j 2, 3,. . . réplicas. Estas probabilidades de replicación múltiple agregadas serían especialmente
relevantes para un investigador que planifica una serie de estudios, por ejemplo, al preparar una propuesta de subvención.

¿Cómo debería la probabilidad de j se computen replicaciones exitosas? Inicialmente, podría parecer que si el
La probabilidad de una sola replicación es pags real academia de bellas artes, la probabilidad estimada de j las réplicas deben ser pags j
real academia de bellas artes. La situación
Sin embargo, es algo más complicado cuando se tiene en cuenta la solidez de la teoría, porque las diferentes réplicas no son todas
independientes. En cambio, todos dependen de la misma manera de la teoría que sugirió el experimento inicial, como ilustra el siguiente
análisis. En consecuencia, la probabilidad de que un efecto inicial significativo seleccionado al azar se repita en j experimentos de seguimiento
consecutivos es

(/ 2) j Pr
pags real academia ( Hartes
de bellas 0 | O) (1 ) j Pr ( H 1 | O). (A4)

Como ejemplos extremos, considere a los investigadores A y B trabajando con dos teorías diferentes. La teoría del investigador A predice solo efectos reales (es
decir, 1), pero los efectos son solo de tamaño moderado, por lo que cualquier efecto se detecta con
una potencia de 1 . 5 en un experimento típico. Para este investigador, existe un 50% de probabilidad de que cualquier replicación
intento tendrá éxito, por lo que la probabilidad de que j los intentos sucesivos de replicación tendrán éxito. pags real academia de bellas artes . 5 j.
Para el investigador B, en contraste, solo la mitad de los efectos predichos teóricamente son reales (es decir, . 5), pero estos
Los efectos son tan grandes que el poder experimental es virtualmente del 100% (es decir, 1 1). Esto significa que la probabilidad de
un solo intento de replicación exitoso es aproximadamente .5 para el investigador B, al igual que lo fue para el investigador A. Para el investigador B, sin
embargo, la probabilidad de j réplicas exitosas no declinan tanto como j aumenta, a diferencia de la situación con el investigador A, porque cualquier efecto real
es prácticamente siempre replicable.
La figura A1 ilustra que la probabilidad agregada de j las replicaciones exitosas pueden variar con j para los mismos escenarios ilustrados en la
Figura 4. Los cálculos fueron análogos a los presentados en la Figura 4 pero se basaron en la Ecuación A4, asumiendo en todos los casos que el
efecto sugerido era real con probabilidad . 5. Con un pequeño
efecto, la probabilidad agregada de j réplicas exitosas está bastante cerca de .5 j, porque la potencia experimental es aproximadamente 0,5 para este
efecto real. Sin embargo, con un efecto grande, la probabilidad agregada de j replicaciones exitosas disminuye bastante lentamente a medida que j aumenta;
si el efecto grande es real, es replicable con una probabilidad bastante alta. La Figura A1 es importante porque ilustra aún más la complejidad del
concepto de probabilidad de replicación agregada. Incluso con un escenario hipotético muy específico en el que se puede estimar la probabilidad de
una réplica, la probabilidad estimada de j Réplicas "independientes" no es simplemente pags j

real academia de bellas artes.

NOTA

A1. Normalmente, esto es .025 para una prueba de dos colas con un nivel de .05. Sin embargo, para las pruebas de proporciones, los niveles
deseados y / 2 no se pueden alcanzar exactamente, debido a la discreción del número observado de éxitos. En esos casos, los cálculos utilizaron los
valores ligeramente más pequeños de y / 2 que fueran posibles.
PAGS ROBABILIDAD DE R EPLICACIÓN 639

APÉNDICEA (continuación)

H:0 P. 5, norte 100 H:0 P. 5, norte 1.000


Gran efecto, j 1 Pequeño efecto, j 1

Gran efecto, j 2 Pequeño efecto, j 2

Gran efecto, j 3 Pequeño efecto, j 3


1 1
Gran efecto, j 4 Pequeño efecto, j 4
Probabilidad agregada de j Replicaciones

. 75 . 75

. 50 . 50

. 25 . 25

0 0
0 . 01 . 02 . 03 . 04 . 05 0 . 01 . 02 . 03 . 04 . 05

H:0Δ 0, df 25 H:0Δ 0, df 100

1 1
Probabilidad agregada de j Replicaciones

. 75 . 75

. 50 . 50

. 25 . 25

0 0
0 . 01 . 02 . 03 . 04 . 05 0 . 01 . 02 . 03 . 04 . 05

H:0 0, norte 25 H:0 0, norte 100

1 1
Probabilidad agregada de j Replicaciones

. 75 . 75

. 50 . 50

. 25 . 25

0 0
0 . 01 . 02 . 03 . 04 . 05 0 . 01 . 02 . 03 . 04 . 05

pags Valor pags Valor

Figura A1. Probabilidad de replicación agregada en función del número de replicaciones exitosas buscadas ( j), la pags valor del experimento inicial y la solidez de la
teoría de fondo en la que se basó el experimento inicial. El grosor de la línea representa el número de repeticiones exitosas que se buscan. Las líneas continuas representan
teorías para las que los efectos reales son mayores, mientras que las líneas discontinuas representan teorías para las que los efectos son menores. En todos los casos, se
asumió que los efectos reales estaban presentes para el 50% de las hipótesis nulas probadas. (Arriba) Probabilidad de rechazar la hipótesis nula PAGS
. 5 usando un binomio
prueba con el tamaño de muestra indicado de norte 100 o 1000. (Medio) Probabilidad de rechazar la hipótesis nula de que una media o
diferencia de medias 0 usando un t prueba con los 25 o 100 grados de libertad indicados ( df) por error. (Abajo) Probabilidad
de rechazar la hipótesis nula de que una correlación verdadera 0 para el tamaño de muestra indicado de norte 25 o 100.
640 METRO ILLER

APÉNDICE B
Cálculo de intervalos de confianza
Para facilitar el cálculo, los intervalos de confianza para proporciones, medias y correlaciones se han calculado tradicionalmente como un valor
observado más o menos la mitad del ancho, con aproximaciones normales que se utilizan para establecer la mitad del ancho para proporciones y
correlaciones. Este enfoque tradicional, que está más estrechamente asociado con la interpretación de un intervalo de confianza que tiene una
probabilidad del 95% (digamos) de incluir el valor verdadero (cf. Cumming & Finch, 2001, Método 1), se utilizó para los cálculos que se informan aquí. .
Sin embargo, se obtuvieron resultados prácticamente idénticos con un enfoque alternativo en el que los límites del intervalo de confianza se determinaron
ajustando el parámetro del binomio, no central t, o distribución de correlación no central para determinar un rango de valores de parámetros que no
pueden ser rechazados por una prueba de significancia estándar (cf. Cumming & Finch, 2001, Método 2; Thompson, 2002).

Dimensiones
Para una prueba binomial con norte ensayos y yo éxitos observados, un intervalo de confianza tradicional del 95% para la verdadera proporción de éxitos PAGS
puede obtenerse usando la aproximación normal al binomio (ver, por ejemplo, Newcombe,
1998):

pags HW PAGS pags HW, (B1)

dónde pags en y HW 1,96 pags( 1 p) / N. Otras técnicas para calcular intervalos de confianza para proporciones
Se han propuesto ciones y pueden tener mejores propiedades de cobertura (por ejemplo, Agresti, 2002), pero aquí se utilizó la aproximación binomial más
simple y tradicional porque resultará familiar para la mayoría de los lectores.

t Pruebas
Suponga por simplicidad y sin pérdida de generalidad que el error estándar de la media muestral es igual a 1. En ese caso, para un t prueba con df grados
de libertad, un intervalo de confianza del 95% para la media real o la diferencia de medias, es

to HW to HW, (B2)

dónde t o es el obtenido t valor y HW es el (97,5) punto percentil de Student t distribución con df grados de libertad.

Correlaciones
Con una correlación observada r Residencia en norte casos, se puede obtener un intervalo de confianza aproximado del 95% para la correlación verdadera
utilizando el método de Fisher r- a- z transformación:

zr . 5 [ln (1 r) en (1 r)] (B3)

(ver, por ejemplo, Hays, 1988). La distribución muestral de z r es aproximadamente normal con zr 1 / norte 3, tan confiado
límites de intervalo de dependencia para z son

zr HW z zr HW, (B4)

donde HW 1,96 / norte 3. Los límites de confianza superior e inferior para se pueden encontrar a partir de los límites superior e inferior.
límites inferiores para z r invirtiendo la transformación de la Ecuación B3:

mi 2 z r 1.
rz (B5)
mi 2 z r 1

(Manuscrito recibido el 16 de octubre de 2008;


revisión aceptada para su publicación el 20 de febrero de 2009.)

También podría gustarte