Está en la página 1de 9

Machine Translated by Google

665856 RAP0010.1177/2053168016665856Investigación y políticaEsarey y Wu


artículo-de-investigación2016

Artículo de investigación

Investigación y Política
Julio-septiembre de 2016: 1–9
Medición de los efectos del sesgo de © El autor(es) 2016
DOI: 10.1177/2053168016665856

publicación en ciencia política rap.sagepub.com

Justin Esarey y Ahra Wu

Resumen

Investigaciones anteriores encuentran que los resultados estadísticamente significativos están sobrerrepresentados en las publicaciones científicas. Si los
resultados significativos se favorecen constantemente en el proceso de revisión, los resultados publicados podrían exagerar sistemáticamente la magnitud
de sus hallazgos, incluso en condiciones ideales. En este artículo, medimos el impacto de este sesgo de publicación en la ciencia política utilizando un
nuevo conjunto de datos de resultados cuantitativos publicados. Aunque cualquier medida del sesgo de publicación depende de la distribución previa de
las relaciones empíricas, determinamos que las estimaciones publicadas en ciencias políticas son, en promedio, sustancialmente mayores que su valor
real bajo una variedad de opciones razonables para esta anterior. También encontramos que muchas estimaciones publicadas tienen una probabilidad de
falso positivo sustancialmente mayor que el umbral convencional ÿ = 0.05 para la significación estadística si la probabilidad previa de una relación nula
supera el 50 %. Finalmente, aunque la proporción de falsos positivos publicados se reduciría si las pruebas de significación utilizaran un ÿ más pequeño,
este cambio no resolvería el problema del sesgo al alza en la magnitud de los resultados publicados.

Palabras clave
Prueba de hipótesis, sesgo de publicación, significación estadística

Introducción et al., 1995), incluso influyendo en la decisión de los autores de redactar y


publicar sus hallazgos (Franco et al., 2014).
Muchos trabajos académicos (y especialmente los primeros artículos sobre
Cuando los hallazgos nulos no se publican, no pueden ubicar resultados
un tema) describen relaciones que resultan ser ilusorias al examinarlas más
anómalamente grandes y estadísticamente significativos en su contexto
de cerca (Ioannidis, 2005).
adecuado; tales resultados anómalos pueden atraer un gran interés
Además, la estimación típica publicada es probablemente de mayor
científico debido a su novedad y contradicción a la intuición.2 Estos
magnitud que la verdadera relación (Ioannidis, 2008). Los recientes intentos
problemas a menudo se conocen colectivamente como sesgo de publicación
a gran escala de replicar los hallazgos de las ciencias sociales han
(Scargle, 2000).
descubierto que muchos de estos hallazgos se vuelven sustancialmente
Aunque el sesgo de publicación creado por “la mala interpretación o el mal
más pequeños y más inciertos de lo que se indicó inicialmente (Boekel et
uso de la inferencia estadística es solo una de las causas de la 'crisis de
al., 2015; Camerer et al., 2016; Hartshorne y Schachner, 2012; Ioannidis et
reproducibilidad'... para nuestra comunidad, es importante” (Wasserstein y
al., 2014, Klein et al., 2014, Maniadis et al., 2014, Open Science
Lazar, 2016: 2).3
Collaboration, 2015); la “crisis de replicación” también ha afectado a los
Si bien gran parte del trabajo previo en esta área se enfoca en establecer
campos de las ciencias duras (p. ej., Begley y Ellis, 2012; Prinz et al., 2011;
que el sesgo de publicación es real y generalizado en las disciplinas que
Steward et al., 2012).
usan evidencia estadística (por ejemplo, mediante el uso de "pruebas de
calibre" de los valores de p publicados, como en Gerber y Malhotra (2008a)
Los problemas de replicabilidad se ven exacerbados por comportamientos
y Brodeur et al. (2016)), nuestro trabajo busca
de los investigadores como p-hacking (analizar los mismos datos de
múltiples maneras pero solo reportar los hallazgos estadísticamente más
significativos).1 Pero incluso si se eliminaran comportamientos como este, Departamento de Ciencias Políticas, Universidad Rice, EE. UU.
los problemas continuarían existiendo porque la publicación proceso
Autor correspondiente:
privilegia resultados estadísticamente significativos (Brodeur et al., 2016;
Justin Esarey, Profesor Asistente de Ciencias Políticas, Universidad Rice, 105
Coursol y Wagner, 1986; Gerber et al., 2001; Gerber y Malhotra, 2008a,b; Herzstein Hall MS-24, 6100 Main Street Houston, TX 77005, EE. UU.
Sterling Correo electrónico: justin@justinesarey.com

Creative Commons Non Commercial CC-BY-NC: Este artículo se distribuye bajo los términos de Creative Commons
Licencia Attribution-NonCommercial 3.0 (http://www.creativecommons.org/licenses/by-nc/3.0/) que permite el uso, la reproducción y la distribución no
comercial del trabajo sin permiso adicional, siempre que el trabajo original se atribuya como se especifica en las páginas de SAGE y Open Access (https://us.sagepub.com/en-
us/nam/open-access-at-sage).
Machine Translated by Google

2 Investigación y Política

determinar cómo el sesgo de publicación ha afectado el cuerpo de ÿ fijo y conocido , podríamos calcular el grado de sesgo de publicación
conocimiento acumulado en ciencia política. Medimos el impacto del como
sesgo de publicación en la ciencia política utilizando un nuevo conjunto
de datos de resultados cuantitativos publicados. Aunque cualquier medida ÿ ÿ
ÿ
mi ÿ

ÿ ÿ| , tÿ t ÿ
ÿ

ÿ
del sesgo de publicación depende de la distribución previa de las ÿ ÿ
ÿ ÿ d ,0.05 ÿ ÿ

ÿ ÿ F ÿ ÿ
relaciones empíricas, estimamos que los resultados publicados en ciencia
política están distorsionados en un grado sustancialmente significativo ÿ
ÿ

ÿ ÿÿ ÿ ÿ
ÿ
ÿ

bajo una variedad de elecciones razonables para este anterior. ÿ

ÿÿ ÿ ÿ
|d F , ÿ ,ÿ
ÿ
ÿ
dÿ ÿ

(1)
ÿ
ÿ

ÿ ÿ
ÿ

= ÿÿ ÿ ÿ ÿ
ÿ
ÿ

ÿ ÿ

Llegamos a tres conclusiones. En primer lugar, las estimaciones ÿ


ÿ
ÿ ÿÿ ÿ ÿ ÿ

publicadas de las relaciones en la ciencia política son, en promedio, ÿ


+ ÿÿ ÿ ÿ
| df _ , ÿ ,ÿ ÿ ÿ

ÿ
d ÿ ÿ

ÿ
ÿ
sustancialmente mayores que su valor real. El grado exacto de sesgo al ÿ

ÿ ÿ ÿ ÿ ÿ

ÿ ÿ
alza depende de la elección previa, pero en el extremo superior estimamos
que el valor real de las relaciones publicadas es, en promedio, un 40 % ÿ

donde = tÿ ÿ ÿÿ (es decir, el menor estadísticamente


más pequeño que su valor publicado. ÿ ÿ ÿ
ÿ
d ,0.05 ÿ

Los resultados previos más optimistas arrojan un sesgo promedio más ÿ F ÿ


ÿ

bajo, pero aún encuentran que al menos el 14 % de los resultados están ÿ de densidad de probabilidad t .
significativa) y ÿes la función
sesgados al alza en un 10 % o más. En segundo lugar, encontramos que Es decir, definimos el sesgo como la diferencia entre el valor esperado de
muchos resultados publicados tienen una probabilidad de falso positivo
las estimaciones estadísticamente significativas y el valor real del
sustancialmente mayor que el umbral convencional ÿ = 0,05 para la estimado.5
significación estadística si la probabilidad previa de una relación nula supera el 50 %.
Sin embargo, en un trabajo publicado, se desconoce ÿ . Debemos
Estos dos hallazgos son cuantitativa y cualitativamente similares a los por lo tanto calcular
resultados descubiertos por los estudios de replicación a gran escala
mencionados anteriormente, lo que sugiere que el sesgo de publicación
ÿ ÿ ÿÿ
puede explicar gran parte de la "crisis de replicación" que han observado ÿ
EE ÿ ÿ
ÿ

ÿ
ÿ

ÿ ÿ| , t ÿ t ÿ
ÿ

ÿ ÿ
estos estudios.4 Finalmente, encontramos que tanto el sesgo ascendente ÿ ÿ re ÿ
,0.05 ÿ
ÿ

ÿ ÿ ÿ F ÿ ÿÿ
en magnitud y la probabilidad de ser un falso positivo es menor para los
resultados con valores de p más alejados del umbral de significación. ÿ ÿ ÿ ÿ
= EE ÿ ÿ
(2)
Nuestro último hallazgo sugiere que requerir una prueba de significación ÿ ÿ| , t ÿ t ÿ
ÿ
ÿ ÿ
ÿ ÿ

ÿ ÿ
ÿ ÿ d ,0. 05 ÿ
ÿ

estadística más estricta (con un ÿ más pequeño) para la publicación podría


ÿ

ÿ ÿ ÿ F ÿ ÿ ÿ
ser efectivo para combatir el sesgo de publicación (Johnson, 2013).
ÿ ÿ ÿ ÿ
Desafortunadamente, aunque la proporción de falsos positivos publicados = ÿ
ÿ ÿ
mi ÿ

ÿ ÿ| , t ÿ t
ÿ ÿ
ÿ
ÿ

ÿ
ÿ

fd ( ÿ) ÿ ÿ ÿ
se reduciría con esta estrategia (Bayarri et al., 2016; Goodman, 2001), ÿ
ÿ d ,0.05 ÿ ÿ

ÿ F ÿ ÿ
ÿ ÿÿ

encontramos que tal reforma no resolvería el problema del sesgo al alza


en los resultados publicados: resultados publicados cerca de el nuevo
bajo algunos supuestos razonables sobre nuestras creencias previas
umbral de significación todavía estaría (en promedio) sustancialmente
sesgado hacia arriba. sobre ÿ, f ( ) ÿ . Esta estimación del sesgo de publicación obviamente
ÿ , recomendable
será una función de nuestra elección de f ( ) y, en consecuencia, es
estimar el sesgo de publicación bajo una variedad de opciones para f ( )
ÿ
para garantizar resultados sólidos.
estrategia de medición Estimamos el grado de sesgo de publicación esperado en la literatura
de ciencia política como una proporción de lo publicado ÿ
Tratar de medir el grado de sesgo al alza en una estimación de algún
ÿ

ÿ parámetro ÿ, o la prevalencia de falsos positivos cuando el nulo = 0 ÿ ÿÿ


(ÿ ) -ÿ
ÿ

(ÿ )
ÿ

(estimaciones estadísticamente significativas de ÿ es verdadero, es resultado, EE ÿ


ÿ
ÿ

signo | ÿ , / ttÿ ÿ ÿ
ÿ
ÿ

ÿ pub
.
ÿ ÿ d ,0.05 ÿ ÿ
ÿ

ÿ ÿ ÿ F ÿ ÿÿ
ÿ complicado. Cualquier medida depende de una suposición sobre el
verdadero valor de ÿ (o una distribución de probabilidad de creencias ÿ
El término signo( ) significa que medimos el grado de sesgo en la dirección
sobre su valor, f ( ) ÿ ). Por ejemplo, considere de la verdadera ÿ (es decir, en función de la distancia de la relación desde
la distribución de estimaciones estadísticamente significativas asociadas
ÿ
cero); esto nos permite medir el grado en que el resultado promedio
ÿ con un valor verdadero de ÿ. Sesgo de publicación ÿ publicado exagera la verdadera magnitud de una relación.6 La estimación
ÿ
ÿ implica que E ÿÿ , tt ÿ0.05
ÿ ÿ| donde tÿ = / es ÿÿ ÿ , ÿ ÿÿ publicada
ÿ escrítico
estadístico t, es elÿvalor el error
ÿ

de estándar
t para unaestimado de de dos colas
significancia ÿÿpub informa nuestra suposición sobre la anterior
ÿÿ, y el
ÿ
t
ÿ
f ( )ÿreconocer que cada proyecto surge de una familia diferente de
ÿ ÿ
d
ÿÿ fÿ
,0.05 ÿ proyectos pertenecientes a diferentes subcampos y temas cuyas
| prueba bajo una hipótesis nula = ÿ0) = 0.05
0 estableciendo
con d f muchos
ÿ = Pr(significativo
grados de magnitudes son difíciles de comparar entre familias.
ÿ libertad. Para Consideramos dos clases de f ( ) ÿ :
Machine Translated by Google

Esarey y Wu 3

(a) una distribución de espiga y losa con una espiga ÿ = 0 tamaños, que son necesarios para nuestro análisis. Por lo tanto,
eliminamos estos 6 artículos de nuestro análisis. En consecuencia,
ÿ ÿ

en y una losa uniforme entre ÿÿ 3 ÿ ÿ;


pub ,3 ÿ pub
y
ÿÿ ÿÿ nos quedan 167 artículos cuantitativos publicados en la APSR
(70 artículos) y la AJPS (97 artículos). Finalmente, 25 estudios de
(b) una distribución de punta y normal con una punta en = 0
estos 167 artículos cuantitativos (o el 15% de ese número) reportan
ÿ sumada a una distribución normal con stan
resultados estadísticamente no significativos como su principal
desviación dard igual a ÿÿ pub . relación bajo una prueba de dos colas con ÿ = 0.05, aunque 17 de
los 25 estudios son estadísticamente significativos si se usa un
La primera distribución representa un 33% de probabilidad antes prueba de una cola con ÿ = 0,05.11 Omitimos estos estudios de
ÿ

creencia de que un valor distinto de cero ÿ ÿ pub


ÿ , envíamientras que elprevia
una creencia segundo
de ÿrepre
68% nuestro análisis porque su interpretación no está clara en el contexto
de probabilidad de que un valor distinto de cero de evaluar el sesgo de publicación cuando se usa una prueba de
ÿ ÿ ÿpub
ÿ ; nuestros resultados son robustos a otros razonables significación de dos colas ÿ = 0,05, lo que deja 142 estudios para el
análisis. La consecuencia de omitir resultados estadísticamente
opciones para los límites de la punta y losa anterior y la desviación
insignificantes es que nuestras estimaciones son límites superiores
estándar de la anterior normal.7 Variamos sistemáticamente la
en el grado de sesgo de publicación en la literatura: cuanto más
altura de la punta, Pr ( = 0), para determinarÿcómo
expectativas
difieren las para
probable es que se publiquen resultados estadísticamente
la tasa de línea base de relación nula. relaciones cambia nuestra
insignificantes, menor será el sesgo de publicación.
visión de la literatura publicada.
En el Apéndice 2 se proporciona una lista completa de las reglas
Finalmente, repetimos nuestro análisis sin pico en = 0, para
ÿ
que usamos para identificar y codificar las observaciones en nuestro
reconocer la posibilidad de que una hipótesis de punto nulo nunca
conjunto de datos; aquí resumimos el procedimiento.12 Cada observación
sea cierta en datos reales (Gelman, 2011).
del conjunto de datos recopilados representa un artículo y contiene el
ÿ f ( ) para determinar la
Usamos nuestra densidad de creencias anterior
ÿ pub ).
hallazgo principal del artículo (es decir, un efecto marginal estimado,
relación entre relaciones verdaderas y estimaciones observadas
Definir el hallazgo principal de un artículo puede ser complicado, ya
usando simulación. Para ello, generamos 100.000 sorteos por cada
que muchos artículos presentan múltiples resultados.13 Codificamos
ÿ

estudio publicado.
ÿ a partir Por
de ÿf cada sorteo de
ÿ

el hallazgo principal de la siguiente manera. Primero, si hay alguna


ÿ , ( ) simulamos una estimación ÿ s = +ÿ ÿ ÿÿ ,
ÿ expresión como “la variable independiente clave” o “el hallazgo
ÿ ÿ muestral ÿdonde
ÿ es el error estándar publicado de es la
ÿ d( ) f ÿpub ÿ principal de este artículo”, consideramos esa relación como el hallazgo principal.
ÿy ÿ densidad t con d f grados de libertad
Si no hay una redacción tan explícita, consideramos el hallazgo
equivalentes al estudio publicado.8 Determinamos cuál de estos
que se enfatiza en el resumen o en la conclusión de un artículo
resultados es estadísticamente significativo comparando
como el hallazgo principal. Si hay varias hipótesis que reciben casi
ÿÿ
ÿ

a la t
ÿ
dos colas ÿ = 0,05 crítico la misma atención, registramos la información de la primera
t=/ ÿ s
ÿ ÿ ÿ ÿ
ÿ d ,0.05 ÿ
ÿ fÿ
hipótesis ("H1" o "la primera hipótesis").
valor de una densidad t con los grados apropiados de libre ÿ
Resultados
dom. Finalmente, calculamos
ÿÿ
ÿ
(ÿ s ÿ

ÿ )señal ÿ () para cada uno de


los ÿÿ sorteos
El resultado de aplicar esta técnica a las estimaciones de efectos
estadísticamente significativos. El promedio de esta cantidad es ÿ
marginales publicadas (y estadísticamente significativas) en nuestro
ÿ ÿ ÿ
ÿ conjunto de datos revela una tendencia sustancial hacia un sesgo
nuestra estimación de EE ÿ

ÿ
ÿ

ÿ ()-
ÿ ÿ signo | (ÿ) ÿ , tÿ t
ÿ
d ,0.05
ÿ
ÿ
ÿ

ÿ
.
ascendente en magnitud, como se ilustra en la Tabla 1. Como
F
ÿ ÿ

ÿ ÿ ÿÿ ÿ ÿÿ
muestra la tabla, si tenemos una expectativa de referencia de que
Luego dividimos esto por el valor absoluto del resultado publicado,
solo El 10 % de nuestras hipótesis predicen correctamente una
para calcular
ÿÿbar el
, porcentaje de sesgo. relación a priori, luego se espera que más del 50 % de los hallazgos
publicados sean al menos un 10 % más grandes en magnitud que
Conjunto de datos
la verdadera relación. El resultado típico publicado en este
escenario es, en promedio, al menos un 29 % mayor que la relación
Estimamos el efecto del sesgo de publicación en la literatura de ciencias
real. Incluso si no hay relaciones que sean exactamente cero bajo
políticas utilizando un nuevo conjunto de datos de trabajos cuantitativos
publicados recientemente en revistas destacadas de interés general. una densidad previa normal (con desviación estándar
ÿÿpub ), más
igual
dela40%

Nuestro conjunto de datos está compuesto por 314 artículos de los resultados publicados tienen un sesgo al alza de ÿ10 % en magnitud.
cuantitativos publicados en American Political Science Review En general, la magnitud del problema del sesgo escala
(APSR: 139 artículos en los volúmenes 102–107, de 2008–2013) y positivamente con la supuesta proporción subyacente de resultados
American Journal of Political Science (AJPS: 175 artículos en los nulos en la población de ideas de investigación ( Pr( ÿ ) = 0 ).
volúmenes 54–57 ). , de 2010 a 2013).9 Para simplificar el análisis, La implicación del análisis es que una parte sustancial de los
analizamos solo artículos con variables dependientes continuas e resultados publicados sobrestiman el tamaño real de la relación que se
ilimitadas. Entre los 173 artículos con variables dependientes está estudiando porque las pruebas de significancia estadística se
continuas e ilimitadas,10 6 artículos tienen al menos un valor utilizan para filtrar los resultados para su publicación. Los sesgos que
faltante con respecto a sus estimaciones o muestra son lo suficientemente grandes como para ser sustancialmente significativos no son
Machine Translated by Google

4 Investigación y Política

Tabla 1. Sesgo esperado en una muestra de efectos marginales publicados de APSR y AJPS.

Población supuesta Pr( ÿ 0ÿ) Spike-and-slab antes Spike-and-normal previo

% medio de sesgo % de estimaciones con % medio de sesgo % de estimaciones con


sesgo ÿ 10% sesgo ÿ 10%

10% 29.8 87.3 40.5 52.8


20% 18.9 78.2 29.2 47,9
50% 8.90 41.5 17.8 44.3
100% 4.73 14.1 12.4 42.3

La tabla muestra la prevalencia estimada del sesgo al alza en la magnitud estimada en una muestra de 167 artículos de la American Political Science Review.
y el Diario Americano de Ciencias Políticas; el tamaño de la muestra es 142 después de que se excluyen 25 resultados estadísticamente insignificantes. Generamos 100.000 sorteos
ÿ ˆ ˆ
ÿ desde ÿ ÿ U ÿ ÿ3
ÿÿ
ÿ pub ,3 ÿ pub
ÿ o
ÿÿ
ÿ ÿ ÿ 0, ÿ ÿ( pub ) con probabilidad (1ÿ p) y
ÿ
ÿ = 0 con probabilidad p para cada estudio publicado; el supuesto
ÿ

valor de p se enumera en la columna 1. Para cada ÿ , simulamos una estimación de ÿ s = +ÿ ÿ ÿÿ , ÿ ÿ d(


ÿ
)f ,
donde ÿ ÿ ÿ es el estándar publicado
ÿextracción de
ÿ
muestra
ÿpub y erroresdela densidad t con df grados de libertad equivalentes al estudio publicado. Determinamos cuál de estas estimaciones es
ÿÿ
ÿ
ÿ
estadísticamente significativo al comparar ts = / ÿ s
ÿÿ a la t valor crítico para una prueba ÿ = 0.05 (dos colas) de una densidad t con grados de
d
,0.05 ()
F

libertad equivalente al estudio publicado. Finalmente, calculamos ÿÿ ÿ


ÿ
(ÿ ) ÿ- (ÿ ) señal
ÿ
ÿÿ
/
ÿ pub para cada uno de los sorteos estadísticamente significativos. columnas 2

ÿ ÿÿ
y 4 enumeran el valor medio de estas réplicas, nuestra estimación de EE ÿ

ÿ
ÿ
ÿ
()-
ÿ (ÿ)
| señal ÿ,t ÿ ÿt
(dF ,0.05 )ÿÿ
ÿ
ÿ
/ ÿ
pub
, en los 142 resultados de la anterior
ÿ ÿÿ
ÿ

ÿ
distribución indicada en el encabezado de la columna. Las columnas 3 y 5 enumeran la proporción correspondiente de estimaciones que son mayores o iguales al 10%.

poco común; si nuestras suposiciones sobre f ( ÿ) son una buena variación entre los resultados publicados, para el anterior normal incluso
representación de la tasa de antecedentes de relaciones nulas, ÿ fuertemente
sin pico en = 0 . Es importante destacar que el sesgo
asociado con el esperado está
valor p publicado
esperaríamos que muchos hallazgos empíricos (quizás incluso del resultado: los valores p más pequeños están asociados con un sesgo
la mayoría) exageren el tamaño de las relaciones verdaderas esperado más pequeño.
que miden. Además, el extremo superior de nuestras Nuestro hallazgo subraya un punto hecho en la declaración de la
estimaciones (es decir, que el valor real de las relaciones Asociación Estadounidense de Estadística sobre los valores de p:
publicadas es en promedio un 40 % más pequeño que su valor "el uso generalizado de 'significación estadística' (generalmente
'
publicado) coincide con las estimaciones empíricas recientes de como
interpretado pÿ 0.05') como una licencia para hacer una
proyectos de réplica a gran escala. Por ejemplo, la Open Science afirmación de un hallazgo científico (o verdad implícita). ) conduce a
Collaboration (OSC) estimó que los tamaños del efecto una distorsión considerable del proceso científico” (Wasserstein y Lazar, 2016: 9).
publicados originalmente en psicología son en promedio
alrededor de un 50 % más pequeños que los tamaños del efecto
Cálculo de
en estudios de replicación de la misma relación (Open Science Collaboration, la susceptibilidad
2015: aac4716- a falsos positivos
3–aac-4716-5). Una réplica similar de 18 estudios de economía
Las pruebas de significancia estadística están diseñadas para
experimental encontró que los tamaños del efecto de la réplica
reducir el riesgo de concluir que existe una relación cuando la
eran en promedio solo el 65,9 % del tamaño de la estimación
evidencia podría ser consistente con ninguna relación en absoluto.
original, una reducción de alrededor del 44 % (Camerer et al.,
Sin embargo, está bien establecido (aunque quizás no se entienda
2016: 1434).14 La mayoría de nuestras estimaciones , sin
ampliamente) que las pruebas de significancia estadística a
embargo, muestran un sesgo medio menor; esto sugiere que (a)
menudo son insuficientes para reducir la posibilidad de un falso
la proporción de resultados nulos en la población de estudios es
positivo a un nivel aceptable cuando la probabilidad previa de
más alta de lo que contemplamos, o (b) otros factores (selección
estudiar una relación nula es muy alta (Bayarri et al. , 2016;
oportunista del modelo por parte de los investigadores originales,
Goodman, 2001; Nuzzo, 2014; Siegfried, 2010). Un factor clave es
un sesgo contra el éxito entre los investigadores que realizan la
la probabilidad previa de que la hipótesis nula sea cierta (es decir,
replicación, y/o muchas posibilidades alternativas) pueden estar
la expectativa a priori de que la relación que se estudia no existe realmente). Es dec
trabajando en conjunto con el sesgo de publicación para explicar
los resultados empíricos previos. PR ( )ÿ| = 0 Estadísticamente significante =
No todas las publicaciones son igualmente susceptibles al sesgo,
Pr( sig. est. | ÿ)Pr(= )0 0 ÿ =
como se ve en la Figura 1. La figura muestra que los resultados (3)
D
individuales varían mucho en términos del sesgo de publicación
= 0 nulo
. D = Pr( sig. est. ÿ =0 ÿ = +0 )
esperado, independientemente de la probabilidad previa de un ÿefecto Pr( )
De hecho, la Figura 1(d) muestra un sesgo sustancial y | Pr( sig. est. | ÿ )Pr( 0 1ÿ ÿ ÿ = 0 ))
)( Pr(
Machine Translated by Google

Esarey y Wu 5

Figura 1. Histograma de cálculos de sesgo esperado de APSR y AJPS. (a) Previa de espiga y losa, Pr( ÿ ) =10%. (b) Pico y anterior ÿ 0
normal, Pr( ÿ ) = 100%. (d)
ÿ ÿ ) 0=10%
Normal previa, Pr( ÿ ) =100% . Cada histograma
. (c) muestraPr(
Previo uniforme, la proporción
ÿ de 0
artículos
American en una of
Journal muestra
PoliticaldeScience
167 artículos de 0
ÿ American
correspondientes
tamaño a Political
deun
la grado Science
muestrade es
sesgoReview
142 y de
esperado;
después el
que se excluyen 25 resultados estadísticamente insignificantes.

ÿ ÿ ÿÿ
(ÿ ) ÿ , t ÿ
ÿ
Sesgo esperado EE ÿ ÿ
ÿ
ÿ ÿ | señal t ÿ
ÿ
/ÿ
ÿ se calcula utilizando la densidad previa indicada en la subfigura
()- ÿ ÿ pub
ÿ re ,0.05 ÿ ÿ

ÿ ÿ F ÿ ÿÿ
ÿ

ÿ
y el procedimiento descrito en la Tabla 1. El color de la barra indica un valor p de resultado publicado en el rango indicado por la leyenda de la subfigura.

Podemos usar esta fórmula para calcular esta probabilidad para Como muestra la figura, no todos los trabajos publicados tienen
las observaciones en nuestro conjunto de datos; esto es similar a la misma probabilidad esperada de ser un falso positivo. Los
un cálculo que Goodman (2001) y Bayarri et al. (2016) realizado resultados que están cerca del límite de la significación estadística (con
utilizando factores de Bayes y una fórmula estrechamente p ÿ 0.05) tienen la mayor probabilidad esperada de ser un
relacionada ofrecida por Maniadis et al. (2014). Para establecer falso positivo. Los resultados que están más lejos de este
ÿ la probabilidad
un límite inferior parasig.|
Pr(
previa
deÿ) ,0la
establecemos
Pr(
=ecuación
1 =para
0 a maximizar
unPr(
(3).
valor
Pr(
)Luego
= =0fijo
0|sig.stat
el )para
ÿ|stat.sig.
yestablecemos
denominador
calculado
rango de
, stat.
Pr
un límite (por ejemplo, donde pÿ0.01 ) tienen un riesgo
(sig.stat| ÿ = 0) ÿ sustancialmente menor de ser falsos positivos. Este hallazgo
ÿ ) es consistente con el trabajo anterior de Open Science
ÿ Collaboration (2015: aac4716-5), cuyas replicaciones de
[0,0.05]. Los resultados para cuatro valores diferentes de Pr( ÿ =) se0 hallazgos notables en psicología descubrieron que “una
muestran en la Figura 2; el histograma de esta figura indica la correlación negativa del éxito de la replicación con el valor p
distribución de los valores p (es decir, el valor de Pr( ) stat. sig.| = del estudio original indica que la fuerza inicial de la evidencia
0 ) en nuestro ÿconjunto de datos. predice la reproducibilidad”. Camarer et al. (2016: 1435) encuentran la mis
Machine Translated by Google

6 Investigación y Política

Figura 2. Cálculos de probabilidad de falsos positivos de límite inferior esperados. La figura muestra la relación entre la probabilidad
que la hipótesis nula es verdadera dado un resultado estadísticamente significativo ( )Pr( ) en
nulo|st.
función
sig.de la probabilidad de obtener un resultado estadísticamente

significativo cuando la hipótesis nula es verdadera ( ) Pr( ) que


calle.
está
sig.|null
implícito en la ecuación (3). Para establecer un límite inferior
para Pr( ) establecemos Pr( ÿ 0 =1 en laLeyenda
ecuaciónde(3).
resultados lapublicados
figura
Establecemos ÿ Pr( ) nulo
El histograma )muestra
en varios
y estadísticamente la proporción
valores alternativos,
significativos de
en valores
nuestro pconjunto
nulo|st.
en intervalos
sig. , stat.
de 0,005
de datos. sig.| como
de ancho
se indica
para en
142el

entre los valores de p y la replicabilidad. El hallazgo es solo el 49 % de los intentos de replicación pudieron replicar
consistente con los cálculos de Goodman (2001) y Bayarri et por completo los hallazgos originales de un estudio. En
al. (2016), quien muestra que valores de p más bajos se economía, Camerer et al. (2016) pudieron replicar con éxito
asocian con mayores reducciones en la probabilidad posterior solo 11 de los 18 estudios que examinaron, una tasa de éxito
de la hipótesis nula (en relación con su probabilidad previa). del 61 %. Incluso en medicina, un estudio reciente de Prinz et
La figura 2 indica que nuestra preocupación sobre la probabilidad al. (2011) encontraron que su laboratorio solo pudo replicar
de un falso positivo debe estar relacionada geométricamente con completamente entre el 20% y el 25% del trabajo publicado examinado.
ÿ resultado.
nuestra creencia previa acerca derelacionada
Pr( ) Cuando
= 0 y casi
conPr(
el
linealmente
)valor
= 0 ÿ0.5,
p de la
un
probabilidad de un falso positivo ÿnunca
= 0 =cálculo.
supera
0,75, calculamos
elSin
5% embargo,
en nuestro
quesiÿ10,6
Pr( )
Conclusiones y consecuencias
% de los resultados publicados en nuestros datos tienen Pr( ) = 0 |
stat. sig.ÿ ÿ10%. El problema del sesgo de publicación ha sido estudiado durante
ÿ años y permea todas las disciplinas científicas que utilizan
Cuando Pr( ÿ = 0 = 0,9
) ÿ25.4% de los, resultados publicados en nuestro evidencia estadística (Rosenthal, 1979; Sterling et al., 1995). El
conjunto de datos tienenÿPr(Pr() =) =0 0|stat.
|stat.sig.
sig.
deÿestos
ÿ10%
10% resultados
. si
MásPr(del
) 40%
tienen interés en el problema se ha reavivado por el esfuerzo de
ÿ replicar los resultados en múltiples disciplinas que han tenido
ÿ = 0 = 0,95. Nuestro hallazgo puede explicar por qué tantos una tasa de fracaso sorprendentemente alta (Boekel et al.,
resultados no se replican. Por ejemplo, Open Science 2015; Camerer et al., 2016; Hartshorne y Schachner, 2012;
Collaboration pudo replicar con éxito solo 39 de 100 relaciones Ioannidis et al. , 2014; Klein et al., 2014; Maniadis et al., 2014;
de la literatura de psicología que probó en su estudio (Open Open Science Collaboration, 2015). Trabajos anteriores han
Science Collaboration, 2015: aac 4716-5). Una encuesta de establecido que los resultados estadísticamente significativos
investigadores en psicología y campos afines realizada por son favorecidos en ciencia política (p. ej., Gerber y Malhotra,
Hartshorne y Schachner (2012: 3) encontró que 2008a), pero ¿en qué medida distorsiona el conocimiento sustantivo en la ciencia
Machine Translated by Google

Esarey y Wu 7

¿disciplina? ¿Están nuestros hallazgos contaminados por resultados significativo, porque los resultados marginalmente significativos
sesgados hacia arriba en magnitud? ¿Los resultados de falsos tienen un mayor riesgo de ser falsos positivos. En consecuencia,
positivos se publican con demasiada frecuencia en esa literatura? puede ser prudente dar menos importancia a la novedad y
Las respuestas dependen de la distribución previa desconocida de originalidad de la producción de un académico al evaluar su
las verdaderas relaciones. Pero encontramos evidencia de ambos contribución a la disciplina—¡reconociendo, por supuesto, que
problemas en la literatura de ciencia política publicada, y los estas siguen siendo cualidades importantes y valiosas!—y más
problemas son lo suficientemente grandes como para ser importancia al trabajo que comprueba la solidez de los hallazgos
cualitativamente significativos bajo una amplia variedad de existentes, incluidos los estudios de replicación. También
distribuciones previas diferentes. Si estos problemas existen, debemos tener cuidado de permitir que el descubrimiento inicial
ocurren porque se favorecen los resultados estadísticamente de un nuevo fenómeno dé forma a nuestra agenda de
significativos en el proceso de publicación: los valores más pequeños investigación antes de que el fenómeno se replique
en la distribución de muestreo de una estimación se ignoran de completamente. En el caso de que el descubrimiento sea un
manera desproporcionada y es probable que se publiquen relaciones falso positivo, los investigadores que busquen aplicar los
nulas (Brodeur et al., 2016; Coursol y Wagner, 1986). ; Gerber et hallazgos a otras áreas necesariamente construirán su trabajo
al., 2001; Gerber y Malhotra, 2008a,b; Sterling et al., 1995). ÿ
sobre un hallazgo nulo, lo que aumentará la probabilidadgeneral
previa
Creemos que nuestro artículo complementa los hallazgos de los de hipótesis nulas (es decir, Pr( = 0)) en la población y empeora
proyectos de replicación a gran escala colocándolos en un contexto aún más el problema general del sesgo de publicación. Creemos
teórico más claro: bajo suposiciones razonablesÿ para, previa
la distribución
de los que estos cambios constituyen una revisión sustancial del
efectos f ( ) , los resultados de estos estudios son los que deberíamos status quo, pero que es importante para salvaguardar la
esperar dada (a) la existencia de un proceso de publicación que confiabilidad de los hallazgos que nos comunicamos entre
favorece resultados estadísticamente significativos y (b) la nosotros, a nuestros estudiantes y al resto del mundo.
distribución de los resultados publicados en la literatura. En resumen,
nuestros hallazgos sugieren que el sesgo de publicación es una Agradecimientos
explicación razonable de al menos parte de la “crisis de replicación”.
Agradecemos a Ashley Leeds, Will H. Moore, Cliff Morgan, Ric
Según nuestra evidencia, los resultados con valores de p más
Stoll, a nuestros revisores anónimos y a los participantes de
pequeños se ven menos afectados por el sesgo de publicación nuestras sesiones en la Reunión Anual de 2013 de la Asociación
porque están más alejados del umbral ÿ = 0,05. Estos resultados
Estadounidense de Ciencias Políticas y la Reunión Anual de
también tienen un menor riesgo de ser un falso positivo (Bayarri et 2013 de la Sociedad de Metodología Política por sus útiles
al., 2016; Goodman, 2001). Sin embargo, usar un umbral reducido comentarios y sugerencias.
para la significancia estadística (es decir, publicar solo los resultados
que pueden pasar una prueba de significancia con ÿ inferior a 0,05), Fondos
como sugiere Johnson (2013), simplemente recrea el problema para
los resultados cercanos al nuevo umbral. Considere las simulaciones de Esta investigación no recibió una subvención específica de ninguna agencia de
la Tabla 1
financiación en los sectores público, comercial o sin fines de lucro.
ÿ %
para el previo de punta y losa cuando Pr( ) = 0 = 90 el uso
: de un umbral de
significación de ÿ = 0,01 da como resultado que el 66,9 % de las estimaciones
Material suplementario
excedan el 10 % de magnitud en el sesgo (en comparación con el 87,3 %
de las estimaciones que utilizan el valor de ÿ = 0,01). umbral de 0,05). Los archivos de replicación están disponibles en: https://dataverse.harvard.
edu/dataverse/researchandpolitics. Los archivos complementarios
)
ÿ Pr( = 0 = 0% bajo el mismo anterior, usando una significación
Cuando
El umbral de ÿ = 0,01 da como resultado que el 20,4 % de las estimaciones están disponibles en: http://rap.sagepub.com/content/3/3

excedan el 10 % de la magnitud del sesgo (en comparación con el 14,1 % de


las estimaciones que utilizan el umbral de ÿ = 0,05).
notas
La “revolución de la credibilidad” empírica en la economía y las 1. El término 'p-hacking' está tomado de Simonsohn et al.
ciencias políticas nos ha hecho, con razón, hacernos preguntas (2014).
más difíciles sobre la calidad de nuestros diseños de investigación 2. Este fenómeno se denomina a menudo como “el problema del cajón
sobre una base de papel a papel (Angrist y Pischke, 2010). Pero de archivos” (Rosenthal, 1979): todos los resultados nulos que
siempre que se privilegien los resultados estadísticamente podrían contextualizar nuevos hallazgos permanecen inéditos (en
significativos en el proceso de publicación, incluso los investigadores los cajones de archivos de los científicos). Un estudio reciente de
Franco et al. (2014) destaca la agudeza de este problema en las
que hacen todo bien desde una perspectiva de identificación causal
ciencias sociales.
podrían producir una literatura con resultados (en promedio)
3. Wasserstein toma prestada la frase de Peng (2015) aquí.
sesgados hacia arriba y superpoblados con falsos positivos. Así
Gilbert et al. (2016) en respuesta específica a la replicación a
como la revolución de la credibilidad nos ha vuelto más escépticos
gran escala de resultados en psicología emprendida por
de algunos diseños de investigación, creemos que nuestros Open Science
hallazgos (y el universo más amplio de hallazgos relacionados con
la replicabilidad) exigen un mayor escepticismo de los resultados
novedosos. Esto es particularmente cierto si el resultado es solo marginalmente estadísticamente
Machine Translated by Google

8 Investigación y Política

Colaboración (2015). Esta explicación alternativa ha sido criticada por los en la disciplina en lugar de para todos los resultados publicados.
autores del estudio OSC (Anderson et al., 2016; Lakens, 2016), así como por Teóricamente, esperaríamos una agrupación dentro del artículo del sesgo de
Srivastava (2016). publicación para múltiples resultados presentados en el mismo artículo por
ÿ ÿ una variedad de razones: los resultados provienen del mismo conjunto de
5. Tenga en cuenta que E ÿ ÿ | ÿ
, tÿ tÿ ÿ
ÿ

ÿ es diferente a datos o modelo, están escritos por los mismos autores usando las mismas
ÿ ÿ
ÿ
d ,0,05 ÿ

ÿ f ÿ prácticas de investigación y pronto. Presentar un hallazgo por artículo nos


ÿ

ÿÿ ÿ

ÿ ÿ permite despreciar esta complicación.


ÿ
ÿ ÿ | ,en uno
mi ; ÿsesgo ÿ ÿ no necesariamente tt
ÿ

ÿ ÿ

ÿ 14. Curiosamente, Klein et al. (2014) el estudio de replicación de 16 relaciones en


ÿ
ÿ ÿ d ,0.05
ÿ ÿ F ÿ
ÿ

ÿ ÿ ÿ psicología encuentra un número igual de estudios cuya mediana del tamaño


ÿ
implica sesgo en el otro. Estudiamos E ÿ ÿ ÿ| , t ÿt ÿ
ÿ

ÿ ÿ

ÿ ÿ del efecto de replicación es mayor y menor que la estimación original (ver


d ,0.05 ÿ ÿ

ÿ ÿÿ F ÿ ÿ Tabla 2); esto puede deberse a que los autores eligieron deliberadamente
porque nuestra comprensión del significado de “sesgo de publicación” es una algunos hallazgos que se sabe que son sólidamente replicables además de
divergencia persistente entre la media de las estimaciones publicadas ÿ hallazgos más nuevos con replicabilidad desconocida.
(estadísticamente significativas) y el valor real
ÿ verdadero
de ÿ. Por lo
valor
tanto,
de fijamos
ÿy el
examinamos la distribución de las estimaciones asociadas. Exploramos este
ÿ

tema más a fondo enÿel Apéndice.


ÿ ÿ Subvención de la Corporación Carnegie de Nueva York
1, incluida la estimación ÿ
ÿ

mi ÿ

ÿ ÿ| , _ÿ
ÿ
ÿ
por
pub pub ÿ ÿ Se eliminó el cargo por procesamiento de artículos de acceso abierto (APC) para
ÿ ÿ ÿ d ,0.05
ÿ ÿ F ÿ
ÿ

ÿ
hallazgos publicados ÿ este artículo debido a una subvención otorgada a Research & Politics de Carnegie
ÿ pub .
Corporation de Nueva York en el marco de su iniciativa "Bridging the Gap". Las
6. Establecemos sign(ÿ= 0= 1 . )
7. Por ejemplo, si cambiamos la losa uniforme para que oscile entre declaraciones hechas y las opiniones expresadas son responsabilidad exclusiva de

ÿÿ 10
ÿ ÿ

ÿ los autores.
ÿ ÿ con un Pr( 0 ÿ ) total del
ÿ 10%,
ÿÿ
ÿÿ bares ,10 pub

estiman un sesgo medio del 24,4% en nuestra muestra de resultados Referencias


publicados. También estimamos que el 50,7 % de los resultados publicados
Anderson CJ, Bahnik S, Barnett-Cowan M, et al. (2016) Respuesta al “Comentario
en nuestro conjunto de datos tienen una probabilidad de falso positivo
sobre la estimación de la reproducibilidad de la ciencia psicológica”. Ciencia
superior al 10 %. Estas magnitudes son más bajas, pero en general comparables a las que
351 (6277): 1037–1037.
muestran en la Tabla 1 bajo el supuesto de que la losa en f ( ) ÿ Angrist JD y Pischke JS (2010) La revolución de la credibilidad en la economía
ÿ ÿ

ÿÿ ÿ empírica: cómo un mejor diseño de investigación está eliminando las


oscila entre 3 ÿÿ ÿ ,3 ÿ
pub pub _ Cuando el anterior normal es
desventajas de la econometría. La Revista de Perspectivas Económicas
ajustado a una desviación estándar de 10 ÿ ÿ 0 ÿ ) = 10%,
ÿÿ ÿpub y Pr( 24(2): 3–30.
estimamos un sesgo medio del 24,2% y que el 50,7% de los resultados Bayarri M, Benjamin DJ, Berger JO, et al. (2016) Probabilidades de rechazo y
tienen una probabilidad de falso positivo superior al 10%. razones de rechazo: una propuesta para la práctica estadística en la prueba
8. Los grados de libertad se fijan en nk ÿ , donde k es el número de de hipótesis. Revista de Psicología Matemática
coeficientes estimados, siempre que sea posible. Si k no se informó en el Begley C y Ellis LM (2012) Elevar estándares para latas preclínicas
estudio, establecemos los grados de libertad en n ÿ 2, el valor plausible más cer investigación. Naturaleza 483: 531–533.
pequeño (un coeficiente de pendiente más el intercepto). Boekel W, Wagenmakers EJ, Belay L, et al. (2015) Un estudio de replicación
9. Recolectamos información de artículos de la AJPS por períodos más cortos puramente confirmatorio de las correlaciones estructurales del comportamiento
período de tiempo que el de la APSR porque, en promedio, hay más artículos del cerebro. Corteza 66: 115–133.

cuantitativos publicados en un solo número de la AJPS que en el de la APSR. Brodeur A, Le M, Sangnier M, et al. golpear de vuelta. Diario económico
Queremos equilibrar la estadounidense: Economía aplicada 8 (1): 1–32.
número de artículos recopilados de ambas revistas, al mismo tiempo que Camerer CF, Dreber A, Forsell E, et al. (2016) Evaluación de la replicabilidad de
recopila información de artículos publicados recientemente. Centrarse en los experimentos de laboratorio en economía. Ciencia
artículos publicados en el APSR de 2008 a 2013 también nos permite 351 (6280): 1433–1436.
contribuir a la literatura al introducir un nuevo conjunto de datos, dado que el Coursol A y Wagner EE (1986) Efecto de los hallazgos positivos en las tasas de
período de tiempo del conjunto de datos de Gerber y Malhotra (2008a) es de presentación y aceptación: una nota sobre el sesgo del metanálisis. Psicología
1995 a 2007. profesional: investigación y práctica 17: 136–137.
10. Un total de 138 artículos en nuestro conjunto de datos tienen variables
dependientes discretas y tres artículos tienen variables continuas pero acotadas. Franco A, Malhotra N y Simonovits G (2014) Sesgo de publicación en las ciencias

variables dependientes. sociales: Desbloqueo del cajón del archivo. Ciencia


11. Un total de 33 estudios (de 314) en nuestro conjunto de datos especifican una 345 (6203): 1502–1505.
prueba de una cola. Esta información está disponible en las “colas” Gelman A (2011) La llamada prueba de hipótesis bayesiana es tan mala como la
variable en nuestro conjunto de datos de replicación. prueba de hipótesis normal. Disponible en: http://
12. El juego completo de hojas de codificación que usamos para todos los artículos andrewgelman.com/2011/04/02/so-called_bayes/ (consultado el 30 de agosto
que examinamos está disponible en el Apéndice 2. de 2016).
13. Elegimos centrarnos en un hallazgo principal por artículo para que nuestros Gerber A y Malhotra N (2008a) ¿Afectan las normas de información estadística lo
resultados ponderaran por igual la contribución de cada artículo al sesgo de que se publica? Sesgo de publicación en dos importantes revistas de ciencia
publicación en la literatura. Por lo tanto, para ser precisos, estimamos el política. Revista trimestral de ciencia política 3 (3): 313–326.
sesgo de publicación de los hallazgos primarios de los artículos
Machine Translated by Google

Esarey y Wu 9

Gerber AS y Malhotra N (2008b) Métodos sociológicos y sesgo de publicación en Maniadis Z, Tufano F y List JA (2014) Una golondrina no hace verano: nueva
la investigación sociológica empírica: ¿los niveles de significación arbitrarios evidencia sobre los efectos de anclaje.
distorsionan los resultados publicados? Métodos e investigación sociológicos Revisión económica estadounidense 104 (1): 277–290.
37 (3): 3–30. Nuzzo R (2014) Errores estadísticos. Naturaleza 506: 150–152.
Gerber AS, Green DP y Nickerson D (2001) Pruebas de sesgo de publicación en Open Science Collaboration (2015) Estimación de la reproducibilidad de la ciencia
ciencias políticas. Análisis político: 385–392. psicológica. Ciencia 349 (6251): 943.
Peng R (2015) La crisis de reproducibilidad en la ciencia: un contraataque
Gilbert DT, Gary K, Pettigrew S, et al. (2016) Comentario sobre 'Estimación de la estadístico. Importancia 12(3): 30–32.
reproducibilidad de la ciencia psicológica'. Prinz F, Schlange T y Khusru A (2011) Créalo o no: ¿Cuánto podemos confiar en
Ciencia 351 (6277): 1037. los datos publicados sobre posibles objetivos de drogas? Nature Reviews
Goodman SN (2001) De p-valores y Bayes: Una propuesta modesta. Drug Discovery 10: 712.
Epidemiología 12(3): 295–297. Rosenthal R (1979) El problema del archivador y la tolerancia a los resultados nulos.
Hartshorne JK y Schachner A (2012) Seguimiento de la replicabilidad como método Boletín Psicológico 86: 638–641.
de evaluación abierta posterior a la publicación. Fronteras en neurociencia Scargle JD (2000) Sesgo de publicación: el problema del "cajón de archivos" en la
computacional 6 (8): 1–14. inferencia científica. Revista de exploración científica 14: 91–106.
Ioannidis JP, Munafo MR, Fusar-Poli P, et al. (2014) Publicación y otros sesgos de Siegfried T (2010) Lo más probable es que esté mal. Noticias científicas 177 (7): 26.
informes en ciencias cognitivas: detección, prevalencia y prevención. Simonsohn U, Nelson LD y Simmons JP (2014) Curva P: Una llave para el cajón del
Tendencias en Ciencias Cognitivas archivo. Revista de Psicología Experimental: General 143 (2): 534–547.
18(5): 235–241.
Ioannidis JPA (2005) Por qué la mayoría de los hallazgos de investigación publicados son Srivastava S (2016) Evaluación de una nueva crítica del proyecto de reproducibilidad.
falso. Medicina PLoS 2: 696–701. Disponible en: https://hardsci.wordpress.
Ioannidis JPA (2008) Por qué la mayoría de las asociaciones verdaderas com/2016/03/03/evaluating-a-new-critique-of-the-repro ducibility-project/
descubiertas están infladas. Epidemiología 19: 640–648. (consultado el 30 de agosto de 2016).
Johnson VE (2013) Estándares revisados para evidencia estadística. Sterling T, Rosenbaum WL y Winkam JJ (1995) Decisiones de publicación revisadas:
Actas de la Academia Nacional de Ciencias 110 (48): 19313–19317. El efecto del resultado de la estadística

pruebas sobre la decisión de publicar y viceversa. El estadístico


Klein RA, Ratliff KA, Vianello M, et al. (2014) Investigando la variación en la estadounidense 49: 108–112.

replicabilidad. Psicología Social 45(3): 142–152. Steward O, Popovich PG, Dietrich W, et al. (2012) Replicación y reproducibilidad en
la investigación de lesiones de la médula espinal. Neurología Experimental
Lakens D (2016) Las conclusiones estadísticas de Gilbert (2016) son completamente 233: 597–605.
inválidas. Disponible en: http://daniellakens.blogs pot.com/2016/03/the- Wasserstein RL y Lazar NA (2016) La declaración de la ASA sobre valores p:
statistical-conclusions-in-gilbert.html (consultado el 30 de agosto de 2016). contexto, proceso y propósito. El Estadístico Americano.

También podría gustarte